유전자정보분석

진정한 경진대회의 의미를 살린다면...

hongiiv 2014. 1. 29. 15:04
반응형
이제 설이다. 새해 복많이 받으세요!!! 몇년전 KOBIC에서 진행한 경진대회가 있었는데,,, 이번에 또 경진대회가 하나 나왔습니다. 아니 나온지 좀 됐습니다. 잠깐 경진대회 이야기나 하고 설맞으로 가려고한다.

KOBIC의 생명정보 분석 경진대회

지난 12월 31일까지 접수가 마감이었는데, 1월 15일까지 기간이 연장되었다. 경진대회의 목적은 "NGS 기반 유전체 연구의 활성화 및 발전을 도모하고자 생명정보 데이터 분석 및 알고리즘 개발 경진대회를 진행한다는 것이다" 그리고 그 결과는 논문은로 3월말까지 제출되어야 한다고 한다.


자 1월15일까지 연구계획서를 제출하고 그걸 3월까지 논문으로 만들어서 제출해라?

뭐 못할건 없지만,, 경진대회라는게 별도의 시간을 내어 참가하는 사람이 대부분일텐데 저 시간이 충분할 수도 있겠지만,, 나 같은 놈은 분석을 하거나 또는 알고리즘을 만들어서 그것을 논문까지 만들 능력 안된다. 차라리 간단한 report나 포스터 형태면 몰라도 논문으로?? 다른 분들은 워낙 실력이 출중해서 당연한 거라 생각하실지 모르겠지만... 일단 이건 pass

NGS 기반 생명정보 연구 인프라가 부족하다고 또다른 하드웨어 인프라는??

그렇다. 부족하기에 이런 경진대회를 통해 많은 연구가 이루어지고 그 결과를 활용한다면 많은 도움이 될 것이라고 생각된다. 자 다른 인프라를 살펴보자. 지나가던 개들도 NGS 데이터라 하면 우선 분석할 하드웨어적 인프라가 뒷받침 되어야한다는 것쯤은 알고 있다. 경진대회의 요지는 기존의 발표된 19명의 한국인 데이터를 사용하라고 한다. 대부분이 서울대(GMI)에서 생산된 데이터로 일부는 SRA에 등록이 되어 있기는 하지만, 분석할 데이터 다운로드 받는 것도 만만치 않은 상황이다. 

바라지도 않지만, 야후 등 많은 업체들은 연구자들에게 무료로 서버를 제공했던 적도 있다. 많은 수의 연구자들은 이러한 데이터를 제대로 돌릴 하드웨어적 여유도 없다. 아니 있더라도 그건 다른 연구에 활용되고 있어 여유 자원을 만들고 경진대회에 참가할 만한 그룹이 과연 몇이나 될것인지 궁금하다. 해외의 어떤 경우는 아마존 쿠폰을 주고 활용토록 하기도 하는데... 이왕 경진대회로 돈 쓰는 김에 한번쯤 더 국내 상황을 둘러보고 경진대회를 진행했으면 어땠을까 하는 생각을 해본다.

뭐 variant만 가지고 하는 거니까 많은 컴퓨팅 자원 필요없어, 바로 다운로드 돼! 이 바보야 라고 말한다면 할말없음~~

나라면,

진정 국내 연구 활성화를 도모하고자 한다면 분석할 데이터와 분석할 컴퓨팅 인프라까지 지원(현금 또는 현물로 ㅋㅋ)되었으면 어떨까 생각해본다. (최우수상 500만원인데 저 19명 분석하느라 만약 클라우드 쓴다면 500만원보다 더 나오게 될 것이므로 하드웨어 자원도 없는 놈이 괜히 클라우드 써가며 했다간 너 최우수상 타도 본전도 못 뽑게 될 수 있다) 무슨 이유인지 몰라도 Genomics & Informatics에 3월까지 투고 완료 하라고 했는데. 물론 왜 그랬는지는 알지만 ^^;; 간단하게 Report 형태라도 결과로 인정한다면 더 좋지 않을까라는 생각을 해본다.

일본의 DDBJ는 SRA데이터를 무료로 바로 import하고 mapping 등 많은 자원이 필요한 분석을 제공한다. 또한 부가적인 분석을 위해 해당 데이터를 바로 Galaxy로 불러 들여 분석할 완벽한 인프라를 갖추고 있다. 그저 부러울 따름이다. 이러한 인프라가 현재 국내 상황에서는 더욱더 필요한 부분 아닐까 생각한다. (참고 DDBJ의 개념찬 NGS...  http://hongiiv.tistory.com/729)

그래서, 준비했습니다.

그럼 연구자들이나 연구 활성화를 위해서 어떠한 것들이 필요하고 그것들을 어떻게 해결할까라고 고민하다가 우선 1차적으로 할 수 있는게 무엇인지 생각해 보았다. 우선적으로 다들 소리 높여 이야기하는 데이터라도 한곳에(꼭 물리적인게 아니라) 모으고 이를 활용토록 한다면 조금이나마 국내 연구에 보탬이 되지 않을까 라고 생각했다.

그래서 public 하게 공개된 또는 semi?? public하게 공개된 한국인 데이터들을 모으고 그걸 연구자들에게 제공하려고 한다. (아마존이 1000 genomes 데이터를 활용토록 제공하는 것처럼) 일차적으로 공식적인 것은 아니지만, GMI 측과 AK로 시작하는 데이터들에 대해서 일단 이야기가 오갔고, 그 외 타 기관들이 가진 public한 데이터들과 접촉을 시도하는 중이다. 이렇게 모아진 데이터를 바로 클라우드 서버를 이용해 분석에 활용 한다거나 하는 방식으로 너도 살고 나도?사는 아마존의 public data set과 같은 에코 시스템을 만들어 보려고 한다.  관심 있으신 분들은 IRB상 문제가 없는 데이터를 가지고 있다면 연락 주길 바란다. 국내 유전체 연구 활성화 차근차근 다양한 시도를 통해 한번 이루어 보자.  

본 글에서 제가 잘못 알고 있는 부분이나  가타 오류는 그냥 마음속으로 삼키고 딴지 걸고 싶으면 전화하삼.ㅋ 더 많은 예를 들어 조목조목 따지고 싶지만 난 그럴만한 글재주도 없고 그러고 싶지도 않아 그냥 생각나는 대로 적었음. 끝.
반응형