빅데이터분석

나누면 2배 이상 - 클라우드를 이용한 데이터 분석

hongiiv 2013. 10. 29. 01:47
반응형
기쁨은 나누면 배가 된다는 옛말이 있습니다. Bioinformatics 분야에도 이말이 적용되는데요. 바로 그 나눔의 핵심에는 클라우드 컴퓨팅이 있습니다. 무슨 말이냐구요.

DNANexus와 Baylor의 클라우드 기반 분석 
DNANexus라는 클라우드 기반의 NGS 분석 업체와 Baylor 의대 (BCM)의 이야기입니다. 바로 ASHG에서  DNANexus와 BCM의  Human Genome Seuqencing Center (HGSC)는 14,000명의 WGS와 WES를 통해 심장질환과 노화에 대한 유전적 영향을 연구를 위한 클라우드 기반의 협력 분석 시스템 프로젝트를 공유했습니다.

텍사즈주 휴스턴의 BCM

Cohorts for Heart and Aging Research in Genomic Epidemilogy (CHARGE) 컨소시엄 중 하나인 BCM은 프로젝트에 참여하는 300여명의 연구자들이 440 TB에 달하는 결과데이터와 파이프라인을 클라우드를 이용하여 공유하는데 DNANexus와 Amazon을 사용한 것입니다.

언젠가 논문에 나오는 상당수의 Bioinformatics software와 database가 제대로 유지되지 않고 사라져간다는 이야기를 들은적 있습니다. 한번 생각해 보면 대학원시절 만든 소프트웨어가 그 당시 연구를 위해 사용되고 이제는 더 이상 소스코드조차 찾을 수 없는 상황인것을 경험한 적이 있을 겁니다.

Mercury & CSSANDRA NGS Pipeline
BCM은 Mercury라는 오픈소스 소프트웨어 툴들인 BWA, GATK, SAMTools, Picard등으로 구성된 파이프라인과 Casandra라는 annotation시스템을 구축하고 이를 DNANexus와 함께 클라우드에 통합하는 작업을 수행합니다. 그결과 CHARGE 컨소시엄에 참여하는 연구자들은 신속하게 클라우드 상에서 10,000 이상의 엑솜과 3,700개 이상의 WGS를 분석에 사용했고, 분석을 위해  시간으로 따지면 총 2.4 million의 코어를 사용하고, 분석 기간중 최대 사용량은 자그마치 20,000이상의 코어를 사용했다고 합니다. 물론 그 결과를 즉시  연구자들과 공유하는 것은  기본이구요.

DNANeuxs에 공개된 HGSC의 Mercury 엑솜 분석 파이프라인
나같은 사람도 어렵지 않게 잘 다듬어진 최신의 파이프라인을 사용가능해지는 시대 

현재 HGSC의 Mercury와 CASSANDRA는 BMC Bioinformatics에 투고 예정이며, 얼마전 NEJM의 "Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders"라는 논문에서 엑솜시퀀싱을 이용한 clinical diagnosis에 사용되기도 했습니다.
 
CSSANDR의 Annotation/filter에 사용되는 데이베이스 목록

Bioinformatics 산학협력 모델
DNANexus는 지속적으로 BCM과 함께 클라우드 상에서 Mercury를 유지하고 발전하는데  서로 협력하고 또한 일반 고객들에게 무료로 Mercury  파이프라인을 제공할 수 있게 된 것이죠. 

BCM이 속한 CHARGE 컨소시엄 연구자들은 방대한 데이터를 분석/공유할 수 있는 지속가능한 클라우드 기반의  인프라를 얻고,
DNANexus는 자사의 고객에게 최신의 NGS 분석 파이프라인을 제공
DNANexus의 고객들은 이런저런 설치나 설정없이 파이프라인을 사용 가능

가끔 연구하시는 분들을 보면  파이프라인의 무슨 자기들만의 노하우나 무슨 보물인듯 생각하시는 분들이 있습니다. 속을 들여다 보면 99%는 여기저기 오픈된 툴들의 조합인데, 어디서 배워왔네. 이건 어쩌구 저쩌구 솔까말 내눈에 걍 암것두 아니거등요. 요즘 오픈소스로 운영되던 툴들이 자꾸 상업화되고 점점 이쪽이 상업화되는 상황에서 베일러의대와 DNANexus의 행보는 진정한 연구와 서로 윈윈하는 산학협력이 뭔지를 보여주는 좋은 예라고 할 수 있겠습니다.


능력있는 연구자들이 기본뼈대를 내놓고 회사는 이를 대량으로 분석할 수 있도록 변형하고 또한 이것이 지속적으로 운영되도록 유지보수하고, 단순히 공적인 자금이 투여되는 것보다는 회사가 끼어들어야 어느정도 더 잘 발전하고 또한 그것이 시대의 흐름이라고 생각되어집니다.

연구자 여러분 GenomeCloud의 문은 활짝 열려 있다는 것!!! ㅋㅋㅋ 기억해 두세요.
반응형