2015/04 3

Docker를 이용한 Bioinformatics 플랫폼

한때? 학회세션이나 기타 개인적인 요청 등으로 유전체 데이터에 대해서 빅데이터의 관점에서 어떻게 클라우드를 활용하느냐?에 대한 이야기를 하고 돌아다니기도 했습니다. 뭐 여러 측면에서 클라우드라는 장점이 있을 수 있겠습니다만 여기서는 가상화 또는 컨테이너 기술을 기반으로 어떻게 활용될 수 있을지에 대해서 알아보겠습니다. 도커라는 컨테이너 기술을 이용한 유전체 데이터 분석에 관한 내용입니다. Flow-based programming (FBP) 구글의 Polymer나 React, KLay Layered, NeoFlow의 기술을 이용한 the-graph를 이용하면 어플리케이션에서 프로세스를 블랙박스화하여 아래처럼 일련의 과정을 정의할 수 있습니다. 이미 이분야에서는 이를 파이프라인이라는 이름으로 부르며 데이터 ..

빅데이터분석 2015.04.29

Simple consensus approach improves somatic mutation prediction accuracy

지난 동계유전체학회 워크샵의 암유전체 분석을 위한 Somcatic Mutation Calling에 관한 내용입니다. "A simple consensus approach improves somatic mutation prediction accuray"라는 논문을 바탕으로 SomaticSniper, VarScan2, MuTect을 이용하여 각각 somatic call을 수행한 후 각 툴에 대해서 filter를 적용하고 consensus 데이터셋을 만들어 이를 실제 validation하는 과정에 대한 내용입니다. 물론 데이터는 TCGA Benchmark 데이터셋을 이용했습니다. 마지막, validation 부분을 업데이트할 부분이 좀 있는데 우선 공유합니다. Detecting Somatic Mutation -..

중국의 유전체 데이터 분석을 위한 질주

아시다시피 중국은 BGI를 통해 시퀀싱 부분에서 타의 추종을 불허하고 있다. 더군다나 시퀀싱 장비면에서도 미국의 complete genomics를 인수까지 하게 되었다. 그나마 한편으로 데이터 분석 부분에서는 3년전 DNANexus와 Seven Bridge Genomics와 같은 클라우드 기반의 Easy Genomics 서비스를 내놓았지만 제대로 워킹하는 것을 본적이 없다. 이제 내공이 쌓였을까? 중국 WuXi PharmaTech의 거침없는 Bioinformatics를 향한 걸음 2000년 설립된 중국 우시(Wuxi AppTech)는 직원수 9,000명 매출 1조에 이르는 CRO(Contract Research Organization, 임상시험 대행 기관)로 단순한 CRO라기 보다는 헬스케어 연구 개발 ..

컬럼 2015.04.24