유전자정보분석

ENCODE 프로젝트 - 클라우드 기반 게놈 분석 서비스 이용

hongiiv 2012. 9. 18. 01:40
반응형
요즘 ENCODE 프로젝트가 publish 되면서 이것과 관련한 여러 이슈들이 나오고 있습니다. 기본적으로 이따우 프로젝트를 할 필요가 있는지의 논쟁부터 시작해서 데이터가 갖는 의미를 비롯해서 데이터를 분석하는 툴들을 모아 이미지 형태로 제공하여 손쉽게 누구나 분석을 재현할 수 있도록 하는 등등 상당히 핫한 내용들이죠.

하지만, 오늘 말씀드릴 내용은 바로 분석에 DNAnexus라는 상용의 서비스를 사용했다는 것입니다. 스탠포드 대학에서는 ENCDOE 데이터중에서 ChIP-seq 데이터를 분석하는데 참여했드랬죠. Arned Sidown와 Serafim Batzoglou의 포닥으로 계신 Anshul Kundaje (현재 MIT의  research scientist로 옮김) 가 119명의 다양한 셀라인의 ChIP-seq 데이터로 TF를 찾는 작업을 수행하는데에 데이터셋을 다루는것이 커다란 도전이었고 스탠포드 그룹은 DNAnexus 서비스를 사용하기로 결정합니다.

그들은 sequence file을 클라우드 기반의 DNAnuxs에 업로드하고 DNAnexus에서 제공하는 mapping tool을 사용하여 간단하게 이 문제를 해결합니다. 이렇게 hg19에 매핑된 데이터는 스탠포드에서 만든 Clustered AGgregation Tool (CAGT)를 이용해서 ChIP-seq 데이터를 분석해서 바로 요 논문을 ENCDOE 프로젝트 논문들 중 하나로 발표하게 됩니다. 

특히나 mapping 된 데이터를 바로 클라우드상에서 genome browser를 통해서 확인하고 이러한 기본적인 mapping이나 visualization과 같은 일들을 DNAneuxs에서 처리함으로서 그들은 좀 더 흥미로운 부분의 연구에 집중할 수 있게 되었다고 합니다.

결론은 mapping이나 mapping 데이터의 확인 (visualization)에 힘빼지 말자는 겁니다. 괜히 컴퓨팅도 많이 소요되고 데이터 관리나 visualization에 신경써야 하는 무의미한? 부분은 과감히 이런거 잘하는 놈들한테 맏기고 그 이후의 좀 더 익사이팅하고 흥미로운 연구에 매진하라는 거죠. 힘빼지마 어디에... 자잘한거에... 집중해... 더 큰것에...

DNAnexus에서 제공하는 20명의 ENCODE 프로젝트의 ChIP-seq 데이터

 
논문에 따르면 SOLiD 데이터를 DNAneuxs의 probabilistic mapper를 사용하여 mapping을 수행했다고 서술~~
반응형