티스토리 뷰

반응형

들어가는말, 분석 프로토콜과 파이프라인


유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠.

연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장성)을 생각하게 됩니다. 각가의 의미를 살펴보면,

automation: 프로토콜 즉 일련의 프로그램의 조합을 자동으로 진행하도록 해주는 것
flexibility: 프로그램을 변경하거나 업데이트 하거나 할때 손쉽게 하는 것
extensionality: 1개의 샘플이나 코호트 스케일의 다 샘플까지 모두 분석이 가능하도록 하는 것

따라서, 프로토콜에 이 3가지 요소를 추가한 파이프라인을 필요로 하게 됩니다. 이러한 파이프라인은 지금까지 상업적인 용도외에 머큐리, HugeSeq, Genomon 3가지에 대해서 각각의 장단점 등에 대해서 알아보도록 하겠습니다.

1. 머큐리 (Mercury)

머큐리는 단일샘플(individuals)에서 대규모 코호트 샘플에 분석에 있어서 자동화되고 유연하게 확장 가능한 분석 워크플로우입니다. 베일러 대학의 HGSC (Baylor College of Medicine Human Genome Sequencing Center)에서 사용하는 파이프라인으로 일년내내 테라바이트급의 분석을 처리하고 있습니다. 

일반적인 매핑작업은 bwa와 gatk의 ralignment를 따르지만, variant를 찾고 annotation하는데에 있어서 HGSC에서 직접 만든 Atlas2와 Cassandra를 사용합니다.

직접 사용하고자 하는 연구자들은 다운로드하여 직접 설치하거나, 직접 설치하는데 있어서 충분한 컴퓨팅 파워나 설치에 어려움이 있다면 DNANexus의 플랫폼을 이용할 수도 있습니다. DNANexus는 HGSC와 함께  CHARGE project에서 머큐리를 자신의 플랫폼에서 성공적으로 수행한 풍부한 경험을 가지고 있습니다.

1000 Genomes Project가 2천여명의 whole genome을 분석하는데에 25TB의 결과를 내었다면, CHARGE는 3,751명의 whole genomes과 10,940명의  exomes을 분석하여 430TB의 결과를 내놓았습니다.

홈페이지
https://www.hgsc.bcm.edu/software/mercury

사용언어
루비

워크플로우 관리/병렬화지원
별도의 추가 필요 sge와 같은 grid엔진에 대한 언급이 없이 워크플로우만 밸런스(valence)를 사용합니다.

참고 논문
Launching genomics into the cloud: deployment of Mercury, a next generation sequence analysis pipeline, BMC Bioinforamtics, 2014

장점
해당 파이프라인을 이용한 대규모의 프로젝트가 존재
DNANexus를 이용하여 손쉽게 설치 및 컴퓨팅 리소스에 대한 부담 없이 즉시 사용 가능
일루미나 장비를 사용한다면 LIMS와 연동하여 사용 가능

단점
CNV를 검출하는 부분이 파이프라인에 탑재되어 있지 않음
카산드라(Cassandra)의 annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음 (물론 DNANexus를 이용하는 경우 라이센스 문제 회피가 가능함, 어떻게 처리했는지는 몰름)

라이센스
특별하게 소스나 바이너리 재배포에 대한 라이센스만 명시한다면 문제가 없으며, 상업적인 용도에 대한 구체적인 명시가 없습니다.

총평
써보진 않았지만, 일단 루비로 작성된 것이 걸린다. 난 루비 잘 몰름. 일루미나 장비를 가진 곳에서는 매력적일 듯 합니다만, 병렬화 부분에 대한 좀 더 자세한 내용이 필요합니다만 DNANexus에 의해 관리 되는 점이 큰 장점일 듯 합니다.
전 별 다섯개중 두개 투척합니다. 

2. HugeSeq

스탠포드 대학에서 만든것으로 2012년 Nature Biotechnology에 비교적 일찍 소개된 파이프라인이다. 이쪽 바닥이 그렇듯 Nature에 소개는 됐지만, 별다른 업데이트는 없는 것이 아쉽다. 또한 이를 활용한 논문이나 서비스가 전무하다.

홈페이지
http://hugeseq.hugolam.com

사용언어
Python과 bash script를 사용

워크플로우 관리/병렬화지원
SGE상에서 Simple Job Manager를 사용하며, 염색체별로 분산되어 병렬화를 지원한다.

참고논문
Detecting and annotating genetic variantions using the HugeSeq Pipeline, Nature Biotechnology, 2012 
 
장점
분석시 염색체 단위로 분산 처리를 수행하여 분석 속도가 빠르다
CNV나 large indel 분석을 지원

단점
별다른 업데이트나 지원이 없다.
Annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음

라이센스
특별하게 소스나 바이너리 재배포에 대한 라이센스만 명시한다면 문제가 없으며, 상업적인 용도에 대한 구체적인 명시가 없습니다.

총평 
염색체별로 분산 처리 되어 분석되어 빠른 분석을 지원하는 것과 CNV/SV 분석 툴을 지원한다는 것이 매력이나 Nature에 소개되었다는 것 외에는 업데이트가 전혀 이루어지지 않는다.
전 별 다섯개중 한개 투척합니다.  

3. Genomon 시리즈

동경대학의 Human Genome Center에서 개발한 워크플로우로 HGC의 슈퍼컴퓨터의 환경하에서 수행되도록 구성되어 있으나 일반적인 클러스터 컴퓨팅 환경에서도 사용이 가능하다. 엑솜데이터 분석과 transcriptome 데이터 분석을 지원한다. 일본을 대표하는 연구기관에서 비교적 체계적으로 관리되고 있으며 일본내 연구자들이 많이 사용하는 듯 하며 이를 이용한 많은 논문들이 발표되었다.

홈페이지
http://genomon.hgc.jp/exome/en/index.html
http://genomon.hgc.jp/rna/

사용언어
Python과 bash script를 사용

워크플로우 관리/병렬화지원
SGE를 지원하며 row data 파일을 분할하는 등의 분산처리를 지원한다.

참고논문
없음

장점
분산처리를 지원하며, 결과 해석에 있어서 충분한 문서를 제공한다.
variant calling에 있어서 Fisher's exact test와 Empirical Baysian 방식을 각각 제공하는 한편 CNV 분석까지 지원한다.

단점
연구소의 슈퍼컴퓨터 환경에 맞도록 개발되어 있기 때문에 자신의 환경에 맞도록 소스코드를 변경해야 사용이 가능하다.
Annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음

라이센스
Genomon 라이센스하에서 배포되며 상업적인 용도에 별다른 이슈는 없다.

총평
CNV와 두 가지 calling 방식 지원 분산처리 등 비교적 깔끔하게 구성되어 있으나 일부 일본어만 제공하여 불편하나 구글이 잘 번역해준다. 일본내에서는 거의 표준으로 자리잡은 파이프라인으로 많은 레퍼런스를 보유하고 있다. 
전 별 다섯개중 네개 투척합니다.    
반응형
공지사항
최근에 올라온 글