바이오인포매틱스

Somatic mutation calling in Low-allelic-fraction

hongiiv 2014. 9. 4. 18:27
반응형
뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. 

Somatic mutation detection

뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는  cancer genomics의 somatic mutation의 SNV에 한정한다.

수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 맘대로 selection한다. 뽑힌 툴들은 앞으로 나오기 바란다. Broad의 Mutect (Nature Biotechnology 출신), 워싱턴 대학의 VarScan2(Renome Research 출신), 연세대의 Virmid (Genome Biology 출신), 일루미나의 Strelka (Bioinformatics 출신) 4명 앞으로 나와! 

Low-allelic-fraction에 강한 엄친아 Mutect

베이지안 기반의 low-allelic-fraction (낮은 빈도의 체세포 변이를 발견)에서 강력한 힘을 보여주며, Broad 출신답게 java와 베이지안을 위해 dbSNP나 cosmic 파일을 입력으로 받는다. 오죽하면 논문 제목도 "Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples" 이다. 

그럼 진짜 sensitive한지 중립적인 상황에서 Mutect를 평가한 논문을 보도록하자. BMC Genomics에서 나온 "Comparison of somatic mutation calling methods in amplicon and whole exome sequence data" 를 보면 NIST-GIAB의 NA12878 데이터에 1,000 Genomes Project의 NA19129 샘플을 섞어 0%, 8%, 16%, 36%, 100%의 암샘플과 같은 역활을 하도록 데이터를 각각 만들어 평가를 진행했다. 아래 그림과 같이 C04 (8%) 즉, low-allelic-fraction에서  좋은 sensitivity를 보인다. (물론 Strelka가 amplicon의 경우 높지만)  - 원래 위의 논문은 추후 clinical에서의 응용을 고려해서 Amplicon과  Exome에 대해서 각각의 툴들이 어떠한지를 보여주려는 논문인데.. 암튼..


MuTect는 specificity에서도 가장 낮은 FPR(False Positive Rate)를 보인다. 


깔끔하게 jar 파일 하나로 실행이 가능하다는 장점과 친절하게도 상용 목적을 위해 별도의 라이센스와 지원까지 갖춘 놈이다. 역시 엄친아다. 별도의 매니저도 있고... 아래 그림처럼 결과  VCF 파일도 Normal, Tumor 두개의 정보가 보여지며 실행시 각각의 이름도 지정해 줄 수 있어 visualization할때 편리하다. 다만 thread 지원이 안된다는 것과 베이지안 계산 등등으로 Exome 1 pair의 경우 약 10시간정도의 running time을 가진다.


분석 속도 개선 여지는 있지만 MuTect과 견줄만한 Virmid

앞서 언급한 평가 논문에는 등장하지 않지만 Virmid 또한 Java로 구현된 caller로 아래와 같이 80%의 Concordnat Rate를 보이며 MuTect과 비슷한 성능을 보인다. 물론 분석 속도와 결과 VCF에 대한 약간의 개선이 필요하다. 아래 데이터는 위암 엑솜 샘플을 각각 MuTect와 Virmid를 이용하여 기본 옵션으로 분석한 결과이다.

MuTect과 Virmid

암샘플 분석에 있어서 Ti/Tv ratio가 큰 의미는 없겠지만, MuTect과 Virmid 각각 1.93과 1.95를 보이며, Known Site의 Novel site의 경우 1.84와 1.83의 비슷한 ratio를 보인다. 뭐 지금 상황에서 두개의 툴을 비교하기에는 어려움이 따르기 -.-;; 때문에 서로간의 비교는 그냥 calling된 숫자에 기반한다. 아울러 Virmid의 논문을 봐도 두개의 툴이 서로 비슷한 성능을 나타내는 것을 확인할 수 있다. 따라서 이번에 사용한 암샘플(위암) 분석이 비교적 잘?되었다고 하자.



위 그림은 Virmid 논문에 나온 그림으로 Virmid와 MuTect를 보면 Sensitivity나 call된 개수 및 false call이 비슷한 경향을 보이는 것을 확인할 수 있다. 시간만 된다면 각각의 툴들만이 call한 variants에 대해서 어떠한 특성을 가지는지 확인하고 싶지만, 필자는 더이상의 노력을 할 수 없음을 널리 이해해주기 바란다.

Strelka 일루미나에서 제대로 만든 S/W

타 툴들에 비해서 엄청나게 빠른 속도(multi-thread지원)를 자랑한다. 앞선 S/W들과는 달리 Java가 아니다. 논문은 "Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs"로 앞선 논문들이 언급한것과 같이 MuTect와 비슷한 성능을 보여주며, Virmid와 MuTect와 concordance를 비교한 Venn Diagram은 각각 다음과 같다. 아무래도 MuTect가 가장 많은 SNV를 찾았고 Virmid와 Strelka와 겹치는 부분이 상당하다. 

Virmid와 Strelka

MuTect와 Strelka

3개의 툴 비교

맺음말

지금까지 살펴본 결과를 보면 "Detecting somatic point mutations in cancer genome sequencing data: a comparison of mutation callers"를 보더라도 MuTect의 경우 low allelic-fraction에 강하며, VarScan2의 경우 high-quality sSNVs에 강한면을 보이고 있다.


아울러, 논문들을 리뷰한 결과 Strelka 역시 low-allelic-fraction에 강한 성능을 보이는 Strelka를 포함하여 Virmid, MuTect, Strelka 3개의 툴의 교집합과 각각의 툴들만 고유하게 calling한 variants에 대해서 features를 선별하여 훈련시킨다면 아마 가장 강력한 low-allelic-fraction에서의 Somatic Mutation 툴이 되지 않을까 한다.


어째 글이 쓰다만거 같지요. 끝

반응형