유전자정보분석

Variant Calling 어떤 소프트웨어를 사용해야 할까요?

hongiiv 2013. 10. 25. 14:13
반응형
GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은...  GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment, recalivration, VQSR등을 통해 variant call에 우위를 가지고 있습니다.

각 샘플의 read data (D)로 부터 샘플의 genotype (G)를 어떻게 알아(inference)낼까?  genoetype (G)가 나올 확률을 Bayes' rule을 이용하여 계산합니다. 즉 P(G|D): D라는 read data들을 가지고 있을때 G라는 genotype을 가질 확률, P(D|G): 주어진 genotype에서 read data가 나올수 있는 확률을 이용하는 거죠.SNP detection for massively parallel whole-genome resequencing 을 보시게...


각 툴을 이용 실제 엑솜데이터에 대해서 variants call을 하고 whole-genome은 dwgsim을 이용하여 시뮬레이션 데이터를 만들고, illumina HumanExome v1.1 Beadchip을 이용하여 비교 

결론은 계속 말하지만 GATK!! 이상!!

In summary, GATK makes a powerful tool for NGS analyses and works effectively with both single-sample and multiple- sample calling strategies. Our results show that it has the highest specificity and PPV on the exome sequencing data and the highest sensitivity on the simulated whole genome sequencing data.
반응형