GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은... GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment, recalivration, VQSR등을 통해 variant call에 우위를 가지고 있습니다.
각 샘플의 read data (D)로 부터 샘플의 genotype (G)를 어떻게 알아(inference)낼까? genoetype (G)가 나올 확률을 Bayes' rule을 이용하여 계산합니다. 즉 P(G|D): D라는 read data들을 가지고 있을때 G라는 genotype을 가질 확률, P(D|G): 주어진 genotype에서 read data가 나올수 있는 확률을 이용하는 거죠.SNP detection for massively parallel whole-genome resequencing 을 보시게...
각 툴을 이용 실제 엑솜데이터에 대해서 variants call을 하고 whole-genome은 dwgsim을 이용하여 시뮬레이션 데이터를 만들고, illumina HumanExome v1.1 Beadchip을 이용하여 비교
결론은 계속 말하지만 GATK!! 이상!!
In summary, GATK makes a powerful tool for NGS analyses and works effectively with both single-sample and multiple- sample calling strategies. Our results show that it has the highest specificity and PPV on the exome sequencing data and the highest sensitivity on the simulated whole genome sequencing data.
