바이오인포매틱스

NGS 데이터 평가하기

hongiiv 2020. 12. 4. 22:58
반응형

얼마전 NIST에서는 RM(Reference Material) 8393을 발표했습니다. RA는 말 그대로 표준이 되는 물질이죠. 이 표준물질은 Human DNA인데요. 그냥 DNA가 아니라 Whole-Genome Variant를 평가할 수 있는 표준물질입니다. 즉 이 DNA의 vaiant들을 모두 정리해 놓았다는 것입니다. 따라서 NGS를 이용하는 여러 분야에서 다양하게 사용될 수 있습니다. 그럼 어떻게 사용될 수 있는지 한번 볼까요?

Variants 평가 시나리오

Variants의 평가는 서로 다른 장비간 또는 서로 다른 파이프라인간에 비교하는데 사용되거나 표준물질에서 이미 정의된 variants와 직접 장비/파이프라인 통해 생성된 데이터를 서로 비교할 수 있습니다.



Validate Pipeline

당신의 연구소나 업체에 NGS 장비가 있는 경우 우리 연구소에서 생산하는 NGS 데이터의 품질이 항상 일정하고 또한 좋다는 것을 입증해야 할 때 사용할 수 있습니다. 정기적으로 RM 8393으로 시퀀싱을 수행하여 당신의 연구소/업체의 서비스 품질을 정량적으로 체크 할 수 있게 됩니다. RM 8393는 우리가 흔히 알고 있는 NA12878이라고 불리는 미국 Utah의 European Ancestry의 가계(CEPH 1463)의 여자입니다. 아마 이 샘플은 여러 논문에서 언급되고 있으며, SRA에도 다양한 플랫폼으로 생산된 데이터가 존재합니다.



이미 많은 연구가 되었고 가계 데이터까지 존재하기 때문에 NGS에서 발생하는 에러 등을 확인할 수 있다는 여러 장점으로 인해 NIST에서는 이 샘플을 표준 물질로 선정하게 됩니다. 이 표준물질의 variant들은 현재 버전 2.19까지 나와 있으며 ftp://ftp-trace.ncbi.nih.gov/giab/ftp/release/NA12878_HG001/latest/ 사이트에서 직접 받으실 수 있습니다. Variants 정보를 포함하는 VCF 파일과 highly accurate genotype call 부위에 대한 BED 파일을 각각 제공하고 있습니다.

Variants Evaluation

연구소/업체는 처음 NGS 장비를 셋팅한 후 RM 8393으로 시퀀싱을 수행하고 난 후 위의 VCF 파일과 서로 비교를 통해 평가를 수행합니다. 동일한 샘플로부터 생산된 variants므로 precision이나 sensitivity가 높게 나와야겠죠. 우선 두 데이터(평가의 기준이되는 baseline 또는 benchmark set 데이터와 평가의 대상이 되는 test set)는 모두 동일한 reference location을 사용해야 합니다. 그런데 문제는 단순히 두 variants를 비교하는데에도 여러 문제가 발생한다는 것입니다. repeats, homopolymers, multiple-nucleotide polymorphisms 등등 고려해야 할 것들이 많다는 것이죠. 바로 이부분에서 이러한 문제들을 dynamic-programming 알고리즘을 사용하여 좀 더 객관적인 비교를 수행할 수 있는 툴로 RTG tools가 있습니다. 

Pipeline Benchmark

Benchmark set과 Illumina 장비를 통해 생산된 fastq 파일의 Broad의 Haplotype Caller를 이용한 파이프라인으로 분석한 결과와의 비교입니다. 



이번에는 Haplotype Caller 대신 성격이 유사한 freebayes를 이용한 파이프라인 분석 결과 입니다.



이번에는 아예 BWA 대신 novoalign과 HC를 이용한 결과입니다. novoaligner는 유료입니다. aligner 하나 바꿨을뿐인데, FP와 FN이 적당한게 무엇보다도 TP도 가장 많네요. 



그럼 이번에는 novoalign과 freebayes의 조합을 보겠습니다. 엥?? bwa와 freebayes의 조합과 같은 결과입니다. 



결론적으로 novoalign과 HC의 조합에서 좋은 성능을 보이지만, freebayes는 novoaling이건 bwa건 같은 성능을 보임니다. 즉 novoalign은 HC의 알고리즘 상에서 뭔가 좋은 성능을 보일뿐입니다. novoalign이 좋긴합니다만 freebayes에서는 그 좋은것이 뭔지는 모르겠지만 좋은 장점을 발휘하지 못합니다.


어떤가요? 이렇게 표준물질은 여러 파이프라인의 성능을 비교하는데 사용될 수 있다는 겁니다. 




반응형