유전자정보분석

GATK 2.0 에서 눈여겨 볼 만한

hongiiv 2012. 8. 2. 16:32
반응형
1000 genomes project에서 큰 활약을 한 GATK가 버전 2.0으로 업데이트 되면서 라이센스에 약간 변경이 생겼다. 2.0 버전은 비상업용 연구에만 사용이 가능하고 소스도 제공되지 않는다. 하지만 MIT 라이센스를 따르는 1.0버전대는 GATK-lite라는 이름으로 배포되고 있다. GATK 2.0 버전은 1.0 즉 lite 버전에는 없는 몇가지 중요한 기능이 추가 되었는데 에러 모델링, 데이터 압축, 유전변이 검출등에서 새롭거나 기능을 향상 시켰다. 

BQSR(Base quality score recalibration) v2
기존의 BQSR의 기능을 향상 시킨것으로 각 레인당 생성된 데이터의 calibration을 수행하여 전체적으로 데이터를 평준화 시키는 것인데, 정확히 v2로 업데이트 되면서 뭐가 나아졌는지는 나도 몰름!

ReduceReads
요건 이전버전에는 없던 기능인데 align된 BAM파일의 압축률을 높인것인데, 기존 파일 보다 20~100배 정도 파일 크기를 획기적으로 줄인것이다. 따라서 다량의 NGS 샘플을 동시에 분석할 수 있게 되었다.

알고리즘은 비교적 간단하며 누구나 한번쯤 생각해 보았을 법한 것인데,  BAM 파일의 영역을 1) consensus region과 2) variable region으로 각각 나누어 관리한다. consensus region은 reference와 같은 영역으로 굳이 ref와 같은데 이영역의 데이터를 모두 각각 가지고 있을 필요성이 없다. variable region은 ref와 다른 부분으로 hetero SNP들이나 indels등이 존재하는 영역이 되겠다.  


위와 같이 모든 영역에 대해서 full 정보를 가진  Original BAM에 비해서 reduced BAM의 경우 variable region의 데이터만 full 정보를 가지면 되고 consensus와 homo variants 영역에 대해서 단지 1개의 정보만을 가지면 된다. BAM 파일을 reducing하는데 평균적으로 single process의 경우 6시간 50way로 parallel로 수행하면 단 4분만에 작업이 완료되며 평균 100배의 파일 사이즈 감소를 보인다고 한다. (Whole Exome Sequencing 데이터 기준)

Reduced BAM 파일을 사용함으로서 시퀀싱 센터간의 데이터 교환이 용이해지고 저장에 드는 비용을 감소할 수 있을 뿐만 아니라 빠른 분석과 함께 기존의 GATK 프로세스를 변경없이 모두 사용 가능하다는 장점과 함께 무엇보다도 100 샘플 이상의 large scale의 데이터 분석을 batch로 수행하는 것이 아니라 한번에 수행하여 좀 더 나은 결과를 얻을 수 있게된다. (이렇게 되면 암샘플 분석에서도 유용할듯 ㅋ)

Unified Genotyper의 강력한 확장
풀링된 샘플에서의 variant calling, 미토콘드리아 DNA (1000 genome project에서 미토콘드리아 분석을 담당했던 진교수님말을 들어보면 미토콘드리아 NGS 데이터 분석하는게 지X 맞다는데... 이제 한숨 돌리실듯 ㅋ) 분석 등을 위해 기능이 확장되었다고 한다.

뭐 라이센스 정책도 바뀌고, 홈페이지도 바뀌고 암튼 재미있네 ㅋㅋㅋ
반응형