티스토리 뷰
NGS 데이터를 가지고 variation을 찾고 annotation하는데 정답이 있을까요? 뭐 굳이 찾는다면 Broad에서 1000 Genomes Project를 하면서 우리 이렇게 했어!!라고 내놓은것쯤 되려나요? 암튼 또하나의 NGS 데이터를 분석하는 파이프라인, 딱풀이 나왔습니다. 왠 딱풀이냐 @.@ 걍 전 딱풀이라고 부르겠습니다. 근데 이딱풀 그저 그런 딱풀인데, 멋지구리하게 포장해놨습니다. 바로 이런 능력이 필요한데 말이죠. 그럼 딱풀 포장 벗겨보겠습니다.
Detecting and annotating genetic variations using the HugeSeq pipeline.
Source
1] Department of Genetics, Stanford University, Stanford, California, USA. [2] Personalis, Inc., Palo Alto, California, USA.
요즘 SNP를 찾는데에 있어서 선두 주자는 당연히 GATK(엄밀히 말하자면, GATK의 UnifedGeonyper)와 SMAtools(mpileup과 vcfutils.pl의 조합)겠죠. 자 방법은 간단합니다. 똑같이 샘플을 가지고 두개의 툴을 다 돌립니다. 그런 다음 concordant한 놈을 진짜 리얼스틸 아니 SNP이라고 하는 거죠. 어때요 참 쉽죠. 자 논문의 첫번째를 장식한 테이블 1 입니다. 1번 테이블 맥주 추가요! GATK와 SAMtools는 각각 350~360만개의 SNP을 찾았습니다. 두개를 합치면 380만개 정도 되구요. 이중에 일치하는 놈은 정확히 3,399,561개입니다. 바로 요걸 사용하면 된다는 거죠. 아까도 말했지만, 참 쉽네요...
하지만, 여기서 끝난다면 재미없습니다. 그래서 준비했습니다. 아래 그림은 김연아(피겨) 2가 되겠습니다. GATK만 이용해서 얻은 SNP은 Ti/Tv가 2.07, Sensitivity가 98.9% 되겠습니다. 글고 GATK에서만 찾은 SNP은 Ti와 Tv의 레이쇼가 1.02. 마찬가지로 SAMtools로만 얻은 SNP은 Ti/Tv가 2.10, Sensitivity가 98.5% 포인트 되겠습니다. SAMTools에서만 찾은 SNP은 1.56입니다(각각의 툴에서만 뽑힌 SNP들은 현저하게 Ti와 Tv의 비율이 똑 낮아지는걸 볼 수 있습니다). 하지만 지쟈스!!! 이 두 툴에서 얻는 SNP을 걍 merged하면 sensitivity가 99.4%, 교집합인것은 97.9% 각각의 Ti/Tv는 2.03, 2.15가 되겠습니다. 그럼 난, 양도 많고 sensitivity도 높은 걍 두개를 합친(merge)걸 쓰겠소!!!
급 질문? 근데 Sensitivity는 어떻게 구했냐고 물으신다면... 이분들 Illumina의 Human Omni1Quad genotyping arrary를 써서 약 완밀리언 마커의 SNP을 가지고서 친절하게 확인하셨습니다. 그러면 또 질문을 하겠죠. 각 툴을 이용해서 SNP을 콜!하는것까지는 하겠는데 두 결과 막 합치고 하는건 어떻게 해야할까요? 걱정 마십쇼. 간단한 스크립트를 짜서 리눅스를 설치하고.....(돌 날라온다) 그게 아니고 집에서도 손쉽게 vcftools를 이용해서 merge, intersetions의 작업을 간단한 명령으로 하시면 됩니다.
그럼 다음번에 본 논문에서 제시하는 딱풀(파이프라인)에 대해서 살펴보기로 하고 오늘은 이만... 덜익은 삽겹살을 먹어서 배아프네요.... -.-;; 참 본 논문을 친절히도 셔틀해주신 제 빵셔틀 김모군에게 감사의 말씀 전합니다. 돈 있음 빵사머거 두번머거..