유전자정보분석

동일 individual의 서로 다른 sample, platform, analysis tool을 사용한 분석

hongiiv 2012. 4. 16. 11:46
반응형

NGS를 수행하는데에 있어서 동일한 사람에 대해서 혈액 vs. 타액, Illumina HiSeq 2000 vs. Complete Genomics, GATK vs. SAMtools 자 이제 각각의 대결?을 한번 훑어 보기로 하자. 물론 정답은 없다. 걍 한번 심심하니까 한번 보는거다.


Performance comparison of whole-genome sequencing platforms.

Lam HY, Clark MJ, Chen R, Chen R, Natsoulis G, O'Huallachain M, Dewey FE, Habegger L, Ashley EA, Gerstein MB, Butte AJ, Ji HP, Snyder M.

Nat Biotechnol. 2011 Dec 18;30(1):78-82. doi: 10.1038/nbt.2065.

PMID:
 
22178993
 
[PubMed - in process]


Round 1. 혈액 vs. 타액

피맛을 본 DNA는 침맛을 본 DNA와 차이가 날까? 참고로 23andMe는 침을 가지고 DNA를 추출하며, 캐나다라 오라진(발음 좀 거시기 하네...)이라는 회사는 간단하게 침을 보관하고 DNA를 뽑을 수 있는 키트를 판매하고 있다. Painless라고 선전하지만, 침도 뱉어본 놈이 뱉는다고 저거 채우려면 약각 고생한다... 해봐서 안다...


오라진 킷트 - 침 좀 뱉게 생기셨...


23andMe

참고로 이건 내 침... 소시적 침 좀 뱉었지 말입니다. 행님...


자 그럼 서론 그런거 빼고 1번 테이블 한번 보자. 피와 침으로 범벅이 된 1번 테이블은 보기가 좀 역겹지만... 그래도 명색이 1번을 차지한 테이블인데 어쩌겠나 짚고 넘어가야지. 다 필요 없고 피는 91%의 매핑률을 보이고 있지만, 침은 86%이다. 더욱이 침은 커버리지가 102로 피의 50에 비하면 커버리지가 훨씬 높지만, 매핑률은 훨씬 떨어진다. -.-;; 커버리지가 높은데 매핑률은 떨어진다.... 고뤠... 뭐 논문을 차근차근 보지 않고 테이블만 본 나로서는 뭐라 말할게 없다. 암튼 피는 침보다 진하다. 피 승리... 이렇게 결론 지어야하는건가??



Round 2. 전쟁의 서막... Complete Genomics vs. Illumina

김연아... 아니 늘근분들을 위하여 카타리나 1번을 보면 read depth가 20이 좀 안되는 지점에서 모두들 95%이상을 커버하고 있는 것을 확인할 수 있다. 또한 일루미나의 초록색 선은 갑자기 하강하는 반면 빨간 CG는 완만한 곡선을 보여주고 있는데, 논문에서는 "The Illumina curve drops to zero coverage at much lower read depth than the CG curve because there are substantially fewer reads in the Illumina data set." 이라고 말하고 있다. 아 저 문장만 보고 이야기 하려니깐... 1번 테이블만 본 나로서는 몰르겠다. 논문 차근차근 봐야하나 부다... 좀있다가 다시... 


몇 시간 후...

이 카타니라 1번은 침말고 피만 가지고 본 거다... (-.-;;) 그럴꺼 왜 굳이 피랑 침이랑 범벅을 만들고 그러냐!!! 암튼 피/침 범벅 1번 테이블의 Blood만 본다면 CG는 78X (233Gb), Illumina는 50X (151 Gb)로 일루미나 데이터가 작기 때문에 CG보다 0에 빨리 도착한 거임. 그렇게 중요한 내용은 아니지만, 암튼 두 플랫폼 다 누적된 read depth가 20이면 왠만큼 지놈 다 커버하신다는게 핵심!! 


카타리나 1번의 b를 보면 일루미나의 경우 read depth가 50에 못미치는 곳에 집중되어 에베레스트를 형성하고 있다. 즉, 평균 50X로 시퀀싱한 일루미나님은 대부분은 50 미만에 시퀀싱한 데이터가 촘촘히 잘 형성된 반면, 78X의 CG는 펑퍼짐하게 약 50X 정도에 가장 많기는 하지만 일루미나처럼 튀어나오지 않았다. 뭐 나쁜건? 아니지만, CG도 일루미나처럼 평균 coverage 부근을 집중 달성하는 시퀀싱이 필요하다고 할 수 있겠다. 



플랫폼 그리고 피와 침 이어지는 이야기

자 요기까지는 별 의미를 두지 말자. 우리에겐 두 플랫폼이 어떻건 결과(SNV Calling)가 중요하니까? 김연아 2를 보면 마치 김연아 선수가 양손을 들고 기뻐하는 모습같지 않은가? 어떻게 이렇게 피겨를 더 이쁘게 만들 수 있단 말인가? 뭐 이것 저것 다 집어치우고 맨 마지막 Validated 행만 보도록 하자 앞서서 이야기 했듯이 우리는 결과만 중시 여기니까! CG는 61.9%, 일루미나는 64.3% 일루미나 이겼다. 훨씬 SNP 잘뽑는다. 물론 두개를 합치면 92.7%가 된다. 


좀 길게 정리하면, CG는 이미 알려진 Known이 73% 나블한게 27%로 일루미나가 나블한게 24.6%dp 반해 새로운걸 더 많이 찾아내긴 한다. 근데 생어로 확인하거 보면 94%, 13.3% 아! 일루미나는 15개중 2개만 맞춘 반면 CG는 생어 결과가 18개중 17개가 확인되었다. 그럼 이건 CG에게 손을 들어줘야하는 건가?



아 그만 쓸란다. 처음에는 논문이 A플랫폼 너님 구려 B플랫폼 너님 쵝오 뭐 이런거 기대했지만, 점점 읽어내려갈수록 어느 누구 편을 들기에는 플랫폼 스페시픽 어쩌구 저쩌구. 이건 이렇기 땜에 너가 좀 불리하지... 뭐 이런식으로 해 놓으니 점점 읽기 싫어진다... 



어느 누가 논문을 꼼꼼히 다 본단 말이냐, 자 마지막만 살짝 보도록 하자. 논문에서 그런걸 바란 내가 이상... 캬캬캬 적당히 마무리해주는 아름다운 모습... 결론은 니가 뭐 특이한 variant를 찾고자 하는 경우라면 일루미나 플랫폼을 쓰기를 권하겠지만, 그만큼 공갈 variant일 수도 있으니 조심하옵시고, 걍 플랫폼 탓하지 말고 너님 실력을 탓하시오... 뭐 이런거... 귀찮다 두팔 번쩍 공동 승리라고 해두자... 관심있는 분들은 직접 읽어보시길...



반응형