예전에도 두어번 블로그글을 통해 variant calling에 있어서 Ensemble approach에 대해서 언급했었더랬습니다. comparison of variant detection methods, somatic caller는 뭘 사용해야 하나요? 를 참고하세요. 오늘은 그 끝판왕으로 준비했습니다. 왜냐구요? 잠시 광고 하나 하고 넘어가려고 합니다. 한국유전체학회 동계 심포지엄이 2월 4일부터 진행되는데 올해는 이틀간에 걸쳐 "Somatic Calling 알고리즘 소개 및 실습" 워크샵이 준비되어 있습니다. 현재 저조한 등록을 보이고 있다고 합니다. 오늘은 그래서 워크샵에서 진행할 내용을 미리 소개하는 시간을 가져 보려고 끝판왕으로 준비했습니다. ;-) 더 안오실지도 모르겠군요. 아! 그리고 저번 ..
samtools가 버전 0.1.19를 마지막으로 major 번호가 올라갔습니다. 바로 1.0 버전대가 탄생한것이죠. 홈페이지도 이제는 www.htslib.org를 사용합니다. 흔히 우리가 말하는 Samtools는 Samtools, BCFtools, HTSlib 3개로 구성되어 있습니다. Samtools는 SAM/BAM/CRAM 포맷의 파일을 읽고/쓰고/편집하고/인덱싱하고/볼 수 있는 툴입니다. BCFtools는 BCF2/VCF/gVCF 포맷의 파일을 읽고/쓸 수 있으며 SNP나 short indel의 sequence variants를 calling/filtering/summarising 할 수 있는 툴입니다. 그리고 그 기반은 high-throughput sequencing 데이터를 다루는 바로 C로 작..
유전체데이터를 다루는 툴이나 스크립트를 만들고자 한다면, 다음의 프로그램, 라이브러리를 눈여겨 보고 응용할 것. 재미있는것은 이제 클라우드상의 데이터도 htsjdk 라이브러리에서 직접 핸들링이 가능해진다는 것이다. gatk-tools-java Tools for using picard and gatk with genomics API. getting reads from GA4GH genomics api and exposing them as SAMRecord "Iterable" resource. These will be used for subsequent work on enabling HTSJDK to use API data as input. GA4GHPicardRunner wrapper around pica..
WGS 분석에서의 bottleneckalignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 io가 bottleneck으로 작용한다. 대량 샘플에서의 병렬 네트워크 파일 시스템단일 샘플 분석과 같은 경우 NFS가 유리하지만, 대량의 샘플을 분석하는 경우 Lustre나 GlusterFS와 같은 병렬 네트워크 파일 시스템이 유리하다. 당연히 io가 분산되기 때문에 적은 수의 샘플에서는 병렬 네트워크 파일 시스템이 불리하게 작용하지만, 다수의 대량 샘플 분..
뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는 cancer genomics의 somatic mutation의 SNV에 한정한다. 수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 ..
RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read..