2014/03 5

베이즈 정리를 정리하고 넘어가자

바로전에 포스팅한 variant calling에 대한 것에 후속으로 somatic mutation에 대한 내용을 정리하고 있다. 살짝 귀뜸해주면 VarScan이라는 툴에 대한 논문을 보려다가 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문으로 급선회했고 virmid는 간단히 cancer 분석에서 contol sample이 mixed된 disease sample에 대해서 control sample이 어느정도의 proportion을 차지하는지를 estimate하여 이것을 somatuc mutation을 calling하는데 사용하는 논문이다. 뭐 그거 그렇고, 바로 snp/genotype/somtic mu..

NGS 데이터에서의 Genotype and SNP calling

지금까지 수천 샘플에 대한 genotype/snp calling을 수행했음에도 2011년도에 발표된 "Genotype and SNP calling from next-generation sequencing data"라는 리뷰 논문을 이제서야 꺼내어 읽어본다. 이 논문에 대한 내용은 이미 "ideas should be in papers" 블로그에 소개되었으나 나름 다시 정리하는 차원에서 여기저기 살을 붙여서 작성했다. 간혹 이해가 가지 않는 부분은 참고하여 작성했다. 전체적인 genotype/snp calling 분석 Base calling genotype/SNP calling에 있어서 가장 기초가 되는 것은 per-base quality score로 이는 일반적으로 NGS 장비의 기본 base callin..

Clinical NGS Seqeuncing에서의 중요 체크 포인트

NGS techologies기반의 WES, WGS는 비록 국내에서는 아니지만, clinical diagnosis, genetic risk prediction, patient management에서 루틴하게 사용되는 주목할만한 패러다임으로 자리잡았다.이러한 clinical genetics에서 bottleneck은 더이상 DNA sequence production이 아니라 DNA sequence analysis로 옮겨간 것은 누구나다 인지하고 있는 사실이며, large-scale comparative genomics는 일관성 있는 재생산성, 협력 연구자와의 안전한 공유 등 많은 허들이 존재한다. raw sequencing read를 생산하고 실제 clinical interpretation하기까지 clinic..

컬럼 2014.03.18

GATK의 incremental joint discovery를 위한 reference model pipeline

좀 더 많은 genomes이 필요한 시대 $1000 게놈 시대가 진짜 도래했다. 이제까지 NGS 연구의 대부분이 하나의 genome 데이터를 가지고 연구(rare variant를 찾던)하던 것이 GWAS처럼 대규모의 cohort의 샘플을 수용하기 시작하면서 "Common Variant Association Study (CVAS)"에 눈을 돌리기 시작했다. 이는 가격뿐만 아니라 대량의 NGS 데이터를 다루기 위한 툴 또한 발전하면서 가능케 되었다. 이러한 CVAS 데이터는 cohort의 샘플들(individucal callsets)을 개별적으로 variant call을 하는 것이 아니라, joint callset을 만들어 joint variant discovery를 수행하여 흔히 말하는 power를 부여할..

comparison of variant detection methods

Clinical Sequencing을 위한 준비 - 표준 variants 미국 NIST (National Institute of Strandards and Technology)의 Div. Biosystems and Biomaterials 에서는 추후 임상으로서의 NGS 데이터 적용을 대비하기 위한 작업을 하고 있다. 이와 유사하게 국내에는 한국표준과학연구원 국가참조표준센터 (NCSRD)이 생명과학 관련 참조 표준 제정하고 있는데요. 아직 NGS 데이터와 관련한 표준은 없는 상태이다. (하단의 생명과학 관련 참조 표준 목록 참고) NIST는 NA12878에 대해서 자세한, 표준의 variants call set을 만들어 calling 알고리즘의 벤치마크나 기타 여러 분야에 활용할 수 있도록 하고 있다. 이..