바이오인포매틱스 20

Somatic mutation calling in Low-allelic-fraction

뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는 cancer genomics의 somatic mutation의 SNV에 한정한다. 수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 ..

RNA-Seq Applications

RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read..

somatic mutation 찾기

저번 포스팅에서는 일반적인 snp/genotype calling 메소드에 대해서 알아보았다. 이번에는 cancer분석에서의 somatic mutation 분석에 대해서 살펴보도록 하자. 이번 포스팅에서는 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문을 사용?할 것이다. 일반적으로 암 분석을 한다는 것 즉 somatic mutation을 찾는것은 variant calling의 하나로 NGS가 clinical로 가기 위한 기본적인 단계라고도 할 수 있다. somatic mutation을 찾는 전통적인 방법은 샘플 (normal/disease 또는 normal/cancer 또는 control/mixed ..

베이즈 정리를 정리하고 넘어가자

바로전에 포스팅한 variant calling에 대한 것에 후속으로 somatic mutation에 대한 내용을 정리하고 있다. 살짝 귀뜸해주면 VarScan이라는 툴에 대한 논문을 보려다가 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문으로 급선회했고 virmid는 간단히 cancer 분석에서 contol sample이 mixed된 disease sample에 대해서 control sample이 어느정도의 proportion을 차지하는지를 estimate하여 이것을 somatuc mutation을 calling하는데 사용하는 논문이다. 뭐 그거 그렇고, 바로 snp/genotype/somtic mu..

NGS 데이터에서의 Genotype and SNP calling

지금까지 수천 샘플에 대한 genotype/snp calling을 수행했음에도 2011년도에 발표된 "Genotype and SNP calling from next-generation sequencing data"라는 리뷰 논문을 이제서야 꺼내어 읽어본다. 이 논문에 대한 내용은 이미 "ideas should be in papers" 블로그에 소개되었으나 나름 다시 정리하는 차원에서 여기저기 살을 붙여서 작성했다. 간혹 이해가 가지 않는 부분은 참고하여 작성했다. 전체적인 genotype/snp calling 분석 Base calling genotype/SNP calling에 있어서 가장 기초가 되는 것은 per-base quality score로 이는 일반적으로 NGS 장비의 기본 base callin..

GATK의 incremental joint discovery를 위한 reference model pipeline

좀 더 많은 genomes이 필요한 시대 $1000 게놈 시대가 진짜 도래했다. 이제까지 NGS 연구의 대부분이 하나의 genome 데이터를 가지고 연구(rare variant를 찾던)하던 것이 GWAS처럼 대규모의 cohort의 샘플을 수용하기 시작하면서 "Common Variant Association Study (CVAS)"에 눈을 돌리기 시작했다. 이는 가격뿐만 아니라 대량의 NGS 데이터를 다루기 위한 툴 또한 발전하면서 가능케 되었다. 이러한 CVAS 데이터는 cohort의 샘플들(individucal callsets)을 개별적으로 variant call을 하는 것이 아니라, joint callset을 만들어 joint variant discovery를 수행하여 흔히 말하는 power를 부여할..

comparison of variant detection methods

Clinical Sequencing을 위한 준비 - 표준 variants 미국 NIST (National Institute of Strandards and Technology)의 Div. Biosystems and Biomaterials 에서는 추후 임상으로서의 NGS 데이터 적용을 대비하기 위한 작업을 하고 있다. 이와 유사하게 국내에는 한국표준과학연구원 국가참조표준센터 (NCSRD)이 생명과학 관련 참조 표준 제정하고 있는데요. 아직 NGS 데이터와 관련한 표준은 없는 상태이다. (하단의 생명과학 관련 참조 표준 목록 참고) NIST는 NA12878에 대해서 자세한, 표준의 variants call set을 만들어 calling 알고리즘의 벤치마크나 기타 여러 분야에 활용할 수 있도록 하고 있다. 이..

FASTQ 파일 sample, library, lane/slide, barcode

FASTQ 파일을 받았다면 다음과 같은 기본 정보는 필수적으로 확보하시기 바랍니다. 흔히 NGS 시퀀싱은 기본적으로 1개의 sample로 부터 1개의 DNA library가 만들어지고 시퀀싱 장비의 1개의 lane/slide에 넣어져 시퀀싱이 됩니다. 한개의 sample은(@RG:SM) DNA library prepare 단계를 거쳐 시퀀싱 장비에 삽입?되게 되는데요. 하나의 샘플은 1개 이상의 library로 제작될 수 있습니다. 이렇게 되면 동일 샘플이지만 라이브러리 제작이 서로 다르게 되어 이를 구분해 주어야합니다. 이는 추후 분석시 alignment된 BAM 파일에 @RG:LB로 구분되어 사용됩니다. 자 이렇게 만들어진 library는 실제 시퀀싱 장비에 넣어지는데요. 이때 동일한 장비에 서로 다..

여러 샘플을 동시에 분석하기 - Reduced BAM을 이용한 다샘플 한큐 분석

100 샘플 이상을 동시에 분석해서 variant를 calling할때 잇점이 무엇인가? 우선 100 샘플이상을 동시에 분석이 가능한가부터 짚고 넘어가야겠다. 일반적으로 NGS에서 variant calling은 BAM 파일을 가지고 하는데, 요 BAM 파일의 크기가 크기 때문에 merge하여 동시에 분석 (calling all samples simultaneously)하기에 버겁다. 자 이제 하나씩 벗겨 보자. Calling all samples simultaneously vs. Batch calling 암 샘플 분석이나 대규모 집단에서 나타나는 일반적인 (common) variant를 얻기 위한 연구일 경우에는 여러개의 샘플에서 나타나는 variant가 필요하다. 이러한 경우에는 각 샘플을 뭉쳐서 var..

Short Read Alignment 그것을 알려주마

지난주 Boston에서 열린 Bio-IT World Conference & Expo를 보고 나서 느낀게 있다면 요즘 이바닥은 점점 상용화쪽으로 흘러가고 있다는 것이다. Alignment Software 하나를 보더라도 예전에는 논문을 쓰고 학술적인것에 의미를 두었다면, 이제는 좀 더 빠르고 정교하게 (정교하다는 표현이 맞을지는 모르겠지만, 다른 Alignment Software가 놓칠 수 있는 Variants까지 잡아낼 수 있는) 만들어 이를 상업적으로 내놓고 있다는 것이다. 그렇다고 무작정 NGS를 하고 난뒤 이러한 상용의 서비스에 맡겨서 분석하기에는 가격이 만만치 않다. 아직 우리에게는 BWA에 있지 않은가! BWA라도 잘 알고 사용한다면 분석에 있어서 좀 더 의미있는 결과를 낼 수 있지 않을까하는 ..