본문 바로가기

바이오인포매틱스

BGZF (Blocked GNU Zip Format) Random Access BAM 파일의 경우에는 BGZF를 이용하기 때문에 원하는 곳으로 빠르게 access가 가능하다. 우리가 흔히 사용하는 GZIP (GNU ZIP) 보다는 압축효율 (압축했을때 용량)이 떨어지지만 random access가 가능하다는 잇점으로 인해 BAM 파일(BAM의 경우 재빠르게 자신이 원하는 position을 뷰잉하는데 많이 사용하기 때문)에서 사용하는 기술이다.용량이 큰 텍스트 파일을 압축해 놓고 파일의 어느 부분이던지 ..
Split Reads Split Read (SR) Split Read(SR)는 하나의 read가 분리 (split)된 것으로, 여기서 분리는 read의 일부분이 reference에 align되고 나머지 일부분은 또 reference의 다른 부분에 align된 것으로 Chimeric Alignment라고도 한다. SR은 deletion, insertion, inversion, tandem duplication과..
Simple consensus approach improves somatic mutation prediction accuracy 지난 동계유전체학회 워크샵의 암유전체 분석을 위한 Somcatic Mutation Calling에 관한 내용입니다. "A simple consensus approach improves somatic mutation prediction accuray"라는 논문을 바탕으로 SomaticSniper, VarScan2, MuTect을 이용하여 각각 somatic call을 수행한 후 각 툴에 대해서 filter를 적용하고 consensus 데이터셋..
Structural Variation NGS Short Reads를 이용하여 Strucural Variation을 찾는데에 있어서 depth of coverage (DOC), paried-end mapping (PEM, PE), split read (SR) 정보를 이용하게 된다. SV를 찾는데에 있어서 reference에 reads를 매핑하고 reference에 정확히 일치하는 않는 (not exact match to reference) read들을 SV를 찾는데 사용..
Bioinformatics (genomics) 트렌드 - 지금 필요한건 스피두 요즘 논문이나 기사를 보면서 Bioinformatics/Genomics  분야의 트렌드를 개인적으로 정리한 글로 본인의 무지에 의해 잘못된 정보를 전달할 수도 있음을 주의하시기 바란다. ㅋㅋㅋ 넘어가야할 허들 - 속도 지금까지는 속도 보다는 클라우드를 이용한 scale-up이 주된 테마였다면 이제는 기존의 파이프라인을 개선하는 방향의 speed-up이 주요 이슈가 되었다. 표준 파이프라인이라고 할 수 있는 BWA, GATK, SA..
Detecting Somatic Mutations - Ensemble Approach 예전에도 두어번 블로그글을 통해 variant calling에 있어서 Ensemble approach에 대해서 언급했었더랬습니다. comparison of variant detection methods, somatic caller는 뭘 사용해야 하나요? 를 참고하세요. 오늘은 그 끝판왕으로 준비했습니다. 왜냐구요? 잠시 광고 하나 하고 넘어가려고 합니다. 한국유전체학회 동계 심포지엄이 2월 4일부터 진행되는데 올해는 이틀간에 걸쳐 "Somatic C..
Samtools를 이용한 genotype likelihoods 구하기 samtools가 버전 0.1.19를 마지막으로 major 번호가 올라갔습니다. 바로 1.0 버전대가 탄생한것이죠. 홈페이지도 이제는 www.htslib.org를 사용합니다. 흔히 우리가 말하는 Samtools는 Samtools, BCFtools, HTSlib 3개로 구성되어 있습니다.   Samtools는 SAM/BAM/CRAM 포맷의 파일을 읽고/쓰고/편집하고/인덱싱하고/볼 수 있는 툴입니다. BCFtools는 BCF2/VCF..
당신이 개발자라면... 유전체데이터를 다루는 툴이나 스크립트를 만들고자 한다면, 다음의 프로그램, 라이브러리를 눈여겨 보고 응용할 것. 재미있는것은 이제 클라우드상의 데이터도 htsjdk 라이브러리에서 직접 핸들링이 가능해진다는 것이다. gatk-tools-java Tools for using picard and gatk with genomics API. getting reads from GA4GH genomics api and exposing them as SAMRe..
WGS에서의 확장을 고려한 유전변이 검출 파이프라인 WGS 분석에서의 bottleneckalignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 io가 bottleneck으로 작용한다.  대량 샘플에서의 병렬 네트워크 파일 시스템단일 샘플..
Somatic mutation calling in Low-allelic-fraction 뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다.  Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라..
RNA-Seq Applications RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는..
somatic mutation 찾기 저번 포스팅에서는 일반적인 snp/genotype calling 메소드에 대해서 알아보았다. 이번에는 cancer분석에서의 somatic mutation 분석에 대해서 살펴보도록 하자. 이번 포스팅에서는 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는  논문을 사용?할 것이다. 일반적으로 암 분석을 한다는 것 즉 somatic mutatio..
베이즈 정리를 정리하고 넘어가자 바로전에 포스팅한 variant calling에 대한 것에 후속으로 somatic mutation에 대한 내용을 정리하고 있다. 살짝 귀뜸해주면 VarScan이라는 툴에 대한 논문을 보려다가 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문으로 급선회했고 virmid는 간단히 cancer 분석에서 contol sample이 mixed된 diseas..
NGS 데이터에서의 Genotype and SNP calling 지금까지 수천 샘플에 대한 genotype/snp calling을 수행했음에도 2011년도에 발표된 "Genotype and SNP calling from next-generation sequencing data"라는 리뷰 논문을 이제서야 꺼내어 읽어본다. 이 논문에 대한 내용은 이미 "ideas should be in papers" 블로그에 소개되었으나 나름 다시 정리하는 차원에서 여기저기 살을 붙여서 작성했다. 간혹 이해가 가지 않는 부분은 참고..
GATK의 incremental joint discovery를 위한 reference model pipeline 좀 더 많은 genomes이 필요한 시대 $1000 게놈 시대가 진짜 도래했다. 이제까지 NGS 연구의 대부분이 하나의 genome 데이터를 가지고 연구(rare variant를 찾던)하던 것이 GWAS처럼 대규모의 cohort의 샘플을 수용하기 시작하면서 "Common Variant Association Study (CVAS)"에 눈을 돌리기 시작했다. 이는 가격뿐만 아니라 대량의 NGS 데이터를 다루기 위한 툴 또한 발전하면서 가능케 되었다. ..
comparison of variant detection methods Clinical Sequencing을 위한 준비 - 표준 variants 미국 NIST (National Institute of Strandards and Technology)의 Div. Biosystems and Biomaterials 에서는 추후 임상으로서의 NGS 데이터 적용을 대비하기 위한 작업을 하고 있다. 이와 유사하게 국내에는 한국표준과학연구원 국가참조표준센터 (NCSRD)이 생명과학 관련 참조 표준 제정하고 있는..
FASTQ 파일 sample, library, lane/slide, barcode FASTQ 파일을 받았다면 다음과 같은 기본 정보는 필수적으로 확보하시기 바랍니다. 흔히 NGS 시퀀싱은 기본적으로 1개의 sample로 부터 1개의 DNA library가 만들어지고 시퀀싱 장비의 1개의 lane/slide에 넣어져 시퀀싱이 됩니다. 한개의 sample은(@RG:SM) DNA library prepare 단계를 거쳐 시퀀싱 장비에 삽입?되게 되는데요. 하나의 샘플은 1개 이상의 library로 제작될 수 있습니다. 이렇..
여러 샘플을 동시에 분석하기 - Reduced BAM을 이용한 다샘플 한큐 분석 100 샘플 이상을 동시에 분석해서 variant를 calling할때 잇점이 무엇인가? 우선 100 샘플이상을 동시에 분석이 가능한가부터 짚고 넘어가야겠다. 일반적으로 NGS에서 variant calling은 BAM  파일을 가지고 하는데, 요 BAM 파일의 크기가 크기 때문에 merge하여 동시에 분석 (calling all samples simultaneously)하기에 버겁다. 자 이제 하나씩 벗겨 보자. Calling all sam..

티스토리 툴바