유전자정보분석

심심하면 읽는것

hongiiv 2013. 10. 24. 20:36
반응형
Chapter 1. Exome Report 살펴보기

요즘 Whole-Exome Sequencing을 Clnical (Mendelian Disorder의 진단)에 활용하는 논문이 많이 나오고 있다. 이때 고려해야 할 것은 첫번째로 CAP와 CLIA 인증을 득한 곳에서 실험이 이루어져야 한다는건 기본이다. 이렇게 생산된 데이터는 간단히 HGMD와 ESP나 TG등과 비교하고 이것이 medically actionable한것에 대해서 리포트를 해준다. 23andMe도 이러한 트렌드를 예전에 미리 예측하고 Exome pilot을 수행한 적이 있고 몇번 블로그에서 언급한 적이 있다. 파일럿 프로그램에 참여한 사람들은 현재까지 2개의 리포트를 받았는데, 첫번째 리포트는 예전에 언급했었고 이번에는 update된 리포트를 보면서 다시 한번 되짚어 보는 시간을 가져 보려고 한다.

BED 파일 을 통해 Variant확인하기 
두번째 행은 찾은 variants를 표시해준다. (LF5792.final.vcf) 첫번째 variant는 청/붉은색의 막대 형태로 heterozygostiy임을 나타낸다(homo variant인 경우는 그냥 붉은 색 막대, 즉 ref와 같은면 청색, 다르면 붉은색, hetero면 반/반). 두번째는 첫번째 보다 흐린데 이는 VCF의 Filter 필드가 없기 때문에 즉, 원하는 필터를 통과하지 못한것임을 나타낸다.

맨하단의 행은 confident call된 부분 즉 해당 NGS 시퀀싱 부분은 ref와 같던 variant건 간에 확실한 부분임을 나타낸다. 두번째 variant는 앞서 말했듯이 filter를 통과하지 못했기 때문에 confident call이 아니기 때문에 비어 있음을 확인 할 수 있다.


generate allele calls for all exome pilot participants simultaneously
integrating data from multiple individuals
i) more accurately detect variants in low coverage regions
ii) more accurately detect signatures of technical artifacts that might lead to incorrect variant calls

a small proportion of the variant calls in your VCF aare likely to be incorrect
To reduce this proprotion we applied a technique developed at the Broad Institue known as Variant Quality Score Recalibration (VQSR)
On top of this we applied the following cutoffs
i) GQ >=30 
ii) DP >= 10
iii) variant not on one of the sex-chromosomes

이렇게해서 찾은 variants 중 SNP는 약 12만개 (필터를 통과한것은 58,067)를 나타내고 있다.
 


Characterizing your variants
필터를 통과한 Variants 약 6만개에 대한 전체적인 뷰 (특성)는 다음과 같다. High impact, Moderate impact, Low impact, Unknown impact는 SNPEff의 결과로

High impact라 함은
Frame shift : FRAME_SHIFT  Insertion or deletion causes a frame shift / An indel size is not multple of 3
Splice site
Stop gain
Start loss
Stop loss



Chapter 2. Exome filtering
대부분의 엑솜상의 variants는 심각한 장애를 유발하지 않는다는 것을 유의하시고 리포트를 보시기 바랍니다. 질병에 관여하거나 흥미로운 phenotype에 잠재적인 영향을 미치는 variants를 발굴하는 과정은 필터를 통해 이루어진다. 

필터는 연속되어 이루어지며 전체 발굴된 변이 (58,586개)--> 유전자 생성에 impact를 주는 변이 (8,340개) --> variants가 다른 사람들에게도 흔히 나타나는건지 (471개) --> Mendelian disorder에 관여한다고 알려진 592개의 유전자에 존재 여부 (20)
(1-5%의 allele frquency + 592개의 gene list에 없는 것 (451개)) 중 annotation이 가능한것 (8개)

총 28개의 변이에 대한 리포트를 제공

필터링을 수행하는 방법은 annovar를 이용하거나 GenomeCloud를 한번 사용해 보거나

1. 엑솜 예제로 총 45,240개의 유전변이 발굴


2. 다양한 필터링을 적용



3. 이렇게 필터링된 결과는 다운로드 하여 엑셀등을 활용하거나 부가적인 정보를 덧붙여 리포트로 생성


참쉽죠. annovar의 annotate_variation을 이용한다면, 대충 이런식으로 @.@
/data/annovar/annotate_variation.pl vart1.hg19_generic_filtered -filter -dbtype cg69 /data/annovar/humandb -buildver hg19 -score_threshold 0.05
/data/annovar/annotate_variation.pl vart1.hg19_generic_filtered.hg19_cg69_filtered -filter -dbtype snp135 /data/annovar/humandb -buildver hg19 
/data/annovar/annotate_variation.pl -regionanno -dbtype cosmic63 vart1.hg19_generic_filtered.hg19_cg69_filtered.hg19_snp135_filtered /data/annovar/humandb/ -buildver hg19 
cat vart1.hg19_generic_filtered.variant_function |grep "^exonic"|wc -l 

Chapter 3. Reduced BAM
대충 아래와 같은 BAM 파일을 GATK의 ReduceReads를 이용해 보기로 하자. 63 X  커버리지를 보이며, 실제 size는 5.1 GB



ReduceReads를 실행하면,
Hongs-MacBook-Pro:Desktop hongiiv$ java -jar GenomeAnalysisTK-2.7-4-g6f46d11/GenomeAnalysisTK.jar -T ReduceReads -R ucsc.hg19.fasta -I p1.bam -o reduce_p1.bam
INFO  09:19:16,119 HelpFormatter - --------------------------------------------------------------------------------
INFO  09:19:16,123 HelpFormatter - The Genome Analysis Toolkit (GATK) v2.7-4-g6f46d11, Compiled 2013/10/10 17:27:51
INFO  09:19:16,123 HelpFormatter - Copyright (c) 2010 The Broad Institute
INFO  09:19:16,123 HelpFormatter - For support and documentation go to http://www.broadinstitute.org/gatk
INFO  09:19:16,127 HelpFormatter - Program Args: -T ReduceReads -R ucsc.hg19.fasta -I p1.bam -o reduce_p1.bam
INFO  09:19:16,128 HelpFormatter - Date/Time: 2013/10/25 09:19:16
INFO  09:19:16,128 HelpFormatter - --------------------------------------------------------------------------------
INFO  09:19:16,128 HelpFormatter - -------------------------------------------------------------------------------- 
중간생략...
INFO  09:36:27,956 ProgressMeter - Total runtime 1030.66 secs, 17.18 min, 0.29 hours
INFO  09:36:27,957 MicroScheduler - 296427 reads were filtered out during the traversal out of approximately 41747490 total reads (0.71%)
INFO  09:36:27,957 MicroScheduler -   -> 0 reads (0.00% of total) failing BadCigarFilter
INFO  09:36:27,957 MicroScheduler -   -> 0 reads (0.00% of total) failing DuplicateReadFilter
INFO  09:36:27,957 MicroScheduler -   -> 0 reads (0.00% of total) failing FailsVendorQualityCheckFilter
INFO  09:36:27,958 MicroScheduler -   -> 0 reads (0.00% of total) failing MalformedReadFilter
INFO  09:36:27,958 MicroScheduler -   -> 0 reads (0.00% of total) failing NotPrimaryAlignmentFilter
INFO  09:36:27,958 MicroScheduler -   -> 296427 reads (0.71% of total) failing UnmappedReadFilter
INFO  09:36:31,383 GATKRunReport - Uploaded run statistics report to AWS S3 

실행 후 736 MB로 대충 6배 정도 압축되었습니다. 간단히 variation이 존재하는 부분의 read 정보는 남기고 reference와 같거나 homo variant region은 정보를 몽땅 날리기 때문에 정보의 손실은 있습니다만, variant call 등의 단계에서 light한 bam을 가지고 작업을 할  수 있다는 장점이 있죠.

IGV로 보면 상단은 reduce전, 하단은 reduce 후 입니다.  reduce 후에는 variant가 있는 부분 외에는 read depth 등의 정보가 없죠.


Chapter 4. Torrent Browser Plugin 
IonTorrent에서 생산된 데이터를 핸들링 가능한 API를 제공하며, 총 49개의 API로 개발된 플러그인이 존재하며, 이중 commercial한 것들은 다음과 같다.

SBG_Hermes
spiral_uploader
TorrentSuitCloud
PartekFlow
EnhancedQCwithPartekFlow : Ion에서 생성된 데이터에 대해 QA/QC 리포트를 생성, Partek Flow를 사용하여 RNA-Seq, ChIP-Seq 등의 분석을 수행
IonReporterUploader
NextBio
NextGENe

GenomeCloud 플러그인
동작 방식: 실험이 끝난 데이터를 GenomeCloud에 자동/수동으로 업로드하며, 부가적인 정보도 함께 전달하여 GenomeCloud에서 분석 가능함.
왜 : 걍
 
1. 플러그인 보이죠 GenomeCloud
 
2. 플러그인 설정에서 GenomeCloud의 정보를 입력

 
3. 플러그인이 실행되고 나면 GenomeCloud에 아래와 같이 uBAM 파일이 자동으로 업로드되고, sample name등의 정보도 함께 등록



 
4. 분석 실행

반응형