바이오인포매틱스

RNA-Seq Applications

hongiiv 2014. 4. 17. 14:55
반응형
RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다.

1. Alternative Splicing Events

1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read를 통해 현재 read의 정보를 종합하면 1,2,3,4,5,6이 모두 연결된 하나의 isoform이 존재한다는 것을 알 수 있다. 즉, a,b,c,d 4개의 read 정보를 통해 1,2,3,4,5,6으로 구성된  Isoform #1이 존재하는 것을 확인 할 수 있다.


또 다음과 같이 genomic DNA에 매핑된 read들이 있다면, 어떨까? 2번과 4번의 exon에는 read 정보가 존재하지 않으며, 붉은색 원의 정보를 통해 1,3번 exon과 3,5번 5,6번이 서로 연결된 것을 확인 할 수 있다. 최종적으로는 1,3,4,5번으로만 구성된 새로운 Isoform #2가 존재한다는 것을 알 수 있다. 

Ozsolak, F. and Milos, P. RNA sequencing: advances, challenges and opportunities Nature Review Genetics (2011)

그렇다면 어떻게 붉은색 원의 read들을 reference에 매핑할 것이냐는 문제가 남는다. 일반적인 mapping 툴은 붉은색 원과 같은 splice juction을 고려하지 않는다. 따라서 TopHat (A spliced read mapper for RNA-Seq)과 같은 툴을 이용해야 한다. 이제 일반생물학 시간에 배운 내용을 되짚어 보면 DNA는 intron 부분이 제거되고 exon부분만 서로 연결되며 이때 capping과 poly-A tail이 붙은 mRNA로 변하게 되며 intron 영역은 Donor와 Acceptor splice site, GT와 AG부분이 splicing 된다.


 

TopHat의 알고리즘은 gt와 ag를 보고 가능한 주변 exone간의 가능한 splice를 만들고 read들을 splice에 붙이게 된다. 

Trapnell, C., et al TopHat: discovering splice junctions with RNA-Seq Bioinformatics (2009)

2. Identify Known and Novel Transcripts

기존의 알려진 exon/gene에 매핑된 것이외의  mapping된 read들은 새로운 exon이나 gene일 수 있으며, mapping 되지 않은 read들은 새로운 splice junction일 수도 있다. 

일반적으로 reference에 기반한 transcriptome을 발굴하는 과정은 첫번째 그림과 같으며, 실제로 blat, TopHat, GSNAP, SpliceMap, MapSplice등이 splice를 고려한 align을 제공하며, TopHat에 의해 매핑된 read는 cufflinks를 통해 기존의 알려진 또는 새로운 transcripts들을 알아내게 된다. 아래 그림의 a,b,c를 참고하기 바란다. 


Jeffery A. Martine and Zhong Wang Next-generation transcriptome assembly Nature Reviews Genetics (2011)

Trapnell, C., et al Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isofrom switching during cell differetiation Nature Biotechnology (2010)

3. Quantification: Expression Profiling

이번에는 RNA-Seq의 3번째 응용으로 발현량을 profiling하는 방법입니다. NGS의 특성상 read를 통해 expression을 profiling해야 하고 이때 여러가지 고려할 사항들이 있다. 우선 Normalization에 관한 부분으로 많은 read가 존재한다는 것은 1) transcript의 사이즈가 길거나 (long) 2) 높은 depth of coverage로 시퀀싱 되어서 일 수 있다. 따라서 이러한 서로 다른 transcript의 length와 비교하고자 하는 각기 다른 condition으로 부터의 총 sequnce를 normalization해야 정확한 expression을 profiling할 수 있다.

이래서 나온 것은 바로 RPKM: Read Per Kilobase per Millon mapped reads 이다. RPKM=C/LN, C: Number of mappable reads on a feature, L: Length of feature (kb), N: total number of mappable reads (millions)

아래와 같이 kidney와 liver 두 샘플에서 ENSG00000212679 유전자의 read 수가 각각 620, 746이며, Kideny와 Liver의 총 sequencing depth가 9,293,530과 8,361,601이며, 해당 gene의 length가 1500 bases인 경우 각각의 RPKM 값은 44.48과 59.48이 된다. liver 너 이김. 이러한 normalization 방법으로는 RPKM외에도 RPKM이 read를 사용하는 대신 fragment (paired-end인 경우를 고려해서)를 사용하는 FPKM, Upeer-quartile, TMM 등이 있다. 이러한 quantify expression은 cuffcompare나 cuffdiff, R 패키지의 edgeR, DESeq 등을 이용하여 분석이 가능하다. (위 그림의 a,d,e 참고)



추가) 아래와 a와 같은 구조의  유전자가 있을 경우 TSS(alternative transcription start site)에 따라서는 A,B와 C 총 2가지 경우, CDS에 따라서는 A와 B,C 2가지 경우가 있다. 

isoform에 따라서는 A,B,C 모두를 비교가 가능하며, (a)
isoform내에서 유전자가 서로 다른 regulated를 보이는지를 비교하는 것은 A와 B만 가능 (b)
splicing의 differential을 보기 위해서는 condition A,B에 대해서 각각 A와 B를 비교 가능 (c)
TSS에 따른 promoter의 성능을 보려면 A+B와 C를 비교하는 것이 가능 (d)
promoter의 서로 다름을 비교하는 경우 condition A,B에 대해서 각각 A+B와 C를 비교 가능 (e)
유전자의 CDS의 결과물 비교는 A와 B+C에 대해서 가능(f)
protein 산물의 차이 비교는 condition A,B에 대해서 각각 B+C와 A를 비교 가능 (g)

Roberts et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks Nature Protocols (2012)

Qi Liu et. al RNA-Seq data analysis at the gene and CDS levles provides a comprehensive view of transcriptome response induced by 4-hydroxynonenal Mol. BioSyst (2013)

4. Gene Fusion

이제 마지막은 gene fusion이다. 가장 잘 알려진 fusion gene은 ABL1과 BCR gene으로 다음과 같이 두개의 유전자가 서로 fustion되어 질병이 발생할 수 있다. 현재는 Tophat2에 흡수된 tophat-fusion으로 분석이 가능하다. 

Ozsolak, F. and Milos, P. RNA sequencing: advances, challenges and opportunities Nature Review Genetics (2011)


아래는 TopHat-Fusion pipeline과 break point를 찾아 내는 그림이다.



Daehwan Kim, Steven L Salzberg TopHat-Fustion: an algorithm for discovery of novel fusion transcripts GenomeBiologoy (2011)

지금까지 초간단 RNA-Seq으로 할 수 있는 것들을 알아 보았다. 자세한 내용은 언급된 논문들을 살펴보면 되고 실제 분석에 관한 내용은 TopHat을 이용한 턱시도 프로토콜을 기반으로 나중에 하는걸로 하겠다.
 
반응형