본문 바로가기

유전자정보분석

개인 유전체 데이터의 시각화

한 개인의 지닌 유전체 raw 데이터는 3 billion nucleotide base pairs로 구성되어 있으며, A4용지 1장에 12 point의 폰트로 약 3,000자를 쓸 수 있다고 한다면 총 유전체는 A4지 백만 페이지에 해당하는 엄청난 양이다. 미국인이 평균 진료 시간이 약 20분임을 감안한다면 한 개인의 유전체 raw 데이터를 사람이 인지하고 이를 설명하기에는 무리이다. 따라서, 시각화 툴과 기술을 이용하여 raw 데이터를 viewing, exploring, summarizing하고 integrating하여 raw 데이터를 용도에 맞도록 사용하여야 하겠다.
 
Tabular view
현대 사회에서 데이터를 시각화하여 방법으로 가장 널리 사용되는 방법으로 표를 통해 고수준의 요약정보를 제공할 수 있다. 표는 헤더와 컬럼을 통해 각각의 아이템을 확인할 수 있으며, combined genetic diseas risk 등 counting을 통해 요약정보를 전달 가능하며,  odd ratio, 특정 SNP에 대한 allele frequency들에 대해 sort/rank하여 보여줄 수 있다. 

하지만, 테이블 형태로는 제2당뇨가 심근경색의 위험요소라는 연관성을 보여주기에는 힘들다. 또한 경향성 데이터를 파악하기에도 한계가 있으며 무엇보다도 효율적이지 못하다는데 그 한계가 있다. 신문지상의 주가를 보면 전체 페이지가 표 형태의 주가를 보여주고 있는데 이를 다 읽어 보는 사람은 없다. 또한 90%의 사람들이 검색 결과 중 첫 링크만을 사용하듯 이러한 테이블 형태는 그 양이 많아 질 수록 사람들이 보려하지 않는데에 그 한계가 있다.

다음은 23andMe의 질병정보를 표로 보여주고 있는데 상단에 헤더에 각 컬럼이 나타내고자 하는 정보에 대한 설명과 각 컬럼은 Confidence를 별 모양으로 Risk를 퍼센트 등의 실제 raw 데이터를 축약한 형태로 표에 나타내 준다. 이러한 표 형태는 Personal Genome Project의 GET-Evdience tool이나 SNPedia의 Promerthease tool 등에서도 사용되고 있다.  




Ideograms
개인 유전체 데이터를 표현하는데에 있어서 표 형식과는 달리 독특한 형태의 시각화 방법이 존재하는데 이는 염색체의 구성을 보여줄 수 있는 Ideograms이다. 흔히 Karyotype이라 불리며, G-banding이나 FISH기법을 이용하여 실제 염색체의 모습을 관찰한 내용을 보여주는 방법이다. G-banding의 경우 A-T가 많은 지역은 어둡게 표시되면 이러한 부분은 유전자가 적다. FISH의 경우에는 자신이 보고자 하는 염색체의 특정 지역만을 형광을 이용하여 살펴 볼 수 있으며, 이러한 방법은 염색체의 모습을 직접 관찰할 수 있어 염색체 이상으로 인한 각종 유전병을 진단하는데에도 사용된다.  또한 그래픽 형태로 Ideograms을 나타내어 유전체 전반적으로 나타나는 데이터를 보여주는데도 사용된다.

즉 하나의 페이지에 유전체 전반에 걸친 정보를 보여주는데에 사용될 수 있는데, 이는 맨하탄 플롯이 GWAS  정보를 전 유전체에 걸쳐서 보여주는 것과 같이 하나의 표준으로 자리잡고 있다.


다음은 현재까지 GWAS를 통해 연구된 질병과 trait관련한 SNP들을 Ideogram을 이용하여 한눈에 살펴 볼 수 있도록 제공하고 있으며, 그 다음 그림은 23andMe에서 자신의 ancestry 구성 정보를 Ideogram을 통해 한눈에 파악할 수 있도록 제공한다. 유전체 전반적인 정보를 보여주는데에는 효과적이지만, 좀 더 자세한 resolution을 보기에는 한계가 있다는 단점이있다.  그럼 이러한 단점을 극복하기 위한 Genome Browser를 이용한 시각화 방법은 다음시간에....


본 글은 Exploring Personal Genomics라는 책을 짜집기 한 내용입니다. ㅋㅋㅋ
 

티스토리 툴바