개인유전체분석

Day4 - 보다 자세한 Ancestry 정보

hongiiv 2011. 11. 1. 11:37
반응형
Day3에 이어서 Interpretome을 이용하여 자신의 genome을 분석하는 시간이다. 이번에는 Clinical과 Ancestry 기능으로 우선 Ancestry 기능을 위주로 살펴보도록하겠다.

Ancestry
Ancestry는 Similarity, PCA, Painting의 메뉴로 구성되어 자신의 genome 데이터를 가지고 다양한 방법을 통해 자신의 조상 정보를 표시해 준다. 그럼 하나씩 하나씩 어떠한 원리로 자신의 genome 정보를 표시하는지 간단한 이론과 함께 살펴보도록 하자.

Similarity
인간은 누구가 부모에게서 하나씩 받은 총 23개의 염색체로 구성되어 있다. 물론 어떤게 아버지에게 어머니에게 받은 건지는 확실하게 알 수는 없다. 이 부분에 대해서는 이전 글에서 언급했었으니 참고하기 바란다.

사람들은 저마다 다른 유전정보를 지니고 있고 개인마다 모두 다른 정보를 가지고 있지만, 그차이는 전체 30억이라는 염기서열에서 극히 일부분에 지나지 않는다. 인간과 침팬치와 98.8% 유사하니까 말이다. 하지만 아무리 98.8%라고 하더라도 갯수로 따지면 3천6백만개에 이른다.

Similarity는 특정 영역의 genome에서 비교하고자하는 사람들끼리 얼마나 같은 유전형을 가지는지 갯수를 세어 비교하여 타인과 얼마나 유사한지를 보여주게 된다. 아까 침팬치와는 98.8% 일치한다고 했었는데, 사람과 사람사이는 99.97% 유사하다고 알려져 있다. 즉 나와 타인은 0.03%의 차이 (약 9십만개의 염기)로 인해 구별된다고 할 수 있다. 

단순히 다른것의 갯수라고 했지만, 아까도 이야기 했듯이 인간의 염색체는 부/모에게 하나씩 물려 받았고 이를 대립유전자라고 한다. 즉 Allele가 2개의 형태로, 흔히 Genotype이라고 AA/AB/BB의 3가지 형태로 표시한다. 따라서 어느 한 부분에서 타인과 나를 비교할때 정확히 일치 AA(나) / AA(타인)하는 경우(2점 획득), 하나만 일치하는 경우 AA(나)/AA or AB(타인)인 경우 (1점 획득) 마지막은 서로 완전히 다른 AA(나)/BB(타인) 경우 (0점)로 이 점수로 서로 다른 갯수(정확히 말하면 갯수는 아니죠 ^^)를 나타내게 되며 이를 IBS라고 한다.

그렇다고 30억개의 모든 염기서열의 IBS값을 구해서 서로 얼마나 유사한지를 계산하는 것은 비효율적이기 때문에 사람마다 평균적으로 다른 부분이 많은 부분(Block)을 뽑아서 그 부분에 대한 IBS값을 구하게 되면 30억개를 모두 비교하는 것보다 훨씬 효율적이고 정확하게 유사성을 판별할 수 있다.

Interpretome은 1,000개, 10,000개, 100,000개의 SNP만을 비교해서 서로간의 유사성을 판단하게 된다. 각각의 SNP 세트는 아까말한 Block내의 대표적인 SNP을 뽑은 것으로 이세트에서는 1,000개 보다는 100,000개로 비교하는 것이 서로간의 유사성을 판단하는데 좀 더 정확한 값이라고 할 수 일겠다. Interpretome은 6명의 공개된 사람들 vs. 나를 비교해서 살펴 볼 수 있다. 다른 사람들과 유독 유사한 분이 계신데... 찾아보니 나와 제일 유사하게 나온 Stuart는 본명이 Stuart Kim으로 동양사람 이었다. 

1,000개의 SNP를 가지고 비교한 결과 난 87.738%로 Stuart와 제일 유사


PCA
유사성이 개인간에 같은 genome 정보를 얼마나 공유하는지를 보는 것이었다면, PCA는 각 인종을 대표하는 Reference Panel을 X,Y의 2차원적인 그래프에 표시하는 방법이다. 여기에서도 IBS값을 사용하며, 각 사람들의 IBS값을 대표하는 값을 추출하게 된다. 이렇게 다양한 차원의 값(IBS)을 차원축소를 수행하는데, 대표적인 방법이 PCA라는 방법이다. 즉 (1,2,2,3........3) -> (X,Y,Z)의 형태로 왼쪽의 다양한 값을 오른쪽의 X(PC1),Y(PC2),Z(PC3)처럼 간단하게 만드는 것이다. X(PC1)는 왼쪽의 값들을 가장 많이 대표할 수 있는 값이며, Y(PC2)는 그 다음 ... 그중에서 X,Y의 두개의 값을 통해 2차원적으로 표시하는 것이다. 


HGDP, HapMap은 각 인종의 데이터를 모아 놓은 Reference Panel로 기존에 알려진 이러한 Reference내에서 자신의 위치를 표시해준다 

빨간색점이 자신의 위치로 East Asian들 사이에 있는 것을 확인할 수 있다. PC1의 값이 약 -7로 수많은 자신의 genotype 데이터를 설명하는데에 PC1의 대표성은 5.45%, PC2의 대표성은 3.88%이다.

X,Y축을 PC1,PC2,PC3 등으로 변경해 보면서 또는 Reference Panel을 다양하게 변경해보면서 자신의 위치를 확인해 볼 수 있으며, 3차원적으로 표시해서 보면 좀 더 분명하게 자신의 위치를 확인 가능하다. 

Ancestry Painting
마지막은 각 염색체별로 Ancestry 정보를 색칠해주는 것으로, 염색체를 작은 Block으로 나누어 해당 Block이 어느 인종과 유사한지를 확인해서 painting해주는 것이다. 각 인종이 염색체의 어느 한부분이 평균적으로 아프리카인의 경우 "AAAAAA", 아시아인은 "AAABBB", 유럽인은 "BBBBBB"이라고 할 경우 자신이 그 Block이 "AABBBB"라면 아시아인과 가장 유사하기 때문에 그 부분을 아시아인의 색인 초록색으로 표시하는 것이다. Block의 크기를 작게하면 할 수록 좀 더 세밀하게 분석되어진 모습을 볼 수 있겠지만, Block이 작을수록 노이즈가 섞일 가능성이 많아지게 된다.

전체적으로 난 CHB+JPT(중국인+일본인)

이상으로 자신의 인종적인 정보를 다양한 방법으로 살펴보았다. 보시면서 느끼겠지만 Reference 인종에 대한 자세한 정보가 존재할 수록 좀 더 자신의 유전정보를 확실하게 알 수 있다. 하지만, 아쉽게도 이러한 Reference로 많이 사용되는 HapMap이나 HGDP 등의 프로젝트에 한국인은 누락되어 있기 때문에 좀 아쉬면이 있기는 하다. 


반응형