유전자정보분석

게놈 구멍(CNV) 찾기

hongiiv 2010. 10. 21. 17:36
반응형

게놈과 관련된 글들을 올리고 있는 'genome unzipped'에서는 총 12명의 저자들이 글을 올리고 있으며 이들은 이분야에 좀 관심만 있다면 한번쯤은 이름을 들어본 사람들로 구성되어 있다. 그런데 이들이 얼마전 자신의 게놈을 공개해버렸다. 말 그대로 자신들의 게놈을 unzip해 버린것이다. 데이터가 공개되자 이들은 공개된 데이터에 대해서 이런 저런 분석, 윤리적인 면들에 대해 블로그를 작성하고 있는데, 오늘은 여러가지 분석중에서 블로그 저장중 한명인 Conrad가 자신과 자신의 부모의 게놈을 분석한 이야기를 해보려고 한다.


유전자 복제수 변이 (Copy Number Variation, CNV)

얼마전 헬스로그의 최신연구동향에 "ADHD는 환경적인 문제만으로 발생하지 않는다"라는 란셋 논문에서 간단히 CNV에 대한 이야기가 나왔는데, 인간이 가진 유전적인 변이중 하나인 CNV는 유전체 내에서 통상적으로 2n으로 존재하는것이 아니라 실제로는 특정 염기서열이 결실(0n 또는 1n), 증폭(3n 또는 그 이상)되는 것으로 삽입(insertion), 결실(deletion), 전위(invertion), 등과 같은 유전자의 구조적인 변이를 말한다. 이러한 CNV는 헬스로그의 최신연구동향에서와 같이 질병과의 연관이 있음이 알려지면서 건강과 질병과의 연결고리를 찾기 위한 다양한 분석 방법이 시도되어 관련 기술도 빠르게 발전하고 있다.





유전자 복제수 변이 찾기

이러한 CNV를 찾아내는 방법은 여러가지 방법이 있지만 콘라드는 별도의 비용 지출이 없이 공개된 자신의 유전체(SNP)정보와 부모의 정보를 이용해서 CNV를 찾아내게 된다. 아래 첫번째 그림(Deletion이라고 표기된)처럼 아버지가 'AA' 어머니가 'TT'라고 SNP칩 결과가 나왔다고 하자. 그러나 실제 부모는 'AA', 'T-'를 가지고 있다. 어머니가 'T'하나만 가지고 있지만, 칩 결과는 'T-'이런식으로 결과가 나오지 않고 'TT'라고 나오게 된다. 즉 SNP 칩에서는 deletion을 인식하지 못하기 때문이다. 


이러한 경우 자식이 나올 수 있는 칩결과는 'AT'이다. 그러나 실제 칩결과가 'AA'가 나오게 된다면, 이는 앞서 어머니가 'T-'를 가지고 있기 때문에 'T'가 아닌 '-'을 물려받아 자식에게서 'AA'가 나오게 된것이다. 이러한 경우를 deletion polymorphism이라고 하며, CNV의 deletion의 하나이다.


두번째 그림(Error라고 표기된)의 경우 부모가 'AA', 'AT'라고 칩 결과가 나오고 자식은 'AA'라고 나왔다. 칩 결과만 보자면 이는 아무런 문제가 없는 경우이지만, 실제로는 부모가 'AA', 'TT'이고 자식이 'AA'라고 나온 경우이기 때문에 이런 경우에는 칩결과만을 보자면 문제가 없는 경우지만 실제로는 에러인 경우이다. 콘라드는 자신의 부모와 자신의 칩 결과를 분석해서 첫번째 경우처럼 deletion(구멍이라는 표현을 썼지만,,,)을 찾아냈다.



(그림 출처: Donald F Conrad et.at, Nature Genetics. 2006)

콘라드는 부모의 23andMe결과와 자신의 결과를 기반으로 2개의 deletion 가능성이 있는 부분을 찾아내게 되었다. 첫 번째는 7번 염색체의 non-coding 지역에서, 두 번째는 15번 염색체의 RYR3 유전자(brain ryanodine receptor)의 intron 지역에서 각각 deletion을 찾았다. 첫번째 지역의 경우 약 50kb의 deletion으로 rs10228390에서 rs917038까지 총 18개의 SNP이 존재하는 지역이다. 


이중 50%에 해당하는 9개의 SNP은 멘델리안 에러 (Mendelian errors, 부모의 2개중 한개씩 자식에게 나타나야 하는데 이러한 패턴이 안보이는 경우 멘델리안 에러 예)부(AA),모(TT)인데 자식이(AA)가 나오는 경우 에러로 처리)를 보였다. 이러한 deletion은 CNV를 모아놓은 DGV(Database of Genomic Variants)에서 이미 보고된 부분이다. 두번째는 총 3개의 SNP이 존재하는데 이중 2개가 멘델리안 에러를 보였다.


왜 비교적 적은 수의 deletion이 관찰되었을까?에 대한 설명으로 두가지를 생각해 볼 수 있다. 하나는 통계적인 샘플링에 관한것으로 그의 가족에서 deletion이 별로 없기 때문이라는 것과 가장 강력한 설명력을 가지는 두번째는 이 부위에서의 23andMe 데이터가 deletion 부분에서 많은 missing 데이터를 포함하기 때문이다. 


왜 missing 데이터가 알려진 common deletion 부분에 많을까? 총 1,453개의 missing된 데이터가 존재하고 전체적으로 보면 99.75%의 call rate 즉, 전체 데이터중 0.25%에 해당하는 부분이 missing 데이터인셈이다. 최근 발표된 연구결과에 따르면 1,008개의 deletion이 유럽인에게서 보여지며, 975개의 SNP가 이 영역에 속하게 된다. 이 975개중 84개 (8.6%)가 "no call"이며 이는 전체 데이터중 0.25%에 해당하는 부분으로 missing된 SNP의 대다수가 이미 보고된 deletion 부분에 존재한다는 이야기가 된다.



이러한 유전자 복제수 변이는 무엇을 이야기하는 것인가?

CNV를 찾기 위한 보다 정밀한 많은 방법이 있지만, 여기서는 23andMe의 가족 데이터를 기반으로 CNV에 찾는 방법에 대해서 알아봤다. 아직까지 CNV는 많은 연구가 진행되지 않은 인간의 유전변이 중 하나로 얼마전 한국인에서 CNV를 찾는 연구 (Hansoo Park et al. 2010, Nature Genetics) 가 서울대 서정선 교수에 의해서 진행되었고, 아직까지는 CNV를 발굴하는데 촛점이 맞추어져 있으며, 2010년 네이처 논문 (Conrad, D.F. et al. 2009, Nature) 에 의하면 크론병, 제1형 당뇨, 류마티스 관절염 등이 CNV와 연관이 있으며, 정신질환 및 발달장애와 관련이 있다고 알려져 있다.

반응형