유전자정보분석

풀 시퀀싱에 대한 환상은 버려라

hongiiv 2010. 4. 26. 15:48
반응형
고전적으로 쌍둥이나 가족은 유전에 대한 연구에서 많이 사용하고 이들이 많은 것을 설명해 줄 수가 있다. 앞선 포스팅에서도 부모의 정보를 가지고 자신이 어떠한 정보를 부모 중 누구에게서 받았는지를 알 수 있으며, 어떠한 질병이 환경적인 요인인지 유전적인 요인인지는 쌍둥이에 대한 연구를 통해 비교적 설명력있게 말할 수도 있다.

이번 포스팅에서는 가족을 대상으로 풀 시퀀싱을 수행한 것에 대해서 살펴 보려고 한다. 오늘 살펴 볼 두 가족은 모두 4명의 구성원으로 되어 있으며, 한 가족은 현재 가족중에 어떠한 질병도 가지고 있지 않은 솔렉사의 전 CEO인 존 웨스트(John West) 가족과 밀러신드롬 자녀를 가진 유타 대학의 린 조디(Lynn Jorde) 교수의 가족이다. 

가족들은 자신의 신상정보를 공개하는 것에 대해 동의했는가?
개인적으로 풀 시퀀싱은 아니지만 60만개에 해당하는 유전정보를 나 자신 또한 공개를 했다. 나는 어엿한 성인이고 내가 지금 어떠한 정보를 공개했는지에 대해서 잘 안다고 생각했기에 공개를 결심하게 되었다. 하지만 난 그러한 행동이 나 자신만의 일이 아니라는 것을 깨달았다. 바로 우리 가족을 위협에 빠트릴 수 있다는 생각을 미처 하지 못했던 것이다. 내가 가지고 있는 정보는 나의 것이기는 하지만 일정 부분에 대해서는 우리 가족(부모님과 동생)이 공유하고 있는 정보이며, 나의 정보를 통해 어느 정도 우리 가족의 정보를 유추가 가능하기 때문이다. 물론 이러한 일까지 벌어지지는 않겠지만 말이다. 

그렇다면 저 가족들은 과연 십대가 포함된 상황에서 미성년자들이 자신만의 신념을 가지고 현재 자신이 공개하려고하는 정보가 어떠한 의미인지 정확하게 인지하고 신상을 포함한 정보를 공개한것인가 약간의 의문이 든다. 앞으로 이제 막 시작된 풀 시퀀싱은 올 해안에 수백명이 수행되고 엑손부분의 시퀀싱만 수천명이 수행될 것이라고 예상되며, 이윤을 목적으로 하는 유전자 검사 서비스 업체를 통해서도 많은 시퀀싱이 이루어질텐데, 이 중에 자신이나 자신의 가족에 대한 신상을 공개하려고 하는이들은 좀 생각해 보아야 할 것이다.

우리가 잘 알고 있는 하버드의 조지 처치가 수행하는 Personal Genome Project는 현재 CC0라는 CCL(Creative Commons License)를 채택하고 있다. 일반적으로 CCL은 컨텐츠에 대한 이용허락 표시를 하는 것으로 저작자표시, 비영리, 변경금지, 동일조건변경허락 등의 라이센스 조건을 명시하는 것으로, PGP에서 채택하고 있는 CC0는 PGP를 통해 생산된 연구용 데이터에 대해서 아무런 제약없이 사용가능함을 의미한다. 이러한 조지 처치의 CC0 라이센스의 적용은 PGP 데이터에 대해서 연구용이건 상업용이건 그사람의 신상이 유출되거나 하는 등의 아무런 말도 나오지 않는 그야말로 아주 환상적인 데이터 공개라고 할 수 있겠다.-.-''

Screen shot 2010-04-26 at 3.44.23 PM
PGP에서 사용중인 CC0 라이센스  freely available to the public ^^

West 가족
솔렉사의 전 CEO인 존 웨스트(John West)의 4명의 가족(아내, 두명의 십대 자녀)의 시퀀싱을 수행했고 추정하기에 이십만달러(일루미나에서는 4만팔천달러, 한화로 5천3백만원에 퍼스널 시퀀싱을 해주고 있음)의 가격이라고 한다. 하지만 웨스트 가족은 할인이 더해졌을 거라고 한다. 또한 풀 시퀀싱을 하기 전에 이미 23andMe에서 3년전에 두자녀가 서비스를 받았다고 한다.

Jorde 가족
앞서 살펴본 가족은 평범하지만, 이 가족은 좀 사연이 길다. 우선 아버지인 Lynn Jorde는 유타대학의 유전학자로 그의 아내와 두 명의 의붓자식이 있다. 따라서 그의 아내, 의붓자식2명, 생물학적 진짜 아버지 이렇게 4명의 풀 시퀀싱을 수행했다고 한다. 그러나 여기서 끝이 아니라 두 자식은 밀러신드롬과 원발성 섬모 이상운동증을 가지고 있다고 한다.

Screen shot 2010-04-26 at 3.40.29 PM
Jorde의 가족

가족 데이터의 중요성
이러한 풀 시퀀싱에서 가족 데이터는 여러가지 중요성을 가지고 있는데 하나씩 벗겨보면 다음과 같다.

풀시퀀싱에서의 에러 찾기
NCBI의 레퍼런스 지놈의 서열과 비교해서 다른 부분을 찾은 경우 그것이 돌연변이인지 시퀀싱 에러인지를 어느 정도 확인 가능하다는 것이다. 이것은 자식의 경우 부모에게서 각각 하나씩 물려 받기 때문에 이부분을 확인하면 어느정도 돌연변이인지 에러인지를 추정 가능하게 된다.

돌연변이 찾기
한 세대 즉 부모와 자식간에 어느 정도의 돌연변이 발생하는지를 알 수 있다는 것이다. 이러한 돌연변이의 비율은 가족 데이터가 아니면 알 기 힘들다.

질병의 원인 찾기
Jorde 가족의 경우 질병에 걸린 두 자녀와 정상인 부모의 데이터를 통해 두 자녀가 가지고 있는 질병의 원인을 찾는데 사용될 수 있다. 자녀들의 질병이 매우 희귀하기 때문에 특정 유전체 부위의 삽입(Insertion), 결손(Deletion)이나 복제수변이(Copy Number Variation - CNV)를 부모와 자녀 사이에 관찰하여 정확한 유전적 원인을 찾는 것을 기대할 수 있다. 희귀질환의 경우 유전적 요인이 질병에 매우 강하게 영향을 미치기 때문이다. 하지만 시퀀싱을 통해 나타나는 모든 변이는 유전적인 질병을 설명할 수는 없다. 또한 이러한 소규모 가족단위의 서열 분석 방법을 당뇨, 비만이나 고혈압 같은 공통복합질환 (Common Complex Disease)에 동일하게 적용하는데는 한계가 있다. 공통복합질환은 유전적인 요인과 환경적인 요인이 복합적으로 영향을 미치기 때문에 대규모 인구집단이나 다수의 가족을 기반으로 연구하는 것이 가장 정확한 결과를 보여주기 때문이다. 대규모 연구에 있어서 가장 큰 걸림돌은 아직까지 매우 높은 시퀀싱 가격과 공통변이와 희귀변이 분석에 대한 통계적 방법론일 것이다.

점점 더 시퀀싱 기술은 발달하고 그 가격도 점차 내려가고 있는것은 어찌 보면 당연한 일이며, 이러한 가격 하락과 더불어 개인 유전자 검사에서도 서서히 풀 시퀀싱을 사용하기 시작하고 있지만, 빨라져가는 기술에 비해 그 데이터를 해석하는 능력은 한참 뒤떨어져 있는 현실이다.

Screen shot 2010-04-26 at 3.47.26 PM
풀시퀀싱을 통한 질병원인 찾기는 건초더미에서 바늘찾기와 같다.
출처: Flickr의
t_buchtele

국내에서도 모 대학의 교수님이 한국인의 풀 시퀀싱과 아시아인의 유전변이를 발굴했다는 기사를 보면 마치 코앞에 예측/예방의학이 눈앞에 온것처럼 느껴지는데 아직은 갈길이 멀다는 것이다. 단순히 시퀀싱은 하나의 도구라는 사실을 명심해야 할 것이다. 그렇다고 시퀀싱이 뭐 쉽거나 학술적 의미가 없다는 것은 아니다. 아직 갈길이 먼 분야이니 너무 성급하게 당장 예측/예방의학이 곧 실현될 것이라는 생각은 좀 접어 두길 바란다는 것이다.


참고
Roach, J.C., & et al. (2010). Analysis of genetic inheritance in a family quartet by whole-genome sequencing. Science 
반응형