유전자정보분석

한국인 공개 데이터에 대한 단상

hongiiv 2011. 11. 26. 10:18
반응형
KPGP 공개  데이터를 가지고 분석하기 전에 그들간의 어떠한 연결 고리가 있는지 확인하는 방법에 대해서 저번 포스팅에서 잠깐 다루었습니다. 실제 모든 KPGP 공개 데이터를 가지고 kinship을 분석해 보니 제가 원하던 결과가 나오지 않아서 현재 좀 의하한 상태입니다. 

Genome 연구에서의 데이터 공개의 의미
공개된 genome 데이터는 기본적으로 그들간의 kinship이 있어서는 안됩니다. 아니 있어도 됩니다. 하지만, 혈연관계가 있다면은 마땅히 그 정보 또한 공개되어야 합니다. 그래야만 완벽한 공개 데이터라고 할 수 있습니다. 

기본적으로 genome 데이터는 부모에서 자식에게로 유전되는 즉 관계가 있는 데이터입니다. 따라서 자신이 어떠한 연구를 수행하는냐에 따라서 이러한 혈연관계가 있는 데이터를 썼다가 낭패를 볼 수 가 있습니다. 가령 gwas 연구에 있어서는 이러한 혈연관계가 있는 데이터는 제거됩니다. 그 이유는 질병에 관련된 유전자를 찾아야 하는데 자칫 혈연관계가 있는 데이터를 모르고 사용하는 경우 질병관련 유전자가 아닌 그 가족을 다른 가족과 구분짓는 유전자를 찾게 될 수 있기 때문입니다.

따라서, 데이터를 공개한다면 마땅히 혈연 정보 또한 공개되어야 그 데이터를 분석하는 사람들에게 혼란을 주지 않습니다. HapMap이나 1000 genomes 프로젝트를 보더라도 혈연관계가 있는 데이터는 따로 그 내용을 표시해 주고 있습니다.

KPGP 공개 데이터는?
그렇다면 KPGP는 어떨까요? 기본적으로 쌍둥이 2쌍에 대한 정보만 존재합니다. 그렇다면 당연히 연구자들은 그외 사람들은 혈연관계가 없다고 생각하실텐데요. 이거 살짝 분석해 보니 KPGP는 KFGP(Korea Family Genome Project)인듯합니다. (-.-;;) KPGP_00002를 시작으로 12개의 Sample이 서로간에 혈연관계가 있는 것으로 나타났으니 말이죠. 총 49개의 Sample 중 12 Sample이 가족이라니.. 이건 한국인 게놈 프로젝트인지... KPGP_0000X 가족 게놈 프로젝트인지... 좀 헷갈리네요.

아래의 그래프는 서로간의 연관성을 그래프로 표현한 것입니다. 각 원은 Sample을 표시한 것이구요. 원간의 연결선은 kinship이 존재하는 사람들간에 연결한 것입니다. 그리고 선의 굵기는 두 사람이 얼마나 근친관계가 있느냐를 표시한 것입니다. 

KPGP_00011과 KPGP_00012를 보면 중간 굵기 인데요. 이건 형제쯤 되는 정도
KPGP_00088과 KPGP_00089(그리고 KPGP_00091과 KPGP_00090)는 엄청 굵은데요. 이건 쌍둥이나 동일인쯤 되는 정도 
그외 선들은 부모자식이나 사촌지간들쯤 된다고 보시면 되겠습니다.

그림의 하단 부분을 보면 KPGP_0009(아빠)의 자식 2명 KPGP_00011과 KPGP_00012가 있습니다. 그리고 그하단에는 KPGP_00010이라는 엄마가 존재한다고 볼 수 있습니다.


제대로 된 데이터 공개를 생각하자
지금까지 Genome 연구에서 한국은 괄목할만한 성과를 거두고 있습니다. 그러나 이러한 성과는 어찌보면 어느 몇몇 그룹에만 국한된 그런 성과입니다. 외국의 경우 데이터를 수집하고, 또한 공개를 통해 또 다른 연구들이 활발하게 이루어지고 있습니다. 연구의 생태계가 조성되어 있는 것이죠.

1000 genomes 프로젝트는 단순히 NGS raw 데이터나 발굴한 유전변이 뿐만 아니라, 연구자들이 활용할 수 있는 다양한 2차3차 데이터와 브라우저 등이 함께 제공됩니다. 물론 그 데이터들은 어떻게 만들어졌는지 등등  예를 들자면, 1000 genomes의 경우 모든 샘플의 유전변이는 하나의 vcf 포맷으로 제공되어 손쉽게 분석이 가능한데, 저는 KPGP 데이터로 저 그래프를 그리느라 각각 개인의 데이터를 merge하는 등의 삽질을 했죠. 너무 큰 걸 바라는 건 아니지만... 그래도... 좀.... 

하지만, 국내는 굵직굵직한 공개 프로젝트에 한국인 데이터를 제공하는 것 조차 제대로 이루어지지 않고 있는 상황입니다. 그런 의미에서 KPGP는 정말 훌륭한 프로젝트입니다. 하지만, 단순한 데이터 공개가 아닌 실제 연구자들이 연구를 수행할 수 있는 제대로된 데이터가 아닌 환경을 제공했으면 하는 바램입니다. 안그랬다가는 좋은 일을 하면서도 욕을 먹을 수 있는게 이바닥 아닐까요? ㅎㅎㅎ


반응형