티스토리 툴바


blogging2011/12/08 23:11
지난 월요일부터 수요일까지 부산 그랜드 호텔에서 GIW 2011/BIOINFO 211 컨퍼런스가 있었습니다. KT도 약간의 후원하게 되었고, 그에 따라 참가하게 되었습니다. 조만간 KT도 멋진 발표를 할날을 기대하며....ㅋㅋㅋ 간단하게 리뷰에 들어가겠습니다.



행사장 전경

KT도 후원했습니다.!!!

Information-based design of drug repositioning and combiniation

김성훈 교수 (서울대학교 약대)
서울대 김성훈 교수님의 발표로 기존 약물의 새로운 기능을 밝히기 위한 자신의 PharmDB에 대한 설명이 있었습니다.

My Samples, My Study, My Sequencing
김경아 (BMS)

일루미나의 국내 총판을 담당하는 BMS의 발표로 일루미나의 HiSeq이 아닌 작은 크기의  MiSeq에 대한 설명이 있었습니다. 임상 분야에 활용될 수 있다는 내용과 (작은크기로), 또한 별도의 컴퓨팅 인프라 없이 일루미나가 제공하는 Base Cloud를 활용하여 데이터를 저장/분석/관리가 가능하다는 이야기가 있었습니다.

Application of new genome anaysis technology
DNALINK

이종은 사장님 대신 다른 분이 발표를 진행하셨구요, 국내 최초로 DNALINK에 들여오는 Single Molecule 기반의 Pac Bio 제품에 대한 설명이 있었습니다. 기본적으로 6~8 kb(참고로 저희는 일루미나 HiSeq 2000으로 90bp)의 긴 read를 읽을 수 있기 때문에 denovo나 variation을 찾는데 좋다는 설명과 아직까지 긴 read이기 때문에 에러도 좀 있기는 하다는 내용과 ngs과 함께 하이브리드 형태로 사용하면 다양한 분야에서 좋은 결과를 얻을 수 있다. 현재 셋팅되어 테스트 중으로 내년 1월부터 서비스가 가능하다는 내용이었습니다.

PacBio RS
DNALINK에 인스톨중인 PacBio RS 장비

IBM Bioinformatics Cloud for Healthcare Industry
문수영 (IBM Korea)

현재 IBM이 글로벌하게 추진하고 있는 클라우드 기반 genome 플랫폼에 대한 설명이 있었습니다. 상품은 Bioinformatics Exchange Cloud로 크게 다음의 3가지로 분류됩니다.
 

1. private: 기관에 직접 클라우드 인프라와 플랫폼을 제공하는 상품 (IBM은 하드웨어, 클라우드 기술 + genome 플랫폼 모두를 가지고 있기 때문에 가능)
2. hosted: 한국 IBM은 인천 송도에 데이터 센터를 운영하고 있고, 여기에 dedicate(아웃소싱) 형태로 관리해주는 형식의 상품
3. public: DNAnexus나 삼성 SDS와 같이 public하게 사용하는 상품

한국 IBM이 생각하는 주력 상품은 2번 형태로 본사의 주도로 마케팅과 체계가 내려오고, 아직까지는 아니지만 한국 IBM도 
Lab 수준의 genome관련 조직을 만들 계획이라고 합니다.

Cancer genomics and epigenomics research on the cloud computing
김선 교수(서울대학교)

얼마전 미국 인디애나 대학교의 교수로 재직하다가 서울대학교로 옮기신 분으로, 미국에서 진행했던 클라우드 기반 암 및 Epigenome 분석 플랫폼에 대한 설명이 있었습니다. 아마존의 EC2 서비스를 이용하여 제공되는 분석 플랫폼(소프트웨어)로 아마존의 이미지(AIM) 형태로 제공하여 쉽게 설치하여 사용 가능하다고 합니다.

Genome-wide map of common and rare variants in Asian population using
massively parallel DNA and RNA sequencing

서정선 교수(서울대학교)
기존에 한국인 whole genome 시퀀싱과 RNA 시퀀싱에 대한 내용이었구요, 뭐 한국인만 가진 유전자 마른귀지, 술먹으면 얼굴벌개지는 유전자 등등 아시아인에서 한중일, 그리고 유럽인에서 다르다 뭐 이런 내용이었습니다.

KISTI
별도의 발표는 없었지만, 지난번 열린 한국 슈퍼컴퓨팅 컨퍼런스에서 발표도 있었고, 이번에 부스 참가 만들었더군요. 3~4년전인가 한창 BioWorks라는 Bioinformatics workflow 관리 도구를 선 보인적이 있는데, 아직까지 꾸준히 이어가고 있었습니다. 예전에는 클러스터 기반이었다면, 이제는 유행에 맞추어 클라우드 기반으로 서비스를 수행하고 있었습니다.

달라진것이라면, 예전에는 KISTI에 별도의 센터로 존재했었지만, 이제는 슈퍼컴퓨팅센터의 하나의 팀으로 존재하고 있더군요. NGS를 비롯한 유전체 연구활성화와 더불어 예전의 영광?을 되찾는 힘을 보여줬으면 하는 바램입니다. 그런데,, BioWorks에 몇년만에 로그인해봤는데,, 제아이디도 그대로 존재하고,,, 서비스도 그대로라는....(실망).... 언뜻 NGS 관련 워크플로우도 작성할 수 있다고 설명했던것 같던데... 제눈엔 옛날 서비스 그대로라는... 제발 좀!!! 분발하셨으면 합니다.

백만년만에 다시 실행해본 Bioworks 옛날 만들어놨던 스크립트도 그대로 ㅋㅋㅋ
 http://ccbb.kisti.re.kr/index.php

 이상 간단 리뷰였습니다! 혹시나 잘못된 부분 있으면 댓글로 지적 부탁드립니다. 예전에 S모사로부터 잘못을 지적 받은적이 있어서. ㅋㅋㅋ
저작자 표시 비영리 동일 조건 변경 허락
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by hongiiv
유전자정보분석2011/11/26 10:18
KPGP 공개  데이터를 가지고 분석하기 전에 그들간의 어떠한 연결 고리가 있는지 확인하는 방법에 대해서 저번 포스팅에서 잠깐 다루었습니다. 실제 모든 KPGP 공개 데이터를 가지고 kinship을 분석해 보니 제가 원하던 결과가 나오지 않아서 현재 좀 의하한 상태입니다. 

Genome 연구에서의 데이터 공개의 의미
공개된 genome 데이터는 기본적으로 그들간의 kinship이 있어서는 안됩니다. 아니 있어도 됩니다. 하지만, 혈연관계가 있다면은 마땅히 그 정보 또한 공개되어야 합니다. 그래야만 완벽한 공개 데이터라고 할 수 있습니다. 

기본적으로 genome 데이터는 부모에서 자식에게로 유전되는 즉 관계가 있는 데이터입니다. 따라서 자신이 어떠한 연구를 수행하는냐에 따라서 이러한 혈연관계가 있는 데이터를 썼다가 낭패를 볼 수 가 있습니다. 가령 gwas 연구에 있어서는 이러한 혈연관계가 있는 데이터는 제거됩니다. 그 이유는 질병에 관련된 유전자를 찾아야 하는데 자칫 혈연관계가 있는 데이터를 모르고 사용하는 경우 질병관련 유전자가 아닌 그 가족을 다른 가족과 구분짓는 유전자를 찾게 될 수 있기 때문입니다.

따라서, 데이터를 공개한다면 마땅히 혈연 정보 또한 공개되어야 그 데이터를 분석하는 사람들에게 혼란을 주지 않습니다. HapMap이나 1000 genomes 프로젝트를 보더라도 혈연관계가 있는 데이터는 따로 그 내용을 표시해 주고 있습니다.

KPGP 공개 데이터는?
그렇다면 KPGP는 어떨까요? 기본적으로 쌍둥이 2쌍에 대한 정보만 존재합니다. 그렇다면 당연히 연구자들은 그외 사람들은 혈연관계가 없다고 생각하실텐데요. 이거 살짝 분석해 보니 KPGP는 KFGP(Korea Family Genome Project)인듯합니다. (-.-;;) KPGP_00002를 시작으로 12개의 Sample이 서로간에 혈연관계가 있는 것으로 나타났으니 말이죠. 총 49개의 Sample 중 12 Sample이 가족이라니.. 이건 한국인 게놈 프로젝트인지... KPGP_0000X 가족 게놈 프로젝트인지... 좀 헷갈리네요.

아래의 그래프는 서로간의 연관성을 그래프로 표현한 것입니다. 각 원은 Sample을 표시한 것이구요. 원간의 연결선은 kinship이 존재하는 사람들간에 연결한 것입니다. 그리고 선의 굵기는 두 사람이 얼마나 근친관계가 있느냐를 표시한 것입니다. 

KPGP_00011과 KPGP_00012를 보면 중간 굵기 인데요. 이건 형제쯤 되는 정도
KPGP_00088과 KPGP_00089(그리고 KPGP_00091과 KPGP_00090)는 엄청 굵은데요. 이건 쌍둥이나 동일인쯤 되는 정도 
그외 선들은 부모자식이나 사촌지간들쯤 된다고 보시면 되겠습니다.

그림의 하단 부분을 보면 KPGP_0009(아빠)의 자식 2명 KPGP_00011과 KPGP_00012가 있습니다. 그리고 그하단에는 KPGP_00010이라는 엄마가 존재한다고 볼 수 있습니다.


제대로 된 데이터 공개를 생각하자
지금까지 Genome 연구에서 한국은 괄목할만한 성과를 거두고 있습니다. 그러나 이러한 성과는 어찌보면 어느 몇몇 그룹에만 국한된 그런 성과입니다. 외국의 경우 데이터를 수집하고, 또한 공개를 통해 또 다른 연구들이 활발하게 이루어지고 있습니다. 연구의 생태계가 조성되어 있는 것이죠.

1000 genomes 프로젝트는 단순히 NGS raw 데이터나 발굴한 유전변이 뿐만 아니라, 연구자들이 활용할 수 있는 다양한 2차3차 데이터와 브라우저 등이 함께 제공됩니다. 물론 그 데이터들은 어떻게 만들어졌는지 등등  예를 들자면, 1000 genomes의 경우 모든 샘플의 유전변이는 하나의 vcf 포맷으로 제공되어 손쉽게 분석이 가능한데, 저는 KPGP 데이터로 저 그래프를 그리느라 각각 개인의 데이터를 merge하는 등의 삽질을 했죠. 너무 큰 걸 바라는 건 아니지만... 그래도... 좀.... 

하지만, 국내는 굵직굵직한 공개 프로젝트에 한국인 데이터를 제공하는 것 조차 제대로 이루어지지 않고 있는 상황입니다. 그런 의미에서 KPGP는 정말 훌륭한 프로젝트입니다. 하지만, 단순한 데이터 공개가 아닌 실제 연구자들이 연구를 수행할 수 있는 제대로된 데이터가 아닌 환경을 제공했으면 하는 바램입니다. 안그랬다가는 좋은 일을 하면서도 욕을 먹을 수 있는게 이바닥 아닐까요? ㅎㅎㅎ


저작자 표시 비영리 동일 조건 변경 허락
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by hongiiv
유전자정보분석2011/11/22 18:12
즐거운 분석 놀이 - 역시나 제일 재미있는 것은 뭐랄까? 데이터를 분석하고 거기에서 의미를 찾아내는 것이 아닐까?   ^_____________^   마치 보물찾기와 같은...그럼 오늘은 저번 galaxy를 이용한 분석의 연장선상으로 발굴한 유전변이를 가지고 다양한 분석을  해보도록 하겠습니다.

그런데 안타깝게도 오늘 사용할 주재료인 VCF 파일은 galaxy에서 아직 지원을 안하고 있습니다. VCF (Variant Call Format)는 유전변이를 나타내는 표준 파일 형식인데요. NGS를 통해 발굴된 유전변이를 VCF 포맷으로 만들어야 하건만, 이때 Picard나 GATK와 같은 툴들이 사용되는데, 아직 galaxy에서는 이 툴들을 지원하지 않고 있습니다. 뭐 조만간 지원할 것이라고 보는데요. 그건 테스트 galaxy 서버에는 해당 툴들이 있기 때문입니다. 그러니까 곧 정식 galaxy에도 도입된다는 이야기가 되겠죠. 암튼 NGS를 통해 나온 유전변이를 VCF 포맷의 파일로 만들었다고 가정하고 진행하도록 하겠습니다.



한국인 데이터가 없다구요?!!
현재 국내에서 가장 많은 한국인 NGS 데이터를 공개하고 있는 곳은 KPGP(Korean Personal Genome Project)입니다. 이 프로젝트에서는 현재 42명의 한국인 데이터를 공개하고 있습니다.  

   남  여  합
한국인  20  16 36 
한국인 혼혈 (East Asian/Caucasian) 2
한국인 일란성 쌍둥이 0 2
한국인 이란성 쌍둥이
합계 24  18 42

일란성 쌍둥이 데이터 다운로드
KPGP 데이터는 opengenome.net 을 통해  다운로드가 가능하며, 공개되는 데이터는 FASTQ 포맷의 raw data, BAM 포맷의 mapping 데이터, 각종  유전변이 데이터가 존재합니다. 여기서는 VCF 포맷의 SNV 데이터를 다운로드 하도록 하겠습니다. gzip으로 압축된 형태로 약 80 MB의 용량 (압축 해제시 약 400 MB)을 차지합니다. KPGP 웹 페이지를 보시면 일란성 쌍둥이 (Monozygotic Twin) 샘플이 있습니다.  일란성 쌍둥이의 경우 SNV 데이터는 정확히 일치한다고 알려져 있습니다. 물론 그래야만 하구요 ^^;; KPGP_00088, KPGP_00089가 일란성 쌍둥이 샘플명입니다. 각각을 클릭하여 SNV 데이터를 다운로드 합니다.

VCF 파일을 PLINK 포맷으로 변경하기
다양한 genome 분석을 위해서는 VCF 포맷의 데이터를 PLINK 포맷으로 변경해야 합니다. 이때 사용되는 툴이 VCFTools 입니다. VCFTools의 기능 중에는 PLINK에서 사용 가능한 PED, MAP 파일로 변경해주는 옵션이 있습니다.

$ vcftools --vcf KPGP89_G_110915_HiSeq_EastAsian_Kor_F.vcf.SNV --plink

이렇게 명령을 주면, out.map 파일과 out.ped 파일이 생성됩니다. 그럼 이 파일을 PLINK를 이용하여 Binary 형태로 변경합니다. 그런데 주의하셔야 할것은 기본적으로 KPGP에서 생성한 VCF 파일에는 염색체를 나타내는 첫번째 컬럼이 "chr1"과 같이 chr이라는 접두사가 붙습니다. 이렇게 되면 PLINK에서 인식하지 못하기 때문에 그냥 "1"이라고 변경해주어야 합니다. vi 등에서 문자열 치환을 통해 "chr"을 모두 삭제합니다. 또 하나 주의하여야 할것이 있는데요. KPGP의 VCF 포맷에는 ID 즉 해당 변이의 식별자에 해당하는 세번째 컬럼 또한 모두 "."으로 되어 있습니다. 이 부분 또한 임의의 ID를 부여해야합니다. 저는 "염색체_포지션" 즉 "chr1_112000"의 형태로 임의의 ID를 부여했습니다. 이상의 두 가지에 대해서 변경을 하신 후에 VCFtools를 이용하여 PLINK포맷으로 변경합니다. 

$ plink --file out --make-bed --out KPGP_89

위의 명령을 실행하면, out.map과 out.ped 파일은 KPGP_89.bed, KPGP_89.bim, KPGP.fam의 세개의 파일로 변경됩니다. 이 과정을 두 쌍둥이에 대해서 각각 수행합니다. 이제는 각각의 PLINK 파일을 병합합니다.

$ plink --bfile KPGP_89 --bmerge  KPGP_88.bed KPGP_88.bim KPGP_88.fam --make-bed --out TWINS

그럼 TWINS.bed, TWINS.bim, TWINS.fam 파일에 두명의 쌍둥이 데이터가 들어가게 됩니다. 이러한 방법으로 VCF파일을 PLINK로 변환하여 association 분석 등을 수행할 수 있습니다.

혈연관계 분석하기
그럼 과연 이 쌍둥이 데이터가 정말 혈연관계가 있는건지 확인해 보도록 하겠습니다. PLINK에서는 IBS를 이용하여 혈연관계를 분석할 수 있습니다만, 여기서는 KING(Kinship-based INference for Gwas) 이라는 프로그램으로 혈연관계를 분석하도록 하겠습니다. KING은 pairwise로 사람들간의 혈연지수 (kinship coefficient)를 계산해줍니다. kinship coefficient는 다음과 같습니다.

 Relationship Kinship cofficient   Coeffcient of relatedness
 자기자신과 비교, SELF 0.5   1.0
 일란성 쌍둥이, Monozygotic twins 0.5  1.0
 부모-자식, Parent-child 0.25   0.5 
 친형제, Full siblings 0.25   0.5
 배다른 형제, Half siblings 0.125  0.25 
 친사촌, First cousins 0.0625   0.125
 관계없음, Unrelated 0  0

$ king -b TWINS.bed --kinship

위의 결과로 king.kin0 파일이 생성되며 여기에 비교하고자 하는 샘플들간의 Kinship cofficient가 있습니다. 아래와 같이 두 쌍둥이간에 0.4988이 나온것을 확인하실 수 있는데요. 바로 일란성 쌍둥이이거나 혹은 같은 사람이라는 것을 의미합니다. 

 

가족 찾기 문제
자 이제 문제 갑니다. 아까 말한 OPEN KPGP의 공개된 42명의 데이터에는 서로 가족인 사람이 있습니다. 부모와 자식2이 있습니다. 한번 분석해 보시면 간단하게 어떠한 샘플들이 서로 혈연 관계인지를 확인하 실 수 있을 겁니다. 힌트 나갑니다. 부(KPGP_00009) 모(KPGP_00010) 입니다. 자 그럼 여러분들이 잃어버린 자식을 한번 찾아 주시기 바랍니다. ^________________^ 

덧) KPGP 데이터를 다운로드 하실경우 olleh ucloud라고 되어 있는 곳의 RAW DATA를 다운로드 하실 경우 클라우드를 통해 빠르게 다운로드 하실 수 있습니다. 현재 KPGP데이터는 일반 FTP와 클라우드에 나뉘어 제공되니 참고 하시기 바랍니다.


저작자 표시 비영리 동일 조건 변경 허락
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by hongiiv