Fork me on GitHub 단맛만좋아요 ::

23andMe Research Portal - 유전체데이터베이스 팔기
2015/01/26 13:06 | 개인유전체분석

23andMe 유전체 데이터베이스 판매

지난 일주일 간격으로 23andMe는 화이자 (Pfizer), 지넨테크 (Genetech)와 유전체 데이터 사용에 관한 파트너십을 체결했다. 지넨테크는 암치료제인 아바스틴 (Avastin)과 허셉틴 (Herceptin)을 생산하는 회사로 로슈 (Roche)에 속해 있다. 이 두 회사외에도 23andMe는 총 14개의 private companies 및 대학들과 파트너십을 체결했다고 전했다. 이로서 파트너십을 체결한 Big Pharma와 Biotech 회사들은 23andMe가 이미 모아 놓은 데이터를 곧바로 활용할 수 있게 된 것이다.

유전체 데이터 규모

23andMe는 자신들의 데이터베이스를 "23andMe's Research Portal"이라고 부르는데, 현재까지 75만명이상의 유전체 데이터 (genotyped individuals)를 확보하고 있으며 이중 65만명 이상의 데이터가 자신들의 데이터를 연구에 활용하도록 동의를 한 데이터라고 한다.


23andMe의 고객에게 자신의 데이터를 연구에 활용하도록 동의 여부를 묻는 화면


물론 해당 유전체 데이터는 200만개의 형질데이터(phenotypic data)를 포함하고 있으며, 이중 1천개가 curated된 데이터라고 한다. 즉, 65만명에 대한 유전체 데이터와 1천개의 임상변수를 사용할 수 있는 것이다. (Conditions/Diagnoses, Medication Usage, Response to Medication, Family History of Disease, Health Behaviors, Personality Traits, Environmental Exposures, Geographic Location)

암 및 자가면역 코호트

위의 데이터들은 다양한 코호트를 포함하고 있는데 암, 자가면역, 파킨슨, 알츠하이머 코호트 등이 존재한다.암 관련 코호트의 경우 6,000명의 유방암 환자(confirmed control 198,000명)와 5,000명의 전립선암(confirmed control 221,000명), 1,700명의 대장암 (confirmed control 431,000명) 코호트가 존재한다.1,500명의 루프스 환자와 이에 대응하는 367,000명의 contorls, 류머티스, IBD,  celiac 등의 코호트를 가지고 있다.

APOE e4/파킨슨 코호트

APOE e4와 관련한 120,000명 이상의 데이터와 파킨슨 관련 10,000명의 데이터를 보유하고 있다. 이러한 데이터의 경우 23andMe는 일반고객과는 별도로 비교적 저렴한 가격 또는 무료로 참여자를 모집함으로써 해당 데이터들을 수집할 수 있었다.

Research Portal

23andMe는 해당 데이터를 손쉽게 검색하고 자신의 연구 테마에 맞도록 샘플이나 변수를 설정하고 해당 결과까지 확인할 수 있는 Research Portal을 제공함으로써 샘플이나 데이터를 모을 필요없이 실시간(real time)으로 GWAS, PheWAS 연구를 수행할 수 있도록 해준다.

23andMe의 Research Portal: 원하는 유전체 데이터를 손쉽게 검색 가능한 인터페이스

국내 유전체 데이터 포털

지금까지 23andMe의 유전체 데이터 포털에 대해서 살펴보았는데 국내에서도 이러한 데이터 포털이 존재한다. 물론 연구자에게 국한되어 있으며 국가가 관리하고 있다. 질병관리본부의 한국인체자원은행사업을 통해 생산된 데이터로 코호트 기반과 질병기반의 인체자원을 분양하고 있는데 바로 여기에 유전체 데이터가 일부 포함되어 있다.


그럼 어떠한 유전체 데이터와 그와 연관된 데이터들이 존재하는지를 확인하기 위해서는 인체자원은행 분양데스크 홈페이지를 통해 검색이 가능하다. 인체자원검색 메뉴에서 역학기반검색을 선택하면 선택 가능한 자원 중 "유전체자료"가 포함된 데이터를 검색이 가능하다.


갑상선 과거력을 가진 유전체 데이터 검색


아래예는 농촌코호트 (522명) 중에서 갑상선질환을 앓았던 사람중 유전체 데이터를 포함하는 샘플 (총 45명)을 검색한 화면이다. 바로 이 데이터를 분양 신청하면 심사를 거쳐 해당 데이터를 이용할 수 가 있게 된다.

유전체 데이터 검색 결과


국내에서 유전체데이터를 검색하고 사용할 수 있는 시스템이 존재하지만 데이터 중 유전체 데이터를 가진 데이터는 일부에 불과하다. 하지만 잘 활용한다면 충분히 흥미로운 데이터임에는 분명하다.

시사점

미 FDA는 23andMe는 그동안 축적한 데이터를 기반으로 자체적으로 다양한 연구를 수행하는 한편 연구에 활용할 수 있는 잘 관리된 데이터베이스를 구축하고 이를 Research Portal이라는 이름으로 내놓고 여러 제약 및 Biotech와 파트너십을 통해 그 영향력을 점점 확대하고 있다.샘플을 모은 과정은 자사의 일반 고객과 연구기관과의 협력을 통해 자사 고객과는 다른 특정 질환의 샘플을 모으는 프젝트를 통해 저렴한 가격에 손쉽게 구하기 힘든 샘플을 손쉽게 구하는 전략을 펼쳤다. 이렇게 모은 샘플들이 알츠하이머나 파킨슨병에 대한 샘플들로 이번 지넨테크와 협력을 하는 부분이 바로 파킨슨병에 대한 것이다. 이러한 사실을 본다면 첫번째 시사점은 바로 참여자에게 부담없는 비용의 유전체 검사와 그에 따르는 샘플 수집과 연구에 활용이다. 여러 질환관련 학회나 각 질환관련 환우회 또는 질환연합회를 적극 활용하는 것 또한 좋은 포인트라고 할 수 있겠다.


23andMe Demographics


이러한 사실을 보면 유전체 데이터와 이를 통한 사업은 꽤나 관심이 갈 만한 사업이다. 그렇다면 후발 또는 국내에서 이러한 사업을 한다면 가능할까? 우선은 23andMe의 데이터는 77%가 European의 데이터라는 것이다. 이중 라틴이나 아프리카를 제외한다면 East/South 아시안은 채 10%도 되지 않는다는 것이다. 이러한 사실은 이미 일본의 도시바나 소니의 경우에도 그 중요성을 알고 아시아인의 유전체 데이터베이스 구축을 그들의 헬스케어 전략에 포함하고 있다. 그렇다 두번째 시사점은 아직은 아시안 유전체 데이터베이스는 속된 말로 돈 될 수 있다는 것이다.


소니의 유전체 데이터베이스 사업


세번째 시사점은 단순히 데이터를 모으는 것이 아니라 자체적인 R&D가 가능해야 한다는 것이다. 23andMe는 자체 연구를 통해 이미 상당한 수의 논문을 발표했으며, 이를 기반으로 자사의 서비스에 자사의 연구결과를 포함/검증하는데에 사용하고 있다는 것이다. 바로 이러한 자체적인 R&D가 가능했기에 그들을 연구를 위해 최적화된 Research Portal의 구축이 가능했던 것이고 바로 잘 정제 (curated)된 데이터는 Big Pharma들에게 매력적일 수 밖에 없었을 것이다.

참고

23andMe Research Portal Platform 문서

23andMe Research Portal 홈페이지

Research Portal 사용예

23andMe 연구 목록





저작자 표시 비영리 동일 조건 변경 허락
hongiiv (Changbum Hong) is the software enginner of GenomeCloud. He covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2015/01/26 13:06
Currently 댓글이 없습니다. comments want to say something now?
Detecting Somatic Mutations - Ensemble Approach
2015/01/14 13:50 | 바이오인포매틱스

예전에도 두어번 블로그글을 통해 variant calling에 있어서 Ensemble approach에 대해서 언급했었더랬습니다. comparison of variant detection methods, somatic caller는 뭘 사용해야 하나요? 를 참고하세요. 오늘은 그 끝판왕으로 준비했습니다. 왜냐구요? 잠시 광고 하나 하고 넘어가려고 합니다. 한국유전체학회 동계 심포지엄이 2월 4일부터 진행되는데 올해는 이틀간에 걸쳐 "Somatic Calling 알고리즘 소개 및 실습" 워크샵이 준비되어 있습니다. 현재 저조한 등록을 보이고 있다고 합니다. 오늘은 그래서 워크샵에서 진행할 내용을 미리 소개하는 시간을 가져 보려고 끝판왕으로 준비했습니다. ;-) 더 안오실지도 모르겠군요.


아! 그리고 저번 포스팅에서 구글애드센스 광고를 달았다고 말씀드렸는데요. 구글에서 광고수익을 지불 방법을 확인하는 우편도 도착했구요. 현재 무려 $15의 수익을 올리고 있습니다. 이자리를 빌어 이글을 보시는 모든분들께 감사하다는 말씀을 전합니다. ㅋㅋㅋ


Apple | iPhone 6 | Normal program | Pattern | 1/30sec | F/2.2 | 0.00 EV | 4.2mm | ISO-125 | Flash did not fire, auto mode | 2015:01:07 15:26:59

Somatic Mutation Calling Tools

그럼 본론으로 들어가 보도록 하겠습니다. 뭐 요즘 핫한 분야는 바로 somatic mutation 찾기 아닐까 합니다. 암 샘플의 heterogeneous하고 normal cell과의 dilute 등등 그만큼 챌린저블한 분야이며, 무엇보다도 실제 clinical에 응용될 수 있는 부분이라 그런것 아닐까 생각이 듭니다.Ding 아주머니 (워싱턴 대학에서 SomaticSniper와 VarScan을 만드신)의 최근 리뷰 논문에 따르면 아래와 같이 수많은 cancer genome 분석 툴들이 존재합니다. (중간에 잘린 표입니다.)



이미 잘알려진 JointSNVMix, MuTect, SomaticSniper, Strelka, VasrScan 등이 우선 눈에 들어오고 최근 Dream Challenge의 Somatic Mutation Calling Challenge주인공들이 만든 툴들이 보이네요. 


 ICGC-TCGA DREAM Somatic Mutation Calling Challenge의 주인공들

역시 Broad-너네가 다해 먹어랏, Ding 아주머니도 보임


각각의 툴들에 대한 알고리즘이나 특징은 해당 논문을 찾아보시거나 여러툴들을 비교한 논문들이 꽤 존재합니다. 따라서 툴 소개는 이것으로 마무리하려고 했지만... Wang의 "Detecting somatic point mutation in cancer genome sequencing data: a comparison of mutation caller"를 잠깐 보면 다음과 같이 각 툴들을 소개하고 있습니다. 끝



하나로는 부족해 우리 합치자!

비단 bioinformatics 분야뿐만 아니라 다른 곳에서도 같은 목적을 위해 여러 툴들이 합쳐 각각의 단점은 상쇄시키고 장점을 부각하는 일명 ensemble 방법 (또는 consensus, combining)이 많이 사용되고 있다. 그런데 문제는 이 ensemble이라는 방법이 걍 사용한다고 해서 좋은 것 아니라는 것입니다. 좀 세련되게 각 툴의 결과와 feature들을 뽑아서 training을 시키거나 암튼 consensus를 구하는데에도 갖가지 어려운 수식이 오가면서 ensemble을 적용하는 것 또한 만만치 않다는 것입니다. 그래서 기름기를 쫙 뺀 바로 저 멀리 남반구 호주 멜버른의 Goode가 A simple consensus approach improves somatic mutation prediction accuracy"라는 제목부터 simple을 달고 나온 방법을 소개해보려고 합니다.


Data Sets

27 ovrian tumor와 그와 매칭하는 germline 샘플을 HiSeq 2000 으로 whole exome sequencing을 평균 102~225x로 100bp paired-end로 뽑아냅니다. 그리고 나서 JointSNVMix2, MuTect, SomaticSniper를 돌리죠. 왜 저 3개의 툴을 사용했냐? 메이저 tumor 논문에서 사용한 툴들이니까요 :-) 그리고 나서 총 9,226개의 somatic SNV를 prediction합니다. 평균 샘플당 321개이며, 툴별로 보면 S와 J는 샘플당 170개 정도 M의 경우 좀 더 보수적으로 115개의 SNV를 찾아내게 됩니다.



중요 포인트는 Non-reference allele frequency

그런데 somatic이라고 뽑은 mutation들의 해당 read가 reference와 같은 allele인지 아닌지를 한번 더 살펴보게 되며 germline에서 보면 J와 S에서 높게 나타나는 행패를 부립니다. 즉 somatic이라고 뽑은 놈이 germline mutation이게 되는 것입니다. 즉 이 놈들은 False Positive인 놈들인거죠. (그림의 빨간색 박스 참고) 반면 M은 somatic을 잘 뽑아낸것 처럼 보입니다. 여기서 그럼 somatic이라고 뽑은 놈들이 germline mutation 즉 germline에서 non-reference인 것들을 filterout 시킨다면 좀 더 True Positive에 가깝게 되겠지요. 이건 다음 filtering 부분에서 다시 보겠습니다. 




이제 tumor에서 non-refernece allele frequency를 보면 M,J,S와 JS, MJ의 경우 낮게 보이는데요. 요것 또한 somatic이라고 뽑은 놈들이라면 tumor에서 높은 non-reference  allle를 보여야 한다는 거죠.


즉, 3개의 툴이 공통으로 찾은 somatic mutation에 대해서 위에서 언급한 non-reference allele에 대한 필터를 거친다면 더욱 True Positive에 가까운 mutation을 찾을 수 있게 되겠죠. 그래서 이들은 찾은 mutation에 대해 sanger sequencing을 수행해서 validation set을 가지고 consensus call과 몇몇 filtering 과정을 거쳐 성능이 향상되는지를 확인하게 됩니다.


Additional filtering 왜? consensus의 specificity를 높이려구

앞서 언급했듯이 non-refence allele 부분과 관련한 부분을 해결코자 tumor/normal 샘플(.bam)에 대해서 GATK Unified Genotyper를 이용하여 tumor와 germline에 대한 SNV를 calling 합니다. 이걸가지고 consensus call에 대해서 우선 GATK UG의 germline SNV를 제거합니다. 그리고 나선 GATK UG가 tumor에서 찾은 SNV와 겹치는 것만 남기게 되죠. 이렇게 하면 아래 처럼 183개중 50개만 맞췄던 결과가 113개중 48를 맞추게 됩니다. 그에 더불어 mate-rescued된 read를 통해 필터를 더 추가시키게 되면 결과는 87개중에 48를 맞추게 됩니다. 결국 2개의 true positive를 잃게 되지만, 183개에서 87개로 확 줄어둔 즉 specificity를 확 증가시키게 되는 결과를 보입니다.



결론

결론적으로 간단한 consensus와 필터링만으로 validation rate를 높이고 sensitivity를 증대 시킬 수 있게 되었다는 것입니다. 하지만 그에 따라 다양한 툴들을 돌려야 한다는 즉 computation 리소스는 부담으로 남게 되며 multiple 툴을 병렬로 빠르게 돌리는 것에 대한 논의가 또 있어야 하겠죠.


뭐 어찌되었던간에 광고로 돌아가서 2월달 워크샵에서는 TCGA 데이터를 가지고 위의 consensus 메소드를 실제로 구현하고 검증하는 과정과 더불어 ranking을 통해 좀 더 연구자에게 보기 좋은 결과물을 얻는것이 실습으로 진행되니 관심있는 분들의 많은 참여를 바랍니다. 


안녕, ;-)

저작자 표시 비영리 동일 조건 변경 허락
hongiiv (Changbum Hong) is the software enginner of GenomeCloud. He covers bioinformatics, computational biology, and life science informatics.
Posted in : 바이오인포매틱스 at 2015/01/14 13:50
Currently 댓글이 하나 달렸습니다 comments want to say something now?

티스토리 툴바