Fork me on GitHub 단맛만좋아요 :: '개인유전체분석' 카테고리의 글 목록

개인유전체분석

  1. 23andMe 재단장 - published: 2015.10.28
  2. 23andMe Research Portal - 유전체데이터베이스 팔기 - published: 2015.01.26
  3. 통계 자료로 보는 유전자 정보 - published: 2013.10.31
  4. 모바일 기반의 개인 유전체 분석 App - published: 2013.10.29
  5. 23andMe의 데이터 액세스를 위한 API 공개 - published: 2012.09.20
  6. 제대로 대중의 힘을 서비스에 이용하는 23andMe - 이번에는 health condition - published: 2012.08.29
  7. 23andMe 엑솜 데이터 살펴보기 - 2부 - published: 2012.08.06
  8. 속속 공개되는 23andMe의 Exome pilot 데이터 - published: 2012.08.02
  9. 잃어버린 부모 찾기 - VCF 파일을 PLINK 포맷으로 변경하기 - published: 2011.11.22
  10. Day4 - 보다 자세한 Ancestry 정보 - published: 2011.11.01
  11. Day3 - 네안데르탈인과 나의 Genome 비교 - published: 2011.11.01
  12. Day2 - 내 데이터 공개하기 - published: 2011.10.31
  13. STRUCTURE 프로그램을 이용한 Population Structure 분석 - published: 2011.08.12
  14. 23andMe는 상업 회사가 아니라 연구기관이다?? - published: 2011.05.25
  15. CEOmics: 경영진들이 자신의 genome 정보를 공개하는 이유는? - published: 2011.03.04
  16. personal genomic 관련 프로그램과 웹사이트 - published: 2011.01.18
23andMe 재단장
2015.10.28 21:25 | 개인유전체분석

국내 질병 예측성 유전자 검사 현황

지난 19일 "질병예측성 유전자 검사의 개선방안 공청회"가 진행되었다. 공청회의 질병관리본부의 질병예측성 유전자 검사의 관리에 관한 용역 결과에 대한 세션에서 의하면 유전자 검사를 6개의 카테고리로 나누어 관리하는 방안으로 카테고리 1~4까지는 기존의 유전자 검사에 해당하며 카테고리 5와 6의 경우는 다음과 같은 기준으로 나뉘어 관리하도록 하고 있다.


질병관리본부의 질병예측성 유전자 검사 관리 용역 결과 유전자 검사 분류


이에 유전체기업협의회의 경우 기존 검사와 더불어 질병예측성 유전자검사와 웰니스 유전자 검사의 카테고리로 나누어 관리하고자 하고 있다. 특히 웰니스 유전자 검사의 경우 DTC를 허용하는 것을 골자로 하고 있다.


유전체기업협의회의 유전자검사 분류 방안

미국의 질병 예측성 유전자 검사 현황

미국의 경우 2006년 23andMe가 질병 예측성 유전자 검사를 DTC를 통해 시작한 이후 13년 FDA의 판매중지 명령에 의해 수행되지 못하는 실정이다. 


다만, 최근 15년 2월 FDA는 이중 상염색체열성유전질환(autosomal recessive disorders)의 유전자 검사에 대해서 의료기관을 거치지 않고 일반 임신진단키드와 같이 일반인이 직접 구매하여 사용할 수 있도록 DTC를 허용했다. 정확히 지난 14년 6월 bloom syndrome이라는 상염색체열성유전질환에 대해서 FDA에 승인(clear) 요청이 있었고 이를 올해 2월 승인 후 10월달에야 decision summary가 공개되었다.


FDA의 승인 내용은 해당 검사에 대해서 Class II로 분류하고 "Autosomal Recessive Carrier Screening Gene Mutation Detection System"이라는 기기타입(Device Type)과 PKB라는 상품코드(Product Code)를 부여하여 관리되는 한편 해당 승인과 더불어 상염색체열성유전질환은 의사를 거치지 않고도(DTC) PMA가 아닌 의견 수렴을 위한 30일간의 최소 부담의 규제만으로 제공이 가능하다는 것을 포함하고 있다.


지난2월 FDA의 승인 후 실제 서비스를 위한 decision summary가 이번달 릴리즈 되면서 23andMe는 발빠르게 웹페이지를 단장하고 새로운 서비스를 제공 준비를 하고 있다. 23andMe는 승인시 제출한 bloom syndrome외에도 36개의 상염색체열성유전질환(cystic fibrosis, sickle cell anemia, Tay-Sachs 등)에 대한 검사도 제공한다.

예측성이 아닌 유전질환의 보인정보

23andMe로서는 기존의 health라는 메뉴를 통해 질병예측성 정보를 제공하는 Health Risks와 Drug Response를 과감하게 현재로서는 포기 했지만, 기존의 health 메뉴중 하나였던 Inherited Conditions에 대해서는 FDA의 승인이라는 값진 선물을 받았다. 


기본적으로 유전자 검사가 임상에 도입되기 위해서는 해당 검사를 이용함으로써 얻을 수 있는 이익과 위험도를 평가하는 임상적 유용성(clinical utility)이나 해당 질환을 정확하게 예측하고 검출하는 임상적 타당성(clinical validity)를 질병예측성유전자 검사가 만족할만한 수준이 아니기 때문에 우선 이를 만족할 수 있는 유전질환에 대한 승인을 시작했으나 점차 예측성 부분으로 승인을 확장할 것으로 보인다. 이번 승인은 23andMe로서는 어쩔 수 없이 유전질환이 타깃이었지만 어찌보면 기존의 분자진단 업체들의 밥그릇을 빼앗아 올 수 있는 기회가 된 것일 수도 있다. 뭐 이게 메인인 서비스들이 막강히 버티고 있고 어차피 23andMe는 보인자 정보가 메인은 아니니...


DTC로서의 Inherited Condition

이번 승인은 모든 유전질환이 아닌 자손에게 유전질환에 대한 risk를 물려 줄 수 있는지에 대한 검사로 현재 대부분은 한국인을 포함한 아시안에서는 그리 유용한 검사가 아니다. 따라서 국내에서 해당 서비스를 받는다 해도 그리 임상적 유용성을 만족할 만한 것은 아니지만( bloom syndrome만 보더라도 Ashkenazi Jewish에 대해서 107명 중 1명이 보인자로 0.93%며 Asian이나 African American에서는 0%) 다양한 인종이 존재하는 미국에서는 그 유용성이 클 수 있다고 할 수 있다. Anne Wojcicki도 부모중 한명이 Jewish로 그녀 또한 bloom syndrome에 대한 보인자라고 한다. 뭐 한때 부부사이였던 구글의 Sergey Brin도 부모가 Jewish로 유전질환에서 자유롭지 못했다. 아마도 이 서비스자체가 부부였던 둘의 자식에 대한 사랑은 아니었을까 한다. ㅋㅋㅋ

Bloom Syndrome

23andMe는 사업초기부터 Illumina의 chip을 사용(2008년 v1, 2011sus v3, 2014년 v4)하고 있으며 현재는 BeadChip v4 assay (Illumina HumanOmniExpress-23 format chip)을 사용하고 있다. 이 칩은 ~750,000 SNPs를 커버하고 있으며 약 200,000개의 custom markers를 추가(현재 할 수 있는 것으로 알려져 있다. 해당 칩에는 SNPs외에도 II와 DD, DI의 genotype을 가지는 deletion과 insertion 또한 확인이 가능하며 그 수는 대략 60여개에 달한다.


Bloom Syndrome은 BLM 유전자의 2281에서의 6-염기쌍결실/7-염기쌍 삽입 (rs113993962)의 BLMAsh라고도 불리는 유전변이를 가지고 보인정보를 판단한다. 23andMe 형태의 genotype으로 보자면 "DI"인 경우는 보인자이며 "II"인 경우 bloom syndrome 환자 "DD"인 경우 정상이라고 할 수 있다.


Analytical performance 분석적 성능

FDA의 23andMe 서비스에 대한 decision summary에 따르면 23andMe는 FDA에 510(k) 드노보 프로세스를 진행하면서 6개의 셀라인을 가지고 analytical performance(찾고자하는 유전자형을 정확하고 믿을 만하게 검출하느냐)를 수행했다. 


4 homozygous common (DD)

1 BLMAsh heterozygous (DI)

1 BLMAsh homozygous rare (II)


각 셀라인은 5일에 걸쳐 2곳(site1, site2)에서 각각 별도로 진행되었으며 이때 4개의 reagents와 3대의 별도의 Tecan, iScan 장비의 조함을 사용하여 진행하여 DD의 경우 360번 DI와 II의 경우 720번의 replicate를 수행했다. 

각 site별 실험에 따른 정확성과 재현성(Precision/Reproducibility)


또한 이들은 Interference와 관련하여 Endogenous와 소고기가 포함된 음식 섭취, 소고기가 포함되지 않은 음식 섭취, 음료 섭취, 검씹기, 이빨닦기의 Exogenous Interference와 함께 흡연에 대한 Interference에 대해서도 analytical performance에 관한 내용을 제출했다.


이빨 좀 닦아 본 후(간섭에 의한)  재현성 - QC fail은 있어도 QC만 통과하면 정확함

Comparison Studies 비교 시험

타액을 통해 23andMe의 자체 Biobank로부터 genotyping된 총65샘플에 대해서 bi-directional sequencing을 통한 결과와 비교 시험 결과 DI(heteo)인 경우와  DD(homo)인 경우에 대해서 총5개 샘플은 QC에 fail되었으나 다시 시도해서 모두 genotyping과 동일한 결과를 얻었다.

Clinical Studies 임상적 시험

지금까지 본 바로 아무리 잘 잡아냈다고 하더라도 지금까지 봐온 BLMAsh가 기존의 논문등의 근거가 부족하다면 이 검사에 대한 승인은 처음부터 재고려해보아야 할 것이다. 23andMe는 ACMG의 Ashkenazi Jewish decent에 대한 보인자 스크리닝 가이드라인과 Bloom Syndrome에서 BLM 유전자의 원인 변이라는 논문을 근거로 제시하고 있다.


Ashkenazi Jewish에서의 Bloom syndrome외의 다양한 유전질환에 대한 carrier frequency

결론

지금까지 살펴본 바와 같이 23andMe는 FDA의 승인을 받기 위해 기존의 의료기기들이 허가를 받기 위해 필요한 분석적 성능이나 임상적 성능 등 다양한 결과들을 제출하고 허가를 받았다.  비록 질병의 예측성 유전자 검사가 아닌 기존의 보인자 유전검사라는 틀에서 이루어지긴 했지만 이번 기회를 통해 23andMe는 FDA와 어떠한 관계를 가지고 어떻게 허가를 진행해야 할지에 대한 값진 교훈을 얻게 되었고 분명 이는 23andMe에게는 앞으로의 서비스 확장과 사업 진행에 있어서 큰 도움이 될 것이라고 생각한다.


23andMe는 질병 예측성 유전자 검사라는 카테고리(예전의 health 카테고리)를 잃었지만 아직도 Ancestry, wellness, traits의 정보와 함께 FDA의 승인된 보인정보(carrier status)를 얻었다. 


국내에서도 카페인이나, 유당분해, 알콜분해 등의 웰니스에 관련한 유전자를 DTC로 풀어나가는 한편 체계화된 연구를 기반으로 규제기관과의 허가에 관한 이슈를 풀어나아갔으면 한다.


저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2015.10.28 21:25
Currently 7 comments want to say something now?
23andMe Research Portal - 유전체데이터베이스 팔기
2015.01.26 13:06 | 개인유전체분석

23andMe 유전체 데이터베이스 판매

지난 일주일 간격으로 23andMe는 화이자 (Pfizer), 지넨테크 (Genetech)와 유전체 데이터 사용에 관한 파트너십을 체결했다. 지넨테크는 암치료제인 아바스틴 (Avastin)과 허셉틴 (Herceptin)을 생산하는 회사로 로슈 (Roche)에 속해 있다. 이 두 회사외에도 23andMe는 총 14개의 private companies 및 대학들과 파트너십을 체결했다고 전했다. 이로서 파트너십을 체결한 Big Pharma와 Biotech 회사들은 23andMe가 이미 모아 놓은 데이터를 곧바로 활용할 수 있게 된 것이다.

유전체 데이터 규모

23andMe는 자신들의 데이터베이스를 "23andMe's Research Portal"이라고 부르는데, 현재까지 75만명이상의 유전체 데이터 (genotyped individuals)를 확보하고 있으며 이중 65만명 이상의 데이터가 자신들의 데이터를 연구에 활용하도록 동의를 한 데이터라고 한다.


23andMe의 고객에게 자신의 데이터를 연구에 활용하도록 동의 여부를 묻는 화면


물론 해당 유전체 데이터는 200만개의 형질데이터(phenotypic data)를 포함하고 있으며, 이중 1천개가 curated된 데이터라고 한다. 즉, 65만명에 대한 유전체 데이터와 1천개의 임상변수를 사용할 수 있는 것이다. (Conditions/Diagnoses, Medication Usage, Response to Medication, Family History of Disease, Health Behaviors, Personality Traits, Environmental Exposures, Geographic Location)

암 및 자가면역 코호트

위의 데이터들은 다양한 코호트를 포함하고 있는데 암, 자가면역, 파킨슨, 알츠하이머 코호트 등이 존재한다.암 관련 코호트의 경우 6,000명의 유방암 환자(confirmed control 198,000명)와 5,000명의 전립선암(confirmed control 221,000명), 1,700명의 대장암 (confirmed control 431,000명) 코호트가 존재한다.1,500명의 루프스 환자와 이에 대응하는 367,000명의 contorls, 류머티스, IBD,  celiac 등의 코호트를 가지고 있다.

APOE e4/파킨슨 코호트

APOE e4와 관련한 120,000명 이상의 데이터와 파킨슨 관련 10,000명의 데이터를 보유하고 있다. 이러한 데이터의 경우 23andMe는 일반고객과는 별도로 비교적 저렴한 가격 또는 무료로 참여자를 모집함으로써 해당 데이터들을 수집할 수 있었다.

Research Portal

23andMe는 해당 데이터를 손쉽게 검색하고 자신의 연구 테마에 맞도록 샘플이나 변수를 설정하고 해당 결과까지 확인할 수 있는 Research Portal을 제공함으로써 샘플이나 데이터를 모을 필요없이 실시간(real time)으로 GWAS, PheWAS 연구를 수행할 수 있도록 해준다.

23andMe의 Research Portal: 원하는 유전체 데이터를 손쉽게 검색 가능한 인터페이스

국내 유전체 데이터 포털

지금까지 23andMe의 유전체 데이터 포털에 대해서 살펴보았는데 국내에서도 이러한 데이터 포털이 존재한다. 물론 연구자에게 국한되어 있으며 국가가 관리하고 있다. 질병관리본부의 한국인체자원은행사업을 통해 생산된 데이터로 코호트 기반과 질병기반의 인체자원을 분양하고 있는데 바로 여기에 유전체 데이터가 일부 포함되어 있다.


그럼 어떠한 유전체 데이터와 그와 연관된 데이터들이 존재하는지를 확인하기 위해서는 인체자원은행 분양데스크 홈페이지를 통해 검색이 가능하다. 인체자원검색 메뉴에서 역학기반검색을 선택하면 선택 가능한 자원 중 "유전체자료"가 포함된 데이터를 검색이 가능하다.


갑상선 과거력을 가진 유전체 데이터 검색


아래예는 농촌코호트 (522명) 중에서 갑상선질환을 앓았던 사람중 유전체 데이터를 포함하는 샘플 (총 45명)을 검색한 화면이다. 바로 이 데이터를 분양 신청하면 심사를 거쳐 해당 데이터를 이용할 수 가 있게 된다.

유전체 데이터 검색 결과


국내에서 유전체데이터를 검색하고 사용할 수 있는 시스템이 존재하지만 데이터 중 유전체 데이터를 가진 데이터는 일부에 불과하다. 하지만 잘 활용한다면 충분히 흥미로운 데이터임에는 분명하다.

시사점

미 FDA는 23andMe는 그동안 축적한 데이터를 기반으로 자체적으로 다양한 연구를 수행하는 한편 연구에 활용할 수 있는 잘 관리된 데이터베이스를 구축하고 이를 Research Portal이라는 이름으로 내놓고 여러 제약 및 Biotech와 파트너십을 통해 그 영향력을 점점 확대하고 있다.샘플을 모은 과정은 자사의 일반 고객과 연구기관과의 협력을 통해 자사 고객과는 다른 특정 질환의 샘플을 모으는 프젝트를 통해 저렴한 가격에 손쉽게 구하기 힘든 샘플을 손쉽게 구하는 전략을 펼쳤다. 이렇게 모은 샘플들이 알츠하이머나 파킨슨병에 대한 샘플들로 이번 지넨테크와 협력을 하는 부분이 바로 파킨슨병에 대한 것이다. 이러한 사실을 본다면 첫번째 시사점은 바로 참여자에게 부담없는 비용의 유전체 검사와 그에 따르는 샘플 수집과 연구에 활용이다. 여러 질환관련 학회나 각 질환관련 환우회 또는 질환연합회를 적극 활용하는 것 또한 좋은 포인트라고 할 수 있겠다.


23andMe Demographics


이러한 사실을 보면 유전체 데이터와 이를 통한 사업은 꽤나 관심이 갈 만한 사업이다. 그렇다면 후발 또는 국내에서 이러한 사업을 한다면 가능할까? 우선은 23andMe의 데이터는 77%가 European의 데이터라는 것이다. 이중 라틴이나 아프리카를 제외한다면 East/South 아시안은 채 10%도 되지 않는다는 것이다. 이러한 사실은 이미 일본의 도시바나 소니의 경우에도 그 중요성을 알고 아시아인의 유전체 데이터베이스 구축을 그들의 헬스케어 전략에 포함하고 있다. 그렇다 두번째 시사점은 아직은 아시안 유전체 데이터베이스는 속된 말로 돈 될 수 있다는 것이다.


소니의 유전체 데이터베이스 사업


세번째 시사점은 단순히 데이터를 모으는 것이 아니라 자체적인 R&D가 가능해야 한다는 것이다. 23andMe는 자체 연구를 통해 이미 상당한 수의 논문을 발표했으며, 이를 기반으로 자사의 서비스에 자사의 연구결과를 포함/검증하는데에 사용하고 있다는 것이다. 바로 이러한 자체적인 R&D가 가능했기에 그들을 연구를 위해 최적화된 Research Portal의 구축이 가능했던 것이고 바로 잘 정제 (curated)된 데이터는 Big Pharma들에게 매력적일 수 밖에 없었을 것이다.

참고

23andMe Research Portal Platform 문서

23andMe Research Portal 홈페이지

Research Portal 사용예

23andMe 연구 목록





저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2015.01.26 13:06
Currently 2 comments want to say something now?
통계 자료로 보는 유전자 정보
2013.10.31 11:26 | 개인유전체분석
다음은 23andMe 서비스에 대한 간략한 통계정보입니다. 통계정보가 주는 의미는 " 역시 가격 하락이 서비스의 대중화에 커다란 역활을 하며, 주 타겟을  20-40대를 대상으로 해야한다" 정도네요. 긴말 필요없이 눈으로 보세요.



자료출처 : http://www.fastcompany.com/3019323/to-know-you-is-to-really-know-you
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2013.10.31 11:26
Currently 댓글이 없습니다. comments want to say something now?
모바일 기반의 개인 유전체 분석 App
2013.10.29 09:51 | 개인유전체분석
텔 아비브 대학 팀 GeneG

 
일루미나의 MyGenome 


제퍼런스의 BRCA manager

 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2013.10.29 09:51
Currently 댓글이 없습니다. comments want to say something now?
23andMe의 데이터 액세스를 위한 API 공개
2012.09.20 10:48 | 개인유전체분석
23andMe가 자사의 데이터에 접근할 수 있는 API를 공개했습니다. 아직 모든 23andMe 사용자들이 자유롭게 API를 사용할 수 있는 단계는 아니고 자신이 해당 API로 어떠한 Application을 만들지를 제출하면 API를 사용할 수 있도록 허용하고 있는 early access  단계입니다. 

 23andMe의 Personal Genome API https://api.23andme.com/

제공되는 API는 user, profiles, genotype을 제공하고 있습니다. 이를 이용하면 기본적인 사용자 정보와 원하는 SNP의 genotype을 알아낼 수 가 있습니다.

지금까지 23andMe의 데이터를 외부에서 사용하는데에는 raw data를 전부 다운로드 받아서 외부프로그램에 업로드하는 방식으로 구현되어 있었습니다. 23andMe의 데이터를 사용하는 외부 어플리케이션중 가장 대표적인것인 1) SNPedia의 Promethease라는 프로그램으로 23의 데이터를 읽어 들여 질병에 대한 위험도를 리포팅 해주는 프로그램입니다. 2) 두번째로 SNPTips라는 firefox 확장이 있는데요. 23의 데이터를 업로드해 놓으면 웹 서핑중 SNP이름이 언급되면 해당 SNP에 맞는 자신의 genotype을 보여줍니다. 3) 세번째로는 Interpretome으로 자신의 인종이나 질병정보등의 보여주는 프로그램입니다.

이외에도 23andMe의 데이터를 이용하는 많은 어플리케이션들이 있는데, 이제는 복잡하게 데이터를 다운로드하고 업로드하지 않고 공개된 API를 이용하여 제3의 어플리케이션을 개발할 수 있게 된것이죠. 물론 웹어플리케이션이나 iPhone, Android등의 앱도 손쉽게 만들수가 있게 되었습니다.

어쩌면 23andMe는 유전체 데이터를 개인의 민감한 정보임에도 불구하고 하나의 데이터로 보는 경향이 있는데요. 어쩌면 엔터테인먼트임을 선언?한 입장에서 이러한 행보는 어쩌면 당연한 일이라고 할 수도 있겠습니다.

API를 이용해서 인종특이적인 SNP을 쿼리로 날려서 해당 SNP을 지닌(HapMap 데이터를 참고해서) 즉 해당 allele가 많이 분포한 지역을 표시해주면 "아 나와 같은 뿌리(인종)를 가진 사람은 지도상에서 어디에 많이 분포하는구나!"라고 알려 줄수도 있겠죠 ^^;; (이거 제가 만들거니까 건들지 마셈 ㅋ)
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2012.09.20 10:48
Currently 댓글이 없습니다. comments want to say something now?
원문은 23andMe의 blog인 spittion의 "Crowdsourceing Helath Conditions" 으로 본 글은 이글을 기반으로 작성되었음을 알려드립니다. 얼마전 23andMe가 CureTogether를 인수했는데요. 그 첫번째 결과물을 자신들의 블로그에 올렸네요. 바로 대중의 힘을 빌어 더 나은 제품, 서비스를 만들어가는 내용입니다.

어떠한 것을 꼭 함께 따라 다니기 마련이다. 가령 땅콩버터와 젤리, 치즈와 크래커, 탱고와 캐쉬처럼말이다. 어떠한 것들은 좀 더 강하게 연결되어있는것도 그렇지 않은 것들도 있지만 좀 더 깊이 파고들어간다면 모든 것들에는 연결이 있기 마련이다.

바로 건강에서도 건강 상태간의 연결이 있고 이는 종종 직관적이기도 하다. 예를 들어 이를 가는 경우 턱 주위에 통증이 있을 거라는 것이나 습진이 있다면 비듬이나 건선 등이 있을 수 있다는 것과 같이 말이다. 하지만 건강 상태간의 연결이 항상 명확한 것은 아니다. 바로 이러한 것 때문에 대중들의 참여를 통해 생산된 데이터를 이용하여 건강상태간의 연결을 만들어 낼 수 있다.

CureTogether에는 약 4만명의 회원이 있고 그들은 잣니의 건강 상태를 스스로 리포팅한 데이터가 있다. 이를 분석한 23andMe의 연구진에 따르면 "이것은 해당 상태에 대한 생물학적인 통찰력을 제공하며, 이러한 두 상태간의 연결은 유전요인이나 환경적인 요인이 작용하고 있는 것"이라고 말하고 있다. 이러한 조건은 생물학적 이해를 돕거나 진단을 향상하는데 도움이 될 것이라고 말하고 있다.

CureTogether와  23andMe는 증상 데이터 4백만건을 이용하여 통계적으로 강한 연결을 가진 증상을 찾아냈다. 빈혈이라는 증상과 불임이 관련이 있을까?  진화적인 관점에서 비타민 결핍에 의한 빈혈은 몸의 조건이 나아질때가지 생식 기능을 제한하게 한다.

물론 이러한 연결은 단지 첫걸음일뿐이라는 것이다. 23andMe의 유전적인 정보와 함께 이러한 건강상태에 대해 좀 더 다양한 접근가 연구를 통해 이러한 건강상태에 대한 깊은 이해를 할 수 있는 기반이 된다는 것이다.


23andMe에서 CureTogether의 사용자들의 정보를 기반으로 연관성을 가지는 증상들과 연결한 그림으로 빈혈(Anemia)가 불임(infertility)과 강한 통계적 연관성(빨간색)을 보인다. 여기를 클릭하면 d3.js를 이용하여 만든 인터랙티브하게 반응하는 위의 그림을 확인할 수 있다. 


 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2012.08.29 21:13
Currently 댓글이 없습니다. comments want to say something now?
23andMe 엑솜 데이터 살펴보기 - 2부
2012.08.06 03:30 | 개인유전체분석
지난번 23andMe의 엑솜 시퀀싱 결과에 대해서 좀 더 살펴보도록 한다. 물론 본 내용은 Jung's Biology Blog를 기반으로 하고 있다는 것을 알아두었으면 한다. 물론 블로그글을 사용해도 된다는 허락을 득했음을 미리 알려둔다. 저번 글이 전반적인 23andMe의 결과를 살펴보는데 촛점이 맞추어져 있었다면 이번에는 엑솜 시퀀싱을 통해 발굴 (필터링)된 21개의 유전 변이를 오픈소스 툴들을 이용하여 살펴 보는것에 대한 내용으로 다음과 같은 질문에 대한 해답을 구하는 것을 목표로 한다.

1. 매핑된 시퀀스 read들을 어떻게 시각화 할것인가?
2. 영향을 주는 유전자의 기능은 무엇인가?
3. 유전변이들이 얼마나 심각하게 유전자의 기능에 영향을 미칠수 있는 것인가?

Bam files and samtools
bam 파일은 압축된 SAM (sequence alignment/map) 파일 포맷으로 이 파일은 시퀀싱된  read들이 레퍼런스 시퀀스에 align된 정보를 포함하고 있다. alignment 정보는 실제 서열 (sequence)을 포함하는 bam 파일과 이를  포함하지 않는 .bai 라는 확장자를 가지는 인덱스 파일로 구성된다. bam  파일로부터 얻을 수 있는 정보는 다음과 같다.

1. 레퍼런스와 다른 유전변이에 대한 정보 (유전변이가 heterozygous인지 homozygous인지에 대한 정보)
2. genotype을 결정에 대한 통계적 정보 (특정 지역에 read의 출현 정도 (depth of coverage), 서열에 대한 품질(quality) 정보)

bam 파일은 samtools라는 소프트웨어 패키지를 이용하여 커맨드라인 기반으로  작업이 가능하며, 각 염색체별로 정보 추출, bam 파일을 sam 파일로 또는 그 반대로 변환, bai 확장자를 가지는 인덱스 파일 생성, vcf 형태의 variant call을 생성할 수 있다. Broad Institute의 IGV ( Integrative Genomics Viewer)를 통해 레퍼런스에 대해서 algnment된 실제 정보를 시각화하여 볼 수 있다. align을 한 레퍼런스 genome을 선택하고 bam 파일을 로드하면 IGV는  인덱스 파일의 색인 정보를 이용하여 모든 시퀀스 read를 레퍼런스 게놈에 piled up (read들이 ref에 층층이 겹쳐진)된 형태로 보여준다. 또한 여러개의 bam 파일을 선택하여 여러개의 genome을 동시에 볼 수도 있다.

Example: my CF allele
CFTR 유전변이가 23andMe의 리포팅된 것은 놀라운 일이였다. 낭포성 섬유증 (cystic fibrosis)은 북유럽인에서 일반적으로 나타나지만 아시안에서는 낮은 빈도를 보인다(참고로 필자분이 한국인이신것 같음). 이 CFTR의 돌연변이는 non-conservative (다른 종에서도 보존되지 않았다는 의미로 해당 아미노산의 치환이 다른 종에서도 보여진다면 이는 진화상 질병등에 큰 영향을 주지 않을것으로 추정할 수 있다.) 아미노산 치환 (substitution)을 보인다. glutamic acid (E)가 glycine (G)으로의 변환은 두 아미노산이 서로 유사하지 않기 때문에 단백질 접합이나 활성화에 심각한 결과를 초래한다.

 

Integrative Genome Viewer
해당 부위를 IGV를 통해 bam 파일을 로드하여 살펴보면,  높은 read depth (해당 영역이 시퀀싱이 잘 되었음을 의미)와 거의 유사한 두개의 allele 비율을 보여주는데 이는 명백한 heteo genotype임을 의미한다고 할 수 있다. (필자는 생명의 위협?을 줄 수 있는 CFTR 유전자의 유전변이를 23andMe 리포트를 통해 확인하고, 실제 align된 정보를 IGV를 통해 살펴본 결과 충분히 믿을 만한 데이터임을 재차 확인한다.)

 

NCBI and dbSNP
위의 유전변이는 이미 dbSNP에 존재하는 이미 밝혀진 SNP (single nucleotide polymoerphism)으로  NCBI의 홈페이지를 통해  'rs121909046'을 검색하여 해당 정보를 확인할 수 있다. dbSNP는 질병과의 연관성을 비롯한 유전 변이에 대한 다양한 정보를 확인할 수 있다. 



해당 SNP은 Glu217Gly 또는 E217G로 이는 해당 유전변이로 인해 CFTR 유전자의 217번째 아미노산이 변한다는 것을 의미한다. 반면 23andMe의 리포트의 annotation (주석) 따르면 E187G 즉, 187번째 아미노산이라고 되어 있다. 확인해 본 결과 CFTR 단백질의 187번째 아미노산은 Asn이었다. 왜 23andMe의 리포트에 왜 이런 오류가 나타나는지에 대해서 모르겠다. (추후 23andMe의 댓글에 따르면 해당 유전자에는 여러가지 형태의 transcript가 존재하기 때문에 어떠한 것을 이용하여 annotation 했느냐에 따라서 해당 아미노산의 위치가 달라진다.)

OMIM
dbSNP 페이지의 하단에는 OMIM (Online Mendelian Inheritance in Man)에 대한 정보가 있는데 해당 유전변이와 연관된 멘델리안 질환에 대한 연구가 진행된 저널과 연결되어 해당 정보를 확인할 수 있다. 해당 링크를 통해 Lee et al. (2003) 논문을 보면 full-text를 확인할 수 있는데, E217G 유전변이 (해당 필자가 가지고 있는)는 한국인 인구집단에서 1.3%의 frequency를 보임을 확인 할 수 있었다. 해당 heteo 유전변이는 기관지 확장증 (bronchiectasis)에 높은 risk를 보이는 반면, 췌장 기능 부전 (pancreatic insufficiency)과는 별 연관성이 없다고 나온다. 분자 생물학적 연구에 의하면 해당 돌연변이는 막(membrane)에 나타나는 CFTR 단백질의 60% 감소의 원인으로 비교적 가벼운 질병 관련 allele임을 보여준다.

UCSC Genome Browser
비록 커스텀 트랙을 이용하여 23andMe에서 제공한 bam이나 vcf 파일을 곧바로 UCSC genome browser로 확인은 불가능하지만, UCSC genome browser를 이용하면 해당 유전변이에 대한 추가적인 정보를 알아낼 수 있다. 유전변이에 대한 annotation 정보를 보기 위해 vcf 파일을 로드하는 것이 좋다. 자신이 가진 vcf 파일을 UCSC의 커스텀 트랙에 포함하여 보기 위해 tabix를 이용한다. 이를 위해서 엑솜 데이터가 저장된 디렉토리에서 압축된 LF1396.vcf.gz에 대해서 tabix -p vcf.my.vcf.gz  명령을 수행한다. 명령 결과로 LF1396.vcf.gz.tbi의 바이너리 인덱스 파일이 생기는데 이를 이요하여 vcf 파일을 커스텀 트랙에 로드할 수 있따.  UCSC를 이용하여 vcf 파일을 커스텀 트랙에 표시하는 방법은 다음의 링크가 도움이 될것이다. (http://genome.ucsc.edu/goldenPath/help/vcf.html)


 

UCC를 통해서 우선 보전된 (convservation) 정보를 확인할 수 있다. 인간의 CFTR 유전자의 E217은 물고기 (zebrafish)에서 영장류(Human, Rhesus (붉은털원숭이))까지 보존 되어 있으며, 해당 위치는 글루타민산 (E)이나 아스파르트산 (D)을 보인다. 아스파르트산과 글루타민산에 화학적으로 유사하며 둘다 acidic side chains을 가지며 종종 interchangeable을 보인다. 해당 위치의 보존 정보를 볼때 글라이신 (glycine)은 유해한 영향을 미칠 것이다 (이미 앞서 설명했듯이 E217, D217은 여러종에 걸쳐서 나타나지만, 필자가 가진 G217이 conservation에 확인되지 않았다는 것은 위험하다는 것을 의미한다).


Trust but verify
위에 언급한 IGV, dbSNP, UCSC의 도구들을 사용하여 23andMe에 리포트된 21개의 모든 유전변이들에 대해서 살펴본 결과 우려되는 것은 non-conservative 아미노산 체인지를 일으키는 MSH2, PRNP에 나타나는 유전 변이였다. 

MSH2는 DNA repair 유전자로 비록 heterozygote 일지라도 암, 특히 대장암에 현저하게 높은 위험성을 보이는데 이는 해당 유전자가 하나의 카피만이 기능을 수행하여 정상적으로 충분한 단백질을 생성 (functional copy)하기 때문이다. 따라서 세포는 DNA 손상으로 인해 암으로 이어지는 변이를 급속하게 축척하게 된다.

PRNP는 prion protein으로 프리온 단백질의 화학 구조 (folding)에 의해 스크래피(scrapie, 양이 염소의 뇌가 광범위하게 파괴되어 스폰지처럼 뚫리는 신경 질환)나 광우병(변형 프리온이 뇌 조직에 참투하여 뇌에 구명을 만드는 병)을 유발한다. 해당 단백질의 돌연변이는 가족성 (유전되는)이 있는 신경퇴화질환 (Neurodegenrative)과 연관이 있다고 알려져 있다. 

MSH2와 PRNP에 존재하는 변이는 이미 dbSNP에 보고되어 있는 것으로 병원성이 아닌 유전 변이임을 알 수 있었다(그나마 다행 ^^;;). 그런데 23andMe에서 E158K로 리포팅된 아미노산 체인지는 dbSNP와 IGV로 확인한 결과 실제로 E219K임을 알 수 있었다. 아미노산의 체인지는 정확히 식별되었지만 그 위치는 잘못된 것이었다. CFTR 돌연변이가 그랬던 것처럼 말이다. 

좀 이상하면서도 걱정되는 것은 A43D로 식별된 MSH2에 위치한 돌연변이로 dbSNP와 IGV를 통해 보면 단백질의 형태(MSH2는 alternative splicing에 의해 다양한 폼을 가진다) 에 따라서 177번째 또는 91번째의 glycine을 가지는데 이는 둘다 아미노산의 체인지가 없는 "silent" 돌연변이라는 것이다.

이와 비슷한 불일치를 보이는 잘못된 아미노산의 변화로 밝혀진 침묵 돌연변이를 적어도 한개의 다른 한개의 유전자를 발견했다. 23andMe는 전반적으로 잘못된 위치에 의해 변화나 좀 더 심각하게는 타입 (아미노산 체인지 vs. 침묵 돌연변이)의 다양한 잘못된 annotation을 볼 수 있었다. 이것은 SNPeff와 같은 분석이 다시 수행되어야할 필요성이 있다.

Learning my genetic heritage
변이에 영향에서 이러한 불일치를 떠나서 GALK1 (galactokinase) 유전자에서 정확하게 annotate된  "Osaka varinat'라는 유전변이를 찾았는데 이는 일본인에서 4%, 한국인에서 약 3%의 freqeuncy를 보인다. 오사카 변이는 고령의 일본인에서 두 눈에서 백내장 형성과 연관되어 있다고 보고되었다.실제 어머니께서 양쪽 눈에 백내장을 위한 라식 수술을 하셨는데, 필자는 어머니로부터 해당 allele를 상속 받았음을  짐작할 수 있다.

Galactokinase 결핍증과 같은 것을 찾는 것은 개인 유전체에 종사하는 사람들의 바램으로 이는 사람들이 해당 유전변이로 인해 발생되는 불행을 막기 위해  뭔가 할 수 있는 여지가 있기 때문이다. 이 경우 우유나 버터와 같은 높은 수준의 galctose를 포함하는 음식을 피하는 간단한 방법이있다.


결론
지금까지 공개 데이터베이스 및 도구를 이용하여 특정 유전변이에 대한 풍부한 정보를 확인하였다. 낭포성 섬유증과 갈락토카이네이스 결핍증 (galactokinase deficiency) allele를 가지고 있다는 것을 알았다. 두 allele는 한국인 인구집단에서 비교적 높은 frequency를 보인다. 인생에서 CF allele가 별 위험요소로 작용하지 않기를 기대하면서 또한 오사카 allele가 백내장에 대해 위험의 요소이기 때문에 우유나 아이스크림 섭취에 대해 절제할 것이다. 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2012.08.06 03:30
Currently 댓글이 없습니다. comments want to say something now?
속속 공개되는 23andMe의 Exome pilot 데이터
2012.08.02 18:18 | 개인유전체분석
작년 9월달인가 일루미나의 OminiExpress Plus를 가지고 장사를 하던 23andMe가 NGS 데이터를 개인게놈분석 서비스(PGS, Personal Genome Service)에 적용하는 파일럿 프로그램을 수행했다. 당시 80x의 커버리지로 $999라는 가격으로 내놓았는데 이제 서서히 결과가 개인들에게 전달되었는지 인터넷을 통해 서서히 결과들이 나오기 시작했다. 다음의 블로그들에서 결과 데이터에 대한 내용이 나오고 있으며, 이것들을 기반으로 23andMe의 결과를 나름 정리해 보도록 하겠다.



참고 블로그글
A first look at my exome variants from 23andMe
My 23andMe Trio Exomes Arrived: Sneak Peek 
PGP18: A 23andme exome 

엑솜 데이터는 무엇이며? 23andMe는 왜 엑솜 데이터를 PGS 컨텐츠로 사용했는가?
유전자는 protein 어쩌구 저쩌구... exon, intron, 5' UTR, 3' UTR 블라블라....넘어가자 귀찮다.

23andMe Sample ID
LF1396과 같이 LF다음 4자리의 숫자가 온다. PGP 프로젝트의 겨우 hu로 시작하고... 암튼 뭐 중요한건 아니고...

시퀀싱 정보
Illumina HiSeq 2000과 Agilent exome capture kit을 이용하여 시퀀싱 수행 

제공되는 데이터

약 4.2 GB의 TrueCrypt로 암호화된 폴더안에 1) hg19에 alignment된 결과인 .bam파일과 인덱스 파일인 .bai 2) 변이정보가 담겨진 .vcf.g로 7MBz 3) 결과 해석 정보가 담겨진 .report.pdf 파일(17 페이지 분량) - 파일 포맷에 대한 설명, 통계관련 요약, 필터링 스키마, 발굴된 흥미로운 variant에 대한 설명 등이 포함

발굴된 흥미로운 유전변이는 high또는 moderate predicted effect를 가진 유전변이-> 1% 미만의 낮은 freqeucny를 가진 유전변이 -> 유전병을 포함하는 유전자에 포함된 유전변이로 순차적으로 필터링된 21개의 유전변이를 제공하는데, 발굴된 갯수는 사람마다 다르겠지만 공개하신분은 21개가 발굴!

아래 그림은 필터링하는 과정을 보여주는데 총 112881개의 엑솜 영역의 유전변이 중 유전변이가 발생함으로서 단백질에 생성에 영향을 많이 줄만한 유전변이를 분류하는데 high와 moderate한 634/11,504개의 유전변이를 필터링하고 다시 총 12,138개의 유전변이 중 1% 미만의 frequency를 가진 rare한 즉 다른 사람들에게는 잘 발견되지 않은 326개와 정보가 없거나 새로운 유전변이 각각 1,152/678개에서 OMIM과 같은 멘델리안 디스오더 데이터베이스에 보고된 유전자 영역에 존재하는 21개의 유전변이를 최종 필터!!!

그럼 저 21개 때문에 나 죽는거!!??
한마디로 유전변이가 발생함으로써 치명적일 수 있으면서 딴사람한테 잘 발견되지 않고 그 정보가 유전병과 연관된 것에 대해서 알려주는 것이다. 따라서 마지막 21개는 좀 무서운 유전변이라고 할 수 있겠다. 하지만 한가지 알아두어야 할것은 이 시퀀싱을 수행한 사람이 살아있다는 것이고 두번째는 rare하다는 것이 아직 많은 사람들이 시퀀싱한 데이터가 없기 때문에 진짜 rare한 것인지? 또 다른 인종에서는 rare할 수 있지만 한국인에서는 rare하지 않을 수도 있다는... 따라서 한국인 표준 레퍼런스 구축 또한 중요하다는거....등등등



Variant Overview
그럼 전체적으로 어떠한 NGS 데이터가 생산되었는지 살펴보자. 그림 A를 보면 On Traget/Near Target을 포함한 약 40억 base가 엑솜 타겟영역에 제대로 붙었구 이것저것 다 포함하면 117.1x의 커버리지를 보이고 있다. B는 이렇게 타겟영역의 약 1억2천만개 중 ref와 같은 곳이 대부분이고 ref와 다른 variant가 약 10만개 이상 정도가 존재하며 다시 10만개 중 그림 C를 보면 이런 variant중 SNP이 10만개 / INDEL이 만개정도 존재한다. 따라서 약 0.1% 정도가 ref와 다른 것을 보여주며 이는 곧 사람마다 99.9% 서로 갇은 유전정보를 공유한다는 것을 알 수 있다. 




내 유전변이가 주는 영향의 정도
약 10만개의 ref와 다른 유전변이는 유전자에 주는 영향에 따라 구분이 가능하다. 그렇다면 과연 어떻게 구성되어있을까? 

High
해당 유전변이가 nonsense mutation, frameshifts, splice site alterations나 loss of stop condon으로 634개가 High impact variants에 속한다.

Moderate
non-synomymous(아미노산에 체인쥐에 영향을 주는), codon insertions/deletions으로 총 11,504ro whswo

Low
synonymous substitutions(아미노산 췌이지에 영향 없는), gain of a start codon

Unknown  
아마도 엑손 영역이 아니 non-exonic에 존재하는 것으로 대부부니 여기에 포함


내 유전변이는 다른 사람들과 얼마나 공유할까?
이미 다른사람들도 보편적으로 가진 유전변이라면 아무리 impact가 high더라도 실제 나에게 의미있는 유전변이가 아니다. 따라서 다른 사람들과 공유하는 정도 즉, frequency 정보를 살펴보도록 한다. 그림을 보면 전체 유전변이 중에서 약 15%에 해당하는 유전변이가 1% 미만의 freqnecy를 가지거나 unidentified된 유전변이로 좀 더 많이 exome 또는 whole genome 데이터가 쌓이게 되면 이 숫자는 좀 더 줄어들것이다. 

최종 21개의 유전변이
최종 필터링된 21개의 유전변이는 moderate impact와 non-syn에 존재하는 유전변이로 아미노산 체인쥐를 통해 프로테인 구조에 영향을 주는 것이다. 아래 그림은 ERCC6 유전자의 10번 염색체의 50680422에 위치하는 유전변이로 C/T(ref는 C)의 het로 Non-Syn으로 Moderate한 effect임을 보여주고 있다.

1000 genomes project에서는 0.00230의  frequency를 보여주며 dbSNP의 rs번호는 rs145720191로 genotype quality나 coverage로 볼 때 잘 잡은 유전변이임을 알 수 있다. 


23andMe의 리포트에서는 1KGenomes의 frequency만을 제공하는데 다른 연구에서 발표된 frequency와 자세히 비교해보면 다음과 같다. NHLBI는 NHLBI Exome Sequencing Project(ESP)를 통해 생산된 데이터로 총 6,503명 중 19명이 CT genotype을 가지고 있는 것을 확인할 수 있다. 해당 allele는 European에서 주로 나타나는 유전변이임을 알 수 있다.

 1KGenomes Overall Freq European Freq  Asian Freq  African Freq  NHLBI Freq  NHLBI 65000 Genotype Counts
 0.0023 0.0026  0  0  0.001416
TT=0
TC=19
CC=6484 

OMIM에 따르면 해당 유전변이가 있는 ERCC6 유전자는 DNA repair와 gene regulation에 관여하는 유전자로 Age Related Macular Degeneration (ARMD, 노인성 황반변성), 자외선 민감도 골격 발달 문제를 야기시키는 희귀한 Cockayne 증후군이라는 유전병과 연관이 있다고한다. 

논문들을 살펴보면 ERCC6는 haploinsufficiency(반수체기능부전, 다른 정상유전자의 단일 복사본에서 생성된 단백질이 정상적인 기능을 나타내기에 충분하지 않은 상태)로 해당 유전변이에 의해 hetero니까 반은 정상적인 단백질을 생성할테고, 반은 비정상적인? 단백질을 생성하지만 그 영향이 미미한 haploinsufficiency인 것이다. 앞선 글에서 설명했듯이 NGS를 통해 찾은 유전변이는 인종간의 frequency 정보나 문헌정보 expression정보 등등과 함께 연관성을 보는 작업이 필요!!

VCF 파일을 통해 본 분석 환경
vcf 파일을 보면 최종 결과물은 GATK를 통해 variant가 calling되었으며, SnpEff를 통해 해당 유전변이에 대한 annotation을 수행한것을 알 수 있다. 또한 reference로는 1000genomes 데이터를 사용했으며, SnpEff는 GRCH37.64 버전을 사용하여 annotation을 수행한것을 확인 할 수 있다.

##reference=file:///creph/gspipe/data/opt/ref_genome/gspipe/0.1/genomes/G1K.37/G1K.37.nt.fasta
##OriginalSnpEffCmd="SnpEff eff GRCh37.64 -config /creph/gspipe/data/opt/app/snpEff/2.0.5/snpEff.config -onlyCoding true -o vcf -i vcf LF1396_vars.cs.vcf "
  
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2012.08.02 18:18
Currently 댓글이 없습니다. comments want to say something now?
즐거운 분석 놀이 - 역시나 제일 재미있는 것은 뭐랄까? 데이터를 분석하고 거기에서 의미를 찾아내는 것이 아닐까?   ^_____________^   마치 보물찾기와 같은...그럼 오늘은 저번 galaxy를 이용한 분석의 연장선상으로 발굴한 유전변이를 가지고 다양한 분석을  해보도록 하겠습니다.

그런데 안타깝게도 오늘 사용할 주재료인 VCF 파일은 galaxy에서 아직 지원을 안하고 있습니다. VCF (Variant Call Format)는 유전변이를 나타내는 표준 파일 형식인데요. NGS를 통해 발굴된 유전변이를 VCF 포맷으로 만들어야 하건만, 이때 Picard나 GATK와 같은 툴들이 사용되는데, 아직 galaxy에서는 이 툴들을 지원하지 않고 있습니다. 뭐 조만간 지원할 것이라고 보는데요. 그건 테스트 galaxy 서버에는 해당 툴들이 있기 때문입니다. 그러니까 곧 정식 galaxy에도 도입된다는 이야기가 되겠죠. 암튼 NGS를 통해 나온 유전변이를 VCF 포맷의 파일로 만들었다고 가정하고 진행하도록 하겠습니다.



한국인 데이터가 없다구요?!!
현재 국내에서 가장 많은 한국인 NGS 데이터를 공개하고 있는 곳은 KPGP(Korean Personal Genome Project)입니다. 이 프로젝트에서는 현재 42명의 한국인 데이터를 공개하고 있습니다.  

   남  여  합
한국인  20  16 36 
한국인 혼혈 (East Asian/Caucasian) 2
한국인 일란성 쌍둥이 0 2
한국인 이란성 쌍둥이
합계 24  18 42

일란성 쌍둥이 데이터 다운로드
KPGP 데이터는 opengenome.net 을 통해  다운로드가 가능하며, 공개되는 데이터는 FASTQ 포맷의 raw data, BAM 포맷의 mapping 데이터, 각종  유전변이 데이터가 존재합니다. 여기서는 VCF 포맷의 SNV 데이터를 다운로드 하도록 하겠습니다. gzip으로 압축된 형태로 약 80 MB의 용량 (압축 해제시 약 400 MB)을 차지합니다. KPGP 웹 페이지를 보시면 일란성 쌍둥이 (Monozygotic Twin) 샘플이 있습니다.  일란성 쌍둥이의 경우 SNV 데이터는 정확히 일치한다고 알려져 있습니다. 물론 그래야만 하구요 ^^;; KPGP_00088, KPGP_00089가 일란성 쌍둥이 샘플명입니다. 각각을 클릭하여 SNV 데이터를 다운로드 합니다.

VCF 파일을 PLINK 포맷으로 변경하기
다양한 genome 분석을 위해서는 VCF 포맷의 데이터를 PLINK 포맷으로 변경해야 합니다. 이때 사용되는 툴이 VCFTools 입니다. VCFTools의 기능 중에는 PLINK에서 사용 가능한 PED, MAP 파일로 변경해주는 옵션이 있습니다.

$ vcftools --vcf KPGP89_G_110915_HiSeq_EastAsian_Kor_F.vcf.SNV --plink

이렇게 명령을 주면, out.map 파일과 out.ped 파일이 생성됩니다. 그럼 이 파일을 PLINK를 이용하여 Binary 형태로 변경합니다. 그런데 주의하셔야 할것은 기본적으로 KPGP에서 생성한 VCF 파일에는 염색체를 나타내는 첫번째 컬럼이 "chr1"과 같이 chr이라는 접두사가 붙습니다. 이렇게 되면 PLINK에서 인식하지 못하기 때문에 그냥 "1"이라고 변경해주어야 합니다. vi 등에서 문자열 치환을 통해 "chr"을 모두 삭제합니다. 또 하나 주의하여야 할것이 있는데요. KPGP의 VCF 포맷에는 ID 즉 해당 변이의 식별자에 해당하는 세번째 컬럼 또한 모두 "."으로 되어 있습니다. 이 부분 또한 임의의 ID를 부여해야합니다. 저는 "염색체_포지션" 즉 "chr1_112000"의 형태로 임의의 ID를 부여했습니다. 이상의 두 가지에 대해서 변경을 하신 후에 VCFtools를 이용하여 PLINK포맷으로 변경합니다. 

$ plink --file out --make-bed --out KPGP_89

위의 명령을 실행하면, out.map과 out.ped 파일은 KPGP_89.bed, KPGP_89.bim, KPGP.fam의 세개의 파일로 변경됩니다. 이 과정을 두 쌍둥이에 대해서 각각 수행합니다. 이제는 각각의 PLINK 파일을 병합합니다.

$ plink --bfile KPGP_89 --bmerge  KPGP_88.bed KPGP_88.bim KPGP_88.fam --make-bed --out TWINS

그럼 TWINS.bed, TWINS.bim, TWINS.fam 파일에 두명의 쌍둥이 데이터가 들어가게 됩니다. 이러한 방법으로 VCF파일을 PLINK로 변환하여 association 분석 등을 수행할 수 있습니다.

혈연관계 분석하기
그럼 과연 이 쌍둥이 데이터가 정말 혈연관계가 있는건지 확인해 보도록 하겠습니다. PLINK에서는 IBS를 이용하여 혈연관계를 분석할 수 있습니다만, 여기서는 KING(Kinship-based INference for Gwas) 이라는 프로그램으로 혈연관계를 분석하도록 하겠습니다. KING은 pairwise로 사람들간의 혈연지수 (kinship coefficient)를 계산해줍니다. kinship coefficient는 다음과 같습니다.

 Relationship Kinship cofficient   Coeffcient of relatedness
 자기자신과 비교, SELF 0.5   1.0
 일란성 쌍둥이, Monozygotic twins 0.5  1.0
 부모-자식, Parent-child 0.25   0.5 
 친형제, Full siblings 0.25   0.5
 배다른 형제, Half siblings 0.125  0.25 
 친사촌, First cousins 0.0625   0.125
 관계없음, Unrelated 0  0

$ king -b TWINS.bed --kinship

위의 결과로 king.kin0 파일이 생성되며 여기에 비교하고자 하는 샘플들간의 Kinship cofficient가 있습니다. 아래와 같이 두 쌍둥이간에 0.4988이 나온것을 확인하실 수 있는데요. 바로 일란성 쌍둥이이거나 혹은 같은 사람이라는 것을 의미합니다. 

 

가족 찾기 문제
자 이제 문제 갑니다. 아까 말한 OPEN KPGP의 공개된 42명의 데이터에는 서로 가족인 사람이 있습니다. 부모와 자식2이 있습니다. 한번 분석해 보시면 간단하게 어떠한 샘플들이 서로 혈연 관계인지를 확인하 실 수 있을 겁니다. 힌트 나갑니다. 부(KPGP_00009) 모(KPGP_00010) 입니다. 자 그럼 여러분들이 잃어버린 자식을 한번 찾아 주시기 바랍니다. ^________________^ 

덧) KPGP 데이터를 다운로드 하실경우 olleh ucloud라고 되어 있는 곳의 RAW DATA를 다운로드 하실 경우 클라우드를 통해 빠르게 다운로드 하실 수 있습니다. 현재 KPGP데이터는 일반 FTP와 클라우드에 나뉘어 제공되니 참고 하시기 바랍니다.


저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.11.22 18:12
Currently 댓글이 없습니다. comments want to say something now?
Day4 - 보다 자세한 Ancestry 정보
2011.11.01 11:37 | 개인유전체분석
Day3에 이어서 Interpretome을 이용하여 자신의 genome을 분석하는 시간이다. 이번에는 Clinical과 Ancestry 기능으로 우선 Ancestry 기능을 위주로 살펴보도록하겠다.

Ancestry
Ancestry는 Similarity, PCA, Painting의 메뉴로 구성되어 자신의 genome 데이터를 가지고 다양한 방법을 통해 자신의 조상 정보를 표시해 준다. 그럼 하나씩 하나씩 어떠한 원리로 자신의 genome 정보를 표시하는지 간단한 이론과 함께 살펴보도록 하자.

Similarity
인간은 누구가 부모에게서 하나씩 받은 총 23개의 염색체로 구성되어 있다. 물론 어떤게 아버지에게 어머니에게 받은 건지는 확실하게 알 수는 없다. 이 부분에 대해서는 이전 글에서 언급했었으니 참고하기 바란다.

사람들은 저마다 다른 유전정보를 지니고 있고 개인마다 모두 다른 정보를 가지고 있지만, 그차이는 전체 30억이라는 염기서열에서 극히 일부분에 지나지 않는다. 인간과 침팬치와 98.8% 유사하니까 말이다. 하지만 아무리 98.8%라고 하더라도 갯수로 따지면 3천6백만개에 이른다.

Similarity는 특정 영역의 genome에서 비교하고자하는 사람들끼리 얼마나 같은 유전형을 가지는지 갯수를 세어 비교하여 타인과 얼마나 유사한지를 보여주게 된다. 아까 침팬치와는 98.8% 일치한다고 했었는데, 사람과 사람사이는 99.97% 유사하다고 알려져 있다. 즉 나와 타인은 0.03%의 차이 (약 9십만개의 염기)로 인해 구별된다고 할 수 있다. 

단순히 다른것의 갯수라고 했지만, 아까도 이야기 했듯이 인간의 염색체는 부/모에게 하나씩 물려 받았고 이를 대립유전자라고 한다. 즉 Allele가 2개의 형태로, 흔히 Genotype이라고 AA/AB/BB의 3가지 형태로 표시한다. 따라서 어느 한 부분에서 타인과 나를 비교할때 정확히 일치 AA(나) / AA(타인)하는 경우(2점 획득), 하나만 일치하는 경우 AA(나)/AA or AB(타인)인 경우 (1점 획득) 마지막은 서로 완전히 다른 AA(나)/BB(타인) 경우 (0점)로 이 점수로 서로 다른 갯수(정확히 말하면 갯수는 아니죠 ^^)를 나타내게 되며 이를 IBS라고 한다.

그렇다고 30억개의 모든 염기서열의 IBS값을 구해서 서로 얼마나 유사한지를 계산하는 것은 비효율적이기 때문에 사람마다 평균적으로 다른 부분이 많은 부분(Block)을 뽑아서 그 부분에 대한 IBS값을 구하게 되면 30억개를 모두 비교하는 것보다 훨씬 효율적이고 정확하게 유사성을 판별할 수 있다.

Interpretome은 1,000개, 10,000개, 100,000개의 SNP만을 비교해서 서로간의 유사성을 판단하게 된다. 각각의 SNP 세트는 아까말한 Block내의 대표적인 SNP을 뽑은 것으로 이세트에서는 1,000개 보다는 100,000개로 비교하는 것이 서로간의 유사성을 판단하는데 좀 더 정확한 값이라고 할 수 일겠다. Interpretome은 6명의 공개된 사람들 vs. 나를 비교해서 살펴 볼 수 있다. 다른 사람들과 유독 유사한 분이 계신데... 찾아보니 나와 제일 유사하게 나온 Stuart는 본명이 Stuart Kim으로 동양사람 이었다. 

1,000개의 SNP를 가지고 비교한 결과 난 87.738%로 Stuart와 제일 유사


PCA
유사성이 개인간에 같은 genome 정보를 얼마나 공유하는지를 보는 것이었다면, PCA는 각 인종을 대표하는 Reference Panel을 X,Y의 2차원적인 그래프에 표시하는 방법이다. 여기에서도 IBS값을 사용하며, 각 사람들의 IBS값을 대표하는 값을 추출하게 된다. 이렇게 다양한 차원의 값(IBS)을 차원축소를 수행하는데, 대표적인 방법이 PCA라는 방법이다. 즉 (1,2,2,3........3) -> (X,Y,Z)의 형태로 왼쪽의 다양한 값을 오른쪽의 X(PC1),Y(PC2),Z(PC3)처럼 간단하게 만드는 것이다. X(PC1)는 왼쪽의 값들을 가장 많이 대표할 수 있는 값이며, Y(PC2)는 그 다음 ... 그중에서 X,Y의 두개의 값을 통해 2차원적으로 표시하는 것이다. 


HGDP, HapMap은 각 인종의 데이터를 모아 놓은 Reference Panel로 기존에 알려진 이러한 Reference내에서 자신의 위치를 표시해준다 

빨간색점이 자신의 위치로 East Asian들 사이에 있는 것을 확인할 수 있다. PC1의 값이 약 -7로 수많은 자신의 genotype 데이터를 설명하는데에 PC1의 대표성은 5.45%, PC2의 대표성은 3.88%이다.

X,Y축을 PC1,PC2,PC3 등으로 변경해 보면서 또는 Reference Panel을 다양하게 변경해보면서 자신의 위치를 확인해 볼 수 있으며, 3차원적으로 표시해서 보면 좀 더 분명하게 자신의 위치를 확인 가능하다. 

Ancestry Painting
마지막은 각 염색체별로 Ancestry 정보를 색칠해주는 것으로, 염색체를 작은 Block으로 나누어 해당 Block이 어느 인종과 유사한지를 확인해서 painting해주는 것이다. 각 인종이 염색체의 어느 한부분이 평균적으로 아프리카인의 경우 "AAAAAA", 아시아인은 "AAABBB", 유럽인은 "BBBBBB"이라고 할 경우 자신이 그 Block이 "AABBBB"라면 아시아인과 가장 유사하기 때문에 그 부분을 아시아인의 색인 초록색으로 표시하는 것이다. Block의 크기를 작게하면 할 수록 좀 더 세밀하게 분석되어진 모습을 볼 수 있겠지만, Block이 작을수록 노이즈가 섞일 가능성이 많아지게 된다.

전체적으로 난 CHB+JPT(중국인+일본인)

이상으로 자신의 인종적인 정보를 다양한 방법으로 살펴보았다. 보시면서 느끼겠지만 Reference 인종에 대한 자세한 정보가 존재할 수록 좀 더 자신의 유전정보를 확실하게 알 수 있다. 하지만, 아쉽게도 이러한 Reference로 많이 사용되는 HapMap이나 HGDP 등의 프로젝트에 한국인은 누락되어 있기 때문에 좀 아쉬면이 있기는 하다. 


저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Tagged as : ancestry, pca
Posted in : 개인유전체분석 at 2011.11.01 11:37
Currently 댓글이 하나 달렸습니다 comments want to say something now?
Day3 - 네안데르탈인과 나의 Genome 비교
2011.11.01 03:24 | 개인유전체분석
데이터도 얻었고 public domain에 등록도 해보았다. 그렇다면 이제부터 내 Genome을 내스스로 한번 분석해 보도록하자. 하지만 이미 많은 연구자들이 personal genome 데이터를 해석해주는 다양한 툴들을 만들어 놓았으니 우선 이것들을 활용해서 분석하는 것 부터 시작해보도록 하자.

Interpretome
Interpretome은 웹기반의 툴로서 스탠포드 대학의 유전학 강의를 듣는 학생들이 만든 것이다. Genome 데이터로부터 할 수 있는 다양한 분석을 웹상에 구현해 놓았으니 당신은 클릭만 하면 된다. 자신의 23andMe 포맷의 데이터를 업로드하면 서버상에서 분석해서 그 결과를 보여준다.

Interpretome을 사용하기 위해서는 우선 23andMe 파일을 선택한 후 자신의 인종을 선택하는 작업이 선행되어야 한다.

Lookup
자신이 가진 SNP 리스트를 찾아주며, 보고자하는 SNP이 없다면 imputation을 통해 통계적으로 Reference 데이터를 기반으로 없는 SNP의 genotype을 추정해서 알려준다. rs3751813는 23andMe를 서비스를 받은 사용자에게는 없는 SNP이지만, 주변에 존재하는 rs9941349의 genotype과 HapMap에 이미 존재하는 다른 사람들의 rs9941349 genotype 정보를 기반으로 자신의 genotype을 추정하여 보여준다. 물론 imputation을 하기 위해서는 Reference가 되는 즉 알고자하는 SNP의 다른 사람들의 genotype 정보가 있어야 가능하기 때문에 자신이 원하는 모든 SNP이 나오는 것은 아니다.

새로운 phenotype과 연관된 SNP이 논문으로 나왔는데, 자신의 genome 정보에 없다면 lookup 기능을 사용하여 추정된 genotype을 활용해보면 유용할것이다. genomesunzipped에서도 알츠하이머에 관련된 SNP이 23andMe에는 없기 때문에 이러한 imputation을 통해 추정된 genotype을 통해 분석을 수행하기도 했다.

rs3571813은 GG가 나왔는데, 이는 상관관계가(R2=0.723) 높은 주변의 rs9941349를 기반으로 추정(imputed from)된 결과

Explore
논문으로 발표된 다양한 내용을 기반으로 여러가지 분석을 자신의 데이터를 가지고 수행해볼 수 있다. 그중에서 네안데르탈인과의 비교를 수행하는 부분으로 최근에 발표된 논문에 의하면 아프리카인을 제외한 유럽과 아시아인의 일부가 네안데르탈인과 이종교배를 통해 일부 유전정보가 남아있다는 논문이다. 이 논문을 근거로 하여 자신의 얼마나 네안드탈인의 유전정보를 지니고 있는지를 보여준다. 

Choose an existing exercise에서 Neandertal을 선택하면 네안데르탈인이 지닌 유전정보와 내 정보가 얼마나 일치하는지를 보여주는데, 총 84개의 allele 중에 6개의 allele가 네안데르탈인으로부터 유래된 것이다. 논문에 따르면 일찍이 아프리카를 떠난 호모사피엔스중 일부 유럽과 아시안인들이 네안데르탈인과 응응한 결과 네안데르탈인의 유전정보가 현재까지 내려온다는 것인데, 이러한 네안데르탈인의 allele는 아프리카인들에게서는 볼 수  없다고 한다. 나도 비록 84개중 6개 이지만, 우리 할아버지의 할아버지....는 네안데르탈인이 ㅋㅋㅋ

네안데르탈인과의 비교

이렇게 Explore는 키, 노화 등등 다양한 정보를 직접 해 볼 수 있도록 해 놓았다. 또 하나 흥미로운 것은 각 인종에서 서로 뚜렷하게 대립되는 allele가 있는데, Ancestry SNP을 선택하면 European, Asian 고유의 SNP을 자신의 SNP과 함께 보여준다. 총 20개의 SNP이 모두 Asian을 가르키고 있다.

European과 East Asian 사이에 확연하게 구분하는 allele

다음에는 계속해서 Clincal 정보와 Ancestry 정보를 보다 다양한 방법으로 시각화해서 보여주는 Interpretome의 기능에 대해서 이야기하기로 하고 오늘은 여기까지...






 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.11.01 03:24
Currently 댓글이 하나 달렸습니다 comments want to say something now?
Day2 - 내 데이터 공개하기
2011.10.31 17:06 | 개인유전체분석
자신의 genotype 데이터가 준비되었고, 또한 DTC 회사에서 제공하는 정보외에 다양한 정보를 얻기를 원할 것이다. 이러한 정보들을 얻기 이전에 과학계의 발전을 위해서 내 데이터가 쓰여지길 원하고 더불어 몇몇 유용한 정보를 더 얻기를 원한다면 다음의 서비스들은 당신에게 커다란 보람을 줄것이다.

openSNP
 openSNP은 최근에 만들어진 사이트로 자신의 결과를 다른사람들과 공유할 수 있도록 만들어진 웹 기반 시스템이다. 23andMe나 deCOMEme 사용들은 자신의 raw data를 업로드하고 다양한 방법으로 확인할 수 있다.

Phenotypes
머리카락색, 눈색 등의 이미 다른 사용자가 만들어진 phenotype 정보에 자신의 phenotype을 적거나, 없는 phenotype의 경우 자신이 직접 질문을 작성할 수 있다. 이렇게 작성된 결과는 phenotype별로 genotype 정보를 다운로드 가능하다. 즉 빨간색? 눈을 가진 사람들만 따로 genotype 파일을 다운로드 할 수 있도록 해준다.

자신의 Eye color에 대한 설문이 가능하며, 각 phenotype별로 다운로드 가능

SNPs
사용자들이 업로드한 SNP들을 Ranking하여 순위가 높으순으로 나열하여 보여주며, 이때 Ranking은 해당 SNP이 현재까지 얼마나 많은 정보(annotation)을 포함하는지에 따라서 매겨진다. 원하는 SNP을 클릭하면 해당 SNP의 SNPedia, PLoS, Mendeley의 정보를 함께 보여준다.

rs9939609에 대한 정보, 자신의 genotype 사용자별 Genotype/Allele Frequency 정보와 함께 부가정보를 표시
해당 SNP은 제2형당뇨와 연관된 SNP으로 대부분 사용자들이 T allele를 보유 A allele보유자는 당뇨에 위험이 큼 



Mendeley와 PLoS의 경우 API를 통해 해당 SNP과 관련된 논문들을 자동으로 추출하여 출력

Users
각 사용자의 정보를 열람 가능하며, 사용자가 설문에 응답한 내용이나 genotype 정보를 제공한 사람의 경우 해당 genotype 데이터를 다운로드 할 수 있는 링크를 제공한다. phenotype 정보에 대답한 만큼 별모양의 뱃지를 받는다. 또는 새로운 질문을 생성한 경우도 뱃지를 받으며, 해당 뱃지는 사용자 사진 옆에 위치한다.

Variation은 설문에 응답한 자신의 phenotype 정보가 보여진다.

 과감하게 Upload
자신의 유전정보가 공개되는 것에 대해서 충분한 생각을 거치고 공개하기로 결정했다면, openSNP은 아주 흥미로운 공개장소 중 하나일 것이다. 좀 더 많은 사람들이 모인다면 GWAS도 가능할 만큼의 데이터가 되지 않을까 생각해본다. 23andMe가 그랬던것처럼 조만간 OpenSNP의 데이터를 기반으로한 진정한 사용자 참여의 논문을 기대해 본다.

 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Tagged as : GWAS, opensnp
Posted in : 개인유전체분석 at 2011.10.31 17:06
Currently 댓글이 없습니다. comments want to say something now?
STRUCTURE라는 프로그램과 SNP 데이터를 이용해서 population structure를 분석하는 방법입니다. 예전에 128개의 SNP으로 분석하는 방법에 대한 글은 이곳을 클릭하시기 바랍니다 윈도우용 프로그램을 다운로드 하셔서 위의 링크의 예제 파일을 다운로드하신 후 분석하시면 됩니다. 한국인의 infomative한 SNP 마커 발굴에 관한 논문은 다음의 논문을 참고하시면 됩니다.

Int J Legal Med (2010) 124:125–131 DOI 10.1007/s00414-009-0389-9

Development of SNP-based human identification system
 
 

View more presentations from Hong ChangBum

 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.08.12 16:03
Currently 4 comments want to say something now?
23andMe는 상업 회사가 아니라 연구기관이다??
2011.05.25 02:17 | 개인유전체분석
얼마전부터 사람들이 23andMe 가격 정책이 바뀌었다는데요? 라고 물어보는데, 23andMe 서비스에 접속해 본지도 오래된지라 아는척을 하지 못하고 머뭇거리고만 있었다. 그리고 마침내 오늘에서야 이 질문에 답해 보려고 한다.

23andMe의 현재까지 수익은 얼마나 될까?
현재까지 공식적으로 밝혀진 것은 23andMe의 고객은 75,000명 (23andMe의 CEO가 언급, 10th Systems Biology & P4 Medicine) 이라고 말하고 있다. 고객당 평균 $300의 비용을 들여 서비스를 받았다고 할 경우 수학정석에 나와 있는 공식에 의해 75000*300= $22,500,000 = 24,592,500,000 원 (오늘환율 1,093원 적용시) 즉 현재까지 2백4십억여원의 수입이 발생한걸로 예상해 볼 수 있다.

여기서 고객당 평균 $300 라고는 했지만, 그 동안 23andMe는 여러차례 가격 인하, 추수감사절 세일, 특정질환자 세일 등등으로 여러가지 가격 정책을 보여 왔으니 정확한 매출이라고는 힘들겠다.

23andMe의 가격 정책 변동
2006년 처음 23andMe는 $999라는 가격으로 처음 시작했다. 그 시절에 이 가격은 그리 비싼 가격이 아니었지만, 시간이 흐를수록 technology가 발전하면서 2008년 9월에는 $399로 엄청난 가격 인하를 단행했다. 이는 단지 가격인하뿐만 아니라 사용하는 chip도 Illumina사의 HumanHap550-Quad+로 변경되면서 1,000,000개 이상의 SNP 정보를 포함하게 되었다. (23andMe v1, v2 chip을로 구분되어 불린다)

여기에서 중간단계의 과도기적인 가격정책으로 health와 ancestry 정보로 나누어 서비스하는 정책을 펼치기도 했는데, 언제부터인가 소리소문 없이 사라져 버리고, 현재는 $399에 모든 서비스를 받는 것과 $99를 처음 지불하고 다달이 $9를 지불하는 방법과 $99+$108(12개월 선불)=$207의 세가지 요금제를 내놓았다. 점점 국내 통신사들의 결합상품이네 뭐네 당췌 전문가가 아니면 알 수 없는 복잡스런 요금정책이 되어가는듯...

간단히 요약하자면 $399 요금과 $99 (업데이트 안하면 되니까) 요금 두가지가 존재한다고 말할 수 있겠다. 단기적으로는 $99가 매력적일 수 있겠지만, 다달이 나가는 $9는 자칫 지속적인 서비스 제공 받을 경우 엄청난 금액으로 되돌아 올 수도 있겠다.

이 부분은 SNPedia의 Mike가 몇년전 이미 23andMe 서비스를 언급하면서 자칫 23andMe의 이러한 $399 통요금만 받다가는 지속적인 업그레이드 비용에 대한 부담이 커질 수 있으며, 이는 서비스를 업데이트 할때마다 요금을 부과해야 한다고 말했던 부분이 현실화 된 것이다. 뭐 나한테만 말한거지만,,, -.-;;;

현재 23andMe의 3가지 요금제도?


23andMe는 연구기관?
현재 23andMe는 8만여명의 고객데이터 (유전정보+설문정보)를 보유하고 있으며, 약 1만여명 정도가 설문에 잘 응답하고 있다고 이야기하고 있다. 그들의 데이터베이스가 얼마나 탄탄한지는 내가 직접 보지 못했기 때문에 학술적으로나 상업적으로 얼마나 유용할지는 말하기 힘들지만, 그네들이 설문을 기반으로 연구한것을 발표하는것을 보면 꽤 쓸만한 데이터를 모아놓고 있는 것으로 추측된다.

이들은 또한 파킨슨 질환에 대한 연구를 위해 별도의 요금정책을 만들어 고객(참여자)을 유치하고 있는데, 이러한 일련의 움직임을 보면 23andMe를 단순히 유전자검사 회사로 치부하기에는 너무 많이 커버렸다. 8만명의 데이터는 정말 그 누구도 무시못할 데이터라고 할 수 있겠다.

제약회사와 손잡는 23andMe
일련의 이러한 23andMe의 행보는 얼마전 제약회사로 부터 contact이 오기에 이르렀다. 향후 개인별 맞춤의학이라는 큰 그림에서 23andMe의 데이터베이스는 정말 유용하게 사용될 수 있는 가능성이 있는 것으로, 가령 특정 파스에 알레르기 반응을 보이는 고객의 설문정보를 받아서 제약회사에 넘긴다면(참고로 저는 파스를 붙이면 피부가 벌게지면서 가려워요 ㅜㅜ) 제약회사 입장에서는 그러한 고객의 유전정보를 파악해 연구가 가능해 질 수 있을 것이다.

역시나 SNPedia의 Mike가 몇년전 SNPedia 사이트에 자주 접속하는 곳이 있는데, 그곳이 건강에 관련한 회사이며 존슨앤존스라고 귀뜸하면서 혼자만 알고 있으라고 했는데... -.-;;

점점 시퀀싱 비용이 낮아지면서 23andMe는 더욱더 가격 하락과 함께 다양한 할인 및 요금 정책을 펼칠 것이며, 그 배후에는 고객을 늘리고 고품질의 다양한 종류의 인간들의 데이터를 모아서 2차, 3차적인 부가가치를 높이려는 행보가 숨어 있는 것이다. 그리고 이는 더욱 가속화 될 것이다.

저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.05.25 02:17
Currently 댓글이 하나 달렸습니다 comments want to say something now?
얼마전 Wired로 블로그 (Genetic Future) 를 옮긴 다니엘의 글에 CEOmics라는 단어가 나왔다. "-ome" 은  세트라는 의미를 가지고 있으며, "-ics"는 ~~학(수학,과학처럼)이라는 의미를 지니고 있는데 이것이 합쳐저서서 "-omics"라는 단어가 만들어졌다. 이 단어는 생물학 분야에서 처음 사용되기 시작했는데 일정 수준의 생물학적 정보의 집합체를 나타내는 접미어로서 genomics, proteomics 등 전체 유전자의 군, 전체 단백질 군을 연구하는 학문이라는 의미를 가지게 된다. 바로 이 omics (오믹스)CEO (최고경영자)가 합쳐진 CEOmics라는 단어가 만들어지게 되었다. 그럼 왜 이 단어가 탄생했는지 한번 들여다 보기로 하자.

자신의 유전정보를 공개하는 것이 이제 국외나 국내에서는 더 이상 그다지 가쉽거리가 되지 않은 현상이 되어가고 있다. 인간 유전체의 두 선구자인 크레이그 벤터와 제임스 왓슨이 자신의 complete genome을 공개한 것이 각각 2007년과 2008년도의 일이었다. 불행?하게도 제임스 왓슨은 알츠하이어에 대한 위험도가 높은 것으로 나타났지만 말이다. 그럼 이 두 사람은 뭐 하시는 분들이냐? 제임스 왓슨은 아마 중학교 생물시간에 한번쯤 들어봤을 DNA의 이중 나선구조를 밝힌 유명한 분이시고, 벤터는 셀레라라는 민간기업을 가지고 인간게놈프로젝트에 참여한 분이다.



Personal Genome Project에서는 첫번째 10명의 유전정보를 공개했으며, 이들을 가리켜 PGP10이라고 한다. 현재는 수천의 참여자들이 참여하고 있는 상황이다. 또한 Genomes Unzipped에서는 자신들의 23andMe 유전정보를 공개하고 있으며, SNPedia라는 위키기반의 공개 저장소에는 현재 60여명의 유전정보가 공개되어 있다. 최근에는 프로그램 코드를 저장하고 공유하는 GitHub에 자신의 유전정보를 공개하기도 하였다.

이렇게 자신의 유전정보를 인터넷을 통해 공개하는 것은 여러 이유가 있을 수 있겠다. Personal Genome Project의 경우 건강과 유전 및 환경에 대한 연구를 위한 정보를 제공하고, Genomes Unzipped의 경우 개인 유전자 데이터 분석 도구의 개발이나, 다른 유전자검사회사의 비교 등에 쓰이기 위한 것이다.

DNA 시퀀싱 기술 회사 (우리가 흔히 NGS, Next Generation Sequencing이라고 불리는 기계들을 만드는)의 경영진의 경우에는 좀 더 실용적인 측면에서 자신들의 유전정보를 공개하고 있다. 이러한 회사들은 향후 도래할 게놈 시퀀싱을 통한 건강 혜택을 제공함으로써 이익을 창출하기를 원하고 있으며, 이러한 것이 자신들의 회사의 기술을 통해 생산함으로써 자신들이 속한 회사의 제품에 대한 신뢰와 함께 자신들의 유전자에 숨겨진 정보가 공개되거나 함으로써 결코 위험하거나 두려운것이 아니라는 것을 직접 보여주기 위한 것이다.

Helicos의 공동 창업자 Stephen Quake 자신의 유전정보를 공개하다
Helicos는 HeliScope Single Molecule Sequencer를 만드는 회사로, 아직까지는 좀 생소한 업체이지만 지금까지의 NGS와는 좀 달리 Single Molecule을 이용한다. Nature Biotechnology에 자신들의 장비를 이용한 시퀀싱에 대한 논문이 2009년도 나왔는데 이때 사용한 것이 바로 Helicos의 공동 창업자인 Stephen Quake의 샘플이었다. 2010년도에는 란셋에 논문을 실었는데 이 부분은 여기 블로그에서도 소개한 적이 있다.(이분 가족사(유전정보)는 참 흥미?로운게 사촌 조카가 19살에 SCD로 죽고...)  현재 Quake의 로우 데이터는 하버드대학의 Trait-o-matic에서 다운로드가 가능하다.

DNA 시퀀싱의 두 거물 회사 Illumina, Life Technologies의 CEO 자신들의 유전정보를 공개하다
Illumina는 Solexa라는 회사를 사들여서 현재 Genome Analyzer와 HiSeq이라는 시퀀싱 장비를 만드는 업체로 개인유전체분야에 많은 관심을 보여주는 업체이기도 하다. 이 회사는 이전 CEO였던 John West (자신과 자신의 아내와 두 딸: 아직공개되지않음)와 현재 CEO인 Jay Flatley는 자신의 유전 정보에 대한 로우 데이터를 Amazon EC2 클라우드 서비스를 통해서 제공하고 있다.

  Screen shot 2011-03-04 at 6.48.26 PM

Life Technologies (SOLiD와 Torrent PGM을 생산)의 CEO인 Greg Lucier는 genome browser를 통해서 좀 더 손쉽게 접근할 수 있다. 이 genome browser (아이패드를 통해서도 손쉽게 확대/축소가 가능한 gbrowser를 기반)는 Nimbus Informatics를 통해 제공되고 있다.

Screen shot 2011-03-05 at 12.08.57 AM

그렇다면 다음 CEO는?
지금까지 언급한 시퀀싱 장비회사 말고도 외국에는 현재 다양한 기술로 무장한 회사들이 여럿 존재한다. 아마도 이들 회사의 CEO들도 자신들의 유전정보를 공개하는 것에 대해서 어느정도 고민을 하고 있을 것이다. 그것이 자신의 회사에 도움이 될 것이라는 판단하에...말이다. 그렇다면 국내의 경우는 어떠할까? 아쉽게도 국내에서는 직접적으로 시퀀싱 장비를 생산하거나 생산을 계획하는 회사는 없는 것으로 알고 있다. 하지만, 삼성 SDS를 비롯한 IBM, KT, LG 등등 많은 회사와 병원들이 유전자 및 헬스케어 시장에 관심을 가지고 활발하게 움직이고 있는 상황에서 이 중 어느 CEO가 어떠한 목적을 가지고 자신의 정보를 공개하게 될지 자못 궁금해진다.

저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.03.04 14:27
Currently 댓글이 하나 달렸습니다 comments want to say something now?
personal genomic 관련 프로그램과 웹사이트
2011.01.18 13:38 | 개인유전체분석
SNPedia/Web page: 위키 기반으로 SNP과 연관된 trait(질병포함) 정보를 제공하고 있으며, 여러 사람들의 협업을 통해 자료가 업데이트되고 있지만, 주로 관리자가 NCBI의 rss 데이터를 주기적으로 받아 정리하고 있다.

SNPTips - SNPedia

Promethease/Mac, Windows program: 자유롭게 다운로드 받아 사용할 수 있으며, 23andMe, deCODEme, Navigenics의 raw data를 넣으면 SNPedia로 부터 데이터를 가져와 SNP과 trait 정보를 보여준다.

promethease

DIYgenomics/iPhone, Android app: 20여가지의 SNP과 관련된 trait 정보를 보여주는데, 23andMe, deCODEme, Navigenics에서 각각 trait에 사용된 SNP을 비교해서 볼 수 있도록 해준다.

DIYgenomics

DIYgenomics

SNPtips/FireFox extension: FireFox의 확장기능으로 자신의 23andMe raw data를 입력해주면 웹페이지에서 rs로 시작하는 SNP문자열에 클릭할 수 있는 버튼이 생기며 해당 SNP에 대한 자신의 정보와 함께 외부 사이트로의 링크를 제공한다.

SNPTips


SNPTips

Enlis/Mac, Windows program: Promethase와 마찬가지로 23andMe의 raw data를 입력하면 해당 사용자의 정보를 분석해서 보여준다. 아직까지 특정 trait에 대한 정보는 없으며 전체적인 SNP에 대한 통계 정보를 보여준다.

Enlis

Enlis


Ensembl and UCSC/Genome Browser: 유전자 및 유전변이와 그에 관련한 phenotype 정보를 볼 수 있는 가가장 대중적인 genome browser이다.

Catalogue of genome-wide association studies/Web page: National Human Genome Research Institute에서 제공하는 현재까지 SNP과 관련한 GWAS 연구 결과를 보여준다.
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 개인유전체분석 at 2011.01.18 13:38
Currently 댓글이 없습니다. comments want to say something now?

티스토리 툴바