분류 전체보기 749

23andMe의 데이터 액세스를 위한 API 공개

23andMe가 자사의 데이터에 접근할 수 있는 API를 공개했습니다. 아직 모든 23andMe 사용자들이 자유롭게 API를 사용할 수 있는 단계는 아니고 자신이 해당 API로 어떠한 Application을 만들지를 제출하면 API를 사용할 수 있도록 허용하고 있는 early access 단계입니다. 23andMe의 Personal Genome API https://api.23andme.com/ 제공되는 API는 user, profiles, genotype을 제공하고 있습니다. 이를 이용하면 기본적인 사용자 정보와 원하는 SNP의 genotype을 알아낼 수 가 있습니다. 지금까지 23andMe의 데이터를 외부에서 사용하는데에는 raw data를 전부 다운로드 받아서 외부프로그램에 업로드하는 방식으로 구..

ENCODE 프로젝트 - 클라우드 기반 게놈 분석 서비스 이용

요즘 ENCODE 프로젝트가 publish 되면서 이것과 관련한 여러 이슈들이 나오고 있습니다. 기본적으로 이따우 프로젝트를 할 필요가 있는지의 논쟁부터 시작해서 데이터가 갖는 의미를 비롯해서 데이터를 분석하는 툴들을 모아 이미지 형태로 제공하여 손쉽게 누구나 분석을 재현할 수 있도록 하는 등등 상당히 핫한 내용들이죠. 하지만, 오늘 말씀드릴 내용은 바로 분석에 DNAnexus라는 상용의 서비스를 사용했다는 것입니다. 스탠포드 대학에서는 ENCDOE 데이터중에서 ChIP-seq 데이터를 분석하는데 참여했드랬죠. Arned Sidown와 Serafim Batzoglou의 포닥으로 계신 Anshul Kundaje (현재 MIT의 research scientist로 옮김) 가 119명의 다양한 셀라인의 ChI..

제대로 대중의 힘을 서비스에 이용하는 23andMe - 이번에는 health condition

원문은 23andMe의 blog인 spittion의 "Crowdsourceing Helath Conditions" 으로 본 글은 이글을 기반으로 작성되었음을 알려드립니다. 얼마전 23andMe가 CureTogether를 인수했는데요. 그 첫번째 결과물을 자신들의 블로그에 올렸네요. 바로 대중의 힘을 빌어 더 나은 제품, 서비스를 만들어가는 내용입니다. 어떠한 것을 꼭 함께 따라 다니기 마련이다. 가령 땅콩버터와 젤리, 치즈와 크래커, 탱고와 캐쉬처럼말이다. 어떠한 것들은 좀 더 강하게 연결되어있는것도 그렇지 않은 것들도 있지만 좀 더 깊이 파고들어간다면 모든 것들에는 연결이 있기 마련이다. 바로 건강에서도 건강 상태간의 연결이 있고 이는 종종 직관적이기도 하다. 예를 들어 이를 가는 경우 턱 주위에 통증..

한국인 게놈 표준 지도

게놈에서의 표준이라는 것을 논하기 전에 표준이라는 사전적 의미를 보면 "일반적인 것 또는 평균적인것"이라는 의미가 있다. 이러한 표준의 예문 중 하나를 보자면 "그사람 정도의 키면 한국 남자의 표준은 된다" 한국인 남자의 표준 키가 있기에 우리는 그사람의 키를 가늠할 수 있을 뿐만 아니라 이 표준을 가지고 옷을 만들거나 버스 천정의 높이를 정한다거나 등 여러가지로 활용이 가능하다. 가령 미국인의 표준에 맞추어진 버스를 우리가 탄다면 대부분의 한국인은 높은 곳에 손잡이가 위치해 있어 불편할 것이다. 그러기에 한국인 표준이라는 것이 있으면 좋다. 물론 없으면 좀 불편하겠지만 말이다. 그럼 한국인 게놈 표준이라는 것은 뭘까?를 고민하기 전에 우리가 유전체를 통해 현재 하고 있는 일에서 불편한 점을 생각해 본다..

Genome Analysis with MapReduce

여: 옵빠 나 밤(BAM)가지고 있는데 요것들을 합치려 하니깐 리드들의 아이디가 서로 겹치는게 있어서 에러나 이거 고치는데 시간 오래 걸려? 남: 음! 그것두 졸라 한 오백 라인정도 하루죙일 코딩해야해! (샘포맷으로 바꾸고 헤더 정보 읽은 담에 리드 그룹을 파싱해서 아이디로 해쉬 테이블 만들어 넣고 리드들을 루푸 돌아가면서 해쉬에 있는 리드 그룹 아이디를 찾고 플랫폼 태그를 찾아서 리드 이름에 추가하고 다시 밤포맷으로 바꾸고 인덱싱 새로하고...) "The presentation from Eli Lilly is a great introduction to developing your own custom GATK Walkers in Java." from Blue Collar Bioinformatics GAT..

DDBJ의 개념찬 NGS 분석 서비스

DDBJ vs. DNAnexus 얼마전 NGS 데이터 분석에서 최고를 달리고 있는 DNAnexs에서 SRA (Sequence Read Archive)의 데이터를 미러링해주는 서비스가 발표되었다. 이는 엄청난 데이터를 저장할 수 있는 구글의 클라우드 스토리지가 있기에 가능했던 일이었다. 단순한 미러링뿐만 아니라 SRA 데이터를 바로 DNAnexus로 import하여 해당 시퀀스 데이터를 분석 할 수 있도록 해주어 편리하게 SRA 데이터를 이용할 수 있도록 하고 있다. 하지만 이러한 컨셉은 적어도 내가 아는한 DNAnexus의 창의적인 서비스가 아니라 이미 일본의 DDBJ (DNA Data Bank of Japan)에서 이미 하고 있던 것이다. 오늘은 바로 가깝고도 먼 일본의 DDBJ 서비스에 대해서 알아보..

23andMe 엑솜 데이터 살펴보기 - 2부

지난번 23andMe의 엑솜 시퀀싱 결과에 대해서 좀 더 살펴보도록 한다. 물론 본 내용은 Jung's Biology Blog를 기반으로 하고 있다는 것을 알아두었으면 한다. 물론 블로그글을 사용해도 된다는 허락을 득했음을 미리 알려둔다. 저번 글이 전반적인 23andMe의 결과를 살펴보는데 촛점이 맞추어져 있었다면 이번에는 엑솜 시퀀싱을 통해 발굴 (필터링)된 21개의 유전 변이를 오픈소스 툴들을 이용하여 살펴 보는것에 대한 내용으로 다음과 같은 질문에 대한 해답을 구하는 것을 목표로 한다. 1. 매핑된 시퀀스 read들을 어떻게 시각화 할것인가? 2. 영향을 주는 유전자의 기능은 무엇인가? 3. 유전변이들이 얼마나 심각하게 유전자의 기능에 영향을 미칠수 있는 것인가? Bam files and samt..

일루미나 클라우드 서비스 가격 발표

얼마전에 "우린 Apple App Store 아니 Genome App Store - Illumina BaseSpace"라는 글에서 일루미나의 클라우드 서비스에 대해서 언급한 적이 있다. 요번에 일루미나의 클라우드 서비스의 가격정책이 발표되었다. 다시 한번 간단하게 일루미나의 클라우드 서비스를 살펴보면 MiSeq 또는 HiSeq 장비 자체에 자사의 클라우드 서비스와 연동되어 시퀀싱을 수행하면 바로 데이터가 클라우드로 전송된다. (마치 이번에 업그레이드 된 Mac OSX 처럼 iCloud와 연동되어 텍스트편집기나 기타 iWorks로 작업한 문서를 로컬에 HDD에 저장하지 않고 바로 iCloud에 저장되는 것처럼 말이다) 전송된 데이터는 공짜로 분석을 해주며 일루미나는 기본적으로 제공되는 분석외에 3rd pa..

속속 공개되는 23andMe의 Exome pilot 데이터

작년 9월달인가 일루미나의 OminiExpress Plus를 가지고 장사를 하던 23andMe가 NGS 데이터를 개인게놈분석 서비스(PGS, Personal Genome Service)에 적용하는 파일럿 프로그램을 수행했다. 당시 80x의 커버리지로 $999라는 가격으로 내놓았는데 이제 서서히 결과가 개인들에게 전달되었는지 인터넷을 통해 서서히 결과들이 나오기 시작했다. 다음의 블로그들에서 결과 데이터에 대한 내용이 나오고 있으며, 이것들을 기반으로 23andMe의 결과를 나름 정리해 보도록 하겠다. 참고 블로그글 A first look at my exome variants from 23andMe My 23andMe Trio Exomes Arrived: Sneak Peek PGP18: A 23andme ..

GATK 2.0 에서 눈여겨 볼 만한

1000 genomes project에서 큰 활약을 한 GATK가 버전 2.0으로 업데이트 되면서 라이센스에 약간 변경이 생겼다. 2.0 버전은 비상업용 연구에만 사용이 가능하고 소스도 제공되지 않는다. 하지만 MIT 라이센스를 따르는 1.0버전대는 GATK-lite라는 이름으로 배포되고 있다. GATK 2.0 버전은 1.0 즉 lite 버전에는 없는 몇가지 중요한 기능이 추가 되었는데 에러 모델링, 데이터 압축, 유전변이 검출등에서 새롭거나 기능을 향상 시켰다. BQSR(Base quality score recalibration) v2 기존의 BQSR의 기능을 향상 시킨것으로 각 레인당 생성된 데이터의 calibration을 수행하여 전체적으로 데이터를 평준화 시키는 것인데, 정확히 v2로 업데이트 되..