유전자정보분석 127

빅 데이터가 우리의 건강을 책임진다.

ReadWriteWeb에 실린 "How Big Data Is Improving Helathcare"를 보면 "Big data in Healthcare Hype and Hope"라는 보고서가 있다. 해당 보고서에 따르면 현재 빅 데이터가 6가지 방법으로 우리의 건강(Healthcare)을 돕고 있다고 이야기 하고 있다. 개인적으로 천식환자를 트래킹하고 정보를 수집, 이를 활용하는 Asthmapolis (천식나라)와 SNS를 통한 질병 관측 지도를 보여주는 Sickwether (아픈날씨) 서비스는 꽤 흥미로왔다. 특히 Sickwether와 같은 경우 맘스홀릭과 같은 커뮤니티나 앱을 통해 데이터의 질/양적 향상을 도모하고 읍면동 단위의 예보를 통해 지역 병원 및 약국 의약품 광고 + 건강관련(피트니스센터, 동..

Whole Genome Sequencing의 임상 적용

Science Translational Medicine의 Rapid Whole-Genome Sequencing for Genetic Disease Diagnosis in Neonatal Intensive Care Units 두개의 새로운 알고리즘 (SSAGA and RUNES)과 일루미나의 새로운 시퀀서(Illumina HiSeq 2500)를 이용하여 whole genome seqencing의 신생아에게 적용하여 신속하게 유전질환의 진단에 사용 캔자스시티의 Children's Mercy Hospital의 Stephen Kingsmore가 이끄는 Center for Pediatric Genomic Medicine에 따르면 50시간내에 혈액채취에서 WGS를 수행하고 진단까지 수행하고 약 $13,500 (1천..

ENCODE 프로젝트 - 클라우드 기반 게놈 분석 서비스 이용

요즘 ENCODE 프로젝트가 publish 되면서 이것과 관련한 여러 이슈들이 나오고 있습니다. 기본적으로 이따우 프로젝트를 할 필요가 있는지의 논쟁부터 시작해서 데이터가 갖는 의미를 비롯해서 데이터를 분석하는 툴들을 모아 이미지 형태로 제공하여 손쉽게 누구나 분석을 재현할 수 있도록 하는 등등 상당히 핫한 내용들이죠. 하지만, 오늘 말씀드릴 내용은 바로 분석에 DNAnexus라는 상용의 서비스를 사용했다는 것입니다. 스탠포드 대학에서는 ENCDOE 데이터중에서 ChIP-seq 데이터를 분석하는데 참여했드랬죠. Arned Sidown와 Serafim Batzoglou의 포닥으로 계신 Anshul Kundaje (현재 MIT의 research scientist로 옮김) 가 119명의 다양한 셀라인의 ChI..

한국인 게놈 표준 지도

게놈에서의 표준이라는 것을 논하기 전에 표준이라는 사전적 의미를 보면 "일반적인 것 또는 평균적인것"이라는 의미가 있다. 이러한 표준의 예문 중 하나를 보자면 "그사람 정도의 키면 한국 남자의 표준은 된다" 한국인 남자의 표준 키가 있기에 우리는 그사람의 키를 가늠할 수 있을 뿐만 아니라 이 표준을 가지고 옷을 만들거나 버스 천정의 높이를 정한다거나 등 여러가지로 활용이 가능하다. 가령 미국인의 표준에 맞추어진 버스를 우리가 탄다면 대부분의 한국인은 높은 곳에 손잡이가 위치해 있어 불편할 것이다. 그러기에 한국인 표준이라는 것이 있으면 좋다. 물론 없으면 좀 불편하겠지만 말이다. 그럼 한국인 게놈 표준이라는 것은 뭘까?를 고민하기 전에 우리가 유전체를 통해 현재 하고 있는 일에서 불편한 점을 생각해 본다..

Genome Analysis with MapReduce

여: 옵빠 나 밤(BAM)가지고 있는데 요것들을 합치려 하니깐 리드들의 아이디가 서로 겹치는게 있어서 에러나 이거 고치는데 시간 오래 걸려? 남: 음! 그것두 졸라 한 오백 라인정도 하루죙일 코딩해야해! (샘포맷으로 바꾸고 헤더 정보 읽은 담에 리드 그룹을 파싱해서 아이디로 해쉬 테이블 만들어 넣고 리드들을 루푸 돌아가면서 해쉬에 있는 리드 그룹 아이디를 찾고 플랫폼 태그를 찾아서 리드 이름에 추가하고 다시 밤포맷으로 바꾸고 인덱싱 새로하고...) "The presentation from Eli Lilly is a great introduction to developing your own custom GATK Walkers in Java." from Blue Collar Bioinformatics GAT..

DDBJ의 개념찬 NGS 분석 서비스

DDBJ vs. DNAnexus 얼마전 NGS 데이터 분석에서 최고를 달리고 있는 DNAnexs에서 SRA (Sequence Read Archive)의 데이터를 미러링해주는 서비스가 발표되었다. 이는 엄청난 데이터를 저장할 수 있는 구글의 클라우드 스토리지가 있기에 가능했던 일이었다. 단순한 미러링뿐만 아니라 SRA 데이터를 바로 DNAnexus로 import하여 해당 시퀀스 데이터를 분석 할 수 있도록 해주어 편리하게 SRA 데이터를 이용할 수 있도록 하고 있다. 하지만 이러한 컨셉은 적어도 내가 아는한 DNAnexus의 창의적인 서비스가 아니라 이미 일본의 DDBJ (DNA Data Bank of Japan)에서 이미 하고 있던 것이다. 오늘은 바로 가깝고도 먼 일본의 DDBJ 서비스에 대해서 알아보..

일루미나 클라우드 서비스 가격 발표

얼마전에 "우린 Apple App Store 아니 Genome App Store - Illumina BaseSpace"라는 글에서 일루미나의 클라우드 서비스에 대해서 언급한 적이 있다. 요번에 일루미나의 클라우드 서비스의 가격정책이 발표되었다. 다시 한번 간단하게 일루미나의 클라우드 서비스를 살펴보면 MiSeq 또는 HiSeq 장비 자체에 자사의 클라우드 서비스와 연동되어 시퀀싱을 수행하면 바로 데이터가 클라우드로 전송된다. (마치 이번에 업그레이드 된 Mac OSX 처럼 iCloud와 연동되어 텍스트편집기나 기타 iWorks로 작업한 문서를 로컬에 HDD에 저장하지 않고 바로 iCloud에 저장되는 것처럼 말이다) 전송된 데이터는 공짜로 분석을 해주며 일루미나는 기본적으로 제공되는 분석외에 3rd pa..

GATK 2.0 에서 눈여겨 볼 만한

1000 genomes project에서 큰 활약을 한 GATK가 버전 2.0으로 업데이트 되면서 라이센스에 약간 변경이 생겼다. 2.0 버전은 비상업용 연구에만 사용이 가능하고 소스도 제공되지 않는다. 하지만 MIT 라이센스를 따르는 1.0버전대는 GATK-lite라는 이름으로 배포되고 있다. GATK 2.0 버전은 1.0 즉 lite 버전에는 없는 몇가지 중요한 기능이 추가 되었는데 에러 모델링, 데이터 압축, 유전변이 검출등에서 새롭거나 기능을 향상 시켰다. BQSR(Base quality score recalibration) v2 기존의 BQSR의 기능을 향상 시킨것으로 각 레인당 생성된 데이터의 calibration을 수행하여 전체적으로 데이터를 평준화 시키는 것인데, 정확히 v2로 업데이트 되..

BioWorks와 Biopipe가 생각 나는 서비스

예전에 Biopipe와 Bioworks라는 workflow management system이 있었다는 걸 기억하는 사람이 있을까? 아! 아직 KISTI의 Bioworks는 개발중에 있고 다양한 분석을 지원할거라고 예전에 댓글에서 본 적이 있다. 아마 KISTI의 Bioworks는 지금 소개할 서비스를 보고 좀 분발해야 하지 않을까 한다. NGS 분석에 있어서 DNAnexus나 BGI의 EasyGenomics들과는 좀 차별화된 서비스인 Seven Bridge Genomics가 오늘의 주인공이다. SBG의 IGOR이라는 서비스는 간단하게 데이터를 업로드하고 자신이 직접 파이프라인을 설정하면 끝나게 되는 서비스이다. 백문이불여일견이라 했던가 스샷 몇개 첨부로 오늘은 끝!!! 데이터 업로드 전용툴 대용량의 NG..

NGS 데이터 저장 표준 - Complete Genomics

표준은 아니더라도 최소한의 예의가 필요한 시점 얼마전 Pistoia Alliance에서는 NGS 데이터를 효율적으로 관리하기 위한 방법의 하나로 효율적인 압축 알고리즘을 개발하는 사람에게 $15,000의 상금을 걸고 대회를 열었었다. 현재 fastq, bam, vcf로 포맷에 대한 부분도 어느정도 자리가 잡혀가고 있는 추세이다. 각 개별 파일에 대한 표준뿐만 아니라, 하나의 NGS Sample 데이터를 정의하는데에 있어서의 정의 또한 필요한 부분이라고 생각된다. 시퀀싱 장비에서 분석까지 모두 섭렵하고 계신 Complete Genomcis는 넘들 다 쓰는 포맷이니 뭐 그딴거 안쓰시고 자신만의 표준을 잡아서 쓰고 계신다. 군바리의 그것처럼 각잡힌 구조하에 각각 고유의 포맷으로 무장한 파일들을 보면 이 놈들 ..