분류 전체보기 749

NGS가 열어가는 진단 multi-gene/many drugs

미국에서는 2013년 10여개의 Clinical Lab(CLIA88(Clinical Laboratory Improvement Act88)에 따라College of American pathologists에서 인증하는 검사실 품질 요건을 받은 lab)에 한해 검사실 자체 개발 검사(LDT, Laboratory Developed Test)를 수행할 수 있다. 현재 10여개의 lab에서 NGS를 사용하는 50개의 LDTs를 수행하고 있다. 미국에서 NGS가 임상검사에 사용될 수 있는 이유는 LDT를 통해 FDA의 허가 없이도 장비 또는 시약을 임상검사로 사용할 수 있기 때문이다. 정밀의학(Precision Medicine)은 적정한 환자에게 적정한 약을 적정한 용량으로 적정한 시간에 사용하는 것이다. 진단기기 ..

컬럼 2014.12.31

구글 지노믹스를 이용한 Picard와 GATK

이미 여러번 소개 했듯이 구글은 구글 지노믹스라는 서비스를 통해 유전체 데이터를 저장하고 분석할 수 있는 환경을 제공하고 있습니다.최근에는 우리가 흔히 사용하는 Picard나 GATK에서도 구글 지노믹스 서비스를 사용하는 방법을 내놓았습니다. 원리는 간단합니다. 구글 지노믹스 서비스에 저장된 SAM/BAM 파일을 Picard의 INPUT으로 지정할 수 있는 간단한 wrapper를 만든것입니다. 구글 지노믹스의 git 페이지에 gatk-tools-java라는 이름으로 "Tools for using Picard and GATK with Genomics API"라고 설명되어 있습니다. 아래와 같이 INPUT을 구글지노믹스 서비스의 SAM 파일을 지정해주면 wrapper는 Picard는 해당 INPUT을 STD..

빅데이터분석 2014.12.17

Samtools를 이용한 genotype likelihoods 구하기

samtools가 버전 0.1.19를 마지막으로 major 번호가 올라갔습니다. 바로 1.0 버전대가 탄생한것이죠. 홈페이지도 이제는 www.htslib.org를 사용합니다. 흔히 우리가 말하는 Samtools는 Samtools, BCFtools, HTSlib 3개로 구성되어 있습니다. Samtools는 SAM/BAM/CRAM 포맷의 파일을 읽고/쓰고/편집하고/인덱싱하고/볼 수 있는 툴입니다. BCFtools는 BCF2/VCF/gVCF 포맷의 파일을 읽고/쓸 수 있으며 SNP나 short indel의 sequence variants를 calling/filtering/summarising 할 수 있는 툴입니다. 그리고 그 기반은 high-throughput sequencing 데이터를 다루는 바로 C로 작..

유전체 분석 플랫폼 관련 과제 현황

우리나라의 NGS 분석 플랫폼 (H/W & S/W) 관련한 사업 리스트입니다. 이번 다부처 유전체 사업으로 진행되는 과제들 포함 종료 또는 이제 시작하려는 것들입니다. 대부분이 국가과제로 국민의 세금으로 진행되는 만큼 잘 진행되어으면 합니다. 차세대 생명정보 분석을 위한 생물정보학 플랫폼 개발 2011년 시작하여 2014년 종료된 산자부 과제로 테라젠이 주사업자로 진행되었던 과제입니다. 다부처유전체사업이 진행되기 이전에 산자부에서 진행되었던 과제로 미래부의 이번 다부처 유전체사업의 내용과 비슷한 내용을 진행했던 과제입니다. 유전체 산업비즈니스 클러스터 구축 2014년 다부처유전체사업으로 산자부에서 진행하는 과제로 35억원 규모로 500 TB 디스크와 150~200 core 규모의 서버팜과 EMR과 연동하..

컬럼 2014.10.21

Web Collections: NGS 관련 포스팅 모음

Web Collection: 그동안 산발적으로 이루어졌던 NGS 관련한 포스팅을 한번에 볼 수 있도록 모아봤습니다. RNA-Seq에서 De novo Mutation 발굴까지 다양한 영역을 커버하고 있습니다만, 깊이는 없습니다. 곧 ChIP-Seq과 De novo RNA-Seq에 대한 부분까지 업데이트 예정입니다. NGS 데이터 포맷 및 Alignment NGS 데이터의 Raw Data인 FASTQ Format에 관한 글 Short Read Alignment에 관한 글 Variant Call 일반적인 Resequencing 데이터에서 Genotype and SNP Call Variant call software에 대한 글 Somatic Mutation Somatic caller 소프트웨어에 대한 글 Low..

컬럼 2014.10.21

구글 Genomics API를 이용한 De Novo Variant Call

De novo mutation (DNM)De novo mutation은 부모에게서는 나타나지 않지만 자식에게서는 나타나는 rare genetic mutation이다. 이러한 mutataion은 Autism이나 Schizophrenia의 영향을 준다는 Whole-genome sequencing in autism identifies hot spots for de novo germline mutation. 논문이 있다. 지금까지 다훈증후군과 같이 21번 염색체가 3개인 삼염색체성(trisomy21)와 같은 유전질환은 어머니의 나이와 연관이 있다고 알려졌는데 Rate of de novo mutations and the importance of father’s age to disease risk 에 의하면 질병과..

빅데이터분석 2014.10.17

구글 클라우드 플랫폼을 이용한 유전체 분석 경진대회

예전에 글 중에서 유전체 데이터를 이용하는 경진대회에 대한 이야기를 한적이 있다. 각설하고 여기 미국에서 어떻게 경진대회를 하는지 한번 보기 바란다. 누누히 했던 이야기이지만 NGS 시퀀싱 데이터를 이용한 임상으로의 적용은 유전변이를 검출을 최적화하고 표준화하는데에 있다. 바로 암 데이터를 이용한 이러한 최적화, 표준화를 위한 일환으로 암샘플에서 SNV와 SV를 검출할 수 있는 최적화 알고리즘에 대해 ICGC와 TCGA는 "DREAM Somatic Mutation Calling Challenge"를 수행하고 있다. 최근 Global Alliance for Genomics and Health에도 가입한 구글은 DREAM challenge의 참가자들에게 Google Cloud Platform을 제공한다. 참..

빅데이터분석 2014.10.17

클라우드 유전체 분석 뜬구름 다 잡았다.

혹자는 유전체 연구에 있어서 클라우드 컴퓨팅을 뜬구름이라 했다. 혹자는 클라우드를 네어버 N 드라이브쯤으로 알고 있다. 뭐 어쨌듯 간에... 일찍이 미국이나 한국에서 클라우드 기반의 유전체 분석 사업자들이 3년전 세상에 나타났고 다행인지 불행인지 몇몇 업체들은 소리 소문없이 생겼다가 사라지는가를 반복했다. 그나마 지금까지 그 명맥을 유지하고 있는 몇몇 업체들의 그동안 막힌 숨통이 터지는 소식이 얼마전부터 속속 나오기 시작했다. NCI와 Genomics England를 시작으로... Cancer Genomics Cloud NIH의 NCI (National Cancer Insitute)에서 올해초 Cancer Genomics Cloud라는 사업에 대한 공모를 했고 그 결과가 이제 나온것이다. Cancer G..

빅데이터분석 2014.10.17

클라우드로 만드는 슈퍼컴퓨터

대규모의 계산이 필요하다. 단돈 418 달러 즉 40만원대로 클라우드를 이용하여 슈퍼컴퓨터를 사용할 수 있다. 물론 당신은 손하나 까딱하지 않아도 된다. 물론 클러스터 슈퍼컴퓨터를 손수 설정한다고하면 이는 더 싸질 수도 있지만, 당신은 아마도 실패할 확률이 더 높다. 본 글의 내용은 Cycle Computing의 "Lessons learned building a 4096-core Cloud HPC Supercomputer for $418/hr"이라는 글을 참고하여 작성하였다. 4096 코어의 클러스터 컴퓨터 4096코어 8코어짜리 서버로 계산한다면 512대의 서버가 필요하다. 이를 클라우드를 통해 만들 수 있을까? 만들수 있다면 어떠한 것들이 고려되어야 할 것인가? 물론 이는 내가 직접 수행한 것은 아니..

빅데이터분석 2014.10.16

당신이 개발자라면...

유전체데이터를 다루는 툴이나 스크립트를 만들고자 한다면, 다음의 프로그램, 라이브러리를 눈여겨 보고 응용할 것. 재미있는것은 이제 클라우드상의 데이터도 htsjdk 라이브러리에서 직접 핸들링이 가능해진다는 것이다. gatk-tools-java Tools for using picard and gatk with genomics API. getting reads from GA4GH genomics api and exposing them as SAMRecord "Iterable" resource. These will be used for subsequent work on enabling HTSJDK to use API data as input. GA4GHPicardRunner wrapper around pica..