본문 바로가기

전체 글748

23andMe Research Portal - 유전체데이터베이스 팔기 23andMe 유전체 데이터베이스 판매 지난 일주일 간격으로 23andMe는 화이자 (Pfizer), 지넨테크 (Genetech)와 유전체 데이터 사용에 관한 파트너십을 체결했다. 지넨테크는 암치료제인 아바스틴 (Avastin)과 허셉틴 (Herceptin)을 생산하는 회사로 로슈 (Roche)에 속해 있다. 이 두 회사외에도 23andMe는 총 14개의 private companies 및 대학들과 파트너십을 체결했다고 전했다. 이로서 파트너십을 체결한 Big Pharma와 Biotech 회사들은 23andMe가 이미 모아 놓은 데이터를 곧바로 활용할 수 있게 된 것이다. 유전체 데이터 규모 23andMe는 자신들의 데이터베이스를 "23andMe's Research Portal"이라고 부르는데, 현재까지.. 2015. 1. 26.
Detecting Somatic Mutations - Ensemble Approach 예전에도 두어번 블로그글을 통해 variant calling에 있어서 Ensemble approach에 대해서 언급했었더랬습니다. comparison of variant detection methods, somatic caller는 뭘 사용해야 하나요? 를 참고하세요. 오늘은 그 끝판왕으로 준비했습니다. 왜냐구요? 잠시 광고 하나 하고 넘어가려고 합니다. 한국유전체학회 동계 심포지엄이 2월 4일부터 진행되는데 올해는 이틀간에 걸쳐 "Somatic Calling 알고리즘 소개 및 실습" 워크샵이 준비되어 있습니다. 현재 저조한 등록을 보이고 있다고 합니다. 오늘은 그래서 워크샵에서 진행할 내용을 미리 소개하는 시간을 가져 보려고 끝판왕으로 준비했습니다. ;-) 더 안오실지도 모르겠군요. 아! 그리고 저번 .. 2015. 1. 14.
NGS가 열어가는 진단 multi-gene/many drugs 미국에서는 2013년 10여개의 Clinical Lab(CLIA88(Clinical Laboratory Improvement Act88)에 따라College of American pathologists에서 인증하는 검사실 품질 요건을 받은 lab)에 한해 검사실 자체 개발 검사(LDT, Laboratory Developed Test)를 수행할 수 있다. 현재 10여개의 lab에서 NGS를 사용하는 50개의 LDTs를 수행하고 있다. 미국에서 NGS가 임상검사에 사용될 수 있는 이유는 LDT를 통해 FDA의 허가 없이도 장비 또는 시약을 임상검사로 사용할 수 있기 때문이다. 정밀의학(Precision Medicine)은 적정한 환자에게 적정한 약을 적정한 용량으로 적정한 시간에 사용하는 것이다. 진단기기 .. 2014. 12. 31.
구글 지노믹스를 이용한 Picard와 GATK 이미 여러번 소개 했듯이 구글은 구글 지노믹스라는 서비스를 통해 유전체 데이터를 저장하고 분석할 수 있는 환경을 제공하고 있습니다.최근에는 우리가 흔히 사용하는 Picard나 GATK에서도 구글 지노믹스 서비스를 사용하는 방법을 내놓았습니다. 원리는 간단합니다. 구글 지노믹스 서비스에 저장된 SAM/BAM 파일을 Picard의 INPUT으로 지정할 수 있는 간단한 wrapper를 만든것입니다. 구글 지노믹스의 git 페이지에 gatk-tools-java라는 이름으로 "Tools for using Picard and GATK with Genomics API"라고 설명되어 있습니다. 아래와 같이 INPUT을 구글지노믹스 서비스의 SAM 파일을 지정해주면 wrapper는 Picard는 해당 INPUT을 STD.. 2014. 12. 17.
Samtools를 이용한 genotype likelihoods 구하기 samtools가 버전 0.1.19를 마지막으로 major 번호가 올라갔습니다. 바로 1.0 버전대가 탄생한것이죠. 홈페이지도 이제는 www.htslib.org를 사용합니다. 흔히 우리가 말하는 Samtools는 Samtools, BCFtools, HTSlib 3개로 구성되어 있습니다. Samtools는 SAM/BAM/CRAM 포맷의 파일을 읽고/쓰고/편집하고/인덱싱하고/볼 수 있는 툴입니다. BCFtools는 BCF2/VCF/gVCF 포맷의 파일을 읽고/쓸 수 있으며 SNP나 short indel의 sequence variants를 calling/filtering/summarising 할 수 있는 툴입니다. 그리고 그 기반은 high-throughput sequencing 데이터를 다루는 바로 C로 작.. 2014. 10. 31.
유전체 분석 플랫폼 관련 과제 현황 우리나라의 NGS 분석 플랫폼 (H/W & S/W) 관련한 사업 리스트입니다. 이번 다부처 유전체 사업으로 진행되는 과제들 포함 종료 또는 이제 시작하려는 것들입니다. 대부분이 국가과제로 국민의 세금으로 진행되는 만큼 잘 진행되어으면 합니다. 차세대 생명정보 분석을 위한 생물정보학 플랫폼 개발 2011년 시작하여 2014년 종료된 산자부 과제로 테라젠이 주사업자로 진행되었던 과제입니다. 다부처유전체사업이 진행되기 이전에 산자부에서 진행되었던 과제로 미래부의 이번 다부처 유전체사업의 내용과 비슷한 내용을 진행했던 과제입니다. 유전체 산업비즈니스 클러스터 구축 2014년 다부처유전체사업으로 산자부에서 진행하는 과제로 35억원 규모로 500 TB 디스크와 150~200 core 규모의 서버팜과 EMR과 연동하.. 2014. 10. 21.
Web Collections: NGS 관련 포스팅 모음 Web Collection: 그동안 산발적으로 이루어졌던 NGS 관련한 포스팅을 한번에 볼 수 있도록 모아봤습니다. RNA-Seq에서 De novo Mutation 발굴까지 다양한 영역을 커버하고 있습니다만, 깊이는 없습니다. 곧 ChIP-Seq과 De novo RNA-Seq에 대한 부분까지 업데이트 예정입니다. NGS 데이터 포맷 및 Alignment NGS 데이터의 Raw Data인 FASTQ Format에 관한 글 Short Read Alignment에 관한 글 Variant Call 일반적인 Resequencing 데이터에서 Genotype and SNP Call Variant call software에 대한 글 Somatic Mutation Somatic caller 소프트웨어에 대한 글 Low.. 2014. 10. 21.
구글 Genomics API를 이용한 De Novo Variant Call De novo mutation (DNM)De novo mutation은 부모에게서는 나타나지 않지만 자식에게서는 나타나는 rare genetic mutation이다. 이러한 mutataion은 Autism이나 Schizophrenia의 영향을 준다는 Whole-genome sequencing in autism identifies hot spots for de novo germline mutation. 논문이 있다. 지금까지 다훈증후군과 같이 21번 염색체가 3개인 삼염색체성(trisomy21)와 같은 유전질환은 어머니의 나이와 연관이 있다고 알려졌는데 Rate of de novo mutations and the importance of father’s age to disease risk 에 의하면 질병과.. 2014. 10. 17.
구글 클라우드 플랫폼을 이용한 유전체 분석 경진대회 예전에 글 중에서 유전체 데이터를 이용하는 경진대회에 대한 이야기를 한적이 있다. 각설하고 여기 미국에서 어떻게 경진대회를 하는지 한번 보기 바란다. 누누히 했던 이야기이지만 NGS 시퀀싱 데이터를 이용한 임상으로의 적용은 유전변이를 검출을 최적화하고 표준화하는데에 있다. 바로 암 데이터를 이용한 이러한 최적화, 표준화를 위한 일환으로 암샘플에서 SNV와 SV를 검출할 수 있는 최적화 알고리즘에 대해 ICGC와 TCGA는 "DREAM Somatic Mutation Calling Challenge"를 수행하고 있다. 최근 Global Alliance for Genomics and Health에도 가입한 구글은 DREAM challenge의 참가자들에게 Google Cloud Platform을 제공한다. 참.. 2014. 10. 17.
클라우드 유전체 분석 뜬구름 다 잡았다. 혹자는 유전체 연구에 있어서 클라우드 컴퓨팅을 뜬구름이라 했다. 혹자는 클라우드를 네어버 N 드라이브쯤으로 알고 있다. 뭐 어쨌듯 간에... 일찍이 미국이나 한국에서 클라우드 기반의 유전체 분석 사업자들이 3년전 세상에 나타났고 다행인지 불행인지 몇몇 업체들은 소리 소문없이 생겼다가 사라지는가를 반복했다. 그나마 지금까지 그 명맥을 유지하고 있는 몇몇 업체들의 그동안 막힌 숨통이 터지는 소식이 얼마전부터 속속 나오기 시작했다. NCI와 Genomics England를 시작으로... Cancer Genomics Cloud NIH의 NCI (National Cancer Insitute)에서 올해초 Cancer Genomics Cloud라는 사업에 대한 공모를 했고 그 결과가 이제 나온것이다. Cancer G.. 2014. 10. 17.
클라우드로 만드는 슈퍼컴퓨터 대규모의 계산이 필요하다. 단돈 418 달러 즉 40만원대로 클라우드를 이용하여 슈퍼컴퓨터를 사용할 수 있다. 물론 당신은 손하나 까딱하지 않아도 된다. 물론 클러스터 슈퍼컴퓨터를 손수 설정한다고하면 이는 더 싸질 수도 있지만, 당신은 아마도 실패할 확률이 더 높다. 본 글의 내용은 Cycle Computing의 "Lessons learned building a 4096-core Cloud HPC Supercomputer for $418/hr"이라는 글을 참고하여 작성하였다. 4096 코어의 클러스터 컴퓨터 4096코어 8코어짜리 서버로 계산한다면 512대의 서버가 필요하다. 이를 클라우드를 통해 만들 수 있을까? 만들수 있다면 어떠한 것들이 고려되어야 할 것인가? 물론 이는 내가 직접 수행한 것은 아니.. 2014. 10. 16.
당신이 개발자라면... 유전체데이터를 다루는 툴이나 스크립트를 만들고자 한다면, 다음의 프로그램, 라이브러리를 눈여겨 보고 응용할 것. 재미있는것은 이제 클라우드상의 데이터도 htsjdk 라이브러리에서 직접 핸들링이 가능해진다는 것이다. gatk-tools-java Tools for using picard and gatk with genomics API. getting reads from GA4GH genomics api and exposing them as SAMRecord "Iterable" resource. These will be used for subsequent work on enabling HTSJDK to use API data as input. GA4GHPicardRunner wrapper around pica.. 2014. 10. 10.
WGS에서의 확장을 고려한 유전변이 검출 파이프라인 WGS 분석에서의 bottleneckalignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 io가 bottleneck으로 작용한다. 대량 샘플에서의 병렬 네트워크 파일 시스템단일 샘플 분석과 같은 경우 NFS가 유리하지만, 대량의 샘플을 분석하는 경우 Lustre나 GlusterFS와 같은 병렬 네트워크 파일 시스템이 유리하다. 당연히 io가 분산되기 때문에 적은 수의 샘플에서는 병렬 네트워크 파일 시스템이 불리하게 작용하지만, 다수의 대량 샘플 분.. 2014. 9. 30.
Cloud Computing in Genomic Reserach - vagrant와 chef를 이용한 유전체학회 정기학술대회에 "Cloud Computing in Genomic Research"란 제목으로 발표를 했었는데 워낙 시간도 짧고 준비도 제대로 하지 못했던터라 이자리를 빌어 재탕 들어갑니다. 소프트웨어 전성시대 그러나 사실상 BGI의 경우 157대의 시퀀싱 장비가 가동중이며, 매일 6 TB의 유전체데이터를 생산하고 있습니다. 매일 전송되는 데이터는 1 TB에 이른다고 합니다. (출처: The Big Challenges of Big Data, 2013, Nature) 또한 시퀀싱 장비의 가격하락으로 그동안 시퀀싱센터라고 불리는 몇몇 대형 연구소에서나 생산되었던 데이터량보다는 이제는 작은 아카데믹 랩들이 생산하는 데이터가 늘어나고 있습니다. 하지만 컴퓨팅 파워와 소프트웨어/알고리즘의 부족은 유전체데.. 2014. 9. 26.
Somatic Caller는 뭘 사용해야 하나요? 어제는 유전체학회의 정기학술대회에 기웃거리다 왔다. Bioinformatics 세션의 연세대 김상우 교수의 "Computational Approaches for Genomic Rare Variant Detection" 발표 후 질문중 하나가 여러개의 caller를 사용할때 어떤 caller를 사용해야 하냐는 것이었다. Combining Calls 또는 Ensemble Approach숭실대 황규백 교수의 "Reducing False-Positve Incidental Findings with Ensemble Genotyping and Logistic Regression Based Variant Filtering Methods"를 보면 여러개의 caller의 조합이 좋은 성능을 나타내는 것을 볼 수 있다. 위.. 2014. 9. 19.
Somatic mutation calling in Low-allelic-fraction 뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는 cancer genomics의 somatic mutation의 SNV에 한정한다. 수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 .. 2014. 9. 4.
나의 맥북 환경 Mac OSX 버전 MacBook Pro 레티나 15인치 2013 Early 버전의 맥북을 사용하고 있다. 메모리는 8GB로 올 가을 출시 예정인 Yosemite의 퍼블릭 프리뷰2 버전을 사용하고 있다. 클라우드 환경 다소 불안정한 버전을 사용하고 있으며, 별도의 타임머신을 이용한 백업을 설정하고 있지 않기 때문에 대부분의 중요한 문서는 클라우드를 이용하고 있다. - iCloud Drive, Google Drive, EverNote, DropBox 터미널 터미널은 가장 많이 사용하고 있는 App 중 하나로 폰트는 "나눔고딕코딩"을 사용중이다. 문자간격을 1 보다 작게 설정하였다. 터미널에서 vi나 man 등으로 문서를 오픈한 경우 마우스 스크롤을 하면 이전/후 내용을 손쉽게 확인이 가능하며, shift .. 2014. 9. 1.