본문 바로가기

전체 글748

고속 유전체 데이터 접근 - 1000 Genomes Project 사례 중심 유전정보를 담고 있는 유전체 데이터는 DNA 시퀀싱 기술이 발전함으로 유전체 연구 분야에 많은 변화가 일어나고 있다. 유전체 연구에 있어서 이를 분석할 수 있는 컴퓨팅 리소스에 대한 문제로 인해 자칫 유전체정보를 활용할 수 있는 다양한 기회를 놓쳐 버릴 수도 있는 상황이다. 유전체 연구에 있어서 가장 첫번째 걸림돌은 시퀀서에서 생산되는 데이터를 포함한 연구에 사용되는 데이터 볼륨이 크다는 것이다. 오늘은 바로 연구에 활용할 데이터에 어떻게 액세스 할것인가에 대한 내용이다. 인간의 유전변이에 대한 카다로그를 작성하기 위한 1000 Genomes Project는 현재까지 2편의 논문이 발표되었으며 cited된 논문만 하더라도 2,000여편에 이른다. initial phase(called pilot proje.. 2014. 8. 26.
유전체 분석 파이프라인을 비교하다 - 머큐리, HugeSeq, Genomon 들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장.. 2014. 7. 31.
The Big Challenges of Big Data 네이처에 지난 2013년도에 실린 Biology: The big challenges of big data라는 글이 있습니다. 구구절절 옳은 내용들로 차있고, 뭐 그렇다고 읽어봐야 그다지 임팩트 있는 내용은 없고 해서 걍 1장짜리 그림으로 요약했습니다. Biology: The big challenges of big data 2014. 7. 23.
Colummar Storage in Genomics 요즘 화두는 Big Data 기술을 어떻게 genomics에 접목하는 것이냐에 대한 것이다. 구글의 Google Genomics, UC Berkeley의 ADAM 등이 Genomics에 Big Data 기술을 적용하고 있다. 다양한 Big Data 기술들이 genomics에 적용될 수 있겠지만, 오늘은 colummar storage 기술을 이용하여 BAM 파일등의 genomics 데이터를 다루는 방법에 대한 이야기를 하고자 한다. 왠 colummar storage? colummar storage 기술을 사용하면 대용량의 데이터에 대한 액세스를 빠르게 수행할 수 있기 때문이다. genomics 데이터를 다루기 힘든 이유와 왜 빠른 액세스가 필요한지 등등의 구구절절한 why에 대한 대답은 굳이 하지 않겠다... 2014. 7. 22.
Google Genomic data BigQuery (3) - 1000 Genomes, PGP를 R과 함께 본 문서는 PDF 형태로 제공합니다. PDF 문서의 내용은 다음과 같습니다. 문서 다운로드 바로 하기 2014. 5. 16.
Genomics and Cloud Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다. 자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼. Genomics and BigData - case study from Hong ChangBum 2014. 5. 8.
Google Genomic data BigQuery (2) - 연구 재현, Literate Programming BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID.. 2014. 5. 8.
Google Genomic data BigQuery (1) 저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는.. 2014. 5. 8.
Google의 genomics API를 통해 살펴본 그들의 전략 Google의 genomics 관련 투자 현황 Google은 google ventures를 통해 다양한 분야에 투자를 하고 있다. 그중에서도 genomics 관련 분야는 다음과 같은 회사들로 요약된다. 지노타이핑에서 대용량 ngs분석과 암분석까지 현재까지 유전체에서 할 수 있는 일련의 라인업에 대해 투자를 하고 있다. 23andMe: 개인유전체 검사를 해주며, 요즘은 FDA와의 문제로 ancestry 정보만을 제공하나 기본적으로 질병 관련정보 및 exome sequencing을 통한 리포트와 자체적인 쌓인 고객 데이터를 기반으로 다양한 연구를 수행하고 있다. Foundation medicine: foundation one이라는 암유전체 분석을 통한 맞춤형 항암제 정보를 의사에게 제공하고 있으며 나스닥에 .. 2014. 4. 25.
RNA-Seq Applications RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read.. 2014. 4. 17.
내 입맛대로 골라본 Genome 관련 업체 소식 Edico Genome이라는 회사에서 ASIC (Application Specific Intergrated Circuit)을 이용한 Genome Analysis Accelerator Card를 만들어 FASTQ의 Mapping/Aligning/Sorting에 이르는 과정의 속도 향샹을 이루고 이 카드를 장착한 서버를 클라우드 형태의 DRAGEN Cloud 서비스를 내놓았는데 기존에 BLAST 전용의 ASIC , GPU를 활용하는 등등이 나왔었고 얼마전에는 Intel CPU의 AVX의 기능을 통해 GATK의 성능을 올리는 등 하드웨어 부분에서도 genome 분석의 성능 향상 부분이 종종 나옴 Celmatix라는 회사는 genome의 clinical 분야로의 진출을 도모하는 회사로 유사한 업체로 Cartag.. 2014. 4. 10.
somatic mutation 찾기 저번 포스팅에서는 일반적인 snp/genotype calling 메소드에 대해서 알아보았다. 이번에는 cancer분석에서의 somatic mutation 분석에 대해서 살펴보도록 하자. 이번 포스팅에서는 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문을 사용?할 것이다. 일반적으로 암 분석을 한다는 것 즉 somatic mutation을 찾는것은 variant calling의 하나로 NGS가 clinical로 가기 위한 기본적인 단계라고도 할 수 있다. somatic mutation을 찾는 전통적인 방법은 샘플 (normal/disease 또는 normal/cancer 또는 control/mixed .. 2014. 4. 8.
블로그를 그만 접도록 하겠습니다. 그리 학문적으로나 가쉽거리로나 애매한 위치의 블로그였습니다. 그냥 생각나는대로 적고 한분한분 알음알음 알아서 찾아와 주시는 분들을 보면서 제글을 읽어 주셔서 감사드리는 마음으로 그동안 블로그를 써왔었는데, 이런저런 일신상의 이유로 이제 블로그를 그만 두려고 합니다. 그동안 단맛만을 좋아해 주신 분들께 다시 한번 감사하다는 말씀드리겠습니다. 앞으로는 본 블로그의 글들은 모두 삭제될 예정이며 더이상 이주소로 접근이 불가능하게 됩니다. 혹시라도 본 블로그의 글이 필요하신분들은 백업한 XML 데이터를 보내드리도록 하겠습니다. 감사합니다. 2014. 4. 1.
베이즈 정리를 정리하고 넘어가자 바로전에 포스팅한 variant calling에 대한 것에 후속으로 somatic mutation에 대한 내용을 정리하고 있다. 살짝 귀뜸해주면 VarScan이라는 툴에 대한 논문을 보려다가 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문으로 급선회했고 virmid는 간단히 cancer 분석에서 contol sample이 mixed된 disease sample에 대해서 control sample이 어느정도의 proportion을 차지하는지를 estimate하여 이것을 somatuc mutation을 calling하는데 사용하는 논문이다. 뭐 그거 그렇고, 바로 snp/genotype/somtic mu.. 2014. 3. 26.
NGS 데이터에서의 Genotype and SNP calling 지금까지 수천 샘플에 대한 genotype/snp calling을 수행했음에도 2011년도에 발표된 "Genotype and SNP calling from next-generation sequencing data"라는 리뷰 논문을 이제서야 꺼내어 읽어본다. 이 논문에 대한 내용은 이미 "ideas should be in papers" 블로그에 소개되었으나 나름 다시 정리하는 차원에서 여기저기 살을 붙여서 작성했다. 간혹 이해가 가지 않는 부분은 참고하여 작성했다. 전체적인 genotype/snp calling 분석 Base calling genotype/SNP calling에 있어서 가장 기초가 되는 것은 per-base quality score로 이는 일반적으로 NGS 장비의 기본 base callin.. 2014. 3. 22.
Clinical NGS Seqeuncing에서의 중요 체크 포인트 NGS techologies기반의 WES, WGS는 비록 국내에서는 아니지만, clinical diagnosis, genetic risk prediction, patient management에서 루틴하게 사용되는 주목할만한 패러다임으로 자리잡았다.이러한 clinical genetics에서 bottleneck은 더이상 DNA sequence production이 아니라 DNA sequence analysis로 옮겨간 것은 누구나다 인지하고 있는 사실이며, large-scale comparative genomics는 일관성 있는 재생산성, 협력 연구자와의 안전한 공유 등 많은 허들이 존재한다. raw sequencing read를 생산하고 실제 clinical interpretation하기까지 clinic.. 2014. 3. 18.
GATK의 incremental joint discovery를 위한 reference model pipeline 좀 더 많은 genomes이 필요한 시대 $1000 게놈 시대가 진짜 도래했다. 이제까지 NGS 연구의 대부분이 하나의 genome 데이터를 가지고 연구(rare variant를 찾던)하던 것이 GWAS처럼 대규모의 cohort의 샘플을 수용하기 시작하면서 "Common Variant Association Study (CVAS)"에 눈을 돌리기 시작했다. 이는 가격뿐만 아니라 대량의 NGS 데이터를 다루기 위한 툴 또한 발전하면서 가능케 되었다. 이러한 CVAS 데이터는 cohort의 샘플들(individucal callsets)을 개별적으로 variant call을 하는 것이 아니라, joint callset을 만들어 joint variant discovery를 수행하여 흔히 말하는 power를 부여할.. 2014. 3. 11.