전체 글 749

Genomics and Cloud

Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다. 자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼. Genomics and BigData - case study from Hong ChangBum

컬럼 2014.05.08

Google Genomic data BigQuery (2) - 연구 재현, Literate Programming

BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID..

빅데이터분석 2014.05.08

Google Genomic data BigQuery (1)

저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는..

빅데이터분석 2014.05.08

Google의 genomics API를 통해 살펴본 그들의 전략

Google의 genomics 관련 투자 현황 Google은 google ventures를 통해 다양한 분야에 투자를 하고 있다. 그중에서도 genomics 관련 분야는 다음과 같은 회사들로 요약된다. 지노타이핑에서 대용량 ngs분석과 암분석까지 현재까지 유전체에서 할 수 있는 일련의 라인업에 대해 투자를 하고 있다. 23andMe: 개인유전체 검사를 해주며, 요즘은 FDA와의 문제로 ancestry 정보만을 제공하나 기본적으로 질병 관련정보 및 exome sequencing을 통한 리포트와 자체적인 쌓인 고객 데이터를 기반으로 다양한 연구를 수행하고 있다. Foundation medicine: foundation one이라는 암유전체 분석을 통한 맞춤형 항암제 정보를 의사에게 제공하고 있으며 나스닥에 ..

컬럼 2014.04.25

RNA-Seq Applications

RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read..

내 입맛대로 골라본 Genome 관련 업체 소식

Edico Genome이라는 회사에서 ASIC (Application Specific Intergrated Circuit)을 이용한 Genome Analysis Accelerator Card를 만들어 FASTQ의 Mapping/Aligning/Sorting에 이르는 과정의 속도 향샹을 이루고 이 카드를 장착한 서버를 클라우드 형태의 DRAGEN Cloud 서비스를 내놓았는데 기존에 BLAST 전용의 ASIC , GPU를 활용하는 등등이 나왔었고 얼마전에는 Intel CPU의 AVX의 기능을 통해 GATK의 성능을 올리는 등 하드웨어 부분에서도 genome 분석의 성능 향상 부분이 종종 나옴 Celmatix라는 회사는 genome의 clinical 분야로의 진출을 도모하는 회사로 유사한 업체로 Cartag..

컬럼 2014.04.10

somatic mutation 찾기

저번 포스팅에서는 일반적인 snp/genotype calling 메소드에 대해서 알아보았다. 이번에는 cancer분석에서의 somatic mutation 분석에 대해서 살펴보도록 하자. 이번 포스팅에서는 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문을 사용?할 것이다. 일반적으로 암 분석을 한다는 것 즉 somatic mutation을 찾는것은 variant calling의 하나로 NGS가 clinical로 가기 위한 기본적인 단계라고도 할 수 있다. somatic mutation을 찾는 전통적인 방법은 샘플 (normal/disease 또는 normal/cancer 또는 control/mixed ..

블로그를 그만 접도록 하겠습니다.

그리 학문적으로나 가쉽거리로나 애매한 위치의 블로그였습니다. 그냥 생각나는대로 적고 한분한분 알음알음 알아서 찾아와 주시는 분들을 보면서 제글을 읽어 주셔서 감사드리는 마음으로 그동안 블로그를 써왔었는데, 이런저런 일신상의 이유로 이제 블로그를 그만 두려고 합니다. 그동안 단맛만을 좋아해 주신 분들께 다시 한번 감사하다는 말씀드리겠습니다. 앞으로는 본 블로그의 글들은 모두 삭제될 예정이며 더이상 이주소로 접근이 불가능하게 됩니다. 혹시라도 본 블로그의 글이 필요하신분들은 백업한 XML 데이터를 보내드리도록 하겠습니다. 감사합니다.

blogging 2014.04.01

베이즈 정리를 정리하고 넘어가자

바로전에 포스팅한 variant calling에 대한 것에 후속으로 somatic mutation에 대한 내용을 정리하고 있다. 살짝 귀뜸해주면 VarScan이라는 툴에 대한 논문을 보려다가 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문으로 급선회했고 virmid는 간단히 cancer 분석에서 contol sample이 mixed된 disease sample에 대해서 control sample이 어느정도의 proportion을 차지하는지를 estimate하여 이것을 somatuc mutation을 calling하는데 사용하는 논문이다. 뭐 그거 그렇고, 바로 snp/genotype/somtic mu..

NGS 데이터에서의 Genotype and SNP calling

지금까지 수천 샘플에 대한 genotype/snp calling을 수행했음에도 2011년도에 발표된 "Genotype and SNP calling from next-generation sequencing data"라는 리뷰 논문을 이제서야 꺼내어 읽어본다. 이 논문에 대한 내용은 이미 "ideas should be in papers" 블로그에 소개되었으나 나름 다시 정리하는 차원에서 여기저기 살을 붙여서 작성했다. 간혹 이해가 가지 않는 부분은 참고하여 작성했다. 전체적인 genotype/snp calling 분석 Base calling genotype/SNP calling에 있어서 가장 기초가 되는 것은 per-base quality score로 이는 일반적으로 NGS 장비의 기본 base callin..