BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID..
저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는..
Google의 genomics 관련 투자 현황 Google은 google ventures를 통해 다양한 분야에 투자를 하고 있다. 그중에서도 genomics 관련 분야는 다음과 같은 회사들로 요약된다. 지노타이핑에서 대용량 ngs분석과 암분석까지 현재까지 유전체에서 할 수 있는 일련의 라인업에 대해 투자를 하고 있다. 23andMe: 개인유전체 검사를 해주며, 요즘은 FDA와의 문제로 ancestry 정보만을 제공하나 기본적으로 질병 관련정보 및 exome sequencing을 통한 리포트와 자체적인 쌓인 고객 데이터를 기반으로 다양한 연구를 수행하고 있다. Foundation medicine: foundation one이라는 암유전체 분석을 통한 맞춤형 항암제 정보를 의사에게 제공하고 있으며 나스닥에 ..
RNA-Seq을 수행하면 다양한 정보를 얻을 수 있습니다. 그중 첫번째 Annotation은 크게 Alternative Splicing Events와 Identify Known and Novel Transcripts입니다. 1. Alternative Splicing Events1,2,3,4,5,6의 총 6개의 exon이 존재하는 gene이 있는 경우 genomic DNA에 read들을 매핑한 결과가 다음과 같다고 하자. paired-end read는 read간에 '---' 대시로 서로의 연결을 보여주고 있다. 맨 하단의 read 2개는 대시외에도 붉은색 원으로 보이는 부분은 read가 서로 끊겨 있다. 즉, 1,2,3이 연결되어 있고 5,6이 연결되어 있음을 알 수 있다. 그리고 4,5번에 걸친 read..
Edico Genome이라는 회사에서 ASIC (Application Specific Intergrated Circuit)을 이용한 Genome Analysis Accelerator Card를 만들어 FASTQ의 Mapping/Aligning/Sorting에 이르는 과정의 속도 향샹을 이루고 이 카드를 장착한 서버를 클라우드 형태의 DRAGEN Cloud 서비스를 내놓았는데 기존에 BLAST 전용의 ASIC , GPU를 활용하는 등등이 나왔었고 얼마전에는 Intel CPU의 AVX의 기능을 통해 GATK의 성능을 올리는 등 하드웨어 부분에서도 genome 분석의 성능 향상 부분이 종종 나옴 Celmatix라는 회사는 genome의 clinical 분야로의 진출을 도모하는 회사로 유사한 업체로 Cartag..
저번 포스팅에서는 일반적인 snp/genotype calling 메소드에 대해서 알아보았다. 이번에는 cancer분석에서의 somatic mutation 분석에 대해서 살펴보도록 하자. 이번 포스팅에서는 "Virmid: accurate detection of somatic mutations with sample impurity inference"라는 논문을 사용?할 것이다. 일반적으로 암 분석을 한다는 것 즉 somatic mutation을 찾는것은 variant calling의 하나로 NGS가 clinical로 가기 위한 기본적인 단계라고도 할 수 있다. somatic mutation을 찾는 전통적인 방법은 샘플 (normal/disease 또는 normal/cancer 또는 control/mixed ..