빅데이터분석 21

Google Genomic data BigQuery (2) - 연구 재현, Literate Programming

BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID..

빅데이터분석 2014.05.08

Google Genomic data BigQuery (1)

저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는..

빅데이터분석 2014.05.08

NGS 데이터 분석을 위한 미들웨어 시스템 설계

무슨 논문제목 같기는 하네. 간단히 말해서 NGS Big Data 분석을 위해서 컴퓨터 hardware (Cluster, Cloud)와 software(BWA, GATK 등) 사이에서 이들을 효율적으로 연결시켜주는 것이 필요하다는 것이다. 지금까지 써왔던 Resource Managent를 위한 Job Scheduler인 OpenPBS, SGE, OGE (SLURM, Torqueue는 써보지 못했음) 를 사용하는데에 실제 데이터 분석을 하는데에 있어 컴퓨터 자원을 효율적으로 사용하지 못한다는 단점이 존재한다. 일반적으로 컴퓨터의 레벨 (levels of computing)은 Core, Machine, Cluster로 나뉘어진다. 하나의 Machine은 메모리를 공유하는 여러 Core가 존재하며 각 Mach..

빅데이터분석 2014.02.21

대규모 과학계산(유전체 연구)에 있어서 클라우드 사용하기

제목은 "과학계산"이라고 했으나 여기서는 "유전체 관련"이라고 한정지어 이야기를 하겠다. 왜냐고 그건 내 마음이니까. 요즘 국내에서도 많은 사람들이 자신의 연구에 클라우드를 사용하기 시작했다. 클라우드를 사용하기를 원하는 사람들 중 다음의 상황이 가장 많다. 빠른 시간내에 분석 결과를 내고 싶다. 대부분의 사람들은 샘플을 수집하고 이를 시퀀서와 같은 장비를 통해 데이터를 생산해 낸다. 즉, 분석할 데이터셋트가 만들어진다. 여기서 문제가 발생한다. 각종 연구에 있어서 논문으로의 출판까지 비교적 여유롭지 못하다는 것이다. 여기에는 많은 이유가 있을 수 있다. 가령 주어진 과제비에 대한 산출물(즉, 논문)을 내야하는 시기가 정해져 있다는 것이다. 어쩔 수 없는 이유들로 인해 데이터 생산까지의 시간을 일정내에 ..

빅데이터분석 2014.01.25

나누면 2배 이상 - 클라우드를 이용한 데이터 분석

기쁨은 나누면 배가 된다는 옛말이 있습니다. Bioinformatics 분야에도 이말이 적용되는데요. 바로 그 나눔의 핵심에는 클라우드 컴퓨팅이 있습니다. 무슨 말이냐구요. DNANexus와 Baylor의 클라우드 기반 분석 DNANexus라는 클라우드 기반의 NGS 분석 업체와 Baylor 의대 (BCM)의 이야기입니다. 바로 ASHG에서 DNANexus와 BCM의 Human Genome Seuqencing Center (HGSC)는 14,000명의 WGS와 WES를 통해 심장질환과 노화에 대한 유전적 영향을 연구를 위한 클라우드 기반의 협력 분석 시스템 프로젝트를 공유했습니다. 텍사즈주 휴스턴의 BCM Cohorts for Heart and Aging Research in Genomic Epidemi..

빅데이터분석 2013.10.29

BigData 관점에서 Personalized Genomic Medicine

현시점에서의 Genomic Data 사용 시나리오 NGS를 통해 생산된 데이터를 가지고 현재 시점에서 Personalized Genomic Medicine에 사용할 경우 최선은 다음의 시나리오가 최선일 것이다. 최대한 에러 제거 (quality scores, pseudogene들을 제거) dbSNP 등을 이용, allele frequency를 확인 (common한 것들은 가지고 있어도 안죽으니 최대한 인종 특이적인 SNP들을 많이 확보하는 것은 필수) 부모에게 물려받은 것은지 확인, homo인지 heteo인지 또는 autosomal인지를 구분 Protein에 영향을 주는지를 Polyphen 등으로 확인 PhastCons, Phylop 등으로 conservation 정도를 확인 (오랫동안 묵혀져 있는 곳에..

빅데이터분석 2013.03.17

Bioinformatics Stack, Bioinformatics PaaS

하나의 어플리케이션 (주로 웹)을 개발하는데에는 스택을 필요로 한다. 가장 잘 알고 있는 스택은 우리가 흔히 알고 있는 APM (Apache, PHP, MySQL)을 들 수 있겠다. 하지만 세상은 클라우드, 소셜, 빅데이터 등의 새로운 기술과 트렌드가 나오기 시작하면서 APM만으로는 해결이 불가능한 상황으로 다양한 어플리케이션 스택들이 나오고 이를 사용한다. Java기반의 웹 어플케이션 프레임워크로는 JBoss, Spring, Tomcat PHP의 경우 Zend Server, Codelnniter Ruby의 경우 Ruby on Rails Node.js Python의 경우 Django, Flask, Bottle Python을 사용하고 한다면 다음과 같은 스택이 현재 많이 사용되고 있다. Linux + ng..

빅데이터분석 2012.11.28

Genomics와 빅데이터(하둡)

Follow the Data라는 블로그의 "What can big data (read Hadoop) do for genomics?"라는 흥미로운 글이 있어서 소개해 보려고 한다. Hadoop이 빅데이터의 관점에서 genomics에 어떻게 응용되고 있고 앞으로 어떻게 응용될지에 대한 글로 최근 임상에서의 빅데이터에 대한 관심이 모아지는 가운데에 임상중에서도 genomics에 포커싱된 글로서 간단히 다음과 같이 요약할 수 있다. 1) 지금까지 read mapping 부분에 하둡 적용이 두드러짐 (Crossbow, MyRNA) 2) 하둡을 인프라로 사용하기 시작함 (SeqPig, Hadoop-BAM) 3) 하둡을 다양한 데이터간의 통계적인 연관성을 보기 위한 빅데이터 처리에 활용 (NextBio, Google..

빅데이터분석 2012.08.02

Google의 게놈 데이터 분석 - Google Compute Engine

Amazon이 AWS를 통해서 IaaS를 제공하고 있는 상황에서 그동안 IaaS가 빠진 클라우드 서비스만 제공하던 Google 역시 이번 Google I/O 2012를 통해서 Google Compute Engine이라는 이름으로 IaaS 서비스를 내놓았다. Google은 사용자가 원했기 때문이라고 했고, 간단한 웹서버 호스팅을 위한 IaaS가 아닌( (단순 웹 호스팅은 Google App Engine을 쓰면 되니까 ^^), batch processing, data processing, high performacne computing에 focusing된 IaaS 서비스이다. 그들이 Google I/O의 키노트를 통해 Compute Engine을 소개하면서 내놓은 demo가 바로 cancer genome 데..

빅데이터분석 2012.06.30