2014/05 4

Genomics and Cloud

Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다. 자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼. Genomics and BigData - case study from Hong ChangBum

컬럼 2014.05.08

Google Genomic data BigQuery (2) - 연구 재현, Literate Programming

BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID..

빅데이터분석 2014.05.08

Google Genomic data BigQuery (1)

저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는..

빅데이터분석 2014.05.08