들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장..
요즘 화두는 Big Data 기술을 어떻게 genomics에 접목하는 것이냐에 대한 것이다. 구글의 Google Genomics, UC Berkeley의 ADAM 등이 Genomics에 Big Data 기술을 적용하고 있다. 다양한 Big Data 기술들이 genomics에 적용될 수 있겠지만, 오늘은 colummar storage 기술을 이용하여 BAM 파일등의 genomics 데이터를 다루는 방법에 대한 이야기를 하고자 한다. 왠 colummar storage? colummar storage 기술을 사용하면 대용량의 데이터에 대한 액세스를 빠르게 수행할 수 있기 때문이다. genomics 데이터를 다루기 힘든 이유와 왜 빠른 액세스가 필요한지 등등의 구구절절한 why에 대한 대답은 굳이 하지 않겠다...
Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다. 자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼. Genomics and BigData - case study from Hong ChangBum
BigQuery를 이용하여 genome 데이터를 주무르기 전에 얼마전까지 뜨거운 감자였던 연구의 재현성에 관한 이야기를 하려고 한다. 여기서는 R을 중심으로 클라우드와 literate programing (문학프로그래밍) 을 이용하여 어떻게 연구의 재현성을 확보하는지에 대해서 알아보려고 한다. 클라우드를 이용한 R 분석 환경 구축 및 공유/활용 글제목은 거창하지만, 그냥 내가 어떻게 R을 사용하는지에 대한 것이니 너무 기대하지 않기 바란다. 아래의 일련의 과정을 통해 R환경이 구축된 클라우드 이미지를 확보한다. 클라우드 컴퓨터에서 2가지 이상 버전의 R을 설치 (하나는 2.x 대 다른 하나는 3.x대의 R을 각각 설치) 기본적인 패키지 설치 (이건 개인별로 차이가 있으니 알아서 설치하시오) R 통합 ID..