유전정보를 담고 있는 유전체 데이터는 DNA 시퀀싱 기술이 발전함으로 유전체 연구 분야에 많은 변화가 일어나고 있다. 유전체 연구에 있어서 이를 분석할 수 있는 컴퓨팅 리소스에 대한 문제로 인해 자칫 유전체정보를 활용할 수 있는 다양한 기회를 놓쳐 버릴 수도 있는 상황이다. 유전체 연구에 있어서 가장 첫번째 걸림돌은 시퀀서에서 생산되는 데이터를 포함한 연구에 사용되는 데이터 볼륨이 크다는 것이다. 오늘은 바로 연구에 활용할 데이터에 어떻게 액세스 할것인가에 대한 내용이다. 인간의 유전변이에 대한 카다로그를 작성하기 위한 1000 Genomes Project는 현재까지 2편의 논문이 발표되었으며 cited된 논문만 하더라도 2,000여편에 이른다. initial phase(called pilot proje..
들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장..
요즘 화두는 Big Data 기술을 어떻게 genomics에 접목하는 것이냐에 대한 것이다. 구글의 Google Genomics, UC Berkeley의 ADAM 등이 Genomics에 Big Data 기술을 적용하고 있다. 다양한 Big Data 기술들이 genomics에 적용될 수 있겠지만, 오늘은 colummar storage 기술을 이용하여 BAM 파일등의 genomics 데이터를 다루는 방법에 대한 이야기를 하고자 한다. 왠 colummar storage? colummar storage 기술을 사용하면 대용량의 데이터에 대한 액세스를 빠르게 수행할 수 있기 때문이다. genomics 데이터를 다루기 힘든 이유와 왜 빠른 액세스가 필요한지 등등의 구구절절한 why에 대한 대답은 굳이 하지 않겠다...
Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다. 자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼. Genomics and BigData - case study from Hong ChangBum