유전자정보분석

BGI의 공짜 분석 서비스 EasyGenomics

hongiiv 2012. 5. 9. 16:43
반응형
금번 Bio-IT World Conference & Expo에서 BGI의 NGS 분석 서비스가 화두거리중의 하나였다. 물론 BGI가 서비스하는 것이 획기적이거나 한것보다는 바로 분석 비용에 있어서의 free를 선언했기 때문이다. 그럼 이번에 새롭게 발표한 중국 BGI의 EasyGenomics 서비스에 대해서 살펴보도록 하겠다.

BGI는 데이터 분석에서의 나타나는 문제점들의 다음의 4가지 관점에서 지적하고 있는데, 분석의 각 단계에 따라 문제점들을  말하고 있다. 

Primary Analyis
NGS 장비에서 이미지를 읽어 Base Calling하는 단계이며, 이 단계에서는 Data throughput과 Data storage를 지적하고 있다. 일반적으로 NGS장비에서 생산된 데이터를 지역적으로 멀리 떨어진 실제 분석을 수행할 기관이나 연구자에게 전달하는데에 있어서 데이터 전송 문제가 발생하고 있다.

Secondary Analysis
Mapping 단계로 Computation intensive한 작업이며 마찬가지로 이 단계에서도 Data storage 또한 지적하고 있다. 현재 Computation intensive한 부분에서는 MapReduce나 GPU를 활용하는 부분들에 있어서 많은 해결을 보려는 노력들이 있다. 

Tertiary Analysis
Variant calling 단계로 아직은 short read의 엄청난 throughput으로 밀고 있는 HiSeq을 비롯한 NGS 장비들이 특성?을 고려하여 유전변이를 찾기 위해 프로세스(gatk의 경우 mapping 단계 후 variant를 찾기 위해 Local realignment, Duplicate marking, Base quality recalibration, Variant quality recalibration의 복잡다단한 단계를 권장)가 점점 복잡해져간다는 것이다. 또한 Computation intensive한 작업이라는 걸림돌이 존재한다.

Post Tertiary Analysis
보다 심도있는 Annotation을 수행하는 단계로 많은 이들이 이 부분에서 좌절하게 된다. 그동안 생물학과 Bioinformatics의 발전으로 많은 Knowledge와 DB가 축적되었지만, Lack of knowledge는 아직 가야할 길이 멀다고 하겠다.

바로 이러한 분석단계에 있어서의 걸림돌을 풀기 위한 솔루션이 바로 'EasyGenomics' 서비스가 되겠다. ^______^ 우선 아까 각 단계에서 지목되었던 Big genomics data, Geological distribution, Algorithm integration, Computational demand는 Cloud Computing, High Speed Data Exchange, Workflows, Resource Management를 통해 해결 될 수 있으며, 바로 이것들을 EasyGenomcis가 지원한다는 것이다.  EasyGenomics는 한마디로 Bioinformatics 연구를 위한 플랫폼이며, 클라우드에서 구동되는 어플리케이션이라고 정의할 수 있다.

EasyGenomcis의 특징
High speed data exchange
Fast and accurate pipelines
Easy and straightforward UI
Application integration

NGS 분석 작업의 단계
Reads (Import) -(Raw/Clean Reads)-> Samples (Filtering, Quality Control, Mapping) -(Aligned Reads & Reports)-> Analysis (Whole genome Resequencing, Exome, RNA-seq, Small RNA, de novo Assembly) -(Results & Reports)-> Results (Packing, Export)

이미 BGI는 클라우드(infrastructure)와 SOAPdenovo등 알고리즘을 꾸준히 만들고 사용해 왔으며, 금번 EasyGenomics 서비스를 가능하게 하는 기술의 기반이라고 할 수 있겠다. EasyGenomcis는 이름에서도 알수 있듯이 쉽게 사용할 수 있게 했다는데에 촛점이 맞추어진 서비스라고 할 수 있겠다. 즉, 실제 연구시 이루어지는 procedure를 그대로 EasyGenomics에서 구현한 것으로 핵심은 'sample', 'Analysis', 'Porject'라는 개념이다. 즉 여러개의  Raw Data로 부터 각각의 샘플(sample)을 생성하고 각각의 샘플은 다시 여러가지 다양한 분석(analysis)이 수행되며 바로 이것들을 하나로 묶는 프로젝트(project)의 개념을 그대로 EasyGenomcis에서 구현한 것이다. (말은 거창하지만... 남들도 다 비슷비스하게 하거덩요)

실제 서비스를 디벼 보자
아 이 중국넘들 ppt 자료나 떠드는 내용이 좀 일목요연했으면 좋으련만 다시 정리해야 되잖냐!!! 암튼 첫 페이지는 요렇게 생겼답니다. (아직 테스트중이라 계정만 요청해 놓은 상태인데 연락 준다는데 연락이 없네...)

Main Page

Project 페이지

Sample 페이지

Data 페이지

(1) Read Upload
Main 페이지의 Reads Upload or Sample 페이지의 'Upload Sequencing Data' 을 통해 데이터를 업로드하게 되며, 이때 Aspera의 connection server에 접속해서 해당 데이터를 업로드하게 된다. BGI에 따르면 FTP보다 10~100배 빠르다고 주장! 암튼 요렇게 올려진 Read 데이터는 이제 Sample로 환생하게 된다.

(2) Sample 생성
Sample은 여러개/단일의 Raw Data(Read)가 mapping 되어진 상태의 데이터라고 할 수 있다. Sample  페이지의 'Create a sample'에서 업로드한 Read를 선택하고 부가정보를 입력하면 mapping 결과와 report가 생성된다.

sample 생성 페이지

생성된 sample의 report

(3) Project 생성 (Data Analysis)
이렇게 align(sample이)된 데이터는 유전변이 발굴등의 Tertiary Analysis 단계 즉, Data Analysis(또는 Project라고 부름) 단계를 수행하게 된다. 각 분석은 Modules이라고 부르며, CNV Calling, Indel Calling(Samtools), SNP Calling(SapSNP), Structural Variants Calling(SV)과 각각의 Annnotation까지의 작업이 있다.

Project의 단계는 Create an Anlysis -> Select Data -> Select Modules -> Review 단계로 진행되며, 분석에 대한 정보를 입력한후 아까 만든 Sample을 선택 선택한다. 이 sample을 가지고 수행할 분석(Modules)을 선택하고 나면 하나의 Project/Analysis가 끝나게 되는 것이다.

project 설명 입력 페이지
 

분석에 사용할 sample 선택 페이지

수행할 분석(module) 선택

분석 결과 리포트

이상으로 간단하게나마 BGI의 EasyGenomcis 서비스를 살펴보았다. 시퀀싱을 수행하고 나면 자동으로 EasyGenomics에 넣어 주고 사용자들은 여기에 접속해서 이런저런 분석 및 Data Storage 서비스를 이용하면 완벽한 package가 되는 그런 그림인 듯 하며 BGI의 시퀀싱 서비스를 받는 사람들은 한번 쓸만한 것 같으나, 분석만을 위해서 BGI의 서버 아니 클라우드라고 불러야지.. 암튼 여기에 데이터를 업로드하고 공짜인데 혹여나 데이터가 날라가면... 책임소재 등도 불명확해지니 무조건 공짜라고 침흘리지 말자. BGI의 full 발표자료가 필요하시면 댓글로 남겨주시면 보내드리도록 하겠습니다. ^____^

반응형