유전자정보분석

DDBJ의 개념찬 NGS 분석 서비스

hongiiv 2012. 8. 6. 11:11
반응형
DDBJ vs. DNAnexus
얼마전 NGS 데이터 분석에서 최고를 달리고 있는 DNAnexs에서 SRA (Sequence Read Archive)의 데이터를 미러링해주는 서비스가 발표되었다. 이는 엄청난 데이터를 저장할 수 있는 구글의 클라우드 스토리지가 있기에 가능했던 일이었다. 단순한 미러링뿐만 아니라 SRA 데이터를 바로 DNAnexus로 import하여 해당 시퀀스 데이터를 분석 할 수 있도록 해주어 편리하게 SRA 데이터를 이용할 수 있도록 하고 있다.

하지만 이러한 컨셉은 적어도 내가 아는한 DNAnexus의 창의적인 서비스가 아니라 이미 일본의 DDBJ (DNA Data Bank of Japan)에서 이미 하고 있던 것이다. 오늘은 바로 가깝고도 먼 일본의 DDBJ 서비스에 대해서 알아보고자 한다. 세계 3대 광천수 중의 하나인 DDBJ… 세계 3대 Nucleotide Sequence Database중 하나인 DBBJ (DDBJ Sequence Read Archive, DDBJ Trace Archive)는 INDC (Internatioanl Nucleotide Sequence Database Collaboration)를 구성하는 미국의 NCBI (GenBank, SRA, Trace Archive) 유럽의 EBI (EMBL-Bank, SRA, Trace Archive)와 시퀀스 데이터 저장 서비스를 하고 있다.

DDBJ는 서비스되고 있는 Sequnce Read Archive에서 데이터를 바로 import하여 NGS  데이터를 분석할 수 있는 DDBJ Read Annotation Pipeline을 제공하고 있는데, 이컨셉은 좀전에 언급한 DNAnexus 컨셉과 동일하다고 할 수 있다. 다른점이라면 DNAnexus가 SRA 데이터와 상용의 서비스라면 DDBJ는 DDBJ SRA 데이터와 공짜라는 점이다.

DDBJ Read Annotation Pipeline (이하 DRAP)을 소개하는 문구를 보면 "DDBJ Read Annotation Pipeline is a cloud-computing based analytical platform for next-generation seqeuncing data"라고  클라우드 기반의 컴퓨팅임을 강조하고 있다. 일반 소셜 서비스처럼 별다른 제약없이 회원가입을 하면 바로 사용이 가능하다.

데이터 업로드 및 SRA 데이터 import
우선 DRAP를 사용하기 위한 서비스 플로우를 살펴보면 우선 사용자는 자신의 Reads 데이터를 바로 업로드하거나 DRA를 통해 DDBJ Read Acrchive에 저장된 데이터를 검색하여 바로 데이터를 사용할 수 있다.

분석 범위
업로드/import된 데이터는 기본적으로 reference에 대한 mapping과 de novo assembly를 지원하고 있으며, SNP/INDEL 검출, RNA-seq, Contig annotation의 고급 분석 (High-level Analysis)를 지원한다.


Query (reads) 파일 선택: DDBJ의 DRA/ERA/SRA의 accession 번호를 입력하면 해당 데이터 업로드 된다. DRA Search 통해 accession 번호를 검색이 가능


DRA search를 통해 import 하고자하는 sequence read를 검색이 가능하다. 기본적으로 NCBI의 SRA와 같은 형태이다.

FTP나 HTTP를 통해서 자신의 데이터를 직접 업로드 할 수 있으며, 메뉴에는 FTP가 존재하지만 아직 HTTP만을 지원하고 있다.


DRA를 통해 import된 데이터는 Private DRA entry에 나타난다.
import된 데이터를 선택하는 과정 (Select Query Files) 후에는 Reference에 매핑하거나 de novo를 수행하는 Select Tools 단계가 진행되며 BWA, Bowtie, TopHat등 다양한 도구를 지원한다.



도구 선택 후에는 alig 할 레퍼런스를 선택하는데 특이한 것은 organism 뿐만 아니라 align하고자 하는 염색체를 선택할 수도 있다.  Homo sapiens의 경우 현재 hg17, 18, 19 및 10개의 버전을 지원하고 있다.
Reference를 선택하면 이전에 선택한 도구의 파라미터를 지정하는 화면이 나타난다. 이전에 bwa를 선택했기 때문에 bwa의 옵션들이 나타난다.


마지막으로 확인 과정을 거치고 나면 Queue에 저장되고 해당 job의 id가 할당된다. 해당 job은 job status 메뉴를 통해 현재 모든 job의 목록뿐만 아니라 내가 submit한 job만을 필터링 하여 확인 할 수 있다.

Galaxy를 이용한 고급 분석
1단계로 Mapping 단계가 끝나고 난후 SNP/Short INDEL의 고급분석은 DDBJ에서 제공하는 galaxy를 이용하여 분석할 수 있도록 지원하고 있다. 

결론적으로 DDBJ는 사용자/SRA 데이터를 바로 import하여 mapping을 수행하는 환경을 지원하고 고급분석을 위해서 DDBJ와 연동된 galaxy를 제공하고 있다. 

일본의 DDBJ 서비스 + annotation pipeline + galaxy의 조합은 누가봐도 부러운 서비스이다. 국가는 시퀀싱하는데에 허벌나게 돈지랄만 하지말고 제발 이런 쓸모있는 서비스 인프라 하나 좀 제대로 만들어라. 힘들면 내가 해주까! 왜 우리나라는 이런거 기획하고 신경쓰는 놈이 없단 말이냐!!! 아 욕나오네... 

덧)
많은 보고서에서 DNA sequencing을 위한 NGS 기술이 어떻고 시장은 어떻게 형성되고 국내는 어쩌구저쩌구 하는 보고서들을 흔하게 볼 수 있다. 하지만 그들이 간과하고 있는 부분이 있다. 바로 연구자들을 위한 데이터 저장과 분석을 위한 환경이다. 

NGS 데이터를 생산하고 공유한다고… 그냥 ftp 서버에 홀라당 올려놓고 우린 돈들여서 데이터 만들었고 공개했으니 연구자님들 알아서 쓰셈… 끝! 죽을래 그게 다가 아니란 말이다. SRA가 왜 나타났을까? 그냥 미국/유럽/일본/상용서비스를 사용하라고? 너님 SRA에서 데이터 받아봤어 물론 그거 받아서 연구하는 국내 연구자들이 얼마나 될지 모르겠지만 Human 데이터 받으려면 받는거 부터가 무리다. 그래 외국의 데이터는 그렇다 치더라도 국내에서 생산된 데이터만이라도 서로 각자 꼭 움켜쥐고 있지말고 SRA 같은 국내 sequence archive 만들어서 연구자들에게 제공하고 그위에 클라우드 기반으로 분석 서비스를 제공한다면 우리나라 좋은 나라이다.

현재 국내 많은 프로젝트에서 NGS 데이터가 생산되고 있는데 데이터는 각 프로젝트에서 관리되더라도 이들을 통합적으로 검색하고 나아가 분석할 수 있는 국가 인프라를 연구자들에 제공하는 그런 그림을 누군가는 그리고 있겠지? 너무 거창하게 만드려고 하지 말고 조금씩 기획하고 연구비 각출해서 유전체사업의 활성화를 위한 기반을 다질 필요가 있지 않을까하는 생각을 해본다.
반응형