유전자정보분석

NGS 데이터 저장 표준 - Complete Genomics

hongiiv 2012. 5. 11. 22:16
반응형
표준은 아니더라도 최소한의 예의가 필요한 시점
얼마전 Pistoia Alliance에서는 NGS 데이터를 효율적으로 관리하기 위한 방법의 하나로 효율적인 압축 알고리즘을 개발하는 사람에게 $15,000의 상금을 걸고 대회를 열었었다. 현재 fastq, bam, vcf로 포맷에 대한 부분도 어느정도 자리가 잡혀가고 있는 추세이다. 각 개별 파일에 대한 표준뿐만 아니라, 하나의 NGS Sample 데이터를 정의하는데에 있어서의 정의 또한 필요한 부분이라고 생각된다.

시퀀싱 장비에서 분석까지 모두 섭렵하고 계신 Complete Genomcis는 넘들 다 쓰는 포맷이니 뭐 그딴거 안쓰시고 자신만의 표준을 잡아서 쓰고 계신다. 군바리의 그것처럼 각잡힌 구조하에 각각 고유의 포맷으로 무장한 파일들을 보면 이 놈들 뭐 좀 하는것 처럼 보이기까지 한다. 

각 시퀀싱 센터도 걍 대충 하드디스크에 결과랍시고 던져 주지 말고 각 센터 고유의 구조하에 결과를 배포한다면, 사용자들은 좀 더 손쉽게 데이터를 이해하고 다룰 수 있지 않을까 생각된다. 국내에서도 많은 시퀀싱이 이루어지고 각 시퀀싱 업체에서 생산된 데이터들이 이러한 어느정도 규격화된 구조하에 돌아다닌다면 좋겠지 말입니다요.

Complete Genomics의 결과 데이터 구조
그렇다면, 우선 Complete Genomcis에서 시퀀싱을 수행하고 나면 그 결과를 어떠한 방식으로 배포하는지 한번 살펴보도록 하겠다.  아래 그림을 보면 최상의 디렉토리가 있고 그안에는 Manifest와 README 파일이 존재한다. 그리고 실제 각 샘플은 Individual Genome 폴더에 존재하게 되며, 이것은 'GS고유숫자DNA-알파벳숫자'의 디렉토리명 규칙을 가지고 있다. 아름답다. 저 GS는 GenomeSequencing의 약자겠지...

그리고 크게 각 샘플디렉토리 밑에는 ASM, LIB, MAP 세개의 폴더가 있으며 ASM은 calling된 variant, coverage, annotation의 데이터가 있으며, LIB폴더에는 mate-pair의 gap사이즈와 같은 library 제작시의 정보가 MAP 폴더에는 read와 reference에 align된 파일이 존재한다.

Complete Genomics의 결과 데이터 구조
 
Variation 결과가 포함된 ASM 폴더의 상세 구조
 
각 폴더내 존재하는 파일의 이름 규칙 및 파일 내용

 
국내 시퀀싱 업체들이여!!!
자. 이렇게 딱 배포하면 지나가는 개도 파일명이나 폴더만 봐도 딱 알겠지... Complete Genomcis가 이렇게 구조화된 결과물을 제공하기 때문에 DNAnexus는 손쉽게 CG의 데이터를 자신의 플랫폼에 import할 수 있도록 하고 있다. 이렇게 전달받은 CG의 결과를 명령어 한줄을 이용하면 DNAnexus의 클라우드에 올라가게 되고, 사용자는 언제 어디서든 CG의 데이터를 확인하고 공유할 수 있게 된다.



어때, 애네들 쿵짝쿵짝 잘놀지~~ 이렇게 돈내고 쓰는 서비스가 생겨야지 지들끼리 콩짝콩짝 해서 좀 더 편리한 환경이 구축되는 거고 그런데 걍 무조건 공짜를 외치잖아~! 그렇게 되면 아무도 저런거에 신경 안써~! 걍 시퀀싱 결과는 SATA2 하드 디스크에 곱게 담겨 랩 서랍 속에서 뒹굴거리다 장렬히 전사하고 기껏 국가 세금이나 등등을 부어서 나온 결과물은 한줌의 비트로 사라지는걸
... 
반응형