티스토리 툴바

Fork me on GitHub
NGS 데이터 저장 표준 - Complete Genomics
2012/05/11 22:16 | 유전자정보분석
표준은 아니더라도 최소한의 예의가 필요한 시점
얼마전 Pistoia Alliance에서는 NGS 데이터를 효율적으로 관리하기 위한 방법의 하나로 효율적인 압축 알고리즘을 개발하는 사람에게 $15,000의 상금을 걸고 대회를 열었었다. 현재 fastq, bam, vcf로 포맷에 대한 부분도 어느정도 자리가 잡혀가고 있는 추세이다. 각 개별 파일에 대한 표준뿐만 아니라, 하나의 NGS Sample 데이터를 정의하는데에 있어서의 정의 또한 필요한 부분이라고 생각된다.

시퀀싱 장비에서 분석까지 모두 섭렵하고 계신 Complete Genomcis는 넘들 다 쓰는 포맷이니 뭐 그딴거 안쓰시고 자신만의 표준을 잡아서 쓰고 계신다. 군바리의 그것처럼 각잡힌 구조하에 각각 고유의 포맷으로 무장한 파일들을 보면 이 놈들 뭐 좀 하는것 처럼 보이기까지 한다. 

각 시퀀싱 센터도 걍 대충 하드디스크에 결과랍시고 던져 주지 말고 각 센터 고유의 구조하에 결과를 배포한다면, 사용자들은 좀 더 손쉽게 데이터를 이해하고 다룰 수 있지 않을까 생각된다. 국내에서도 많은 시퀀싱이 이루어지고 각 시퀀싱 업체에서 생산된 데이터들이 이러한 어느정도 규격화된 구조하에 돌아다닌다면 좋겠지 말입니다요.

Complete Genomics의 결과 데이터 구조
그렇다면, 우선 Complete Genomcis에서 시퀀싱을 수행하고 나면 그 결과를 어떠한 방식으로 배포하는지 한번 살펴보도록 하겠다.  아래 그림을 보면 최상의 디렉토리가 있고 그안에는 Manifest와 README 파일이 존재한다. 그리고 실제 각 샘플은 Individual Genome 폴더에 존재하게 되며, 이것은 'GS고유숫자DNA-알파벳숫자'의 디렉토리명 규칙을 가지고 있다. 아름답다. 저 GS는 GenomeSequencing의 약자겠지...

그리고 크게 각 샘플디렉토리 밑에는 ASM, LIB, MAP 세개의 폴더가 있으며 ASM은 calling된 variant, coverage, annotation의 데이터가 있으며, LIB폴더에는 mate-pair의 gap사이즈와 같은 library 제작시의 정보가 MAP 폴더에는 read와 reference에 align된 파일이 존재한다.

Complete Genomics의 결과 데이터 구조
 
Variation 결과가 포함된 ASM 폴더의 상세 구조
 
각 폴더내 존재하는 파일의 이름 규칙 및 파일 내용

 
국내 시퀀싱 업체들이여!!!
자. 이렇게 딱 배포하면 지나가는 개도 파일명이나 폴더만 봐도 딱 알겠지... Complete Genomcis가 이렇게 구조화된 결과물을 제공하기 때문에 DNAnexus는 손쉽게 CG의 데이터를 자신의 플랫폼에 import할 수 있도록 하고 있다. 이렇게 전달받은 CG의 결과를 명령어 한줄을 이용하면 DNAnexus의 클라우드에 올라가게 되고, 사용자는 언제 어디서든 CG의 데이터를 확인하고 공유할 수 있게 된다.



어때, 애네들 쿵짝쿵짝 잘놀지~~ 이렇게 돈내고 쓰는 서비스가 생겨야지 지들끼리 콩짝콩짝 해서 좀 더 편리한 환경이 구축되는 거고 그런데 걍 무조건 공짜를 외치잖아~! 그렇게 되면 아무도 저런거에 신경 안써~! 걍 시퀀싱 결과는 SATA2 하드 디스크에 곱게 담겨 랩 서랍 속에서 뒹굴거리다 장렬히 전사하고 기껏 국가 세금이나 등등을 부어서 나온 결과물은 한줌의 비트로 사라지는걸
... 
저작자 표시 비영리 동일 조건 변경 허락
Posted in : 유전자정보분석 at 2012/05/11 22:16
Currently 댓글이 없습니다. comments want to say something now?
HiSeq vs. 454
2012/05/10 22:17 | 유전자정보분석
전세계적으로 HiSeq을 포함한 일루미나 장비가 가장 많은 사용되고 있다. 너가 그런거 어케 알어!?? 라고 물으신다면... 예전에도 언급했던 http://omicsmaps.com/ 여기서 확인 가능하다. 봐 아래 그림에서 보듯이 GA2랑 HiSeq 을 포함하면 다른 플랫폼보다 월등히 많지!! 그러니까 대세는 일루미나야 이 바보야!!! 라고 말한다면...


자 이건 미국내에서 일루미나 장비(GA2랑 HiSeq 모두 합한것)의 분포도이다. 특징은 지역적으로 드문드문 분포하며, 특정 지역에 엄청나게 그 수가 밀집되어 있다. 

미국내 일루미나 장비의 분포

이에 반해 아래 그림은 454의 분포도이다. 비록 대수는 얼마 안되지만 골고루 퍼져 있는 것을 확인 할 수 있다. 이러한 분포의 특징은 단 미국내뿐만 아니라 전세계를 봐도 그렇다. 즉, 일루미나 장비의 전체적인 수는 월등하지만 그건 BGI를 비롯한 일부에 집중되어 있다는 것이고, 454 장비는 비록 그 수는 적지만 각각의 개별 랩들이 하나씩 가지고 있다는 것이다.

미국내 454 장비의 분포

그래서 어쩌라고.... 어떻게 할까요?? 뭐 암튼 그렇다고... 454 장비가 내구성이 좋은가??

저작자 표시 비영리 동일 조건 변경 허락
Posted in : 유전자정보분석 at 2012/05/10 22:17
Currently 댓글이 없습니다. comments want to say something now?
Apple은 iPhone이나 MacOSX를 사용하는 사용자들이 손쉽게 클라우드 기반으로 Application을 찾아서 설치하고 업데이트 할 수 있는 Store를 운영하고 있다. 이러한 Store를 통해 일반 개발자들도 자신의 App을 등록하고 이를 통해 중간에 유통이니 광고니 이런 복잡다단한 중간 단계 없이 그저 Store에 등록하는 걸로 자신의 Appicaltion으로 수익을 낼 수 있게 되는 그런 그림이다.

Apple App Store 화면
 

1. 일루미나 BaseSpace
Illumina, Inc. (ILMN)ㅋ도 바로 이러한 모델을 내놓았는데 바로 BaseSpace AppStore이다. BaseSpace는 일루미나가 내놓은 Genomic Cloud Computing Environment로 너무 거창한 느낌이 든다면 걍 computer-free NGS analysis tool 되겠다. 

GCCE (Genomic Cloud Computing Environment) 관점에서 본다면, 

스토리지와 컴퓨팅 자원에 대해 고민 걱정 끝!
웹 기반의 데이터 관리 및 분석  
협업 및 공유를 위한 도구 제공
일루미나나 타 사용자들을 모두 수용

간단히 Tool 관점에서 본다면, 

클라우드로의 자연스런 자동 데이터 업로드 (장비 run이 끝나면 데이터 업로드도 끝! 물론 일루미나 장비만 지원!)
Bioinformatics를 멀리 저 멀리 치워버릴 수 있음 (이제 나 손빨아야해!!)
결과를 언제 어디서든지 웹 기반 툴로 확인 가능 (실험 끝! 분석 다됐으니 확인하라고 한밤중에 알람 울린다면 대략 난감~ 근데 이걸 나만 받은게 아니라면... )
신상 s/w나 최신 버전의 툴들이 바로바로 업데이트 되어 사용 가능 (오호 나 신상 소프트웨어 좋아!!!)

2. 일루미나 BaseSpace AppStore와 개발자 지원se
자, 바로 이러한 BaseSpace는 단순히 NGS 데이터 분석이 아닌 각종 3rd party 업체들로 부터 정해진 API를 가지고 개발해서 BaseSpace에서 사용할 수 있는 생태계를 만들고 있다. 아까 말한 BaseSpace AppStore!! 내가 RNA 데이터를 가지고 있다면, 바로 RNA-Seq 전문 소프트웨어를 구매해서 BaseSpace 내에서 쓰윽 하고 분석~~ Annotation이 필요하다면 입맛에 맛는 Annotation S/W 쓰윽...  뭐 이런 식이지. 



근데 관건은 얼마나 많은 S/W들을 모을 수 있냐는 것이다. 장터는 열렸는데 상품이 없다면 대략 난감할테니,,, 그래서 일루미나 꼼꼼히도 사전에 업체들 컨택해서 물밑 작업 좀 했나 부다. 현재 Clinical Interpretation, Annotation, Visualization의 각 부분에 해당하는 S/W 업체들 10여개사를 이미 꼬셨고, 추가 21개의 벤더들이 AppStore에 입주하기 위해 분주히 개발하고 있다고 한다. 물론 현재 API는 공개되어 있지 않지만 연락을 취하면 API로의 접근이 가능하며 이미 developer.basespace.illumina.com이라는 도메인도 선정해 놓은 상태이다. 

Knome http://www.knome.com 

Strand Life Sciences http://www.strandls.com/

Omicia http://www.omicia.com/

Omixon https://www.omixon.com

Ingenuity Systems http://www.ingenuity.com/

genomatix http://www.genomatix.de/

REAL TIME Genomics http://www.realtimegenomics.com/

Integromics http://www.integromics.com/

GenoLogics http://genologics.com/

Gelden Hexlix http://www.goldenhelix.com/

DiaGenomics http://www.diagnomics.com/

STATION X http://www.stationxinc.com/

Spiral Genetics http://www.spiralgenetics.com/

biomax http://www.biomax.com/

3. 일루미나 BaseSpace의 업그레이드
 
일루미나는 이러한 AppStore 뿐만 아니라 Tool로서의 역활 또한 단단히 하기 위해 기존의 일루미나 Align s/w만 지원했던것을 BWA+GATK 조합도 BaseSpace에서 사용가능할 뿐만 아니라 열라 빠른 iSSAC라는 alignment s/w도 발표했다. 그리고 현재 MiSeq만 지원했던 것을 HiSeq계열에도 적용할 것이라고 한다.

MiSeq 장비에 내장된 MiSeq Control Software - 하단의 구름 모양은 시퀀싱이 시작되면 활성화되어 바로 BaseSpace 클라우드로 데이터를 업로드하게 된다. 님좀짱~~~

 

자 요약하자면

이제, BWA+GATK도 BaseSpace에서 사용할 수 있어요.

API는 8월부터 가능한데 먼저 사용해 볼 수 있고요 이미 40여개의 앱이 있어요.

AppStore도 빠르면 8월, 근데 9월 오픈할 거에요.

HiSeq 1500/2000도 스트리밍 방식으로 연결될거에요 물론 9월

iSSAC라는 엄층 빠른 aligner도 9월에 뵈요~~

짤방 


저작자 표시 비영리 동일 조건 변경 허락
Posted in : 유전자정보분석 at 2012/05/10 20:04
Currently 댓글이 하나 달렸습니다 comments want to say something now?