Fork me on GitHub 단맛만좋아요 ::

유전정보를 담고 있는 유전체 데이터는 DNA 시퀀싱 기술이 발전함으로 유전체 연구 분야에 많은 변화가 일어나고 있다. 유전체 연구에 있어서 이를 분석할 수 있는 컴퓨팅 리소스에 대한 문제로 인해 자칫 유전체정보를 활용할 수 있는 다양한 기회를 놓쳐 버릴 수도 있는 상황이다.

유전체 연구에 있어서 가장 첫번째 걸림돌은 시퀀서에서 생산되는 데이터를 포함한 연구에 사용되는 데이터 볼륨이 크다는 것이다. 오늘은 바로 연구에 활용할 데이터에 어떻게 액세스 할것인가에 대한 내용이다.

인간의 유전변이에 대한 카다로그를 작성하기 위한 1000 Genomes Project는 현재까지 2편의 논문이 발표되었으며 cited된 논문만 하더라도 2,000여편에 이른다. initial phase(called pilot project)를 비롯하여 phase 3까지 진행하면 데이터를 생산해 냈으며, 현재 공개된 데이터만 200 TB에 달한다. 아마 유전체 연구를 진행한다면 이 프로젝트의 데이터를 이용하지 않는 사람이 없을 것이다. (일례로 GATK에서 reference로도 사용된다.)

이렇게 연구적으로 중요한 데이터인 만큼 다양한 방법으로 해당 데이터에 액세스 할 수 있다. 현재까지 필자가 파악한 방법은 아래의 4가지 방법으로 각각의 방법에 대해서 알아보도록 하자.
  • NCBI와 EBI의 ftp 서버를 이용하여 접근하는 방법
  • NCBI와 EBI의 Aspera를 이용하여 접근하는 방법
  • 아마존 클라우드의 S3를 이용하여 접근하는 방법
  • Globus Online을 이용하여 접근하는 방법
Globus Online - 오랜 그리드 컴퓨팅에서 묻어나오는 편리성
가장 최근에 나온 접근 방법으로 Globus라는 서비스를 이용하는 것이다. Globus는 원래 그리드 컴퓨팅 시절부터 시작된 방법으로 이를 클라우드까지 확장한것이라고 할 수 있다. Globus에는 Endpoint라는 개념이 있는데 Endpoint끼리 서로 데이터를 주고 받을 수 있다. 바로 Globus에서는 1000 Genome 데이터를 저장하고 있는 endpoint를 제공(ebi#1000genomes)하고 있으며, 자신이 다운로드 하고자 하는 곳에 globus 관련 s/w를 설치하여 그곳을 endpoint로 만들어 두면 손쉽게 언제어디서나 globus 홈페이지에서 두 endpoint간 데이터를 웹브라우저를 이용하여 전송할 수 있다.

아래는 데이터를 받고자 하는 리눅스 컴퓨터에 endpoint(hongiiv#linux)를 설정하고 ebi#1000genomes로 부터 파일을 클릭하여 다운로드가 가능하다. 이처럼 endpoint만 설정해 놓으면 직접 다운로드 하고자하는 곳에 접속하거나 별도의 프로그램 없이 웹상에서 손쉽게 다운로드가 가능하다.

필자는 pilot project의 trio 샘플중 하나인 NA12878 데이터중 염색체 22번 데이터를 다운로드 해 보았으며, 총 3.8 GB로 2.4 Mb/s의 속도를 보였다. (약 3시간 23분 소요)

결론적으로 고속의 데이터 전송에 특화된 솔루션이었지만, 제 기능을 발휘하지 못했다. 소프트웨어적인 문제인지 뭔지 암튼 실망스러운 결과이다.


 
장점
별도의 프로그램 구동이나 다운로드하고자 하는 컴퓨터에 접속하지 않고도 데이터를 웹상에서 언제어디서나 편리하게 다운로드 가능하다.
단점
endpoint의 설정에 다소 어려움을 느낄 수도 있으며, 테스트상에서 속도는 실망스러웠다.
총평
   

Aspera - 기술력으로 인정받아 IBM에 인수되다.
Aspera는 고속의 대용량 데이터 전송에 특화된 fasp 프로토콜을 이용한 데이터 전송 소프트웨어 전문회사로 얼마전에 IBM에 인수되기도 하였다. 특히 wan 환경 (국가대 구가)에서 탁월한 성능을 보여준다. EBI와 NCBI 모두 Aspra를 이용하여 데이터를 다운로드 할 수 있도록 하고 있으며, 사용자는 별도의 클라이언트 툴을 이용하면 된다. NCBI의 SRA 등 바이오 분야에서는 오래전부터 사용되었던 터라 거부감없이 사용할 수 있다.

필자는 EBI를 통해 동일한 3.8 GB의 trio 데이터를 다운로드 해본 결과 96 Mb/s의 속도로 5분안에 다운로드가 가능하다. @.@

리눅스 커맨드라인상에서 다운로드 명령예,
/root/.aspera/connect/bin/ascp -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/technical/pilot2_high_cov_GRCh37_bams/dat a/NA12878/alignment/NA12878.chrom21.ILLUMINA.bwa.CEU.high_coverage.20100311.bam ./

장점
생물학자들에게 널리 알려진 방법으로 1000 genome외에 NCBI의 데이터 등에 적용되어 있으며, 특히 해외구간에서 안정적으로 고속다운로드가 가능하다.
놀라운 전송속도에 반함.
총평

 
아마존 S3 - 분석 컴퓨팅까지 원한다면 최고의 솔루션
아마존에서는 자사의 클라우드 컴퓨팅의 스토리지 서비스인 S3에 1000 Genomes 데이터를 제공하고 있다. 위에서 살펴본바와 같이 S3용 클라이언트 툴을 이용하여 다운로드 할 수 있을 뿐만 아니라, 컴퓨터까지 아마존에서 사용한다면 같은 환경이기에 엄청난 속도로 다운로드 및 바로 마운트하여 사용이 가능하다. 마찬가지로 국내로 다운로드해본 결과 6 Mb/s의 속도로 83분이 소요되었다.

여기서 그럼 같은 아마존 서비스내의 EC2를 이용하여 서버를 생성한 후 다운로드를 수행해 보았다. 아마존의 m3.medium 인스턴스 (1 vCPUs, 3.75 GiB의 Moderate Network Performance)를 us-east-1a (버지니아) 지역에 생성하여 다운로드 한 결과 289 Mb/s의 속도로 105초 소요 되었다. 역시 S3의 1000 genomes 데이터는 같은 아마존 클라우드 내에서 사용할 때 그 진가를 발휘한다.



참고로 아마존의 경우 일찍이 유전체분야에 다양한 응용사례를 내놓고 있으며, 한글페이지 또한 존재하니 참고하기 바란다. 유전체학에서의 AWS활용(한글), 유전체학을 위한 서비스(한글), 1000 게놈 프로젝트와 AWS(한글)

리눅스 커맨드라인상에서 다운로드 명령예,
s3cmd get s3://1000genomes/technical/pilot2_high_cov_GRCh37_bams/data/NA12878/alignment/NA12878.chrom22.ILLUMINA.bwa.CEU.high_coverage.20100311.bam

장점
아마존의 클라우드 서비스들과 연동하여 사용하고자 하는 경우 최선의 선택일 수 있다.
단점
아마존이 아닌 곳으로 다운로드하거나 하는 경우 속도 이슈가 발생한다.
총평

 
FTP - 이것저것 설정하는 거 다 귀찮다
마지막으로는 ftp를 이용한 방법이다. 누구나 다 손쉽게 다운로드가 가능한 방법으로 EBI, NCBI 모두 ftp를 제공한다. 손쉬운 사용대신 느린 속도는 사용자의 몫

리눅스 커맨드라인상에서 다운로드 명령예,
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/pilot2_high_cov_GRCh37_bams/data/NA12878/alignment/NA12878.chrom22.ILLUMINA.bwa.CEU.high_coverage.20100311.bam

장점
대부분의 사용자에게 익숙하게 활용이 가능하며 평이한 수준의 속도는 장점이자 단점이다.
단점
평이한 수준의 속도
총평

 

그밖의 국내외 전송 솔루션
1000 genomes 데이터가 다양한 방법으로 access를 제공하고 있으나, 이밖에도 국내에서는 삼성SDS에서 개발한 고속전송솔루션 래피던트가 존재한다. 래피던드는 농진청의 NABIC에서 적용되어 SRA 데이터 다운로드 등에 사용되고 있다. 이외에도 UCSC의 The Cancer Genome Hub(CGub)에서는 TCGA의 데이터 다운로드에 GeneTorrent를 사용하고 있으며, 국내에서도 ETRI가 Cancer 데이터를 다운로드하는데 사용되었으며 국내로 다운로드 속도가 50 Mb/s 정도라고 한다.

물론 KT의 GenomeCloud에서는 g-Storage라는 서비스를 통해 gtp라는 프로토콜을 이용하여 고속의 전송과 데이터 sharing 기능을 제공하고 있으며 g-Storage는 디엔에이링크에서 고객의 데이터의 고속 전송에 사용되고 있다.

맺음말
지금까지 1000 genomes 프로젝트 데이터에 액세스하는 다양한 방법과 그외 다양한 고속전송솔루션에 대해서 알아보았다. 무엇보다도 유전체 연구에서의 데이터전송과 공유는 중요하며 이는 연구의 가장 기초가 되는 것이다. 안타까운것은 국내연구로 생산된 데이터는 제대로 공개된 것이 없는 것으로 아예 다운로드 기술에 대해서 언급할 수 조차 없다는 것이다.

아마존이나 Globus가 공익?을 위해 1000 genomes 데이터를 제공하는 것처럼 국내에서도 이런 사례가 있으면 한다. 그럼 여기서 왜 이 업체들이 1000 genomes 데이터를 무료로 제공할까?라는 것이다. 바로 이들 업체는 유전체 데이터를 분석할 수 있는 환경을 유료로 제공하고 있다는 것이다.

따라서 1000 genomes 데이터는 자사의 고객에 대한 서비스 차원 및 고객을 유치하기 위한 하나의 수단일 수 있다는 것이다. 두번째는 왜 한국에서는 업체들이 이러한 것을 하지 않느냐는 것이다. 첫째로 아마존이나 Globus와 같이 돈을 내고 유전체분석을 제공하는 업체는 거의 KT가 유일하다는 것과 그나마 고객들이 별로 없다는 것이다. @.@

200 TB의 데이터를 저장하고 제공(저장료+전송료)하는 것에 비해 업체가 얻는 이익은 마이너스라는 것이다. 따라서 국내에서 업체의 참여는 기대하지 않는게 좋을 것이다. 국내에서 이러한 데이터 미러링 서비스는 업체가 아닌 다부처 사업등의 국가 차원에서의 지원이 있어야 가능할 것이다. (근데 제공해도 국내에서 저 데이터를 활용하여 연구하는 사람이 몇이나 될까요? ㅋㅋㅋ)

그마나 올해부터 다부처 유전체 사업에 대해서 이러한 부분들에 대한 여러가지 사업이 진행중이니 연구자들이여 본격적인 연구를 위해 수련에 힘쓰기 바란다. 끝.

덧, 위에서 측정한 속도는 국내의 KT의 클라우드 컴퓨팅환경에서 다운로드한 결과이며, 최소2회이상 다운로드한 결과에 대한 평균입니다. 다운로드 속도는 다운로드하는 클라이언트의 환경에 따라 달라질 수 있습니다.

1000 genomes 3.8 GB 데이터를 국내에서 다운로드 하는 경우 속도 비교
   소요시간 전송속도 (Mb/s) 
 Globus Online 203분  2.4 Mb/s 
 Aspera 5분  96 Mb/s 
 아마존 S3 (국내)  83분 6 Mb/s 
 아마존 S3 (아마존내) 105초  289 Mb/s 
 ftp  30분 16 Mb/s 

저작자 표시 비영리 동일 조건 변경 허락
Posted in : blogging at 2014/08/26 18:26
Currently 댓글이 없습니다. comments want to say something now?
들어가는말, 분석 프로토콜과 파이프라인

유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠.

연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장성)을 생각하게 됩니다. 각가의 의미를 살펴보면,

automation: 프로토콜 즉 일련의 프로그램의 조합을 자동으로 진행하도록 해주는 것
flexibility: 프로그램을 변경하거나 업데이트 하거나 할때 손쉽게 하는 것
extensionality: 1개의 샘플이나 코호트 스케일의 다 샘플까지 모두 분석이 가능하도록 하는 것

따라서, 프로토콜에 이 3가지 요소를 추가한 파이프라인을 필요로 하게 됩니다. 이러한 파이프라인은 지금까지 상업적인 용도외에 머큐리, HugeSeq, Genomon 3가지에 대해서 각각의 장단점 등에 대해서 알아보도록 하겠습니다.

1. 머큐리 (Mercury)

머큐리는 단일샘플(individuals)에서 대규모 코호트 샘플에 분석에 있어서 자동화되고 유연하게 확장 가능한 분석 워크플로우입니다. 베일러 대학의 HGSC (Baylor College of Medicine Human Genome Sequencing Center)에서 사용하는 파이프라인으로 일년내내 테라바이트급의 분석을 처리하고 있습니다. 

일반적인 매핑작업은 bwa와 gatk의 ralignment를 따르지만, variant를 찾고 annotation하는데에 있어서 HGSC에서 직접 만든 Atlas2와 Cassandra를 사용합니다.

직접 사용하고자 하는 연구자들은 다운로드하여 직접 설치하거나, 직접 설치하는데 있어서 충분한 컴퓨팅 파워나 설치에 어려움이 있다면 DNANexus의 플랫폼을 이용할 수도 있습니다. DNANexus는 HGSC와 함께  CHARGE project에서 머큐리를 자신의 플랫폼에서 성공적으로 수행한 풍부한 경험을 가지고 있습니다.

1000 Genomes Project가 2천여명의 whole genome을 분석하는데에 25TB의 결과를 내었다면, CHARGE는 3,751명의 whole genomes과 10,940명의  exomes을 분석하여 430TB의 결과를 내놓았습니다.

홈페이지
https://www.hgsc.bcm.edu/software/mercury

사용언어
루비

워크플로우 관리/병렬화지원
별도의 추가 필요 sge와 같은 grid엔진에 대한 언급이 없이 워크플로우만 밸런스(valence)를 사용합니다.

참고 논문
Launching genomics into the cloud: deployment of Mercury, a next generation sequence analysis pipeline, BMC Bioinforamtics, 2014

장점
해당 파이프라인을 이용한 대규모의 프로젝트가 존재
DNANexus를 이용하여 손쉽게 설치 및 컴퓨팅 리소스에 대한 부담 없이 즉시 사용 가능
일루미나 장비를 사용한다면 LIMS와 연동하여 사용 가능

단점
CNV를 검출하는 부분이 파이프라인에 탑재되어 있지 않음
카산드라(Cassandra)의 annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음 (물론 DNANexus를 이용하는 경우 라이센스 문제 회피가 가능함, 어떻게 처리했는지는 몰름)

라이센스
특별하게 소스나 바이너리 재배포에 대한 라이센스만 명시한다면 문제가 없으며, 상업적인 용도에 대한 구체적인 명시가 없습니다.

총평
써보진 않았지만, 일단 루비로 작성된 것이 걸린다. 난 루비 잘 몰름. 일루미나 장비를 가진 곳에서는 매력적일 듯 합니다만, 병렬화 부분에 대한 좀 더 자세한 내용이 필요합니다만 DNANexus에 의해 관리 되는 점이 큰 장점일 듯 합니다.
전 별 다섯개중 두개 투척합니다. 

2. HugeSeq
스탠포드 대학에서 만든것으로 2012년 Nature Biotechnology에 비교적 일찍 소개된 파이프라인이다. 이쪽 바닥이 그렇듯 Nature에 소개는 됐지만, 별다른 업데이트는 없는 것이 아쉽다. 또한 이를 활용한 논문이나 서비스가 전무하다.

홈페이지
http://hugeseq.hugolam.com

사용언어
Python과 bash script를 사용

워크플로우 관리/병렬화지원
SGE상에서 Simple Job Manager를 사용하며, 염색체별로 분산되어 병렬화를 지원한다.

참고논문
Detecting and annotating genetic variantions using the HugeSeq Pipeline, Nature Biotechnology, 2012 
 
장점
분석시 염색체 단위로 분산 처리를 수행하여 분석 속도가 빠르다
CNV나 large indel 분석을 지원

단점
별다른 업데이트나 지원이 없다.
Annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음

라이센스
특별하게 소스나 바이너리 재배포에 대한 라이센스만 명시한다면 문제가 없으며, 상업적인 용도에 대한 구체적인 명시가 없습니다.

총평 
염색체별로 분산 처리 되어 분석되어 빠른 분석을 지원하는 것과 CNV/SV 분석 툴을 지원한다는 것이 매력이나 Nature에 소개되었다는 것 외에는 업데이트가 전혀 이루어지지 않는다.
전 별 다섯개중 한개 투척합니다.  

3. Genomon시리즈 (Genomon-exome, Genomon-fusion)
동경대학의 Human Genome Center에서 개발한 워크플로우로 HGC의 슈퍼컴퓨터의 환경하에서 수행되도록 구성되어 있으나 일반적인 클러스터 컴퓨팅 환경에서도 사용이 가능하다. 엑솜데이터 분석과 transcriptome 데이터 분석을 지원한다. 일본을 대표하는 연구기관에서 비교적 체계적으로 관리되고 있으며 일본내 연구자들이 많이 사용하는 듯 하며 이를 이용한 많은 논문들이 발표되었다.

홈페이지
http://genomon.hgc.jp/exome/en/index.html
http://genomon.hgc.jp/rna/

사용언어
Python과 bash script를 사용

워크플로우 관리/병렬화지원
SGE를 지원하며 row data 파일을 분할하는 등의 분산처리를 지원한다.

참고논문
없음

장점
분산처리를 지원하며, 결과 해석에 있어서 충분한 문서를 제공한다.
variant calling에 있어서 Fisher's exact test와 Empirical Baysian 방식을 각각 제공하는 한편 CNV 분석까지 지원한다.

단점
연구소의 슈퍼컴퓨터 환경에 맞도록 개발되어 있기 때문에 자신의 환경에 맞도록 소스코드를 변경해야 사용이 가능하다.
Annotation에서 Annovar를 사용하기 때문에 commercial 사용에 문제가 있음

라이센스
Genomon 라이센스하에서 배포되며 상업적인 용도에 별다른 이슈는 없다.

총평
CNV와 두 가지 calling 방식 지원 분산처리 등 비교적 깔끔하게 구성되어 있으나 일부 일본어만 제공하여 불편하나 구글이 잘 번역해준다. 일본내에서는 거의 표준으로 자리잡은 파이프라인으로 많은 레퍼런스를 보유하고 있다. 
전 별 다섯개중 네개 투척합니다.    
저작자 표시 비영리 동일 조건 변경 허락
Posted in : 유전자정보분석 at 2014/07/31 14:11
Currently 2 comments want to say something now?
The Big Challenges of Big Data
2014/07/23 15:19 | blogging
네이처에 지난 2013년도에 실린 Biology: The big challenges of big data라는 글이 있습니다. 구구절절 옳은 내용들로 차있고, 뭐 그렇다고 읽어봐야 그다지 임팩트 있는 내용은 없고 해서 걍 1장짜리 그림으로 요약했습니다.

Biology: The big challenges of big data
 
 

저작자 표시 비영리 동일 조건 변경 허락
Posted in : blogging at 2014/07/23 15:19
Currently 댓글이 없습니다. comments want to say something now?


티스토리 툴바