빅데이터분석

고속 유전체 데이터 접근 - 1000 Genomes Project 사례 중심

hongiiv 2014. 8. 26. 18:26
반응형
유전정보를 담고 있는 유전체 데이터는 DNA 시퀀싱 기술이 발전함으로 유전체 연구 분야에 많은 변화가 일어나고 있다. 유전체 연구에 있어서 이를 분석할 수 있는 컴퓨팅 리소스에 대한 문제로 인해 자칫 유전체정보를 활용할 수 있는 다양한 기회를 놓쳐 버릴 수도 있는 상황이다.

유전체 연구에 있어서 가장 첫번째 걸림돌은 시퀀서에서 생산되는 데이터를 포함한 연구에 사용되는 데이터 볼륨이 크다는 것이다. 오늘은 바로 연구에 활용할 데이터에 어떻게 액세스 할것인가에 대한 내용이다.

인간의 유전변이에 대한 카다로그를 작성하기 위한 1000 Genomes Project는 현재까지 2편의 논문이 발표되었으며 cited된 논문만 하더라도 2,000여편에 이른다. initial phase(called pilot project)를 비롯하여 phase 3까지 진행하면 데이터를 생산해 냈으며, 현재 공개된 데이터만 200 TB에 달한다. 아마 유전체 연구를 진행한다면 이 프로젝트의 데이터를 이용하지 않는 사람이 없을 것이다. (일례로 GATK에서 reference로도 사용된다.)

이렇게 연구적으로 중요한 데이터인 만큼 다양한 방법으로 해당 데이터에 액세스 할 수 있다. 현재까지 필자가 파악한 방법은 아래의 4가지 방법으로 각각의 방법에 대해서 알아보도록 하자.
  • NCBI와 EBI의 ftp 서버를 이용하여 접근하는 방법
  • NCBI와 EBI의 Aspera를 이용하여 접근하는 방법
  • 아마존 클라우드의 S3를 이용하여 접근하는 방법
  • Globus Online을 이용하여 접근하는 방법

Globus Online - 오랜 그리드 컴퓨팅에서 묻어나오는 편리성

가장 최근에 나온 접근 방법으로 Globus라는 서비스를 이용하는 것이다. Globus는 원래 그리드 컴퓨팅 시절부터 시작된 방법으로 이를 클라우드까지 확장한것이라고 할 수 있다. Globus에는 Endpoint라는 개념이 있는데 Endpoint끼리 서로 데이터를 주고 받을 수 있다. 바로 Globus에서는 1000 Genome 데이터를 저장하고 있는 endpoint를 제공(ebi#1000genomes)하고 있으며, 자신이 다운로드 하고자 하는 곳에 globus 관련 s/w를 설치하여 그곳을 endpoint로 만들어 두면 손쉽게 언제어디서나 globus 홈페이지에서 두 endpoint간 데이터를 웹브라우저를 이용하여 전송할 수 있다.

아래는 데이터를 받고자 하는 리눅스 컴퓨터에 endpoint(hongiiv#linux)를 설정하고 ebi#1000genomes로 부터 파일을 클릭하여 다운로드가 가능하다. 이처럼 endpoint만 설정해 놓으면 직접 다운로드 하고자하는 곳에 접속하거나 별도의 프로그램 없이 웹상에서 손쉽게 다운로드가 가능하다.

필자는 pilot project의 trio 샘플중 하나인 NA12878 데이터중 염색체 22번 데이터를 다운로드 해 보았으며, 총 3.8 GB로 2.4 Mb/s의 속도를 보였다. (약 3시간 23분 소요)

결론적으로 고속의 데이터 전송에 특화된 솔루션이었지만, 제 기능을 발휘하지 못했다. 소프트웨어적인 문제인지 뭔지 암튼 실망스러운 결과이다.


 
장점
별도의 프로그램 구동이나 다운로드하고자 하는 컴퓨터에 접속하지 않고도 데이터를 웹상에서 언제어디서나 편리하게 다운로드 가능하다.
단점
endpoint의 설정에 다소 어려움을 느낄 수도 있으며, 테스트상에서 속도는 실망스러웠다.
총평
   

Aspera - 기술력으로 인정받아 IBM에 인수되다.

Aspera는 고속의 대용량 데이터 전송에 특화된 fasp 프로토콜을 이용한 데이터 전송 소프트웨어 전문회사로 얼마전에 IBM에 인수되기도 하였다. 특히 wan 환경 (국가대 구가)에서 탁월한 성능을 보여준다. EBI와 NCBI 모두 Aspra를 이용하여 데이터를 다운로드 할 수 있도록 하고 있으며, 사용자는 별도의 클라이언트 툴을 이용하면 된다. NCBI의 SRA 등 바이오 분야에서는 오래전부터 사용되었던 터라 거부감없이 사용할 수 있다.

필자는 EBI를 통해 동일한 3.8 GB의 trio 데이터를 다운로드 해본 결과 96 Mb/s의 속도로 5분안에 다운로드가 가능하다. @.@

리눅스 커맨드라인상에서 다운로드 명령예,
/root/.aspera/connect/bin/ascp -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/technical/pilot2_high_cov_GRCh37_bams/dat a/NA12878/alignment/NA12878.chrom21.ILLUMINA.bwa.CEU.high_coverage.20100311.bam ./ 
장점
생물학자들에게 널리 알려진 방법으로 1000 genome외에 NCBI의 데이터 등에 적용되어 있으며, 특히 해외구간에서 안정적으로 고속다운로드가 가능하다.
놀라운 전송속도에 반함.
총평

 

아마존 S3 - 분석 컴퓨팅까지 원한다면 최고의 솔루션

아마존에서는 자사의 클라우드 컴퓨팅의 스토리지 서비스인 S3에 1000 Genomes 데이터를 제공하고 있다. 위에서 살펴본바와 같이 S3용 클라이언트 툴을 이용하여 다운로드 할 수 있을 뿐만 아니라, 컴퓨터까지 아마존에서 사용한다면 같은 환경이기에 엄청난 속도로 다운로드 및 바로 마운트하여 사용이 가능하다. 마찬가지로 국내로 다운로드해본 결과 6 Mb/s의 속도로 83분이 소요되었다.

여기서 그럼 같은 아마존 서비스내의 EC2를 이용하여 서버를 생성한 후 다운로드를 수행해 보았다. 아마존의 m3.medium 인스턴스 (1 vCPUs, 3.75 GiB의 Moderate Network Performance)를 us-east-1a (버지니아) 지역에 생성하여 다운로드 한 결과 289 Mb/s의 속도로 105초 소요 되었다. 역시 S3의 1000 genomes 데이터는 같은 아마존 클라우드 내에서 사용할 때 그 진가를 발휘한다.



참고로 아마존의 경우 일찍이 유전체분야에 다양한 응용사례를 내놓고 있으며, 한글페이지 또한 존재하니 참고하기 바란다. 유전체학에서의 AWS활용(한글), 유전체학을 위한 서비스(한글), 1000 게놈 프로젝트와 AWS(한글)

리눅스 커맨드라인상에서 다운로드 명령예,
s3cmd get s3://1000genomes/technical/pilot2_high_cov_GRCh37_bams/data/NA12878/alignment/NA12878.chrom22.ILLUMINA.bwa.CEU.high_coverage.20100311.bam
장점
아마존의 클라우드 서비스들과 연동하여 사용하고자 하는 경우 최선의 선택일 수 있다.
단점
아마존이 아닌 곳으로 다운로드하거나 하는 경우 속도 이슈가 발생한다.
총평

 

FTP - 이것저것 설정하는 거 다 귀찮다

마지막으로는 ftp를 이용한 방법이다. 누구나 다 손쉽게 다운로드가 가능한 방법으로 EBI, NCBI 모두 ftp를 제공한다. 손쉬운 사용대신 느린 속도는 사용자의 몫

리눅스 커맨드라인상에서 다운로드 명령예,
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/pilot2_high_cov_GRCh37_bams/data/NA12878/alignment/NA12878.chrom22.ILLUMINA.bwa.CEU.high_coverage.20100311.bam
장점
대부분의 사용자에게 익숙하게 활용이 가능하며 평이한 수준의 속도는 장점이자 단점이다.
단점
평이한 수준의 속도
총평

 

그밖의 국내외 전송 솔루션

1000 genomes 데이터가 다양한 방법으로 access를 제공하고 있으나, 이밖에도 국내에서는 삼성SDS에서 개발한 고속전송솔루션 래피던트가 존재한다. 래피던드는 농진청의 NABIC에서 적용되어 SRA 데이터 다운로드 등에 사용되고 있다. 이외에도 UCSC의 The Cancer Genome Hub(CGub)에서는 TCGA의 데이터 다운로드에 GeneTorrent를 사용하고 있으며, 국내에서도 ETRI가 Cancer 데이터를 다운로드하는데 사용되었으며 국내로 다운로드 속도가 50 Mb/s 정도라고 한다.

물론 KT의 GenomeCloud에서는 g-Storage라는 서비스를 통해 gtp라는 프로토콜을 이용하여 고속의 전송과 데이터 sharing 기능을 제공하고 있으며 g-Storage는 디엔에이링크에서 고객의 데이터의 고속 전송에 사용되고 있다.

맺음말

지금까지 1000 genomes 프로젝트 데이터에 액세스하는 다양한 방법과 그외 다양한 고속전송솔루션에 대해서 알아보았다. 무엇보다도 유전체 연구에서의 데이터전송과 공유는 중요하며 이는 연구의 가장 기초가 되는 것이다. 안타까운것은 국내연구로 생산된 데이터는 제대로 공개된 것이 없는 것으로 아예 다운로드 기술에 대해서 언급할 수 조차 없다는 것이다.

아마존이나 Globus가 공익?을 위해 1000 genomes 데이터를 제공하는 것처럼 국내에서도 이런 사례가 있으면 한다. 그럼 여기서 왜 이 업체들이 1000 genomes 데이터를 무료로 제공할까?라는 것이다. 바로 이들 업체는 유전체 데이터를 분석할 수 있는 환경을 유료로 제공하고 있다는 것이다.

따라서 1000 genomes 데이터는 자사의 고객에 대한 서비스 차원 및 고객을 유치하기 위한 하나의 수단일 수 있다는 것이다. 두번째는 왜 한국에서는 업체들이 이러한 것을 하지 않느냐는 것이다. 첫째로 아마존이나 Globus와 같이 돈을 내고 유전체분석을 제공하는 업체는 거의 KT가 유일하다는 것과 그나마 고객들이 별로 없다는 것이다. @.@

200 TB의 데이터를 저장하고 제공(저장료+전송료)하는 것에 비해 업체가 얻는 이익은 마이너스라는 것이다. 따라서 국내에서 업체의 참여는 기대하지 않는게 좋을 것이다. 국내에서 이러한 데이터 미러링 서비스는 업체가 아닌 다부처 사업등의 국가 차원에서의 지원이 있어야 가능할 것이다. (근데 제공해도 국내에서 저 데이터를 활용하여 연구하는 사람이 몇이나 될까요? ㅋㅋㅋ)

그마나 올해부터 다부처 유전체 사업에 대해서 이러한 부분들에 대한 여러가지 사업이 진행중이니 연구자들이여 본격적인 연구를 위해 수련에 힘쓰기 바란다. 끝.

덧, 위에서 측정한 속도는 국내의 KT의 클라우드 컴퓨팅환경에서 다운로드한 결과이며, 최소2회이상 다운로드한 결과에 대한 평균입니다. 다운로드 속도는 다운로드하는 클라이언트의 환경에 따라 달라질 수 있습니다.

1000 genomes 3.8 GB 데이터를 국내에서 다운로드 하는 경우 속도 비교
   소요시간 전송속도 (Mb/s) 
 Globus Online 203분  2.4 Mb/s 
 Aspera 5분  96 Mb/s 
 아마존 S3 (국내)  83분 6 Mb/s 
 아마존 S3 (아마존내) 105초  289 Mb/s 
 ftp  30분 16 Mb/s 

반응형