유전자정보분석

1000 Genomes Project 데이터를 1초만에 사용하기

hongiiv 2013. 6. 21. 16:59
반응형
데이터를 사용하기 위한 컴퓨팅 리소스가 없다. 
즉 분석할 리눅스 서버가 없다거나 서버가 있더라도 디스크 공간이 부족하거나 바로 사용 가능하지 않은때가 있다. 이 문제는 클라우드를 활용하면 문제 없다. 물론 비용이 들어가지만 몇 달씩 진행되는 분석이 아니라 간단하게 사용한다면 비용적인 부담은 적다.

데이터를 사용하기 위해 준비하는데 시간이 너무 오래 걸린다.
간단하게 BWA로 매핑을 하거나 VCF 파일을 가지고 뭔가 확인 하려고 해도 레퍼런스 데이터 인덱싱해야 하고 프로그램 설치해야 하고 이것저것 셋팅하다보면 하루도 부족하다.

위의 두가지 문제를 어느 정도 해결하기 위한 방안을 내리도록 하겠다. 아마존에는 많은 프로젝트들이 돌아가고 있고 각각의 프로젝트들은 아마존을 손쉽게 사용하기 위해 다양한 데이터를 준비해 놓고 있는데 이걸 살짝 가져다가 쓰면 된다.

1000 Genomes Project 데이터 (약 2TB) 를 바로 마운트 하기
아마존의 public data sets에는 1KG 데이터를 S3로 제공하고 있는데, 자신의 리눅스 머신에 바로 1KG 데이터를 마운트 할 수가 있다. 다음의 링크에서 s3fs를 다운로드 한다. s3fs는 리눅스에서 아마존의 s3 스토리지를 로컬 디스크처럼 사용 가능하게 해주는 FUSE 기반의 어플리케이션이다. 

1) 아마존 홈페이지에 가서 S3 계정을 만든다.
2) s3fs를 다운로드하고 컴파일 인슬톨 한다.
# wget http://s3fs.googlecode.com/files/s3fs-1.71.tar.gz 
# tar xvfz s3fs-1.71.tar.gz
# cd s3fs-1.71 
# ./configure
# make
# make install
홈디렉토리에 .passwd-s3fs라는 파일을 만들고 아마존에서 발급한 access key와 secret key를 "accessKeyId:secretAccessKey" 형태로 넣는다.
# cd ~
# vi .ppasswd-s3fs
# chmod 600 ~/.passwd-s3fs
# mkdir -p /mnt/s3
# /usr/bin/s3fs 1000genomes /mnt/s3 -o use_cache=/tmp
# df -h

/mnt/s3에 1000 genomes 데이터가 마운트 된 것을 확인 할 수 있다. 마운트된 디렉토리를 확인하면 phase1 데이터가 고스란히 들어가 있으며 BAM 파일을 비롯하여 VCF 파일들을 바로 사용 가능하다.



다양한 레퍼런스 게놈 데이터를 한번에 확보하자.
이번에는 cloudbiolinux에서 제공하는 데이터로 BWA, bowite, novoalign 등 다양한 툴에서 바로 사용 가능한 인덱싱된 레퍼런스 데이터와  annotation, variants 파일들이 있다.

# mkdir -p /mnt/s3_bio
# /usr/bin/s3fs biodata /mnt/s3_bio -o use_cache=/tmp
# df -h

 
이것두 귀찮다구요? 그럼 KT의 GenomeCloud를 이용하면 모두 해결!!! 위의 내용은 통계유전학 워크샵의 생물학자를 위한 리눅스 시간에도 제공될 예정입니다.
반응형