빅데이터분석

구글 지노믹스를 이용한 Picard와 GATK

hongiiv 2014. 12. 17. 15:31
반응형

이미 여러번 소개 했듯이 구글은 구글 지노믹스라는 서비스를 통해 유전체 데이터를 저장하고 분석할 수 있는 환경을 제공하고 있습니다.최근에는 우리가 흔히 사용하는  Picard나 GATK에서도 구글 지노믹스 서비스를 사용하는 방법을 내놓았습니다. 원리는 간단합니다. 구글 지노믹스 서비스에 저장된  SAM/BAM  파일을 Picard의 INPUT으로 지정할 수 있는 간단한 wrapper를 만든것입니다.


구글 지노믹스의 git 페이지에 gatk-tools-java라는 이름으로 "Tools for using Picard and GATK with Genomics API"라고 설명되어 있습니다. 아래와 같이 INPUT을 구글지노믹스 서비스의 SAM 파일을 지정해주면 wrapper는 Picard는 해당 INPUT을 STDIN으로 처리해도록 해주게 됩니다.


이렇게 된다면 이제는 굳이 로컬에 파일이 없더라도 기존의 알고리즘이나 툴들을 손쉽게 사용할 수 있게 된다는 장점이 있습니다. 물론 로컬이 아닌 네트워크를 통해 가져오는 것이기 때문에 구글 서비스와의 연결이 중요한데 몇번 테스트 해보니 자꾸 소켓 타임 아웃이나 기타 뭐 자잘한 에러가 발생하긴 합니다만, 구글 컴퓨트엔진을 이용한다면 이러한 에러는 없어지지 않을까 합니다. 이제 클라우드 환경에서 유전체 데이터를 다루는데 있어서 이러한 흐름이 현재 시점에서 쓸만한가에 대한 벤치마크를 해볼 예정입니다. 기대해 주시기 바랍니다.

java -cp .:gatk-tools-java-1.0.jar:genomics-tools-client-java-v1beta2.jar:htsjdk-1.121.jar com/google/cloud/genomics/gatk/picard/runner/GA4GHPicardRunner --client_secrets_filename=client_secrets.json -path=~/picard-tools-1.127 -tool=picard.jar ValidateSamFile INPUT=ga4gh://www.googleapis.com/genomics/v1beta2/readgroupsets/CMvnhpKTFhD04eLE-q2yxnU/1/

암튼 제 생각에는 이제부터 나오는 NGS 관련 툴들은 모두 input으로 받는 파일이 로컬과 구글지노믹스를 둘다 지원하는 형태로 나올 것 같다는 생각이 듭니다. 뭐 정확하게 말하자면 구글지노믹스를 지원하는 것이 표준인  GA4GH의 URL을 지원하게 되는 것이니 이 표준만 지원하도록 만들어 놓으면 구글이 되었던 어디가 되었던 다 가능하게 되는 겁니다. GA4GH 표준에 대해서는 유전체학회 소식지의 "대용량 유전체 데이터 표준화 최신동향"을 참고하시기 바랍니다.


참, 구글 애드센스를 블로그에 장착?했습니다. 많이 클릭해 주시면 뭐 좋지 않을까요? ㅇㅎㅎ

반응형