빅데이터분석

Google의 게놈 데이터 분석 - Google Compute Engine

hongiiv 2012. 6. 30. 14:14
반응형
Amazon이 AWS를 통해서 IaaS를 제공하고 있는 상황에서 그동안 IaaS가 빠진 클라우드 서비스만 제공하던 Google 역시 이번 Google I/O 2012를 통해서 Google Compute Engine이라는 이름으로 IaaS 서비스를 내놓았다. Google은 사용자가 원했기 때문이라고 했고, 간단한 웹서버 호스팅을 위한 IaaS가 아닌( (단순 웹 호스팅은 Google  App Engine을 쓰면 되니까 ^^), batch processing, data processing, high performacne computing에 focusing된 IaaS 서비스이다.

그들이 Google I/O의 키노트를 통해 Compute Engine을 소개하면서 내놓은 demo가 바로 cancer genome 데이터 분석이었다. 시애틀에 위치한 Institute for Systems Biology (ISB)는 시스템생물학을 통해 P4 Medicine의 실현을 목표로 하고 있는 연구소로  구글은 ISB의 genomics research application을 리눅스 가상 머신을 기반으로하는 google compute engine 클라우드의 10,000 core를 사용하여 수행하였다.

ISB의 application은 이미 그들의 cluster computer에서 수행되는 application으로 비교적 적은 수고를 들여서 google compute engine에서 수행할 수 있었으며, ISB에서 보유하고 있는 컴퓨터를 사용하것에 비해서 단시간안에 암샘플간의 유전변이를 비교하는 작업을 수행할 수 있었다고 한다. 연구자는 이렇듯 분석 시간을 단축하여 좀 더 유연하고 신속하게 새로운 가설을 세우고 분석을 수행하고 연구결과를 내놓을 수 있게 된다. 


얼마전 AWS도 한국에 진출하면서 내놓은 것이 바로 서울대 유전체 연구소에서 그들의 서비스를 이용한다는 것이었다. 현재 시점에서 가장 뜨는 데이터가 바로 genome 데이터이고, 그것을 분석하는 것에 대한 해답은 바로 클라우드 컴퓨팅이라는 것은 이제 그 누구도 부인할 수 없다. 

자! 연구자분들 이제 클라우드도 배워야 합니다. python/linux/cloud 3종 셋트 ㅋ

추가> 저는 어떻게 클라우드를 사용하냐구요? 바로 KT의 ucloud를 이용합니다. 필요할 때 마다 아래처럼 몇십개의 리눅스 서버를 가동하고 분석에 사용합니다. 물론 필요한 소프트웨어는 자동으로 deploy되구요 ^^;; 다쓰면 반납하고 쓴 만큼 지불(?) - 전 돈 안내지만...ㅋ

지금도 시골 동네 커피숍에 앉아서 클라우드에 접속해서 지난 주에 걸어 놓은 작업을 모니터링하고 새로운 작업 돌리고 있죠....ㅎㅎㅎ 주말도 없네 -.-;; 




반응형