티스토리 뷰
반응형
현재 과학과뿐만 아니라 타 분야 특히 통신분야를 포함한 다양한 분야에서의 관심사 중의 하나는 Big Data이다. 이러한 Big Data는 더이상 연구소에 보유한 컴퓨팅의 한계를 뛰어넘는 (당신이 Broad나 Sanger에서 연구를 하지 않는 이상...) 그래서 요즘 화두는 이러한 Big Data를 다루는데에 있어서 Cloud 컴퓨팅은 그 대안으로 떠오르고 있으며, Cloud의 활용 분야에 대한 기사를 보더라도 호스팅 서비스가 16% 정도임에 비해 HPC (High Performance Computing)가 27%로 나타나고 있다.
실제로 외국에서는 Bioinformatics 분석 회사들이 자신들의 솔루션을 Amazon AWS를 이용해서 제공하는 형태로 서비스를 내놓고 있다. 이런 상황에서 단연 두각을 나타내고 있는 회사로는 Cycle Computing이라는 회사로 Amazon AWS를 활용한 거대 cluster 구축 노하우를 기반으로 HPC를 이용하고자 하는 많은 연구소나 대학을 대상으로 서비스를 제공하고 있다. PacBio는 자사의 NGS 분석 솔루션인 SMART를 Cycle Computing을 통해서 제공하는 등 Cloud인프라를 제공하는 Amazon과 Cloud에 대한 별다른 지식(관심)이 없는 연구자들 사이의 빈틈을 공략하고 있다.
내가 원하는 시간에 비용만 지불하면 원하는 만큼의 컴퓨팅자원(CPU+Storage)을 손쉽게 할당 받고 연구자가 사용하고자 하는 솔루션(Blast, NGS Mapping Tools 등등)을 사용 가능하게 된 것이다. 이로서 연구자들은 자신의 아이디어와 데이터만 있으면 아무리 큰 데이터를 가지고 있더라도 컴퓨팅에 대한 부담없이 연구가 가능하게 된 것이다. 아마도 이제 연구비 목록에 "Cloud 컴퓨팅 사용료" 항목이 기본적으로 들어가는 날이 올것이다. 더 나아가 연구소에 연구를 위해 고성능의 컴퓨터를 구매해야 한다고 올렸다가는 비웃음 거리가 되는 날이 올지도 모르겠다.
NGS 데이터 분석의 경우 단순히 1-2개의 분석 툴을 Cloud로 제공하는 형태에서 더 나아가 NGS를 위한 분석을 위한 Pipeline과 데이터 저장 솔루션을 Cloud 기반에서 제공하는 업체들도 속속 생겨나고 있는데, 대표적으로 얼마전 Google의 투자를 받은 DNAnexus가 있다. DNAnexus는 Google의 Cloud Storage를 기반으로 SRA 데이터베이스까지 제공하고 있는데, 연구자들은 자신의 데이터 뿐만 아니라 SRA 데이터를 DNAneuxs 솔루션으로 import해서 분석할 수 있도록 해주고 있다. 국내에서는 BMS를 통해서 DNAnexus 서비스를 사용할 수 있는데, 30X의 Human Genome(약 120 gb)을 기준으로 500만원 정도의 분석 비용이 소요된다. 이 비용에는 1년 동안의 데이터 저장 및 Mapping을 제외한 여타 분석(SNP Calling, Genome Browser를 통한 데이터 확인 등) 비용이 포함되어 있다.
DNAnexus의 서비스에서 주목해야 할 부분은 NGS 데이터를 통해 CNV를 발굴하거나 정상세포와 암세포와 같이 두개의 Genome을 비교하는 툴들이 포함되어 단순히 mapping과 SNP calling외의 다양한 분석이 가능하다는 것이다. 또한 이러한 분석은 공동연구자들간의 데이터 및 분석 내용을 share하는 기능까지 제공하고 있다. 이러한 DNAnexus의 솔루션은 철저하게 Amazon AWS를 기반으로 작성되어 있기 때문에 DNAneuxs는 서비스를 위한 하드웨어의 구입이나 유지보수에 전혀 신경 쓸 필요가 없다.
이제 Genome은 단순히 Genome 연구자들만이 사용하는 데이터가 아닌 타 Bio분야에서도 기본적으로 다루어지는 데이터로 점차 그 사용이 확대되고 있으며, 요즘에는 실제 임상에서 활용하기 위한 다양한 시도(EMR과의 통합 등) 또한 이루어지고 있다. 이제 더 이상 Cloud는 뜬 구름이 아닌 당신의 연구에 깊숙히 자리 잡을 즉, Excel과 같은 존재가 될 날이 머지 않았다고 감히 말하고 싶다. 지금부터라도 차근차근 Cloud의 개념이나 그 usage에 관심을 기울여 두면 많은 도움이 될 것이다.
Cloud Computing USE CASES
실제로 외국에서는 Bioinformatics 분석 회사들이 자신들의 솔루션을 Amazon AWS를 이용해서 제공하는 형태로 서비스를 내놓고 있다. 이런 상황에서 단연 두각을 나타내고 있는 회사로는 Cycle Computing이라는 회사로 Amazon AWS를 활용한 거대 cluster 구축 노하우를 기반으로 HPC를 이용하고자 하는 많은 연구소나 대학을 대상으로 서비스를 제공하고 있다. PacBio는 자사의 NGS 분석 솔루션인 SMART를 Cycle Computing을 통해서 제공하는 등 Cloud인프라를 제공하는 Amazon과 Cloud에 대한 별다른 지식(관심)이 없는 연구자들 사이의 빈틈을 공략하고 있다.
Cycle Computing에서 제공하는 Bioinformatics Application
내가 원하는 시간에 비용만 지불하면 원하는 만큼의 컴퓨팅자원(CPU+Storage)을 손쉽게 할당 받고 연구자가 사용하고자 하는 솔루션(Blast, NGS Mapping Tools 등등)을 사용 가능하게 된 것이다. 이로서 연구자들은 자신의 아이디어와 데이터만 있으면 아무리 큰 데이터를 가지고 있더라도 컴퓨팅에 대한 부담없이 연구가 가능하게 된 것이다. 아마도 이제 연구비 목록에 "Cloud 컴퓨팅 사용료" 항목이 기본적으로 들어가는 날이 올것이다. 더 나아가 연구소에 연구를 위해 고성능의 컴퓨터를 구매해야 한다고 올렸다가는 비웃음 거리가 되는 날이 올지도 모르겠다.
NGS 데이터 분석의 경우 단순히 1-2개의 분석 툴을 Cloud로 제공하는 형태에서 더 나아가 NGS를 위한 분석을 위한 Pipeline과 데이터 저장 솔루션을 Cloud 기반에서 제공하는 업체들도 속속 생겨나고 있는데, 대표적으로 얼마전 Google의 투자를 받은 DNAnexus가 있다. DNAnexus는 Google의 Cloud Storage를 기반으로 SRA 데이터베이스까지 제공하고 있는데, 연구자들은 자신의 데이터 뿐만 아니라 SRA 데이터를 DNAneuxs 솔루션으로 import해서 분석할 수 있도록 해주고 있다. 국내에서는 BMS를 통해서 DNAnexus 서비스를 사용할 수 있는데, 30X의 Human Genome(약 120 gb)을 기준으로 500만원 정도의 분석 비용이 소요된다. 이 비용에는 1년 동안의 데이터 저장 및 Mapping을 제외한 여타 분석(SNP Calling, Genome Browser를 통한 데이터 확인 등) 비용이 포함되어 있다.
DNAnexus의 SRA에서 "GMI"로 검색한 결과
DNAnexus의 서비스에서 주목해야 할 부분은 NGS 데이터를 통해 CNV를 발굴하거나 정상세포와 암세포와 같이 두개의 Genome을 비교하는 툴들이 포함되어 단순히 mapping과 SNP calling외의 다양한 분석이 가능하다는 것이다. 또한 이러한 분석은 공동연구자들간의 데이터 및 분석 내용을 share하는 기능까지 제공하고 있다. 이러한 DNAnexus의 솔루션은 철저하게 Amazon AWS를 기반으로 작성되어 있기 때문에 DNAneuxs는 서비스를 위한 하드웨어의 구입이나 유지보수에 전혀 신경 쓸 필요가 없다.
SRA의 FASTQ는 바로 DNAnexus 서비스로 Import한 후 분석 가능
이제 Genome은 단순히 Genome 연구자들만이 사용하는 데이터가 아닌 타 Bio분야에서도 기본적으로 다루어지는 데이터로 점차 그 사용이 확대되고 있으며, 요즘에는 실제 임상에서 활용하기 위한 다양한 시도(EMR과의 통합 등) 또한 이루어지고 있다. 이제 더 이상 Cloud는 뜬 구름이 아닌 당신의 연구에 깊숙히 자리 잡을 즉, Excel과 같은 존재가 될 날이 머지 않았다고 감히 말하고 싶다. 지금부터라도 차근차근 Cloud의 개념이나 그 usage에 관심을 기울여 두면 많은 도움이 될 것이다.
반응형
공지사항
최근에 올라온 글