computer system

Amazon AWS vs. KT ucloud biz (GenomeCloud)

hongiiv 2013. 3. 19. 22:05
반응형
클라우드는 만능도 아니며, 공짜도 아니다. 하지만 클라우드가 무엇이고 자신의 환경에 어떻게 적용해야 할지에 대해서 분명 고민해야 할 부분이다. 아래 그림은 Bioinformatics 영역에서 클라우드 컴퓨팅을 활용하기 위한 방법을 잘 보여주고 있다.

Prototyping 단계

대규모의 분석을 하기전에 우선 1대의 서버에 분석하고자하는 워크플로우를 작은 데이셋에 대해서 적용한다. 여기서는 NGS 데이터에 대해서 우선 2.2 MB의 read 파일을 가지고 진행하여 5시간에 끝냈다.

확장을 준비하는 Deveploing Sclable Application 단계
대규모 분석은 흔히 클러스터링을 통해 여러대의 서버를 동시에 사용한다. 이를 위해서 클러스터 관리 소프트웨어를 설치하고 1단계의  prototyping 단계에 비해 좀더 큰 데이터셋을 가지고 clustering이 잘 동작하는지 등을 확인한다.

마지막 Scaled Application 단계
이전 단계에서 차근차근 실제 대규모 데이터셋을 분석하기 위한 준비를 마쳤고, 이젠 실제 데이터셋을 가지고 확장 가능한 분석을 수행하는 단계입니다. 여기서는 Whole genome 데이터셋 (370 GB read files)에 대해서 총 38대의 서버를 이용하여 10시간 동안 분석을 수행하고 그 결과를 다운로드하는데까지 총 $320.10의 비용을 통해 분석을 완료할 수 있었다.

그런데 여기서 주의해서 보야야할 부분은 바로 이전 A, B의 실제 분석을 적용하기 전 단계에 대한 비용 부분이다. 각각 $3.85, $49.60 의 비용이 소요되었다. 무엇을 말하고 있는 것인가? 비단 클라우드뿐만 아니라 모든 분석에서는 이러한 일종의 테스트 단계를 거쳐 실제 분석시에 발생할 문제를 미연에 방지함으로써 시간과 비용을 절감할 수 있다는 것이고, 그것을 당연히 생각하고 있다는 것이다.

분석에 있어서 이러한 테스트에 대한 계획을 탄탄히 수립하고 만일 이단계에서 문제가 발생한다면 바로 실제 분석에 대한 시나리오를 수정해야 할 것이다.  헌데 대부분의 연구자들이 로컬컴퓨팅이 아닌 즉 익숙하지 않은 클라우드를 사용함에 있어서 이러한 계획도 없고 무조건 나 테스트 할테니 무료로 클라우드를 쓰겠소! 그러고는 테스트만 주구장창 해대고 있다. 물론 계속 돌린다면야 문제가 없겠지만, 무계획으로 시작했으니 그저 시간나거나 생각날때 가끔 접속하는 사람이 종종있으니... 이거 다 돈이란 말이지 땅파서 장사하는거 아니란 말이다.

아래 그림에서 굳이 A, B 단계를 설명하고 그 비용까지 기술하고 있는지는 외국에서는 클라우드를 사용함에 있어서 테스트도 당연히 지불해야하는 비용으로 생각하고 있다는 것을 말하고 있는 것이다. 이는 비단 클라우드를 사용함에 있어서의 문제라기 보다는 분석에 무턱대고 임하는 국내 연구자들은 곰곰히 자신을 돌아보아야 하지 않을까라는 생각을 해본다. 저 논문을 보고 아~~~ 아마존은 $320 에 분석할 수 있는데,,, 너네는??? 그런거 물어보기전 너님 저 논문이 이야기하게 그게 아니라는거 다시 한번 생각해 보기 바란다.

클라우드에서 whole genome 잘 돌아가는지 테스트해보겠소! 18 잘 돌아간다. 그리고 테스트할때에는 whole genome을 다돌리는게 아냐!!! 똥인지 된장인지 다 먹어보는 놈이 어디있냐!! 아래 보듯이 적어도 10시간이면 다끝나거덩 (얼마전 30억 정도 펀드를 얻은 미국의 어느 업체는 아마존 클라우드 이용해서 whole genome을 2~4시간에도 끝내거덩),,, 글고 아마존보다 KT 클라우드가 새로산 하드웨어라 성능도 더 잘나오거덩.. 물론 이런저런 부가 서비스는 약해 ,,, 약해도 너무~~~약해. 암튼 다음번 포스팅에서 실제 아마존 AWS와 KT의 클라우드의 성능과 비용을 아주 주관적으로 분석해 보는 시간을 혼자 갖도록 하겠다...ㅋ

Fusaro VA, Patil P, Gafni E, Wall DP, Tonellato PJ (2011) Biomedical Cloud Computing With Amazon Web Services. PLoS Comput Biol 7(8): e1002147. doi:10.1371/journal.pcbi.1002147 
반응형