유전자정보분석

CTO 당신만 보세요 - 바이오인포매틱스와 Hadoop의 만남은 필연적

hongiiv 2011. 6. 2. 00:52
반응형
벌써 몇 년전부터 데이터 쓰나미라는 표현이 딱 들어 맞는 일들이 생명공학 분야에서 일어나고 있다. 그때마다 도마위에 올라오는 이야기는 바로 그리드, 클러스터, 슈퍼컴퓨터, 클라우드라는 단어들이었고 이러한 하드웨어와 맞물려서 MapReduce와 HDFS™의 기반의 Hadoop이 언급되었다. 아니 지금도 다들 바이오인포매틱스에는 하둡이 필요하다고 말하고 있다. 하지만 Hadoop은 하나의 플랫폼으로 이를 실무에서 사용하기에는 하드웨어 및 이에 따른 설정이 그리 쉽지만은 않은 상황이다.

요즘 누구나 다 바이오인포매틱스와 Genomics에 불을 켜고 마치 가로등에 나방들을 보고 있는 것 같은 상황에서 변변한 Hadoop 플랫폼 하나 제공하고 있지 못하는 국내의 현실을 보면 그저 안타까울 뿐이다. 특히나 의사결정을 하는 분들을 꼬시기?에는 아직은 시기상조인지 아니면 꼬드김의 내공이 부족한 것인지? 암튼 오늘은 그러한 꼬임에 도장을 찍어주는 기사를 하나 소개하려고 한다. 바로 CTO들에게 기술에 대한 정보를 제공하는 CTOvision.com이라는 곳에서 바로 Hadoop for Bioinformaitcs라는 기사를 실은 것이다. 이러한 기사 하나가 얼마나 큰 힘이 될지는 모르겠지만 말이다. (^.^;;)



바이오인포매틱스(Bioinformaics)
바이오인포매틱스는 통계와 분자 생물학 분석으로 부터 유래한 컴퓨터 과학 분야의 하나의 응용이라고 볼 수 있다. 근래에 바이오인포매틱스는 유전체 분석에 걸림돌들을 돌파하는데에 핵심적인 역활을 하고 있다. 요즘엔 광의의 바이오인포매틱스라는 정의는 온데간데 없고 바이오인포매틱스=컴퓨터를 이용한 유전체 분석이라는 등식을 통용화 시키고 있다. 이는 특히 다른 생물학 분야보다 현재 기술이나 연구의 성과들(가시적인 미래를 포함한)이 근시일안에 우리의 삶에 밀접한 영향을 줄 수 있기 때문일 것이다. 연구자들은 질병에 대응하거나 개개인에 맞는 맞춤 암 치료를 포함하는 많은 건강 관련 솔루션들에 대해서 연구하고 있으며, 또한 에너지 분야(해조류로 부터 연료 생산)식량생산(더 나은 품종 개량)과 같은 분야와 바이오인포매틱스가 크게 연관되어 있다.

바이오인포매틱스는 근시일안에 이러한 분야에 획기적인 업적을 남길 수 있을 분야임에는 분명하지만, 이러한 바이오인포매틱스의 발전은 엄청난 데이터를 저장하고 분석하는데에 있어 큰 어려움에 봉착해 있다. 바로 이러한 Big Data는 모든 분야의 과학자들의 도전 과제이다.

인간 유전체(Human Genome)
인간의 유전정보를 저장하고 있는 DNA는 30억개의 염기로 이루어져 있으며(언뜻 감이 오지 않는다면 잠자기전에 30억까지만 세어 보자. 1초에 숫자 하나를 센다고 가정한다면 한 사람이 30억까지 세는 데에는 무려 95년의 시간이 소요된다. 전세계 인구가 70억쯤 되는데 두 사람의 DNA의 염기 하나씩을 떼어서 전세계 인구에게 나누어 줄 수 있는 길이 이다), 약 6만개정도의 유전자를 가지고 있다. 바로 이러한 데이터를 한명이 아닌 현재로서는 몇 천명 단위의 연구(국내의 경우 아시안게놈프로젝트와 한국인게놈프로젝트를 통해 몇 백명 단위의 연구가 진행중)가 이루어지고 있으니 바이오인포매틱스 분야는 매우 크고 많은 계산을 필요로 하는 분야인 것이다.

바이오인포매틱스 연구자들은 기술 및 장비의 발달(Next Generation Sequencing 기술 및 Next Generation Sequencing 장비)을 통해 얻어진 데이터를 유용한 정보를 얻을 수 있도록 사용 가능한 정보로 가공하여 과학자들이 자신의 영역에서 사용할 수 있도록 제공하고 있다. 그러나 이러한 일련의 과정은 매우 더디게 진행되는데, 일반적으로 DNA Sequencing(30억 DNA를 알기 위해 생체내의 DNA를 우리가 읽을 수 있는 염기 A,T,G,C로 변환하는 작업) 연구실에서는 일주일에 100TB 이상의 데이터 생산이 가능하며 이러한 데이터를 처리하기 위한 유연한 컴퓨팅 파워나 알고리즘이 잘 구축되어 있지 않다.

인간 유전체와 Hadoop
인간이 지닌 6만개의 유전자가 어떠한 단백질을 만들어내며 그 역활을 규명하기 위해 Hadoop의 MapReduce를 통해 클라우드 상의 클러스터에 6만개에 해당하는 가능한 조합을 배분하고 연구자가 알고자 하는 하나의 질의를 던지게 되면 해당 질의에 최적의 해를 빠르게 얻을 수 있게 된다. Hadoop이 바이오인포매틱스에 적용은 2009년도 CloudBurst를 시작으로 이는 이미 알려진 Reference 게놈에 Next Generation Sequencing 데이터를 Mapping하는데 최적화된 병렬 Mapping 알고리즘이다. 이 알고리즘은 Hadoop을 통해 short read라는 짧은 염기 서열의 단편 조각들을 Reference에 Mapping하고 Reference와 다른 부분 즉 variation을 찾아내는데 사용된다. CloudBurst는 특히 클라우드 컴퓨팅을 통해 싼 가격에 컴퓨팅 리소스를 빌려 사용함으로써 단시간안에 빠른 분석을 수행할 수 있게 된다.

CloudBurst가 소개된 이후 바이오인포매틱스 분야에서 Hadoop은 각광을 받기 시작했고, Crossbow는 게놈 resequencing 파이프라인을 Hadoop 기반으로 수행하여 1000시간이나 걸리는 작업을 단지 몇 시간안에 수행하기에 이르렀다.

바로 이러한 Hadoop을 필요로하는 기업은 Cloudera라는 업체(이미 삼성은 바이오인포매틱스 분야에 Hadoop을 접목하기 위한 Cloudera의 고객)를 통해 Hadoop에 대한 교육, 기술지원, 어플리케이션을 제공하고 있으며, 바이오인포매틱스를 통해 더욱 성장할 것으로 기대된다.

Cloudera 홈페이지의 고객정보 중 삼성(Bioinformaitcs is a major new focus for Samsung)


바이오인포매틱스 분야의 Hadoop 전망
바이오인포매틱스 분야는 Hadoop의 비용이나 유용성 그리고 상대적(MPI 등과 비교해서)으로 편리한 사용으로 매우 효과적이다. 유전체 데이터의 생산이 급증과 연구자들의 더 많은 가설을 뒷받침하기 위한 알고리즘과 이를 테스트하는데에 발생하는 많은 제약들을 해결해주고 있다. 결국에Hadoop을 도입하고 활용함으로써 우리는 생물학과 우리의 건강에 대한 이해를 돕는데에 많은 기여를 할 것이다. 

반응형