hadoop 14

PlatformDay 컨퍼런스

구글이 어떻게 수많은 데이터를 저장하고 처리하는지, 과연 이것을 어떻게 생물학의 데이터 처리에 활용할지에 대한 힌트를 얻고자 한다면 여기 PlatformDay 컨퍼런스에서 찾을실 수 있을겁니다. 솔직히 말씀드리면 당장은 자신이 하고 있는 연구에 적용해서 능수능란하게 사용하실 여건은 되지 않을것이지만, 충분한 아이디어는 얻을 수 있을것입니다. PlatformDay (출처 : NEXR 블로그) 다양하고 방대한 생물학 데이터를 여러가지 기계학습(machine learning) 기법을 통해 어떻게 처리해야 하는지에 대해 집단지성 프로그래밍 책을 통해 학습하고, 대량의 데이터의 기계학습을 위한 대용량저장/처리 방법을 PlatformDay에서 아이디어를 얻는다면 참 좋을것 같습니다.(말이 참 매끄럽지 않네,,,^^..

Bioblogs 2008.04.28

대용량 컴퓨팅 환경과 Genome Browser

바로 이전 글에서 대용량 컴퓨팅 즉 클러스터 컴퓨팅환경을 Yaohoo와 Google에서 연구자들에게 제공한다고 했었다. 대용량 컴퓨팅환경, 좀 더 세분화한다면 여러대의 컴퓨터를 묶어서 사용하는 클러스터 환경과 Bioinformatics 연구를 한번 짚고 넘어가 보려고 한다. 클러스터 컴퓨팅환경을 사용하는 가장 일반적인 예는 바로 처리하고자 하는 일을 나누어서 하는 것이 가장 손쉬운 클러스터 컴퓨터를 이용하는 방법이다. 24개의 chromosome에 대응하는 어떠한 데이터가 있다고 가정할 때 한 대의 컴퓨터로 24개의 chromosome 데이터를 처리할때에 24시간의 시간이 걸린다고 한다면 24대의 컴퓨터에 이러한 작업(job)을 분배한다면 1시간에 끝마칠 수 있다. 바로 linear하게 속도를 향상 시킬..

Bioblogs 2008.02.26

Bioinformatics 연구자를 위한 컴퓨팅 환경 제공

이전에 국내 바이오인포매틱스 관련 오픈소스 현황이라는 주제의 글에서 대용량 데이터 분석 환경 지원 부분에서 연구를 위해서 단순하게 슈퍼컴퓨터나 cluster 컴퓨터의 기본적인 환경만을 제공하는 것이 아니라 이러한 환경에 + 유틸리티를 덧붙여 제공해야 한다고 언급했었습니다. 그 일례로 Yahoo에서는 학교나 일반 기업에서 구비하기 힘든 Hadoop기반의 클러스터 컴퓨팅 자원에 대해서 학술 연구 목적으로 지원을 하고 있다고 했었죠. 슈퍼컴퓨팅 자원 + 이를 좀더 유연하게 활용할 수 있는 utility(야후에서는 Hadoop) Google의 official 블로그에서도 Supporting cluster computing in the research community이라는 글이 올라왔습니다. 역시나 Google..

Bioblogs 2008.02.26 (4)

PlatformDay를 기억하시나요? 그럼 Web2Hub는??

올해초 블로고스피어를 뜨겁게(?) 달군 행사가 하나 있었다. PlatformDay라는 이름의 행사였는데, 구글 플랫폼에 대한 내용과 이를 오픈소스로 구현한 Hadoop에 대한 행사였다. 참석하진 못하고 블로그와 관련기사를 통해 행사에 대한 내용을 접할 수 있었다. 생각보다 많은 분들이 관심을 가지고 참여했다는 소리를 들었던 기억이 있었다. 나도 뒤늦게나마 Web2Hub 사이트를 들락날락 거리면서 한동안 주의 깊게 살펴보던 기억이 났다. 그러다 이런저런일에 치이면서 기억의 저편으로 사라질 무렵... 오늘 금요일 집에 내려가려고 서울역에서 대전으로 가는 KTX에 몸을 실었다. 회사를 끝내고 저녁도 먹고 마침 읽을 책들(공상과학SF소설과 전생에 관한 소설^^)을 사느라 좀 늦은 시간이었다. 창가쪽이 아니라 먼..

blogging 2007.09.08