Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요. 1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다. 직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다. 5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다. 9..
일전에 'Big Data 어제 오늘 이야기는 아니지만'이라는 글에서 네이처에 나온 대용량 데이터에 대한 글을 소개한적이 있다. 이번에는 'Data for the masses'라는 글이 올라왔다. 아마존에서는 이미 공공의 거대 데이터(생물학, 화학 등)를 아마존 웹서비스를 통해 사용할 수 있도록 해주고 있다. 이러한것이 공공에서 이루어져야 하는지 아마존과 같은 회사에서 이루어져야 하는것인지 한번 생각해 보게 하는 글이다. 이제 어렵게 GeneBank를 돌아다닐 필요없이 필요한 양 만큼의 스토리지와 컴퓨팅 파워를 아마존에서 구입한 후 바로 GeneBank 데이터를 Hadoop을 이용해서 ^^;; 점점 Cloud Based Bioinformatics가 - 트위터에서 이 주제로 발표한 내용이 있다고 들었는데,,..
13 난쟁이 Berkeley에서 발표한 The Landscape of Parallel Computing Research: A View from Berkeley를 보면 난쟁이(Dwarf)라는 개념을 이용해서 병렬 컴퓨팅 환경에서 어플리케이션들을 집합을 가지고 통신 및 전산 공통 패턴에 대해서 정리하고 있다. 핵심적인 것은 17p~19p에 걸쳐서 총 13개의 Dwarfs와 각각의 Dwarfs들이 Embedded Computing, General Purpose Computing, Machine Learning, Graphics/Games/Databases에서 어떠한 형태로 발현? 되는지를 요약하고 있다. 또한 2008년도 자신의 연구에 대한 문서를 보면 각 Dwarfs(Motif라는 표현)와 컴퓨팅분야, 자신..
The current issue of Nature has a special issue on big data which is full of stuff that might be of interest: http://www.nature.com/nature/journal/v455/n7209/ In particular: Big data: The future of biocuration: "To thrive, the field that links biologists and their data urgently needs structure, recognition and support." http://www.nature.com/nature/journal/v455/n7209/full/455047a.html 한번 읽어봐야지 ^..
Google Groups의 hadoop community에 2차 모임 공지가 있었습니다. 일자는 바로 오늘이구요(Hadoop에 관심 있으신 분들은 가입해 보세요 ^^). 오늘 모임은 아무래도 MapReduce를 이용한 ML 알고리즘의 구현에 대한 내용이 솔깃합니다. 한박사님께서도 세미나와 1차 모임때도 ML에 대한 언급을 하셨는데, 오늘은 아예 ML에 대해서만 ^^ Apache에도 Apache Mahout이 있습니다만, 암튼 기대가 되는군요. 요즘 집단 지성 프로그래밍에서도 알 수 있듯이(IT 분야나 생물정보학 등 많은 분야에서 ML이 이미 오래전부터 사용되기는 했지만) 좀 더 사람들에게 친숙해져 가고 있는 느낌입니다. ^^ 늦었지만 1차 모임때 사진 ^^ 두번째 Hadoop Community 모임을 개..