본문 바로가기

hadoop14

Bioinformatics를 위한 Hadoop Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요. 1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다. 직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다. 5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다. 9.. 2009. 10. 26.
Cloud Based Bioinformatics 공공에서 해야하는건가? 일전에 'Big Data 어제 오늘 이야기는 아니지만'이라는 글에서 네이처에 나온 대용량 데이터에 대한 글을 소개한적이 있다. 이번에는 'Data for the masses'라는 글이 올라왔다. 아마존에서는 이미 공공의 거대 데이터(생물학, 화학 등)를 아마존 웹서비스를 통해 사용할 수 있도록 해주고 있다. 이러한것이 공공에서 이루어져야 하는지 아마존과 같은 회사에서 이루어져야 하는것인지 한번 생각해 보게 하는 글이다. 이제 어렵게 GeneBank를 돌아다닐 필요없이 필요한 양 만큼의 스토리지와 컴퓨팅 파워를 아마존에서 구입한 후 바로 GeneBank 데이터를 Hadoop을 이용해서 ^^;; 점점 Cloud Based Bioinformatics가 - 트위터에서 이 주제로 발표한 내용이 있다고 들었는데,,.. 2009. 1. 14.
Hadoop Tutorial Workshop 안내 아시는 분들은 이미 다들 아시겠지만, 튜토리얼 워크샵입니다. Hadoop 설치 트랙과 MapReudce 프로그래밍 트랙으로 나뉘어져 진행됩니다. 28일 금요일이고 아직 시간과 참여인원제한이 남아있으니 참고 하세요 ^^;; 2008. 11. 25.
Landscape of Parallel computing Research 13 난쟁이 Berkeley에서 발표한 The Landscape of Parallel Computing Research: A View from Berkeley를 보면 난쟁이(Dwarf)라는 개념을 이용해서 병렬 컴퓨팅 환경에서 어플리케이션들을 집합을 가지고 통신 및 전산 공통 패턴에 대해서 정리하고 있다. 핵심적인 것은 17p~19p에 걸쳐서 총 13개의 Dwarfs와 각각의 Dwarfs들이 Embedded Computing, General Purpose Computing, Machine Learning, Graphics/Games/Databases에서 어떠한 형태로 발현? 되는지를 요약하고 있다. 또한 2008년도 자신의 연구에 대한 문서를 보면 각 Dwarfs(Motif라는 표현)와 컴퓨팅분야, 자신.. 2008. 11. 4.