hadoop
-
Bioinformatics를 위한 Hadoopblogging 2009. 10. 26. 15:36
Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요. 1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다. 직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다. 5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다. 9..
-
Cloud Based Bioinformatics 공공에서 해야하는건가?blogging 2009. 1. 14. 01:16
일전에 'Big Data 어제 오늘 이야기는 아니지만'이라는 글에서 네이처에 나온 대용량 데이터에 대한 글을 소개한적이 있다. 이번에는 'Data for the masses'라는 글이 올라왔다. 아마존에서는 이미 공공의 거대 데이터(생물학, 화학 등)를 아마존 웹서비스를 통해 사용할 수 있도록 해주고 있다. 이러한것이 공공에서 이루어져야 하는지 아마존과 같은 회사에서 이루어져야 하는것인지 한번 생각해 보게 하는 글이다. 이제 어렵게 GeneBank를 돌아다닐 필요없이 필요한 양 만큼의 스토리지와 컴퓨팅 파워를 아마존에서 구입한 후 바로 GeneBank 데이터를 Hadoop을 이용해서 ^^;; 점점 Cloud Based Bioinformatics가 - 트위터에서 이 주제로 발표한 내용이 있다고 들었는데,,..
-
Landscape of Parallel computing Researchblogging 2008. 11. 4. 23:28
13 난쟁이 Berkeley에서 발표한 The Landscape of Parallel Computing Research: A View from Berkeley를 보면 난쟁이(Dwarf)라는 개념을 이용해서 병렬 컴퓨팅 환경에서 어플리케이션들을 집합을 가지고 통신 및 전산 공통 패턴에 대해서 정리하고 있다. 핵심적인 것은 17p~19p에 걸쳐서 총 13개의 Dwarfs와 각각의 Dwarfs들이 Embedded Computing, General Purpose Computing, Machine Learning, Graphics/Games/Databases에서 어떠한 형태로 발현? 되는지를 요약하고 있다. 또한 2008년도 자신의 연구에 대한 문서를 보면 각 Dwarfs(Motif라는 표현)와 컴퓨팅분야, 자신..
-
Big Data 어제 오늘 이야기는 아니지만Bioblogs 2008. 9. 4. 19:14
The current issue of Nature has a special issue on big data which is full of stuff that might be of interest: http://www.nature.com/nature/journal/v455/n7209/ In particular: Big data: The future of biocuration: "To thrive, the field that links biologists and their data urgently needs structure, recognition and support." http://www.nature.com/nature/journal/v455/n7209/full/455047a.html 한번 읽어봐야지 ^..
-
Hadoop Community 2차 모임blogging 2008. 8. 27. 13:30
Google Groups의 hadoop community에 2차 모임 공지가 있었습니다. 일자는 바로 오늘이구요(Hadoop에 관심 있으신 분들은 가입해 보세요 ^^). 오늘 모임은 아무래도 MapReduce를 이용한 ML 알고리즘의 구현에 대한 내용이 솔깃합니다. 한박사님께서도 세미나와 1차 모임때도 ML에 대한 언급을 하셨는데, 오늘은 아예 ML에 대해서만 ^^ Apache에도 Apache Mahout이 있습니다만, 암튼 기대가 되는군요. 요즘 집단 지성 프로그래밍에서도 알 수 있듯이(IT 분야나 생물정보학 등 많은 분야에서 ML이 이미 오래전부터 사용되기는 했지만) 좀 더 사람들에게 친숙해져 가고 있는 느낌입니다. ^^ 늦었지만 1차 모임때 사진 ^^ 두번째 Hadoop Community 모임을 개..
-
Apache Log 분석을 위한 Hadoop MapReduceblogging 2008. 6. 17. 15:57
저번주는 MapReduce를 Streaming 방식으로 작성된것을 실행해 보았따. Writing An Hadoop MapReduce Program In Python을 보면 WordCount 예제가 Python으로 작성되어 있다. 또 URL을 통해 해당 URL을 제목을 가져오는 Python 예제도 있다. 그런데,, 하나의 노드로 마스터와 네임노드를 구성해서 할 경우에는 잘 되었는데,, 막상 15노드로 Hadoop 클러스터를 구성하고 실행을 하는데,, Map 작업의 결과는 잘 나오는데 Reduce에서 결과 레코드가 모두 0 즉, 결과가 없다. 뭐가 잘못되었는 전혀 감이 오지 않아서Streaming을 포기하고 결국 Java로 하기로 했다. 그래서 오늘은 깔끔하게 Streaming을 잊고,,, 저번에 잠깐 살펴..
-
뭔가 눈에 보이는 예제가 필요해~~blogging 2008. 6. 4. 18:36
그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..