hadoop 14

Bioinformatics를 위한 Hadoop

Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요. 1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다. 직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다. 5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다. 9..

blogging 2009.10.26

Cloud Based Bioinformatics 공공에서 해야하는건가?

일전에 'Big Data 어제 오늘 이야기는 아니지만'이라는 글에서 네이처에 나온 대용량 데이터에 대한 글을 소개한적이 있다. 이번에는 'Data for the masses'라는 글이 올라왔다. 아마존에서는 이미 공공의 거대 데이터(생물학, 화학 등)를 아마존 웹서비스를 통해 사용할 수 있도록 해주고 있다. 이러한것이 공공에서 이루어져야 하는지 아마존과 같은 회사에서 이루어져야 하는것인지 한번 생각해 보게 하는 글이다. 이제 어렵게 GeneBank를 돌아다닐 필요없이 필요한 양 만큼의 스토리지와 컴퓨팅 파워를 아마존에서 구입한 후 바로 GeneBank 데이터를 Hadoop을 이용해서 ^^;; 점점 Cloud Based Bioinformatics가 - 트위터에서 이 주제로 발표한 내용이 있다고 들었는데,,..

blogging 2009.01.14

Landscape of Parallel computing Research

13 난쟁이 Berkeley에서 발표한 The Landscape of Parallel Computing Research: A View from Berkeley를 보면 난쟁이(Dwarf)라는 개념을 이용해서 병렬 컴퓨팅 환경에서 어플리케이션들을 집합을 가지고 통신 및 전산 공통 패턴에 대해서 정리하고 있다. 핵심적인 것은 17p~19p에 걸쳐서 총 13개의 Dwarfs와 각각의 Dwarfs들이 Embedded Computing, General Purpose Computing, Machine Learning, Graphics/Games/Databases에서 어떠한 형태로 발현? 되는지를 요약하고 있다. 또한 2008년도 자신의 연구에 대한 문서를 보면 각 Dwarfs(Motif라는 표현)와 컴퓨팅분야, 자신..

blogging 2008.11.04

Hadoop Community 2차 모임

Google Groups의 hadoop community에 2차 모임 공지가 있었습니다. 일자는 바로 오늘이구요(Hadoop에 관심 있으신 분들은 가입해 보세요 ^^). 오늘 모임은 아무래도 MapReduce를 이용한 ML 알고리즘의 구현에 대한 내용이 솔깃합니다. 한박사님께서도 세미나와 1차 모임때도 ML에 대한 언급을 하셨는데, 오늘은 아예 ML에 대해서만 ^^ Apache에도 Apache Mahout이 있습니다만, 암튼 기대가 되는군요. 요즘 집단 지성 프로그래밍에서도 알 수 있듯이(IT 분야나 생물정보학 등 많은 분야에서 ML이 이미 오래전부터 사용되기는 했지만) 좀 더 사람들에게 친숙해져 가고 있는 느낌입니다. ^^ 늦었지만 1차 모임때 사진 ^^ 두번째 Hadoop Community 모임을 개..

blogging 2008.08.27

Apache Log 분석을 위한 Hadoop MapReduce

저번주는 MapReduce를 Streaming 방식으로 작성된것을 실행해 보았따. Writing An Hadoop MapReduce Program In Python을 보면 WordCount 예제가 Python으로 작성되어 있다. 또 URL을 통해 해당 URL을 제목을 가져오는 Python 예제도 있다. 그런데,, 하나의 노드로 마스터와 네임노드를 구성해서 할 경우에는 잘 되었는데,, 막상 15노드로 Hadoop 클러스터를 구성하고 실행을 하는데,, Map 작업의 결과는 잘 나오는데 Reduce에서 결과 레코드가 모두 0 즉, 결과가 없다. 뭐가 잘못되었는 전혀 감이 오지 않아서Streaming을 포기하고 결국 Java로 하기로 했다. 그래서 오늘은 깔끔하게 Streaming을 잊고,,, 저번에 잠깐 살펴..

blogging 2008.06.17

뭔가 눈에 보이는 예제가 필요해~~

그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..

blogging 2008.06.04

Platformday를 다녀와서는 이러고 있네요 ^^

어제 오늘 Hadoop Cluster를 설정을 하고는 MapReduce 예제들을 돌려보고 있다.(jetty 웹서버가 인터넷에 연결이 되지 않으면 뭔 j2ee 네임스페이스를 찾을 수 없다고 에러를 내는 바람에 이거 찾느라고 어제 하루는 다 보내 버렸다.) 우선 RandomWriter를 통해서 30GB의 입력데이터로 사용할 데이터를 생성했다. 1GB씩 총 30개가 생성되었다. RandomWriter를 통해 생성된 데이터 총 1538초 약 26분정도의 시간이 소요되었다.(테스트는 총 3대의 DataNode에서 수행,,) 이 입력데이터를 가지고 역시 예제 Sort를 수행하였다. 처음에는 Map과 Reduce의 갯수를 지정하지 않고 다음과 같이 기본 명령만을 주고 수행하였다. $ bin/haddop jar had..

blogging 2008.06.04

Hadoop 돌려보기

Map-Reduce나 HDFS를 지금하는 일들에 잘 써먹으면 좋을것 같다는 생각은 이전부터 가지고 있었지만, 나 혼자서 사용해서는 그 효과를 충분히 발휘 할 수 없기에 ㅋㄷㅋㄷ 우선 Hadoop을 2대의 컴퓨터에서 테스트 해봤다. 비교적 탄탄하게 잘 돌아는 간다는,,, ^^ Map 수행 Reduce 수행 wordcount 예제,,, ^^ Hadoop 구성은 여기를 보고 참고,, ^^ Running Hadoop On Ubuntu Linux (Multi-Node Cluster) Running Hadoop On Ubuntu Linux (Single-Node Cluster)

blogging 2008.06.02