전체 글 749

뭔가 눈에 보이는 예제가 필요해~~

그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..

blogging 2008.06.04

Platformday를 다녀와서는 이러고 있네요 ^^

어제 오늘 Hadoop Cluster를 설정을 하고는 MapReduce 예제들을 돌려보고 있다.(jetty 웹서버가 인터넷에 연결이 되지 않으면 뭔 j2ee 네임스페이스를 찾을 수 없다고 에러를 내는 바람에 이거 찾느라고 어제 하루는 다 보내 버렸다.) 우선 RandomWriter를 통해서 30GB의 입력데이터로 사용할 데이터를 생성했다. 1GB씩 총 30개가 생성되었다. RandomWriter를 통해 생성된 데이터 총 1538초 약 26분정도의 시간이 소요되었다.(테스트는 총 3대의 DataNode에서 수행,,) 이 입력데이터를 가지고 역시 예제 Sort를 수행하였다. 처음에는 Map과 Reduce의 갯수를 지정하지 않고 다음과 같이 기본 명령만을 주고 수행하였다. $ bin/haddop jar had..

blogging 2008.06.04

Hadoop 돌려보기

Map-Reduce나 HDFS를 지금하는 일들에 잘 써먹으면 좋을것 같다는 생각은 이전부터 가지고 있었지만, 나 혼자서 사용해서는 그 효과를 충분히 발휘 할 수 없기에 ㅋㄷㅋㄷ 우선 Hadoop을 2대의 컴퓨터에서 테스트 해봤다. 비교적 탄탄하게 잘 돌아는 간다는,,, ^^ Map 수행 Reduce 수행 wordcount 예제,,, ^^ Hadoop 구성은 여기를 보고 참고,, ^^ Running Hadoop On Ubuntu Linux (Multi-Node Cluster) Running Hadoop On Ubuntu Linux (Single-Node Cluster)

blogging 2008.06.02

후배들과의 조우

오늘은 대전에서 필리핀 후배들 두명이 서울로 올라왔다. 한국인터넷정보학회에 포스터 발표가 있었기 때문이었다. 후배의 핀리핀 친구들의 발표도 들었는데,,, 뭐 모바일 에이전트들을 효과적으로 배치하기 위해서 클러스터링 알고리즘을 사용하는 뭐 그런 내용의 발표였다. 그건 그렇고 간만에 서울에 올라온 외국인 후배들에게 용산과 63빌딩을 투어를 제안하고 둘러보고 왔는데,,, 완전히 체력이 바닥나 버렸다. 에고~ 에고~ 최소한의 동선을 유지하려고 애썼건만 역시 운동 부족인건가??

blogging 2008.05.31

이거 부담 백배군,,,

PlatformDay 발표자료를 정확히 10분전에 넘겼다. 다른 강연들과 확실히 차이나는 부분이 분산 플랫폼이 적용된 실사례들을 발표하는데 반해 내 발표에는 그것?이 없다는 것이다. 물론 이부분은 발표를 하기로 맘먹기 전에 이미 조율한 부분이지만, 그래도 다들 뭔가 실질적인 것을 원하시는 분들이 오신것일텐데, 생뚱맞은 세션이 하나 끼어 버렸으니,,, 이부분에 대해서 좀 걱정스럽다. 두번째로는 너무 낚시성 제목이라는 것이다. 물론 이것 또한 미리 조율?한 것이지만, 요즘 촛불집회다 뭐다 너무 시끄럽고, 또 내가 몸담고 있는곳 또한 전혀 무관하지 않지 않기 때문에,,, 다들 실제로 내용을 들으면 뭐야~라는 반응을 보이겠지만 ^^ 잠깐 참석하시는 분들을 살펴보니, 바이오관련 분들도 꽤 많이 오시는던데,,, 역..

blogging 2008.05.26

근황을 말하다,,,

5월 30일에 열리는 2008' Platform Day에 본의 아니게 발표를 하게 되었습니다. 이것저것 여러 실제 사용자분들의 의견을 수렴하러 다니는 중입니다. 참고로 제가 발표하는 세션은 기술적인 내용을 소개 보다는 생물학 데이터를 어떻게 Platform에 적용해야 할지로 되묻는? 그런 자리가 될 것 같습니다. ^^;; SSD 16GB를 주워다가 열심히 쓰고 있는데,, NFS를 Mac OS X와 잘 엮어서 사용하는 것에 중점을 두고 있습니다. 데이터는 몽땅 NFS로 ~~~ 근데,, 이거 iPhoto는 어쩐담,,,, 어제 기사를 보니 NASA에서 진행하는 프로젝트에 1TB SSD 스토리지를 MTRON에서 만든다는데,,, 극한환경에서 사용한다고 합니다. 나도 맥북들고 북극이라도 갔다올까나,,,,^^ Fre..

blogging 2008.05.22

Freebase: 비(정지훈)를 넣어 놓다.

Freebase(집단지성의 저자도 이쪽으로 적을 옮겼다는군요 ^^)는 시맨틱하게 만들어진 공공의 데이터베이스(위키피디아 같은)인데,, 스피드레이서 정지훈을 살짝 넣어줬다. ^^;; Freebase의 Speed Racer에 포함된 정지훈~~ Freebase의 매시업인 Thinkbase로 그려진 Speed Racer 그래프 Freebase의 Data Model로 뭔가 해보면 좋을듯한데,,, 상당히 매력있는 사이트이다. 한번 가보는것이 좋을듯 ^^

blogging 2008.05.21

Google과 맞춤형 개인 의료 서비스

일전에 Google이 23andMe라는 바이오기업에 투자한것과 관련하여,,, 어떻게 생각하면 그 연장선상이라고 볼 수 있겠다. 바로 Google Health 서비스인데,, 요게 좀 그럴싸하게 생겨 먹었다. Google Health 서비스는 기본적으로 자신의 정보(몸무게, 키, 가지고 있는 질병, 복용하는 약품, 알레르기 등등)을 직접 입력하거나, 제휴를 맺은 의료기관이나 약국?에서 자신의 기록을 import 할 수 있도록 되어 있다. 재미있는것은 이렇게 쌓인 정보를 여러 건강정보 서비스로 export 할 수 있도록도 되어있다. NoMoreClipboard 서비스의 그림을 보면 한눈에 알 수 있다. 제공되는 질병정보 또한 URAC의 인증?을 받은 A.D.A.M으로 부터 제공되고 있다. 제2형 당뇨에 대한 ..

blogging 2008.05.20

16GB SSD와 맥북 하루 사용기

어제 저녁 Mac OS X를 SSD에 설치하고, 언어팩이고 이것저것 뺀다고는 했지만,, OS 설치에 16GB에서 12GB를 써버렸습니다. 현재로서는 영화한편 넣으면 디스크가 꽉 차버릴 지경에 다다르고 말았습니다. ㅜㅜ 용량의 한계만 극복한다면 아주 환상적일텐데 말이죠,,, 체감 속도도 그냥 휙휙 날아 다닙니다. ^^ 아래 동영상에서 보시는 바와 같이 부팅하는데 10초 조금?? 더 걸리는 정말 경이로운 시간을 보여주고 있습니다만,,,, 맥북에서의 부팅 속도 그래서 용량의 압박을 해결하기 위해 외장형 하드디스크를 구입해서 연결하자니,,, 사무실에서 치렁치렁 매달고 다니기가 좀 거추장스럽기 때문에 Linux에서 NFS를 제공하는 서버를 마운트해서 잡다한 데이터는 거기에 몰아 넣기로 했습니다. 일차적으로 pap..

blogging 2008.05.20

MTRON SSD 16GB를 맥북에 ^^

맥북으로 들어가기전에 한컷~ ^^ 위에서 보시는 바와 같이 사십만원에 육박하는 MTRON SSD 2.5인치 SATA를 맥북에 넣어주고 지금 한창 Mac OSX를 다시 설치하고 있습니다. ^^ 얼마나 빨라질지 궁금해지는군요. 노트북을 분해하기 위해서는 안경나사??와 별드라이버가 필요합니다만 별드라이버가 없는 관계로 그냥 펜치?로 돌렸습니다. 일반 하드디스크와 비교 샷1 일반 하드디스크와 비교 샷2 16GB라 좀 용량의 압박이 있겠지만,,, 뭐 ,,, 암튼,, 최소한으로 OS 설치하고 왠만하면 외장하드에,,, 넣으면,,, 그럼 그냥 SSD말고 하드디스크 쓰는게,,, 나을지도,,, ^^;; 혹자는 무슨 16GB 하드가 40만원대냐고 그러지만,,, 그래도,,,

blogging 2008.05.19