저번주는 MapReduce를 Streaming 방식으로 작성된것을 실행해 보았따. Writing An Hadoop MapReduce Program In Python을 보면 WordCount 예제가 Python으로 작성되어 있다. 또 URL을 통해 해당 URL을 제목을 가져오는 Python 예제도 있다. 그런데,, 하나의 노드로 마스터와 네임노드를 구성해서 할 경우에는 잘 되었는데,, 막상 15노드로 Hadoop 클러스터를 구성하고 실행을 하는데,, Map 작업의 결과는 잘 나오는데 Reduce에서 결과 레코드가 모두 0 즉, 결과가 없다. 뭐가 잘못되었는 전혀 감이 오지 않아서Streaming을 포기하고 결국 Java로 하기로 했다. 그래서 오늘은 깔끔하게 Streaming을 잊고,,, 저번에 잠깐 살펴..
위/경도를 넣으면 해당 지점의 주소를 반환하는 Reverse Geocoding을 처음 만난것은 2007년도 중반쯤 야후의 플릭커 서비스에서였다. 예전 포스팅에서(아직 플릭커가 한글화 되기전 영문으로 국내 주소가 나오는것을 깜딱 놀랐었다.) 좌표지명변환과의 첫 대면을 볼 수 있다. ^^;; 그 후로 우편번호에 해당하는 주소지의 좌표를 죄다 긁어 모아서 국내 좌표 지명 변환 서비스를 만들었는데,,, 이미 이전에 야후 거기에서도 지도 오픈 API를 제공하고 있었다는걸 댓글을 보고 알게 되었다. ^^;; 야후의 Open API 호출 결과 http://kr.open.gugi.yahoo.com/service/rgc.php?appid=YahooDemo&latitude=36.36513767979439&longitude..
PageRank without hyperlinks: reranking with PubMed related article networks for biomedical text retrieval BMC Bioinformatics에 나온 논문인데,, 간단하게 Google의 PageRank가 웹페이지의 특성인 hyperlink를 통해서 점수를 주는건데,, 이 논문에서는 이러한 PageRank에서의 hyperlink 대신에 논문의 인용(citation)을 이용한다는 것이다. 음 꽤 그럴싸한데,, 근데 원래 그러던거 아니였던건가보네 ^^;; 뭐 이쪽에는 별 관심이 없었던 터라. 자세히 읽어보지는 않았지만,,, 그냥 PubMed에서 검색 결과와 함께 오른쪽에 보여주던 Related Articles가 오늘 따라 예사롭게..
BioBlogRSS에 올라온 비디오인데,,, 오늘의 심슨이 있기까지 입니다. ^^;;
그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..