blogging 277

스케줄러 - 기본으로 돌아가기

퇴근 시간을 5분 남겨 놓고 요상한 논문 하나를 소개? 받았다. "Application of the Linux cluster for exhaustive window haplotype analysis using the FBAT and Unphased programs" 라는 다소 장문의 제목을 가진 논문이었다. 대량으로 쏟아지는 생물학 데이터를 이용한 연구에서 고성능 컴퓨팅 파워의 필요성은 누구나다 인지하고 있는 주요 관심사이다. 저자는 불행히도 생물학 통계 패키지(소프트웨어)들이 대부분 병렬화 되어 있지 않고 또한 병렬화 하더라도 새로운 코드를 신뢰할 테스트도 필요할 뿐더러, 병렬화가 누구네 집 똥개 이름도 아니기에, 이를 우회하여 고성능의 컴퓨팅 파워를 얻기 위해 리눅스 클러스터에서 큐잉 시스템을을 이용..

blogging 2008.07.04

우편번호로 지도를 작성하자 - MDS(Multi Dimensional Scaling) - 실패 ^^

예전부터 지도상의 좌표를 주소로 변환의 정확성을 높이기 위해 ML을 적용해야겠다는 생각만 했었는데, 오늘은 그 생각을 실행하기 전에 우선 약 5만개의 우편번호 데이터베이스에 우편번호에 해당하는 좌표간의 거리를 Km로 변환하고 5만x5만 행렬을 만들었다. 제법 100MB 넘는 행렬 데이터를 가진 텍스트 파일이 만들어졌다. 그런데 막상 R을 이용해서 MDS plot을 생성하려고 하는데,,, 여기 저기서 에러가 -.- 한참만에 알아낸건 바로 원본 DB에 문제가 있었다. 1) 중복되는 우편번호가 있다. (원래 그런건가??, 이건 배포하는 우편번호를 보고 확인해봐야겠다) 2) 우편번호가 달라도 좌표가 같은 것들도 있다.(이건 내가 만들때 그렇게 만들었기 때문에,,,) 3) 좌표값이 없는 우편번호가 존재한다. (이..

blogging 2008.06.30

구글맵 좌표를 네이버 지도 좌표로 변환하기 또는 그 역~

네이버에서 사용하는 좌표계와 구글맵에서 사용하는 좌표계는 서로 상이하죠 ^^ 그 둘 사이의 좌표를 서로 변환하는 라이브러리입니다. PHP로 작성된 라이브러리인데, 정확히 어디서 구했는지 출처는 모르겠습니다. ^^;; 지리에 대해서 정확히 알지는 못하지만 서로 간의 좌표를 정확히 변환하지는 못한다고 하는데,, 뭐 잘 모르겠습니다. 어쨌든 여기에서 geotrans.php를 다운로드 하시고 다음과 같이 사용하시면 됩니다.

blogging 2008.06.27

Apache Log 분석을 위한 Hadoop MapReduce

저번주는 MapReduce를 Streaming 방식으로 작성된것을 실행해 보았따. Writing An Hadoop MapReduce Program In Python을 보면 WordCount 예제가 Python으로 작성되어 있다. 또 URL을 통해 해당 URL을 제목을 가져오는 Python 예제도 있다. 그런데,, 하나의 노드로 마스터와 네임노드를 구성해서 할 경우에는 잘 되었는데,, 막상 15노드로 Hadoop 클러스터를 구성하고 실행을 하는데,, Map 작업의 결과는 잘 나오는데 Reduce에서 결과 레코드가 모두 0 즉, 결과가 없다. 뭐가 잘못되었는 전혀 감이 오지 않아서Streaming을 포기하고 결국 Java로 하기로 했다. 그래서 오늘은 깔끔하게 Streaming을 잊고,,, 저번에 잠깐 살펴..

blogging 2008.06.17

좌표 지명 변환 - Reverse Geocoding

위/경도를 넣으면 해당 지점의 주소를 반환하는 Reverse Geocoding을 처음 만난것은 2007년도 중반쯤 야후의 플릭커 서비스에서였다. 예전 포스팅에서(아직 플릭커가 한글화 되기전 영문으로 국내 주소가 나오는것을 깜딱 놀랐었다.) 좌표지명변환과의 첫 대면을 볼 수 있다. ^^;; 그 후로 우편번호에 해당하는 주소지의 좌표를 죄다 긁어 모아서 국내 좌표 지명 변환 서비스를 만들었는데,,, 이미 이전에 야후 거기에서도 지도 오픈 API를 제공하고 있었다는걸 댓글을 보고 알게 되었다. ^^;; 야후의 Open API 호출 결과 http://kr.open.gugi.yahoo.com/service/rgc.php?appid=YahooDemo&latitude=36.36513767979439&longitude..

blogging 2008.06.10

Biomedical계의 PageRank ^^

PageRank without hyperlinks: reranking with PubMed related article networks for biomedical text retrieval BMC Bioinformatics에 나온 논문인데,, 간단하게 Google의 PageRank가 웹페이지의 특성인 hyperlink를 통해서 점수를 주는건데,, 이 논문에서는 이러한 PageRank에서의 hyperlink 대신에 논문의 인용(citation)을 이용한다는 것이다. 음 꽤 그럴싸한데,, 근데 원래 그러던거 아니였던건가보네 ^^;; 뭐 이쪽에는 별 관심이 없었던 터라. 자세히 읽어보지는 않았지만,,, 그냥 PubMed에서 검색 결과와 함께 오른쪽에 보여주던 Related Articles가 오늘 따라 예사롭게..

blogging 2008.06.10

뭔가 눈에 보이는 예제가 필요해~~

그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..

blogging 2008.06.04