지오코딩을 활용한 온라인 데이트 사이트 데이터 만들기 집단지성프로그래밍을 구입한지는 꽤 된거 같은데, 계속 가방속에서 자고 있다. 가장 관심을 끄는 부분부터 틈나면 읽어 나가고는 있는데, 요즘 9장을 좀 읽고 있다가 이전에 만들어 놓은 (리버스)지오코딩 서비스도 사용할 겸 사용되는 데이터셋도 국내용(??)으로 바꿀겸 간단히 코드와 데이터셋을 변경했다. 9장 고급 분류 기법: 커널 기법과 SVM을 보면 중매 데이터 세트가 나온다. 이 중매 데이터(matchmaker.csv)는 나이, 흡연여부, 자녀희망, 관심목록, 거주지의 형식으로 되어있는데, 마지막의 거주지는 4절 '분류 데이터의 특성'의 '야후! 지도를 사용한 거리 계산' 부분에서 설명이 나온다. 주소를 가지고 위/경도의 좌표 정보를 야후의 지오코딩 ..
Google Groups의 hadoop community에 2차 모임 공지가 있었습니다. 일자는 바로 오늘이구요(Hadoop에 관심 있으신 분들은 가입해 보세요 ^^). 오늘 모임은 아무래도 MapReduce를 이용한 ML 알고리즘의 구현에 대한 내용이 솔깃합니다. 한박사님께서도 세미나와 1차 모임때도 ML에 대한 언급을 하셨는데, 오늘은 아예 ML에 대해서만 ^^ Apache에도 Apache Mahout이 있습니다만, 암튼 기대가 되는군요. 요즘 집단 지성 프로그래밍에서도 알 수 있듯이(IT 분야나 생물정보학 등 많은 분야에서 ML이 이미 오래전부터 사용되기는 했지만) 좀 더 사람들에게 친숙해져 가고 있는 느낌입니다. ^^ 늦었지만 1차 모임때 사진 ^^ 두번째 Hadoop Community 모임을 개..
Hello world!
약 이주전에 간단한 설문조사(아직도 유효하니까, 설문에 참여해 주세요 ^^)를 수행한 결과의 중간 점검 자료입니다. 궁금해 하실까봐? 설문의 내용은 이것저것 잡다한 것들이 있었는데, 그중 4가지만 중간 결과를 한번 내봤습니다. 첫 번째는 자신의 분야에 대한 질문이었는데, IT 분야가 70%로 압도적으로 많았습니다만, 생물정보학과 생물학이 각각 20, 10%를 차지하고 있습니다. 두 번째는 클러스터나 슈퍼컴퓨터를 사용하느냐는 질문인데, 60%가 사용하고 있지 않는다는 응답이 나왔고 기타로는 쓰기 쉽다는 전제하에 사용한다는 응답도 나왔습니다. 세번째 질문은 자신의 (연구)분야에서 데이터의 크기에 대한 질문인데, 90%가 커져간다는 응답을 했습니다. 마지막으로 자신이 주로 사용하는 프로그래밍 언어에 대한 질문..
하버드 대학교의 W.E.B Du Bois 연구소-아프라카인과 아프리카계 미국인 연구(W. E. B. Du Bois Institute for African and African American Research)-의 헨리 루이스 게이츠 Jr. thwkddms 2000년 처음 유전자 검사를 받은후 유전자 검사를 통해 아프리카 혈통을 추적하기를 주장해왔다는군요( 헨리 소장의 사진을 보면 흑인인데, 유전자 검사 결과는 유럽 혈통이 발견되었다고 하네요 ^^). 뭐 이전에 23andMe에서도 자신의 혈통을 추척하는 서비스가 있기는 한데,,, 그는 단순히 이것으로 끝나는 것이 아니라, 흑인과 소수 민족 아이들에게 역사와 과학을 가르치는데 학생들이 그들의 유전자의 배경이 되는 지식을 공부하고 자신들의 계보를 재구성하는 ..
IBM developerWorks에서는 Play, developerWorks! dW 아티클/튜토리얼을 활용한 스크린캐스트 제작 이벤트를 진행하고 있습니다. 리눅스 철통 보안을 위한 셸 제거라는 제목으로 스크린 캐스트를 한번 만들어 봤습니다. (리눅스 철통 보안, Part 1: 셸 제거하기 튜토리얼을 기반) 모든 작업은 맥에서 iShowU라는 스크린 캡쳐 프로그램과 iMovie로 HD급으로 제작했습니다. 작성한 동영상은 vimeo에(HD급으로 보시려면 직접 vimeo에 가셔서 보셔야 합니다.) 올렸습니다. 당당하게 HD 마크가 ^^;; 멋모르고 한번 만들어 봤는데, 동영상 캡쳐에서 녹음에 자막까지 이거 만만한 작업이 아니네요 ^^;; 두번하라면 못할듯하네요. 만들고 보니 엉망이네요. 중간이 지~익 소리는 ..