Bioinformatics Zen의 How to draw simple graphs in R이라는 글을 보면 R을 이용해서 데이터의 특성에 따라서 데이터를 그래프로 표현하는 방법에 대해서 간단하게 소개되어 있다. 여기서 간단하다는 의미는 짧고 명확하게 그리고 데이터를 어떻게 표현할지에 대해서 막막한 사람들도 고개를 끄덕이며 빠져 들 수 있다는 의미이다. 참 그리고 댓글을 읽다보면 Matlab과 Mathematica의 상용 어플리케이션과 R에 대한 논쟁(?)의 글도 있으니 댓글도 확인해 보세요 ^^;; 우선 "하루에 차(커피)를 얼마나 드십니까?" 라는 질문으로 시작하겠습니다. 이 질문에 마음속으로 대답을 하셨다면 이제 R package와 예제 데이터 파일(zip format)을 다운로드하시고 차한잔을 옆에..
일전에 한참 GoogleMap을 가지고 이런 저런 작업(?)을 하다가 주소나 우편번호를 입력하면 해당 위치가 지도상에 보여지도록하는 방법에 대해서 이리저리 알아보고 다녔던 기억이 났다. 이것을 가리켜서 전문용어(?)로 Reverse Geocoding이라고 한다. 그럼 이러한 주소정보만을 가지고 어떻게 해당지역을 지도위에 표시해줄 수 있을까?? 지도를 수십만개의 작은 영역으로 나누고 해당 영역마다 주소정보를 넣어 놓는 방법도 있을테고, 여기서는 작은영역이 작을수록 보다 정밀하게 주소에 대응하는 지역을 찾을 수 있겠다. 이외에도 뭐 생각한다면 여러가지 무식한 방법들이 많을테고... 내가 선택한 방법은 우선 전국의 우편번호와 우편번호에 따른 주소를 가기고 와서 이 우편번호에 대응하는 지도의 위도와 경도를 데이..
현재 국내에서 바이오인포매틱스 관련 오픈 소스 프로젝트에 직간접적으로 참여하고 계신분이 얼마나 될까요? 또한 이러한 바이오인포매틱스 관련 오픈소스의 활용은 어떠할까요?? 어떠한 부분에서 어떤 오픈 소스 소프트웨어를 사용하는지, 얼마나 알고 계신지, 필요성은 느끼시는지 궁금해지네요. Biopipe나 Bioworks도 이러한 오픈 소스가 없었더라면 생겨나지 못하는 그리고 앞으로도 오픈 소스 소프트웨어들이 받쳐 주지 않는다면 무용지물의 소프트웨어 될 수 밖에 없는 아주 중요한 문제입니다. 제가 생각하기에는 이러한 바이오인포매틱스 관련 오픈 소스의 개발과 활용에 대한 문제는 바이오인포매틱스 연구의 뿌리라고 생각합니다. 아래의 내용은 가칭 한국 오픈 바이오 사용자 모임(http://open-bio.kr)의 설립 ..
Map-Reduce for Machine Learning on Multicore Map-Reduce를 이용한 Machine Learning(locally weighted liner regression, k-means, logistic regression, naive Bayes, SVM, ICA, Principal Component Analysis, gaussian discriminant analysis, EM, backpropagation)의 속도 향상 IBM Parallel Machine Learning Toolbox classification: Support-vetcor machine(SVM) and liner least squars clustering: k-means, fuzzy k-means, k..