일전에 와이어드의 '이론의 끝 - 데이터 홍수가 과학적 방법을 쓸모없게 만든다'에 대한 'LiFiDeA의 전문가의 시대는 끝났나'라는 글에서 보듯 생물학에서의 데이터들은 전문가들의 시대를 끝낼 만큼 점차 쌓여져 가고 있지만, 데이터의 이질성으로 인해 전문가들을 끝낼 수만은 없는 상황이다. 이러한 상황에서 몇년전 부터 생물정보 데이터를 검색하고 이를 생물정보 분석도구와 연결하여 사용하도록 해주는 웹 서비스와 이에 기반을 둔 워크플로우 툴들이 상당 수 소개되어 사용되고 있다. 이미 유럽이나 일본에서는 자신들의 데이터와 도구들을 웹 서비스화 하고 있지만, 이것 또한 여러가지 문제점을 지니고 있다. 그럼 왜 워크플로우나 웹 서비스를 사용하지 않을까? 물론 홍보가 잘 되지 않은 이유도 있겠고, 국내에서는 워크플로..
springer의 Machine Learning에 Structured Machine Learning: The Next Ten Years라는 글 중 Section 5(Ten Problems for the Next Ten Years)에 Machine Learning의 향후 10년안의 10개의 문제에 대해서 논의 하고 있더군요. Statistical predicate inventionGeneralizing across domainsLearning many levels of structureDeep combination of learning and inferenceLearning to map between representationsLearning in the largeStructured prediction w..
Genome Browser의 주요 기능은 1~10,000bp 또는 12,010,000~12,020,000 등등 chromosome 상에서 일정한 영역의 정보만을 DB에서 읽어와서 이를 다양한 형태로 출력해주는 것이다. 그럼 이러한 일정 영역의 데이터(feature)를 가져오는 SQL문을 만들어 보면,,, SELECT 온갖정보들 WHERE ref="Chr1" AND start = 12020000 그러나 위의 SQL문은 짧은 feature가 많이 존재하거나, chromosome의 중간 부분을 검색하는 경우에 있어서는 비효율적이다. 직접 HapMap 데이터를 기준으로 chromosome 9(총 140,273,252 bp)의 2,500,001에서 2,502,000 영역에 존재하는 feature를 검색하기 위해 ..
한 시간 동안 놀았습니다. ^^;;