전체 글 749

데이터 홍수와 생물 정보 웹 서비스

일전에 와이어드의 '이론의 끝 - 데이터 홍수가 과학적 방법을 쓸모없게 만든다'에 대한 'LiFiDeA의 전문가의 시대는 끝났나'라는 글에서 보듯 생물학에서의 데이터들은 전문가들의 시대를 끝낼 만큼 점차 쌓여져 가고 있지만, 데이터의 이질성으로 인해 전문가들을 끝낼 수만은 없는 상황이다. 이러한 상황에서 몇년전 부터 생물정보 데이터를 검색하고 이를 생물정보 분석도구와 연결하여 사용하도록 해주는 웹 서비스와 이에 기반을 둔 워크플로우 툴들이 상당 수 소개되어 사용되고 있다. 이미 유럽이나 일본에서는 자신들의 데이터와 도구들을 웹 서비스화 하고 있지만, 이것 또한 여러가지 문제점을 지니고 있다. 그럼 왜 워크플로우나 웹 서비스를 사용하지 않을까? 물론 홍보가 잘 되지 않은 이유도 있겠고, 국내에서는 워크플로..

blogging 2008.10.09

맥북에 적용된 나눔 글꼴

다음이나 네이버, 서울시 등등에서 공짜 한글 폰트를 배포하고 있는데, 오늘은 네이버에서 배포하는 나눔 글꼴 중 나눔 고딕을 맥의 Firefox에 적용해봤습니다. 나름 동글스러운게 귀엽네요 ^^ 맑은고딕 대신 이제 나눔 고딕을 쓸랍니다. 맥용 폰트를 따로 설치까지 할 수 있도록 배포하고 있으니 써줘야겠죠,,, 그러고 보니 오늘이 한글날이군요. 나눔 고딕을 적용한 블로그 나눔 고딕으로 본 네이버 메인 화면

blogging 2008.10.09

Machine Learning 향후 10년

springer의 Machine Learning에 Structured Machine Learning: The Next Ten Years라는 글 중 Section 5(Ten Problems for the Next Ten Years)에 Machine Learning의 향후 10년안의 10개의 문제에 대해서 논의 하고 있더군요. Statistical predicate inventionGeneralizing across domainsLearning many levels of structureDeep combination of learning and inferenceLearning to map between representationsLearning in the largeStructured prediction w..

blogging 2008.10.09

R-Tree를 이용한 공간?? 데이터 다루기

Genome Browser의 주요 기능은 1~10,000bp 또는 12,010,000~12,020,000 등등 chromosome 상에서 일정한 영역의 정보만을 DB에서 읽어와서 이를 다양한 형태로 출력해주는 것이다. 그럼 이러한 일정 영역의 데이터(feature)를 가져오는 SQL문을 만들어 보면,,, SELECT 온갖정보들 WHERE ref="Chr1" AND start = 12020000 그러나 위의 SQL문은 짧은 feature가 많이 존재하거나, chromosome의 중간 부분을 검색하는 경우에 있어서는 비효율적이다. 직접 HapMap 데이터를 기준으로 chromosome 9(총 140,273,252 bp)의 2,500,001에서 2,502,000 영역에 존재하는 feature를 검색하기 위해 ..

blogging 2008.10.08

GBrowse Hack 1탄

HapMap GBrowse HapMap에서 사용하는 gbrowse에 내 데이터 살짝 얹어 보도록 하자. 직접 Genome Browser를 만들 수 없는 상황이라면 아주 유용하게 사용될 수 있을 것이다. 아래 그림은 chromosome 9의 0.7M 영역에서의 HapMap 프로젝트에서 Genotype한 SNP(붉은색 삼각형)들과 dbSNP의 SNP(파란색 삼각형)들을 GBrowse를 통해서 본 것이다. HapMap에서의 Genotyped SNP와 dbSNP SNPs 트랙 여기서 내가 Genotype한 것들이 있을 경우 HapMap, dbSNP들과 비교해 보길 원한다면 자신의 Genotype한 데이터를 GFF 형식으로 만들어서 gbrowse에 살짝 넣어주면 된다. 자 그럼 시작해 보자. GBrowse Hac..

Bioblogs 2008.09.27

생물학 데이터 포맷 GFF(Gene-Finding Format)

GFF, GBrowser File Format?? ^^, General Feature Format, Gene-Finding Format이라고 알려져있다. 자세한 GFF 문서는 여기에 나와 있다. 생물학 데이터를 표현하고 서로 교환하기 위한 데이터 포맷으로 GBrowse 등에서 사용되고 있다. GBrowse는 의 한 부분으로 앞서 언급한 GFF의 지원 이외에도 다양한 특징을 가지고 있다. 그 중에서 두드러진 특징은 바로 데이터의 공유라고 할 수 있다. GMOD에서는 GMOD Community Meeting과 GMOD Summer School등과 같은 지속적인 행사를 갖고 있는데, summer school의 경우 3일간에 걸쳐 실제 GMOD의 GBrowser 등을 vmware상에서 설치하고 설정도 해보고 또..

blogging 2008.09.25

묵묵히 나를 돕고 있는 놈들

보이지도 않는 벽 한 구석에서 열심히 파란빛을 발산하는 Airport,, USB 프린터와 스피커(아이튠)를 무선으로 연결해서 사용하는 기능도 있지만, 아쉽게도 USB 프린터와 그 흔한 스피커가 없기에 ^^;; 왠지 스태들러 제품을 갖고 있으면, 공부??가 잘 되는 느낌이 든다. 왜일까?? 원래 레고 시계에 같이 있던 축구선수였는데, 공은 어디로 도망가고 항상 책상위에서 나를 쳐다보신다. 그리고 맥북이 이상 소리없이 나를 은근히 돕고 있는 녀석들 되겠다. ^^

blogging 2008.09.24