Bioblogs 62

GBrowse Hack 1탄

HapMap GBrowse HapMap에서 사용하는 gbrowse에 내 데이터 살짝 얹어 보도록 하자. 직접 Genome Browser를 만들 수 없는 상황이라면 아주 유용하게 사용될 수 있을 것이다. 아래 그림은 chromosome 9의 0.7M 영역에서의 HapMap 프로젝트에서 Genotype한 SNP(붉은색 삼각형)들과 dbSNP의 SNP(파란색 삼각형)들을 GBrowse를 통해서 본 것이다. HapMap에서의 Genotyped SNP와 dbSNP SNPs 트랙 여기서 내가 Genotype한 것들이 있을 경우 HapMap, dbSNP들과 비교해 보길 원한다면 자신의 Genotype한 데이터를 GFF 형식으로 만들어서 gbrowse에 살짝 넣어주면 된다. 자 그럼 시작해 보자. GBrowse Hac..

Bioblogs 2008.09.27

Genome-scale 서열 분석

Suffix tree는 생물학 서열 분석에 있어서 기본적인 데이터 구조 중 하나이다. 이전 블로그에서도 잠깐 언급했듯이 GPU를 이용해서 서열 매칭 작업을 병렬화 한다는 내용을 잠깐 언급한적이 있는데,,,, 이게 좀,,, Fast Exact String Matching on the GPU와 High-throughput sequence alignment using Graphics Processing Units(MUMmerGPU)는 모두 Michael C. Schatz가 저자로써, 모두 생물학 서열에 있어서 GPU를 이용한(GPU를 사용하지 않는 MUMmer(Maximal Unique Matching)) Suffix tree 알고리즘을 병렬화하는 내용이다. 간단하게 보면, 우선 기준이 되는 Reference..

Bioblogs 2008.07.22

Agile development for Bioinformatics

이화여대 시스템생물학 연구소와 서울대 생명의약네트워크 연구정보센터의 주관으로 Agile을 통한 Bioinformatics 소프트웨어 개발의 생산성 향상에 관한 워크샵이 열립니다. 7월 28일 부터 8월 2일까지니까, 관심있는 분들은 많은 참여를 바랍니다. ^^ Agile은 이미 BMC Bioinformatics의 "Agile methods in biomedical software development: a multi-site experience report"라는 논문으로도 나와 있죠 ^^;; 그리고 현재 구글 그룹스에 "Open Bioinformatics Korea"라는 그룹이 만들어져 있습니다. 제목만 봐도 어떤곳인지 솔깃하시죠 ^^;; 다음에 좀더 자세한 내용을 다루기로 하고, 오늘은 이정도만,,,(..

Bioblogs 2008.07.08

DRM을 이용한 대량의 데이터 분석을 손쉽게

본 문서는 Grid Engine의 "Simple-Job-Array-Howto" 문서를 기반으로 만들어졌으며, 이전에 포스팅한 "스케줄러 - 기본으로 돌아가기"와 밀접한 관계가 있습니다. ^^ DRM에서의 Serial 프로그램 실행하기 많은 수의 job들을 실행하기 위해서는 어떻게 해야 할까? 1,000개의 데이터셋이 있고, 이것을 하나의 프로그램이 실행한다고 한다면, 모두 1,000개의 Shell 스크립트를 작성해서 queue에 넣어야 할것이다. 바로 이러한 자잘한? 문제를 해결하기 위해서 Grid Engine에서는 Array job이라는 해결책을 제시해 주고 있다. -i 옵션의 인자를 입력으로 받고, -o 인자의 파일에 program의 수행결과를 쓰는 프로그램을 Grid Engine을 통해 제출한다고 ..

Bioblogs 2008.07.07

Job Scheduler로 보는 맞춤형 의료 서비스

민간 우주 여행, 로봇의 달탐사, 10일 안에 100명의 Genome 염기서열 분석 모두 꿈 같은 이야기이지만, 그 꿈같은 이야기들이 X PRIZE 재단에 의해서 커다란 상금을 걸고 진행중이거나 이미 끝난 대회이다. 2006년 개인의 맞춤형 의료 서비스의 진입을 위하여 X PRIZE에서는 민간에서 10일 안에 100명의 Genome을 해석할 수 있다면, 그것도 Genome 당 $10,000 이상의 비용이 들어가지 않도록 해낸다면, $1,000만 우승 상금을 얻게 된다. 이것이 바로 Archon X PRIZE for Genomics 이다. 그럼 이러한 일을 가능하게 하는데 중요한 역할을 하는 것이 무엇일까? 바로 Grid 컴퓨팅이나 클러스터 컴퓨팅의 Job Scheduler, DRM(Distributed ..

Bioblogs 2008.07.07

천식과 관련된 protein interation 네트워크

네이버 뉴스를 기웃거리다가 생물정보학으로 천식 유발 후보 유전자 찾았다 라는 기사를 보고 이건 또 뭐야! 하면서 기사를 클릭했더니 요즘 꽤나 흥미를 가지고 있던 바로 질병 네트워크에 관한 논문의 기사였다. 뭐~~ A protein interaction network associated with asthma OMIM, GEO에서 천식 관련 단백질 606개 찾고, 단백질 사이의 상호작용(PPI)를 네트워크화 해보니까 269개는 하나씩 분리되고 337개는 269개가 서로 연결되어 cluster 형성하는 등 28개의 cluster가 연결되어 네트워크를 형성 허브 역할 , 클러스터간 연결고리 역할을 하는 천식 유발 후보 유전자 7개(SRC, CREBBP, MAPK1, GNB2L1, VAV1, CBL, BRCA1)..

Bioblogs 2008.06.27

질병 네트워크

원은 하나의 질병을 나타내며, 원의 크기는 현재 질병과 다른 질병들과 관련되었음을 상대적으로 나타낸것으로 원의 크기가 클 수록 해당 질병이 다른 질병들과 연관이 많음을 나타낸다. (AIDS의 경우 4개의 서로 다른 질병과 연관이 있으며, Colon cancer의 경우 34개의 다른 질병들과 연관이 있다.) 원들 사이의 선은 서로 같은 유전자가 질병에 관여하면 질병간에 연결선이 생성된다. 선의 굵기가 굵을 수록 두 질병간에 연관된 유전자가 많음을 의미한다.(Diabetes mellitus와 MODY의 경우 총 5개의 유전자가 일치하기 때문에 굵은 선으로 연결되어 있다.) Pajek 질병 네트워크 파일 (다운로드 하셔서 Pajek에서 열어서 보시면 위의 네트워크가 보입니다.) 추가 : 각 질병에 대해서 카테..

Bioblogs 2008.06.23

BioBlogRSS에서는 - 2008년 6월 23일 #1

BioBlogRSS에 올라오는 블로그의 글들을 요약해서 남겨 놓기로 했다. 너무 많은 글들이 올라오고 있는(?? ^^) 상황에서 좀 정리한다는 의미와 함께 이렇게라도 조금이나마 남기다 보면 Bio::Blogs처럼 되지 않을까?? ^^ 완전 주관적인 나의 관심을 끈 내용을 위주로!!! 오늘은 그 첫번째로 4개를 선택해 봤습니다. 박사 논문을 준비중이신 분들에게 유용할 LaTeX관련 글과 함께 HTML 문서를 조금이나마 수월하게 만드는 방법이 준비되어 있습니다. 그 다음은 RSS를 이용해서 자신의 친구들의 Flickr, 블로그 등등 온갖 Social 웹사이트의 RSS를 불러와 감시??하는 FriendFeed와 태그 클라우드를 만들어주는 사이트입니다. 모든 글들은 BioBlogRSS에 있습니다. ^^ 오늘의 ..

Bioblogs 2008.06.23

질병 네트워크 - 알츠하이머와 천식

알츠하이머와 천식이 관련이 있을까? 에이즈와 알츠하이머와의 관계는? 이러한 물음에 대한 접근을 보여주는 아주 재미있는 논문이다. 고려대학교의 고광일(물리학)교수의 논문이다. 처음에는 질병들간의 네트워크를 그리더니 이제는 약물과의 관계까지 ^^ The human disease network Drug-target network Mapping the Human 'Diseasome' 가장 기초적인 작업은 질병에 대한 정보를 제공하는 OMIM 데이터베이스에서 각 질병과 그 질병에 관여하는 유전자를 추출하고, 타 질병의 유전자와 일치하는 질병들간에 네트워크를 작성하는 것이다. 참 간단한 아이디어인데,,, 누구도 시도하지 않았다는것,,, ^^ 박모박사님이 논문세미나 시간에 발표한 논문이었는데, 하나 그려 놓으면 재미..

Bioblogs 2008.06.20