전체 글 749

나는 엄마 닮았어 아빠 닮았어?

아빠 vs. 딸 엄마 vs. 딸 위의 그림은 일전에 서울대에서 발표했던 내용 중에서 23andMe에서 제공하는 서비스 중 자신의 가족들간의 Genome유사성을 비교해주는 서비스의 일부분이다. 물론 돈을 지불해야만 자신의 Genome 데이터를 볼 수 있지만, 샘플데이터로 Mendel가족(영국의 실제 가족이라고 한다. 물론 그들의 동의를 얻어서 공개하는 것이고,,,)의 엄마,아빠와 딸을 각각 Genome-Wide로 비교한 결과이다. 단순 수치로 보자면 딸은 아빠보다는 엄마를 더 닮았다. 그럼 이 결과는 어떻게 나온것인지 살짝 살펴보고 이것이 의미하는 바를 한번 짚어 보자. 23andMe에서는 자신의 구강에서 DNA를 채취해서(CSI를 보신분이라면 ^^) 약 600,000개의 SNP을 찾아낸다. 바로 이 SN..

blogging 2008.08.06

다시 한번 되짚어 보는 오픈소스 라이선스

많은 사람들의 입에서 회자되고 있는 오픈소스, 잘 알고 사용하고 있는것인가? 특히 생물정보학 분야에서는 많은 오픈소스 및 논문에서 언급되는 소프트웨어들을 사용하고 있다. 이러한 각각의 소프트웨어들은 오픈소스 라이선스를 따르는 것도 있고 고유의 라이선스 정책을 취하고 있는것들도 있다. 여기서 우리가 흔히 보는 오픈소스 라이선스 중 GPL, LGPL, BSD 라이선스에 대해서 짧게 살펴 보기로 한다. 배포시 수정된 코드의 소스 공개의 의무: GPL, LGPL 내가 GPL이나 LGPL의 라이선스를 가지는 오픈소스를 수정해서 프로그램을 만들었다면 당연 그 프로그램의 소스는 공개해야만 한다. 사용소프트웨어와 같이 사용가능한가? LGPL, BSD GPL 라이선스의 경우에는 사용소프트웨어와 서로 결합하여 사용할 수 ..

blogging 2008.07.31

근황

저번 주말부터 어제까지 회선 이중화 작업 때문에 다른것은 전혀 손을 못대고 있었습니다. 다행히도 오늘 오전부터는 완벽하게 작업이 끝나서(뭐 내가 한건 아니지만,,,,-..-) 좀더 높은 대역폭과 안정적인 회선을 통해서 클러스터 및 인터넷을 사용할 수 있게 되었습니다. 이제 좀 더 연구에 박차를 ㅋㅋㅋ 여기에 덧붙여서 저희 팀에서 내부적으로 wiki와 trac을 중심으로 하는 프로젝트 관리 홈페이지를 만들어 본격적인 사용자 교육과 사용이 있을 예정?입니다. 기존의 BioBlogRSS의 글들에서 소스코드 관리나 프로젝트 관리에 대한 글들이 종종 보이긴 했습니다만 뭐~ 그건 컴퓨터를 전문적으로 하는 사람의 일이거니 지나치기만 했었던게 사실이었습니다. 그러나 이제 살기위해 움직입니다. ㅋㅋㅋ ^^;; SVN과 ..

blogging 2008.07.31

국경을 초월해서 자유롭게 사랑하고 결혼한다고

요즘 사회연결망이론 이라는 책을 읽고 있는데, 여간 재미있는것이 아니다. 흔히 SNS(Social Network Service)라고 불리는 수많은 인터넷 서비스들에서 Social Network에 관한 많은 생각을 해보게 되는 책이다. 그냥 별 의미없이 Web2.0과 SNS를 보다가 요즘 이책을 읽으면서 다시금 SNS를 바라보게 된다. 책의 내용중에 대인 관계망중 유유상종이라는 챕터가 있다. 유유상종 "까마귀 노는 곳에 백로야 가지마라"라는 말에도 유유상종이 녹아있지는 않을까? 책에서 유유상종을 언급하면서 어쩔수 없이 같이 놀게 되는 유도된 유유상종(induced homophily)과 자신의 의지에 의해 같이 노는 선택 유유상종(choice homophily)의 두가지를 언급하며, 이를 결혼에 연결시키고 ..

blogging 2008.07.25

Genome-scale 서열 분석

Suffix tree는 생물학 서열 분석에 있어서 기본적인 데이터 구조 중 하나이다. 이전 블로그에서도 잠깐 언급했듯이 GPU를 이용해서 서열 매칭 작업을 병렬화 한다는 내용을 잠깐 언급한적이 있는데,,,, 이게 좀,,, Fast Exact String Matching on the GPU와 High-throughput sequence alignment using Graphics Processing Units(MUMmerGPU)는 모두 Michael C. Schatz가 저자로써, 모두 생물학 서열에 있어서 GPU를 이용한(GPU를 사용하지 않는 MUMmer(Maximal Unique Matching)) Suffix tree 알고리즘을 병렬화하는 내용이다. 간단하게 보면, 우선 기준이 되는 Reference..

Bioblogs 2008.07.22

RRDtool의 데이터를 가져와서 그래프 그리기

클러스터에서 시스템 모니터링을 위해 Ganglia를 사용하고 있는데, ganglia는 RRDtool을 이용해서 시스템의 온갖 정보를 저장하고 그래프로 출력을 해준다. 단점이라고는 할 수 없지만, 내가 원하는 데이터만 내가 원하는 형태로 그래프로 출력하기 위해서는 RRD 데이터를 가져와서(fetch) 그래프로 그리는 수 밖엔 없다. 어제는 클러스터의 6개월간의 시스템 로드 현황을 그래프로 그릴 일이 있었는데, ganglia에서는 시간, 일, 주, 달, 년 단위로 밖에는 그래프로 그려 주지 않기 때문에 6개월간만을 그리기 위해서는 직접 RRD 데이터를 가져와서 그리는 수 밖에는 없다. 여기에서는 RRDtool의 데이터를 가져와서 R을 통해서 그래프를 그리는 과정에 대해서 설명하려고 한다. 어딘가에는 나 같은..

blogging 2008.07.10