SNP 9

Genomics & Cloud (2) - Galaxy를 이용한 부시맨 Genome 분석

Genomeics & Cloud의 두 번째 시간이 왔습니다. 바로 클라우드 컴퓨팅쪽으로 가려고 했지만 galaxy를 이용한 genome 분석에 대해서 하나만 더 이야기 하고 Amazon의 클라우드로 넘어가려고 합니다. 저번 시간에는 기본적인 galaxy의 사용에 초점을 맞추어 진행했는데 오늘도 저번과 galaxy의 기능에서는 추가되는 내용은 없지만 실제 아프리카의 부시맨 데이터를 가지고 진행을 하도록 하겠습니다. - 마찬가지로 galaxy 홈페이지에 Screencast에 있는 내용입니다. 1980년 개봉된 영화 부시맨, 주인공 니카우씨는 2003년 07월 돌아가셨네요. 이번 분석에 사용된 부시맨들은 니카우씨 연배의 분들입니다. 아프리카 남부의 부시맨 올해초 아프리카 남부의 부시맨(Khoisan, 코이산종..

Genomics & Cloud (1) - Galaxy를 이용한 SNP 분석

오늘은 클라우드 컴퓨팅과 지노믹스 첫 번째 시간으로 Galaxy라는 웹 기반의 Genomic 데이터 분석 툴을 가지고 SNP 분석에 대해서 알아본 후 두 번째 시간에는 아마존의 EC2 서비스를 통해서 Galaxy를 아마존에 EC2 클러스터에서 사용하는 방법에 대해서 알아보겠습니다. 우선 Galaxy (스마트폰 아님 -.-;;)에서는 많은 기능을 제공하고 있는데 여기서는 SNP 데이터를 기반으로 작업하도록 하겠습니다. 오늘 분석은 Exon 상에 존재하는 이미 알려진 SNP을 찾아내고 많은 수의 SNP 을 가지고 있는 Exon 순으로 소팅하도록 하겠습니다. Galaxy를 통해서 UCSC의 Exon 데이터 가져오기 UCSC Browser는 브라우저상에 보여지는 내용을 Galaxy로 내보내는 기능 (UCSC T..

그녀는 이뻤다 - 유전자로 보는

일년전 23andMe에서는 릴리 멘델이라는(이름만 본다면 여성이겠죠) 인간의 유전자를 공개하고 그 사람에 대해서 잘 스케치하는 사람에 대해서 공짜로 23andMe의 서비스를 해주는 "Pictures of Lilly: Introducing the 23andMe Win Your Genome Contest"라는 콘테스트를 했고, 우승자는 Mike Cariaso가 차지했습니다. 콘테트스는 릴리라는 인간의 SNP 정보가 있는 파일을 다운로드해서 얼마나 릴리에 대해서 잘 묘사하는지를 평가하는 방법이었습니다. 일전에 포스팅에서도 잠깐 언급했습니다만, Mike가 서울에 왔을때 그는 나에 대해서 이미 많은걸 알고 있었습니다. 심지어는 술먹으면 얼굴이 빨개진다는 것까지도 말입니다. ^^;; 이 처자가 릴리멘델?? 사진 출..

형질개선

인간의 30억개의 염기서열의 99.9%는 동일하지만, 0.1%에 해당하는 약 300만개는 사람마다 차이가 난다. 이런 개인별 염기서열의 차이의 90%는 한 염기가 다른 염기로 바뀐 단일염기다형성(SNP)에 의한 것이다. 그간 뉴스 자료에 의하면, 김성진 박사의 경우 323만개의 차이가 있고, 이 중 한국인에게 특이적으로 발견된 SNP는 약 182만개라고 한다. 이 182만개에서 기존의 데이터베이스와 비교해 본 결과 알려지지 않은 SNP은 약 158만개 라고 한다. 이는 전체 30억개 중 0.06%를 차지하고 있다. 한마디로, 한국인만 갖는 고유한 염기는 만개당 6개 꼴이 된다. 이 323만개의 SNP에 대해서 질병과 신체적 특징에 관련한 SNP 1600건에 대해서 성인병 관련 질환, 습관성 질환, 신체적..

한국인의 유전적 정보 데이터베이스 KSNP에 대해서,,,

한국인 유전정보 요즘 한국인 유전자 지도 완성과 함께 한국인, 유전정보라는 단어와 함께 유전적 변이의 하나인 SNP(스닙)에 대한 관심도가 증가하고 있습니다. 간단히 사람과 사람간이 차이를 바로 이 SNP을 통해 어느정도 이야기 할 수 있고, 이미 미국을 비롯한 외국에서는 이 SNP을 이용해서 한 사람, 가족에 대한 유전정보를 제공하고 있습니다. 그 대표적인 예가 바로 23andMe가 되겠죠,,, 유전체실용화 사업 우리나라에서도 일찍이 이러한 SNP 연구가 활발히 진행되어 왔고, 그 중심에 국립보건연구원의 유전체센터가 주도적인 연구를 진행해 오고 있습니다. 국립보건연구원은 2001년 부터 보건의료유전체연구사업내의 유전체 실용화 사업을 통해 한국인에 빈발하는 질병의 유전체정보를 수집하고 체계적으로 연구/관..

SNP Browser 작업

10,000명에 대한 각각의 500,000개의 데이터 즉, 10,000 x 500,000의 속이 꽉찬 매트릭스가 탄생하게 된다. 여기서 원하는 것들만 뽑아내서 지지고 볶고 다듬는 작업,, sparse matrix도 아니고 ㅜㅜ. 여기서 우선 DB에 넣고 원하는 값만을 뽑아내는 작업을 해봤는데, 프로그램 작성시 DB에 대해서 연결을 해줘야 하고, 인덱스에 테이블 쪼개기, 하드웨어 최적화 등등의 작업까지 모두 해보았지만, 별로 맘에 들지 않는다. 간단한 질의를 수행했지만 6분정도의 시간이 소요 간단하게 말해 10,000 x 500,000 매트릭스 내용을 보여주는 브라우저 - 현재 프로토타입 단계 자세한건 나중에 ^^ 브라우저야 어느정도의 시간을 감수하면서 DB에 넣을 데이터들을 만들었지만, 저 데이터를 가지..

나는 엄마 닮았어 아빠 닮았어?

아빠 vs. 딸 엄마 vs. 딸 위의 그림은 일전에 서울대에서 발표했던 내용 중에서 23andMe에서 제공하는 서비스 중 자신의 가족들간의 Genome유사성을 비교해주는 서비스의 일부분이다. 물론 돈을 지불해야만 자신의 Genome 데이터를 볼 수 있지만, 샘플데이터로 Mendel가족(영국의 실제 가족이라고 한다. 물론 그들의 동의를 얻어서 공개하는 것이고,,,)의 엄마,아빠와 딸을 각각 Genome-Wide로 비교한 결과이다. 단순 수치로 보자면 딸은 아빠보다는 엄마를 더 닮았다. 그럼 이 결과는 어떻게 나온것인지 살짝 살펴보고 이것이 의미하는 바를 한번 짚어 보자. 23andMe에서는 자신의 구강에서 DNA를 채취해서(CSI를 보신분이라면 ^^) 약 600,000개의 SNP을 찾아낸다. 바로 이 SN..

blogging 2008.08.06