Population sequencing of two endocannabinoid metabolic genes identifies rare and common regulatory variants associated with extreme obesity and metabolite level - population 기반의 candidate gene의 ngs를 이용한 sequence 기반의 association 연구 논문 Backgroud의 첫 문장은 다음과 같이 시작한다. "During the past decade, the search for the underlying genetic of complex traits and diseases in human has been focused on common DNA ..
지난 10월 BMC의 Genome Biology에서 'Beyond the Genome' 이라는 주제의 컨퍼런스에서 클라우드 컴퓨팅과 지노믹스라는 주제의 워크샵이 있었습니다. BioMed Central Blog에서는 이 워크샵에 대한 내용을 잠깐 언급하고 있는데, 실제 가보지는 않았지만 제목이나 연사들을 보면서 현재 외국에서 어떠한 방향으로 genome과 클라우드를 언급하고 있는지 살펴볼 수 있는 좋은 기회일듯 싶어 간단히 언급하려고 합니다. High Throughput (고효율) 기술 중 단연 NGS는 데이터의 생산량이나 시간면에서 다른 어떤것들 보다 현재 이슈화 되있는게 현실입니다. 하지만 NGS 이전에도 많은 Bio 데이터가 생산되었고 이에 따른 컴퓨팅 리소스나 스토리지 리소스 또한 대두되었던것은 사..
Genomeics & Cloud의 두 번째 시간이 왔습니다. 바로 클라우드 컴퓨팅쪽으로 가려고 했지만 galaxy를 이용한 genome 분석에 대해서 하나만 더 이야기 하고 Amazon의 클라우드로 넘어가려고 합니다. 저번 시간에는 기본적인 galaxy의 사용에 초점을 맞추어 진행했는데 오늘도 저번과 galaxy의 기능에서는 추가되는 내용은 없지만 실제 아프리카의 부시맨 데이터를 가지고 진행을 하도록 하겠습니다. - 마찬가지로 galaxy 홈페이지에 Screencast에 있는 내용입니다. 1980년 개봉된 영화 부시맨, 주인공 니카우씨는 2003년 07월 돌아가셨네요. 이번 분석에 사용된 부시맨들은 니카우씨 연배의 분들입니다. 아프리카 남부의 부시맨 올해초 아프리카 남부의 부시맨(Khoisan, 코이산종..
Personal Genome (PG) 분야는 다음의 두 기관에서 주도적으로 진행하고 있습니다. A highly annotated whole-genome sequence of a Korean individual, nature 2009 논문을 통해 AK1에 대한 full genome sequencing을 수행한 서울대학교의 Genome Medicine Institute에서 진행하고 1) Asian Genome Road 와 The first Korean genome sequence and analysis: Full genome sequencing for a socio-ethnic group, Genome Research 2009 논문을 통해 김성진(SJK)에 대한 full genome sequencing을 수..
오늘은 클라우드 컴퓨팅과 지노믹스 첫 번째 시간으로 Galaxy라는 웹 기반의 Genomic 데이터 분석 툴을 가지고 SNP 분석에 대해서 알아본 후 두 번째 시간에는 아마존의 EC2 서비스를 통해서 Galaxy를 아마존에 EC2 클러스터에서 사용하는 방법에 대해서 알아보겠습니다. 우선 Galaxy (스마트폰 아님 -.-;;)에서는 많은 기능을 제공하고 있는데 여기서는 SNP 데이터를 기반으로 작업하도록 하겠습니다. 오늘 분석은 Exon 상에 존재하는 이미 알려진 SNP을 찾아내고 많은 수의 SNP 을 가지고 있는 Exon 순으로 소팅하도록 하겠습니다. Galaxy를 통해서 UCSC의 Exon 데이터 가져오기 UCSC Browser는 브라우저상에 보여지는 내용을 Galaxy로 내보내는 기능 (UCSC T..
몇 일전에 23andMe가 세번째 버전의 칩을 통해서 좀 더 많은 유전적 정보를 제공한다는 기사가 나왔다. 그럼 본론으로 들어가서 23andMe는 각 고객들간의 유전적 거리를 다음과 같이 2차원의 좌표상에 제공하는데, 기본적으로 칩 컨텐츠에 들어있는 60만개의 SNP 정보를 xy의 두개의 값으로 표현하게 된다. 이러한 방법은 PCA나 MDS와 같은 방법을 이용하는데, 이에 대한 설명은 이전 포스팅을 참고하면 좀 도움이 될듯하다. 간단히 말해서 많은 변수로 이루어진 예를 들어 음악의 경우 곡의재생시간, 가수, 장르, 작곡자, 작사자, 빠르기 등등의 수많은 변수를 간단히 xy의 값으로 축약해서 해당 음악의 특성을 한눈에 볼 수 있도록 하는 것이다. 그렇다면 SNP 데이터의 경우 어떤 데이터를 어떻게 가공해서..