유전자정보분석 127

지난 10년간의 genome과 질병에 대한 연구

Population sequencing of two endocannabinoid metabolic genes identifies rare and common regulatory variants associated with extreme obesity and metabolite level - population 기반의 candidate gene의 ngs를 이용한 sequence 기반의 association 연구 논문 Backgroud의 첫 문장은 다음과 같이 시작한다. "During the past decade, the search for the underlying genetic of complex traits and diseases in human has been focused on common DNA ..

Cloud computing in genomics and bioinformatics 워크샵

지난 10월 BMC의 Genome Biology에서 'Beyond the Genome' 이라는 주제의 컨퍼런스에서 클라우드 컴퓨팅과 지노믹스라는 주제의 워크샵이 있었습니다. BioMed Central Blog에서는 이 워크샵에 대한 내용을 잠깐 언급하고 있는데, 실제 가보지는 않았지만 제목이나 연사들을 보면서 현재 외국에서 어떠한 방향으로 genome과 클라우드를 언급하고 있는지 살펴볼 수 있는 좋은 기회일듯 싶어 간단히 언급하려고 합니다. High Throughput (고효율) 기술 중 단연 NGS는 데이터의 생산량이나 시간면에서 다른 어떤것들 보다 현재 이슈화 되있는게 현실입니다. 하지만 NGS 이전에도 많은 Bio 데이터가 생산되었고 이에 따른 컴퓨팅 리소스나 스토리지 리소스 또한 대두되었던것은 사..

Genomics & Cloud (2) - Galaxy를 이용한 부시맨 Genome 분석

Genomeics & Cloud의 두 번째 시간이 왔습니다. 바로 클라우드 컴퓨팅쪽으로 가려고 했지만 galaxy를 이용한 genome 분석에 대해서 하나만 더 이야기 하고 Amazon의 클라우드로 넘어가려고 합니다. 저번 시간에는 기본적인 galaxy의 사용에 초점을 맞추어 진행했는데 오늘도 저번과 galaxy의 기능에서는 추가되는 내용은 없지만 실제 아프리카의 부시맨 데이터를 가지고 진행을 하도록 하겠습니다. - 마찬가지로 galaxy 홈페이지에 Screencast에 있는 내용입니다. 1980년 개봉된 영화 부시맨, 주인공 니카우씨는 2003년 07월 돌아가셨네요. 이번 분석에 사용된 부시맨들은 니카우씨 연배의 분들입니다. 아프리카 남부의 부시맨 올해초 아프리카 남부의 부시맨(Khoisan, 코이산종..

개인 유전체 분석 공짜 이벤트 - Personal Genome Project in Korea

Personal Genome (PG) 분야는 다음의 두 기관에서 주도적으로 진행하고 있습니다. A highly annotated whole-genome sequence of a Korean individual, nature 2009 논문을 통해 AK1에 대한 full genome sequencing을 수행한 서울대학교의 Genome Medicine Institute에서 진행하고 1) Asian Genome Road 와 The first Korean genome sequence and analysis: Full genome sequencing for a socio-ethnic group, Genome Research 2009 논문을 통해 김성진(SJK)에 대한 full genome sequencing을 수..

Genomics & Cloud (1) - Galaxy를 이용한 SNP 분석

오늘은 클라우드 컴퓨팅과 지노믹스 첫 번째 시간으로 Galaxy라는 웹 기반의 Genomic 데이터 분석 툴을 가지고 SNP 분석에 대해서 알아본 후 두 번째 시간에는 아마존의 EC2 서비스를 통해서 Galaxy를 아마존에 EC2 클러스터에서 사용하는 방법에 대해서 알아보겠습니다. 우선 Galaxy (스마트폰 아님 -.-;;)에서는 많은 기능을 제공하고 있는데 여기서는 SNP 데이터를 기반으로 작업하도록 하겠습니다. 오늘 분석은 Exon 상에 존재하는 이미 알려진 SNP을 찾아내고 많은 수의 SNP 을 가지고 있는 Exon 순으로 소팅하도록 하겠습니다. Galaxy를 통해서 UCSC의 Exon 데이터 가져오기 UCSC Browser는 브라우저상에 보여지는 내용을 Galaxy로 내보내는 기능 (UCSC T..

23andMe는 어떻게 고객들의 유전적 거리를 측정할까? (1)

몇 일전에 23andMe가 세번째 버전의 칩을 통해서 좀 더 많은 유전적 정보를 제공한다는 기사가 나왔다. 그럼 본론으로 들어가서 23andMe는 각 고객들간의 유전적 거리를 다음과 같이 2차원의 좌표상에 제공하는데, 기본적으로 칩 컨텐츠에 들어있는 60만개의 SNP 정보를 xy의 두개의 값으로 표현하게 된다. 이러한 방법은 PCA나 MDS와 같은 방법을 이용하는데, 이에 대한 설명은 이전 포스팅을 참고하면 좀 도움이 될듯하다. 간단히 말해서 많은 변수로 이루어진 예를 들어 음악의 경우 곡의재생시간, 가수, 장르, 작곡자, 작사자, 빠르기 등등의 수많은 변수를 간단히 xy의 값으로 축약해서 해당 음악의 특성을 한눈에 볼 수 있도록 하는 것이다. 그렇다면 SNP 데이터의 경우 어떤 데이터를 어떻게 가공해서..

클라우드 컴퓨팅과 Genome

클라우드 컴퓨팅과 Genome/Bioinformatics 관련 리뷰 논문 Lincoln D Stein, 2010, The case for cloud computing in genome informatics Eric E. Schadt et.al, 2010, Computational solutions to large-scale data management and analysis Joel T Dudley et.al, 2010, In Silico research in the era of cloud computing 클라우드 컴퓨팅 관련 Genome/Bioinformatics 관련 소프트웨어 Galaxy: Amazon EC2 서비스에 포팅해서 사용 가능한 Biology(NGS/SNP GWAS) 웹 기반 워크플로우..

Galaxy를 이용한 Genome Sequence 알아내기

Galaxy를 보고 있자면 몇 해전 국내에서 선풍적인? 인기를 몰았던 Biopipe나 Bioworks가 생각난다. 그네들(workflow 도구들)이 조금만 다듬어졌었더라면, 그리고 너무 WebServices에 얽매여 있었던 것 같다는 느낌이 강하다. WebServices가 분명 많은 잇점이 있기는 하지만 역시나 어려운건 사실이기 때문이다. 요즘 NGS 데이터가 늘어나면서 Galaxy를 자주 찾게 된다. 비단 NGS 데이터의 align이나 variation을 찾는것 외에도 분석하느데 있어서 잡다한 일들을 비교적 손쉽게 할 수 있기 때문이다. 시간이 허락된다면, 간단히 실제 Galaxy를 사용하는 방법에 대해서 포스팅하려고하는데, 오늘은 첫 번째로 Reference 시퀀스를 가져오는 방법에 대해서 써보려고 ..

2010년 11월 19일 금요일 정리

a. Getting Genetics Done의 블로그의 내용 중에 1000 genomes 데이터를 가지고 imputation 하기 위한 연재를 시작, 태그로 1000 genomes와 imputaion을 사용 b. PLIN를 사용하다 보면 결과 파일이 화면상에 보기 좋게 출력된다. 이를 탭이나 콤마(CSV포맷)로 변경하기 위한 bash 스크립트는 다음과 같다. sed -r 's/\s+/\t/g' $1 | sed -r 's/^\t//g' | sed -r 's/NA/\\N/g' > $1.txt sed -r 's/\s+/,/g' $1 | sed -r 's/^,//g' | sed -r 's/NA/\\N/g' > $1.csv c. ANOVAR에서 이미 알려진 dbSNP나 1000 genomes의 SNP을 filte..

아들의 급작스런 죽음과 게놈

얼마전 란셋(The Lancet)에 한 개인의 퍼스널 게놈을 분석해서 현재까지 알려진 모든 Knowledge를 적용시켜 게놈을 임상적으로 어떻게 적용할 수 있는지에 논문(Euan A Ashely et al, 2010)이 나왔다. 논문에서는 40세의 vascular disease와 early sudden death의 가족력을 가지고 있는 남성의 게놈을 분석하고(신의 밥상처럼) 현재까지 나와 있는 모든 문헌과 데이터베이스를 탈탈 털어서 이를 임상적으로 어떻게 적용/해석해야 하는지에 대한 내용이었다. 바로 어제 난 몇 달전에 나온 이 논문을 다시 꺼내서 저자 이름과 가족 구성도가 그려진 Figure2의 왼쪽 구석을 응시하면서 잠시 고향에 계신 아버지를 떠올리며, 잠시 이런저런 생각에 잠겼다. 나에게 아버지를 ..