분류 전체보기 749

Genomics & Cloud (1) - Galaxy를 이용한 SNP 분석

오늘은 클라우드 컴퓨팅과 지노믹스 첫 번째 시간으로 Galaxy라는 웹 기반의 Genomic 데이터 분석 툴을 가지고 SNP 분석에 대해서 알아본 후 두 번째 시간에는 아마존의 EC2 서비스를 통해서 Galaxy를 아마존에 EC2 클러스터에서 사용하는 방법에 대해서 알아보겠습니다. 우선 Galaxy (스마트폰 아님 -.-;;)에서는 많은 기능을 제공하고 있는데 여기서는 SNP 데이터를 기반으로 작업하도록 하겠습니다. 오늘 분석은 Exon 상에 존재하는 이미 알려진 SNP을 찾아내고 많은 수의 SNP 을 가지고 있는 Exon 순으로 소팅하도록 하겠습니다. Galaxy를 통해서 UCSC의 Exon 데이터 가져오기 UCSC Browser는 브라우저상에 보여지는 내용을 Galaxy로 내보내는 기능 (UCSC T..

23andMe는 어떻게 고객들의 유전적 거리를 측정할까? (1)

몇 일전에 23andMe가 세번째 버전의 칩을 통해서 좀 더 많은 유전적 정보를 제공한다는 기사가 나왔다. 그럼 본론으로 들어가서 23andMe는 각 고객들간의 유전적 거리를 다음과 같이 2차원의 좌표상에 제공하는데, 기본적으로 칩 컨텐츠에 들어있는 60만개의 SNP 정보를 xy의 두개의 값으로 표현하게 된다. 이러한 방법은 PCA나 MDS와 같은 방법을 이용하는데, 이에 대한 설명은 이전 포스팅을 참고하면 좀 도움이 될듯하다. 간단히 말해서 많은 변수로 이루어진 예를 들어 음악의 경우 곡의재생시간, 가수, 장르, 작곡자, 작사자, 빠르기 등등의 수많은 변수를 간단히 xy의 값으로 축약해서 해당 음악의 특성을 한눈에 볼 수 있도록 하는 것이다. 그렇다면 SNP 데이터의 경우 어떤 데이터를 어떻게 가공해서..

클라우드 컴퓨팅과 Genome

클라우드 컴퓨팅과 Genome/Bioinformatics 관련 리뷰 논문 Lincoln D Stein, 2010, The case for cloud computing in genome informatics Eric E. Schadt et.al, 2010, Computational solutions to large-scale data management and analysis Joel T Dudley et.al, 2010, In Silico research in the era of cloud computing 클라우드 컴퓨팅 관련 Genome/Bioinformatics 관련 소프트웨어 Galaxy: Amazon EC2 서비스에 포팅해서 사용 가능한 Biology(NGS/SNP GWAS) 웹 기반 워크플로우..

Galaxy를 이용한 Genome Sequence 알아내기

Galaxy를 보고 있자면 몇 해전 국내에서 선풍적인? 인기를 몰았던 Biopipe나 Bioworks가 생각난다. 그네들(workflow 도구들)이 조금만 다듬어졌었더라면, 그리고 너무 WebServices에 얽매여 있었던 것 같다는 느낌이 강하다. WebServices가 분명 많은 잇점이 있기는 하지만 역시나 어려운건 사실이기 때문이다. 요즘 NGS 데이터가 늘어나면서 Galaxy를 자주 찾게 된다. 비단 NGS 데이터의 align이나 variation을 찾는것 외에도 분석하느데 있어서 잡다한 일들을 비교적 손쉽게 할 수 있기 때문이다. 시간이 허락된다면, 간단히 실제 Galaxy를 사용하는 방법에 대해서 포스팅하려고하는데, 오늘은 첫 번째로 Reference 시퀀스를 가져오는 방법에 대해서 써보려고 ..

2010년 11월 19일 금요일 정리

a. Getting Genetics Done의 블로그의 내용 중에 1000 genomes 데이터를 가지고 imputation 하기 위한 연재를 시작, 태그로 1000 genomes와 imputaion을 사용 b. PLIN를 사용하다 보면 결과 파일이 화면상에 보기 좋게 출력된다. 이를 탭이나 콤마(CSV포맷)로 변경하기 위한 bash 스크립트는 다음과 같다. sed -r 's/\s+/\t/g' $1 | sed -r 's/^\t//g' | sed -r 's/NA/\\N/g' > $1.txt sed -r 's/\s+/,/g' $1 | sed -r 's/^,//g' | sed -r 's/NA/\\N/g' > $1.csv c. ANOVAR에서 이미 알려진 dbSNP나 1000 genomes의 SNP을 filte..

아들의 급작스런 죽음과 게놈

얼마전 란셋(The Lancet)에 한 개인의 퍼스널 게놈을 분석해서 현재까지 알려진 모든 Knowledge를 적용시켜 게놈을 임상적으로 어떻게 적용할 수 있는지에 논문(Euan A Ashely et al, 2010)이 나왔다. 논문에서는 40세의 vascular disease와 early sudden death의 가족력을 가지고 있는 남성의 게놈을 분석하고(신의 밥상처럼) 현재까지 나와 있는 모든 문헌과 데이터베이스를 탈탈 털어서 이를 임상적으로 어떻게 적용/해석해야 하는지에 대한 내용이었다. 바로 어제 난 몇 달전에 나온 이 논문을 다시 꺼내서 저자 이름과 가족 구성도가 그려진 Figure2의 왼쪽 구석을 응시하면서 잠시 고향에 계신 아버지를 떠올리며, 잠시 이런저런 생각에 잠겼다. 나에게 아버지를 ..

유전자로 알아본 선조 결과에 발끈?

이번에는 genome unzipped에 공개된 유전체(SNP) 데이터를 기반으로 ancestry를 분석한것에 대해서 이야기해보려고 한다. 특히 다니엘과 조에 포커스가 맞추어져 있으니 사진을 잘 보고 이 글을 읽어 나간다면 더욱 흥미로울 것이다. 북서/남동 유럽의 지리적 위치 이들의 유전체 데이터가 공개되자 제일 먼저 Dienekes' Anthropology 블로그를 통해 이들의 선조에 대한 정보를 분석한 결과가 공개되었다. 유럽인이라면 23andMe나 deCODEme의 유전자 검사 데이터를 EURO-DNA-CALC이라는 프로그램에 입력하면 NW (북서) 유럽인, SE (남동) 유럽인, 중동부 유럽 유대인의 후손인 아슈케나이지 유대인의 3가지의 분류로 자신의 선조 정보를 표시해준다. 대부분 서양인들이 한국..

게놈 구멍(CNV) 찾기

게놈과 관련된 글들을 올리고 있는 'genome unzipped'에서는 총 12명의 저자들이 글을 올리고 있으며 이들은 이분야에 좀 관심만 있다면 한번쯤은 이름을 들어본 사람들로 구성되어 있다. 그런데 이들이 얼마전 자신의 게놈을 공개해버렸다. 말 그대로 자신들의 게놈을 unzip해 버린것이다. 데이터가 공개되자 이들은 공개된 데이터에 대해서 이런 저런 분석, 윤리적인 면들에 대해 블로그를 작성하고 있는데, 오늘은 여러가지 분석중에서 블로그 저장중 한명인 Conrad가 자신과 자신의 부모의 게놈을 분석한 이야기를 해보려고 한다. 유전자 복제수 변이 (Copy Number Variation, CNV) 얼마전 헬스로그의 최신연구동향에 "ADHD는 환경적인 문제만으로 발생하지 않는다"라는 란셋 논문에서 간단히..

십대 소녀 가족 DNA를 위해 Microsoft Excel을 켜다

이전 블로그에서 자신이 직접 자신의 게놈을 분석하는 시대가 도래할 것이라고 호언장담을 했더랬는데 점점 그런 시대가 오고 있나 보다. 이러한 시도들이 전문가뿐만 아니라 비전문가들 사이에서도 어떻게 움직이고 있는지 몇몇 사례를 정리해보고자 한다. 1. 십대 소녀의 가족을 위한 DNA 분석 월스트리트저널에 2010년 10월 1일자에 "가족의 DNA를 분석하는 십대, Obsessed With Genes (Not Jeans), This Teen Analyzes Family DNA"에 관한 기사가 올라왔다. 바로 앤 웨스트라는 17세 캘리포니아 소녀이야기이다. Anne의 아버지는 폐색전증(pulmonary embolism, 페의 혈관이 혈전이나 공기에 의하여 막히는 질환) 진단을 받고 그의 네 가족의 전체게놈시퀀싱..

개인 유전체 분석 3시간만에 단돈 $85로 분석하기

요즘 내 관심사는 과연 NGS를 통해 현재 우리는 어떠한 정보를 얻을 수 있을것이나 하는 것이다. 인간 DNA 염기서열을 몽땅 읽어 들여서 현재까지의 연구를 통해 얻어진 정보를 가지고 그 안에 숨겨진 의미를 얼마나 프리젠테이션 할 수 있느냐는 것이다. 그에 대한 조그마한 답을 줄 수 있는 논문이 얼마전 란셋에 실린 "Clinacal assessment incorporating a personal genome"이다. 혈관질환과 급성심장정지의 가족력이 있는 40세 180Cm 86Kg의 full genome을 Heliscope genome 시퀀서를 통해 시퀀싱하여 이 사람의 멘델리안 질환, 약물에 대한 반응 및 환경과의 연관등 모든 알아낼 수 있는한 최대한의 정보를 알아내는 논문이다. 과연 full genom..