클라우드 컴퓨팅과 Genome/Bioinformatics 관련 리뷰 논문 Lincoln D Stein, 2010, The case for cloud computing in genome informatics Eric E. Schadt et.al, 2010, Computational solutions to large-scale data management and analysis Joel T Dudley et.al, 2010, In Silico research in the era of cloud computing 클라우드 컴퓨팅 관련 Genome/Bioinformatics 관련 소프트웨어 Galaxy: Amazon EC2 서비스에 포팅해서 사용 가능한 Biology(NGS/SNP GWAS) 웹 기반 워크플로우..
Galaxy를 보고 있자면 몇 해전 국내에서 선풍적인? 인기를 몰았던 Biopipe나 Bioworks가 생각난다. 그네들(workflow 도구들)이 조금만 다듬어졌었더라면, 그리고 너무 WebServices에 얽매여 있었던 것 같다는 느낌이 강하다. WebServices가 분명 많은 잇점이 있기는 하지만 역시나 어려운건 사실이기 때문이다. 요즘 NGS 데이터가 늘어나면서 Galaxy를 자주 찾게 된다. 비단 NGS 데이터의 align이나 variation을 찾는것 외에도 분석하느데 있어서 잡다한 일들을 비교적 손쉽게 할 수 있기 때문이다. 시간이 허락된다면, 간단히 실제 Galaxy를 사용하는 방법에 대해서 포스팅하려고하는데, 오늘은 첫 번째로 Reference 시퀀스를 가져오는 방법에 대해서 써보려고 ..
a. Getting Genetics Done의 블로그의 내용 중에 1000 genomes 데이터를 가지고 imputation 하기 위한 연재를 시작, 태그로 1000 genomes와 imputaion을 사용 b. PLIN를 사용하다 보면 결과 파일이 화면상에 보기 좋게 출력된다. 이를 탭이나 콤마(CSV포맷)로 변경하기 위한 bash 스크립트는 다음과 같다. sed -r 's/\s+/\t/g' $1 | sed -r 's/^\t//g' | sed -r 's/NA/\\N/g' > $1.txt sed -r 's/\s+/,/g' $1 | sed -r 's/^,//g' | sed -r 's/NA/\\N/g' > $1.csv c. ANOVAR에서 이미 알려진 dbSNP나 1000 genomes의 SNP을 filte..
얼마전 란셋(The Lancet)에 한 개인의 퍼스널 게놈을 분석해서 현재까지 알려진 모든 Knowledge를 적용시켜 게놈을 임상적으로 어떻게 적용할 수 있는지에 논문(Euan A Ashely et al, 2010)이 나왔다. 논문에서는 40세의 vascular disease와 early sudden death의 가족력을 가지고 있는 남성의 게놈을 분석하고(신의 밥상처럼) 현재까지 나와 있는 모든 문헌과 데이터베이스를 탈탈 털어서 이를 임상적으로 어떻게 적용/해석해야 하는지에 대한 내용이었다. 바로 어제 난 몇 달전에 나온 이 논문을 다시 꺼내서 저자 이름과 가족 구성도가 그려진 Figure2의 왼쪽 구석을 응시하면서 잠시 고향에 계신 아버지를 떠올리며, 잠시 이런저런 생각에 잠겼다. 나에게 아버지를 ..
이번에는 genome unzipped에 공개된 유전체(SNP) 데이터를 기반으로 ancestry를 분석한것에 대해서 이야기해보려고 한다. 특히 다니엘과 조에 포커스가 맞추어져 있으니 사진을 잘 보고 이 글을 읽어 나간다면 더욱 흥미로울 것이다. 북서/남동 유럽의 지리적 위치 이들의 유전체 데이터가 공개되자 제일 먼저 Dienekes' Anthropology 블로그를 통해 이들의 선조에 대한 정보를 분석한 결과가 공개되었다. 유럽인이라면 23andMe나 deCODEme의 유전자 검사 데이터를 EURO-DNA-CALC이라는 프로그램에 입력하면 NW (북서) 유럽인, SE (남동) 유럽인, 중동부 유럽 유대인의 후손인 아슈케나이지 유대인의 3가지의 분류로 자신의 선조 정보를 표시해준다. 대부분 서양인들이 한국..
게놈과 관련된 글들을 올리고 있는 'genome unzipped'에서는 총 12명의 저자들이 글을 올리고 있으며 이들은 이분야에 좀 관심만 있다면 한번쯤은 이름을 들어본 사람들로 구성되어 있다. 그런데 이들이 얼마전 자신의 게놈을 공개해버렸다. 말 그대로 자신들의 게놈을 unzip해 버린것이다. 데이터가 공개되자 이들은 공개된 데이터에 대해서 이런 저런 분석, 윤리적인 면들에 대해 블로그를 작성하고 있는데, 오늘은 여러가지 분석중에서 블로그 저장중 한명인 Conrad가 자신과 자신의 부모의 게놈을 분석한 이야기를 해보려고 한다. 유전자 복제수 변이 (Copy Number Variation, CNV) 얼마전 헬스로그의 최신연구동향에 "ADHD는 환경적인 문제만으로 발생하지 않는다"라는 란셋 논문에서 간단히..