유전자정보분석 127

Galaxy를 이용한 NGS 분석 (2) - Mapping & SNP calling

Galaxy를 이용한 NGS 데이터 분석에 대한 두번째 시간이자 마지막입니다. ^^;; 본 문서는 크게 3부분으로 구성되어 있습니다. 다음 시간에는 Galaxy를 비롯한 OpenSource 진영과 상용 분석툴에 대한 내용과 실제 Whole genome 데이터를 다룰때 고려해야 할 점과 좀 더 자세한 분석 옵션과 고려할 사항들에 대해서 이야기 해보도록 하겠습니다. 당장 나에게 NGS 데이터 분석이 필요없다고 하시는 분들도 한번쯤은 읽어보시고, 어떻게 데이터 분석이 진행되는지 한번 살펴보는 것도 좋을 듯 합니다. 그럼 즐거운 주말 보내세요 ^_________________^;; 혹시 잘못된 부분이나 추가할 부분이 있으시다면 댓글 부탁드립니다. >> Galaxy를 이용한 NGS 분석 PDF 파일 다운로드하기

DNAnexus 서비스를 통해 보는 Genome 연구의 패러다임 변화

현재 과학과뿐만 아니라 타 분야 특히 통신분야를 포함한 다양한 분야에서의 관심사 중의 하나는 Big Data이다. 이러한 Big Data는 더이상 연구소에 보유한 컴퓨팅의 한계를 뛰어넘는 (당신이 Broad나 Sanger에서 연구를 하지 않는 이상...) 그래서 요즘 화두는 이러한 Big Data를 다루는데에 있어서 Cloud 컴퓨팅은 그 대안으로 떠오르고 있으며, Cloud의 활용 분야에 대한 기사를 보더라도 호스팅 서비스가 16% 정도임에 비해 HPC (High Performance Computing)가 27%로 나타나고 있다. Cloud Computing USE CASES 실제로 외국에서는 Bioinformatics 분석 회사들이 자신들의 솔루션을 Amazon AWS를 이용해서 제공하는 형태로 서비..

Day1 - Genome Data 받기

Genotyping 데이터나 Sequencing 데이터의 가격이 점차 하락과 함께 23andMe나 deCODEme와 같은 DTC(소비자직접거래) 방식의 Personal genome 서비스를 통해 자신의 질병에 대한 유전적인 소인이나 자신의 조상에 대한 정보를 얻을 수 있게 되었다. 23andMe 서비스를 받았다면, 자신의 Genotype 데이터를 따로 받을 수 있다. 23andMe에 로그인한 후 Download raw data를 선택하면 자신의 genotype raw 데이터를 다운로드가 가능하다. SNPTips를 사용하면 firefox web browser를 pop-up 창에서 SNP 정보를 확인할 수 있게 된다. 23andMe에서도 이와 비슷하게 SNP 정보를 확인 할 수 있다. 23andMe의 경우 ..

FASTQ - NGS 데이터 포맷

바로 밑에서 엑솜 데이터를 Galaxy를 이용해서 분석하는데에 잠깐 언급된 내용인데 좀 정리가 필요한 부분일 것 같다는 생각이 들어서 짧게 언급하려고 한다. 일반적으로 차세대 시퀀서에서 사용하는 데이터 포맷은 fastq 포맷으로 인간이 읽을 수 있는 텍스트 파일 형태로 biological sequence(일반적으로 nucleotide sequence)와 이에 상응하는 quality score로 구성된 파일이다. 즉 각 nucleotide base마다 해당 base가 얼마나 정확하게 읽어낸 것인지에 대한 quality가 함께 포함된 파일로 산업계의 표준 (de facto) 으로 Illumina Genome Analyzer와 같은 시퀀서에서 사용된다. 일반적으로 fastq 파일의 확장자는 정해진게 없지만 주..

Hadoop for Bioinformatics

간단히 정리하려고 쌓아두고 있었는데, 당췌 시간이 나질 않아서 우선 제목과 URL만 주욱 나열합니다. 추후 어떠한 방식으로 어떻게 Hadoop을 응용해서 사용하는지에 대해서 포스팅 할 계획입니다. 그전에 우선!!! :) Summarizing next-gen sequencing variation statistics with Hadoop using Cascalog http://bcbio.wordpress.com/2011/07/04/summarizing-next-gen-sequencing-variation-statistics-with-hadoop-using-cascalog/ Hadoop: intervals and JOIN http://stackoverflow.com/questions/1832103/hadoop..

지금까지의 gwas는 잊어라, 새로운 연구 패러다임

지금까지 질병관련 유전자를 찾는 gwas 연구에서 있어서 몇가지 트렌드를 짚어보자면 다음과 같다. 1. 불과 몇년전만 하더라도 아니 아직까지도 많은 수의 샘플을 모으는데에 있어서 어려움이 따른다. 2. 한 사람 한사람 유전정보를 얻기 위한 Genome-wide SNP chip 가격이 점점 하락하고 있다. 3. 대부분의 연구가 유럽인을 조상으로 두고 있는 흔히 말하는 European을 중심으로 연구가 진행되어왔다. 4. 개별적으로 진행되었던 연구들이 모아지고 이를 통한 meta 분석이 현재 주를 이루고 있다. 5. 기존의 연구 결과에 대한 검증 연구가 이루어지고 있다. 이러한 현재 트렌드와 더불어 다음과 같은 꾸준한 움직임이 포착되어지고 있는데 하나씩 살펴보자면 다음과 같다. 1. 질병외에 다른 trait..

갤럭시를 이용한 Exome 데이터 분석

가끔 어디서부턴가 유래를 알 수 없는 데이터를 받게 되고 또 그것을 분석해야 하는 일들이 종종 생기게 된다. 최근(지금은 아니지만)에는 그러한 데이터중의 하나가 바로 NGS 시퀀싱 데이터였다. 몇 년전 Roche/454의 pyrosequencing을 통해 생성된 데이터였는데, SFF 형태로 데이터를 받게 되었다. 454라는 것은 알고 있었는데 그 당시만 해도 당췌 Flowgram이 뭔지, SFF를 fastq 포맷으로 바꾸느라 삽질하고 이것저건 mapping/variant call 프로그램들 셋팅하느라 시간 보낸걸 생각하면 요즘은 참 세상이 많이 좋아졌다라는 생각을 하지만 여전히 예전의 나처럼 삽질하고 있는 또는 삽질할 분들께 도움이 될까하는 마음에 ^^;; Life Techologies의 SOLiD 데이..

인체 미생물과 한국인 SNP을 기반으로 하는 포렌식 사이언스

범죄 수사에 있어서 DNA는 STR profile, 미토콘드리아 DNA 염기서열이 가장 많이 사용되고 있다. 더불어 이에 대한 각종 연구와 데이터베이스 또한 잘 연구/구축되어 있다. 미국 FBI는 미국의 각 주정부와 연결된 범죄자의 유전자를 조사를 실사하는 CODIS라는 시스템을 갖추고 있으며, 이 시스템에는 400만명의 DNA 자료가 축적되어 있다고 한다. 미국 FBI는 표준 13개의 STR을 검사하고 이를 통해 신원을 파악하는데에 이용하고 있다. 이는 13개라는 비교적 적은 수의 마커를 통해 강력하게 개인 식별이 가능하기 때문에 많이 사용되고 있다. 911과 DNA 그리고 IT 인프라 그러나 911과 같이 시신이 많이 훼손된 경우 온전하게 13개의 STR 마커를 확보하기 어려웠기 때문에 STR, 미토..

공공보건과 NGS+Bioinformaics+클라우드 컴퓨팅의 만남

요즘 유럽이 장출혈성 대장균 (EHEC, enterohemorrhagic E. coli)으로 인해 떠들썩하다. 대장균(colon bacterium, 학명은 Escherichia coil,Escherichia속 세균의 1종)은 사람이나 동물의 장 속에 사는 세균으로 특히 대장에 많이 존재하기 때문에 대장균이라고 불리운다. 질병관리본부 국립보건연구원 감염병센터(7과)의 장내세균과에서 이러한 장출혈성 대장균에 대한 연구가 이루어지고 있다. "중국 BGI에서는 이 장출혈성 대장균이 서로 다른 2종의 박테리아가 결합된 변종으로 치명적인 유전자를 갖고 있다고 밝혔다. STEC(시가 톡신 생성 대장균, Shiga toxin producing Escherichia coli)로 불리는 변종으로 판명된 이 박테리아는 중앙..