분류 전체보기 749

잃어버린 부모 찾기 - VCF 파일을 PLINK 포맷으로 변경하기

즐거운 분석 놀이 - 역시나 제일 재미있는 것은 뭐랄까? 데이터를 분석하고 거기에서 의미를 찾아내는 것이 아닐까? ^_____________^ 마치 보물찾기와 같은...그럼 오늘은 저번 galaxy를 이용한 분석의 연장선상으로 발굴한 유전변이를 가지고 다양한 분석을 해보도록 하겠습니다. 그런데 안타깝게도 오늘 사용할 주재료인 VCF 파일은 galaxy에서 아직 지원을 안하고 있습니다. VCF (Variant Call Format)는 유전변이를 나타내는 표준 파일 형식인데요. NGS를 통해 발굴된 유전변이를 VCF 포맷으로 만들어야 하건만, 이때 Picard나 GATK와 같은 툴들이 사용되는데, 아직 galaxy에서는 이 툴들을 지원하지 않고 있습니다. 뭐 조만간 지원할 것이라고 보는데요. 그건 테스트 g..

Galaxy를 이용한 NGS 분석 (2) - Mapping & SNP calling

Galaxy를 이용한 NGS 데이터 분석에 대한 두번째 시간이자 마지막입니다. ^^;; 본 문서는 크게 3부분으로 구성되어 있습니다. 다음 시간에는 Galaxy를 비롯한 OpenSource 진영과 상용 분석툴에 대한 내용과 실제 Whole genome 데이터를 다룰때 고려해야 할 점과 좀 더 자세한 분석 옵션과 고려할 사항들에 대해서 이야기 해보도록 하겠습니다. 당장 나에게 NGS 데이터 분석이 필요없다고 하시는 분들도 한번쯤은 읽어보시고, 어떻게 데이터 분석이 진행되는지 한번 살펴보는 것도 좋을 듯 합니다. 그럼 즐거운 주말 보내세요 ^_________________^;; 혹시 잘못된 부분이나 추가할 부분이 있으시다면 댓글 부탁드립니다. >> Galaxy를 이용한 NGS 분석 PDF 파일 다운로드하기

Day4 - 보다 자세한 Ancestry 정보

Day3에 이어서 Interpretome을 이용하여 자신의 genome을 분석하는 시간이다. 이번에는 Clinical과 Ancestry 기능으로 우선 Ancestry 기능을 위주로 살펴보도록하겠다. Ancestry Ancestry는 Similarity, PCA, Painting의 메뉴로 구성되어 자신의 genome 데이터를 가지고 다양한 방법을 통해 자신의 조상 정보를 표시해 준다. 그럼 하나씩 하나씩 어떠한 원리로 자신의 genome 정보를 표시하는지 간단한 이론과 함께 살펴보도록 하자. Similarity 인간은 누구가 부모에게서 하나씩 받은 총 23개의 염색체로 구성되어 있다. 물론 어떤게 아버지에게 어머니에게 받은 건지는 확실하게 알 수는 없다. 이 부분에 대해서는 이전 글에서 언급했었으니 참고하..

Day3 - 네안데르탈인과 나의 Genome 비교

데이터도 얻었고 public domain에 등록도 해보았다. 그렇다면 이제부터 내 Genome을 내스스로 한번 분석해 보도록하자. 하지만 이미 많은 연구자들이 personal genome 데이터를 해석해주는 다양한 툴들을 만들어 놓았으니 우선 이것들을 활용해서 분석하는 것 부터 시작해보도록 하자. Interpretome Interpretome은 웹기반의 툴로서 스탠포드 대학의 유전학 강의를 듣는 학생들이 만든 것이다. Genome 데이터로부터 할 수 있는 다양한 분석을 웹상에 구현해 놓았으니 당신은 클릭만 하면 된다. 자신의 23andMe 포맷의 데이터를 업로드하면 서버상에서 분석해서 그 결과를 보여준다. Interpretome을 사용하기 위해서는 우선 23andMe 파일을 선택한 후 자신의 인종을 선택..

Day2 - 내 데이터 공개하기

자신의 genotype 데이터가 준비되었고, 또한 DTC 회사에서 제공하는 정보외에 다양한 정보를 얻기를 원할 것이다. 이러한 정보들을 얻기 이전에 과학계의 발전을 위해서 내 데이터가 쓰여지길 원하고 더불어 몇몇 유용한 정보를 더 얻기를 원한다면 다음의 서비스들은 당신에게 커다란 보람을 줄것이다. openSNP openSNP은 최근에 만들어진 사이트로 자신의 결과를 다른사람들과 공유할 수 있도록 만들어진 웹 기반 시스템이다. 23andMe나 deCOMEme 사용들은 자신의 raw data를 업로드하고 다양한 방법으로 확인할 수 있다. Phenotypes 머리카락색, 눈색 등의 이미 다른 사용자가 만들어진 phenotype 정보에 자신의 phenotype을 적거나, 없는 phenotype의 경우 자신이 직..

DNAnexus 서비스를 통해 보는 Genome 연구의 패러다임 변화

현재 과학과뿐만 아니라 타 분야 특히 통신분야를 포함한 다양한 분야에서의 관심사 중의 하나는 Big Data이다. 이러한 Big Data는 더이상 연구소에 보유한 컴퓨팅의 한계를 뛰어넘는 (당신이 Broad나 Sanger에서 연구를 하지 않는 이상...) 그래서 요즘 화두는 이러한 Big Data를 다루는데에 있어서 Cloud 컴퓨팅은 그 대안으로 떠오르고 있으며, Cloud의 활용 분야에 대한 기사를 보더라도 호스팅 서비스가 16% 정도임에 비해 HPC (High Performance Computing)가 27%로 나타나고 있다. Cloud Computing USE CASES 실제로 외국에서는 Bioinformatics 분석 회사들이 자신들의 솔루션을 Amazon AWS를 이용해서 제공하는 형태로 서비..

Day1 - Genome Data 받기

Genotyping 데이터나 Sequencing 데이터의 가격이 점차 하락과 함께 23andMe나 deCODEme와 같은 DTC(소비자직접거래) 방식의 Personal genome 서비스를 통해 자신의 질병에 대한 유전적인 소인이나 자신의 조상에 대한 정보를 얻을 수 있게 되었다. 23andMe 서비스를 받았다면, 자신의 Genotype 데이터를 따로 받을 수 있다. 23andMe에 로그인한 후 Download raw data를 선택하면 자신의 genotype raw 데이터를 다운로드가 가능하다. SNPTips를 사용하면 firefox web browser를 pop-up 창에서 SNP 정보를 확인할 수 있게 된다. 23andMe에서도 이와 비슷하게 SNP 정보를 확인 할 수 있다. 23andMe의 경우 ..

FASTQ - NGS 데이터 포맷

바로 밑에서 엑솜 데이터를 Galaxy를 이용해서 분석하는데에 잠깐 언급된 내용인데 좀 정리가 필요한 부분일 것 같다는 생각이 들어서 짧게 언급하려고 한다. 일반적으로 차세대 시퀀서에서 사용하는 데이터 포맷은 fastq 포맷으로 인간이 읽을 수 있는 텍스트 파일 형태로 biological sequence(일반적으로 nucleotide sequence)와 이에 상응하는 quality score로 구성된 파일이다. 즉 각 nucleotide base마다 해당 base가 얼마나 정확하게 읽어낸 것인지에 대한 quality가 함께 포함된 파일로 산업계의 표준 (de facto) 으로 Illumina Genome Analyzer와 같은 시퀀서에서 사용된다. 일반적으로 fastq 파일의 확장자는 정해진게 없지만 주..

Hadoop for Bioinformatics

간단히 정리하려고 쌓아두고 있었는데, 당췌 시간이 나질 않아서 우선 제목과 URL만 주욱 나열합니다. 추후 어떠한 방식으로 어떻게 Hadoop을 응용해서 사용하는지에 대해서 포스팅 할 계획입니다. 그전에 우선!!! :) Summarizing next-gen sequencing variation statistics with Hadoop using Cascalog http://bcbio.wordpress.com/2011/07/04/summarizing-next-gen-sequencing-variation-statistics-with-hadoop-using-cascalog/ Hadoop: intervals and JOIN http://stackoverflow.com/questions/1832103/hadoop..