현재 과학과뿐만 아니라 타 분야 특히 통신분야를 포함한 다양한 분야에서의 관심사 중의 하나는 Big Data이다. 이러한 Big Data는 더이상 연구소에 보유한 컴퓨팅의 한계를 뛰어넘는 (당신이 Broad나 Sanger에서 연구를 하지 않는 이상...) 그래서 요즘 화두는 이러한 Big Data를 다루는데에 있어서 Cloud 컴퓨팅은 그 대안으로 떠오르고 있으며, Cloud의 활용 분야에 대한 기사를 보더라도 호스팅 서비스가 16% 정도임에 비해 HPC (High Performance Computing)가 27%로 나타나고 있다. Cloud Computing USE CASES 실제로 외국에서는 Bioinformatics 분석 회사들이 자신들의 솔루션을 Amazon AWS를 이용해서 제공하는 형태로 서비..
Genotyping 데이터나 Sequencing 데이터의 가격이 점차 하락과 함께 23andMe나 deCODEme와 같은 DTC(소비자직접거래) 방식의 Personal genome 서비스를 통해 자신의 질병에 대한 유전적인 소인이나 자신의 조상에 대한 정보를 얻을 수 있게 되었다. 23andMe 서비스를 받았다면, 자신의 Genotype 데이터를 따로 받을 수 있다. 23andMe에 로그인한 후 Download raw data를 선택하면 자신의 genotype raw 데이터를 다운로드가 가능하다. SNPTips를 사용하면 firefox web browser를 pop-up 창에서 SNP 정보를 확인할 수 있게 된다. 23andMe에서도 이와 비슷하게 SNP 정보를 확인 할 수 있다. 23andMe의 경우 ..
바로 밑에서 엑솜 데이터를 Galaxy를 이용해서 분석하는데에 잠깐 언급된 내용인데 좀 정리가 필요한 부분일 것 같다는 생각이 들어서 짧게 언급하려고 한다. 일반적으로 차세대 시퀀서에서 사용하는 데이터 포맷은 fastq 포맷으로 인간이 읽을 수 있는 텍스트 파일 형태로 biological sequence(일반적으로 nucleotide sequence)와 이에 상응하는 quality score로 구성된 파일이다. 즉 각 nucleotide base마다 해당 base가 얼마나 정확하게 읽어낸 것인지에 대한 quality가 함께 포함된 파일로 산업계의 표준 (de facto) 으로 Illumina Genome Analyzer와 같은 시퀀서에서 사용된다. 일반적으로 fastq 파일의 확장자는 정해진게 없지만 주..
간단히 정리하려고 쌓아두고 있었는데, 당췌 시간이 나질 않아서 우선 제목과 URL만 주욱 나열합니다. 추후 어떠한 방식으로 어떻게 Hadoop을 응용해서 사용하는지에 대해서 포스팅 할 계획입니다. 그전에 우선!!! :) Summarizing next-gen sequencing variation statistics with Hadoop using Cascalog http://bcbio.wordpress.com/2011/07/04/summarizing-next-gen-sequencing-variation-statistics-with-hadoop-using-cascalog/ Hadoop: intervals and JOIN http://stackoverflow.com/questions/1832103/hadoop..
지금까지 질병관련 유전자를 찾는 gwas 연구에서 있어서 몇가지 트렌드를 짚어보자면 다음과 같다. 1. 불과 몇년전만 하더라도 아니 아직까지도 많은 수의 샘플을 모으는데에 있어서 어려움이 따른다. 2. 한 사람 한사람 유전정보를 얻기 위한 Genome-wide SNP chip 가격이 점점 하락하고 있다. 3. 대부분의 연구가 유럽인을 조상으로 두고 있는 흔히 말하는 European을 중심으로 연구가 진행되어왔다. 4. 개별적으로 진행되었던 연구들이 모아지고 이를 통한 meta 분석이 현재 주를 이루고 있다. 5. 기존의 연구 결과에 대한 검증 연구가 이루어지고 있다. 이러한 현재 트렌드와 더불어 다음과 같은 꾸준한 움직임이 포착되어지고 있는데 하나씩 살펴보자면 다음과 같다. 1. 질병외에 다른 trait..
가끔 어디서부턴가 유래를 알 수 없는 데이터를 받게 되고 또 그것을 분석해야 하는 일들이 종종 생기게 된다. 최근(지금은 아니지만)에는 그러한 데이터중의 하나가 바로 NGS 시퀀싱 데이터였다. 몇 년전 Roche/454의 pyrosequencing을 통해 생성된 데이터였는데, SFF 형태로 데이터를 받게 되었다. 454라는 것은 알고 있었는데 그 당시만 해도 당췌 Flowgram이 뭔지, SFF를 fastq 포맷으로 바꾸느라 삽질하고 이것저건 mapping/variant call 프로그램들 셋팅하느라 시간 보낸걸 생각하면 요즘은 참 세상이 많이 좋아졌다라는 생각을 하지만 여전히 예전의 나처럼 삽질하고 있는 또는 삽질할 분들께 도움이 될까하는 마음에 ^^;; Life Techologies의 SOLiD 데이..