NGS 데이터가 variant를 calling 한 그 후 이제 자신의 연구에 대한 해답을 찾기 위해 좀 더 다양한 annotation과 filtering 그리고 이것들을 한눈에 보고 insight를 얻을 수 있게 해주는 시각화와 잘 정리된 리포트를 제공하는 치열한 싸움이 시작되었다. 그 치열한 싸움에 얼마전 BGI에 인수된 Complete Genomics사의 'Genome Voyager' 서비스와 LT의 'Ion Reporter'가 있다. 그렇다 이 두 서비스의 공통점이 있는데, 모두 시퀀서를 만드는 회사의 서비스라는 점이다. 두 서비스를 비교하면서 다음의 질문에 대한 대답을 얻을 수 있기를 바라지만, 서비스를 사용해 보지 않았기 때문에 수박 겉핥기 식일 수 밖에 없음을 미리 알아두었으면 한다. 누가 더..
일루미나는 BaseSpace라는 클라우드 기반의 분석 시스템이 있습니다. BaseSpace에서 사용자들은 자신의 원하는 앱을 만들어서 추가하여 기능을 확장할 수 있도록 지원하는 BaseSpace Developer (Illumina native app engine program)를 이번에 오픈했습니다. 일루미나는 2년전 BaseSpace를 통해 MiSeq 사용자들에게 무료 데이터 관리, 아카이빙, 분석, 공유, 저장할 수 있도록 제공했는데요. 개발자들은 무료 또는 유료의 BaseSpace와 연동되는 앱을 개발 등록하여 사용할 수 있게 된것입니다. BaseSpace Developer 홈페이지
Qiagen & CLC Bio 덴마크 오루후스의 bioinformatics 소프트웨어 업체인 CLC Bio를 Qiagen이 인수 했습니다. AllSeq’s 블로그에서 처음 알려졌으며, CLC Bio 관계자와 Qiagen측은 공식적인 답변을 거부했습니다. CLC Bio는 Sanger sequencing에서부터 next-generation sequencing에 이르는 분석 소프트웨어를 개발하고 판매하고 있습니다. 지난 4월 IBM과 함께 각각의 제품을 결합한 next-generation sequencing 데이터 분석 솔루션을 제공할 것이라고 하기도 했습니다. CLC는 12년도 30%의 소프트웨어 판매 증가를 보였으나 비상장사로 자세한 내용은 제공하지 않았습니다. 이번이 올해들어 두번째 Bioinfomati..
GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은... GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment, recalivration, VQSR등을 통해 variant call에 우위를 가지고 있습니다. 각 샘플의 read data (D)로 부터 샘플의 genotype (G)를 어떻게 알아(inference)낼까? genoetype (G)가 나올 확률을 Bayes' rule을 이용하여 계산합니다. 즉..
Chapter 1. Exome Report 살펴보기 요즘 Whole-Exome Sequencing을 Clnical (Mendelian Disorder의 진단)에 활용하는 논문이 많이 나오고 있다. 이때 고려해야 할 것은 첫번째로 CAP와 CLIA 인증을 득한 곳에서 실험이 이루어져야 한다는건 기본이다. 이렇게 생산된 데이터는 간단히 HGMD와 ESP나 TG등과 비교하고 이것이 medically actionable한것에 대해서 리포트를 해준다. 23andMe도 이러한 트렌드를 예전에 미리 예측하고 Exome pilot을 수행한 적이 있고 몇번 블로그에서 언급한 적이 있다. 파일럿 프로그램에 참여한 사람들은 현재까지 2개의 리포트를 받았는데, 첫번째 리포트는 예전에 언급했었고 이번에는 update된 리포트를..
데이터를 사용하기 위한 컴퓨팅 리소스가 없다. 즉 분석할 리눅스 서버가 없다거나 서버가 있더라도 디스크 공간이 부족하거나 바로 사용 가능하지 않은때가 있다. 이 문제는 클라우드를 활용하면 문제 없다. 물론 비용이 들어가지만 몇 달씩 진행되는 분석이 아니라 간단하게 사용한다면 비용적인 부담은 적다. 데이터를 사용하기 위해 준비하는데 시간이 너무 오래 걸린다. 간단하게 BWA로 매핑을 하거나 VCF 파일을 가지고 뭔가 확인 하려고 해도 레퍼런스 데이터 인덱싱해야 하고 프로그램 설치해야 하고 이것저것 셋팅하다보면 하루도 부족하다. 위의 두가지 문제를 어느 정도 해결하기 위한 방안을 내리도록 하겠다. 아마존에는 많은 프로젝트들이 돌아가고 있고 각각의 프로젝트들은 아마존을 손쉽게 사용하기 위해 다양한 데이터를 준..