분류 전체보기 749

나누면 2배 이상 - 클라우드를 이용한 데이터 분석

기쁨은 나누면 배가 된다는 옛말이 있습니다. Bioinformatics 분야에도 이말이 적용되는데요. 바로 그 나눔의 핵심에는 클라우드 컴퓨팅이 있습니다. 무슨 말이냐구요. DNANexus와 Baylor의 클라우드 기반 분석 DNANexus라는 클라우드 기반의 NGS 분석 업체와 Baylor 의대 (BCM)의 이야기입니다. 바로 ASHG에서 DNANexus와 BCM의 Human Genome Seuqencing Center (HGSC)는 14,000명의 WGS와 WES를 통해 심장질환과 노화에 대한 유전적 영향을 연구를 위한 클라우드 기반의 협력 분석 시스템 프로젝트를 공유했습니다. 텍사즈주 휴스턴의 BCM Cohorts for Heart and Aging Research in Genomic Epidemi..

빅데이터분석 2013.10.29

IonTorrent 소프트웨어 플러그인 제작 지원

국내에도 상당한 숫자의 기기가 퍼진걸로 알고 있는데, 얼마전 중국의 BGI도 왕창 구매한 시퀀싱의 민주화를 이끌고 있는 기기입니다. 네 LT의 IonTorrent입니다. IonTorrent는 기본 Torrent Suit라는게 분석을 해주는데, 여기서 부족한 것은 API를 이용하여 플러그인 형태로 개발이 가능합니다. 가령 이런것들이 되겠죠. Case 1) 여러대의 장비에서 별도로 생산된 read 데이터들을 한번에 분석한다거나 Case 2) 별도 내부의 유전체 등의 DB와 연동되어 specific한 결과를 생성한다거나 Case 3) 별도의 자체 제작된 알고리즘(RNA-Seq, ChIP-Seq 등등)을 이용 한다거나 Case 4) 암/신생아와 같은 clinical 한 리포트를 생성한다거나, BRCA 유전자 리..

blogging 2013.10.25

Variant Calling 어떤 소프트웨어를 사용해야 할까요?

GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은... GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment, recalivration, VQSR등을 통해 variant call에 우위를 가지고 있습니다. 각 샘플의 read data (D)로 부터 샘플의 genotype (G)를 어떻게 알아(inference)낼까? genoetype (G)가 나올 확률을 Bayes' rule을 이용하여 계산합니다. 즉..

심심하면 읽는것

Chapter 1. Exome Report 살펴보기 요즘 Whole-Exome Sequencing을 Clnical (Mendelian Disorder의 진단)에 활용하는 논문이 많이 나오고 있다. 이때 고려해야 할 것은 첫번째로 CAP와 CLIA 인증을 득한 곳에서 실험이 이루어져야 한다는건 기본이다. 이렇게 생산된 데이터는 간단히 HGMD와 ESP나 TG등과 비교하고 이것이 medically actionable한것에 대해서 리포트를 해준다. 23andMe도 이러한 트렌드를 예전에 미리 예측하고 Exome pilot을 수행한 적이 있고 몇번 블로그에서 언급한 적이 있다. 파일럿 프로그램에 참여한 사람들은 현재까지 2개의 리포트를 받았는데, 첫번째 리포트는 예전에 언급했었고 이번에는 update된 리포트를..

나쁜 데이터 - 바람아 멈추어 다오

나쁜 데이터는 데이터가 누락된 값이나 잘못된 기록과 같은 기술적인 부분뿐만 아니라 그보다 훨씬 더 많다. 이러한 데이터 문제를 이겨내기 위한 다양한 영역의 전문가들의 이야기를 나쁜데이터 핸드북에서 제시하고 있다. 물론 이쪽 업계(Bioinformatics)에서도 이런 나쁜 데이터를 흔히 접할 수 있다. 하지만, 오늘은 간단한 웹프로그래밍을 하면서 만난 나쁜 데이터에 대해서 이야기 해보려고 한다. 덧) 몰랐는데 이책의 역자가 KT에서 근무하는군요. ㅋ 사인이라도 받고 싶은데 말이죠. 요즘 민간뿐만 아니라 정부나 이쪽 업계 (genome research)에도 데이터의 공유와 더 나아가서는 big data에 대한 이야기와 함께 data science라는 말을 흔히 듣을 수 있게 되었다. 요즘에야 KTH API..

blogging 2013.07.11

1000 Genomes Project 데이터를 1초만에 사용하기

데이터를 사용하기 위한 컴퓨팅 리소스가 없다. 즉 분석할 리눅스 서버가 없다거나 서버가 있더라도 디스크 공간이 부족하거나 바로 사용 가능하지 않은때가 있다. 이 문제는 클라우드를 활용하면 문제 없다. 물론 비용이 들어가지만 몇 달씩 진행되는 분석이 아니라 간단하게 사용한다면 비용적인 부담은 적다. 데이터를 사용하기 위해 준비하는데 시간이 너무 오래 걸린다. 간단하게 BWA로 매핑을 하거나 VCF 파일을 가지고 뭔가 확인 하려고 해도 레퍼런스 데이터 인덱싱해야 하고 프로그램 설치해야 하고 이것저것 셋팅하다보면 하루도 부족하다. 위의 두가지 문제를 어느 정도 해결하기 위한 방안을 내리도록 하겠다. 아마존에는 많은 프로젝트들이 돌아가고 있고 각각의 프로젝트들은 아마존을 손쉽게 사용하기 위해 다양한 데이터를 준..

개인 유전체 데이터의 시각화 2

저번 시간에 이어 두번째 개인 유전체 데이터의 시각화에 대한 이야기 입니다. 오늘은 Genome browser를 비롯한 다양한 시각화 방법에 대해서 알아보겠습니다. 지난 시간을 정리 한다면 다음의 두 가지로 요약될 수 있습니다. 테이블 형태의 개인 유전체 데이터 시각화 : 일반인들에게 익숙하고 요약된 정보를 보여주는데에 적합 Ideogram을 이용한 개인 유전체 데이터 시각화: 유전체 데이터를 시각화함에 있어 염색체 모양을 이용하는 방법 Linear genome browser 지도는 위도/경도의 두개의 값을 통해서 특정한 위치에 접근이 가능한것처럼 genome 데이터는 염색체번호 염색체상의 일련의 linear한 위치로 접근이 가능하다. 앞에 놓인 자(scale)를 보면 쉽게 이해가 갈것이다. 많은 gen..

GenomeCloud 내부를 파헤치자

많은 분들이 GenomeCloud가 내부적으로 어떻게 클라우드 자원을 관리하고 유전체 데이터를 분석하는지에 대해서 궁금해 하셔서 간단하게 기술적인 설명을 해볼까한다. 일반 생물학 연구자들도 한번쯤 읽어두면 자신의 데이터가 어떻게 분석되는지 연구에 활용하려면 GenomeCloud를 어떤식으로 해야 할지에 대한 폭 넓은 안목을 가지게 될 수 있으니 강추!!! (-.-;;) 1. ucloud biz (클라우드 자원) CPU/메모리/디스크/OS/네트워크 등의 개별 자원을 제공하는 서비스로 GenomeCloud는 분석할 대상에 따라 개별 자원들을 조립하여 사용합니다. 분석에 대한 요청이 들어오면 개별자원을 조립하고 분석을 수행한 후 다시 개별 자원을 반납하게 됩니다. ucloud는 하나의 가상서버(Virtual ..

blogging 2013.04.24