유전자정보분석 127

HiSeq vs. 454

전세계적으로 HiSeq을 포함한 일루미나 장비가 가장 많은 사용되고 있다. 너가 그런거 어케 알어!?? 라고 물으신다면... 예전에도 언급했던 http://omicsmaps.com/ 여기서 확인 가능하다. 봐 아래 그림에서 보듯이 GA2랑 HiSeq 을 포함하면 다른 플랫폼보다 월등히 많지!! 그러니까 대세는 일루미나야 이 바보야!!! 라고 말한다면... 자 이건 미국내에서 일루미나 장비(GA2랑 HiSeq 모두 합한것)의 분포도이다. 특징은 지역적으로 드문드문 분포하며, 특정 지역에 엄청나게 그 수가 밀집되어 있다. 미국내 일루미나 장비의 분포 이에 반해 아래 그림은 454의 분포도이다. 비록 대수는 얼마 안되지만 골고루 퍼져 있는 것을 확인 할 수 있다. 이러한 분포의 특징은 단 미국내뿐만 아니라 전..

우린 Apple App Store 아니 Genome App Store - Illumina BaseSpace

Apple은 iPhone이나 MacOSX를 사용하는 사용자들이 손쉽게 클라우드 기반으로 Application을 찾아서 설치하고 업데이트 할 수 있는 Store를 운영하고 있다. 이러한 Store를 통해 일반 개발자들도 자신의 App을 등록하고 이를 통해 중간에 유통이니 광고니 이런 복잡다단한 중간 단계 없이 그저 Store에 등록하는 걸로 자신의 Appicaltion으로 수익을 낼 수 있게 되는 그런 그림이다. Apple App Store 화면 1. 일루미나 BaseSpace Illumina, Inc. (ILMN)ㅋ도 바로 이러한 모델을 내놓았는데 바로 BaseSpace AppStore이다. BaseSpace는 일루미나가 내놓은 Genomic Cloud Computing Environment로 너무 거창..

Bina Techlogies - 우린 genomics의 Apple이다

Apple은 Mac OSX, iMac, iCloud라는 운영체제와 이를 기반한 하드웨어와 클라우드를 갖추고 있다. 모두 자신들이 만들고 운영하고 있는 것이다. 바로 이러한 컨셉을 이쪽 업계에 반영한 회사가 있으니 바로 Bina Techlogies이다. 일반적으로 NGS 데이터를 사용하는 프로세스는 아래와 같이 요약 될 수 있는데, sequencer에서 생산된 데이터는 Bina Box라는 하드웨어를 통해 1/2차 분석과 데이터 압축등의 과정을 수행한다. Bina Box는 CPU, GPU, FPGA로 구성되었으며 (iMac), 하드웨어에 최적화된 Linux Kernel을 사용하고있다. (Mac OSX) 사용자들은 이들을 이용하여 특정 도메인(간단히 분석작업)에 최적화된 알고리즘이나 파이프라인을 구성할 수 있..

BGI의 공짜 분석 서비스 EasyGenomics

금번 Bio-IT World Conference & Expo에서 BGI의 NGS 분석 서비스가 화두거리중의 하나였다. 물론 BGI가 서비스하는 것이 획기적이거나 한것보다는 바로 분석 비용에 있어서의 free를 선언했기 때문이다. 그럼 이번에 새롭게 발표한 중국 BGI의 EasyGenomics 서비스에 대해서 살펴보도록 하겠다. BGI는 데이터 분석에서의 나타나는 문제점들의 다음의 4가지 관점에서 지적하고 있는데, 분석의 각 단계에 따라 문제점들을 말하고 있다. Primary Analyis NGS 장비에서 이미지를 읽어 Base Calling하는 단계이며, 이 단계에서는 Data throughput과 Data storage를 지적하고 있다. 일반적으로 NGS장비에서 생산된 데이터를 지역적으로 멀리 떨어진 ..

상용 및 오픈소스를 이용한 NGS 분석 서비스의 Mapping Rate 비교

아래 글에서 언급했던 논문의 서플을 보면 다음과 같이 NGS 분석 서비스를 비교한 테이블이 나온다. 테이블의 첫번째 나오는 것이 논문 저자들이 만든 HugeSeq이라는 파이프라인에 대한 것으로 다음과 같은 항목에 대해서 각각의 서비스들을 비교했다. 크게 항목을 나누자면 웹기반의 서비스와 직접 다운로드해서 설치하는 것으로 나눌 수 있다. 우선 웹 기반의 서비스중 대표격인 DNAnexus는 Align, SNP Call, Indel Call을 지원하지만 아직 SV (Structural Variant) Call은 지원하지 않고 있으며 commercial한 서비스이다. 즉 커머셜하면서 웹 기반으로 제공되는 서비스 중 최고를 달리고 있다. 테이블 1. NGS 데이터 분석 서비스 비교 Alignment SNP Cal..

동일 individual의 서로 다른 sample, platform, analysis tool을 사용한 분석

NGS를 수행하는데에 있어서 동일한 사람에 대해서 혈액 vs. 타액, Illumina HiSeq 2000 vs. Complete Genomics, GATK vs. SAMtools 자 이제 각각의 대결?을 한번 훑어 보기로 하자. 물론 정답은 없다. 걍 한번 심심하니까 한번 보는거다. Performance comparison of whole-genome sequencing platforms.Lam HY, Clark MJ, Chen R, Chen R, Natsoulis G, O'Huallachain M, Dewey FE, Habegger L, Ashley EA, Gerstein MB, Butte AJ, Ji HP, Snyder M.Nat Biotechnol. 2011 Dec 18;30(1):78-82. do..

새로운 파이프라인 하나 들어 놓으시죠 (1)

NGS 데이터를 가지고 variation을 찾고 annotation하는데 정답이 있을까요? 뭐 굳이 찾는다면 Broad에서 1000 Genomes Project를 하면서 우리 이렇게 했어!!라고 내놓은것쯤 되려나요? 암튼 또하나의 NGS 데이터를 분석하는 파이프라인, 딱풀이 나왔습니다. 왠 딱풀이냐 @.@ 걍 전 딱풀이라고 부르겠습니다. 근데 이딱풀 그저 그런 딱풀인데, 멋지구리하게 포장해놨습니다. 바로 이런 능력이 필요한데 말이죠. 그럼 딱풀 포장 벗겨보겠습니다. Nat Biotechnol. 2012 Mar 7;30(3):226-9. doi: 10.1038/nbt.2134.Detecting and annotating genetic variations using the HugeSeq pipeline.La..

NGS 데이터 분석 관련 세미나

요즘 많은 연구자분들이 genome 관련 데이터를 자신의 연구에 사용하고 계십니다. 이에 따라서 국내에서 많은 교육과정이 생겨나고 꾸준히 진행되고 있습니다. 여기서는 현재 제가 아는 대표적인 과정들을 넣어 놓았으니 참고하시기 바랍니다. KOBIC 차세대 생명정보 교육 프로그램 (http://education.kobic.re.kr) KOBIC(국가생명연구자원정보센터)에서는 현재 7회까지 차세대생명정보학 교육이 이루어지고 있는데요. 간간히 NGS 관련 교육이 올라오고 있습니다. 년간 교육계획을 보면 지난해 12월에 이어서 오는 4월에도 NGS 관련 교육이 있을 예정이더군요. WGS (Whole Genome Sequencing), WES (Whole Exome Sequencing), Epi-Genome, RN..

유전체는 임상으로 가고 있다. 그렇다면...

오늘 GenomeWeb 기사를 보다가 "Life Tech to Partner with Dx Companies on Clinical Use of Ion Torrent"라는 기사를 보았습니다. 여기서 몇개의 단어만 바꾸면 "Genomics to Partner with Hospital on Clinical Use of NGS tech"가 되겠죠. 그렇습니다. 이게 요즘 화두입니다. 그래서 이에 대한 제 생각을 두서없이 한번 적어보려고 합니다. 물론 내용 중에 사실과는 다른 잘못된 부분이 있을수도 있고, 제가 많이 배우지 않아 관점을 벗어나거나 큰 그림을 못 보고 지껄이는걸 수도 있습니다. 그렇다면 과감하게 그냥 넘어가세요. ㅋㅋㅋ 미국: 국가차원 미 국립보건원(NIH)은 $5억를 유전체 시퀀싱에 기반한 진단 ..

한국인 공개 데이터에 대한 단상

KPGP 공개 데이터를 가지고 분석하기 전에 그들간의 어떠한 연결 고리가 있는지 확인하는 방법에 대해서 저번 포스팅에서 잠깐 다루었습니다. 실제 모든 KPGP 공개 데이터를 가지고 kinship을 분석해 보니 제가 원하던 결과가 나오지 않아서 현재 좀 의하한 상태입니다. Genome 연구에서의 데이터 공개의 의미 공개된 genome 데이터는 기본적으로 그들간의 kinship이 있어서는 안됩니다. 아니 있어도 됩니다. 하지만, 혈연관계가 있다면은 마땅히 그 정보 또한 공개되어야 합니다. 그래야만 완벽한 공개 데이터라고 할 수 있습니다. 기본적으로 genome 데이터는 부모에서 자식에게로 유전되는 즉 관계가 있는 데이터입니다. 따라서 자신이 어떠한 연구를 수행하는냐에 따라서 이러한 혈연관계가 있는 데이터를 ..