분류 전체보기 749

Genomics와 빅데이터(하둡)

Follow the Data라는 블로그의 "What can big data (read Hadoop) do for genomics?"라는 흥미로운 글이 있어서 소개해 보려고 한다. Hadoop이 빅데이터의 관점에서 genomics에 어떻게 응용되고 있고 앞으로 어떻게 응용될지에 대한 글로 최근 임상에서의 빅데이터에 대한 관심이 모아지는 가운데에 임상중에서도 genomics에 포커싱된 글로서 간단히 다음과 같이 요약할 수 있다. 1) 지금까지 read mapping 부분에 하둡 적용이 두드러짐 (Crossbow, MyRNA) 2) 하둡을 인프라로 사용하기 시작함 (SeqPig, Hadoop-BAM) 3) 하둡을 다양한 데이터간의 통계적인 연관성을 보기 위한 빅데이터 처리에 활용 (NextBio, Google..

빅데이터분석 2012.08.02

Google의 게놈 데이터 분석 - Google Compute Engine

Amazon이 AWS를 통해서 IaaS를 제공하고 있는 상황에서 그동안 IaaS가 빠진 클라우드 서비스만 제공하던 Google 역시 이번 Google I/O 2012를 통해서 Google Compute Engine이라는 이름으로 IaaS 서비스를 내놓았다. Google은 사용자가 원했기 때문이라고 했고, 간단한 웹서버 호스팅을 위한 IaaS가 아닌( (단순 웹 호스팅은 Google App Engine을 쓰면 되니까 ^^), batch processing, data processing, high performacne computing에 focusing된 IaaS 서비스이다. 그들이 Google I/O의 키노트를 통해 Compute Engine을 소개하면서 내놓은 demo가 바로 cancer genome 데..

빅데이터분석 2012.06.30

BioWorks와 Biopipe가 생각 나는 서비스

예전에 Biopipe와 Bioworks라는 workflow management system이 있었다는 걸 기억하는 사람이 있을까? 아! 아직 KISTI의 Bioworks는 개발중에 있고 다양한 분석을 지원할거라고 예전에 댓글에서 본 적이 있다. 아마 KISTI의 Bioworks는 지금 소개할 서비스를 보고 좀 분발해야 하지 않을까 한다. NGS 분석에 있어서 DNAnexus나 BGI의 EasyGenomics들과는 좀 차별화된 서비스인 Seven Bridge Genomics가 오늘의 주인공이다. SBG의 IGOR이라는 서비스는 간단하게 데이터를 업로드하고 자신이 직접 파이프라인을 설정하면 끝나게 되는 서비스이다. 백문이불여일견이라 했던가 스샷 몇개 첨부로 오늘은 끝!!! 데이터 업로드 전용툴 대용량의 NG..

NGS 데이터 저장 표준 - Complete Genomics

표준은 아니더라도 최소한의 예의가 필요한 시점 얼마전 Pistoia Alliance에서는 NGS 데이터를 효율적으로 관리하기 위한 방법의 하나로 효율적인 압축 알고리즘을 개발하는 사람에게 $15,000의 상금을 걸고 대회를 열었었다. 현재 fastq, bam, vcf로 포맷에 대한 부분도 어느정도 자리가 잡혀가고 있는 추세이다. 각 개별 파일에 대한 표준뿐만 아니라, 하나의 NGS Sample 데이터를 정의하는데에 있어서의 정의 또한 필요한 부분이라고 생각된다. 시퀀싱 장비에서 분석까지 모두 섭렵하고 계신 Complete Genomcis는 넘들 다 쓰는 포맷이니 뭐 그딴거 안쓰시고 자신만의 표준을 잡아서 쓰고 계신다. 군바리의 그것처럼 각잡힌 구조하에 각각 고유의 포맷으로 무장한 파일들을 보면 이 놈들 ..

HiSeq vs. 454

전세계적으로 HiSeq을 포함한 일루미나 장비가 가장 많은 사용되고 있다. 너가 그런거 어케 알어!?? 라고 물으신다면... 예전에도 언급했던 http://omicsmaps.com/ 여기서 확인 가능하다. 봐 아래 그림에서 보듯이 GA2랑 HiSeq 을 포함하면 다른 플랫폼보다 월등히 많지!! 그러니까 대세는 일루미나야 이 바보야!!! 라고 말한다면... 자 이건 미국내에서 일루미나 장비(GA2랑 HiSeq 모두 합한것)의 분포도이다. 특징은 지역적으로 드문드문 분포하며, 특정 지역에 엄청나게 그 수가 밀집되어 있다. 미국내 일루미나 장비의 분포 이에 반해 아래 그림은 454의 분포도이다. 비록 대수는 얼마 안되지만 골고루 퍼져 있는 것을 확인 할 수 있다. 이러한 분포의 특징은 단 미국내뿐만 아니라 전..

우린 Apple App Store 아니 Genome App Store - Illumina BaseSpace

Apple은 iPhone이나 MacOSX를 사용하는 사용자들이 손쉽게 클라우드 기반으로 Application을 찾아서 설치하고 업데이트 할 수 있는 Store를 운영하고 있다. 이러한 Store를 통해 일반 개발자들도 자신의 App을 등록하고 이를 통해 중간에 유통이니 광고니 이런 복잡다단한 중간 단계 없이 그저 Store에 등록하는 걸로 자신의 Appicaltion으로 수익을 낼 수 있게 되는 그런 그림이다. Apple App Store 화면 1. 일루미나 BaseSpace Illumina, Inc. (ILMN)ㅋ도 바로 이러한 모델을 내놓았는데 바로 BaseSpace AppStore이다. BaseSpace는 일루미나가 내놓은 Genomic Cloud Computing Environment로 너무 거창..

한달간 블로그 페이지 방문자의 성향

내 블로그를 방문 대부분은 South Korea로 부터 트랙픽이며, 50%는 홈에 먼저 첫발을 내딛지만, 대부분은 홈화면만 보고 떠나 버린다. 하지만 떠나지 않고 꾸준히 다른 페이지를 보고보고보고 또 봐서 12페이지까지 보고 가신분도 있다는 것... 감사합니다. 뉘신지는 모르겠지만... 그렇다면 홈외에 들어오시는 분은 "R 그래프 그리기" , "PCA using R" , "CTO 당신만 보세요 - 바이오인포매틱스와 Hadoop의 만남은 필연적" 페이지를 방문했다. 즉 검색을 하던 어디 링크를 타고 들어왔건간에 홈을 제외한 이 3개의 페이지가 지난 한달간 줼로 인기 있었다는 이야기가 되겠다. 고로 내 블로그는 이것저것 잡단한 것을 쓰지만, 정작 블로그를 찾는 분들은 R 댐씨 온다는 이야기?? -.-;;

blogging 2012.05.10

Bina Techlogies - 우린 genomics의 Apple이다

Apple은 Mac OSX, iMac, iCloud라는 운영체제와 이를 기반한 하드웨어와 클라우드를 갖추고 있다. 모두 자신들이 만들고 운영하고 있는 것이다. 바로 이러한 컨셉을 이쪽 업계에 반영한 회사가 있으니 바로 Bina Techlogies이다. 일반적으로 NGS 데이터를 사용하는 프로세스는 아래와 같이 요약 될 수 있는데, sequencer에서 생산된 데이터는 Bina Box라는 하드웨어를 통해 1/2차 분석과 데이터 압축등의 과정을 수행한다. Bina Box는 CPU, GPU, FPGA로 구성되었으며 (iMac), 하드웨어에 최적화된 Linux Kernel을 사용하고있다. (Mac OSX) 사용자들은 이들을 이용하여 특정 도메인(간단히 분석작업)에 최적화된 알고리즘이나 파이프라인을 구성할 수 있..

BGI의 공짜 분석 서비스 EasyGenomics

금번 Bio-IT World Conference & Expo에서 BGI의 NGS 분석 서비스가 화두거리중의 하나였다. 물론 BGI가 서비스하는 것이 획기적이거나 한것보다는 바로 분석 비용에 있어서의 free를 선언했기 때문이다. 그럼 이번에 새롭게 발표한 중국 BGI의 EasyGenomics 서비스에 대해서 살펴보도록 하겠다. BGI는 데이터 분석에서의 나타나는 문제점들의 다음의 4가지 관점에서 지적하고 있는데, 분석의 각 단계에 따라 문제점들을 말하고 있다. Primary Analyis NGS 장비에서 이미지를 읽어 Base Calling하는 단계이며, 이 단계에서는 Data throughput과 Data storage를 지적하고 있다. 일반적으로 NGS장비에서 생산된 데이터를 지역적으로 멀리 떨어진 ..

Short Read Alignment 그것을 알려주마

지난주 Boston에서 열린 Bio-IT World Conference & Expo를 보고 나서 느낀게 있다면 요즘 이바닥은 점점 상용화쪽으로 흘러가고 있다는 것이다. Alignment Software 하나를 보더라도 예전에는 논문을 쓰고 학술적인것에 의미를 두었다면, 이제는 좀 더 빠르고 정교하게 (정교하다는 표현이 맞을지는 모르겠지만, 다른 Alignment Software가 놓칠 수 있는 Variants까지 잡아낼 수 있는) 만들어 이를 상업적으로 내놓고 있다는 것이다. 그렇다고 무작정 NGS를 하고 난뒤 이러한 상용의 서비스에 맡겨서 분석하기에는 가격이 만만치 않다. 아직 우리에게는 BWA에 있지 않은가! BWA라도 잘 알고 사용한다면 분석에 있어서 좀 더 의미있는 결과를 낼 수 있지 않을까하는 ..