Fork me on GitHub 단맛만좋아요 :: '컬럼' 카테고리의 글 목록

컬럼

  1. Animated gif from a video clip - published: 2015.06.12
  2. 중국의 유전체 데이터 분석을 위한 질주 - published: 2015.04.24
  3. 유전체와 클라우드 관련 기사 - published: 2015.03.23
  4. NGS가 열어가는 진단 multi-gene/many drugs - published: 2014.12.31
  5. 유전체 분석 플랫폼 관련 과제 현황 - published: 2014.10.21
  6. Web Collections: NGS 관련 포스팅 모음 - published: 2014.10.21
  7. Somatic Caller는 뭘 사용해야 하나요? - published: 2014.09.19
  8. 나의 맥북 환경 - published: 2014.09.01
  9. Genomics and Cloud - published: 2014.05.08
  10. Google의 genomics API를 통해 살펴본 그들의 전략 - published: 2014.04.25
  11. 내 입맛대로 골라본 Genome 관련 업체 소식 - published: 2014.04.10
  12. Clinical NGS Seqeuncing에서의 중요 체크 포인트 - published: 2014.03.18
  13. 유전체 분석 툴 라이센스 - GATK - published: 2014.01.16
  14. Galaxy RNA-Seq Analysis: Tuxedo Protocol - published: 2013.12.29
Animated gif from a video clip
2015.06.12 15:14 | 컬럼

짤방이라고 불리는 움직이는 gif를 만들기입니다. 동영상을 짤방으로 만들어주는 GIFBrewery라는 프로그램 구입하여 우선 iShowU 프로그램을 이용하여 화면을 동영상으로 캡처하고 이를 gif로 만들면 아래와 같이 프로그램의 특정 기능을 설명하는데 효과적으로 사용이 가능합니다.





저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2015.06.12 15:14
Currently 댓글이 없습니다. comments want to say something now?

아시다시피 중국은 BGI를 통해 시퀀싱 부분에서 타의 추종을 불허하고 있다. 더군다나 시퀀싱 장비면에서도 미국의 complete genomics를 인수까지 하게 되었다. 그나마 한편으로 데이터 분석 부분에서는 3년전 DNANexus와 Seven Bridge Genomics와 같은 클라우드 기반의 Easy Genomics 서비스를 내놓았지만 제대로 워킹하는 것을 본적이 없다. 이제 내공이 쌓였을까? 


중국 WuXi PharmaTech의 거침없는 Bioinformatics를 향한 걸음

2000년 설립된 중국 우시(Wuxi AppTech)는 직원수 9,000명 매출 1조에 이르는 CRO(Contract Research Organization, 임상시험 대행 기관)로 단순한 CRO라기 보다는 헬스케어 연구 개발 전반에 이르는 토털 솔루션을 제공하고 있다. 이런 우시는 얼마전 NextCODE를 인수했는데 NextCODE는 이름에서 풍기듯이 deCODE genetics의 기술을 바탕으로 유전체 데이터를 빅데이터 관점에서 문제를 해결하는 솔루션을 제공하는 업체였다


WuxiNextCODE


이뿐만 아니라 몇일전 우시는 DNAnexus와의 제휴를 통해 NextCDOE의 유전체 데이터베이스 모델과 DNANexus의 클라우드 서비스를 통해 임상 및 연구 인터페이스를 하나의 플랫폼을 통해 전세계의 연구자들과 함께 저장하고 데이터를 분석할 수 있게 되었다. CRO의 입장에서 글로벌 제약, 바이오, 의료 기기 산업에서 원활하게 유전체 데이터를 사용할 수 있는 단일 플랫폼을 제공할 수 있게 된 것이다. 현재 유전체는 동반진단에서 약물발견에 개발에 이르기까지 다양하게 활용되고 있다. 이에 CLIA 수준에서 클라우드를 통해 모두를 연결함으로서 유전체를 사용하는 임상의, 기관 및 생명과학 회사들이 환자들에게 이익을 줄 수 있도록 유전체 정보를 사용할 수 있게 된 것이다.

BGI의 지난 3년간의 결실? BGI Online 클라우드

몇년전 BGI는 EasyGenomics라는 클라우드 기반의 유전체 분석 서비스를 내놓았지만, 어떤 이유에서인지 제대로 운영하질 않았다. 그런데 오늘 바로 BGI Online이라는 서비스를 다시 내놓았으니 홍콩의 L3 Bioinforatmics와 함께 ELSA가 포함되어 있다. 50X의 whole genome을 4시간 200X의 whole exome을 10분안에 완료하는 성능을 가졌다고 한다. 뿐만 아니라 L3의 database.bio와 complete genomics의 GenomeVoyager와 호환된다고 한다. 그동안 BGI는 홍콩의 L3나 Complete Genomics 등의 외부? 파트너와의 진짜 서비스를 내놓기 위해 뜸을 들였나 보다.


BGI의 클라우드기반 분석 서비스 BGI Online


그동안 genome 분석은 reserch 시장에서 머물렀지만, 이제 제약이나 바이오의 다양한 분야로 확장되면서 다시 한번 클라우드 기반의 유전체 분석이 주목을 받기 시작하는 것은 아닐까라는 생각을 해본다.


추가, Broad의 GATK에 대한 Appistry와의 라이센스 종료

그동안 GATK의 라잉센스가 Appistry에서 관리되었는데 이제 올해 4월 15일 계약이 만료되면서 라이센스가 다시 Broad 연구소로 전환되었다. 학업 및 비영리인 경우 기존 그대로 이지만 상업적인 라이센스의 경우 이제 Broad가 직접 관리하게 된다. 그동안 Appistry가 관리하면서 이런저런 불만이 많았었는데 이제 직접 라이센스를 관리하면서 라이센스 및 가격에 관한 투명성을 확보하는 한편 연구자들이 GATK를 이용한 파이프라인을 개발하고 이를 연구자들에게 제공하는(예를 들어 도커 이미지와 같은) 것에 대해서도 문을 열어놓는 분위기다. 그동안 Galaxy등에서는 GATK Lite 버전이나 혹은 사용자가 직접 GATK라이센스를 획득하여 직접 설치하도록 하는 방법이었는데 이제 그런면에서도 어느정도 문을 열어 놓았으니 한번 GATK의 행보를 지켜볼 만하겠다.




저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2015.04.24 08:47
Currently 댓글이 없습니다. comments want to say something now?
유전체와 클라우드 관련 기사
2015.03.23 17:22 | 컬럼

의료-헬스케어 산업의 패러다임을 바꾸는 클라우드

얼마전 국내에서 정부와 공공기관이 민간 클라우드 서비스를 사용할 수 있도록 규정한 클라우드 컴퓨팅 발전 및 이용자 보호에 관한 법률안 (클라우드 발전법)이 제정돼 오는 9월 시행을 앞두고 있습니다. 클라우드 발전법은 정부 부처와 지방자치단체, 공공기관은 앞으로 정보화 사업이나 예산을 편성할 때 먼저 클라우드 도입을 고려해야 합니다. 즉 클라우드가 우선 고려대상이라는 말입니다. 


하지만, 공공에서 클라우드를 도입할 경우 도입 업무의 범위나 개인정보보호, 품질 및 안정성에 대한 내용들은 충분한 논의와 합의가 필요한 부분입니다. 클라우드의 도입은 의료나 헬스케어의 경우에는 특히나 원격의료, 환자 데이터 공유 등 서비스 수준이 향상될 것으로 기대되지만 역시 의료법이나 개인정보보호 등의 문제들이 선결되어야 합니다.


현재 이러한 대안으로 질의응답 기반 개방형 클라우드 서비스가 거론되고 있는데요. 의료기관이 직접 의료정보를 퍼블릭 클라우드상에서 사용할 수 없기 때문에 건강보험심사평가원이나 질병관리본부, 국민건강보험공단 등의 의료공공기관이 보유한 데이터를 기반으로 의료기관에게 역으로 클라우드 서비스를 제공한다는 것입니다. 이것은 대한의료정보학회의 "2014 스마트의료기술세미나"에서 발표된 내용으로 합법적으로 의료 데이터를 수집할 수 있는 기관 (심평원, 질본, 건보 등)이 private cloud 형태로 빅데이터 기반의 추론 기술(IBM 왓슨과 같은)을 의료기관에 제공한다는 것입니다. 뭐 의료기관으로서는 클라우드고 뭐고 기존에 전송만 하던것에서 제대로 데이터를 수신하는 정보공개 질의 서비스를 활용하겠다는 것입니다.


실리콘밸리의 관심

2012년 창업한 인비태(INVITAE)는 최근 1억2천만 달러의 투자에 성공한 실리콘밸리의 스타트업으로 Myriad Genetics나 Ambry와 같은 유전자 검사를 수행해준다. 여기서 유전자 검사는 23andMe와 같은 검사가 아닌 실제 의사가 진단에 활용하는 유전자 검사 즉, 분자진단에 속한다. 


인비태는 genetic information이 의료에 루틴하게 쓰여지는것을 목표로 하고 있는데 NGS를 기반으로 하고 있다. 기존의 industry-standard로 알려진 PCR, Sanger, FISH, IHC 등의 검사 방법을 NGS로 수행한다는 것이다. 


미국의 경우에는 LDT가 허용된 국가이기 때문에 NGS 기술을 LDT로 사용하는데에는 무리가 없기 때문에 인비태 역시 CLIA와 CAP 인증을 통해 LDT 방식으로 유전자 검사를 수행하고 있다. 현재 가능한 검사는 cadiology, hereditary cancers, neurology, pediatric geneteics, hematology에 관한 panels을 통해 검사를 수행하고 있으며, 원한다면 custom design을 통해 주로 유전자의  deletion과 duplication 테스트를 수행한다.


현재 모든 유전자와 질병과 관련된 panel은 그 수에 상관없이 모두 동일한 가격으로 책정되고 있는데 이는 필요한 정보만을 전달하겠다는 의미로 해석할 수 있다. 실제 panel상에는 모든 유전자에 대한 정보를 넣어놨더라도 의사가 원하는 질병이나 유전자에 대한 정보만 전달한다는 것으로 추측(재요청이 있는 경우 90일 이내에 추가 유전자에 대한 검사가 free)된다. 


기존의 분자진단의 경우 원하는 검사를 1개씩?만 수행이 가능했고 의사들은 이러한 시스템에 적응되어 있기 때문에 인비태의 이런 전략은 아마도 의사들이 NGS라는 기술을 좀 더 쉽게 다가갈 수 있도록 열어둘 뿐만 아니라 사업적으로도 다양한 패널을 준비함으로서 투자자들에게 있어 보이는 효과를 보이지 않을까한다.



그외에도 인비태는 Family History Tool을 통해 환자의 pedgree를 기록할 수 있도록 하여 의사들이 활용할 수 있도록 하거나 Clinvate를 통해 임상적으로 유용한 genetic varinats를 public sources로 부터 모아 데이터베이스를 제공하기도 한다.


아직 국내에서는 NGS가 의료기기로 등록되지 않았을 뿐만 아니라 아직 제도적으로 NGS를 진단에 사용하기 어려운 상황이지만 인비태의 사례를 통해 기존의 이원의료재단, 녹십자 씨젠의료재단(구 네오딘), SCL, 삼광등의 검사기관들 사이에서 NGS를 이용한 분자진단에 진입을 위해 좋은 reference가 될 수 있을 것이다.



저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2015.03.23 17:22
Currently 댓글이 없습니다. comments want to say something now?

미국에서는 2013년 10여개의 Clinical Lab(CLIA88(Clinical Laboratory Improvement Act88)에 따라College of American pathologists에서 인증하는 검사실 품질 요건을 받은 lab)에 한해 검사실 자체 개발 검사(LDT, Laboratory Developed Test)를 수행할 수 있다. 현재 10여개의 lab에서 NGS를 사용하는 50개의 LDTs를 수행하고 있다. 미국에서 NGS가 임상검사에 사용될 수 있는 이유는 LDT를 통해 FDA의 허가 없이도 장비 또는 시약을 임상검사로 사용할 수 있기 때문이다.


정밀의학(Precision Medicine)은 적정한 환자에게 적정한 약을 적정한 용량으로 적정한 시간에 사용하는 것이다. 진단기기 (Dx device)의 역할은 바로 적정한 환자를 구별해내는 것이고 이것이 적정한 치료로 이어지기 위해서는 약물에 대한 안정하고 효과적인 사용이 이루어져야 한다. 바로 이때부터는 사용되는 진단기기(Dx)를 동반진단기기(CDx device)라고 불린다.현재의 정밀의학의 추세는"one-durg/one-gene Dx"로 요약할 수 있다.


문제는 진단의 경우에는 LDT에 의해 NGS 장비가 사용될 수 있지만 동반진단의 경우에는 체외진단기기(in vitro diagnostics, IVD)의 규제를 받게 된다. 동반진단(companion diagnostics)은 치료제와 동시에 출시되거나 병행 개발되어 해당 치료제의 투약 여부와 투여량을 결정하는 진단제이다. 


NGS를 이용하는 동반진단은 아니지만, 몇일전 FDA는 아스트라제네티카의 ovarian cancer 항암제인 Olaparib(AZD-2281, 현재는 Lynparza라는 상품명)에 대해서 germline BRCA mutation에 대해 동반진단을 승인했다. 아스트라제네티카라는 제약사와 안젤레나졸리로 더 유명해진 미리어드사의 BRCAAnalysis CDx의 동반진단기기를 승인한 것이다. 이로서 앞으로 Lynparza를 투여하기 위해서는 미리어드사의 BRCAAnaysis CDx의 진단을 통해 투여여부나 투여량을 결정하게 된다. 


2005년 아스트라제네티카는 영국의 kuDOS Pharmaceuticals를 인수하여 DNA repair pathway에 관여하는 poly ADP-ribose polymerase (PARP) inhibitor에 대한 기술을 가지고 2008년부터 2012년 임상을 진행한다. 아스트라제네티카는 임상이 시작되기전인 2007년부터 미리어드와 파트너십을 통해 Olaparib에 대한 동반진단을 수행한 결과이다. 미리어드는아스트라제네티카의 olaparib(ovarian cancer)외에도 Biomarin(BMN-673, breast cancer), AbbVie(veliparib, breast cancer), Tesaro(niraparib, ovarian cancer)등의 제약사와 함께 임상을 진행중에 있다. (현재 진행중인 제약사들의 oncology drug 파이프라인 참고


요약하자면, 정밀의학의 추세는 "one-drug/one-gene Dx"로 이는 동반진단(CDx)이라는 형태 진행되고 있다는 것이다. 여기에 NGS라는 기술이 통해 "multi-gene/many drugs"라는 패러다임으로 변해가고 있다. 바로 2014년 초에 일루미나는 Amgen과 함께 Vectibix에 대해 NGS 기반의 동반진단에 협력하기로 한것이다. Vectibix는 환자의 KRAS 유전자의 mutation을 검사하는 것인데 이미 2012년 Qiagen은 therascreen KRAS RGQ PCR Kit을 통해 Erbitux의 사용에 있어 대장암 동반진단으로 FDA의 승인을 받았다. 암젠은 큐아젠과 함께 KRAS mutation에 있어서 PCR-기반의 동반진단에 대해서도 진행중에 있다.


일루미나는 RAS family 유전자에 대해서 미국과 유럽의 NGS 기반의 동반진단을 목표로하고 있으며, 이미 MiSeq Dx NGS 장비로 두개의 cystic fiborosis(낭포성 섬유증) 테스트에 대해서 FDA의 승인을 받은바가 있다. 일루미나는 이렇게 내외부 협력을 통해 MiSeq Dx NGS 장비로 동반진단에 대한 허가를 받고 또한 제약사와의 파트너십을 통해 신약개발에 있어서 보다 많은 협력을 하려고하고 있다. 앞으로 multigene NGS panels은 각각의 암환자에게 보다 정확한 암 유전자에 대한 정보를 주고 치료에 있어서 좀 더 많은 정보를 줄 것으로 기대하고 있다. 


NGS를 이용한 진단 개발에 있어서 전체적인 미국내에서의 규제는 앞서 설명한 대로 LDT의 경우 CLIA를 따라야하며 전통적인 FDA의 규제를 받는(동반진단 포함) 경우는 risk에 따라 510(k)라는 사전허가를 받아야 하며 기존의 동일한 기기가 있는 경우는 동질성 테스트를 득하거나 새로운 경우 De novo 510(k)를 득해야 한다. 마지막으로 High risk는 PMA(Pre-market approval)라는 시판전 허가를 득해야 한다. 



지금까지 NGS에 있어서 진단기기로 활용에 대한 내용을 규제와 현재까지 사례를 통해서 알아보았다. 하지만, 이외에도 이제 NGS 분석에 있어서 bioinformatics 요소나 표준, clinical report 등의 요소에 대해서도 다음기회에 알아보도록 하겠다. 즐~


참고

De novo request for evaluation of automatic class III designation for the Illumina MiSeqDx Platform 

Illumina MiSeq Dx Cystic Fibrosis Clinical Sequencing Assay

Life Technologies Clinical Services Lab

15 Breast Cancer Drugs in the Pipeline Right Now



저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.12.31 09:12
Currently 댓글이 없습니다. comments want to say something now?
우리나라의 NGS 분석 플랫폼 (H/W & S/W) 관련한 사업 리스트입니다. 이번 다부처 유전체 사업으로 진행되는 과제들 포함 종료 또는 이제 시작하려는 것들입니다. 대부분이 국가과제로 국민의 세금으로 진행되는 만큼 잘 진행되어으면 합니다.

차세대 생명정보 분석을 위한 생물정보학 플랫폼 개발

2011년 시작하여 2014년 종료된 산자부 과제로 테라젠이 주사업자로 진행되었던 과제입니다. 다부처유전체사업이 진행되기 이전에 산자부에서 진행되었던 과제로 미래부의 이번 다부처 유전체사업의 내용과 비슷한 내용을 진행했던 과제입니다.

유전체 산업비즈니스 클러스터 구축

2014년 다부처유전체사업으로 산자부에서 진행하는 과제로 35억원 규모로 500 TB 디스크와 150~200 core 규모의 서버팜과 EMR과 연동하기 위한 유전체 DB 템플릿 개발로서 임사의사결정시스템 구축을 목표로 하는 사업입니다.

유전체정보 개방형분석 서비스 환경 구축

2014년 다부처유전체사업으로 미래부에서 진행하는 과제로 총규모 17억원 규모입니다. 통합지원과제의 경우 150 core, 5 PB 규모의 서버팜을 구축하며 이는 KOBIC에서 수행하게 됩니다. 연구지원과제는 유전체, 전사체, 네트워크, 후성, 메타 지놈의 5개의 과제로 각 과제는 해당 파이프라인을 구축하고 이는 통합지원과제와 연동하게 됩니다. 각 연구지원 과제는 KOBIC, 이화여대(이상혁), 포항공대(노태형) 등이 수행하게 됩니다.

유전체정보분석 기술개발

2014년 다부처유전체사업으로 미래부에서 진행하는 8억원 규모의 과제로 유전체 분석을 위한 알고리즘과 파이프라인 각 10종을 개발하게 되는 과제입니다.

IGCG/TCGA Pan-Cancer Analysis Project

국제암유전체컨소시엄에 ETRI의 마하 슈퍼컴퓨터를 포함한 전세계 6개의 슈퍼컴퓨터가 2000명의 암유전체 데이터 분석 수행
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.10.21 13:37
Currently 댓글이 없습니다. comments want to say something now?
Web Collection: 그동안 산발적으로 이루어졌던 NGS 관련한 포스팅을 한번에 볼 수 있도록 모아봤습니다. RNA-Seq에서 De novo Mutation 발굴까지 다양한 영역을 커버하고 있습니다만, 깊이는 없습니다. 곧 ChIP-Seq과 De novo RNA-Seq에 대한 부분까지 업데이트 예정입니다.

NGS 데이터 포맷 및 Alignment

Variant Call

Somatic Mutation

RNA-Seq

분석 파이프라인

저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.10.21 10:49
Currently 댓글이 없습니다. comments want to say something now?
어제는 유전체학회의 정기학술대회에 기웃거리다 왔다. Bioinformatics 세션의 연세대 김상우 교수의 "Computational Approaches for Genomic Rare Variant Detection" 발표 후 질문중 하나가 여러개의 caller를 사용할때 어떤 caller를 사용해야 하냐는 것이었다. 

Combining Calls 또는 Ensemble Approach

숭실대 황규백 교수의 "Reducing False-Positve Incidental Findings with Ensemble Genotyping and Logistic Regression Based Variant Filtering Methods"를 보면 여러개의 caller의 조합이 좋은 성능을 나타내는 것을 볼 수 있다.

위의 논문에 의하면 일반적인 Variant Calling에서 여러개의 caller의 교집합 (여러개의 caller를 사용하기 때문에 Ensemble이라는 표현을 사용했으며, 그림에서는 nVCA+)을 사용하면 성능이 좋다고한다. 총 6개의 caller (GATK UnifiedGenotyper, SAMtools, glfSingle, FreeBayes, Atlas2, VarScan2)를 사용한 결과이다. SNV, Insertion Deletion의 Hom, Het 각각에 대한 성능을 보여준다.


위의 논문에 비해 Somatic calling에서도 위와 유사한 approach를 적용한 논문이 있는데 "Combining calls from multiple somatic mutation-callers"라는 논문에서도 somatic call을 위해 3개의 caller를 교집합을 사용하는 경우 그 성능이 좋음을 보여주고 있다.

Fitting logistic model 또는 LR-Based Variant Filtering

물론 두 논문다 여기서 끝나는 것이 아니라 variants에 대한 여러 feature들을 이용하여 Logistic 분석을 추가한다.

일반적인 variant의 경우 GQ(genotype quality score), dbSNP 여부, RepeatMasker와의 overlap, genic vs. intergenic, SNV substitution type을 사용하며, somatic인 경우 Tumor/Normal의 각  sequencing depth, variant allele fraction, dbSNP 여부, Mutation Set(각 caller에서의 calling 여부)을 이용하여 모델을 만들고 prediction을 수행한다.

그럼 슬슬 어떤 caller를 사용해야 할지에 대한 답을 해보자.

두 개 이상의 caller를 사용하면서 이에 여러 feature들을 이용하여 LR Model을 만들고 전체 variant set에 대해 해당 모델을 가지고 prediction해서 사용하는 것이 답!! 불편하다면 그냥 성격이 유사한 MuTect과 Virmid의 교집합 또는 성격이 다른 caller들의 교집합,,, 어허 필자양반 결론을 그딴식으로 내놓으면 내 어찌하란 말이오...

그래서 준비했다. 

어차피 여러개의 caller에 대해 공통적으로 나오는것을 사용하면 좋다는 것은 위의 두 논문에서 나름 gold standard data set을 통해 검증은 되었다. 뭐 caller가 많으면 많을수록 겹치는 variants의 갯수는 줄어들겠지만 그 놈들은 ture일 가능성이 점점 높아진다. 

앞선 포스팅에서 필자는 somatic caller의 유사도를 알아보았고, 기존의 논문들을 통해 MuTect, Virmid, Strelka가 유사한 성능과 특징을 가진다는 것을 알아보았다. 또한 그들이 3개의 툴이 공통적으로 지정한 variant는 2,312개로 MuTect 총 3,441개 중 67%, Virmid의 총 3,046개 중 76%, Strelka의 2,718개의 85%에 해당하며 평균적으로 각 툴이 찾은 variants들은 약 75%가 세개의 caller가 공통적으로 찾는 variants라는 것을 확인했다.

이제 각 variants의 특성을 뽑아내고 트레이닝을 시켜 모델을 만들면 되겠다. 이하 생략!

저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.09.19 14:57
Currently 댓글이 없습니다. comments want to say something now?
나의 맥북 환경
2014.09.01 07:20 | 컬럼

Mac OSX 버전

MacBook Pro 레티나 15인치 2013 Early 버전의 맥북을 사용하고 있다. 메모리는 8GB로 올 가을 출시 예정인 Yosemite의  퍼블릭 프리뷰2 버전을 사용하고 있다.

클라우드 환경

다소 불안정한 버전을 사용하고 있으며, 별도의 타임머신을 이용한 백업을 설정하고 있지 않기 때문에 대부분의 중요한 문서는 클라우드를 이용하고 있다. - iCloud Drive, Google Drive, EverNote, DropBox
 
 

터미널

터미널은 가장 많이 사용하고 있는 App 중 하나로 폰트는 "나눔고딕코딩"을 사용중이다. 문자간격을 1 보다 작게 설정하였다. 터미널에서 vi나 man 등으로 문서를 오픈한 경우 마우스 스크롤을 하면 이전/후 내용을 손쉽게 확인이 가능하며, shift 키를 누른 상태에서 마우스 스크롤을 하면 명령어 history를 사용할 수 있다. 물론 그냥 스클롤을 하면 터미널에서 설정한 스크롤백 기능을 이용하여 이전/후 화면을 볼 수 있다.



Papers

요세미티 업그레이드 후 다운횟수가 대폭 증가했지만, 없어서는 안될 필수 프로그램. 읽지는 않더라도 쌓아 놓는 것 만으로도 마음의 위안을...


Sublime Text 2

돈주고 구입했지만, 가장 후회되는 프로그램,, 나에게는 터미널 vi와 기본 텍스트 편집기가 사용횟수가 더 많다.


Vmware Fusion with Vagrant

간간히 윈도우즈를 이용해야 하는 경우와 vagrant와 연동하여 간간히 필요한 서버셋팅을 자동화하는 정도로 사용된다. Vmware Fution을 지원하는 vagrant를 구입하여 사용중이다.



Sequel Pro

MySQL 데이터베이스에 접속하여 쿼리를 날리는데 사용된다. 뭐 아직까지는 db에 접속할 일이 많으니까.


Pomodoro 집중하자

25분 동안 집중해서 일하는 습관을 가지기 위한 프로그램

 


기타등등

이클립스와 키노트는 먹고 살기 위해 가끔,
FaceTime은 멀리 장인/장모님과의 연락을 위해
FileZilla는 데이터 업로드
CyberDuck은 S3를 위해
RealVNC는 원격 리눅스 데스크탑 접속을 위해
VLC & Chromecast는 동영상 감상을 위해
Citrix Receiver는 일하려고
Cinch는 재빠른 창 크기 조절을 위해
QuickSliver는 계산기?
한컴오피스 한글 뷰어는 어쩔수 없는...
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.09.01 07:20
Currently 댓글이 없습니다. comments want to say something now?
Genomics and Cloud
2014.05.08 16:16 | 컬럼
Cloud와 BigData라는 관점에서 어떻게 genomics 데이터가 다루어지고 있는지에 대한 프리젠테이션입니다. 왜 genomics에서 cloud가 필요한지, cloud는 무엇으로 구성되어 있는지, 마지막으로 genomics 데이터를 다루기 위한 seqware 라는 프레임워크를 통해 각 모듈별로 현재 제공되는 서비스의 사례와 연관지어 보여주는 자료입니다.

자그마한 모임에서 간단히 발표하려고 후다닥 만들었는데, 걍 그림만 모아 놨으니 그림 감상하십쇼.

 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.05.08 16:16
Currently 댓글이 없습니다. comments want to say something now?

Google의  genomics 관련 투자 현황

Google은 google ventures를 통해 다양한 분야에 투자를 하고 있다. 그중에서도  genomics 관련 분야는 다음과 같은 회사들로 요약된다.  지노타이핑에서 대용량 ngs분석과 암분석까지 현재까지 유전체에서 할 수 있는 일련의 라인업에 대해 투자를 하고 있다.
  • 23andMe:  개인유전체 검사를 해주며, 요즘은 FDA와의 문제로 ancestry 정보만을 제공하나 기본적으로 질병 관련정보 및 exome sequencing을 통한 리포트와 자체적인 쌓인 고객 데이터를 기반으로 다양한 연구를 수행하고 있다.
  • Foundation medicine:  foundation one이라는 암유전체 분석을 통한 맞춤형 항암제 정보를 의사에게 제공하고 있으며 나스닥에 상장되어 있는 회사
  • DNAnexus: 클라우드 컴퓨터를 기반으로 유전체 데이터를 분석할 수 있는 플랫폼을 제공하는 회사로 대규모 유전체 연구를 지원하고 있다.
  • Transcriptic: 클로닝, 마우스 지노타이핑, 바이오뱅킹 등의 서비스를 제공

 
구글이 genomics에 투자만 하고 있는 것일까? 그건 아니다. 구글도 자체적으로 genomics에 뛰어 들고 있는데 그것이 바로 오늘 살펴볼 내용이다.

Global Alliance for Genomics & Health

구글은 최근 아마존,  Appistry(GATK를 팔고 있는),  BGI, DNANexus, IBM, 히타치, 일루미나, 인텔, 뉴욕지놈센터 등등 25개국 177개의 회원사들이 가입한 Global Alliance for Genomics & Health에 가입했다. 여기서는 간단히 유전체 데이터와 health에 있어서 어떻게 데이터를 운용하고 규제에 대해 논의하는 곳으로 규제 및 윤리, 데이터, 보안, clinical의 4개의 워킹그룹으로 구성되어 있다.  이중 Data Working Grop은 개인의 유전체 데이터에 대한 컴퓨터 포맷과  이를 교환하고 사용하기 위한 API에 대한 총괄을 담당하고 있다.  우선은 BAM, CARM, VCF의 표준을 제공하기 위한 관리와 지원을 하고 있다. 최종적으로는 이들은 대규모의 유전체 데이터에 대한 데이터 모델, API와 이를 통해 유전체 데이터를 저장, 교환, 쿼리하고 분석을 제공하고자 하고 있다. 이그룹은 현재 sanger의 Richard Durbin이 이끌고 있다.

누구나 알고 있듯이 유전체 데이터는 Big Data이고 그 유용성 또한 인간의 건강에 직접적인 연관이 있는 중요한 데이터이기에 이러한 움직임은 당연한 것이고 다들 이것을 통해 한 몫 잡으려고 하고 있다.  그리고 이러한 움직임 없이는 genomics가 clinical에 적용되기 힘들다는 것 또한 분명하다. 뭐 그건 그렇고, 암튼 핵심은 유전체 데이터를 다루기 위한 플랫폼이 필요한 거고 거기에 google이 직접 뛰어 들었다는 것이다.

구글 너 뭐하니

구글이 그럼 뭐를 하고 있느냐 이것을 알기 전에 직접적으로 genomics 와는 관련없지만 구글이 뭐를 하고 있는지에 대해서 우선 알아보야 한다. 구글은 개발자들을 위한 다양한 서비스와 API를 제공하고 있다. 이러한 서비스는 Google Deveolpers Console에서 통합적으로 제공되고 있는데 이중 눈여겨 볼 서비스는 다음과 같다. 이들 서비스는 유기적으로 연결되어 있는데, 가령 Google Cloud Storage에 저장된 데이터를 Google Bigquery로 불러 들여 분석을 할 수 있도록 하는 것이다.
  • Google Cloud Storage: 아마존 AWS의 S3나 KT ucloud biz의 storage 서비스와 같은 object storage 서비스
  • Google Cloud SQL: 관계형 데이터베이스 서비스
  • Google Compute Engine: 아마존 AWS나 KT ucloud biz와 같은 public 클라우드 서비스
  • Google Bigquery: 수십억개의 행의 대규모 데이터셋에 대해서 손쉽게 대화형 분석을 할 수 있는 서비스
그렇다. 이제 감이 오나, 구글은 이미 Big Data를 관리할 수 있는 서비스들을 가지고 있으며 여기에 유전체 데이터도 하나 더 추가한 것이다. 그것이 바로 Google Genomics API이다.

Google Genomics API

아래 그림은 현재 내가 사용중인 구글의 서비스로 Genomics API는 현재 테스트 기간으로 신청을 해야만 사용이 가능하다. 물론 이서비스는 Google Cloud Storage를 데이터 저장소로 사용한다. 구글이 제공하는 다른 서비스와 마찬가지로 genomics API 또한 API query 기준으로 과금이 되는 형태이며, 당연히 저장소는 cloud storage의 과금 기준을 따른다.  아직은 과금이 이루어지지 않고 있지만,,, 테스트 기간인 현재 user별로 초당 10개의 쿼리가 가능하다.


Genomcis API 구조

Genomics API는 앞서 말했듯이 유전체 데이터 BAM, VCF를 지원하고 있으며, 이들을 저장하고 관리할 수 있는 API를 제공하고 있다. 우리가 일반적으로 NGS 데이터를 생산하는 경우  reference genome에 align된 genome의 짧은 단편인 read가 존재하고 이 read들은 모여 하나 또는 그이상의 샘플(bam)이 구성한다. 


  • Datasets: 유전체 데이터의 집합으로 Dataset은 여러 Readsets을 가질 수 있다.
  • Readsets: Read들이 집합이며 read들은 고유한 id와 reference에 align된 정보를 가지고 있다.
  • Read: genome 데이터를 구성하는 최소 단위
  • Variants: reference와 다른 부분을 표현하는 것으로 SNP, insertion 등이 있다.
  • Callsets: Variant의 집합으로 일반적으로 한 샘플의 모든 variants를 포함하며 dataset에 포함된다.
  • Jobsreads와 variants 등의 import, export와 같은 시간이 걸리는 작업에 대한 고유 id를 가진다.

API 활용 예제 - 특정 read 정보 찾기

API를 어떻게 사용하는지에 대해서 알아보기 전에 우선 저 API들이 어떻게 동작하고 그걸로 뭐하라는 건지에 대한 활용 사례부터 살펴보도록 하자. 다음은 google이 예제로 넣은 PGP 데이터로 특정 readset의 염색체20번의 68,198~69,000에 위치하는 모든  read에 대한 쿼리 결과이다. 


질의 결과는 JSON 형태로 제공되며 좀 더 보기 편하게 json formatter로 보면 다음과 같다.  해당 질의 결과로 해당 영역에 존재하는 read들은 총 256개가 검색되었으며, 각 read에 대한 read의 id, base, base quality, cigar,flags 등의 14개 정보를 보여준다. 


이렇게 간단히 API 호출만으로도 원격의 storage에 저장된 대용량의 유전체 데이터에 대한 빠른 검색이 가능하다. 이런 API를 이용하면 다음과 같은 GenomeBrowser를 손쉽게 사용자가 직접 만들 수 있게 된다. google genomics api를 사용하여 만든 GABrowser로 보고자 하는 readset(1000 Genomes project의 HG00096 샘플)을 선택하고 read가 align된 것을 눈으로 확인 가능하며, 각 read를 선택하면  read에 대한 정보가 좌측에 보여진다. 아래는 rs671을 검색한 화면이다.



Genomics API 활용

google은 그들의 Reserch Blog를 통해 자신들의 하나의 API를 통해 다양한 Apps를 만들 수 있는 상호운용성에 대해서 강조하고 있다.  기본적으로 Cloud와 Local의 저장소(repository)에 저장된 데이터는 API를 통해 위에서 살펴본 GenomeBrowser, Command-line interface, MapReduce wrapper 등의 다양한 app을 만들 수 있다. 분명 개발자의 입장에서는 손쉽게 다양한 app을 만들 수 있는 환경은 매력적이라고 할 수 있다. 그것도 아무런 하드웨어의 제약없이 말이다.  분명 이 분야가 발전하기 위해서는 연구자들이 데이터에 대한 접근이 어려워서는 안된다. 점점 시퀀싱 비용은 하락하고 데이터를 생산하는데에는 별 어려움이 없어진 반면 이러한 데이터를 다루기 위한 기반은 부족하며 구글과 같은 움직임은 분명 데이터 접근의 용이성으로 이 분야의 발전에 큰 도움을 줄 것이다.

Google Genomics는 구글의 클라우드 인프라 기반에서 DNA sequence reads, reference-based alignment, variant call을 API 레벨에서 제공하고 있다. 이러한 API를 이용하면 다음과 같은 작업들이 가능하다.

  • BAM 포맷의 align된 read를 빠르게 import
  • unaligned read들을 import하고 표준의 pipleine으로 처리
  • 샘플이나 특정 영역의 read 정보를 질의
  • BAM 포맷으로 reads 정보를 export


구글의 API는 github을 통해 배포되고 있으며, 위의 sample을 포함한 예제들을 포함하고 있다. 각각의 예제 프로그램들은 java와 python 등 다양한 언어로 제공되고 있다.
  • client-go: Go 프로그래밍 언어를 이용한 API call 예제
  • client-java: API 쿼리를 위한 command-line 기반의 인턴페이스
  • client-python: Python으로 작성된 웹 기반의 API 예제로  Google App Engine에 deploy해서 사용하며 위에서 언급한 GenomeBrowser 예제가 들어있다.
  • client-r: API의 query 결과를 R의 GAlignments로 변환해주는 R script
  • mapreduce-python: google app engine의 MapReudce Pthon을 이용하여 복잡한 계산을 하는 예제
  • protobufs: 구글의 데이터 interchange format인 protocol buffers로 유전체 데이터를 사용할 수 있도록 하는 예제
  • readstore-local-java: 로컬 BAM 파일을 읽어서 API를 로컬에서 사용가능하게 하는 예제

JDK 설치

Google이 API를 활용하기 위해 github에 넣어놓은 genomics-tools는 기본적으로 java 1.7 몇몇은 java 1.8을 필요로 하기때문에 java 홈페이지에 가서 jdk 1.8을 설치하고 설정하는게 필요하다. 맥을 사용하는 나로서는 우선 다음과 같이 해결했다. 
Oracle에 가서 Mac OS X x64 버전의 Java SE Development Kit 8을 다운로드
다운로드한 pkg 파일을 실행하여 JDK 8 버전을 설치
$ sudo rm /usr/bin/java
sudo ln -s /Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java /usr/bin/java
$ sudo rm /Library/Java/Home
sudo ln -s /Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home /Library/Java/Home
export JAVA_HOME=/Library/Java/Home
$ java -version
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)
$ javac -version

Maven 설치

$ brew install maven
$ mvn -version
Apache Maven 3.2.1 (ea8b2b07643dbb1b84b6d16e1f08391b666bc1e9; 2014-02-15T02:37:52+09:00)
Maven home: /usr/local/Cellar/maven/3.2.1/libexec
Java version: 1.8.0_05, vendor: Oracle Corporation
Java home: /Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/jre
Default locale: ko_KR, platform encoding: UTF-8
OS name: "mac os x", version: "10.9.2", arch: "x86_64", family: "mac"
$ git clone https://github.com/GoogleCloudPlatform/genomics-tools.git
$ cd genomics-tools/client-java
$ mvn package
$ cd target
$ ls genomics-tools-client-java*jar
genomics-tools-client-java-v1beta.jar 
우선 다시 말하지만 google genomics api를 사용하기 위해서는 신청해야 하며, 신청이 수락된 후에는 credentials을 생성하여 아래와 같이 client_secret.json 파일을 생성해서 실행하여야 한다.
java -jar genomics-tools-client-java-v1beta.jar searchreads --client_secrets_filename ~/Documents/client_secret.json --sequence_name "chr20" --sequence_start 68198 --sequence_end 69000 --readset_ids "CJ_ppJ-WCxDxrtDr5fGIhBA"

정리

Google은 빅데이터를 위한 storage에서 검색까지 다양한 서비스가 이미 존재했고 이제는 genomics에 관한 데이터까지 손을 뻗었다. 이제 유전체 연구자들은 굳이 유전체 데이터의 저장/관리에 신경 쓸 필요없이 구글에 업로드만 하면 구글은 안전한 데이터 저장에서 부터 데이터 핸들링을 위한 API를 제공함으로써 자연스럽게 데이터를 그들의 틀안에 가두어 둘 수 있게 되었다.

GenomeCloud API??

그러나 여기가 다인가  KT 또한 구글이 내놓은 서비스와 99% 유사한 컨셉을 통해 GenomeCloud라는 서비스가 만들어져 있다. 내부적으로 GenomeCloud 서비스를 위해 사용할뿐 API를 제공하지 않을뿐이다. GenomeCloud도 Object Storage에 데이터만 넣으면 다양한 쿼리/관리가 가능한 구조로 되어 있다. 일례로 사용자는 원격에서 IGV를 통해 자신의 데이터에 접근이 가능하다. 아래와 같이 GenomeCloud에서 배포하는 IGV를 실행하면 GenomeCloud라는 메뉴가 있어 로그인하면 아래와 같은 팝업창이 뜬다. Read, Sample, Analysis는 각각 fastq, bam,vcf파일이며 이들은 object storage에 저장되어 있으며 google genomics api와 유사한 구조의 api를 통해 호출된다.



아래는 g-Storage라는 서비스로 genome data를 저장/관리/공유하는 서비스로 아래와 같이 fastq 파일에 바로 access하여 미리보기 기능 또한 제공한다. 


문제는 GenomeCloud와 같은 서비스를 구글의 genomics api를 이용하면 손쉽게 아무나? 만들 수 있게 된다는 것이다. 젠장 어쩌지?? ㅅ
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.04.25 11:03
Currently 2 comments want to say something now?
Edico Genome이라는 회사에서 ASIC (Application Specific Intergrated Circuit)을 이용한 Genome Analysis Accelerator Card를 만들어 FASTQ의 Mapping/Aligning/Sorting에 이르는 과정의 속도 향샹을 이루고 이 카드를 장착한 서버를 클라우드 형태의 DRAGEN Cloud 서비스를 내놓았는데 기존에 BLAST 전용의 ASIC , GPU를 활용하는 등등이 나왔었고 얼마전에는 Intel CPU의 AVX의 기능을 통해 GATK의 성능을 올리는 등 하드웨어 부분에서도 genome 분석의 성능 향상 부분이 종종 나옴

Celmatix라는 회사는 genome의 clinical 분야로의 진출을 도모하는 회사로 유사한 업체로 Cartagenia라는 회사도 있음 이 회사는 Bench suite를 통해 variant analysis의 전 단계를 자동화

 


 
Clinical로의 이러한 움직임은 iBINOM이라는 회사도 있는데, raw data를 업로드하면 이에 대한 리포트를 자동으로 생성해 주며 마치 예전의 23andMe의 엑솜 파일럿 리포트와 유사한 형태의 리포트를 제공 (Mendelian disease)


23andMe의 건강정보 제공이 중단되면서 23andMe의 데이터를 (API를 통해) 가져다가 스마트폰 앱으로 관리해주는 savemy23이라는 서비스입니다.
 
 
어찌되었건 해외에서는 다양한 startup들이 생겨나고 있으며, 이러한 추세는 당분간 지속될 것으로 전망되긴 합니다. 국내에서도 genome이라는 컨텐츠를 다양하게 활용하는 startup들이 생겨나길 기대하지만...
 
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.04.10 08:26
Currently 5 comments want to say something now?
NGS techologies기반의 WES, WGS는 비록 국내에서는 아니지만, clinical diagnosis, genetic risk prediction, patient management에서 루틴하게 사용되는 주목할만한 패러다임으로 자리잡았다.[각주:1]이러한 clinical genetics에서 bottleneck은 더이상 DNA sequence production이 아니라 DNA sequence analysis로 옮겨간 것은 누구나다 인지하고 있는 사실이며, large-scale comparative genomics는 일관성 있는 재생산성, 협력 연구자와의 안전한 공유 등 많은 허들이 존재한다. raw sequencing read를 생산하고 실제 clinical interpretation하기까지 clinician들에게 검증된 데이터 processing pipeline을 제공하여 sequencing 장비와 실제 응용간의 기술적인 격차를 줄여주는것이 필요하다. 결론부터 말하자면, 이러한 대량의 clinical 적용을 위한 루틴한 작업은 잘 짜여진(여기에는 많은 의미가 포함됨) pipeline과 cloud가 궁합이 중요하다고 할 수 있다.

robust한 분석 framework를 구현하는데 있어서 heterogeneous한 software의 input/output 및 software의 예기한/혹은 예기치 못한 문제들에 대한 적절한 오류 검사 및 로그 분석 등을 위한 장치가 마련되어야 한다.  뭐 이부분에 대해서는 다음번에 좀 더 자세하게 이야기 해보도록 하고, 좀 더 근본적인 문제에 대해서 우선 짚어 보도록 하자.
  • 클라우드로 데이터를 올리는데 너무 많은 시간과 노력이 든다. 이건 사용자가 부담해야 하는 문제인가?
  • 모든 분석을 마쳤고 데이터의 장기 저장에 따른 비용은 어떻게 해결되어야 하는 것인가?
이것들이 우선적으로 해결되어야 대량의 루틴한 작업이 주인 clinical에서의 cloud 활용에 대해서 이야기 할 수 있지 않겠는가? 자 다시 한번 이야기 하지만, 이건 해외처럼 NGS 기술이 clincal에 적용되는 시점의 이야기로 reseach와는 성격이 다르다는 것을 다시 한번 숙지하기 바란다.

Sequencing instrument의 특성을 고려한 효율적인 데이터 업로드

얼마전 streaming data in/out에 대해서 잠시 언급했는데, 좀 더 자세하게 이야기해보면 앞으로 NGS technology가 지금의 SBS(Sequencing by Synthesis) 방식이 아닌 single molecule sequencing인 경우 바로바로 읽어낸 seqeunce를 streaming으로 cloud에 upload한다면 분명 지금의 internet동영상 streaming처럼 비교적 낮은 bitrate로  전송이 가능해진다. 하지만 아직까지는 그렇지 못한 사정이며, 이를 해결하기 위한 몇가지 방안이 존재한다.

첫번째 방법은 고전적인 방법으로 Fedex를 이용하는 것으로 이것은 이미 BGI가 하고 있는 모델이나 연구자가 도서산간 지역(제주도)에 있는 경우 배달이 지연될 수 있다는 단점이 있다. 두번째로는 TCP(Transport Control Protoclo)를 뜯어 고치는 방법이다. 바로 Aspera가 그것중의 하나로 얼마전 IBM에 먹혔다. BGI는 지난 2012년 Bio-IT World Conference & Expo에서 EasyGenomics라는 서비스를 내놓으면서 Aspera를 사용하는 것을 시연했는데, 그 자리에 있어봐서 아는데... 암튼... 국내에는 Samasung SDS의 Rapidant가 Aspera like하며 국립농업생명공학정보센터 (NABIC)에서 활용되고 있다. 세번째 방법은 AWS의 S3라는 스토리지 시스템 사용시 multi-part uplaod를 사용하는 것인데, 이는 S3서비스가 일반 볼륨이 아닌 object storage이기 때문에 데이터를 쪼개서 동시에 parallel하게 upload가 가능하기 때문에 속도 향상에 도움을 준다. 실제로 AWS의 S3를 사용하는 DNAnexus의 경우 100 Mbps의 연결시 실제 업로드는 ~14 MB/sec로 parallelize upload시 ~90 MB/sec의 속도를 보였으며, 이는 WES 150X의 coverage를 갖는 압축된 (bzip2) FASTQ파일 약 3 GB를 로컬에서 cloud로 업로드하는데에 5분만에 가능하게 하는 속도이다. 참고로 GenomeCloud도 Aspera와 multipart upload를 혼합한 방식의 GTP라는 툴을 사용한다.

마지막으로는 시퀀싱 장비의 특성을 고려한 방법으로 일반적으로 illumina의 경우 RTA (Real Time Analysis)가 seqeucning images를 생성->image analysis를 수행->bcl 포맷의 base calling을 수행하고 나면 그 다음은 CASAVA에 의해 FASTQ generation(bcltofastq)이 수행된다. bcl 파일은 illumina sequencing run후에 생성되는 결과로 100bp의 single read인 경우 4base(AGCT), 12 tiles, 100 cycles로 생성된 데이터인 경우 4x12x100=4,800 bcl files가 생성되게 된다. 일반적으로 flowcell의 lane당 총 60개의 tiles로 구성되는 이미지 처리를 위한 최소 단위가 된다. 현재로서는 이 bcl 파일을 cloud로 전송하고 cloud내에서 fastq 파일을 generation하는 것이 네트워크의 bandwidth를 효율적으로 사용하는 방법이 될 수 있다. 또한 bcl 파일을 cloud에서 처리함으로서 얻을 수 있는 잇점은 여러가지 있다. DNAnexus나  galaxy의 경우 모두 이 방법을 사용하며, RTA 디렉토리 구조에서 bcl파일 생성이 완료되면 생성되는 "RTAComplete.txt" 파일을 통해 cloud로의 upload 시점을 확인하게 된다.

Reference-based 압축을 이용한 storage 효율화

최종 결과물을 얻기 위한 중간 산물이지만, 이 중간산물을 얻기까지 너무 많은  컴퓨팅 자원이 필요하며, 또한 추후 분석에 있어서 재활용의 가능성이 가장 높은 파일이라 선뜻 지우기 난해한 aligne된 DNA sequence인 BAM파일은 대부분 장기간 저장될 필요성이 있다. 그래서 나온것이 여러가지 압축 방법인데, 크게 압축은 2가지 방향으로 흘러가고 있다.
  • 분석시 오버헤드를 줄이기 위한 압축방법으로 GATK의 readuced read
  • 저장시 데이터량을 줄이기 위한 압축방법
엄밀하게 이야기 하자면, 첫번째의 경우에는 압축이라고 하기엔 무리가 있다. 일반적으로 압축이라고 한다면 다시 uncompress한 경우 그 정보가 다 보존되어야 하지만, Reduced Read의 경우 정보가 손실되기 때문이다. 즉 bam파일을 이용한 분석에 있어서는 파일용량이 작아짐으로서 다 샘플의 동시 분석이 가능해지며 분석 속도의 향상을 보이지만, 장기간 저장하기에는 정보 손실로 인해 그 효용성이 떨어진다. 따라서 압축/압축해제 후 모두 동일한 정보를 유지하는 형태의 압축이어야한다. 다시 말하지만, 압축이라는 개념은 분석/저장을 따로 구분해야 한다. 

3대 Nucleotide 저장소 중 하나인 ENA (European Nucleotide Archive)는 모든 정보를 유지한채로 reference를 기반으로 압축하는 방법인 CRAM format을 만들고 compress/decompress 툴킷을 공개했다. 역시 Ewan Birney가...  http://www.ebi.ac.uk/ena/about/cram_toolkit 

다음은 Exome 데이터를 실제 GATK readuced reads와 CRAM을 통해 각각 압축한 것으로 압축효율이 original bam 파일 대비 42배의 효율을 보이고 있다. 따라서 장기간 데이터에 액세스하지 않는 경우 reference-based compression과 archiving(tape 백업)을 사용하는 경우-물론 요즘 tape을 일반 파일시스템처럼 사용하는 LTFS (Linear Tape File System)가 있기도 하다.- 엄청난 저장에 따른 비용절감을 실현할 수 있다. 참고로 GenomeCloud도 장기간 데이터 보관을 위한 Tabpe기반의 archive를 GB당 엄청나게 저렴한 비용으로 준비하고 있으니 기대하기 바란다.

Original BAM: 19 GB
Reduced Reads: 2.6 GB (7.3배)
Reference based compress: 453 MB (42배)

추가) DNA sequence data를 아카이빙할때 흔히들 아카이빙 비용과 데이터 재생산에 따른 비용이 높을때 유효하다고 할 수 있다. 하지만, 단지 이것은 아카이빙 비용과 데이터 재생산 비용만이 고려되어야 하는가? 물론 두가지 비용에 대해서 알고 있는 것은 중요하다.[각주:2] 각설하고 아무리 데이터 재생산 비용이 하락하더라도 비용으로는 계산할 수 없는 시간이나 실험의 재현성에 따른 여러 문제등등이 존재하는 거고 디스크 가격의 하락과 데이터 압축의 효율화 및 on/offline을 통한 데이터 전달에 있어서 데이터의 압축/아카이빙은 절대적이라고 할 수 있다.

지금까지 간단하게 나마 clinical sequencing에 있어서 cloud를 사용하기 위한 넘어야 할 산 2가지에 대한 내용을 알아보았다. 국내에서도 다부처유전체사업이 시작되고 clinical 쪽으로의 다양한 유전체데이터 활용에 포커싱된 사업들이 시작할텐데 부디 기초부터 차근차근 쌓아 사업의 목표를 달성하지 못하더라도 부가적인 많은 tehcnologies가 만들어지고 이를 통한 유전체 분야의 활성화가 이루어지기를 바랄뿐이다. 사업을 하고 나서도 아무것도 남지 않는 (설마 시퀀싱한 데이터만 구석의 하드디스크에 먼지 쌓여 남는건 아니겠지.. 하드디스크 오래 상온에 두면 데이터 이상 생기기도 하니까 그냥 쌓아 두지 마라!!) 그런 사업이 되지 않길...

  1. JAMA. 2014 Mar 12;311(10):1035-45. doi: 10.1001/jama.2014.1717. [본문으로]
  2. The furutre of DNA sequence archiving [본문으로]
저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.03.18 17:51
Currently 댓글이 없습니다. comments want to say something now?
얼마전 미국의 에어리오의 클라우드 재전송이 화두가 되었다. 에어리오의 서비스는 가입을 하면 가입자들의 안테나를 자사의 데이터센터에 설치하여 방송을 수신하고(가입자들에게 안테나 하나씩 지정) 수신받은 방송을 가입자의 기기에 전송한다.  에어리오가 공중파를 수신하고 이를 사용자에게 배분하는게 아니라 각각의 가입자들에게 안테나를 지급하고 수신한 것을 다시 가입자에게 전송한다는 개념이다. 이러한 서비스 방식이 공중파 업체들에게 재전송료를 지불하지 않고 이루어지는 것이다. (에어리오 관련 기사)

 

당연히 공중파 업체는 에어리오가 말이 안되는거고, 에어리오 입장에서는 가입자가 자신의 안테나로 수신한것을 전달만 하는 입장에서 일정의 요금을 받는것이기에 문제가 없다는 것이다. 핵심은 이러한 방식이 지상파의 재전송이냐? 아니면 방송 신호의 대리 수신이냐?에 대한 논쟁이다.



방송이야기를 하려는 것이 아니라 유전체 분석을 이야기 하려고 한다. GATK의 사용은(using the GATK) 모든 영리나(any for-profit context) 수익 창출(generate revenue)에 있어서 Appistry의 라이센스를 구매해야한다고 이야기하고 있다.

DNANexus와 SevenBridge Genomics(SBG)는 사용자가 클라우드 환경에서 손십게 GATK를 사용할 수 있는 환경만을 제공하며, 실제 GATK를 이용한 분석은 해당 서비스의 사용자가 수행하게 된다. 
 

그러면 라이센스에 대한 부분은 GATK를 사용할 환경을 제공하는 DNANexus나 SBG가 물어야 하는것인가? 아니면 실제 GATK를 이용하여 분석을 하여 그 결과를 활용하는 이용자의 몫인가? DNANexus와 SBG는 안테나만 달았을 뿐… (ㅋ) 실제 GATK를 use하는건 이용자이니 이용자가 자신의 use(profit or non-profit) 알아서 GATK에 대한 라이센스 비용을 지불해야 하지 않을까?

하지만 시퀀싱 회사가 이용자에게 GATK를 이용하여 분석한 후 이를 영리목적이 아닌 사용자에게 전달했다고 했을때에는 GATK를 사용한 주체가 영리를 위해 시퀀싱과 분석을 수행한 시퀀싱 회사이기 때문에 GATK에 대한 라이센스 비용을 지불해야할 것이다.(Any commercial or non-profit entity charging for the use of a genetic service that employs the GATK.)

그러면 중간에 낀 영리 목적의 사용자는 DNANexus에서 대신 라이센스를 구매해서 요금에 합산할 수 있도록 편의를 봐주고 또한  DNANexus는 GATK를 제공하면서 이용자에게 충분히 라이센스에 관한 부분을 언급해야 해야할 것이다.

이상 마음대로 의견이었습니다. 페북에 관련 이야기가 나와서... 
에어리오와는 상황이 약간 다르지만,, 걍 비슷한 느낌이라... 느낌 아니까..ㅋㅋㅋ 


참고로,
현재 GATK 버전은 2.8-1
일반적으로 v1.X에서 보편적으로 사용하는 버전은 GATK v. 1.6.5 
2.X  버전에서 상업용으로 사용 가능한 Lite 마지막 버전은 GATK-lite v.2.3.9-lite 

저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2014.01.16 01:39
Currently 댓글이 없습니다. comments want to say something now?
Tuxedo Protocol을 Galaxy를 이용하여 구현하여 RNA-Seq 데이터를 분석하는 방법에 관한 내용입니다. 분석 결과를 IGV와 Galaxy의  visualization을 이용하여 시각화하는 방법과 CummeRbund를 이용하는 방법에 관한 내용입니다.

Galaxy를 이용하는 방법은 Galaxy Main 페이지를 통해 무료로 사용 가능합니다만, 계정당 250 GB의 제한과 최대 동시 수행할 수 있는 job의 갯수가 8개로 제한되어 있습니다. 또한 사용자가 많아지면 job 대기 시간도 길어지며 업로드에도 많은 시간이 걸린다는 단점이 있어 실제 대용량의 데이터를 분석하는데에는 어려움이 있는것이 사실입니다. 그 대안으로는 로컬 클러스터에 직접 설치하거나 Amazon의 컴퓨팅을 이용하는 방법이 있습니다만 이는 IT에 대한 지식없이는 제대로 설치하여 활용하는데 어려움이 따르는 것이 사실입니다.

그래서 상용으로 Galaxy를 사용할 수 있는 것들이 등장하기 시작했는데, 아예  Galaxy가 pre-install된 하드웨어 (약 2천만원 가량)를 구입하는 방법 - SlipStream Galaxy -과 KT의 클라우드 서비스를 사용하는 방법입니다. Amazon에 비해 바로 데이터 분석에 사용할 수 있도록 레퍼런스와 software, workflow(ReSequencing, RNA-Seq) 등이 설정되어 있을 뿐만 아니라 클러스터링 된 하드웨어를 기반으로 대량의 데이터 분석에도 용이하도록 설정되어 있습니다. 또한 Amazon 대비 가격도 저렴합니다.

또한 한국어 지원 서비스?도 충실하기 때문에 원하는 툴이나 레퍼런스 워크플로우 작성에 대해서 기본적인 support가 가능하다는 점은 국내 연구자들에게 가장 큰 장점이 될 수 있을 것입니다. 연구실에서 단기간의 분석이나 교육 등에 활용하기 편리하며, 필요하시다면 Galaxy에 대한 교육 또한 가능합니다. ^^;;



저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2013.12.29 09:08
Currently 댓글이 없습니다. comments want to say something now?

티스토리 툴바