여: 옵빠 나 밤(BAM)가지고 있는데 요것들을 합치려 하니깐 리드들의 아이디가 서로 겹치는게 있어서 에러나 이거 고치는데 시간 오래 걸려? 남: 음! 그것두 졸라 한 오백 라인정도 하루죙일 코딩해야해! (샘포맷으로 바꾸고 헤더 정보 읽은 담에 리드 그룹을 파싱해서 아이디로 해쉬 테이블 만들어 넣고 리드들을 루푸 돌아가면서 해쉬에 있는 리드 그룹 아이디를 찾고 플랫폼 태그를 찾아서 리드 이름에 추가하고 다시 밤포맷으로 바꾸고 인덱싱 새로하고...) "The presentation from Eli Lilly is a great introduction to developing your own custom GATK Walkers in Java." from Blue Collar Bioinformatics GAT..
DDBJ vs. DNAnexus 얼마전 NGS 데이터 분석에서 최고를 달리고 있는 DNAnexs에서 SRA (Sequence Read Archive)의 데이터를 미러링해주는 서비스가 발표되었다. 이는 엄청난 데이터를 저장할 수 있는 구글의 클라우드 스토리지가 있기에 가능했던 일이었다. 단순한 미러링뿐만 아니라 SRA 데이터를 바로 DNAnexus로 import하여 해당 시퀀스 데이터를 분석 할 수 있도록 해주어 편리하게 SRA 데이터를 이용할 수 있도록 하고 있다. 하지만 이러한 컨셉은 적어도 내가 아는한 DNAnexus의 창의적인 서비스가 아니라 이미 일본의 DDBJ (DNA Data Bank of Japan)에서 이미 하고 있던 것이다. 오늘은 바로 가깝고도 먼 일본의 DDBJ 서비스에 대해서 알아보..
얼마전에 "우린 Apple App Store 아니 Genome App Store - Illumina BaseSpace"라는 글에서 일루미나의 클라우드 서비스에 대해서 언급한 적이 있다. 요번에 일루미나의 클라우드 서비스의 가격정책이 발표되었다. 다시 한번 간단하게 일루미나의 클라우드 서비스를 살펴보면 MiSeq 또는 HiSeq 장비 자체에 자사의 클라우드 서비스와 연동되어 시퀀싱을 수행하면 바로 데이터가 클라우드로 전송된다. (마치 이번에 업그레이드 된 Mac OSX 처럼 iCloud와 연동되어 텍스트편집기나 기타 iWorks로 작업한 문서를 로컬에 HDD에 저장하지 않고 바로 iCloud에 저장되는 것처럼 말이다) 전송된 데이터는 공짜로 분석을 해주며 일루미나는 기본적으로 제공되는 분석외에 3rd pa..
1000 genomes project에서 큰 활약을 한 GATK가 버전 2.0으로 업데이트 되면서 라이센스에 약간 변경이 생겼다. 2.0 버전은 비상업용 연구에만 사용이 가능하고 소스도 제공되지 않는다. 하지만 MIT 라이센스를 따르는 1.0버전대는 GATK-lite라는 이름으로 배포되고 있다. GATK 2.0 버전은 1.0 즉 lite 버전에는 없는 몇가지 중요한 기능이 추가 되었는데 에러 모델링, 데이터 압축, 유전변이 검출등에서 새롭거나 기능을 향상 시켰다. BQSR(Base quality score recalibration) v2 기존의 BQSR의 기능을 향상 시킨것으로 각 레인당 생성된 데이터의 calibration을 수행하여 전체적으로 데이터를 평준화 시키는 것인데, 정확히 v2로 업데이트 되..
예전에 Biopipe와 Bioworks라는 workflow management system이 있었다는 걸 기억하는 사람이 있을까? 아! 아직 KISTI의 Bioworks는 개발중에 있고 다양한 분석을 지원할거라고 예전에 댓글에서 본 적이 있다. 아마 KISTI의 Bioworks는 지금 소개할 서비스를 보고 좀 분발해야 하지 않을까 한다. NGS 분석에 있어서 DNAnexus나 BGI의 EasyGenomics들과는 좀 차별화된 서비스인 Seven Bridge Genomics가 오늘의 주인공이다. SBG의 IGOR이라는 서비스는 간단하게 데이터를 업로드하고 자신이 직접 파이프라인을 설정하면 끝나게 되는 서비스이다. 백문이불여일견이라 했던가 스샷 몇개 첨부로 오늘은 끝!!! 데이터 업로드 전용툴 대용량의 NG..
표준은 아니더라도 최소한의 예의가 필요한 시점 얼마전 Pistoia Alliance에서는 NGS 데이터를 효율적으로 관리하기 위한 방법의 하나로 효율적인 압축 알고리즘을 개발하는 사람에게 $15,000의 상금을 걸고 대회를 열었었다. 현재 fastq, bam, vcf로 포맷에 대한 부분도 어느정도 자리가 잡혀가고 있는 추세이다. 각 개별 파일에 대한 표준뿐만 아니라, 하나의 NGS Sample 데이터를 정의하는데에 있어서의 정의 또한 필요한 부분이라고 생각된다. 시퀀싱 장비에서 분석까지 모두 섭렵하고 계신 Complete Genomcis는 넘들 다 쓰는 포맷이니 뭐 그딴거 안쓰시고 자신만의 표준을 잡아서 쓰고 계신다. 군바리의 그것처럼 각잡힌 구조하에 각각 고유의 포맷으로 무장한 파일들을 보면 이 놈들 ..