전체 글 749

Clinical NGS Seqeuncing에서의 중요 체크 포인트

NGS techologies기반의 WES, WGS는 비록 국내에서는 아니지만, clinical diagnosis, genetic risk prediction, patient management에서 루틴하게 사용되는 주목할만한 패러다임으로 자리잡았다.이러한 clinical genetics에서 bottleneck은 더이상 DNA sequence production이 아니라 DNA sequence analysis로 옮겨간 것은 누구나다 인지하고 있는 사실이며, large-scale comparative genomics는 일관성 있는 재생산성, 협력 연구자와의 안전한 공유 등 많은 허들이 존재한다. raw sequencing read를 생산하고 실제 clinical interpretation하기까지 clinic..

컬럼 2014.03.18

GATK의 incremental joint discovery를 위한 reference model pipeline

좀 더 많은 genomes이 필요한 시대 $1000 게놈 시대가 진짜 도래했다. 이제까지 NGS 연구의 대부분이 하나의 genome 데이터를 가지고 연구(rare variant를 찾던)하던 것이 GWAS처럼 대규모의 cohort의 샘플을 수용하기 시작하면서 "Common Variant Association Study (CVAS)"에 눈을 돌리기 시작했다. 이는 가격뿐만 아니라 대량의 NGS 데이터를 다루기 위한 툴 또한 발전하면서 가능케 되었다. 이러한 CVAS 데이터는 cohort의 샘플들(individucal callsets)을 개별적으로 variant call을 하는 것이 아니라, joint callset을 만들어 joint variant discovery를 수행하여 흔히 말하는 power를 부여할..

comparison of variant detection methods

Clinical Sequencing을 위한 준비 - 표준 variants 미국 NIST (National Institute of Strandards and Technology)의 Div. Biosystems and Biomaterials 에서는 추후 임상으로서의 NGS 데이터 적용을 대비하기 위한 작업을 하고 있다. 이와 유사하게 국내에는 한국표준과학연구원 국가참조표준센터 (NCSRD)이 생명과학 관련 참조 표준 제정하고 있는데요. 아직 NGS 데이터와 관련한 표준은 없는 상태이다. (하단의 생명과학 관련 참조 표준 목록 참고) NIST는 NA12878에 대해서 자세한, 표준의 variants call set을 만들어 calling 알고리즘의 벤치마크나 기타 여러 분야에 활용할 수 있도록 하고 있다. 이..

NGS 데이터 분석을 위한 미들웨어 시스템 설계

무슨 논문제목 같기는 하네. 간단히 말해서 NGS Big Data 분석을 위해서 컴퓨터 hardware (Cluster, Cloud)와 software(BWA, GATK 등) 사이에서 이들을 효율적으로 연결시켜주는 것이 필요하다는 것이다. 지금까지 써왔던 Resource Managent를 위한 Job Scheduler인 OpenPBS, SGE, OGE (SLURM, Torqueue는 써보지 못했음) 를 사용하는데에 실제 데이터 분석을 하는데에 있어 컴퓨터 자원을 효율적으로 사용하지 못한다는 단점이 존재한다. 일반적으로 컴퓨터의 레벨 (levels of computing)은 Core, Machine, Cluster로 나뉘어진다. 하나의 Machine은 메모리를 공유하는 여러 Core가 존재하며 각 Mach..

빅데이터분석 2014.02.21

진정한 경진대회의 의미를 살린다면...

이제 설이다. 새해 복많이 받으세요!!! 몇년전 KOBIC에서 진행한 경진대회가 있었는데,,, 이번에 또 경진대회가 하나 나왔습니다. 아니 나온지 좀 됐습니다. 잠깐 경진대회 이야기나 하고 설맞으로 가려고한다. KOBIC의 생명정보 분석 경진대회 지난 12월 31일까지 접수가 마감이었는데, 1월 15일까지 기간이 연장되었다. 경진대회의 목적은 "NGS 기반 유전체 연구의 활성화 및 발전을 도모하고자 생명정보 데이터 분석 및 알고리즘 개발 경진대회를 진행한다는 것이다" 그리고 그 결과는 논문은로 3월말까지 제출되어야 한다고 한다. 경진대회 홈페이지 https://www.kobic.re.kr/newkobic_competition/ 자 1월15일까지 연구계획서를 제출하고 그걸 3월까지 논문으로 만들어서 제출해..

클라우드는 지금 스토리지 가격 전쟁중

요즘 클라우드 업체간의 경쟁으로 인한 가격하락이 주요 기사로 등장하고 있다. 오늘은 클라우드 서비스 중 스토리지 서비스에 대해서 이야기 해보려고 한다. 왜냐면 우리가 g-Storage라는 서비스를 내놓은 시점에서 이런 일련의 일들이 일어나서 좀 정리 좀 하고 넘어갸려고 한다. 아마존 AWS 2월 1일 부터 S3(스토리지)가 가격 하락을 단행한다. 동부 버지니아 지역을 기준으로 기본 스토리지(Standard Storage)의 가격을 $0.085/ GB 약 92원, 중복을 줄인(클라우드 스토리지의 경우 일반적으로 똑같은 파일?(정확히 파일은 아니지만, 암튼)에 대해서 3개의 복사본을 유지하는데 이를 줄여서 2개 정도의 복사본을 유지) Reduced Redundancy Storage가 $0.068 / GB 약..

computer system 2014.01.27

대규모 과학계산(유전체 연구)에 있어서 클라우드 사용하기

제목은 "과학계산"이라고 했으나 여기서는 "유전체 관련"이라고 한정지어 이야기를 하겠다. 왜냐고 그건 내 마음이니까. 요즘 국내에서도 많은 사람들이 자신의 연구에 클라우드를 사용하기 시작했다. 클라우드를 사용하기를 원하는 사람들 중 다음의 상황이 가장 많다. 빠른 시간내에 분석 결과를 내고 싶다. 대부분의 사람들은 샘플을 수집하고 이를 시퀀서와 같은 장비를 통해 데이터를 생산해 낸다. 즉, 분석할 데이터셋트가 만들어진다. 여기서 문제가 발생한다. 각종 연구에 있어서 논문으로의 출판까지 비교적 여유롭지 못하다는 것이다. 여기에는 많은 이유가 있을 수 있다. 가령 주어진 과제비에 대한 산출물(즉, 논문)을 내야하는 시기가 정해져 있다는 것이다. 어쩔 수 없는 이유들로 인해 데이터 생산까지의 시간을 일정내에 ..

빅데이터분석 2014.01.25

GenomeCloud는 이벤트 중

GenomeCloud가 기존의 서비스외에 2개의 추가적인 상품을 내놓으면서 이벤트를 하고 있습니다. 유전체 데이터를 위한 클라우드 스토리지인 g-Storage입니다. 유전체 데이터에 특화된 클라우드 스토리지인데요. 일반적인 클라우드 스토리지가 사진, 동영상, 엑셀, 워드 문서 등을 프리뷰하고 관리하게 해주는 것처럼 유전체 데이터를 프리뷰하거나 유전체 데이터의 속성을 활용하기 쉽도록 만들어져 있습니다. 예를 들어 BAM 파일의 경우 preview 하는 경우 SAM 포맷으로 보여주고요. 당근 IGV를 통해서 바로 다운로드 없이 볼 수 있습니다. 그 외에도 FastQC 결과물을 업로드하는 경우(보통 zip으로 묶여있죠)에도 프리뷰를 통해 바로 확인 가능합니다. 또한 각 파일은 샘플명이라던가 시퀀싱 타입 등의 ..

blogging 2014.01.24

유전체 분석 툴 라이센스 - GATK

얼마전 미국의 에어리오의 클라우드 재전송이 화두가 되었다. 에어리오의 서비스는 가입을 하면 가입자들의 안테나를 자사의 데이터센터에 설치하여 방송을 수신하고(가입자들에게 안테나 하나씩 지정) 수신받은 방송을 가입자의 기기에 전송한다. 에어리오가 공중파를 수신하고 이를 사용자에게 배분하는게 아니라 각각의 가입자들에게 안테나를 지급하고 수신한 것을 다시 가입자에게 전송한다는 개념이다. 이러한 서비스 방식이 공중파 업체들에게 재전송료를 지불하지 않고 이루어지는 것이다. (에어리오 관련 기사) 당연히 공중파 업체는 에어리오가 말이 안되는거고, 에어리오 입장에서는 가입자가 자신의 안테나로 수신한것을 전달만 하는 입장에서 일정의 요금을 받는것이기에 문제가 없다는 것이다. 핵심은 이러한 방식이 지상파의 재전송이냐? 아..

컬럼 2014.01.16

Galaxy RNA-Seq Analysis: Tuxedo Protocol

Tuxedo Protocol을 Galaxy를 이용하여 구현하여 RNA-Seq 데이터를 분석하는 방법에 관한 내용입니다. 분석 결과를 IGV와 Galaxy의 visualization을 이용하여 시각화하는 방법과 CummeRbund를 이용하는 방법에 관한 내용입니다. Galaxy를 이용하는 방법은 Galaxy Main 페이지를 통해 무료로 사용 가능합니다만, 계정당 250 GB의 제한과 최대 동시 수행할 수 있는 job의 갯수가 8개로 제한되어 있습니다. 또한 사용자가 많아지면 job 대기 시간도 길어지며 업로드에도 많은 시간이 걸린다는 단점이 있어 실제 대용량의 데이터를 분석하는데에는 어려움이 있는것이 사실입니다. 그 대안으로는 로컬 클러스터에 직접 설치하거나 Amazon의 컴퓨팅을 이용하는 방법이 있습니..

컬럼 2013.12.29