2014/09 5

WGS에서의 확장을 고려한 유전변이 검출 파이프라인

WGS 분석에서의 bottleneckalignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 io가 bottleneck으로 작용한다. 대량 샘플에서의 병렬 네트워크 파일 시스템단일 샘플 분석과 같은 경우 NFS가 유리하지만, 대량의 샘플을 분석하는 경우 Lustre나 GlusterFS와 같은 병렬 네트워크 파일 시스템이 유리하다. 당연히 io가 분산되기 때문에 적은 수의 샘플에서는 병렬 네트워크 파일 시스템이 불리하게 작용하지만, 다수의 대량 샘플 분..

Cloud Computing in Genomic Reserach - vagrant와 chef를 이용한

유전체학회 정기학술대회에 "Cloud Computing in Genomic Research"란 제목으로 발표를 했었는데 워낙 시간도 짧고 준비도 제대로 하지 못했던터라 이자리를 빌어 재탕 들어갑니다. 소프트웨어 전성시대 그러나 사실상 BGI의 경우 157대의 시퀀싱 장비가 가동중이며, 매일 6 TB의 유전체데이터를 생산하고 있습니다. 매일 전송되는 데이터는 1 TB에 이른다고 합니다. (출처: The Big Challenges of Big Data, 2013, Nature) 또한 시퀀싱 장비의 가격하락으로 그동안 시퀀싱센터라고 불리는 몇몇 대형 연구소에서나 생산되었던 데이터량보다는 이제는 작은 아카데믹 랩들이 생산하는 데이터가 늘어나고 있습니다. 하지만 컴퓨팅 파워와 소프트웨어/알고리즘의 부족은 유전체데..

빅데이터분석 2014.09.26

Somatic Caller는 뭘 사용해야 하나요?

어제는 유전체학회의 정기학술대회에 기웃거리다 왔다. Bioinformatics 세션의 연세대 김상우 교수의 "Computational Approaches for Genomic Rare Variant Detection" 발표 후 질문중 하나가 여러개의 caller를 사용할때 어떤 caller를 사용해야 하냐는 것이었다. Combining Calls 또는 Ensemble Approach숭실대 황규백 교수의 "Reducing False-Positve Incidental Findings with Ensemble Genotyping and Logistic Regression Based Variant Filtering Methods"를 보면 여러개의 caller의 조합이 좋은 성능을 나타내는 것을 볼 수 있다. 위..

컬럼 2014.09.19

Somatic mutation calling in Low-allelic-fraction

뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는 cancer genomics의 somatic mutation의 SNV에 한정한다. 수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 ..

나의 맥북 환경

Mac OSX 버전 MacBook Pro 레티나 15인치 2013 Early 버전의 맥북을 사용하고 있다. 메모리는 8GB로 올 가을 출시 예정인 Yosemite의 퍼블릭 프리뷰2 버전을 사용하고 있다. 클라우드 환경 다소 불안정한 버전을 사용하고 있으며, 별도의 타임머신을 이용한 백업을 설정하고 있지 않기 때문에 대부분의 중요한 문서는 클라우드를 이용하고 있다. - iCloud Drive, Google Drive, EverNote, DropBox 터미널 터미널은 가장 많이 사용하고 있는 App 중 하나로 폰트는 "나눔고딕코딩"을 사용중이다. 문자간격을 1 보다 작게 설정하였다. 터미널에서 vi나 man 등으로 문서를 오픈한 경우 마우스 스크롤을 하면 이전/후 내용을 손쉽게 확인이 가능하며, shift ..

컬럼 2014.09.01