분류 전체보기 749

WGS에서의 확장을 고려한 유전변이 검출 파이프라인

WGS 분석에서의 bottleneckalignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 io가 bottleneck으로 작용한다. 대량 샘플에서의 병렬 네트워크 파일 시스템단일 샘플 분석과 같은 경우 NFS가 유리하지만, 대량의 샘플을 분석하는 경우 Lustre나 GlusterFS와 같은 병렬 네트워크 파일 시스템이 유리하다. 당연히 io가 분산되기 때문에 적은 수의 샘플에서는 병렬 네트워크 파일 시스템이 불리하게 작용하지만, 다수의 대량 샘플 분..

Cloud Computing in Genomic Reserach - vagrant와 chef를 이용한

유전체학회 정기학술대회에 "Cloud Computing in Genomic Research"란 제목으로 발표를 했었는데 워낙 시간도 짧고 준비도 제대로 하지 못했던터라 이자리를 빌어 재탕 들어갑니다. 소프트웨어 전성시대 그러나 사실상 BGI의 경우 157대의 시퀀싱 장비가 가동중이며, 매일 6 TB의 유전체데이터를 생산하고 있습니다. 매일 전송되는 데이터는 1 TB에 이른다고 합니다. (출처: The Big Challenges of Big Data, 2013, Nature) 또한 시퀀싱 장비의 가격하락으로 그동안 시퀀싱센터라고 불리는 몇몇 대형 연구소에서나 생산되었던 데이터량보다는 이제는 작은 아카데믹 랩들이 생산하는 데이터가 늘어나고 있습니다. 하지만 컴퓨팅 파워와 소프트웨어/알고리즘의 부족은 유전체데..

빅데이터분석 2014.09.26

Somatic Caller는 뭘 사용해야 하나요?

어제는 유전체학회의 정기학술대회에 기웃거리다 왔다. Bioinformatics 세션의 연세대 김상우 교수의 "Computational Approaches for Genomic Rare Variant Detection" 발표 후 질문중 하나가 여러개의 caller를 사용할때 어떤 caller를 사용해야 하냐는 것이었다. Combining Calls 또는 Ensemble Approach숭실대 황규백 교수의 "Reducing False-Positve Incidental Findings with Ensemble Genotyping and Logistic Regression Based Variant Filtering Methods"를 보면 여러개의 caller의 조합이 좋은 성능을 나타내는 것을 볼 수 있다. 위..

컬럼 2014.09.19

Somatic mutation calling in Low-allelic-fraction

뭐 어쩌다보니 cancer까지 흘러 들어와 버렸다. cancer 분석에 대한 개념 정리는 뒤로 미루고 분석툴에 대한 내용으로 시작한다. 뭐눈에는 뭐만 보인다더니 어째 cancer 분석 논문보다 분석 툴(알고리즘)에 대한 논문만 넘쳐 난다는 생각이 든다. Somatic mutation detection뭐 이것저것 많지만 우선 mutation dection 그것도 SNV만을 가지고 시작하자. 이 somatic mutation calling이라는게 germline mutation calling보다 복잡하다. 왜 그런지는 시간나면 지면을 할애해 설명하고 여기서는 cancer genomics의 somatic mutation의 SNV에 한정한다. 수많은 cancer genomics 관련 툴들이 나와 있지만, 필자 ..

나의 맥북 환경

Mac OSX 버전 MacBook Pro 레티나 15인치 2013 Early 버전의 맥북을 사용하고 있다. 메모리는 8GB로 올 가을 출시 예정인 Yosemite의 퍼블릭 프리뷰2 버전을 사용하고 있다. 클라우드 환경 다소 불안정한 버전을 사용하고 있으며, 별도의 타임머신을 이용한 백업을 설정하고 있지 않기 때문에 대부분의 중요한 문서는 클라우드를 이용하고 있다. - iCloud Drive, Google Drive, EverNote, DropBox 터미널 터미널은 가장 많이 사용하고 있는 App 중 하나로 폰트는 "나눔고딕코딩"을 사용중이다. 문자간격을 1 보다 작게 설정하였다. 터미널에서 vi나 man 등으로 문서를 오픈한 경우 마우스 스크롤을 하면 이전/후 내용을 손쉽게 확인이 가능하며, shift ..

컬럼 2014.09.01

고속 유전체 데이터 접근 - 1000 Genomes Project 사례 중심

유전정보를 담고 있는 유전체 데이터는 DNA 시퀀싱 기술이 발전함으로 유전체 연구 분야에 많은 변화가 일어나고 있다. 유전체 연구에 있어서 이를 분석할 수 있는 컴퓨팅 리소스에 대한 문제로 인해 자칫 유전체정보를 활용할 수 있는 다양한 기회를 놓쳐 버릴 수도 있는 상황이다. 유전체 연구에 있어서 가장 첫번째 걸림돌은 시퀀서에서 생산되는 데이터를 포함한 연구에 사용되는 데이터 볼륨이 크다는 것이다. 오늘은 바로 연구에 활용할 데이터에 어떻게 액세스 할것인가에 대한 내용이다. 인간의 유전변이에 대한 카다로그를 작성하기 위한 1000 Genomes Project는 현재까지 2편의 논문이 발표되었으며 cited된 논문만 하더라도 2,000여편에 이른다. initial phase(called pilot proje..

빅데이터분석 2014.08.26

유전체 분석 파이프라인을 비교하다 - 머큐리, HugeSeq, Genomon

들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장..

Colummar Storage in Genomics

요즘 화두는 Big Data 기술을 어떻게 genomics에 접목하는 것이냐에 대한 것이다. 구글의 Google Genomics, UC Berkeley의 ADAM 등이 Genomics에 Big Data 기술을 적용하고 있다. 다양한 Big Data 기술들이 genomics에 적용될 수 있겠지만, 오늘은 colummar storage 기술을 이용하여 BAM 파일등의 genomics 데이터를 다루는 방법에 대한 이야기를 하고자 한다. 왠 colummar storage? colummar storage 기술을 사용하면 대용량의 데이터에 대한 액세스를 빠르게 수행할 수 있기 때문이다. genomics 데이터를 다루기 힘든 이유와 왜 빠른 액세스가 필요한지 등등의 구구절절한 why에 대한 대답은 굳이 하지 않겠다...

빅데이터분석 2014.07.22