본문 바로가기

빅데이터분석21

결함을 허용하는 의존성 있는 태스크의 관리 그래프를 이용한 태스크 표현 흔히 바이오인포매틱스 분석이라고 하는 경우 스크립트나 모듈을 작성하여 일련의 분석을 수행하곤 한다. 그러나 단순한 형태의 일이 아니라 더욱 고난이도의 일을 처리하다가 보면 (물론 대부분이 그렇지만) 태스크의 의존성을 고려해야 하는 경우가 많다. 그래프를 이용하여 이를 표현해 보면서 어떻게 의존성과 결함을 고려한 스케줄러를 만들 수 있는지 생각해 보도록 하자. 총 4개의 노드 (Task1, Task2, Task3, Task4)와 엣지로 구성된 그래프로 각각의 엣지는 다음과 같은 의존성을 가진다. Task1=>[Task2, Task3] Task2=>[Task4] Task3=>[Task4] Task4=>[] 즉, Task1이 끝나야 Task2,3이 수행되고 Task4는 Task2,.. 2015. 10. 13.
Docker를 이용한 Bioinformatics 플랫폼 한때? 학회세션이나 기타 개인적인 요청 등으로 유전체 데이터에 대해서 빅데이터의 관점에서 어떻게 클라우드를 활용하느냐?에 대한 이야기를 하고 돌아다니기도 했습니다. 뭐 여러 측면에서 클라우드라는 장점이 있을 수 있겠습니다만 여기서는 가상화 또는 컨테이너 기술을 기반으로 어떻게 활용될 수 있을지에 대해서 알아보겠습니다. 도커라는 컨테이너 기술을 이용한 유전체 데이터 분석에 관한 내용입니다. Flow-based programming (FBP) 구글의 Polymer나 React, KLay Layered, NeoFlow의 기술을 이용한 the-graph를 이용하면 어플리케이션에서 프로세스를 블랙박스화하여 아래처럼 일련의 과정을 정의할 수 있습니다. 이미 이분야에서는 이를 파이프라인이라는 이름으로 부르며 데이터 .. 2015. 4. 29.
구글 지노믹스를 이용한 Picard와 GATK 이미 여러번 소개 했듯이 구글은 구글 지노믹스라는 서비스를 통해 유전체 데이터를 저장하고 분석할 수 있는 환경을 제공하고 있습니다.최근에는 우리가 흔히 사용하는 Picard나 GATK에서도 구글 지노믹스 서비스를 사용하는 방법을 내놓았습니다. 원리는 간단합니다. 구글 지노믹스 서비스에 저장된 SAM/BAM 파일을 Picard의 INPUT으로 지정할 수 있는 간단한 wrapper를 만든것입니다. 구글 지노믹스의 git 페이지에 gatk-tools-java라는 이름으로 "Tools for using Picard and GATK with Genomics API"라고 설명되어 있습니다. 아래와 같이 INPUT을 구글지노믹스 서비스의 SAM 파일을 지정해주면 wrapper는 Picard는 해당 INPUT을 STD.. 2014. 12. 17.
구글 Genomics API를 이용한 De Novo Variant Call De novo mutation (DNM)De novo mutation은 부모에게서는 나타나지 않지만 자식에게서는 나타나는 rare genetic mutation이다. 이러한 mutataion은 Autism이나 Schizophrenia의 영향을 준다는 Whole-genome sequencing in autism identifies hot spots for de novo germline mutation. 논문이 있다. 지금까지 다훈증후군과 같이 21번 염색체가 3개인 삼염색체성(trisomy21)와 같은 유전질환은 어머니의 나이와 연관이 있다고 알려졌는데 Rate of de novo mutations and the importance of father’s age to disease risk 에 의하면 질병과.. 2014. 10. 17.