유전자정보분석

물흐르듯이 streaming pipeline- genome 데이터 처리

hongiiv 2013. 1. 5. 00:16
반응형
사람들이 가장 많이 질문하는 것이 업로드 속도이다. 대용량 데이터인데 업로드 속도는 얼마나 나오느냐? 그러면 되겠느냐? 참 이걸 어떻게 설명해야 할지 난감할 따름이다.

집에 수도꼭지 하나쯤 다들 가지고 있을것이다. 아무리 수도꼭지가 크더라도 정수장에서 집까지 연결된 수도배관이 작다면 혹은 동네까지 들어오는 배관은 충분히 넉넉한데 동네에서 집까지 들어오는 배관이 작다면 너네 집에 아무리 수도꼭지가 크던 뭔짓을 하던 원래 배관이 수용 할 수 있는 만큼의 물만을 받을 수 있다. 엄청난 수도배관을 집까지 설치하거나 엄청난 고압으로 집까지 물을 쏴주지 않는 이상 속도는 획기적으로 빨라지지 않는다. 그렇다면 넉 놓고 앉아 있어야 한느건가? 그렇지만은 않다.

그림 a.는 현재 클라우드에서 분석을 할 경우에 일어나는 일을 보여준다. 우선 시퀀서를 통해 읽어진 데이터는 base calling 단계를 거쳐 fastq 파일이 된다. 이 fastq 파일이 다 만들어지고 나면 이제 클라우드로 업로드를 하게 되고 이 단계가 다 끝나면 alignment를 수행하게 된다. 각 단계는 이전단계가 완료된 후 순차적으로 진행되게 된다.

하지만 그림 b.의 경우에는 시퀀서에  base calling을 하면서 동시에 이를 업로드하는 동시에 aligment를 수행하게 된다. 즉, 순차적으로 진행되기는 하지만 a.의 경우와 같이 단계가 끝나야 다음 단계로 가는 것이 아니라, 일련의 작업들이 동시에 일어나게 되는 것이다. 이렇게 된다면 a.의 경우보다 훨씬 빠른시간에 결과를 얻을 수 있을 뿐만 아니라. 업로드시 순간적으로 대역폭을 잡아 먹는것이 아니라 꾸준히 일정한 대역폭만을 사용하여 보다 효과적으로 네트워크를 사용할 수 있게 된다.

특히나 genome 데이터와 같은 대용량 데이터의 경우에는 이러한 처리 방식이 효과적이며, 클라우드를 사용하는데에도 효과적이다. 요즘 모통신사의 하면서~하면서 라는 광고가 문득 생각난다. 빠름~빠름~도 함께...ㅋ





반응형