바이오인포매틱스

여러 샘플을 동시에 분석하기 - Reduced BAM을 이용한 다샘플 한큐 분석

hongiiv 2013. 3. 8. 18:44
반응형
100 샘플 이상을 동시에 분석해서 variant를 calling할때 잇점이 무엇인가? 우선 100 샘플이상을 동시에 분석이 가능한가부터 짚고 넘어가야겠다. 일반적으로 NGS에서 variant calling은 BAM  파일을 가지고 하는데, 요 BAM 파일의 크기가 크기 때문에 merge하여 동시에 분석 (calling all samples simultaneously)하기에 버겁다. 자 이제 하나씩 벗겨 보자.

Calling all samples simultaneously vs. Batch calling
 암 샘플 분석이나 대규모 집단에서 나타나는 일반적인  (common) variant를 얻기 위한 연구일 경우에는 여러개의 샘플에서 나타나는 variant가 필요하다. 이러한 경우에는 각 샘플을 뭉쳐서 variant를 찾아내야 하는데, 여기 1,000 샘플이 있다고 가정할때 1,000개의 샘플(BAM 파일)을 하나로 merge하여 calling하는 방법이 multi-allelics이나 low frequency variants를 찾는데 유용하다. 하지만, 1,000개의 엑솜 (WEx) 또는 홀지놈 데이터를 merge하여 calling이 어렵기 때문에 100개씩 나누어 총 10번 분석 후 데이터를 합치는 batch calling 방법이 있다.

당연히 batch 보다는 동시에 분석하는 것이 언뜻 생각해도 좋은 방법이다. 우선 결론부터 이야기 하자면, raw call부터 tri-allelic을 비롯한 multi-allelic이나 low frequency variant를 찾는데 동시분석법이 더 효과적이라고 Broad에서 말했다. (자세한 데이터는 skip하도록 하자.)

그럼 동시분석을 위해서는 우선 call을 하기 위한 각각의 BAM 파일부터 사이즈를 좀 줄어야 한다. 그래서 나온것이 Reduced BAM이라는 포맷이다.

Reduced BAM
BAM 파일을 보면 각 read들이 겹쳐진 형태로 각가의 read들이 같은 내용을 가진 consensus region과 read 중간중간 서로 다른(variant가 있는 부분이 되겠죠) variable 영역이 존재한다.  

A 영역 : homozygous variants 영역으로 Reference와 모두 다른 site가 모여있는 부분
B 영역 : consensus reads 영역
C 영역 : variable 영역, Reference와 같거나 혹은 다른 site가 적당히 섞인 부분

자, 그럼 어떻게 BAM 파일을 줄이느냐? 바로 C영역만 모든 정보를 그대로 표현하도록 정보를 살리고 나머지 부분은 걍 하나인 것처럼 확~압축을 해보리면 되겠다. 물론 A나 B 영역도 압축은 하지만 variant를 call 할때 필요한 정보는 남겨 두고 압축을 해버린다.


 자. 그럼 A,B부분을 reducing한 결과는 다음과 같이 표현되게 되겠다. 이런식으로  BAM 파일을 압축 즉,  Reduced BAM으로 만들면 다음과 같은 혜택을 누릴 수 있게 된다.

  • Sequencing Center에서 생산된 데이터를 사용자에게 전달하거나 클라우드에 저장할 경우 손쉽게  이동
  • BAM 파일을 저장하는 경우 원래 정보를 모두 지닌채 압축하여 디스크의 물리적 공간을 적게 차지하여 저장 비용 절감
  • Variant calling과 같은 분석시 빠르게 분석이 가능 (분석 시간 단축, 물론 reducted bam 포맷을 지원하는 툴로 분석해야 겠지만...)
  • 앞서 언급했듯이 >동시에 분석 가능 (100개 이상의 샘플에서 batch 작업 에 비해 좋은 결과를 얻음)
  • 그럼으로서 불편하게 batch 작업을 안해도 되기에 간단하게 한번의 명령으로 분석 끝!
 
하지만, 그리 녹녹하지만은 않다.
많은 장점에도 불구하고  Reduced BAM 파일을 이용한 동시분석은 현재 GATK에서만 지원하며, GATK에서도 현재 WEx(홀엑솜) 데이터 분석(calling)에 필요한 기능을 위주로 개발되었다. 따라서 홀지놈데이터를 reducted bam을 이용해서 동시에 분석할 경우 몇몇 calling을 위한 필터가 제대로 동작하지 않을 수도 있다. 또한 연구용(상업용 연구 제외)인 경우에만 사용 가능하며, 상업적인 연구/서비스에는 사용이 불가능하다. 

하지만 이제 피할 수 만은 없다. 왜냐면 점점 시퀀싱 가격이 하락하면서 >100  샘플씩 시퀀싱을 돌리는 연구가 늘어나고 암 등의 분석에  동시분석이 유용하게 활용되기 때문에 동시분석을 위해서는 Reduced BAM 또는 엄청나게 무지막지한 성능의 컴퓨터 밖에는 답이 없다. 여기서는 더 이상 parallization을 할 수 없다. 물론 염색체별로는 가능하지만...

암튼 100샘플 이상에서 변이를 보고자 한다면 연락주셈요. 성심껏 도와 드리겠습니다. 물론 100샘플 이상을 동시에 왜? 분석하는지도 모르고 걍 돈있어서 하는 사람은 없겠지...ㅋ 

마지막으로 아직까지 GATK의 HaplotypeCaller와 Reduced BAM은 사용금지입니다. 물론 Reducted BAM + UnfiedGenotyper+ 100개 이상의 홀엑솜샘플은 굿!  걍 하나의 샘플을 HaplotyeCaller 굿!!

자세한 내용은 Broad의 자료를 참고하세요 https://www.dropbox.com/s/3b87mwjd1pif0jc/ReduceReads.pdf 
반응형