유전자정보분석

GATK 버전 스토리

hongiiv 2013. 3. 6. 22:44
반응형

초기 GATK가 2.X 버전으로 업데이트 되면서 연구용/상업용 라이센스를 가진 버전과 2.0 버전의 subset 기능을 가진 GATK-LITE 버전을 내놓아 상업용으로도 사용 가능하도록 했다.

GATK 2.X도 2.3버전 (The Genome Analysis Toolkit (GATK) v2.3-9-gdcdccbb)까지는 지속적으로 위의 두 라이센스를 적용하여 상업용도 무료로 사용 가능하도록 했으나, GATK 2.4 버전으로 최근 업데이트 되면서 새로운 GATK-LITE 버전이 사라지고 즉, 상업용/무료의 라이센스가 사라지고 다음과 같이 3가지 라이센스 정책으로 변경되었다.

  • Development of third-party tools: MIT (free-open) 즉, GATK의 third-party 툴을 개발할때만 무료로 사용 가능하며, 이버전으로의 상업용 서비스는 제한된다. 
  • Academic: 오로지 학교와 같은 연구에만 사용 가능하며, 연구도 상업적인 연구(즉 연구소에서 상업적인 연구?)에는 제한되며 Broad (free - restricted) 라이센스가 적용된다. 
  • For-profit: 연구나 상업적인 서비스 즉 모두 사용 가능하며 모든 GATK의 기능과 제품에 대한 서비스를 Appistry를 통해 제공되며 라이센스 fee를 받는다.

그러면, 상업적인 연구소나 상업적인 서비스를 위해 무료 버전의 GATK를 사용하고자 한다면 GATK 2.3 Lite 버전을 사용하면 된다. 하지만, 여기서 함정은 왜 Broad가 2.3까지만 Lite 버전을 제공하느냐? 바로 2.4 버전으로 업그레이드 되면서 accuracy 부분에서 큰 향상을 가져왔기 때문이다. 즉 돈 받을 만한 가치가 있다고 지들나름 생각한 것이다.

따라서 2.3 Lite버전으로 상용서비스를 했다가는 문제의 소지가 생길 수 있다는 것이다. 아까 언급한 accuracy는 바로 SNP/INDEL call에 있어서 HaplotypeCaller의 기능이 눈에 띄게 안정적으로 제공 가능하게 된 것으로, 물론 HaplotypeCaller 대신 UnifiedGenotyper를 사용한다면 별 문제가 없으나 당근 HaplotypeCaller가 UnifiedGenotyper보다 훨 좋기에 어쨌든 2.4 버전으로 갈아 타야 되는 것이다.

다음은 HaplotypeCaller와 UnifiedGenotyper의 SNP/INDEL 콜에 있어서의 True positive와 False positive rate의 비교한 그래프로 확연히 GATK 2.4 버전에서의 accuracy 향상으로 보여준다.



 따라서, 결론은 HaplotypeCaller 써야하고 이거 쓰려면 돈 내고 v2.4 써라!!! 이것이 되겠습니다. ㅋㅋㅋ

반응형