Fork me on GitHub 단맛만좋아요 :: Deep Genomics

Deep Genomics
2017.01.12 07:53 | blogging

누가 뭐래도 요즘 화두는 deep learning이 아닐까? 그렇다면 현재 genomics 또는 이와 관련하여 어떤 움직임들이 있는지 한번 알아보도록 한다.


유전질환 딥러닝 - Face2Gene

예전 칼 짐머의 "Game of Genomes"의 시즌1의 두번째 에피소드인 "깨어진 코드"편을 보면 이런 장면이 나온다.  칼 짐머가 자신의 염기서열을 시퀀싱 하기로 한후 보스턴의 브리검여성병원의 로버트 그린은 칼 짐머의 얼굴을 유심히 보는 장면이 나온다.


“전 지금 유전병에서 나타나는 얼굴의 특징을 찾고 있는 거에요” 브리검여성병원(Brgham and women’s hospital)의 로버트 그린이 말했다. “눈의 모양, 귀가 너무 낮게 있지는 않은지. 귀가 복잡하게 생기진 않았는지” 그린박사는 사무실을 앞뒤로 걸어보도록 했다. 나는 웨스트민스터 도그쇼의 테리어 같다는 느낌이 들었다. 몇몇 유전병은 걸음걸이에 숨겨져 있다고 그린이 설명했다.


유전병은 얼굴이나 걸음걸이 등에 숨겨져 있다는 것이다. 굳이 genome을 분석하지 않더라고 말이다. 바로 이부분을 실제 만든 서비스가 바로 "Face2Gene"이라는 앱으로 이들은 "smart phenotyping better genetics"라는 슬로건을 내걸고 있다.




사진을 올리면 딥러닝을 통해 눈꺼풀이 얼마나 좁은지? 귀는 얼굴에서 얼마나 낮은지? 등을 정량화하고 얼굴과 가장 가능성이 있는 증후군에 대해서 순위를 매겨 보여주는 한편 위의 그림처럼 히트맵을 오버레이 시켜 어떤 특징이 가장 일치 하는지를 보여 준다.


유전변이 발굴 딥러닝 - DeepVariant

얼마전 미 FDA에서는 NGS를 통해 생산된 데이터에서 얼마나 variant를 잘 찾는지에 대한 챌린지를 수행한적이 있다. SNP와 INDEL 두부분으로 나누어 미리 정답을 알고 있는 샘플의 FASTQ 파일을 제공하고 이를 참가자들을 알고리즘을 통해 분석된 결과와 얼마 일치하는지에 대해서 평가를 수행했는데 SNP 부분에서 1등을 차지한 곳이 베릴리 라이프 사이언스 (전 구글 라이프 사이언스로 구글의 지주회사인 알파벳의 계열사)가 1등을 먹었다.


바로 이 베릴리 사이언스가 variant를 찾는데 사용한 기법이 바로 딥 러닝 기법으로 기존의 GATK 같은 툴들이 베이지안 확률을 통해 찾는데에 비해 pileup 파일을 이미지화 하여 CNN(Convolutional Neural Network)를 이용하여 정확도를 높였다. 



변이 해석 딥러닝 - Watson for Genomics

이미 왓슨은 국내에도 도입되어 운영되고 있는데 이는 Watson for Oncology로 NGS등을 통해 생산된 Somatic mutation (VCF 또는 MAF 파일) 이나 Copy number variation (log2 format)을 입력받는 genomics에 특화된 부분은 Watson for Genomics(Watson Genomics Advisor)로 현재 개발중에 있다.


최근 기사에서는 일루미나가 자사의 TruSight 170 패널을 통해 생산된 NGS 시퀀싱 데이터에 대한 해석을 Watson for Genomics를 통해 올해 안에 제공할 예정이라고 한다.




Watson for Genomics는 임상에 포커스된 결과들을 제공하게 된다.

  • List of Dysfunctional Proteins
  • IBM Developed Driver Score
  • Targeted Therapies


이외에도 Pathway Analysis, Drug Recommendation 정보를 제공한다.




결론

현재까지 genomics와 이와 관련된 부분에서 어떻게 딥러닝이 활용되고 있는지에 대해서 알아보았다. 이제는 환자의 유전체 데이터 생산전부터 딥러닝이 활용되기 시작하여 최종적으로 유전체 데이터를 분석하고 해석하는데에 딥러닝이 활용되기 시작되었다. 그렇다고 우리의 직업이 없어질 것인가? 이제는 좀 더 큰 시야를 가지고 이러한 딥러닝을 어는 부분에 적용할지와 함께 트레이닝 데이터에 대해서 어떤 종류의 데이터를 얼마나 어떻게 확보할지 그리고 어떻게 훈련 시킬지에 대해서 생각해봐야 할 것이다.



저작자 표시 비영리 동일 조건 변경 허락
신고
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : blogging at 2017.01.12 07:53
Currently 댓글이 하나 달렸습니다 comments want to say something now?

티스토리 툴바