Fork me on GitHub 단맛만좋아요 ::

유전체와 클라우드 관련 기사
2015/03/23 17:22 | 컬럼

의료-헬스케어 산업의 패러다임을 바꾸는 클라우드

얼마전 국내에서 정부와 공공기관이 민간 클라우드 서비스를 사용할 수 있도록 규정한 클라우드 컴퓨팅 발전 및 이용자 보호에 관한 법률안 (클라우드 발전법)이 제정돼 오는 9월 시행을 앞두고 있습니다. 클라우드 발전법은 정부 부처와 지방자치단체, 공공기관은 앞으로 정보화 사업이나 예산을 편성할 때 먼저 클라우드 도입을 고려해야 합니다. 즉 클라우드가 우선 고려대상이라는 말입니다. 


하지만, 공공에서 클라우드를 도입할 경우 도입 업무의 범위나 개인정보보호, 품질 및 안정성에 대한 내용들은 충분한 논의와 합의가 필요한 부분입니다. 클라우드의 도입은 의료나 헬스케어의 경우에는 특히나 원격의료, 환자 데이터 공유 등 서비스 수준이 향상될 것으로 기대되지만 역시 의료법이나 개인정보보호 등의 문제들이 선결되어야 합니다.


현재 이러한 대안으로 질의응답 기반 개방형 클라우드 서비스가 거론되고 있는데요. 의료기관이 직접 의료정보를 퍼블릭 클라우드상에서 사용할 수 없기 때문에 건강보험심사평가원이나 질병관리본부, 국민건강보험공단 등의 의료공공기관이 보유한 데이터를 기반으로 의료기관에게 역으로 클라우드 서비스를 제공한다는 것입니다. 이것은 대한의료정보학회의 "2014 스마트의료기술세미나"에서 발표된 내용으로 합법적으로 의료 데이터를 수집할 수 있는 기관 (심평원, 질본, 건보 등)이 private cloud 형태로 빅데이터 기반의 추론 기술(IBM 왓슨과 같은)을 의료기관에 제공한다는 것입니다. 뭐 의료기관으로서는 클라우드고 뭐고 기존에 전송만 하던것에서 제대로 데이터를 수신하는 정보공개 질의 서비스를 활용하겠다는 것입니다.


실리콘밸리의 관심

2012년 창업한 인비태(INVITAE)는 최근 1억2천만 달러의 투자에 성공한 실리콘밸리의 스타트업으로 Myriad Genetics나 Ambry와 같은 유전자 검사를 수행해준다. 여기서 유전자 검사는 23andMe와 같은 검사가 아닌 실제 의사가 진단에 활용하는 유전자 검사 즉, 분자진단에 속한다. 


인비태는 genetic information이 의료에 루틴하게 쓰여지는것을 목표로 하고 있는데 NGS를 기반으로 하고 있다. 기존의 industry-standard로 알려진 PCR, Sanger, FISH, IHC 등의 검사 방법을 NGS로 수행한다는 것이다. 


미국의 경우에는 LDT가 허용된 국가이기 때문에 NGS 기술을 LDT로 사용하는데에는 무리가 없기 때문에 인비태 역시 CLIA와 CAP 인증을 통해 LDT 방식으로 유전자 검사를 수행하고 있다. 현재 가능한 검사는 cadiology, hereditary cancers, neurology, pediatric geneteics, hematology에 관한 panels을 통해 검사를 수행하고 있으며, 원한다면 custom design을 통해 주로 유전자의  deletion과 duplication 테스트를 수행한다.


현재 모든 유전자와 질병과 관련된 panel은 그 수에 상관없이 모두 동일한 가격으로 책정되고 있는데 이는 필요한 정보만을 전달하겠다는 의미로 해석할 수 있다. 실제 panel상에는 모든 유전자에 대한 정보를 넣어놨더라도 의사가 원하는 질병이나 유전자에 대한 정보만 전달한다는 것으로 추측(재요청이 있는 경우 90일 이내에 추가 유전자에 대한 검사가 free)된다. 


기존의 분자진단의 경우 원하는 검사를 1개씩?만 수행이 가능했고 의사들은 이러한 시스템에 적응되어 있기 때문에 인비태의 이런 전략은 아마도 의사들이 NGS라는 기술을 좀 더 쉽게 다가갈 수 있도록 열어둘 뿐만 아니라 사업적으로도 다양한 패널을 준비함으로서 투자자들에게 있어 보이는 효과를 보이지 않을까한다.



그외에도 인비태는 Family History Tool을 통해 환자의 pedgree를 기록할 수 있도록 하여 의사들이 활용할 수 있도록 하거나 Clinvate를 통해 임상적으로 유용한 genetic varinats를 public sources로 부터 모아 데이터베이스를 제공하기도 한다.


아직 국내에서는 NGS가 의료기기로 등록되지 않았을 뿐만 아니라 아직 제도적으로 NGS를 진단에 사용하기 어려운 상황이지만 인비태의 사례를 통해 기존의 이원의료재단, 녹십자 씨젠의료재단(구 네오딘), SCL, 삼광등의 검사기관들 사이에서 NGS를 이용한 분자진단에 진입을 위해 좋은 reference가 될 수 있을 것이다.



저작자 표시 비영리 동일 조건 변경 허락
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 컬럼 at 2015/03/23 17:22
Currently 댓글이 없습니다. comments want to say something now?
Structural Variation
2015/03/19 07:28 | 바이오인포매틱스

NGS Short Reads를 이용하여 Strucural Variation을 찾는데에 있어서 depth of coverage (DOC), paried-end mapping (PEM, PE), split read (SR) 정보를 이용하게 된다. SV를 찾는데에 있어서 reference에 reads를 매핑하고 reference에 정확히 일치하는 않는 (not exact match to reference) read들을 SV를 찾는데 사용한다.


아래와 같이 60과 37이라는 부분은 reference에서 174 bases의 간격을 두고 있으며, 우리는 이 60과 37부분외에도 54 부분을 각각 서로 다른 말단에 가진 두개의 read를 가지고 있다고 하자. 

이 reads를 BWA를 이용하여 매핑한 경우 첫번째 read인 60, 37,54 에 대해서 reference에 60 부분만 매핑하고 나머지  37,54  부분은 soft clip으로 처리해 버린다. 두번째  read인 54,60,37 대해서도 중간의 60부분만을 매핑하고 54와 37부분에 대해서는 모두 soft clip으로 처리해 버린다. secondary alignments의 경우에는 앞서 soft clip을 처리하는 대신  hard clip으로 처리되는데 37(빨간색) 부분에 대해서 align되고 hard clip된 것을 확인할 수 있다.



같은 데이터에 대해서 GENALICE MAP은 좀 다른 전략을 취하는데 read에 deletion이 존재한다고 가정하고 read를 split하여 매핑한다면 60과 37이 아래와 같이 각각 reference에 매핑되게 된다. 본 예에서는 2개의 read만이 이러한 deletion을 지원하지만 이러한 read들이 충분히 많이 cluster를 이룰수 있을만큼 존재한다면 이부분은 deletion일 가능성이 크게 된다. 

위의 서로 다른 aligner를 보았지만, 이렇게 SV가 존재하는 부분에서는 clipping이 많이 관찰된다. 아래 그림과 같이 deletion 부분에 대해서 paired read 정보를 이용하는 경우 확연히 deletion을 확인할 수 있으며, 이러한 부분에는 soft clip이 다수 존재하는데 바로 soft clip이 이러한 deletion을 support하는 요인의 하나가 된다. 

현재까지의 SV 검출은 BWA를 이용한 후 그 뒤부터 SV 툴들이 진행하는데 aligner가 어느정도 받쳐준다면 훨씬 SV 검출에 있어서 수월하게 진행할 수 있게 된다. 또다른 aligner인 Spiral Genetics의 Anchored Assembly (이하 AA)를 보면 SV를 위한 노력의 흔적을 더 잘 볼 수 있다. AA는 4단계로 진행된다.


첫번째는 reference에 align전에 reference의 정보없이 read에 대해서 correction을 수행한다. 우선 read들에 대해서 k-merize를 수행하여 각 k-mer에 대한 read quality를 계산한다. 이때 low count k-mers는 에러로 간주하여 버려진다. 이것은 간단히 read trimming과도 유사한 것으로 대략 quality가 낮은 read의 뒷부분들의 일정 k-mer들이 N으로 표시되거나 하겠다. 다음의 두 단계는 reference와 match되는 read들은 제외하고, 나머지 read들만을 가지고 overlap graph를 생성한다. 이때에는 context보다는 kmer를 기반으로 de Brujin graph를 생성한다. 마지막으로 anchoring을 수행하는데 reference와 일치하는 그래프의 끝 단말을 각각 찾아내는데 이를 anchor라고 부르며 이는 SV의 breakpoint가 된다.



지금까지 aligner들이 SV를 찾는데에 어떠한 역활을 하는지에 대해서 간단히 알아보았다. 이제는 각 SV 툴들이 어떠한 전략으로 SV를 찾는지 다음에 알아보도록 하겠다.




저작자 표시 비영리 동일 조건 변경 허락
Software enginner of GenomeCloud. Covers bioinformatics, computational biology, and life science informatics.
Posted in : 바이오인포매틱스 at 2015/03/19 07:28
Currently 댓글이 없습니다. comments want to say something now?

티스토리 툴바