티스토리 뷰
반응형
요즘 내 관심사는 과연 NGS를 통해 현재 우리는 어떠한 정보를 얻을 수 있을것이나 하는 것이다. 인간 DNA 염기서열을 몽땅 읽어 들여서 현재까지의 연구를 통해 얻어진 정보를 가지고 그 안에 숨겨진 의미를 얼마나 프리젠테이션 할 수 있느냐는 것이다. 그에 대한 조그마한 답을 줄 수 있는 논문이 얼마전 란셋에 실린 "Clinacal assessment incorporating a personal genome"이다. 혈관질환과 급성심장정지의 가족력이 있는 40세 180Cm 86Kg의 full genome을 Heliscope genome 시퀀서를 통해 시퀀싱하여 이 사람의 멘델리안 질환, 약물에 대한 반응 및 환경과의 연관등 모든 알아낼 수 있는한 최대한의 정보를 알아내는 논문이다. 과연 full genome 시퀀싱이 현재 임상적으로 어떠한 의미를 가지는가에 대한 논문이라고 할 수 있겠다.
또하나의 관심사는 시퀀싱 후 생성되는 대량의 데이터와 이를 해독하기 위한 대용량의 컴퓨팅, 그리고 현재의 모든 정보와 통합하여 연구 및 임상에 사용할 정보를 추출해내는 파이프라인의 구축이다. 이또한 그에 대한 조그마한 답을 줄 수 있는 논문이 바로 네이처 리뷰에 실린 "Computational solutions to large-scale data management and analysis"이다. 이 리뷰에서는 현재 대용량 데이터 시대의 바이오인포매틱스 관점에서의 여러부분을 다루고 있는데, 특히나 Amazon의 EC2 서비스를 활용하여 NGS 데이터를 분석하는 부분은 현재 내가 직면한 상황과 비슷하기에 충분히 공감이 가는 부분이었다.
또하나의 관심사는 시퀀싱 후 생성되는 대량의 데이터와 이를 해독하기 위한 대용량의 컴퓨팅, 그리고 현재의 모든 정보와 통합하여 연구 및 임상에 사용할 정보를 추출해내는 파이프라인의 구축이다. 이또한 그에 대한 조그마한 답을 줄 수 있는 논문이 바로 네이처 리뷰에 실린 "Computational solutions to large-scale data management and analysis"이다. 이 리뷰에서는 현재 대용량 데이터 시대의 바이오인포매틱스 관점에서의 여러부분을 다루고 있는데, 특히나 Amazon의 EC2 서비스를 활용하여 NGS 데이터를 분석하는 부분은 현재 내가 직면한 상황과 비슷하기에 충분히 공감이 가는 부분이었다.
위의 그림은 리뷰 논문에 나온 그림에 약간의 수정을 가한 것으로 제목을 붙이자면 "Personal Genome and Cloud Computing"이 될 수 있다. 간단히 앞으로 곧 닥칠 $1000달러 개인 게놈 분석 시대에 과연 임상/연구 차원에서 어떻게 클라우드 컴퓨팅과 결합할 수 있는지에 대한 그림이라고 할 수 있다.
우선 고객은 자신의 타액이나 혈액을 국내에서 채취하고 이를 베이징의 BGI로 보내면 BGI는 이를 가지고 시퀀싱을 수행하게된다. 이때의 비용은 테라젠의 토탈 오믹스의 시퀀싱 서비스를 기준으로 현재 대략 2800만원이 소요된다. 이는 약 30배수의 시퀀싱량으로 여기에는 유전체 해독 및 생명정보 분석기간까지 합쳐 2개월이 소요된다고 한다. 그러나 내가 생각하는 시나리오는 BGI를 통해서는 Raw Read Data만 얻는다. BGI에서는 이를 아마존의 S3서비스에 업로드를 하거나, 자신의 스토리지상의 URL만 의뢰자에게 알려주면 된다.
의뢰자는 Amazon Web Services에 자신의 계정을 등록하고 분석 작업의 flow를 작성한다. 우선 BGI의 Raw Read를 S3서비스에 등록하고 Human reference genome에 대해서 매핑작업을 Amazon의 Elastic MapReduce를 통해 대용량 컴퓨팅자원을 통해 수행한다. 이때 소요되는 시간은 단일 컴퓨터로는 약 3일이 시간이 소요되지만 Amazon의 서비스를 이용하게 되면 3시간이면 되며 이때 소요되는 비용은 약 10만원정도이다.
이렇게 매핑된 Read들은 SNP을 발굴하거나 발굴된 SNP의 의미를 분석하는데 뿐만 아니라 여러가지 다양한 Database로 부터 Annotation 작업을 역시 Amazon 서비스를 통해 수행하게 된다. 분석된 결과 종류에 따라서 1)유전자 카운셀러: 해당 유전자와 질병 예측 정보를 의뢰자에게 설명 2)의사: 해당 환자가 내원한 경우 해당 유전자 정보를 통해 약물투여 및 의심되는 질환의 보충 자료로 활용 3)연구자: 해당 데이터에서 생물학적으로 의미있는 연구를 수행하게 된다. 각각의 정보는 Amazon 서비스를 통해 접근 권한이 주어지면 해당 정보는 웹페이지뿐만 아니라 휴대폰, 병원의 시스템과 연계되어 움직이게 된다.
이로서 의뢰자는 자신의 DNA정보를 클라우드 컴퓨팅을 통해 자신의 손으로 직접 자신이 원하는 곳(병원, 연구자등)으로 보낼 수 있으며, 보다 많은 건강/유전자 관련 서비스 provider 들에게 자신의 정보를 제공함으로서 자신의 유전정보에 대한 폭 넓은 이해를 하게 된다. 가령 향후 생각해 볼 수 있는 것은 결혼정보업체에게 자신의 DNA 정보를 제공하여 매칭 시스템과 연동하여 최상의 배우자를 추천받게 되는 등의 클라우드 컴퓨팅이 활발하게 사용 -.-;;될 수 있다.
좀 꿈같은 이야기를 해보았는데, 다음번에는 실제 Amazon의 Web Services를 이용해서 NGS Read들을 매핑하고 SNP을 발굴하는 방법에 대해서 포스팅할 예정이다.
우선 고객은 자신의 타액이나 혈액을 국내에서 채취하고 이를 베이징의 BGI로 보내면 BGI는 이를 가지고 시퀀싱을 수행하게된다. 이때의 비용은 테라젠의 토탈 오믹스의 시퀀싱 서비스를 기준으로 현재 대략 2800만원이 소요된다. 이는 약 30배수의 시퀀싱량으로 여기에는 유전체 해독 및 생명정보 분석기간까지 합쳐 2개월이 소요된다고 한다. 그러나 내가 생각하는 시나리오는 BGI를 통해서는 Raw Read Data만 얻는다. BGI에서는 이를 아마존의 S3서비스에 업로드를 하거나, 자신의 스토리지상의 URL만 의뢰자에게 알려주면 된다.
의뢰자는 Amazon Web Services에 자신의 계정을 등록하고 분석 작업의 flow를 작성한다. 우선 BGI의 Raw Read를 S3서비스에 등록하고 Human reference genome에 대해서 매핑작업을 Amazon의 Elastic MapReduce를 통해 대용량 컴퓨팅자원을 통해 수행한다. 이때 소요되는 시간은 단일 컴퓨터로는 약 3일이 시간이 소요되지만 Amazon의 서비스를 이용하게 되면 3시간이면 되며 이때 소요되는 비용은 약 10만원정도이다.
이렇게 매핑된 Read들은 SNP을 발굴하거나 발굴된 SNP의 의미를 분석하는데 뿐만 아니라 여러가지 다양한 Database로 부터 Annotation 작업을 역시 Amazon 서비스를 통해 수행하게 된다. 분석된 결과 종류에 따라서 1)유전자 카운셀러: 해당 유전자와 질병 예측 정보를 의뢰자에게 설명 2)의사: 해당 환자가 내원한 경우 해당 유전자 정보를 통해 약물투여 및 의심되는 질환의 보충 자료로 활용 3)연구자: 해당 데이터에서 생물학적으로 의미있는 연구를 수행하게 된다. 각각의 정보는 Amazon 서비스를 통해 접근 권한이 주어지면 해당 정보는 웹페이지뿐만 아니라 휴대폰, 병원의 시스템과 연계되어 움직이게 된다.
이로서 의뢰자는 자신의 DNA정보를 클라우드 컴퓨팅을 통해 자신의 손으로 직접 자신이 원하는 곳(병원, 연구자등)으로 보낼 수 있으며, 보다 많은 건강/유전자 관련 서비스 provider 들에게 자신의 정보를 제공함으로서 자신의 유전정보에 대한 폭 넓은 이해를 하게 된다. 가령 향후 생각해 볼 수 있는 것은 결혼정보업체에게 자신의 DNA 정보를 제공하여 매칭 시스템과 연동하여 최상의 배우자를 추천받게 되는 등의 클라우드 컴퓨팅이 활발하게 사용 -.-;;될 수 있다.
좀 꿈같은 이야기를 해보았는데, 다음번에는 실제 Amazon의 Web Services를 이용해서 NGS Read들을 매핑하고 SNP을 발굴하는 방법에 대해서 포스팅할 예정이다.
반응형
공지사항
최근에 올라온 글