빅데이터분석

BigData 관점에서 Personalized Genomic Medicine

hongiiv 2013. 3. 17. 04:30
반응형
현시점에서의 Genomic Data 사용 시나리오

NGS를 통해 생산된 데이터를 가지고 현재 시점에서 Personalized Genomic Medicine에 사용할 경우 최선은 다음의 시나리오가 최선일 것이다. 
  • 최대한 에러 제거 (quality scores, pseudogene들을 제거)
  • dbSNP 등을 이용, allele frequency를 확인 (common한 것들은 가지고 있어도 안죽으니 최대한 인종 특이적인 SNP들을 많이 확보하는 것은 필수)
  • 부모에게 물려받은 것은지 확인, homo인지 heteo인지 또는 autosomal인지를 구분
  • Protein에 영향을 주는지를 Polyphen 등으로 확인
  • PhastCons, Phylop 등으로 conservation 정도를 확인 (오랫동안 묵혀져 있는 곳에 변이가 있다는 죽음)
  • 유전자의 위치에 따라 구분 (Protein coding, non-synonymous, promoter 영역에 존재하는지 확인)
  • HGMD, OMIM 등으로 기존에 질병과 관련있다고 알려져 있는지 확인
  • 위의 것들을 모아 variant들에 대한 annotation 리포트를 생성

과거/현재/미래의 시퀀싱 관련 비용

시퀀싱에 관련한 비용을 보여주는 것으로 다음의 4가지 단계로 시퀀싱 데이터의 활용 단계를 구분하고 이를 이전/현재/미래로 나누어 각각의 단계에 따른 비용의 비율을 보여주고 있다. 
  • 실험 디자인 : 샘플 모으기
  • 시퀀싱 : NGS 전/후
  • 데이터 관리/데이터 축소: Raw Reads -> Mapping -> 데이터 축소(variant call 등의 과정) -> 요약  데이터 (변이 정보, 발현량 등)
  • 이후 고급 분석: 발현차이, 조절 네트워크, 위에 언급한 Personalized Genomic Medicine을 위한 분석 등 다양한 이후 분석이 존재

 sboner et al, genome biology 2011, 12:125     

현재 GenomeCloud가 힘을 쏟고 있는 부분이 바로 Data management 부분으로 2014년 쯤에는 시퀀싱비용과 동일한 비율의 비용이 발생하게 된다. 혹자는 전 시퀀싱하면 Data management 다 해주는던데요. 라고 말한다면 그거 공짜로 해주는 시퀀싱업체는 바싼 전기세와 컴퓨터/스토리지 비용을 내고 있다는 것을 인지하기 바란다. 비록 넌 돈을 안내서 비용이 발생하지 않는다고 생각하지만,,, 시퀀싱 비용과 맞먹는 비용이 발생하고 있단다.

주목해야 할 부분은 바로 2020년의 미래로 시퀀싱 비용은 낮아질 대로 낮아져 이제 Data management 비용보다 적어지게 되고 많은 연구성과들로 하여금 Downstream 분석 부분이 활성화되기 시작하면서 이쪽 단계의 비용이 전체 비용의 2/3를 차지하게 된다. 그만큼 다양한 분야로 응용되고 다양한 응용분야의 사업이 활성화 된다는 것이다.

그림대로라면 GenomeCloud는 국내 시퀀싱량에 비례해서 어느정도의 올리고 있어야 하지만, 아시다시피 그렇지 못한 실정이다. 이는 아직까지 시퀀싱업체들이 분석 capacity가 현재의 시퀀싱을 수용 가능하다는 점이다. 좀 눈물 나는 부분이지만, 좀만 기다려 보도록 하자.

문제는 Data mangement와 Downstream analysis의 비용인데, 가만히 있는다고 해서  저 비용이 저 비율을 유지하는냐에 대해서는 글쎄다라는 생각이 든다. 시퀀싱 비용이 낮아지고 대용량의 흔히 말하는 BigData가 되면서 그에 따른 적절한 IT적인 해결방안이 나오지 않으면 오히려 더 많은 비용이 발생할뿐더라 아예 분석에 손을 대지 못하는 상황이 발생할 수도 있다는 것이다. 즉 데이터가 들어있는 하드디스크만 멍하니 바라보며 손빨고 있어야 할지도 모른다는 이야기이다. 현재 시점에서도 몇백에서 몇천 샘플을 분석하고자하는 의뢰가 들어오는데 어찌보면 그걸 감당할 수 있는 것은 국내에서는 KT의 클라우드 컴퓨터밖에는 없고... 또 컴퓨터만 왕창 가지고 있다해도 가능한 것이 아니기에 문제는 점점 심각해질 수 있다는 것이다. 그러면 GenomeCloud는 현재 그리고 가까운 미래의 이러한 문제를 해결하기 위해 어떠한 그림을 그리고 있는지 한번 짚고 넘어가야하지 않을까 싶다. 

시퀀싱 데이터의 구분 및 특징

뭐든지 분석을 하고자 한다면 우선 분석하고자 하는 데이터의 특성부터 파악해야 하는 것이 첫번째 순서로 그림을 그려보기 전에 과연 현재 시점에서의 시퀀싱 데이터가 어떠한 데이터인지를 한번 보자. 그래야 이러한 데이터를 분석할 수 있는 큰 그림을 그릴 수 있지 않겠는가?

Unaligned raw reads
ACGT 문자 
Single, Paired/Mate pair 정보
Quality scores 정보
데이터 특징

  • Read내에서 순차적으로 읽혀야 하며, Read들은 랜덤하게 읽혀져도 무관
  • 한번 쓰여지면 더 이상 업데이트 되지 않음
  • 읽기 작업은 아주 드물게(mapping할때나 한번) 발생
  • 그다지 저장할 필요는 없으며 다음 단계에서 생성될 Aligned read로 부터 다시 생성 가능
Aligned reads
Align된 정보 (위치 및 align된 정도인 quality score)를 포함
데이터 특징
  • 한번 쓰여지며, 읽기 작업은 종종 발생
  • 일정 구간(range)에 대한 쿼리와 연속적인 read들이 연속적으로 나열
  • 압축 과정이(SAM->BAM)  필요하며 현재 게놈당 100 GB의 공간이 필요
  • 새로운 refrerence가 나온다면 다시 align해야 하며, 이때 이전 align 과정에서 align되지 않고 버려진 unaligned read를 저장하고 있어야 unaligned read를 삭제
Consensus sequence
Variant 등을 calling하기전 Aligned read와 variant간의 중간 단계의 파일
Reference에 align된 위치 , allele 특이적 ploidy 정보, missing 정보, consensus의 quality (이러한 정보를 가지고 variant를 call)
데이터 특징
  • 한번 쓰여지며, 읽기 작업은 종종 발생
  • 특정 구간에 대한 쿼리
  • 압축이 필요하며 variant calling이냐 뭐냐에 따라 각각 application-specific 바이너리 형태로 존재
Variant
하나 또는 그이상의 샘플에 대해  변이에 대한 ploidy, missing, reference call 및 quality score를 저장
단순히 데이터에 대한 annotation외에도 다양한 외부 data와 결합된 annotation 저장
데이터 특징
  • 한번쓰여지며, 읽기 작업이 자주 발생
  • 특정 구간이나 특정 subset(homo/hetero, non-syn/syn 등의)에 대한 쿼리
  • Annotation에 대한 필터링
Actionable data
각 응용 (고급 분석, clinical usage)에  따른 데이터셋

클라우드의 storage/computes를 이용한 탄력적 시스템 구성

지금까지 genomic 데이터를 현 시점에서 어떻게 활용 가능하고, 비용적인 면과 더불어 각 단계에서의 데이터의 특징에 대해서 알아보았다. 여기서 이야기하고자 하는것은 단순한 variant를 찾기 위한 분석은 시퀀싱 비용의 하락과 더불어 동일한 비율로 하락할 수 밖에는 없는 구조이지만, 그 이후의 분석에서는 그보다 많은 비용이 발생할 뿐더러 자칫하면 분석이 불가능할 수도 있다는 것이다. 따라서, 이러한 데이터의 특성 (BigDatad의 관점에서)을 고려해서 가까운 미래까지 생각한 시스템을 다음과 같이 구성해 볼 수 있겠다. 
 


데이터 delivery: LIMS연동과 자동 업로드 구성을 위한 REST API 제공
데이터의 저장: g-Storage, g-Archive를 통한 안전하고 장기적인 저장
데이터 분석: g-Analysis와 g-Clinic
데이터 고급분석 지원: g-Database
g-Engine: Genome 데이터와 clinical 데이터의 통합, 데이터 query, analysis, report, 클라우드 자원을 통합적으로 관리 운영

반응형