개인유전체분석

속속 공개되는 23andMe의 Exome pilot 데이터

hongiiv 2012. 8. 2. 18:18
반응형
작년 9월달인가 일루미나의 OminiExpress Plus를 가지고 장사를 하던 23andMe가 NGS 데이터를 개인게놈분석 서비스(PGS, Personal Genome Service)에 적용하는 파일럿 프로그램을 수행했다. 당시 80x의 커버리지로 $999라는 가격으로 내놓았는데 이제 서서히 결과가 개인들에게 전달되었는지 인터넷을 통해 서서히 결과들이 나오기 시작했다. 다음의 블로그들에서 결과 데이터에 대한 내용이 나오고 있으며, 이것들을 기반으로 23andMe의 결과를 나름 정리해 보도록 하겠다.



참고 블로그글
A first look at my exome variants from 23andMe
My 23andMe Trio Exomes Arrived: Sneak Peek 
PGP18: A 23andme exome 

엑솜 데이터는 무엇이며? 23andMe는 왜 엑솜 데이터를 PGS 컨텐츠로 사용했는가?
유전자는 protein 어쩌구 저쩌구... exon, intron, 5' UTR, 3' UTR 블라블라....넘어가자 귀찮다.

23andMe Sample ID
LF1396과 같이 LF다음 4자리의 숫자가 온다. PGP 프로젝트의 겨우 hu로 시작하고... 암튼 뭐 중요한건 아니고...

시퀀싱 정보
Illumina HiSeq 2000과 Agilent exome capture kit을 이용하여 시퀀싱 수행 

제공되는 데이터

약 4.2 GB의 TrueCrypt로 암호화된 폴더안에 1) hg19에 alignment된 결과인 .bam파일과 인덱스 파일인 .bai 2) 변이정보가 담겨진 .vcf.g로 7MBz 3) 결과 해석 정보가 담겨진 .report.pdf 파일(17 페이지 분량) - 파일 포맷에 대한 설명, 통계관련 요약, 필터링 스키마, 발굴된 흥미로운 variant에 대한 설명 등이 포함

발굴된 흥미로운 유전변이는 high또는 moderate predicted effect를 가진 유전변이-> 1% 미만의 낮은 freqeucny를 가진 유전변이 -> 유전병을 포함하는 유전자에 포함된 유전변이로 순차적으로 필터링된 21개의 유전변이를 제공하는데, 발굴된 갯수는 사람마다 다르겠지만 공개하신분은 21개가 발굴!

아래 그림은 필터링하는 과정을 보여주는데 총 112881개의 엑솜 영역의 유전변이 중 유전변이가 발생함으로서 단백질에 생성에 영향을 많이 줄만한 유전변이를 분류하는데 high와 moderate한 634/11,504개의 유전변이를 필터링하고 다시 총 12,138개의 유전변이 중 1% 미만의 frequency를 가진 rare한 즉 다른 사람들에게는 잘 발견되지 않은 326개와 정보가 없거나 새로운 유전변이 각각 1,152/678개에서 OMIM과 같은 멘델리안 디스오더 데이터베이스에 보고된 유전자 영역에 존재하는 21개의 유전변이를 최종 필터!!!

그럼 저 21개 때문에 나 죽는거!!??
한마디로 유전변이가 발생함으로써 치명적일 수 있으면서 딴사람한테 잘 발견되지 않고 그 정보가 유전병과 연관된 것에 대해서 알려주는 것이다. 따라서 마지막 21개는 좀 무서운 유전변이라고 할 수 있겠다. 하지만 한가지 알아두어야 할것은 이 시퀀싱을 수행한 사람이 살아있다는 것이고 두번째는 rare하다는 것이 아직 많은 사람들이 시퀀싱한 데이터가 없기 때문에 진짜 rare한 것인지? 또 다른 인종에서는 rare할 수 있지만 한국인에서는 rare하지 않을 수도 있다는... 따라서 한국인 표준 레퍼런스 구축 또한 중요하다는거....등등등



Variant Overview
그럼 전체적으로 어떠한 NGS 데이터가 생산되었는지 살펴보자. 그림 A를 보면 On Traget/Near Target을 포함한 약 40억 base가 엑솜 타겟영역에 제대로 붙었구 이것저것 다 포함하면 117.1x의 커버리지를 보이고 있다. B는 이렇게 타겟영역의 약 1억2천만개 중 ref와 같은 곳이 대부분이고 ref와 다른 variant가 약 10만개 이상 정도가 존재하며 다시 10만개 중 그림 C를 보면 이런 variant중 SNP이 10만개 / INDEL이 만개정도 존재한다. 따라서 약 0.1% 정도가 ref와 다른 것을 보여주며 이는 곧 사람마다 99.9% 서로 갇은 유전정보를 공유한다는 것을 알 수 있다. 




내 유전변이가 주는 영향의 정도
약 10만개의 ref와 다른 유전변이는 유전자에 주는 영향에 따라 구분이 가능하다. 그렇다면 과연 어떻게 구성되어있을까? 

High
해당 유전변이가 nonsense mutation, frameshifts, splice site alterations나 loss of stop condon으로 634개가 High impact variants에 속한다.

Moderate
non-synomymous(아미노산에 체인쥐에 영향을 주는), codon insertions/deletions으로 총 11,504ro whswo

Low
synonymous substitutions(아미노산 췌이지에 영향 없는), gain of a start codon

Unknown  
아마도 엑손 영역이 아니 non-exonic에 존재하는 것으로 대부부니 여기에 포함


내 유전변이는 다른 사람들과 얼마나 공유할까?
이미 다른사람들도 보편적으로 가진 유전변이라면 아무리 impact가 high더라도 실제 나에게 의미있는 유전변이가 아니다. 따라서 다른 사람들과 공유하는 정도 즉, frequency 정보를 살펴보도록 한다. 그림을 보면 전체 유전변이 중에서 약 15%에 해당하는 유전변이가 1% 미만의 freqnecy를 가지거나 unidentified된 유전변이로 좀 더 많이 exome 또는 whole genome 데이터가 쌓이게 되면 이 숫자는 좀 더 줄어들것이다. 

최종 21개의 유전변이
최종 필터링된 21개의 유전변이는 moderate impact와 non-syn에 존재하는 유전변이로 아미노산 체인쥐를 통해 프로테인 구조에 영향을 주는 것이다. 아래 그림은 ERCC6 유전자의 10번 염색체의 50680422에 위치하는 유전변이로 C/T(ref는 C)의 het로 Non-Syn으로 Moderate한 effect임을 보여주고 있다.

1000 genomes project에서는 0.00230의  frequency를 보여주며 dbSNP의 rs번호는 rs145720191로 genotype quality나 coverage로 볼 때 잘 잡은 유전변이임을 알 수 있다. 


23andMe의 리포트에서는 1KGenomes의 frequency만을 제공하는데 다른 연구에서 발표된 frequency와 자세히 비교해보면 다음과 같다. NHLBI는 NHLBI Exome Sequencing Project(ESP)를 통해 생산된 데이터로 총 6,503명 중 19명이 CT genotype을 가지고 있는 것을 확인할 수 있다. 해당 allele는 European에서 주로 나타나는 유전변이임을 알 수 있다.

 1KGenomes Overall Freq European Freq  Asian Freq  African Freq  NHLBI Freq  NHLBI 65000 Genotype Counts
 0.0023 0.0026  0  0  0.001416
TT=0
TC=19
CC=6484 

OMIM에 따르면 해당 유전변이가 있는 ERCC6 유전자는 DNA repair와 gene regulation에 관여하는 유전자로 Age Related Macular Degeneration (ARMD, 노인성 황반변성), 자외선 민감도 골격 발달 문제를 야기시키는 희귀한 Cockayne 증후군이라는 유전병과 연관이 있다고한다. 

논문들을 살펴보면 ERCC6는 haploinsufficiency(반수체기능부전, 다른 정상유전자의 단일 복사본에서 생성된 단백질이 정상적인 기능을 나타내기에 충분하지 않은 상태)로 해당 유전변이에 의해 hetero니까 반은 정상적인 단백질을 생성할테고, 반은 비정상적인? 단백질을 생성하지만 그 영향이 미미한 haploinsufficiency인 것이다. 앞선 글에서 설명했듯이 NGS를 통해 찾은 유전변이는 인종간의 frequency 정보나 문헌정보 expression정보 등등과 함께 연관성을 보는 작업이 필요!!

VCF 파일을 통해 본 분석 환경
vcf 파일을 보면 최종 결과물은 GATK를 통해 variant가 calling되었으며, SnpEff를 통해 해당 유전변이에 대한 annotation을 수행한것을 알 수 있다. 또한 reference로는 1000genomes 데이터를 사용했으며, SnpEff는 GRCH37.64 버전을 사용하여 annotation을 수행한것을 확인 할 수 있다.

##reference=file:///creph/gspipe/data/opt/ref_genome/gspipe/0.1/genomes/G1K.37/G1K.37.nt.fasta
##OriginalSnpEffCmd="SnpEff eff GRCh37.64 -config /creph/gspipe/data/opt/app/snpEff/2.0.5/snpEff.config -onlyCoding true -o vcf -i vcf LF1396_vars.cs.vcf "
  
반응형