개인유전체분석

23andMe 엑솜 데이터 살펴보기 - 2부

hongiiv 2012. 8. 6. 03:30
반응형
지난번 23andMe의 엑솜 시퀀싱 결과에 대해서 좀 더 살펴보도록 한다. 물론 본 내용은 Jung's Biology Blog를 기반으로 하고 있다는 것을 알아두었으면 한다. 물론 블로그글을 사용해도 된다는 허락을 득했음을 미리 알려둔다. 저번 글이 전반적인 23andMe의 결과를 살펴보는데 촛점이 맞추어져 있었다면 이번에는 엑솜 시퀀싱을 통해 발굴 (필터링)된 21개의 유전 변이를 오픈소스 툴들을 이용하여 살펴 보는것에 대한 내용으로 다음과 같은 질문에 대한 해답을 구하는 것을 목표로 한다.

1. 매핑된 시퀀스 read들을 어떻게 시각화 할것인가?
2. 영향을 주는 유전자의 기능은 무엇인가?
3. 유전변이들이 얼마나 심각하게 유전자의 기능에 영향을 미칠수 있는 것인가?

Bam files and samtools
bam 파일은 압축된 SAM (sequence alignment/map) 파일 포맷으로 이 파일은 시퀀싱된  read들이 레퍼런스 시퀀스에 align된 정보를 포함하고 있다. alignment 정보는 실제 서열 (sequence)을 포함하는 bam 파일과 이를  포함하지 않는 .bai 라는 확장자를 가지는 인덱스 파일로 구성된다. bam  파일로부터 얻을 수 있는 정보는 다음과 같다.

1. 레퍼런스와 다른 유전변이에 대한 정보 (유전변이가 heterozygous인지 homozygous인지에 대한 정보)
2. genotype을 결정에 대한 통계적 정보 (특정 지역에 read의 출현 정도 (depth of coverage), 서열에 대한 품질(quality) 정보)

bam 파일은 samtools라는 소프트웨어 패키지를 이용하여 커맨드라인 기반으로  작업이 가능하며, 각 염색체별로 정보 추출, bam 파일을 sam 파일로 또는 그 반대로 변환, bai 확장자를 가지는 인덱스 파일 생성, vcf 형태의 variant call을 생성할 수 있다. Broad Institute의 IGV ( Integrative Genomics Viewer)를 통해 레퍼런스에 대해서 algnment된 실제 정보를 시각화하여 볼 수 있다. align을 한 레퍼런스 genome을 선택하고 bam 파일을 로드하면 IGV는  인덱스 파일의 색인 정보를 이용하여 모든 시퀀스 read를 레퍼런스 게놈에 piled up (read들이 ref에 층층이 겹쳐진)된 형태로 보여준다. 또한 여러개의 bam 파일을 선택하여 여러개의 genome을 동시에 볼 수도 있다.

Example: my CF allele
CFTR 유전변이가 23andMe의 리포팅된 것은 놀라운 일이였다. 낭포성 섬유증 (cystic fibrosis)은 북유럽인에서 일반적으로 나타나지만 아시안에서는 낮은 빈도를 보인다(참고로 필자분이 한국인이신것 같음). 이 CFTR의 돌연변이는 non-conservative (다른 종에서도 보존되지 않았다는 의미로 해당 아미노산의 치환이 다른 종에서도 보여진다면 이는 진화상 질병등에 큰 영향을 주지 않을것으로 추정할 수 있다.) 아미노산 치환 (substitution)을 보인다. glutamic acid (E)가 glycine (G)으로의 변환은 두 아미노산이 서로 유사하지 않기 때문에 단백질 접합이나 활성화에 심각한 결과를 초래한다.

 

Integrative Genome Viewer
해당 부위를 IGV를 통해 bam 파일을 로드하여 살펴보면,  높은 read depth (해당 영역이 시퀀싱이 잘 되었음을 의미)와 거의 유사한 두개의 allele 비율을 보여주는데 이는 명백한 heteo genotype임을 의미한다고 할 수 있다. (필자는 생명의 위협?을 줄 수 있는 CFTR 유전자의 유전변이를 23andMe 리포트를 통해 확인하고, 실제 align된 정보를 IGV를 통해 살펴본 결과 충분히 믿을 만한 데이터임을 재차 확인한다.)

 

NCBI and dbSNP
위의 유전변이는 이미 dbSNP에 존재하는 이미 밝혀진 SNP (single nucleotide polymoerphism)으로  NCBI의 홈페이지를 통해  'rs121909046'을 검색하여 해당 정보를 확인할 수 있다. dbSNP는 질병과의 연관성을 비롯한 유전 변이에 대한 다양한 정보를 확인할 수 있다. 



해당 SNP은 Glu217Gly 또는 E217G로 이는 해당 유전변이로 인해 CFTR 유전자의 217번째 아미노산이 변한다는 것을 의미한다. 반면 23andMe의 리포트의 annotation (주석) 따르면 E187G 즉, 187번째 아미노산이라고 되어 있다. 확인해 본 결과 CFTR 단백질의 187번째 아미노산은 Asn이었다. 왜 23andMe의 리포트에 왜 이런 오류가 나타나는지에 대해서 모르겠다. (추후 23andMe의 댓글에 따르면 해당 유전자에는 여러가지 형태의 transcript가 존재하기 때문에 어떠한 것을 이용하여 annotation 했느냐에 따라서 해당 아미노산의 위치가 달라진다.)

OMIM
dbSNP 페이지의 하단에는 OMIM (Online Mendelian Inheritance in Man)에 대한 정보가 있는데 해당 유전변이와 연관된 멘델리안 질환에 대한 연구가 진행된 저널과 연결되어 해당 정보를 확인할 수 있다. 해당 링크를 통해 Lee et al. (2003) 논문을 보면 full-text를 확인할 수 있는데, E217G 유전변이 (해당 필자가 가지고 있는)는 한국인 인구집단에서 1.3%의 frequency를 보임을 확인 할 수 있었다. 해당 heteo 유전변이는 기관지 확장증 (bronchiectasis)에 높은 risk를 보이는 반면, 췌장 기능 부전 (pancreatic insufficiency)과는 별 연관성이 없다고 나온다. 분자 생물학적 연구에 의하면 해당 돌연변이는 막(membrane)에 나타나는 CFTR 단백질의 60% 감소의 원인으로 비교적 가벼운 질병 관련 allele임을 보여준다.

UCSC Genome Browser
비록 커스텀 트랙을 이용하여 23andMe에서 제공한 bam이나 vcf 파일을 곧바로 UCSC genome browser로 확인은 불가능하지만, UCSC genome browser를 이용하면 해당 유전변이에 대한 추가적인 정보를 알아낼 수 있다. 유전변이에 대한 annotation 정보를 보기 위해 vcf 파일을 로드하는 것이 좋다. 자신이 가진 vcf 파일을 UCSC의 커스텀 트랙에 포함하여 보기 위해 tabix를 이용한다. 이를 위해서 엑솜 데이터가 저장된 디렉토리에서 압축된 LF1396.vcf.gz에 대해서 tabix -p vcf.my.vcf.gz  명령을 수행한다. 명령 결과로 LF1396.vcf.gz.tbi의 바이너리 인덱스 파일이 생기는데 이를 이요하여 vcf 파일을 커스텀 트랙에 로드할 수 있따.  UCSC를 이용하여 vcf 파일을 커스텀 트랙에 표시하는 방법은 다음의 링크가 도움이 될것이다. (http://genome.ucsc.edu/goldenPath/help/vcf.html)


 

UCC를 통해서 우선 보전된 (convservation) 정보를 확인할 수 있다. 인간의 CFTR 유전자의 E217은 물고기 (zebrafish)에서 영장류(Human, Rhesus (붉은털원숭이))까지 보존 되어 있으며, 해당 위치는 글루타민산 (E)이나 아스파르트산 (D)을 보인다. 아스파르트산과 글루타민산에 화학적으로 유사하며 둘다 acidic side chains을 가지며 종종 interchangeable을 보인다. 해당 위치의 보존 정보를 볼때 글라이신 (glycine)은 유해한 영향을 미칠 것이다 (이미 앞서 설명했듯이 E217, D217은 여러종에 걸쳐서 나타나지만, 필자가 가진 G217이 conservation에 확인되지 않았다는 것은 위험하다는 것을 의미한다).


Trust but verify
위에 언급한 IGV, dbSNP, UCSC의 도구들을 사용하여 23andMe에 리포트된 21개의 모든 유전변이들에 대해서 살펴본 결과 우려되는 것은 non-conservative 아미노산 체인지를 일으키는 MSH2, PRNP에 나타나는 유전 변이였다. 

MSH2는 DNA repair 유전자로 비록 heterozygote 일지라도 암, 특히 대장암에 현저하게 높은 위험성을 보이는데 이는 해당 유전자가 하나의 카피만이 기능을 수행하여 정상적으로 충분한 단백질을 생성 (functional copy)하기 때문이다. 따라서 세포는 DNA 손상으로 인해 암으로 이어지는 변이를 급속하게 축척하게 된다.

PRNP는 prion protein으로 프리온 단백질의 화학 구조 (folding)에 의해 스크래피(scrapie, 양이 염소의 뇌가 광범위하게 파괴되어 스폰지처럼 뚫리는 신경 질환)나 광우병(변형 프리온이 뇌 조직에 참투하여 뇌에 구명을 만드는 병)을 유발한다. 해당 단백질의 돌연변이는 가족성 (유전되는)이 있는 신경퇴화질환 (Neurodegenrative)과 연관이 있다고 알려져 있다. 

MSH2와 PRNP에 존재하는 변이는 이미 dbSNP에 보고되어 있는 것으로 병원성이 아닌 유전 변이임을 알 수 있었다(그나마 다행 ^^;;). 그런데 23andMe에서 E158K로 리포팅된 아미노산 체인지는 dbSNP와 IGV로 확인한 결과 실제로 E219K임을 알 수 있었다. 아미노산의 체인지는 정확히 식별되었지만 그 위치는 잘못된 것이었다. CFTR 돌연변이가 그랬던 것처럼 말이다. 

좀 이상하면서도 걱정되는 것은 A43D로 식별된 MSH2에 위치한 돌연변이로 dbSNP와 IGV를 통해 보면 단백질의 형태(MSH2는 alternative splicing에 의해 다양한 폼을 가진다) 에 따라서 177번째 또는 91번째의 glycine을 가지는데 이는 둘다 아미노산의 체인지가 없는 "silent" 돌연변이라는 것이다.

이와 비슷한 불일치를 보이는 잘못된 아미노산의 변화로 밝혀진 침묵 돌연변이를 적어도 한개의 다른 한개의 유전자를 발견했다. 23andMe는 전반적으로 잘못된 위치에 의해 변화나 좀 더 심각하게는 타입 (아미노산 체인지 vs. 침묵 돌연변이)의 다양한 잘못된 annotation을 볼 수 있었다. 이것은 SNPeff와 같은 분석이 다시 수행되어야할 필요성이 있다.

Learning my genetic heritage
변이에 영향에서 이러한 불일치를 떠나서 GALK1 (galactokinase) 유전자에서 정확하게 annotate된  "Osaka varinat'라는 유전변이를 찾았는데 이는 일본인에서 4%, 한국인에서 약 3%의 freqeuncy를 보인다. 오사카 변이는 고령의 일본인에서 두 눈에서 백내장 형성과 연관되어 있다고 보고되었다.실제 어머니께서 양쪽 눈에 백내장을 위한 라식 수술을 하셨는데, 필자는 어머니로부터 해당 allele를 상속 받았음을  짐작할 수 있다.

Galactokinase 결핍증과 같은 것을 찾는 것은 개인 유전체에 종사하는 사람들의 바램으로 이는 사람들이 해당 유전변이로 인해 발생되는 불행을 막기 위해  뭔가 할 수 있는 여지가 있기 때문이다. 이 경우 우유나 버터와 같은 높은 수준의 galctose를 포함하는 음식을 피하는 간단한 방법이있다.


결론
지금까지 공개 데이터베이스 및 도구를 이용하여 특정 유전변이에 대한 풍부한 정보를 확인하였다. 낭포성 섬유증과 갈락토카이네이스 결핍증 (galactokinase deficiency) allele를 가지고 있다는 것을 알았다. 두 allele는 한국인 인구집단에서 비교적 높은 frequency를 보인다. 인생에서 CF allele가 별 위험요소로 작용하지 않기를 기대하면서 또한 오사카 allele가 백내장에 대해 위험의 요소이기 때문에 우유나 아이스크림 섭취에 대해 절제할 것이다. 
반응형