유전자정보분석

Genomics & Cloud (2) - Galaxy를 이용한 부시맨 Genome 분석

hongiiv 2010. 12. 10. 10:32
반응형
Genomeics & Cloud의 두 번째 시간이 왔습니다. 바로 클라우드 컴퓨팅쪽으로 가려고 했지만 galaxy를 이용한 genome 분석에 대해서 하나만 더 이야기 하고 Amazon의 클라우드로 넘어가려고 합니다. 저번 시간에는 기본적인 galaxy의 사용에 초점을 맞추어 진행했는데 오늘도 저번과 galaxy의 기능에서는 추가되는 내용은 없지만 실제 아프리카의 부시맨 데이터를 가지고 진행을 하도록 하겠습니다. - 마찬가지로 galaxy 홈페이지에 Screencast에 있는 내용입니다.


1980년 개봉된 영화 부시맨, 주인공 니카우씨는 2003년 07월 돌아가셨네요. 이번 분석에 사용된 부시맨들은 니카우씨 연배의 분들입니다.

아프리카 남부의 부시맨
올해초 아프리카 남부의 부시맨(Khoisan, 코이산종)과 반투족(Bantu)의 genome 분석에 대한 논문 (Complete Khoisan and Bantu genomes from southern Africa,2010,Nature)이 나왔습니다. 기존의 아프리카 인종에 대한 genome 정보는 YRI (아프리카 북부 나이지리아의 이바단에 거주하는 요르바인)에 대한 것외에는 없기 때문에 아프리카의 남부지역의 코이산과 반투에 대한 정보는 중요합니다.

코이산은 우리가 흔히 부시맨이라고 불리우는 사람들이며, 반투는 남아프리카의 데스몬드 투투 대주교(인종차별 철폐 운동가로서 전세계 존경 받는 교회 지도자중 한명으로 노벨 평화상 수상)의 것이기 때문에 논문에 실린 사람들만으로도 논문은 흥미진진 그 자체입니다. 부시맨들은 각 부족의 나이지긋이 드신 분들을 대상으로 했다고 합니다.

아프리카 남부 나미비아의 칼라하리 사막 부근에 사는 부시맨(A,B,C, D)과 bantu족인 투투 대교주(E) - 이들에 대해서 일부는 Full Genome Sequencing을 수행하고 일부는 Exon Sequencing을 수행


부시맨 데이터에 접근하기
논문의 Methods Summary를 보면 자신들의 데이터 접근에 대해서 Galaxy (Galaxy bioinformatics platform)를 사용
하라고 되어 있는데, 논문의 대부분의 모든 분석이 Galaxy로 이루어졌음을 짐작케합니다. 논문에서는 아프리카인들과 다른 인종들간에 비교에 대한 내용이 나오는데, 이미 public하게 공개된 데이터와 함께 아프리카인들의 SNP 정보 (총 10,775,587개의 SNP 정보) 를 제공하고 있으며, 아래는 galaxy를 통해 제공되는 각 샘플 정보를 보여주고 있다. 여기에는 한국인 김성진 박사의 정보도 포함 되어있습니다. 또한 부시맨을 포함한 데이터는 whole genome정보와 함께 이를 확인하기 위해서 찍은 칩 정보도 들어있기 때문에 NGS를 통해서 생산된 데이터를 검증할 수 있는 좋은 데이터라 할 수 있겠습니다.

1) hg18: human reference sequence (NCBI Build 36.1) 인간의 레퍼런스 게놈
2) chimp: 침팬치
3) KB1: 부시맨 (454와 Illumina의 whole genome 데이터와 함께 454의 exome 데이터)
4) KB1G: 부시맨의 genotype(칩) 데이터
5) NB1 : 부시맨 (454의 whole genome데이터와 exome 데이터)
6) NB1G: 부시맨의 genotype(칩) 데이터
7) MD8: 부시맨의 454를 통한 exome 데이터
8) MD8G: 부시맨의 genotype 데이터
9) TK1: 부시맨의 454를 통한 exome 데이터
10) TK1G: 부시맨의 genotype 데이터
11) BATS : 투투 대주교의 SOLiD 데이터
12) BAT: 투투 대주교의 454 exome 데이터
13) ABTG: 투투 대주교의 genotype 데이터
14) NA18507: Coriell (HapMap 등의 데이터에 사용된 시료)의 아프리카 YRI (나이지리아)
15) NA19240: Coriell (HapMap 등의 데이터에 사용된 시료)의 아프리카 YRI (나이지리아)
16) watson: 왓슨
17) venter: 벤터
18) Chinese: 중국인 얀후안밍
19) Korean: 한국인 김성진

이상 언급한 데이터는 Galaxy의 홈페이지의 Shared Data의 Data Libraries 메뉴에 가면 Bushman 데이터가 있으며, 이중에서 All SNPs in Personal genomes를 선택하면 다운로드 및 Galaxy로 가져오기가 가능합니다.

부시맨 데이터 분석 계획
그럼 이렇게 모아진 SNP 데이터를 가지고 Galaxy를 통해서 다음과 같은 세가지를 분석해 보도록 하겠습니다.

1) Human Reference Genome과 투투 대주교간에 서로 다른 SNP을 발굴
2) 알려지지 않은 (dbSNP에 없는) 투투 대주교만 가진 Novel SNP을 발굴
3) 투투 대주교가 가진 SNP 중에서 기능에 영향을 줄 수 있는 Exon 부위의 SNP만을 발굴

각각의 분석은 투투 대주교의 Genome이 어떠한 특성을 가지고 있는지를 파악하기 위한 기본 분석으로 후에 투투 대주교가 어떠한 질환이나 신체적인 특징을 가지고 있는지에 대한 기본 자료가 될 수 있습니다.

공개 부시맨 데이터를 Galaxy로 가져오기
1) 공개된 부시맨의 데이터는 Shared Data의 Data Libraries를 선택하면 Galaxy를 통해 현재까지 공개된 데이터들이 존재하며 이들 데이터셋은 갤럭시 History로 바로 가져와서 분석이 가능합니다.

Galaxy의 공개 데이터에 접근

1) 공개된 데이터셋들 중에서 Bushman을 선택하며 논문에서 사용된 데이터의 목록들이 나타나며 이중에서 All SNPs in personal genomes를 선택한 후 Import this dataset into your current history를 선택한다.

논문의 데이터를 현재 history로 임포트

이렇게 임포트된 데이터셋은 Analyze Data를 클릭하면 임포트된 것을 확인 할 수 있으며 각 컬럼은 위에서 설명한 사람들의 SNP을 보여주고 있으며, 주요 컬럼은 다음과 같습니다.

c1: 염색체
c2: SNP의 Start Position
c3: SNP의 End Position
c4: Human Reference Genome
c14: 투투 대주교의 SNP
c24: 한국인 김성진 박사의 SNP

임포트된 아프리카 사람들과 공개된 사람들의 SNP 정보

Human Reference와 다른 투투 대주교의 SNP 발굴
첫 번째로 해야할것은 Human Reference와 투투 대주교간 다른 Allele를 찾아내는 것입니다. Human Reference와 다르다는 것은 바로 투투 대주교의 SNP을 의미 한다고 할 수 있습니다.

2) 왼쪽의 Tools에서 Filter and Sort의 Filter on ambiguities in polymorphism datasets 메뉴를 선택합니다. 그리고 다음과 같이 표현식을 작성합니다.  c1 == 'chr22' and c4 != c14 and c14 != 'N' 이것은 전체 데이터 중에서 22번 염색체 중에서 (c1 =='chr22') Reference genome(c4)과 투투 대주교(c14)와 서로 다르면서 (c4 != c14) 투투 대주교의 데이터중에서 비어있는 정보(c14 != 'N')는 뺀 데이터만 가져오도록 합니다. 이때 What is the meaning of N을 Unknown으로 설정해줌니다.


이제 Human Genome과 다른 투투 대주교의 22번 염색체의 SNP만 가져온 데이터가 생성되었으며, 총 19,051개의 SNP이 존재하네요.

dbSNP에 없는 Novel한 투투 대주교의 SNP 발굴
이제까지 알려진 즉 dbSNP에 없는 투투 대주교의 SNP을 가져오기 위해서는 우선 dbSNP로 부터 데이터를 가져옵니다.

4) Get Data > UCSC Main table browser > group: variation repeat > track: SNPs(130) 을 선택합니다. 이때 검색할 범위를 chr22로 한정해 주면 좀 더 빠르게 데이터를 fetch해 오겠죠. 총 312,329개의 알려진(known) dbSNP SNPs 들을 가져왔습니다.

이제 투투 대주교의 SNP 중에서 dbSNP에 존재하는 SNP을 제거함으로써, Novel한 투투 대주교의 SNP만을 추출하도록 하겠습니다.

5) Operate on Genomic Intervals의 Subtract the intervals of two queries를 선택하고, Substract: dbSNP 데이터를 선택하고, from을 투투 대주교의 SNP을 선택하고, Return을 Intervals with no overlap을 선택합니다.


총 1,464개의 투투 대주교의 Novel한 SNP이 남았습니다. 이제 마지막으로 투투 대주교의 Novel한 SNP 중에서 Exon에 존재하는 SNP만을 또 다시 추출하도록 하겠습니다.

Exon에 존재하는 투투 대주교의 Novel SNP 발굴
우선 Exon 지역을 UCSC로 부터 가져온 후 이것을 투투 대주교의 Novel한 SNP과 Join 시키면 Exon에 위치한 Novel SNP만 남게 되겠죠

6) UCSC Main에서 group을 Genes and Gene Prediction Tracks를 선택하고 track을 UCSC Genes을 선택한 후 region을 chr22로 한정한 후 Create one BED record per: 에서 Exons plus를 선택하여 Exon 지역을 fetch합니다. 22번 염색체의 Exon 지역은 총 14,873개의 영역이 fetch되었습니다.

이제 마지막으로 투투 대주교의 Novel SNP과 Exon 지역을 Join하여 Exon영역에 존재하는 Novel SNP만을 추출합니다.

7) Operate on Genomic Intervals의  Join the intervals of two queries side-by-side를 선택합니다. Join에서는  Exon의 지역정보를 선택하고 with에서는 투투 대주교의 Nove SNP을 선택합니다.


최종으로 총 54개의 22번 염색체 중 투투 대주교만이 Exon 지역에 위치하는 Novel한 SNPs만 남게 되며 총 54개의 region만이 남아있게 된다.

이상으로 투투 대주교의 whole genome 데이터를 기반으로 dbSNP와 substract 기능/ Exon 데이터와 join 기능을 통해서 투투 대주교의 SNP을 분석해 보았습니다. 공개 데이터에는 김성진 박사의 데이터도 존재하니 똑같은 프로세스를 통해서 투투 대주교와 비교해서 몇개의 Novel Exon SNP이 존재하는지 살펴봐도 재미있을 듯 합니다. 아마도 투투 대주교에서 찾은 Novel Exon SNP의 갯수가 더 많을 것입니다. 왜? ^^;;

반응형