유전자정보분석

갤럭시를 이용한 Exome 데이터 분석

hongiiv 2011. 7. 26. 13:10
반응형
가끔 어디서부턴가 유래를 알 수 없는 데이터를 받게 되고 또 그것을 분석해야 하는 일들이 종종 생기게 된다. 최근(지금은 아니지만)에는 그러한 데이터중의 하나가 바로 NGS 시퀀싱 데이터였다.

몇 년전 Roche/454의 pyrosequencing을 통해 생성된 데이터였는데, SFF 형태로 데이터를 받게 되었다. 454라는 것은 알고 있었는데 그 당시만 해도 당췌 Flowgram이 뭔지, SFF를 fastq 포맷으로 바꾸느라 삽질하고 이것저건 mapping/variant call 프로그램들 셋팅하느라 시간 보낸걸 생각하면 요즘은 참 세상이 많이 좋아졌다라는 생각을 하지만 여전히 예전의 나처럼 삽질하고 있는 또는 삽질할 분들께 도움이 될까하는 마음에 ^^;;

Life Techologies의 SOLiD 데이터
SOLiD는 일반적으로 Ligation 방식을 사용하며 (Roche/454->Pyrosequencing, Illumina/Solex->Reversible terminators) 다른 시퀀싱 방식들과 가장 큰 차이는 하나의 염기를 두번 읽게 되기 때문에 더 정확하게 변이들을 찾아낼 수 있다는 장점이 있다. 물론 그에 따라서 비용의 문제가 발생하지만, 이러한 독특한 방식으로 읽어낸 colour-space read는 csfasta/qual가 각각 따로 저장된 두 개의 파일로 제공된다. (예, reads_F3.csfasta, reads_F3_QV.qual)

따라서 SOLiD에서 제공하는 BioScope나 Coronal lite와 같은 전용 mapping 도구를 사용하거나 일반적으로 사용되는 BWA, Bowtie를 사용하기 위해서는 fastq 포맷으로 변환해야 한다.

여기에서는 SOLiD의 mate paire는 아니구, SureSelect Human All Exon 50Mb Kit을 이용한 paired-end 방식의 SOLiD4 system을 사용한 데이터를 가지고 csfasta -> fastq -> mapping -> sam -> bam -> variant call 까지의 과정을 살펴보도록 하겠다.

DNAnexus로 부터 Sample Data 얻기
DNAnexus는 웹 기반의 NGS 데이터 분석 제공 업체로서 데이터 분석을 위해서는 일정 비용을 지불해야 하지만, Demo 계정을 통해서 분석 데이터를 살펴볼 수 있다. Samples 탭으로 이동하면 Public 폴더에 Venter의 엑솜시퀀싱 데이터를 받을 수 있도록 되어 있으며 총 4개의 파일로 되어 있다. 이 데이터는 Edge Bio사에서 제공한 데이터로 앞서 이야기했듯이 SOLiD와 Illumina SureSelect 엑솜킷을 통해서 생산된 엑솜 시퀀싱 데이터이다.

파일은 paired-end 방식으로 두 개로 구성(quality파일포함 총 4개) 되어 있으며, 다음의 URL을 통해서 다운로드가 가능하다.

read 파일
https://dnanexus.com/download/32jhbsskclt68/52sgstgf92lmymvsxk9l8uzns/0031001S1A-reads1-Venter.PE.q3
https://dnanexus.com/download/34za360261sdx/52sgstgf92lmymvsxk9l8uzns/0031001S1A-reads2-Venter.PE.q3_pair

read 파일에 해당하는 quality 파일
https://dnanexus.com/download/12mw3qolgjckr/52sgstgf92lmymvsxk9l8uzns/0031001S1A-qual1-Venter.PE.q3_qual
https://dnanexus.com/download/39sktmkhwxhem/52sgstgf92lmymvsxk9l8uzns/0031001S1A-qual2-Venter.PE.q3_qual_pair


Galaxy 데이터 업로드 하기
획득한 URL에 존재하는 데이터는 굳이 다운로드 할 필요없이 galaxy에 URL을 적어 주기만하면 galaxy가 알아서 자신의 서버에 다운로드 해준다. (galaxy는 web을 통한 upload, ftp를 통한 upload, URL을 통한 upload를 지원)

Read 파일 fetch
아래와 같이 File Format을 csfasta를 선택하고 두개의 colour-space read의 URL을 입력하고, Genome을 hg18로 설정한 후 Execute 버튼을 클릭한 후 일정 시간이 지나면 galaxy가 해당 URL에서 파일을 다운로드하여 galaxy 분석 서버에 저장한다.

Quality 파일 fetch
마찬가지로 File Format을 qualsolid를 선택한 후 quality 파일들의 URL을 입력해서 fetch한다.


DNAnexus로 부터 데이터 fetch가 완료되면 History에 1/2번은 read 파일, 3/4번은 quality 파일이 존재하는 것을 확인 할 수 있다.


SOLiD read 파일을 fastq(fastqcssanger) 포맷으로 변경
왼쪽의 Tools 메뉴에서 NGS TOOLBOX BETA->NGS:QC and manipulation->AB-SOLID DATA->Convert SOLiD output to fastq를 선택한다. select reads에 1번 read 파일과 그에 해당하는 qualities 파일(3번)을 선택한다. 당연히 mate-pair 데이터가 아니므로 Is this mate-paire run?은 No로 지정. 마찬가지로 두번째 read 파일도 Convert를 수행한다.


우측의 History 부분의 15번과 16번은 각각 fastq(fastqcssanger)로 변경된 파일을 보여주고 있으며, 첫번째 read의 이름이 1177_463_886_F5-P2와 이에 대응하는 1177_463_886의 두 read가 존재하며 paired-end임을 확인시켜주고 있다.


Quality Score Plot 그리기
앞서서 fastq 포맷으로 변경시에 Quality Score가 낮은 것들을 제거할 수가 있는데, 제거전에 한번 전체적으로 Quality Score를 plot으로 그려서 확인해 볼 수 있다. 그럼으로써 전체적으로 실험이 잘 되었는지에 대한 정보를 확인할 수 있다. NGS TOOLBOX BETA -> AB-SOLID DATA -> Compute quality statistics for SOLiD data통해 read의 position마다의 quality를 계산해 준다.

이렇게 계산된 결과를 plot으로 그리면 아래 그림과 같이 read의 각 위치마다의 Quality Score를 시각적으로 확인이 가능하다.
NGS TOOLBOX BETA -> AB-SOLID DATA -> Draw quality score boxplot for SOLiD data 를 선택하고 앞서 계산된 quality statistics를 선택해서 boxplot을 생성한다.

아래 그림을 보면 전체적으로 read의 뒷부분으로 갈수록 Quality가 떨어지는 것을 확인 할 수 있으며, 이것은 NGS 자체가 read의 뒷부분으로 갈수록 잘 못 읽어내기 때문이다.
 

Reference genome에 Mapping
이제 앞서 생성한 fastq 포맷의 read data를 reference 서열에 대해 mapping하는 과정을 수행한다. ngs분석에서 가장 많은 시간이 소요되는 작업으로 mapping 프로그램으로는 BWA와 Bowtie를 사용 가능하며, Bowtie를 이용하여 다음과 같이 hg18에 대해서 mapping을 수행한다.


Pileup을 통한 SNP calling
mapping된 결과는 sam 포맷으로 이를 bam 포맷으로 변경한 후 pipeup을 수행하여 snp을 발굴한다. Exome sequencing 데이터를 업로드하고 snp을 발굴하는 전 과정에서 생산된 데이터는 약 200Gb 정도로 galaxy를 가지고도 충분히 10명 내외의 데이터를 분석하는데에는 무리가 없다. 이렇게 찾은 snp을 dbSNP와 비교하는 등의 annotation 과정 및 ngs 분석의 각각 통계정보, genome browser를 통해 확인하는 등의 일련의 분석과정에 대해서는 추후 다시 포스팅하기로 하겠다.


이상 간단하게 나마 galaxy를 통해서 SOLiD를 통해 exome sequencing 데이터를 분석하는 과정에 대해서 살펴보았다. 얼마전 삼성SDS에서는 ngs 분석을 위해 Bioinformatics 상용서비스를 런칭했는데, http://www.samsunggeome.com https://www.samsunggenome.com/index.do 이도저도 귀찮다거나 많은 양의 데이터를 분석한다면 한번쯤 고려해 볼 수 있을 것이다.

반응형