본문 바로가기

유전자정보분석

Galaxy를 이용한 NGS 분석 (2) - Mapping & SNP calling

Galaxy를 이용한 NGS 데이터 분석에 대한 두번째 시간이자 마지막입니다. ^^;; 본 문서는 크게 3부분으로 구성되어 있습니다.  다음 시간에는 Galaxy를 비롯한 OpenSource 진영과 상용 분석툴에 대한 내용과 실제 Whole genome 데이터를 다룰때 고려해야 할 점과 좀 더 자세한 분석 옵션과 고려할 사항들에 대해서 이야기 해보도록 하겠습니다. 

당장 나에게 NGS 데이터 분석이 필요없다고 하시는 분들도 한번쯤은 읽어보시고, 어떻게 데이터 분석이 진행되는지 한번 살펴보는 것도 좋을 듯 합니다. 그럼 즐거운 주말 보내세요 ^_________________^;;  혹시 잘못된 부분이나 추가할 부분이 있으시다면 댓글 부탁드립니다. 


 Analysis 1 : NGS Quality Control

QC 과정은 다음의 총 12 단계로 진행되며, 각 단계마다의 의미와 분석방법, 결과해석 및 NGS 분석외의 타 galaxy의 유용한 기능에 대해서 설명될 것입니다.

1. fastq 데이터를 galaxy에 로드하고 업로드된 데이터에 대한 파일 속성 설정
2. SangerFASTQ 포맷으로 변경
3. Read로 부터 quality 관련 통계 수치 계산
4. Quality 수치를 boxplot으로 그리기
5. 각 read의 첫 60bp만 남기고 시퀀스 데이터 trimming하기
6. Quality score가 <20인 position에 대해서 “N”으로 마킹하기
7. Quality score를 가지고 trimming하기
8. 첫 2,500개의 read 시퀀스와 quality 정보만 추출하여 새로운 데이터셋 만들기
9. 새로운 데이터셋을 FASTA 포맷으로 변경하기
10. 60bp로 trimming 된 각 시퀀스 read 데이터 검증하기
11. 새로운 데이터셋을 Tabular 포맷으로 변경하기
12. 시퀀스 read의 길이가 60인지 데이터셋 확인하기

Analysis 2 : NGS SE(Single End) Mapping

이번에는 Analysis 1에서 QC 과정을 거친 read를 Human genome에 Mapping 해보도록 하겠습니다. 이전과 마찬가지로 각 단계마다의 의미와 분석방법, 결과해석 및 NGS 분석외의 타 galaxy의 유용한 기능에 대해서 설명될 것입니다. 본 과정은 다음과 같이 7단계로 구성되어 있습니다.

1. Sanger 포맷의 fastq 파일을 업로드하고 파일 속성을 설정
2. Bowtie와 BWA를 이용하여 reference human genome (hg18)에 mapping
3. SAM 포맷의 파일에서 mapping 되지 않은 reads를 제거
4. Chromosome별로 mapping된 read의 분포 보기
5. 가장 많이 mapping된 chromosome 별로 sorting하기
6. SAM 포맷을 BAM 포맷을 변환하기
7. Samtools를 이용하여 flagstat을 통해 일반적인 통계정보 얻기

Analysis 3 : SNP Calling

Analysis 1,2를 통해 생성된 BAM 파일에는 NGS reads가 reference genome에 매핑된 결과가 들어있습니다. 이제 BAM 파일을 가지고 variation을 찾고 이를 이용하여 다양한 분석을 수행하는 방법에 대해서 알아 보도록 하겠습니다.

1. Pileup file 만들기
2. Pileup file sort를 통한 가장 많이 mapping된 부분 찾기
3. SNPs을 발굴을 위한 Pileup file 필터링하기
4. Pileup 파일을 genomic interval 포맷으로 변경하기
5. UCSC로 부터 dbSNP 데이터 가져오기
6. SNP annotation

티스토리 툴바