티스토리 뷰

Galaxy를 이용한 NGS 데이터 분석에 대한 두번째 시간이자 마지막입니다. ^^;; 본 문서는 크게 3부분으로 구성되어 있습니다.  다음 시간에는 Galaxy를 비롯한 OpenSource 진영과 상용 분석툴에 대한 내용과 실제 Whole genome 데이터를 다룰때 고려해야 할 점과 좀 더 자세한 분석 옵션과 고려할 사항들에 대해서 이야기 해보도록 하겠습니다. 

당장 나에게 NGS 데이터 분석이 필요없다고 하시는 분들도 한번쯤은 읽어보시고, 어떻게 데이터 분석이 진행되는지 한번 살펴보는 것도 좋을 듯 합니다. 그럼 즐거운 주말 보내세요 ^_________________^;;  혹시 잘못된 부분이나 추가할 부분이 있으시다면 댓글 부탁드립니다. 


 Analysis 1 : NGS Quality Control

QC 과정은 다음의 총 12 단계로 진행되며, 각 단계마다의 의미와 분석방법, 결과해석 및 NGS 분석외의 타 galaxy의 유용한 기능에 대해서 설명될 것입니다.

1. fastq 데이터를 galaxy에 로드하고 업로드된 데이터에 대한 파일 속성 설정
2. SangerFASTQ 포맷으로 변경
3. Read로 부터 quality 관련 통계 수치 계산
4. Quality 수치를 boxplot으로 그리기
5. 각 read의 첫 60bp만 남기고 시퀀스 데이터 trimming하기
6. Quality score가 <20인 position에 대해서 “N”으로 마킹하기
7. Quality score를 가지고 trimming하기
8. 첫 2,500개의 read 시퀀스와 quality 정보만 추출하여 새로운 데이터셋 만들기
9. 새로운 데이터셋을 FASTA 포맷으로 변경하기
10. 60bp로 trimming 된 각 시퀀스 read 데이터 검증하기
11. 새로운 데이터셋을 Tabular 포맷으로 변경하기
12. 시퀀스 read의 길이가 60인지 데이터셋 확인하기

Analysis 2 : NGS SE(Single End) Mapping

이번에는 Analysis 1에서 QC 과정을 거친 read를 Human genome에 Mapping 해보도록 하겠습니다. 이전과 마찬가지로 각 단계마다의 의미와 분석방법, 결과해석 및 NGS 분석외의 타 galaxy의 유용한 기능에 대해서 설명될 것입니다. 본 과정은 다음과 같이 7단계로 구성되어 있습니다.

1. Sanger 포맷의 fastq 파일을 업로드하고 파일 속성을 설정
2. Bowtie와 BWA를 이용하여 reference human genome (hg18)에 mapping
3. SAM 포맷의 파일에서 mapping 되지 않은 reads를 제거
4. Chromosome별로 mapping된 read의 분포 보기
5. 가장 많이 mapping된 chromosome 별로 sorting하기
6. SAM 포맷을 BAM 포맷을 변환하기
7. Samtools를 이용하여 flagstat을 통해 일반적인 통계정보 얻기

Analysis 3 : SNP Calling

Analysis 1,2를 통해 생성된 BAM 파일에는 NGS reads가 reference genome에 매핑된 결과가 들어있습니다. 이제 BAM 파일을 가지고 variation을 찾고 이를 이용하여 다양한 분석을 수행하는 방법에 대해서 알아 보도록 하겠습니다.

1. Pileup file 만들기
2. Pileup file sort를 통한 가장 많이 mapping된 부분 찾기
3. SNPs을 발굴을 위한 Pileup file 필터링하기
4. Pileup 파일을 genomic interval 포맷으로 변경하기
5. UCSC로 부터 dbSNP 데이터 가져오기
6. SNP annotation
댓글
  • 프로필사진 choi 안녕하세요. 올려주신 파일을 참고하여 과제를 하려고 하는데 올리신 자료를 사용해도되는지 양해를 구하고 싶습니다. 허락해주신다면 출처를 밝히고 사용하겠습니다. cksos222@naver.com 답변이나 연락부탁드립니다^^ 2012.05.24 22:28 신고
  • 프로필사진 hongiiv 어떤식으로 활용될진 모르겠지만,,, 마음껏 사용하세요~~~ㅋ 2012.05.24 21:12 신고
  • 프로필사진 Hubert 역시나 유용한 포스팅 공부하는데 정말 많은 도움이 되었습니다.
    생물정보분석에 Galaxy가 좋다는 이야기는 누누히 들어왔으나 직접 사용해보니 정말 놀랍네요!!
    이런 웹 기반 프로그램을 제작하고 공유하는 분들에게도 참 감사합니다.
    물론 그것을 이용할 수 있도록 직접 예제를 작성해주신 글쓴분에게도 감사합니다. ^^

    이번 강의를 따라서 실행하다보니 두 가지 궁금한 점이 생겼습니다.

    1. Analysis 2 : NGS SE(Single End) Mapping 과정 중 [ 3. SAM 파일의 bitwise flag value로 필터링 하기 ]
    에서 결과값을 보니 flag == 16 인 항목들만 필터링 되었더군요.

    필터링 전 자료를 보면 flag값이 0, 4, 16 세 가지가 있습니다.
    이 flag 값을 일종의 score로 생각하면 되는 항목인지요?


    2. Analysis 3 : SNP Calling 과정 중 [ 3. Pileup 파일 flitering하기 ]
    를 수행하려고 했지만 "select dataset" 탭에서 선택할 수 있는 형식의 파일이 없습니다.

    분명 이전에 [generate pileup] 과정을 통해 dataset을 생성했는데 왜 filtering 할 때는 선택할 수 없는지 의아합니다.
    혹시나 실수했나 싶어서 이전 과정을 반복해봤고
    혹혹시나 몰라서 [generate pileup] 과정에 MAQ model을 yes로 체크해서 반복해 봤으나 역시 선택할 수 없더군요.
    그래서 결국 필터링 과정은 건너뛰었습니다.

    무엇이 문제였을까요?


    항상 유용한 포스팅 감사합니다. ^^
    2014.02.06 20:05 신고
  • 프로필사진 Hubert 여러 자료들을 가지고 실습하다가 2번 궁금증에 대한 해결책을 찾아냈습니다. ^^

    2. [pileup generate] 과정을 거치면 생성된 파일 형식이 tabular로 남아있습니다. 이를 edit attributes 탭에서 형식을 tabular -> pileup 으로 변경해주니 [filter pileup] 과정에서 dataset으로 사용할 수 있더라구요.

    글쓴님 덕분에 많은 공부를 합니다. 감사합니다. ^^
    2014.02.10 10:03 신고
  • 프로필사진 hongiiv 자료가 오래전꺼라 현재와 맞지 않는 부분도 있을 수 있습니다.
    한번 업데이트를 진행하도록 노력해?! 보겠습니다.

    감사합니다. ^^
    2014.02.21 13:23 신고
  • 프로필사진 분자생물학 감사해요! 지금 겔럭시에서 ncbi에서 불러온 데이터 퀄리티.컨트롤값이 너무 이상하게 나오는데 혹시 왜그런지.알수있을까요? fastqsanger파일로 업로드하고 바로 리드 qc 눌러서 읽었는데.. 엑스가 떠서요.. 이걸 분석 할수 없는건가 싶고... 부탁드려요 ㅠㅠ cucucucoco@naver.com 2017.09.18 16:39 신고
댓글쓰기 폼