유전자정보분석

FASTQ - NGS 데이터 포맷

hongiiv 2011. 8. 20. 09:26
반응형
바로 밑에서 엑솜 데이터를 Galaxy를 이용해서 분석하는데에 잠깐 언급된 내용인데 좀 정리가 필요한 부분일 것 같다는 생각이 들어서 짧게 언급하려고 한다. 일반적으로 차세대 시퀀서에서 사용하는 데이터 포맷은 fastq 포맷으로 인간이 읽을 수 있는 텍스트 파일 형태로 biological sequence(일반적으로 nucleotide sequence)와 이에 상응하는 quality score로 구성된 파일이다. 즉 각 nucleotide base마다 해당 base가 얼마나 정확하게 읽어낸 것인지에 대한 quality가 함께 포함된 파일로 산업계의 표준 (de facto) 으로 Illumina Genome Analyzer와 같은 시퀀서에서 사용된다. 일반적으로 fastq 파일의 확장자는 정해진게 없지만 주로 사용하는 확장자로는 fq, fastq, txt라는 확장자를 사용한다.

FASTQ 포맷을 사용하지 않은 시퀀서


이러한 fastq 포맷외에도 Life Technologies의 SOLiD 장비의 경우에는 quality를 따로 떼어낸 두개의 파일을 사용하는데, csfast (colour-space read) 파일과 qual 두개의 파일이 그것이다. Roche의 454 장비의 경우에는 SFF라는 파일 포맷을 사용하는데 sfftofasta라는 프로그램을 이용해서 흔히 볼 수 있는 fasta와 quality 파일로 변환해준다. SOLiD나 454의 경우 제공되는 전용 툴들을 사용하면 별 무리가 없지만, BWA나 Bowtie와 같은 OpenSource 기반의 툴들을 사용하기 위해서는 해당 포맷을 fastq 포맷으로 변경해줘야 한다. fastq 포맷도 quality score를 어떻게 표현하느냐에 따라서 또 나뉘게 되는데 quality를 표현하는 Pread Quality Score를 어떻게 표현하느냐에 따라서 달라진다.

현재까지 전세계에 보급된 NGS 장비 -표에서 보는바와 같이 SOLiD나 454 포맷은 Illumina에 비해서 흔히 볼 수 있는 포맷은 아니며, 연구자들은 아마 대부분 Illumina의 포맷을 볼 수 있을 듯 ^^;;

Sanger (Phred+33)

Venter가 7.5x로 시퀀싱한 것이 바로 Sanger의 capillary 방식의 시퀀싱이었는데, 전통적으로 sanger에서 사용하는 것이 바로 sanger fastq 또는 fastq-sanger 라고 불리우며, Galaxy에서는 FASTQ quality scores type에 Sanger라고 표시되어 있다. fastq-sanger는 quality를 표현하는데에 있어서 ASCII 33-126번까지의 문자를 사용하게 되며 offset은 33으로 표현할 수 있는 quality의 range는 0에서 93까지 표현이 가능하다.

Solexa (Solexa+64)

지금은 Solexa가 Illumina에게 넘어갔지만 한때 잘 나가던 장비로 현재는 Genome Analyzer가 Solexa에 있으면서 1.3으로 버전업 하기전까지 사용했던 포맷으로 fastq-solexa, Galaxy에서는 Solexa라고 표시되어 있다. fastq-solexa는 ASCII 59-126까지 offset은 64로 -5에서 62까지 표현이 가능하며, Quality Score는 PHRED score가 아닌 Solexa score를 사용한다.

Illumina 1.3+ (Phred+64)

Genome Analyzer가 1.3으로 버전업되면서 부터 사용하기 시작한 포맷으로 fastq-illumina, Galaxy에서는 Illumina 1.3+라고 표시한다. ASCII 64-126, offset은 64로 0에서 62까지 표현 가능하다.
반응형