바이오인포매틱스

FASTQ 파일 sample, library, lane/slide, barcode

hongiiv 2013. 11. 5. 11:37
반응형

FASTQ 파일을 받았다면 다음과 같은 기본 정보는 필수적으로 확보하시기 바랍니다. 흔히 NGS 시퀀싱은 기본적으로 1개의 sample로 부터 1개의 DNA library가 만들어지고 시퀀싱 장비의 1개의 lane/slide에 넣어져 시퀀싱이 됩니다.

한개의 sample은(@RG:SM) DNA library prepare 단계를 거쳐 시퀀싱 장비에 삽입?되게 되는데요. 하나의 샘플은 1개 이상의 library로 제작될 수 있습니다. 이렇게 되면 동일 샘플이지만 라이브러리 제작이 서로 다르게 되어 이를 구분해 주어야합니다. 이는 추후 분석시 alignment된 BAM 파일에 @RG:LB로 구분되어 사용됩니다.

자 이렇게 만들어진 library는 실제 시퀀싱 장비에 넣어지는데요. 이때 동일한 장비에 서로 다른 lane(일루미나는 lane, SOLiD는 slide라고 부름)에 나뉘어 시퀀싱이 되는 경우가 있기 때문에 Lane/slide 구분할 수 있는 이름을 넣어주어야 합니다. 일반적으로 large sequencing library(whole genome 같은 경우)는 하나의 lane에서 커버를 못하기 때문에 여러개의 lane에 나뉘어져 시퀀싱이 됩니다. 동일한 장비라고 하더라도 lane에 따라 물리적으로 구분되어 서로 다른 화학반응으로 시퀀싱 되기 때문에 분석시 이를 고려해야 합니다. 따라서 @RG:PU에 이 정보를 넣어 사용됩니다.

마지막으로 또 확인 되어야 할것은 하나의 library로 부터 생성된 sequencing read를 임의로 여러개의 파일로 나누어 제공되는 경우가 있는데 이또한 확인해보야 할것입니다. 

홀지놈 1샘플을 분석 의뢰했는데 4개의 파일이 왔다. 그러면 각 4개의 파일이 하나의 library로 부터 만들어진것인지 또한 paired-end로 각각 서로 다른 lane에서 만들어진 것인지? 아니면 동일한 lane인데 그냥 split한 것인지. 혹은 2개 이상의 lane에서 시퀀싱한것을 merge한 것인지 등등을 확인해 보아야 한다는 것입니다.

앞서도 설명했듯이 sample, library, lane 정보는 추후 분석시 recalibration등의 과정에서 유용하게 사용되기 때문에 매우 중요한 정보라고 할 수 있습니다.



반응형