유전자정보분석

2010년 11월 19일 금요일 정리

hongiiv 2010. 11. 19. 15:03
반응형
a. Getting Genetics Done의 블로그의 내용 중에 1000 genomes 데이터를 가지고 imputation [각주:1] 하기 위한 연재를 시작, 태그로 1000 genomes와 imputaion을 사용

b. PLIN를 사용하다 보면 결과 파일이 화면상에 보기 좋게 출력된다. 이를 탭이나 콤마(CSV포맷)로 변경하기 위한 bash 스크립트는 다음과 같다.

sed -r 's/\s+/\t/g' $1 | sed -r 's/^\t//g' | sed -r 's/NA/\\N/g' > $1.txt
sed -r 's/\s+/,/g' $1 | sed -r 's/^,//g' | sed -r 's/NA/\\N/g' > $1.csv

c. ANOVAR에서 이미 알려진 dbSNP나 1000 genomes의 SNP을 filtering하는 방법은 다음과 같다. 서울대의 AK1의 데이터의 경우 ANOVAR에서 제공하는 DB가 없기 때문에 generic 타입으로 만들어서 사용한다.

perl annotate_variation.pl -filter -dbtype snp130 final_group1_singleton.annovar humandb/

perl annotate_variation.pl -filter -dbtype 1000g_ceu
group1_singleton_anno_input.txt.hg18_snp130_filtered humandb/


perl annotate_variation.pl -filter -dbtype 1000g_yri group1_singleton_anno_input.txt.hg18_snp130_filtered.hg18_CEU.sites.2009_04_filtered humandb/


perl annotate_variation.pl -filter -dbtype 1000g_jptchb group1_singleton_anno_input.txt.hg18_snp130_filtered.hg18_CEU.sites.2009_04_filtered.hg18_YRI.sites.2009_04_filtered humandb/


perl annotate_variation.pl -filter -dbtype generic -genericdbfile hg18_ak1.txt group1_singleton_anno_input.txt.hg18_snp130_filtered.hg18_CEU.sites.2009_04_filtered.hg18_YRI.sites.2009_04_filtered.hg18_JPTCHB.sites.2009_04_filtered humandb/


d. Getting Genetics Done의 블로그의 Manhattan plot을 그리는 R 코드 수정

source("NEW/qqman-5.r")
ImportantSNPs<-c(1)
mydata=read.table("chr_plot_input_R_sort.txt",header=T)
myplot=manhattan(mydata,annotate=T,SNPlist=ImportantSNPs)
ggsave("manhattan.png",myplot,w=15,h=9,dpi=100)




e. 굳이 1000 genomes 데이터뿐만 아니라 시퀀싱 데이터 annotation하는 방법에 대한 BioStar의 질문과 답변 "Determining which new SNPs in 1000G data result in coding changes"

f. 네이처 뉴스에 나온 "Human genome: Genomes by the thousand" 현재까지 국가별 NGS 기계와 시퀀싱된/될 사람을 지도상에서 보여준다. 영국은 Power to the people, 중국은 The rise of genome factories,,,, (^^;;)


  1. 빈도가 낮은 SNP 더욱 세밀한 SNP(reference)을 통해 통계적인 방법으로 reference를 가지고 빈 SNP의 frequency를 채우는 것 [본문으로]
반응형