Taverna

Biopipe 경진대회 단백체 문제

hongiiv 2007. 8. 26. 18:40
반응형
이전까지는 유전체 문제를 풀어보았는데 이제 단백체 문제를 풀어보도록 하겠다. KOBIC의 Biopipe를 통해서 문제를 풀어야 하는데, 계속해서 Taverna를 이용해서 문제를 풀고 있으니... 경진대회에 참가하려면 Biopipe로 작성해야 하는데 ㅋㅋ

자! 그럼 단백체 1번 문제를 살펴보자. OMIM 데이터베이스를 이용해서 질병관련 유전자를 찾고 이 유전자의 Symbol을 이용해서 단백질 서열을 얻은다음 EBI interproscan을 통해 얻어진 정보를 이용해 막관련 단백질을 추출하여 대상 질병에 대한 Pathway 정보를 얻는것이 1번문제이다.

처음으로 일본의 XML Central of DDBJ에서 제공하는 OMIM 관련 웹 서비스( http://xml.nig.ac.jp/wsdl/OMIM.wsdl)의 search 메소드를 이용해서 질병관련 유전자를 검색한다. search메소드는 키워드(cancer, diabetes)로 주어진 질병에 대해 OMIM 데이터베이스를 검색해서 반환하는 메소드이다. 이 메소드의 결과로는 OMIM ID list가 반환된다. 반환된 결과의 OMIM ID에는 접두사로 asterisk(*), number(#), plus(+), percent(%)가 붙는데, 각각의 의미는

*     gene with known sequence
+     gene with known sequence and phenotype
#     phenotype description, molecular basis known
%     mendelian phenotype or locus, molecular basis unknown
no prefix     other, mainly phenotypes with suspected mendelian basis

OMIM의 search 결과의 맨 마지막 부분을 보면 ";" 뒤에 gene symbol이 있다. 이 세미콜론(;) 뒤의 gene symbol만을 추출해서 convert_GeneSymbol_to_ProteinRefseq (http://sequenceome.kobic.re.kr/WS_Sequenceome/SearchDB?wsdl)을 통해 해당 gene symbol의 protein RefSeq를 얻으면 된다. convert_GeneSymbol_to_ProteinRefseq 메소드는 두개의 인자를 받는데, 하나는 gene symbol이고 다른 하나는 NCBI TaxID이다. Homo sapiens의 경우 9606이므로 convert_GeneSymbol_to_ProteinRefseq("BCAS1","9606")하면 BACS1의 Protein RefSeq를 얻을 수 있다.

OMIM의 결과로 부터 gene symbol을 추출하기 위해서 OMIM의 결과를 넣으면 gene symbol만을 String 형태로 뽑아내는 스크립트를 작성한다.

gene symbol 추출하기 BeanShell Script

위 스크립트의 결과로 "PCANAP2,PCANAP5,PCANAP8" 형태의 symbol이 생성된다. 이를 convert_GeneSymbol_to_ProteinRefseq 메소드로 돌리면 " SAFB:NP_002958.2,ABCC1:NP_063956.1&NP_063957.1&NP_004987.2&NP_063915.2&NP_063953.2&NP_063954.2&NP_063955.2"

위와 같이 gene symbol:protein Refseq&protein Refseq 포맷으로 결과를 반환한다. 여기서 또 protein Refseq만을 뽑아내는 스크립트를 만든다.

protein Refseq 추출 BeanShell Script

자! 이젠 이렇게 얻은 Refseq에 대한 실제 서열을 가져온다. Biopipe 경진대회 문제에서는 refseq2seq 메소드를 사용하라고 되어 있는데, 이건 KOBIC에서 만든 메소드로 추측된다. 따라서 WSDL 주소를 모르겠다. ^^;; 그러나 여기 DDBJ의 RefSeq 모듈( http://xml.nig.ac.jp/wsdl/RefSeq.wsdl)의 search 메소드나 유전체 문제에서 사용한 EBI의 WSDbfetch를 이용하면 FlatFile 형태의 결과가 반환된다. 이렇게 해서 얻은 정보중 서열만 추출해낸다.

이렇게 얻은 질병 관련 protein 서열(정말 무지 힘들게 얻은)을 EBI interproscan을 통해 막관련 단백질을 추출한다. 근데 이부분에서 어떻게 interproscan에서 막관련 단백질만을 추출하는냐 지인에게 물었더니 Go terms의 Cellular Component의 membrane이 있다면 막관련 단백질이라고 하니 이부분을 찾으면 막관련 단백질을 찾는건 끝이고, gi number를 어떻게든 찾아서 Pathway정보만 얻으면 된단 말이지...

EBI interproscan예
위 서열을 interproscan에 넣으면,

막관련 단백질의 gi number를 이용해서 대상질병에 대한 Pathway정보를 얻으면 된다. Pathway정보는 유전체 문제에서 다루었기 때문에 넘어간다.

이상 끝. 모자란 부분은 다음에 추가~!^^;;

반응형