biopipe 17

Biopipe 경진대회 단백체 문제

이전까지는 유전체 문제를 풀어보았는데 이제 단백체 문제를 풀어보도록 하겠다. KOBIC의 Biopipe를 통해서 문제를 풀어야 하는데, 계속해서 Taverna를 이용해서 문제를 풀고 있으니... 경진대회에 참가하려면 Biopipe로 작성해야 하는데 ㅋㅋ 자! 그럼 단백체 1번 문제를 살펴보자. OMIM 데이터베이스를 이용해서 질병관련 유전자를 찾고 이 유전자의 Symbol을 이용해서 단백질 서열을 얻은다음 EBI interproscan을 통해 얻어진 정보를 이용해 막관련 단백질을 추출하여 대상 질병에 대한 Pathway 정보를 얻는것이 1번문제이다. 처음으로 일본의 XML Central of DDBJ에서 제공하는 OMIM 관련 웹 서비스( http://xml.nig.ac.jp/wsdl/OMIM.wsdl)..

Taverna 2007.08.26

Biopipe 경진 대회의 연결툴 요청 답변

아래 내용은 Biopipe 경진대회에 연결툴 요청에 관한 답변이다. 파일형태의 output을 String형태의 input과 연결하기 위한 File2String과 그 반대인 String2File에 대한 모듈을 작성했다고 연락이 왔다. Biopipe 홈페이지에는 이 내용이 없는것 같아서 답변내용을 블로그에 올린다. 다른 참가분들도 이모듈을 이용해서 디자인 하시길...^&^ Reply: 1. 기존의 모듈이 나타나지 않은 이유 : searchSimple 이란 모듈이 온톨로지상에 3개 이상이 있습니다. 따라서 참가자분께서 사용한 것과 제가 만든 Adapter가 일치하지 않았습니다. 2. 현재상태 : 참가자분께서 만든 모듈간의 Adapter를 만들었습니다. 그리고 추가적으로 Ontology상에 String2File..

Taverna 2007.08.25

Biopipe 경진대회 Taverna를 이용한 문제2 풀이

새로운 문제가 오늘 따근따근하게 올라왔으니 한번 어떤가 풀어봐야겠다. 문제 풀이라기 보단 그냥 힌트로 블럭 조립하는 느낌이다. 새로운 문제의 1단계는 'Candidatus Carsonella ruddii PV'라는 세균의 전체 유전체 서열을 FASTA 포맷으로 가져오고 코딩서열 (CDS) 목록을 포함하는 유전체의 주석 정보를 GenBank flat file 포맷으로 가져오기 바랍니다. DDBJ에서 제공하는 GIB 데이터베이스의 웹 서비스를 이용하면 된다. 우선 Candidatus Carsonella ruddii PV 라는 세균의 GIB에서 제공하는 ChID를 알아야 이 세균에 대한 정보를 얻을 수 있다. 따라서 이름을 가지고 ChID를 얻어오는 getChIDFromOrganismName을 사용한다. ge..

Taverna 2007.08.23

KOBIC의 Biopipe 경진대회 - 삼일째 오후

어제 포스팅에서 언급했던것과 같이 Biopipe를 통해 문제를 해결하려고 Biopipe 사이트에 들어가서 차근차근 진행하다가 내가 잘못해서 그런지 몰라도 처음부터 꽉 막혀 버렸다. WSDbfetch_fetchData를 통해서 서열을 얻고 이를 protein 서열로 바꾸기 위해nucleic_translation_transeq를 사용했다. 각각의 모듈을 독립적으로 실행시 잘 돌아간다. 전체적으로 돌리면 아무런 반응이 없다. 시간이 흐른뒤 점심을 먹고 다시 해보니 잘 된다. 이런 QnA란에 올랐던 글을 지웠다. 아직 답변이 올라오기 전이라. 내가 뭔가 잘못했던건가??? 그래 이번엔 searchSimple을 통해 protein 서열에 대해 blastp를 수행하려고 했다. nucleic_translation_tr..

Taverna 2007.08.23

Biopipe beta 경진대회 3단계 문제 풀이

1,2 단계는 그럭저럭 해볼만 하다. 하지만 3단계는 ㅋㅋ 3단계 문제는 Blast의 결과 정확히 말하자면 blastp의 결과물을 가지고 유용한 정보 Pathway, PPI정보등을 찾는것이다. 이건 무한한 상상력을 발휘하면 되겠다. 그럼 이제부터 풀어보도록하자. 우선 blast 결과물은 어떠한 DB를 대상으로 했는가가 중요하다. Pathway 정보는 KEGG를 통해서 알수 있는데 Blast의 결과에 나오는 ID와 KEGG에서 사용하는 ID가 서로 상이하기 때문에 이를 KEGG ID로 변환하는 과정이 필요로 한다. 이것은 KEGG의 bconv라는 모듈을 통해서 가능하다. NCBI GI의 경우 ncbi-gi:번호 형식으로 bconv를 수행하면 ncbi-gi에 해당하는 KEGG ID를 반환한다. Externa..

Taverna 2007.08.22

Taverna를 이용한 Biopipe 경진대회 문제 풀이

아래 포스팅에도 언급했던 이번 국가생물자원정보관리센터(KOBIC)에서는 경진대회에 참가하는 방법이 두가지가 있다. 첫째, 직접 생물학적 의미를 가지는 파이라인을 본인이 직접 제작하는 방법 둘째, 제출된 문제를 해결하는 방법 우선 아이디어가 없기 때문에 ^^;; 제출된 문제를 해결해보기로 했다. 문제는 간단했다. 유전체와 단백체를 나뉘어 있으며 각 3단계의 총 6개의 문제가 제출되어있다. 각 문제는 독립적인 문제가 아니라 연결되어지는 말그대로 단계별로 풀어야한다. 유전체의 1단계 문제는 관심있는 유전자 아이디(refseq ID)를 이용하여 Nucleotide 서열을 받아오는 문제이다. 그럼 1단계의 문제를 풀기 위해서는 우선 refseq ID를 입력으로 넣으면 해당 Nucleotide 서열을 반환하는 서비..

Taverna 2007.08.22

Biopipe beta 경진대회

국가생물자원정보관리센터에서 Biopipe 경진대회를 실시한다. Biopipe는 Taverna와 유사한 워크플로우 툴로서 써보면서 몇가지 장단점을 비교해보았다. Biopipe는 국내에서 개발되어서 아무래도 문제점이나 사용에 있어서 Taverna에 비해 피드백을 받기가 수월한점이 우선 장점이라고 할 수 있겠다. 그러나 아직까지 문서화가 잘 되어 있지 않다는 점은 앞으로 beta 딱지를 떼어내면 좀 좋아 질거라고 생각된다. 조금 모자란 툴이라도 문서화가 잘 되어 있어야 사용자를 끌어들이기가 수월하다. Taverna가 자바어플리케이션인 반면 Biopipe는 웹브라우저 기반의 툴이다. Web 2.0에 맞도록 해당 페이지를 변환하지 않고 모든 작업을 할 수 있을 뿐만 아니라 자신이 만든 Biopipe를 공개함으로써..

Biopipe 2007.08.21