Taverna 11

Taverna 2로 가는 길목에서 Taverna 1.7 버전이 나왔습니다.

우선 1.7 버전으로 업그레이드 되면서 눈에 띄게 달라진 점이라면 T2 Activity palette, Taverna 2 preview의 2개의 Perspective가 화면 상단에 추가 되었구요. 사용할 수 있는 공개 플러그인들도 대거 추가되었습니다. 내년 6월인가에 Taverna 2 버전이 발표된다고 하는데 미리미리 그 기능들을 보여주는거 같습니다. Papers도 버전업되고 이것저것 연말이라 그런지 버전업 붐입니다. 얼른 업그레이드 해야지 ^^

Taverna 2007.12.20

Taverna 사용 내역을 기록하기

Taverna에서는 자신이 수행한 워크플로우에 대한 내용을 데이터베이스에 기록해 놓을 수 있다. input과 output을 비롯해서 중간에 생성된 결과물까지 몽땅 데이터베이스에 기록해 놓았다가 언제든지 다시 실행해 볼 수 있다. 바로 LogBook이라는 플러그인이 그것을 가능하게 해준다. 위의 그림처럼 자신이 수행한 워크플로우에 대한 모든 내역을 기록하고 다시 꺼내 볼 수 있도록 하고 있다. MySQL 데이터베이스만 설정해 주면 사용준비 끝이다. 자신의 작업 내역을 기록해 보고 싶다면 강력 추천한다. 또 한가지 Taverna에서 Beanshell을 가지고 java 프로그램을 작성할 때 외부의 jar 라이브러리를 불러다가 프로그램을 작성할 수 있는 기능이 있는데, Beanshell의 설정창 맨 마지막 탭을..

Taverna 2007.11.21

Taverna Plugins 개발하기

뭐하나 새로운걸 만드는 것보다는 Taverna에 통합하는 편이 나을듯 해서 Taverna 개발자 가이드를 보고 있습니다. 나름 이런저런 설명을 친절하게 해 놓았지만, 실제 뭔가를 만들기에는 좀더 공부를 해야겠습니다. 문서에는 가장 좋은 레퍼런스는 Taverna 자신의 소스코드라니 소스코드를 뚫어지게 쳐다보는 수 밖엔 ^^;; Taverna를 이용하여 Plugins을 개발하기 위해서는 우선 SVN, SPI(Service Provider Interface), Maven에 대한 내용을 숙지하고 시작해야 한다. SVN은 Taverna의 소스코드를 다운로드 받기 위한 것이고, SPI와 Maven은 실제 plugins을 만들고 빌드하기 위해 필요한 내용이다. 여기에 덧붙여 eclipse에 대해서 알면 더 좋다. 개..

Taverna 2007.10.24

Taverna에서 대용량 데이터 다루기 - 간단한 웹 서비스

Biopipe 경진대회 문제를 풀면서 8,000여개의 multiple 서열을 sort하는 beanshell 스크립트를 만들었는데, 로컬에서 돌아가다 보니 좀 시간이 걸렸다. 간단하게 웹 서비스를 만들어서 휘리릭 배포해서 쓰고 싶어졌다. Axis와 JWS를 이용해서 간단하게 해결하자. 우선 Tomcat에 Axis를 설치한다. Axis를 다운로드 받아서 common/lib에 라이브러리들 옮기고 webapps/axis 디렉토리를 Tomcat의 webapps에 옮긴 다음 http://hostname:8080/axis 로 가면 첫화면에서 validation을 선택하여 필요한 라이브러리를 체크하고 없다면 추가해준다. 이때 라이브러리는 java의 lib/ext 디렉토리에 해당 라이브러리를 옮겨주면 끝. 이제 필요한 ..

Taverna 2007.08.31

Biopipe 경진대회 단백체 문제

이전까지는 유전체 문제를 풀어보았는데 이제 단백체 문제를 풀어보도록 하겠다. KOBIC의 Biopipe를 통해서 문제를 풀어야 하는데, 계속해서 Taverna를 이용해서 문제를 풀고 있으니... 경진대회에 참가하려면 Biopipe로 작성해야 하는데 ㅋㅋ 자! 그럼 단백체 1번 문제를 살펴보자. OMIM 데이터베이스를 이용해서 질병관련 유전자를 찾고 이 유전자의 Symbol을 이용해서 단백질 서열을 얻은다음 EBI interproscan을 통해 얻어진 정보를 이용해 막관련 단백질을 추출하여 대상 질병에 대한 Pathway 정보를 얻는것이 1번문제이다. 처음으로 일본의 XML Central of DDBJ에서 제공하는 OMIM 관련 웹 서비스( http://xml.nig.ac.jp/wsdl/OMIM.wsdl)..

Taverna 2007.08.26

Biopipe 경진 대회의 연결툴 요청 답변

아래 내용은 Biopipe 경진대회에 연결툴 요청에 관한 답변이다. 파일형태의 output을 String형태의 input과 연결하기 위한 File2String과 그 반대인 String2File에 대한 모듈을 작성했다고 연락이 왔다. Biopipe 홈페이지에는 이 내용이 없는것 같아서 답변내용을 블로그에 올린다. 다른 참가분들도 이모듈을 이용해서 디자인 하시길...^&^ Reply: 1. 기존의 모듈이 나타나지 않은 이유 : searchSimple 이란 모듈이 온톨로지상에 3개 이상이 있습니다. 따라서 참가자분께서 사용한 것과 제가 만든 Adapter가 일치하지 않았습니다. 2. 현재상태 : 참가자분께서 만든 모듈간의 Adapter를 만들었습니다. 그리고 추가적으로 Ontology상에 String2File..

Taverna 2007.08.25

Biopipe 경진대회 Taverna를 이용한 문제2 풀이

새로운 문제가 오늘 따근따근하게 올라왔으니 한번 어떤가 풀어봐야겠다. 문제 풀이라기 보단 그냥 힌트로 블럭 조립하는 느낌이다. 새로운 문제의 1단계는 'Candidatus Carsonella ruddii PV'라는 세균의 전체 유전체 서열을 FASTA 포맷으로 가져오고 코딩서열 (CDS) 목록을 포함하는 유전체의 주석 정보를 GenBank flat file 포맷으로 가져오기 바랍니다. DDBJ에서 제공하는 GIB 데이터베이스의 웹 서비스를 이용하면 된다. 우선 Candidatus Carsonella ruddii PV 라는 세균의 GIB에서 제공하는 ChID를 알아야 이 세균에 대한 정보를 얻을 수 있다. 따라서 이름을 가지고 ChID를 얻어오는 getChIDFromOrganismName을 사용한다. ge..

Taverna 2007.08.23

KOBIC의 Biopipe 경진대회 - 삼일째 오후

어제 포스팅에서 언급했던것과 같이 Biopipe를 통해 문제를 해결하려고 Biopipe 사이트에 들어가서 차근차근 진행하다가 내가 잘못해서 그런지 몰라도 처음부터 꽉 막혀 버렸다. WSDbfetch_fetchData를 통해서 서열을 얻고 이를 protein 서열로 바꾸기 위해nucleic_translation_transeq를 사용했다. 각각의 모듈을 독립적으로 실행시 잘 돌아간다. 전체적으로 돌리면 아무런 반응이 없다. 시간이 흐른뒤 점심을 먹고 다시 해보니 잘 된다. 이런 QnA란에 올랐던 글을 지웠다. 아직 답변이 올라오기 전이라. 내가 뭔가 잘못했던건가??? 그래 이번엔 searchSimple을 통해 protein 서열에 대해 blastp를 수행하려고 했다. nucleic_translation_tr..

Taverna 2007.08.23

Biopipe beta 경진대회 3단계 문제 풀이

1,2 단계는 그럭저럭 해볼만 하다. 하지만 3단계는 ㅋㅋ 3단계 문제는 Blast의 결과 정확히 말하자면 blastp의 결과물을 가지고 유용한 정보 Pathway, PPI정보등을 찾는것이다. 이건 무한한 상상력을 발휘하면 되겠다. 그럼 이제부터 풀어보도록하자. 우선 blast 결과물은 어떠한 DB를 대상으로 했는가가 중요하다. Pathway 정보는 KEGG를 통해서 알수 있는데 Blast의 결과에 나오는 ID와 KEGG에서 사용하는 ID가 서로 상이하기 때문에 이를 KEGG ID로 변환하는 과정이 필요로 한다. 이것은 KEGG의 bconv라는 모듈을 통해서 가능하다. NCBI GI의 경우 ncbi-gi:번호 형식으로 bconv를 수행하면 ncbi-gi에 해당하는 KEGG ID를 반환한다. Externa..

Taverna 2007.08.22

Taverna를 이용한 Biopipe 경진대회 문제 풀이

아래 포스팅에도 언급했던 이번 국가생물자원정보관리센터(KOBIC)에서는 경진대회에 참가하는 방법이 두가지가 있다. 첫째, 직접 생물학적 의미를 가지는 파이라인을 본인이 직접 제작하는 방법 둘째, 제출된 문제를 해결하는 방법 우선 아이디어가 없기 때문에 ^^;; 제출된 문제를 해결해보기로 했다. 문제는 간단했다. 유전체와 단백체를 나뉘어 있으며 각 3단계의 총 6개의 문제가 제출되어있다. 각 문제는 독립적인 문제가 아니라 연결되어지는 말그대로 단계별로 풀어야한다. 유전체의 1단계 문제는 관심있는 유전자 아이디(refseq ID)를 이용하여 Nucleotide 서열을 받아오는 문제이다. 그럼 1단계의 문제를 풀기 위해서는 우선 refseq ID를 입력으로 넣으면 해당 Nucleotide 서열을 반환하는 서비..

Taverna 2007.08.22