Bioblogs

국내 바이오인포매틱스 관련 오픈 소스 현황

hongiiv 2007. 12. 28. 16:52
반응형
현재 국내에서 바이오인포매틱스 관련 오픈 소스 프로젝트에 직간접적으로 참여하고 계신분이 얼마나 될까요? 또한 이러한 바이오인포매틱스 관련 오픈소스의 활용은 어떠할까요?? 어떠한 부분에서 어떤 오픈 소스 소프트웨어를 사용하는지, 얼마나 알고 계신지, 필요성은 느끼시는지 궁금해지네요. Biopipe나 Bioworks도 이러한 오픈 소스가 없었더라면 생겨나지 못하는 그리고 앞으로도 오픈 소스 소프트웨어들이 받쳐 주지 않는다면 무용지물의 소프트웨어 될 수 밖에 없는 아주 중요한 문제입니다. 제가 생각하기에는 이러한 바이오인포매틱스 관련 오픈 소스의 개발과 활용에 대한 문제는 바이오인포매틱스 연구의 뿌리라고 생각합니다.

아래의 내용은 가칭 한국 오픈 바이오 사용자 모임(http://open-bio.kr)의 설립 배경과 목적 그리고 어떠한 내용을 담고 있어야 하는지 만들어 봤습니다. 많은 부분의 open-bio.org, open-bio.jp에서 참고했습니다. 참고로 본 글은 전혀 다듬어 지지 않았습니다. 이점 유의하시길 ^^;;

본 단체는 자유소프트웨어 정신에 따라 바이오인포매틱스 관련 소프트웨어의 자유로운 사용과 개발을 지향하며, 대중이 소프트웨어를 자유롭게 사용하고 수정, 개발 할 수 있도록 권장한다.

1. 사업 배경
해외에서는 BioPerl, Biopython, BioJava, EMOBSS 등 바이오인포매틱스를 위한 소프트웨어 개발 프로젝트들이 활발히 진행되고 있다. 이러한 소프트웨어를 포함한 수많은 오픈소스 소프트웨어들은 학교나 연구소뿐만 아니라 상업적으로도 폭넓게 사용되고 있다.

대표적인 공개 소프트웨어 프로젝트 사이트인 소스포지(Sourceforge)의  Software Map 카테고리의 Scientific/Enginnering을 보면 Bio-Informatics가 2007년 10월 현재 1428개로 Chemistry(376), Physics(811), Molecular Science(224)에 비해 월등히 높은 것을 확인할 수 있다. 이처럼 수많은 바이오인포매틱스 관련 오픈 소스 소프트웨어가 현재 활발히 개발 관리되고 추세이다.

User inserted image
[출처 : 소스포지 http://sourceforge.net]

이미 해외에서는 Open Bio Foundation(OBF, http://www.open-bio.org)을 통해서 바이오인포매틱 관련 오픈소스 소프트웨어를 지원하고 있으며, 일본에서는 2004년부터 바이오인포매틱스 관련 오픈소스 소프트웨어의 중요성을 인식하고 오픈 바이오 연구회(http://www.open-bio.jp)를 통해서 활발히 활동하고 있다.

2. 사업 목적
 국내에서는 바이오인포매틱스 관련 오픈소스 프로젝트에 참여하고 있는 개발자의 부족과 한글로 된 문서의 부족으로 인해 아직 충분히 홍보되어 활용되지 않을 뿐만 아니라 국제적인 공헌도 또한 부족한 상황이다.

따라서 본 모임에서는 이하와 같은 활동을 통해서 바이오인포매틱스에서의 오픈소스 프로그램의 국내 홍보 및 보급을 도모하는 한편 분산적으로 진행되고 있는 국내의 프로젝트를 모으고 새로운 프로젝트를 유도하여 해외에도 성과를 알릴 수 있는 커뮤니티를 형성해 나가고자 한다.

3. 사업 내용
6개 부분으로 오픈 소스 정착(모임, 문서화, 대학교육과의 연계), 오픈 소스 개발자 지원, 오픈소스를 활용한 데이터 분석지원(오픈 소스 사용자 지원, 대용량 데이터 분석 환경 지원)을 수행한다.

☐ 모임
KLDP에서는 CodeFest 행사를 계속적으로 지원 운영하고 있다. CodeFest는 오픈소스 개발자들이 모여 밤새 무언가를 만들어내는 일종의 친목모임으로 이곳에서 만들어지는 결과물은 필요한 사람에게 공개가 된다. 이러한 모임을 통해 유능한 개발자들이 작업하는 방법을 보고 배울 수 있다.(CodeFest)
정보교환과 교류를 위한 연구회 개최(BOSC)
사용자를 위한 튜토리얼 개최(BioCon)
개발자를 위한 개발 미팅 개최(BioHackathon)

☐ 문서화
바이오인포매틱스 관련 전문적인 기사 발행(Bio::Blogs)
해외 오픈 바이오 관련 문서의 번역

☐ 오픈 소스 사용자 지원
오픈 소스 소프트웨어의 특성상 오픈 소스를 사용하는 사용자는 해당 오픈 소스의 제작자나 컴뮤니티 및 메일링 리스트 등의 다양한 경로를 통해서 지원을 받을 수 있다. 하지만 이러한 지원은 언어적인 문제나 컴퓨터 프로그래밍에 대한 전문적인 지식을 필요로 하기도 한다.

따라서 대다수의 오픈 소스를 사용하는 바이오인포매틱스 연구자들이 오픈 소스의 설치(컴파일) 및 활용에는 많은 어려움이따르게 된다. 여기에는 서로 다른 플랫폼의 영향도 무시할 수 없는데, 많은 수의 오픈 소스 소프트웨어들이 X86을 기본으로 제작되기 때문에 PPC나 IA64의 하드웨어 플랫폼뿐만 아니라, Linux, UNIX, Windows 등의 서로 다른 OS 상에서 오픈 소스를 설치하고 구동하는데, 어려움이 따른다. 따라서 이러한 문제를 소프트웨어 전문가 집단과 각 플랫폼을 제작하는 하드웨어 제조사와의 협력을 통해 오픈소스의 설치 및 활용에 대한 지원을 담당한다.

☐ 대용량 데이터 분석 환경지원
야후에서는 학교나 일반 기업에서 구비하기 힘든 Hadoop기반의 클러스터 컴퓨팅 자원에 대해서 학술 연구 목적으로 지원을 한다. Hadoop는 google의 mapreduce를 구현한 것으로 그 활용분야는 참으로 많다. 일례로 machine learning 알고리즘들을 Hadoop기반으로 수행한던가 등등..

아마존은 일렉트릭 컴퓨트 클라우드(Elastic Compute Cloud:EC2)나 심플 스토리지 서비스(Simple Storage Service:S3)는 아마존의 서버와 데이터 스토리지를 시간 단위로 외부 기업에 빌려주는 유틸리티 컴퓨팅 사업을 수행하고 있다.

이와 같은 현상은 단순히 서버 자원이나 대규모 클러스터 및 슈퍼컴퓨팅 자원을 사용자에게 지원하는 것이 아니라 사용자가 필요로 하고 있는 모든 인프라까지 제공하고 있다는 것이다. 지금까지의 대규모 데이터 처리를 위해서는 까다로운 절차를 통해서 무료 또는 유료의 컴퓨팅 자원을 제공받아 사용해야만(http://www.kisti.re.kr , 슈퍼컴퓨팅센터) 한다. 그러나 이러한 컴퓨팅 환경은 범용적인 환경만을 구축하고 있기 때문에 바이오인포매틱스와 같은 특화된 분야에서 사용하기 위해서는 별도의 까다로운 설정을 사용자가 혹은 의뢰를 통해서 구축하여야 한다. 그러나 야후의 M45와 같이 일반 클러스터 컴퓨팅자원과 함께 Hadoop이라는 미들웨어까지 구축하여 이를 활용할 수 있도록 특화된 컴퓨팅 자원을 제공하고 있다. 

☐ 오픈 소스 개발자 지원
오픈 소스 개발자를 위한 소스 코드 저장소 및 버전관리 홍보 문서화 작업을 돕는 역할을 수행한다.

☐ 대학교육과의 연계
제주대학교 컴퓨터공학부의 오픈 소스 개발 방법론(http://code.google.com/open-source-class) 강의 진행 Daum과 제주대가 산학 협력의 일환으로 만든 Daum 트랙이라는 공학 인증 프로그램내 직접 강의로 진행되었다. 3-4학년에게 매 학기 두 과목씩 강의를 개설하는데, 고급 웹 프로그래밍 실습, 오픈 소스 개발 방법론, 포털 서비스 개발 실습, 인턴쉽으로 진행한다.

국내에서 최초로 개설된 ‘오픈 소스 개발 방법로’ 강의는 학생들에게 자유 소프트웨어와 공개 소프트웨어에 대한 철학과 의미를 소개하고 실제 개발 방식에서 오픈 소스 개발 문화를 체험하는 실습과 강의 프로젝트로 마련되었다. 국내에서 오픈소스를 활용하여 바이오인포매틱스 관련 소프트웨어를 개발하거나 오픈 소스 소프트웨어를 제작하는 학생들에게 오픈 소스 개발 시 관련 툴과 함께 자유 소프트웨어에 대한 철학을 소개하는 과정을 소개하여 국내 바이오인포매틱스 관련 오픈소스의 개발과 활용을 도모한다.

맺으면서...
이러한 움직임이 학계나 정부 기관 또는 어떠한 형태로든지 벌써부터 일어났어야 했는데,,,말이죠.
반응형