빅데이터분석

생명 과학 그리드 컴퓨팅 트랜드 - computing 그리드에서 knowledge 그리드까지

hongiiv 2008. 3. 19. 21:25
반응형
생명 과학 분야에서 그리드를 이용한(e-Science라고 불러도 되겠죠 ^_^) 본격적인 응용이 개발되고 있습니다. 이전까지 기반 기술에 대한 연구가 어느 정도 된 상태이기 때문에 이젠 본격적으로 이러한 그리드 기반 기술을 이용한 다양한 응용이 이루어지는 원년이라고 봐도 될것같습니다. 이제 몇년 후에는 신기술이 아니라, 우리가 인터넷으로 메일을 보내는 것처럼 자신의 분야에 맞는 그리드를 이용한 연구가 자연스러워질 거라고 확신하고 있습니다.

지금까지 제가 알아 본 생명 과학 분야의 그리드 응용은 다음과 같습니다.
  • KISTI의 e-Science 사업단(http://escience.or.kr/ , 단장 변옥환)의 응용연구팀에서 "BT/NT분야 응용연구"를 수행 중
  • 대전 한국정보통신대학교의 ITRC Grid Middleware Center (http://gmc.icu.ac.kr/html2007/main.php 센터장 윤창현)에서 "시맨틱 그리드 기반 생물정보학 응용 기술 개발" 프로젝트를 진행 중
  • 숙명여대의 컴퓨터과학과(김윤희 교수님연구실 http://dslab.sookmyung.ac.kr/)에서도 "An e-Science Environment for BT Application Components" 프로젝트를 진행 중
  • 숭실대학교의 HG2C 프로젝트는 "그리드에 기반한 신약 후보물질의 독성예측시스템(HG2C)" 프로젝트를 이미 수행
이정도 입니다. 뭐 Biopipe니 Bioworks는 단순한 workflow이기 때문에 넣지 않습니다. BMC Bioinformatics의 2006년도 Review 논문에 생명 과학에서의 그리드 트랜드라는 아주 유용한 내용이 있어서 정리하고자 합니다. 마땅히 저녁에 할 일도 없고, 뭐~ 특별히 어려운 주제도 아니기 때문에 참고 삼아 한번 읽어보시면 향후 다가올 연구 환경에 도움에 되겠죠 ^^
 
저자는 그리드 컴퓨팅을 3가지 영역으로 나누어서 각 영역에 대해서 설명하고 있는데요. 각각의 영역은 다음과 같습니다.
  • Computing 그리드
  • Data 그리드
  • Knowledge 그리드
Computing 그리드
High-throughput 컴퓨팅 관점에서의 그리드입니다. 뭐 듣자면 귀에 딱지가 앉을 정도로 들어본 내용입니다. 데이터가 크기가 커지면서 그에 따른 대용량 데이터를 처리하기 위한 컴퓨팅 능력을 얻기 위한 그리드가 되겠다.

이러한 High-throughput 컴퓨팅은 생명 과학 분야에서Numberical 처리와 Symbolic 처리로 나누어 볼 수 있는데, Numberical 처리는 단백질 folding, metabolic pathway와 같이 문제를 해결하기 위한 parameter sweep(입력값을 변화시켜가면서..)이나 stochastic 모델링과 같은 기술이 사용되는 분야이다. 이에 반해 Symbolic 처리는 상동성 검색, Genome 비교, Genome-wide 스캔 분석과 같은 시간이 많이 소요되는 분야이다.

고등과학원 이주영 교수님이 하시는 계산적 방법으로 단백질 구조를 예측하는 연구에 필요한 고속처리 컴퓨팅은 Numberical 처리가 되겠고, 대량의 Blast를 돌리는 작업은 Symbolic 처리가 되겠다. ^^

Data 그리드
우리가 사용하는 유전자 DB나 Blast와 같은 도구들은 그 접근에 있어서 변화가 심하면 안된다. 바로 자동화된 처리가 어려워지기 때문이다. 따라서 이러한 생명 과학 분야의 DB와 도구들에 접근하기 위한 표준적인 방법이 있어야 하고 이러한 표준 접근 방식을 기반으로 웹 서비스나 워크플로우 도구(Biopipe, Bioworks, Taverna 등등)를 통해서 이러한 자원에 접근하고 자동화된 처리가 가능해 진다.

Data 그리드는 바로 이분에 대한 내용으로 바이오인포매틱스 서비스를 연동하기 위한 표준과 이 표준을 기반으로 웹이나 그리드 서비스를 최종사용자가 워크플로우 도구를 통해 사용할 수 있도록 하는것이다.

여기서 또한 중요한 것이 바로 안전한 데이터 접근이 되겠다. 우리가 흔히 인터넷 뱅킹에서 사용하는 인증서와 같이 PKI기반하에서 그리드 데이터나 로컬의 데이터베이스 자원을 안전하게 사용하는 부분도 바로 Data 그리드가 담당하는 부분인 것이다.

Knowledge 그리드
바로 웹 2.0의 공유,협업을 통한 지식창출 부분이 되겠다. 더 이상 무슨 말이 필요할까???

이상 생명과학 분야의 그리드 컴퓨팅을 3부분으로 나누어 간단하게 살펴봤다. 이러한 각각의 부분으로 나누어 생각하는것도 중요하고, 각 부분부분 모두 중요하지만, 정작 중요한 것은 최종 사용자인 연구자들이 거부감 없이 이를 받아들일 수 있을 때 까지의 꾸준한 노력이 더 필요한 부분이라고 생각한다. 바로 홍보/교육 그리드가 필요한 ^^;; 근데 아직 아무것도 눈에 보이는것이 없는데,, 무슨 홍보/교육 ㅋㅋㅋ

참고로 e-Science관련 워크샵과 포럼입니다.

3월 24~25일 사단법인 분자설계연구소(연세대학교내)에서 "Virtual Laboratory based on GRID Technology workshop"
주요 프로그램
Large Scale Computing for Bioinformatics - Yutaka Akiyama, Tokyo Institute of Technology, Japan
Grid Workflow-Integrated Computing Architecture and Its Application for Advanced Healthcare Services - Chan-Hyun Yoon, Information and Communications University, Korea
OBIGrid: Operating Experiences of a Distributed Platform for Bioinformatics - Fumikazu Konishi, Tokyo Institute of Technology, Japan
HG2C Project and its IT support in e-Science Environments - Jaeyoung Choi, Soongsil University, Korea

3월 27일 KISTI의 e-Sciecne 포럼에서 주최(한국과학재단 학연산 교류동 2층 대회의실)하는 "2008 e-Science 설명회"가 있습니다.
주요 프로그램
e-Science 란 무엇인가? - 정갑주 건국대학교 교수
국내외 e-Science 동향 - 변옥환 한국과학기술정보연구원 단장
e-Science 활용사례 - 김종암 서울대학교 교수


반응형