바이오인포매틱스 8

바이오인포매틱스와 슈퍼 컴퓨팅 - 마음을 다스리는 글

바이오인포매틱스 분야에서도 많은 부분에서 컴퓨팅 파워를 필요로 하지만, 그 중에서도 대표적인 부분은 genome comparison과 alignment 일것이다. 이러한 대용량 컴퓨팅 파워에서 그래픽 카드의 비약적인 발전으로 GPU의 그래픽 이외의 계산에 응용되기 시작했다. 그런데 여기서 한가지 짚고 넘어가야 할 것이 있다. 슈퍼컴퓨팅 분야에서 클러스터를 이용한 방법은 비교적 값싼 하드웨어를 통해서 높은 성능을 얻을 수 있다는 장점으로 많이 사용되고 있다. 그러나 각 컴퓨터에 분산된 메모리에 접근해서 사용하기 위해서는 MPI와 같은 라이브러리를 이용해서 병렬 프로그래밍을 해야만 한다. 그래야 분산된 메모리를 마치 하나의 메모리처럼 사용하여 프로그래밍을 할 수 있다. 마찬가지로 GPU의 성능이 아무리 뛰어..

Bioblogs 2008.03.27

대용량 컴퓨팅 환경과 Genome Browser

바로 이전 글에서 대용량 컴퓨팅 즉 클러스터 컴퓨팅환경을 Yaohoo와 Google에서 연구자들에게 제공한다고 했었다. 대용량 컴퓨팅환경, 좀 더 세분화한다면 여러대의 컴퓨터를 묶어서 사용하는 클러스터 환경과 Bioinformatics 연구를 한번 짚고 넘어가 보려고 한다. 클러스터 컴퓨팅환경을 사용하는 가장 일반적인 예는 바로 처리하고자 하는 일을 나누어서 하는 것이 가장 손쉬운 클러스터 컴퓨터를 이용하는 방법이다. 24개의 chromosome에 대응하는 어떠한 데이터가 있다고 가정할 때 한 대의 컴퓨터로 24개의 chromosome 데이터를 처리할때에 24시간의 시간이 걸린다고 한다면 24대의 컴퓨터에 이러한 작업(job)을 분배한다면 1시간에 끝마칠 수 있다. 바로 linear하게 속도를 향상 시킬..

Bioblogs 2008.02.26

Bioinformatics 연구자를 위한 컴퓨팅 환경 제공

이전에 국내 바이오인포매틱스 관련 오픈소스 현황이라는 주제의 글에서 대용량 데이터 분석 환경 지원 부분에서 연구를 위해서 단순하게 슈퍼컴퓨터나 cluster 컴퓨터의 기본적인 환경만을 제공하는 것이 아니라 이러한 환경에 + 유틸리티를 덧붙여 제공해야 한다고 언급했었습니다. 그 일례로 Yahoo에서는 학교나 일반 기업에서 구비하기 힘든 Hadoop기반의 클러스터 컴퓨팅 자원에 대해서 학술 연구 목적으로 지원을 하고 있다고 했었죠. 슈퍼컴퓨팅 자원 + 이를 좀더 유연하게 활용할 수 있는 utility(야후에서는 Hadoop) Google의 official 블로그에서도 Supporting cluster computing in the research community이라는 글이 올라왔습니다. 역시나 Google..

Bioblogs 2008.02.26

Genome Browser의 그래픽 요소 정리

Genome Browser를 만들면서 기술적으로 가능한지에 대한 타당성에 대해서 검토를 대충 마쳤다. 따라서 이제는 세부 사항들에 대해서 정의를 하려고 한다. ^^ 그럼 제일 중요한 Brower의 요소인 그래픽 요소들에 대해서 하나씩 정리를 하고 이를 구현해보려고 한다. Genome Brower의 그래픽 요소 Brower에서 사용자가 정보를 얻는 제일 첫번째는 Genome 정보를 그래픽으로 표현한 그래픽 요소들로 부터 1차적으로 정보를 얻는다. Genome Browser의 목적 중 하나가 바로 Genome 정보를 사용자가 그래픽 요소들을 툥해 한눈에 쉽게 알아볼 수 있도록 하는 것이기 때문에 이러한 그래픽 요소의 정의가 충분이 이루어져야 사용자가 원하는, 사용자가 맘에 드는 Browser를 만드는 첫 단..

Bioblogs 2008.02.18

Bioinformatics 분야에 e-Science 꽃이 활짝 피었습니다.

영국의 대표적인 workflow인 Taverna와 KOBIC의 BioPipe 그리고 하나더 국내에서 발표되었습니다. 바로 Bioworks가 KISTI에서 태어났습니다. 요즘은 아무리 서비스를 내놓기 전에 Beta가 유행이지만, 역시 Bioworks도 베타버전입니다. 지금 등록된 서비스는 Alignment, DNA Analysis, Protein Analysis, Utils의 크게 4개 분야로 되어있습니다. 기존에 KISTI의 CCBB에서 제공하던 서비스들인 것 같습니다. CCBB에서 제공하던 서비스들은 제대로 잘 안돌아 가던데 Bioworks에서는 잘 돌아갈런지 ^^;; KISTI의 막강한 슈퍼컴퓨팅 파워와 네트워크 파워가 잘 어우러진다면 이것도 꽤 쓸만하겠는데요,,, Java로 만들어진 어플리케이션이고..

Bioblogs 2007.11.06

실험을 공유하자 두번째 이야기 - myexperiment

저번 포스팅에서더 잠깐 언급했지만 드디어 myexperiment가 클로즈 베타 테스트를 실시하고 있습니다. 메일을 보냈더니 2~3일 후에 접근 권한을 주는 메일이 와서 어제 한번 쭉 둘러보았다. myexperiment는 작게 보면 Taverna라는 워크플로우 디자인 도구의 결과물(일련의 실험 과정)을 서로 공유하는 web2.0스러운 bio science 관련 웹페이지라고 보면 될것이다. Taverna는 가장 대중적인 웹 서비스 워크플로우 디자인 도구로서 EPSRC(Engineering and Physical Sciences Research Council)의 펀드의 myGrid 프로젝트의 일부로서 GNU Lesser General Public License(LGPL) 하에서 자유롭게 사용이 가능하다. 또한..

Bioblogs 2007.07.26

Bioinformatics or Computational Biology와 Web 2.0

인간의 약 30억개(base)가 되는 염기서열을 해석한다는 것은 , 30억 베이스 중에서 어느 특정부분이 어떻게 단백질로 되어서, 세포내외에서 특정 역할을 어떻게 수행하는지를 밝히는 것이다. 이러한 해석 과정을 연구하기 위한 수많은 연구 분야가 있다. 간단하게 이러한 연구를 수많은 연구를 분야를 통틀어 Bioinformatics라고 한다면, 주로 바이오 데이터를 이용한 분석보다는 이러한 분석에 대한 연구를 진행하는데에 있어 기초적인 자료를 제공하는 바이오데이터 즉, 염기서열 정보, 유전자 해석정보등을 제공하는 바이오 데이터베이스와 Web 2.0과의 결합(?), 접목(?)에 대해서 논하고자 한다. 위에서 언급한 바이오데이터는 Genome Browser 형태로 제공되는데 바이오 데이터에 대한 정보는 상당히 ..

java-programming 2007.05.10