본문 바로가기

Cluster9

대량의 R 코드를 클러스터에 분산하기 수백개의 R 코드를 돌려야 할 일이 있다면, 한대의 컴퓨터에서는 100일이 걸릴일이라면 100대의 컴퓨터라면 100일 + 알파,, 요 알파는 각 컴퓨터에 로그인하고 R 코드를 옮기고, 명령어를 통해서 실행하고, 그결과를 취합하고,,, 여간 알파에 드는 시간이 많이 드는것이 아니다. 그래서 클러스터와 job 매니지먼트가 있다. 여기서는 리눅스 기반의 클러스터에 효율적으로 R 코드를 수백대의 컴퓨터에 실행하고 그 결과를 손쉽게 얻는 방법을 소개한다. 기본적으로 R의 경우에는 Interaction 프로그램으로 사용자와의 대화 형식으로 코드를 작성하게 된다. 명령->응답->명령->응답,,,의 형식 따라서 R 코드를 Bash에서 사용하기 위해서는 --quite, --no-save의 옵션을 통해서 처음 나오는 R에.. 2008. 11. 6.
Rocks Cluster 설치 RedHat 7.X 버전으로 셋팅 되어있던 구형 리눅스 클러스터에게 오늘 CentOS 5 기반의 Rocks Cluster로 새로운 옷을 입혀줬다. 성능은 별로지만 버리지도 못하고 낑낑대고 써야만 하니. ㅜㅜ ganglia로 모니터링도 하고 ^^ torqueue로 job도 넣어보고,,, 밤샜다... 이런 2008. 10. 2.
리눅스 클러스터로는 무슨 일을 하시는가요?? 앞선 Bio::Blog #19에 대한 비누인형님의 글에서와 같이 "(중략) 이러한 Emergent 한 특징은 그 자체로는 우아하기 그지없지만, Engineering 이라는 목적에 있어서는 어마어마한 장애물로 나타나게 된다. 분명 각 부속품들의 동작은 이해하고 있지만, 그것들을 모아두었을 때 어떻게 움직이게 될 것인지는 알 방법이 묘연하기 때문이다.(중략) 이러한 어마어마한 장애물을 풀어헤치는데 있어서 중요한 것이 바로 simple, abstraction...( 2008. 3. 10.
대용량 컴퓨팅 환경과 Genome Browser 바로 이전 글에서 대용량 컴퓨팅 즉 클러스터 컴퓨팅환경을 Yaohoo와 Google에서 연구자들에게 제공한다고 했었다. 대용량 컴퓨팅환경, 좀 더 세분화한다면 여러대의 컴퓨터를 묶어서 사용하는 클러스터 환경과 Bioinformatics 연구를 한번 짚고 넘어가 보려고 한다. 클러스터 컴퓨팅환경을 사용하는 가장 일반적인 예는 바로 처리하고자 하는 일을 나누어서 하는 것이 가장 손쉬운 클러스터 컴퓨터를 이용하는 방법이다. 24개의 chromosome에 대응하는 어떠한 데이터가 있다고 가정할 때 한 대의 컴퓨터로 24개의 chromosome 데이터를 처리할때에 24시간의 시간이 걸린다고 한다면 24대의 컴퓨터에 이러한 작업(job)을 분배한다면 1시간에 끝마칠 수 있다. 바로 linear하게 속도를 향상 시킬.. 2008. 2. 26.