Bioblogs 62

PubMed 검색결과를 impact factor 값으로 정렬해서 보기

어제 PubMed의 검색 결과로 나온 논문을 클릭하면 유사논문 찾기 서비스에 대해서 잠깐 언급했는데, 오늘은 PubMed의 검색결과를 impact factor 순으로 정렬해서 보여주는 것에 대해서 이야기 해보려고 한다. BioBlogRSS에 자주 등장하는 YOKOFAKUN 블로그의 Pubmed, impact factors, sorting and FriendFeed 글에서 나온 이야기이다. 여기에서 우선 jar 파일을 다운로드한 후, PubMed의 검색결과를 XML 형태로 저장한다. Display 형태를 XML로 하고 File을 선택하면 XML 형태의 pubmed_result.txt 라는 검색결과 파일을 얻을 수 있다. 그럼 준비된 jar 파일을 PubMed검색결과 파일을 입력으로 주고 실행하면 sort된..

Bioblogs 2008.06.11

Embarrassingly parallel and BLAST

Embarrassingly parallel: 완전하게 독립되어 각각의 프로세서에 나누어 실행될 수 있는 병렬화의 하나~ 각 sub task와의 커뮤니케이션이 필요없는,,, 아래 그림에서 coarse-grained parallelism이 여기에 속할 수 있겠다. Grid Computing의 응용의 하나인 SETI@home이나 MapReduce도 Embarrassingly parallel쪽의 병렬화라고 볼 수 있겠다. ^^ Coarse-Grain, Fine-Grain Parallel embarrassingly parallel: disconnected computational embarrassingly parallel: master-slave approach 요 몇일 Hadoop 예제를 돌려보면서, 이 예제들..

Bioblogs 2008.06.05

인간 광우병과 한국인

요즘 쇠고기 수입과 맞물려 인간 광우병으로 불리는 변종 크로이츠펠트 야콥병(vCJD)이 한국인에게서 아주 취약하다는 말이 나오고, 한간에서는 쇠고기가 수입되면 미국인과는 달리 한국인은 모두 인간 광우병에 걸려 죽을거라고 걱정을 하고 있다. 뭐 많은 이야기야 BRIC에서도 한창 논의가 뜨겁게 이루어지고 있다. 유전적 변이(Genetic Variation) 여기서 말하고자 하는 것은 한국인이 다른 인종과 다르다는 것이다. 사람과 사람, 인종과 인종간의 차이는 분명 존재하고 그 차이로 인해 너/나, 한국인/영국인이라 불릴 수 있는 것이다. 사이언스가 선정한 유전적 변이 연구 2007년 마지막달 나온 사이언스지를 보면 "올해의 짱(breakthrough of the year)"에 인간의 유전적 변이(Human ..

Bioblogs 2008.05.07

Machine learning in bioinformatics

분산 파일 시스템 &분산 컴퓨팅: Google Map Reduce, Apache HadoopMap Reduce for Machine Learnning: Map-Reduce for Machine Learning on MulticoreHadoop for Machine Learning:Apache Mahout 구글의 Map Reduce는 분산 파일과 분산 컴퓨팅을 위한 프로그래밍 모델로서 이를 오픈소스로 구현한 것이 Apache Hadoop이다. 원래 구글이 검색에 사용하기 위한 것으로 수많이 웹 페이지를 분류하고 인덱싱하기 위한 프로그래밍 모델이다. Hadoop 역시 Nutch라는 Lucene 공개 검색엔진의 Indexer와 Search로 구성된 자바로 구현한 오픈소스 검색엔진의 분산 파일 시스템으로 Map..

Bioblogs 2008.05.06

PlatformDay 컨퍼런스

구글이 어떻게 수많은 데이터를 저장하고 처리하는지, 과연 이것을 어떻게 생물학의 데이터 처리에 활용할지에 대한 힌트를 얻고자 한다면 여기 PlatformDay 컨퍼런스에서 찾을실 수 있을겁니다. 솔직히 말씀드리면 당장은 자신이 하고 있는 연구에 적용해서 능수능란하게 사용하실 여건은 되지 않을것이지만, 충분한 아이디어는 얻을 수 있을것입니다. PlatformDay (출처 : NEXR 블로그) 다양하고 방대한 생물학 데이터를 여러가지 기계학습(machine learning) 기법을 통해 어떻게 처리해야 하는지에 대해 집단지성 프로그래밍 책을 통해 학습하고, 대량의 데이터의 기계학습을 위한 대용량저장/처리 방법을 PlatformDay에서 아이디어를 얻는다면 참 좋을것 같습니다.(말이 참 매끄럽지 않네,,,^^..

Bioblogs 2008.04.28

당신의 실험 데이터가 논병아리에

당신의 소중한 데이터와 결과를 논병아리에 보관하시겠습니까?? 논병아리 어미와 새끼 (자료 출처 : http://www.flickr.com/photos/narkosearzt/253071046/) Bio::Blogs #8 의 Reviews and tips에도 소개되었던 Bioinformatics Zen의 organized as a dry lab scientist의 내용은 요즘 회자되고 있는 Electronic Lab Note나 단순히 야동을 긁어 모으는 사람이나 모두에게 한번 생각해 볼 문제이다. 누구나 다 자신만의 방법으로 폴더나 파일을 만들고 데이터를 저장하는데 있어 어떠한 것이 최선이고 모범답안이라고 할 수는 없겠지만, 이러한 것들이 유용함에도 불구하고 논병아리에 아무 의미있는 Noname1, Nona..

Bioblogs 2008.04.15

Drug Discovery and Development 컨퍼런스에 초대합니다.

아침마다 하는 일이지만,,, 바쁘면 살짝 빼먹기도 하지만,, BioBlogRSS에 최신글들의 제목을 보다가 Life Science Virtual Conference and Expo 라는 제목의 글을 보고 바로 클릭 요즘 V로 시작하는 단어(Virtual, Visual)만 보면 나도 모르게 마우스가 스르륵,,, IBM의 Deep Computing에서 주최하는 컨퍼런스(Life Sciences Virtual Conference and Expo)인데 재미있는 것이 Location: Virtual 입니다. 단순한 웹 세미나가 아니라는군요 전시 부스도 있고 ㅋㅋㅋ Agenda를 보니 꽤 재미있는 세션이 많이 있네요^^ 바로 등록 신청했습니다. IBM의 Deep Computing(슈퍼컴 파는곳??)에서 주최하는 것..

Bioblogs 2008.04.15

블로그를 위한 초절정 아이템 BioBlogRSS 위젯 베타 버전을 배포합니다.

생긴것은 위의 그림처럼 바뀌었습니다. 최근글의 경우에는 RSS를 읽어와서 간단하게 표시해 줄 수 있기 때문에 인기글에 대한 정보를 제공해 주고 있습니다. 그럼 인기글의 선정은 어떠한 방식으로 되는 걸까요? 인기글은 우선 로그인하지 않은 상태에서도 추천, 반대 기능을 사용이 가능합니다. 따라서 아무나 들어와서 '좋아' 버튼을 그냥 아무 부담없이 꾹 눌러 주시면 됩니다. 그리고 인기글 선정은 다음과 같은 아주 복잡한 과정을 거쳐서 선정됩니다. 추천한 사람이 많고 작성된지 48시간 이내인 글에 대해서 인기글이 선정되며, 7일 지난 글에 대해서는 호감도를 계산하지 않습니다. 아주 복잡하죠 ^^;; 그럼 자신의 블로그나 웹페이지 어떻게 삽입하냐? 코드 생성 위자드 같은걸 만들 수도 있지만, 아직은 베타 버전이기 ..

Bioblogs 2008.04.11

바이오인포매틱스와 슈퍼 컴퓨팅 - 마음을 다스리는 글

바이오인포매틱스 분야에서도 많은 부분에서 컴퓨팅 파워를 필요로 하지만, 그 중에서도 대표적인 부분은 genome comparison과 alignment 일것이다. 이러한 대용량 컴퓨팅 파워에서 그래픽 카드의 비약적인 발전으로 GPU의 그래픽 이외의 계산에 응용되기 시작했다. 그런데 여기서 한가지 짚고 넘어가야 할 것이 있다. 슈퍼컴퓨팅 분야에서 클러스터를 이용한 방법은 비교적 값싼 하드웨어를 통해서 높은 성능을 얻을 수 있다는 장점으로 많이 사용되고 있다. 그러나 각 컴퓨터에 분산된 메모리에 접근해서 사용하기 위해서는 MPI와 같은 라이브러리를 이용해서 병렬 프로그래밍을 해야만 한다. 그래야 분산된 메모리를 마치 하나의 메모리처럼 사용하여 프로그래밍을 할 수 있다. 마찬가지로 GPU의 성능이 아무리 뛰어..

Bioblogs 2008.03.27

생물정보학에서의 서열 유사성 검색 - GPU와 Suffix Tree를 이용한 병렬처리

생물정보학에서의 서열 유사성 검색의 중요성은 굳이 설명하지 않아도 다들 이해하시리라 믿는다. 여기서는 String Match라는 관점에서 서열 데이터(text)로 부터 주어진 서열 찾는 Suffix Tree 알고리즘과 이 알고리즘을 GPU를 통해서 구현하는 방법에 대해서 알아보고자 한다. GPU(Graphics Processing Unit)는 무엇인가? 간단하게 말하면 컴퓨터에 있는 그래픽 카드의 CPU라고 생각하면 될것이다. 요즘 게임들은 3D와 실사와 정말 유사한 화면을 제공하는데, 이러한 것들을 CPU가 아닌 그래픽 카드의 GPU에서 처리하게 함으로써 좀 더 빠르게 게임을 할 수 있는 환경을 제공하는 것이다. 그런데 이 GPU의 아키텍처의 특성상 이것만 하기에는 너무 아깝기 때문에 범용적인 수치연산..

Bioblogs 2008.03.26