전체 글 749

How to make multi-thread support galaxy cluster using grid engine and DRMAA

1개의 마스터 노드와 2개의 worker 노드로 구성된 클러스터를 qhost 명령을 통해 현재 노드들의 상태를 확인 할 수 있습니다. 각 노드당 CPU의 갯수(NCPU)는 4개이며 노드당 메모리는 7.8G(MEMTOT)임을 확인 할 수 있습니다. root@biomaster:/BIO# qhost HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ------------------------------------------------------------------------------- global - - - - - - - bioworker1 linux-x64 4 0.01 7.8G 174.4M 929.0M 8.1M bioworker2 linux-x64 4 0.01 ..

내맘대로 비교/소개하기 - Bioinformatics Big Data

제맘대로 업체선정에서 비교까지 지극히 객관적인 사실이 아닌 주관적으로 비교해 보려고 합니다. 오늘은 그 첫번째 시간으로 Big Data의 관점에서 Bio데이터에 접근하고 그 솔루션을 제공하는 업체 2개를 선택하여 비교하도록 하겠습니다. 우선 선정된 업체 박수로 맞이 하도록 하겠습니다. 두 업체는 국내/국외 업체로 InfiniBio(인피니바이오, 인피니밴드 아닙니다.)와 BioDatomics(바이오데이토믹스)입니다. 둘다 생소한 업체인데요. 아마 다른분들도 다 생소하실거라 생각됩니다. BioDatomics - The Next Generation in Bioinformatics Tools B사는 BioDT라는 툴을 통해 사용자가 NGS 데이터를 핸들링 하도록 하고 있습니다. BioDT는 라이센스 및 사용방법..

Visual Pipeline (workflow) Editor - Bioinformatics UX

NGS 데이터를 비롯한 대용량의 생물학 데이터가 나타나면서 이를 분석하기 위한 위한 소프트웨어 역시 점차 그 수가 다양해지고 또한 상용화되어 가고 있다. 데이터 분석에 아마 가장 귀찮으면서도 힘든 부분이 바로 분석에 필요한 소프트웨어를 설치/설정하고 소프트웨어들의 입력과 출력을 엮어 일련의 작업을 수행하는 것이다. 이러한 일련의 소프트웨어들을 visual하게 편집할 수 있는 다양한 도구들이 나타나고 있는데 대표적인것들을 UX적으로 살펴보도록 하자. Spiral Genetics Spiral은 pipeline을 생성하는데에 있어서 각각의 소프트웨어들을 Setp이라고 부르며 이러한 step에는 Alignment, Sort, Variant Call 등의 일반적인 NGS 데이터를 위한 10개의 step들이 존재한..

blogging 2013.11.27

FASTQ 파일 sample, library, lane/slide, barcode

FASTQ 파일을 받았다면 다음과 같은 기본 정보는 필수적으로 확보하시기 바랍니다. 흔히 NGS 시퀀싱은 기본적으로 1개의 sample로 부터 1개의 DNA library가 만들어지고 시퀀싱 장비의 1개의 lane/slide에 넣어져 시퀀싱이 됩니다. 한개의 sample은(@RG:SM) DNA library prepare 단계를 거쳐 시퀀싱 장비에 삽입?되게 되는데요. 하나의 샘플은 1개 이상의 library로 제작될 수 있습니다. 이렇게 되면 동일 샘플이지만 라이브러리 제작이 서로 다르게 되어 이를 구분해 주어야합니다. 이는 추후 분석시 alignment된 BAM 파일에 @RG:LB로 구분되어 사용됩니다. 자 이렇게 만들어진 library는 실제 시퀀싱 장비에 넣어지는데요. 이때 동일한 장비에 서로 다..

내맘대로 비교/소개하기 - NGS Annotation Report

NGS 데이터가 variant를 calling 한 그 후 이제 자신의 연구에 대한 해답을 찾기 위해 좀 더 다양한 annotation과 filtering 그리고 이것들을 한눈에 보고 insight를 얻을 수 있게 해주는 시각화와 잘 정리된 리포트를 제공하는 치열한 싸움이 시작되었다. 그 치열한 싸움에 얼마전 BGI에 인수된 Complete Genomics사의 'Genome Voyager' 서비스와 LT의 'Ion Reporter'가 있다. 그렇다 이 두 서비스의 공통점이 있는데, 모두 시퀀서를 만드는 회사의 서비스라는 점이다. 두 서비스를 비교하면서 다음의 질문에 대한 대답을 얻을 수 있기를 바라지만, 서비스를 사용해 보지 않았기 때문에 수박 겉핥기 식일 수 밖에 없음을 미리 알아두었으면 한다. 누가 더..

일루미나의 NGS를 위한 앱 개발 지원

일루미나는 BaseSpace라는 클라우드 기반의 분석 시스템이 있습니다. BaseSpace에서 사용자들은 자신의 원하는 앱을 만들어서 추가하여 기능을 확장할 수 있도록 지원하는 BaseSpace Developer (Illumina native app engine program)를 이번에 오픈했습니다. 일루미나는 2년전 BaseSpace를 통해 MiSeq 사용자들에게 무료 데이터 관리, 아카이빙, 분석, 공유, 저장할 수 있도록 제공했는데요. 개발자들은 무료 또는 유료의 BaseSpace와 연동되는 앱을 개발 등록하여 사용할 수 있게 된것입니다. BaseSpace Developer 홈페이지

Qiagen의 CLC Bio 인수와 일루미나의 NextBio 인수

Qiagen & CLC Bio 덴마크 오루후스의 bioinformatics 소프트웨어 업체인 CLC Bio를 Qiagen이 인수 했습니다. AllSeq’s 블로그에서 처음 알려졌으며, CLC Bio 관계자와 Qiagen측은 공식적인 답변을 거부했습니다. CLC Bio는 Sanger sequencing에서부터 next-generation sequencing에 이르는 분석 소프트웨어를 개발하고 판매하고 있습니다. 지난 4월 IBM과 함께 각각의 제품을 결합한 next-generation sequencing 데이터 분석 솔루션을 제공할 것이라고 하기도 했습니다. CLC는 12년도 30%의 소프트웨어 판매 증가를 보였으나 비상장사로 자세한 내용은 제공하지 않았습니다. 이번이 올해들어 두번째 Bioinfomati..