본문 바로가기

전체 글748

comparison of variant detection methods Clinical Sequencing을 위한 준비 - 표준 variants 미국 NIST (National Institute of Strandards and Technology)의 Div. Biosystems and Biomaterials 에서는 추후 임상으로서의 NGS 데이터 적용을 대비하기 위한 작업을 하고 있다. 이와 유사하게 국내에는 한국표준과학연구원 국가참조표준센터 (NCSRD)이 생명과학 관련 참조 표준 제정하고 있는데요. 아직 NGS 데이터와 관련한 표준은 없는 상태이다. (하단의 생명과학 관련 참조 표준 목록 참고) NIST는 NA12878에 대해서 자세한, 표준의 variants call set을 만들어 calling 알고리즘의 벤치마크나 기타 여러 분야에 활용할 수 있도록 하고 있다. 이.. 2014. 3. 10.
NGS 데이터 분석을 위한 미들웨어 시스템 설계 무슨 논문제목 같기는 하네. 간단히 말해서 NGS Big Data 분석을 위해서 컴퓨터 hardware (Cluster, Cloud)와 software(BWA, GATK 등) 사이에서 이들을 효율적으로 연결시켜주는 것이 필요하다는 것이다. 지금까지 써왔던 Resource Managent를 위한 Job Scheduler인 OpenPBS, SGE, OGE (SLURM, Torqueue는 써보지 못했음) 를 사용하는데에 실제 데이터 분석을 하는데에 있어 컴퓨터 자원을 효율적으로 사용하지 못한다는 단점이 존재한다. 일반적으로 컴퓨터의 레벨 (levels of computing)은 Core, Machine, Cluster로 나뉘어진다. 하나의 Machine은 메모리를 공유하는 여러 Core가 존재하며 각 Mach.. 2014. 2. 21.
진정한 경진대회의 의미를 살린다면... 이제 설이다. 새해 복많이 받으세요!!! 몇년전 KOBIC에서 진행한 경진대회가 있었는데,,, 이번에 또 경진대회가 하나 나왔습니다. 아니 나온지 좀 됐습니다. 잠깐 경진대회 이야기나 하고 설맞으로 가려고한다. KOBIC의 생명정보 분석 경진대회 지난 12월 31일까지 접수가 마감이었는데, 1월 15일까지 기간이 연장되었다. 경진대회의 목적은 "NGS 기반 유전체 연구의 활성화 및 발전을 도모하고자 생명정보 데이터 분석 및 알고리즘 개발 경진대회를 진행한다는 것이다" 그리고 그 결과는 논문은로 3월말까지 제출되어야 한다고 한다. 경진대회 홈페이지 https://www.kobic.re.kr/newkobic_competition/ 자 1월15일까지 연구계획서를 제출하고 그걸 3월까지 논문으로 만들어서 제출해.. 2014. 1. 29.
클라우드는 지금 스토리지 가격 전쟁중 요즘 클라우드 업체간의 경쟁으로 인한 가격하락이 주요 기사로 등장하고 있다. 오늘은 클라우드 서비스 중 스토리지 서비스에 대해서 이야기 해보려고 한다. 왜냐면 우리가 g-Storage라는 서비스를 내놓은 시점에서 이런 일련의 일들이 일어나서 좀 정리 좀 하고 넘어갸려고 한다. 아마존 AWS 2월 1일 부터 S3(스토리지)가 가격 하락을 단행한다. 동부 버지니아 지역을 기준으로 기본 스토리지(Standard Storage)의 가격을 $0.085/ GB 약 92원, 중복을 줄인(클라우드 스토리지의 경우 일반적으로 똑같은 파일?(정확히 파일은 아니지만, 암튼)에 대해서 3개의 복사본을 유지하는데 이를 줄여서 2개 정도의 복사본을 유지) Reduced Redundancy Storage가 $0.068 / GB 약.. 2014. 1. 27.
대규모 과학계산(유전체 연구)에 있어서 클라우드 사용하기 제목은 "과학계산"이라고 했으나 여기서는 "유전체 관련"이라고 한정지어 이야기를 하겠다. 왜냐고 그건 내 마음이니까. 요즘 국내에서도 많은 사람들이 자신의 연구에 클라우드를 사용하기 시작했다. 클라우드를 사용하기를 원하는 사람들 중 다음의 상황이 가장 많다. 빠른 시간내에 분석 결과를 내고 싶다. 대부분의 사람들은 샘플을 수집하고 이를 시퀀서와 같은 장비를 통해 데이터를 생산해 낸다. 즉, 분석할 데이터셋트가 만들어진다. 여기서 문제가 발생한다. 각종 연구에 있어서 논문으로의 출판까지 비교적 여유롭지 못하다는 것이다. 여기에는 많은 이유가 있을 수 있다. 가령 주어진 과제비에 대한 산출물(즉, 논문)을 내야하는 시기가 정해져 있다는 것이다. 어쩔 수 없는 이유들로 인해 데이터 생산까지의 시간을 일정내에 .. 2014. 1. 25.
GenomeCloud는 이벤트 중 GenomeCloud가 기존의 서비스외에 2개의 추가적인 상품을 내놓으면서 이벤트를 하고 있습니다. 유전체 데이터를 위한 클라우드 스토리지인 g-Storage입니다. 유전체 데이터에 특화된 클라우드 스토리지인데요. 일반적인 클라우드 스토리지가 사진, 동영상, 엑셀, 워드 문서 등을 프리뷰하고 관리하게 해주는 것처럼 유전체 데이터를 프리뷰하거나 유전체 데이터의 속성을 활용하기 쉽도록 만들어져 있습니다. 예를 들어 BAM 파일의 경우 preview 하는 경우 SAM 포맷으로 보여주고요. 당근 IGV를 통해서 바로 다운로드 없이 볼 수 있습니다. 그 외에도 FastQC 결과물을 업로드하는 경우(보통 zip으로 묶여있죠)에도 프리뷰를 통해 바로 확인 가능합니다. 또한 각 파일은 샘플명이라던가 시퀀싱 타입 등의 .. 2014. 1. 24.
유전체 분석 툴 라이센스 - GATK 얼마전 미국의 에어리오의 클라우드 재전송이 화두가 되었다. 에어리오의 서비스는 가입을 하면 가입자들의 안테나를 자사의 데이터센터에 설치하여 방송을 수신하고(가입자들에게 안테나 하나씩 지정) 수신받은 방송을 가입자의 기기에 전송한다. 에어리오가 공중파를 수신하고 이를 사용자에게 배분하는게 아니라 각각의 가입자들에게 안테나를 지급하고 수신한 것을 다시 가입자에게 전송한다는 개념이다. 이러한 서비스 방식이 공중파 업체들에게 재전송료를 지불하지 않고 이루어지는 것이다. (에어리오 관련 기사) 당연히 공중파 업체는 에어리오가 말이 안되는거고, 에어리오 입장에서는 가입자가 자신의 안테나로 수신한것을 전달만 하는 입장에서 일정의 요금을 받는것이기에 문제가 없다는 것이다. 핵심은 이러한 방식이 지상파의 재전송이냐? 아.. 2014. 1. 16.
Galaxy RNA-Seq Analysis: Tuxedo Protocol Tuxedo Protocol을 Galaxy를 이용하여 구현하여 RNA-Seq 데이터를 분석하는 방법에 관한 내용입니다. 분석 결과를 IGV와 Galaxy의 visualization을 이용하여 시각화하는 방법과 CummeRbund를 이용하는 방법에 관한 내용입니다. Galaxy를 이용하는 방법은 Galaxy Main 페이지를 통해 무료로 사용 가능합니다만, 계정당 250 GB의 제한과 최대 동시 수행할 수 있는 job의 갯수가 8개로 제한되어 있습니다. 또한 사용자가 많아지면 job 대기 시간도 길어지며 업로드에도 많은 시간이 걸린다는 단점이 있어 실제 대용량의 데이터를 분석하는데에는 어려움이 있는것이 사실입니다. 그 대안으로는 로컬 클러스터에 직접 설치하거나 Amazon의 컴퓨팅을 이용하는 방법이 있습니.. 2013. 12. 29.
How to make multi-thread support galaxy cluster using grid engine and DRMAA 1개의 마스터 노드와 2개의 worker 노드로 구성된 클러스터를 qhost 명령을 통해 현재 노드들의 상태를 확인 할 수 있습니다. 각 노드당 CPU의 갯수(NCPU)는 4개이며 노드당 메모리는 7.8G(MEMTOT)임을 확인 할 수 있습니다. root@biomaster:/BIO# qhost HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ------------------------------------------------------------------------------- global - - - - - - - bioworker1 linux-x64 4 0.01 7.8G 174.4M 929.0M 8.1M bioworker2 linux-x64 4 0.01 .. 2013. 12. 9.
내맘대로 비교/소개하기 - Bioinformatics Big Data 제맘대로 업체선정에서 비교까지 지극히 객관적인 사실이 아닌 주관적으로 비교해 보려고 합니다. 오늘은 그 첫번째 시간으로 Big Data의 관점에서 Bio데이터에 접근하고 그 솔루션을 제공하는 업체 2개를 선택하여 비교하도록 하겠습니다. 우선 선정된 업체 박수로 맞이 하도록 하겠습니다. 두 업체는 국내/국외 업체로 InfiniBio(인피니바이오, 인피니밴드 아닙니다.)와 BioDatomics(바이오데이토믹스)입니다. 둘다 생소한 업체인데요. 아마 다른분들도 다 생소하실거라 생각됩니다. BioDatomics - The Next Generation in Bioinformatics Tools B사는 BioDT라는 툴을 통해 사용자가 NGS 데이터를 핸들링 하도록 하고 있습니다. BioDT는 라이센스 및 사용방법.. 2013. 12. 3.
Visual Pipeline (workflow) Editor - Bioinformatics UX NGS 데이터를 비롯한 대용량의 생물학 데이터가 나타나면서 이를 분석하기 위한 위한 소프트웨어 역시 점차 그 수가 다양해지고 또한 상용화되어 가고 있다. 데이터 분석에 아마 가장 귀찮으면서도 힘든 부분이 바로 분석에 필요한 소프트웨어를 설치/설정하고 소프트웨어들의 입력과 출력을 엮어 일련의 작업을 수행하는 것이다. 이러한 일련의 소프트웨어들을 visual하게 편집할 수 있는 다양한 도구들이 나타나고 있는데 대표적인것들을 UX적으로 살펴보도록 하자. Spiral Genetics Spiral은 pipeline을 생성하는데에 있어서 각각의 소프트웨어들을 Setp이라고 부르며 이러한 step에는 Alignment, Sort, Variant Call 등의 일반적인 NGS 데이터를 위한 10개의 step들이 존재한.. 2013. 11. 27.
FASTQ 파일 sample, library, lane/slide, barcode FASTQ 파일을 받았다면 다음과 같은 기본 정보는 필수적으로 확보하시기 바랍니다. 흔히 NGS 시퀀싱은 기본적으로 1개의 sample로 부터 1개의 DNA library가 만들어지고 시퀀싱 장비의 1개의 lane/slide에 넣어져 시퀀싱이 됩니다. 한개의 sample은(@RG:SM) DNA library prepare 단계를 거쳐 시퀀싱 장비에 삽입?되게 되는데요. 하나의 샘플은 1개 이상의 library로 제작될 수 있습니다. 이렇게 되면 동일 샘플이지만 라이브러리 제작이 서로 다르게 되어 이를 구분해 주어야합니다. 이는 추후 분석시 alignment된 BAM 파일에 @RG:LB로 구분되어 사용됩니다. 자 이렇게 만들어진 library는 실제 시퀀싱 장비에 넣어지는데요. 이때 동일한 장비에 서로 다.. 2013. 11. 5.
23andMe Web Site for prospective parents https://www.23andme.com/prospective-parents/ African Ancestry Project https://www.23andme.com/cohort/africanancestry/ Roots into the Future https://www.23andme.com/roots/ Exome https://www.23andme.com/exome/ Senior Games https://www.23andme.com/senior_games/ Parkinson's Disease https://www.23andme.com/pd/ Sarcoma Community https://www.23andme.com/sarcoma/ 2013. 11. 5.
내맘대로 비교/소개하기 - NGS Annotation Report NGS 데이터가 variant를 calling 한 그 후 이제 자신의 연구에 대한 해답을 찾기 위해 좀 더 다양한 annotation과 filtering 그리고 이것들을 한눈에 보고 insight를 얻을 수 있게 해주는 시각화와 잘 정리된 리포트를 제공하는 치열한 싸움이 시작되었다. 그 치열한 싸움에 얼마전 BGI에 인수된 Complete Genomics사의 'Genome Voyager' 서비스와 LT의 'Ion Reporter'가 있다. 그렇다 이 두 서비스의 공통점이 있는데, 모두 시퀀서를 만드는 회사의 서비스라는 점이다. 두 서비스를 비교하면서 다음의 질문에 대한 대답을 얻을 수 있기를 바라지만, 서비스를 사용해 보지 않았기 때문에 수박 겉핥기 식일 수 밖에 없음을 미리 알아두었으면 한다. 누가 더.. 2013. 11. 1.
통계 자료로 보는 유전자 정보 다음은 23andMe 서비스에 대한 간략한 통계정보입니다. 통계정보가 주는 의미는 " 역시 가격 하락이 서비스의 대중화에 커다란 역활을 하며, 주 타겟을 20-40대를 대상으로 해야한다" 정도네요. 긴말 필요없이 눈으로 보세요. 자료출처 : http://www.fastcompany.com/3019323/to-know-you-is-to-really-know-you 2013. 10. 31.
모바일 기반의 개인 유전체 분석 App 텔 아비브 대학 팀 GeneG 일루미나의 MyGenome 제퍼런스의 BRCA manager 2013. 10. 29.
일루미나의 NGS를 위한 앱 개발 지원 일루미나는 BaseSpace라는 클라우드 기반의 분석 시스템이 있습니다. BaseSpace에서 사용자들은 자신의 원하는 앱을 만들어서 추가하여 기능을 확장할 수 있도록 지원하는 BaseSpace Developer (Illumina native app engine program)를 이번에 오픈했습니다. 일루미나는 2년전 BaseSpace를 통해 MiSeq 사용자들에게 무료 데이터 관리, 아카이빙, 분석, 공유, 저장할 수 있도록 제공했는데요. 개발자들은 무료 또는 유료의 BaseSpace와 연동되는 앱을 개발 등록하여 사용할 수 있게 된것입니다. BaseSpace Developer 홈페이지 2013. 10. 29.