본문 바로가기

유전자정보분석

유전체 분석 파이프라인을 비교하다 - 머큐리, HugeSeq, Genomon 들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,..
진정한 경진대회의 의미를 살린다면... 이제 설이다. 새해 복많이 받으세요!!! 몇년전 KOBIC에서 진행한 경진대회가 있었는데,,, 이번에 또 경진대회가 하나 나왔습니다. 아니 나온지 좀 됐습니다. 잠깐 경진대회 이야기나 하고 설맞으로 가려고한다. KOBIC의 생명정보 분석 경진대회 지난 12월 31일까지 접수가 마감이었는데, 1월 15일까지 기간이 연장되었다. 경진대회의 목적은 "NGS 기반 유전체 연구의 활성화 및 발전을 도모하고자 생명정보 데이터 분석 및 알고리즘 개발 경진대회를 ..
내맘대로 비교/소개하기 - Bioinformatics Big Data 제맘대로 업체선정에서 비교까지 지극히 객관적인 사실이 아닌 주관적으로 비교해 보려고 합니다. 오늘은 그 첫번째 시간으로 Big Data의 관점에서 Bio데이터에 접근하고 그 솔루션을 제공하는 업체 2개를 선택하여 비교하도록 하겠습니다. 우선 선정된 업체 박수로 맞이 하도록 하겠습니다. 두 업체는 국내/국외 업체로 InfiniBio(인피니바이오, 인피니밴드 아닙니다.)와 BioDatomics(바이오데이토믹스)입니다. 둘다 생소한 업체인데요. ..
내맘대로 비교/소개하기 - NGS Annotation Report NGS 데이터가 variant를 calling 한 그 후 이제 자신의 연구에 대한 해답을 찾기 위해 좀 더 다양한 annotation과 filtering 그리고 이것들을 한눈에 보고 insight를 얻을 수 있게 해주는 시각화와 잘 정리된 리포트를 제공하는 치열한 싸움이 시작되었다. 그 치열한 싸움에 얼마전 BGI에 인수된 Complete Genomics사의 'Genome Voyager' 서비스와 LT의 'Ion Reporter'가 있다. 그렇다 이..
일루미나의 NGS를 위한 앱 개발 지원 일루미나는 BaseSpace라는 클라우드 기반의  분석 시스템이 있습니다.  BaseSpace에서 사용자들은 자신의 원하는 앱을 만들어서 추가하여 기능을 확장할 수 있도록 지원하는 BaseSpace Developer (Illumina native app engine program)를 이번에 오픈했습니다. 일루미나는 2년전 BaseSpace를 통해 MiSeq 사용자들에게 무료 데이터 관리, 아카이빙, 분석, 공유, 저장할 수 있도록 ..
Qiagen의 CLC Bio 인수와 일루미나의 NextBio 인수 Qiagen & CLC Bio 덴마크 오루후스의 bioinformatics 소프트웨어 업체인 CLC Bio를 Qiagen이 인수 했습니다.  AllSeq’s 블로그에서 처음 알려졌으며, CLC Bio 관계자와 Qiagen측은 공식적인 답변을 거부했습니다.   CLC Bio는 Sanger sequencing에서부터 next-generation sequencing에 이르는 분석 소프트웨어를 개발하고 판매하고 있습니다.&nbs..
Variant Calling 어떤 소프트웨어를 사용해야 할까요? GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은...  GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment..
심심하면 읽는것 Chapter 1. Exome Report 살펴보기 요즘 Whole-Exome Sequencing을 Clnical (Mendelian Disorder의 진단)에 활용하는 논문이 많이 나오고 있다. 이때 고려해야 할 것은 첫번째로 CAP와 CLIA 인증을 득한 곳에서 실험이 이루어져야 한다는건 기본이다. 이렇게 생산된 데이터는 간단히 HGMD와 ESP나 TG등과 비교하고 이것이 medically actionable한것에 대해서 리포트..
1000 Genomes Project 데이터를 1초만에 사용하기 데이터를 사용하기 위한 컴퓨팅 리소스가 없다.  즉 분석할 리눅스 서버가 없다거나 서버가 있더라도 디스크 공간이 부족하거나 바로 사용 가능하지 않은때가 있다. 이 문제는 클라우드를 활용하면 문제 없다. 물론 비용이 들어가지만 몇 달씩 진행되는 분석이 아니라 간단하게 사용한다면 비용적인 부담은 적다. 데이터를 사용하기 위해 준비하는데 시간이 너무 오래 걸린다. 간단하게 BWA로 매핑을 하거나 VCF 파일을 가지고 뭔가 확인 하려고 해도 레퍼..
개인 유전체 데이터의 시각화 2 저번 시간에 이어 두번째 개인 유전체 데이터의 시각화에 대한 이야기 입니다. 오늘은 Genome browser를 비롯한 다양한 시각화 방법에 대해서 알아보겠습니다.  지난 시간을 정리 한다면 다음의 두 가지로 요약될 수 있습니다. 테이블 형태의 개인 유전체 데이터 시각화 : 일반인들에게 익숙하고 요약된 정보를 보여주는데에 적합 Ideogram을 이용한 개인 유전체 데이터 시각화: 유전체 데이터를 시각화함에 있어 염색체 ..
개인 유전체 데이터의 시각화 한 개인의 지닌 유전체 raw 데이터는 3 billion nucleotide base pairs로 구성되어 있으며, A4용지 1장에 12 point의 폰트로 약 3,000자를 쓸 수 있다고 한다면 총 유전체는 A4지 백만 페이지에 해당하는 엄청난 양이다. 미국인이 평균 진료 시간이 약 20분임을 감안한다면 한 개인의 유전체 raw 데이터를 사람이 인지하고 이를 설명하기에는 무리이다. 따라서, 시각화 툴과 기술을 이용하여 raw 데이터를 vi..
A | B | C A. 로컬에서 분석 - Torrent Server에서 제공하는 파이프라인 B.  특정 벤더의 클라우드 - Torrent Server에서 제공하는 파이프라인 (로컬과는 Torrent Suite가 클라우드에 있다는 점만 다름) C. GenomeCloud - 둘 이상의 Bioinformatics pipeline을 사용하여 intersection 영역의 SNP/INDEL을 얻을 수 있다. 그밖에도 많지만 우선... 
GATK 버전 스토리 초기 GATK가 2.X 버전으로 업데이트 되면서 연구용/상업용 라이센스를 가진 버전과 2.0 버전의 subset 기능을 가진 GATK-LITE 버전을 내놓아 상업용으로도 사용 가능하도록 했다. GATK 2.X도 2.3버전 (The Genome Analysis Toolkit (GATK) v2.3-9-gdcdccbb)까지는 지속적으로 위의 두 라이센스를 적용하여 상업용도 무료로 사용 가능하도록 했으나, GATK 2.4 버전으로 최..
GenomeCloud 분석 화면 사용자가 분석할 로우데이터(FASTQ)를 업로드하면 'Reads'의 지정된 폴더에 저장됩니다. 각 파일을 선택하면 해당 속성창이 나타나구요. 파일의 생성날짜부터 간단한 통계정보를 제공합니다.     업로드된 로우데이터는 Wizard 기능을 통해 손쉽게 Mapping을 수행합니다. 지정된 옵션을 Wizard를 따라 설정한 후 작업을 제출하면 해당 작업이 얼만큼 진행되어지는지 확인이 가능하며, 제출된 작업(mapping)이 완료되면 ..
물흐르듯이 streaming pipeline- genome 데이터 처리 사람들이 가장 많이 질문하는 것이 업로드 속도이다. 대용량 데이터인데 업로드 속도는 얼마나 나오느냐? 그러면 되겠느냐? 참 이걸 어떻게 설명해야 할지 난감할 따름이다. 집에 수도꼭지 하나쯤 다들 가지고 있을것이다. 아무리 수도꼭지가 크더라도 정수장에서 집까지 연결된 수도배관이 작다면 혹은 동네까지 들어오는 배관은 충분히 넉넉한데 동네에서 집까지 들어오는 배관이 작다면 너네 집에 아무리 수도꼭지가 크던 뭔짓을 하던 원래 배관이 수용 할 수 있는 만큼의..
대용량 Genome 데이터를 빠르게 액세스하기 KT의 GenomeCloud 서비스에는 연구자가 손쉽게 Reference Genome에 대해서 Mapping과 Variant Call을 해주고 데이터를 관리해 주는 g-Analysis라는 서비스가 있습니다. Mapping을 수행하고 나면 BAM이라는 표준 포맷으로 결과를 제공하고 있는데, 이 파일은 Human의 경우 대략 100 ~ 200 GB 정도의 크기가 됩니다.  GenomeCloud에서의 BAM  파일 활용법 이..
KT의 유전체 분석 서비스 GenomeCloud 지난 1년여 남짓 KT라는 회사에 들어와서 정말 필요한 서비스가 무엇인지 고민하고 또 그것을 어떻게 연구자들에게 좋은 모습으로 보여드릴까 고민한 흔적이 이번 "GenomeCloud"라는 서비스로 베타 테스트를 진행하게 되었습니다. 실제 필드에서 산/학/연 모두가 서로 윈윈할 수 있는 그런 서비스를 출시하기 위해 노력했고, 아직은 부족한 부분이 더 많지만, 우선 매 맞을 각오로 오늘 이렇게 선보이게 되었습니다. 우선 서비스는 다음의 두가지로 나뉘어집니..
빅 데이터가 우리의 건강을 책임진다. ReadWriteWeb에 실린 "How Big Data Is Improving Helathcare"를 보면 "Big data in Healthcare Hype and Hope"라는 보고서가 있다. 해당 보고서에 따르면 현재  빅 데이터가 6가지 방법으로 우리의 건강(Healthcare)을 돕고 있다고 이야기 하고 있다.  개인적으로 천식환자를 트래킹하고 정보를 수집, 이를 활용하는 Asthmapolis (천식나라)와 SN..

티스토리 툴바