유전자정보분석 127

파이썬을 이용한 개인유전체 분석

몇년전 개인유전체 데이터가 보편화 되면 자신이 직접 자신의 유전체 데이터를 분석(해킹)할 수 있도록 가이드를 해줄 책을 하나 만들고자 했다. 옛날옛날부터 블로그에 끄적였던 내용들을 정리할겸,, 겸사겸사 이제 책 만들기에는 여러가지 상황상 힘들것 같고, 몇년동안 다른일들 때문에 돌보지 못했던 내용을 하나씩 풀어볼까 한다. 요즘에는 국내에서도 DTC(소비자직접거래) 방식의 유전자 검사를 통해 혈통분석이라는 이름으로 자신의 조상(ancestry)정보 등을 확인할 수 있는데, 오늘은 이와도 연관된 맛보기 챕터로 "인구 집단 비교" 부분을 공개한다. Demo chapter3 from Hong ChangBum 그럼 이만, 뿅

정밀 종양학 텍스트마이닝(1) - 문헌에서 변이정보 추출하기

내가 특정 암(또는 질병)에 대한 변이를 모아 놓았다고 할때, 해당 변이가 언급된 논문을 항상 최신으로 업데이트 해주는 경우 해당 변이가 해당 질병에 어떠한 영향을 주는지에 대한 정보를 항상 지켜볼 수 있게 된다. 더 나아가 해당 논문에서 언급된 변이를 논문을 보고 manual curation을 거쳐 knowledge base화 하는데에도 도움을 줄 수 있다. 다음은 BRCA Exchange로 BRCA1/2 mutation의 pathogenicity 정보를 제공하는 데이터베이스로 mutation을 클릭하면 다양한 정보와 함께 해당 mutation이 언급된 논문(제목, 저자, PMID, 해당 mutation이 언급된 본문 내용) 정보를 함께 제공한다. 아래 변이는 BRCA1의 L1750P 변이로 ClinV..

바이오마커와 정밀종양학(precision oncology)

문헌데이터의 중요성 생물학 문헌 데이터들은 유전자, 단백질(Protein), 화학 성분(Chemical compound) 등 질병 관련 연구에 있어서 중요한 내용을 포함하고 있만 데이터의 양이 방대 하고 산재되어 있어, 연구자들이 일일이 모든 문헌 데이터 를 확인하는 것은 거의 불가능하다. 정밀종양학에 한정하여 환자의 diagnostic, prognostic, predisposing, drug response marker와 gene, variant와의 관계로 한정하여 보면, 1) BRAF V600E와 관련된 논문은 pubmed에서 2004년 5건에서 2017년 454건으로 증가 2) Oncology trial(임상시험)에서 biomarker를 이용한 시험은 전체 시험대비 2000년 ~15%에서 2018년..

유전체 분석 파이프라인을 비교하다 - 머큐리, HugeSeq, Genomon

들어가는말, 분석 프로토콜과 파이프라인 유전체 데이터 그 중에서도 NGS 데이터 분석에 있어서 많은 툴들이 존재합니다. 이러한 툴을 어떠한 순서로 사용하여 분석하느냐는 바로 분석 프로토콜이 되겠습니다. 흔히 알려진 프로토콜로는 resequecning 데이터를 분석하는 GATK Best Practices가 있습니다. RNA-Seq 데이터 분석에는 Tuxedo protocol이 유명하죠. 연구자들 사이에서는 이거이거이거 사용했더니 좋은 것 같아,,,라는 말들을 자주하곤 합니다. 그러면 연구자는 한번 그 툴들을 사용하여 분석해보죠. 근데 이분석이라는게 한가지 툴로 끝나는게 아니라 툴들을 각각 돌리다 보면 프로토콜의 automation, flexibility, extensionality (자동화, 유연성, 확장..

진정한 경진대회의 의미를 살린다면...

이제 설이다. 새해 복많이 받으세요!!! 몇년전 KOBIC에서 진행한 경진대회가 있었는데,,, 이번에 또 경진대회가 하나 나왔습니다. 아니 나온지 좀 됐습니다. 잠깐 경진대회 이야기나 하고 설맞으로 가려고한다. KOBIC의 생명정보 분석 경진대회 지난 12월 31일까지 접수가 마감이었는데, 1월 15일까지 기간이 연장되었다. 경진대회의 목적은 "NGS 기반 유전체 연구의 활성화 및 발전을 도모하고자 생명정보 데이터 분석 및 알고리즘 개발 경진대회를 진행한다는 것이다" 그리고 그 결과는 논문은로 3월말까지 제출되어야 한다고 한다. 경진대회 홈페이지 https://www.kobic.re.kr/newkobic_competition/ 자 1월15일까지 연구계획서를 제출하고 그걸 3월까지 논문으로 만들어서 제출해..

내맘대로 비교/소개하기 - Bioinformatics Big Data

제맘대로 업체선정에서 비교까지 지극히 객관적인 사실이 아닌 주관적으로 비교해 보려고 합니다. 오늘은 그 첫번째 시간으로 Big Data의 관점에서 Bio데이터에 접근하고 그 솔루션을 제공하는 업체 2개를 선택하여 비교하도록 하겠습니다. 우선 선정된 업체 박수로 맞이 하도록 하겠습니다. 두 업체는 국내/국외 업체로 InfiniBio(인피니바이오, 인피니밴드 아닙니다.)와 BioDatomics(바이오데이토믹스)입니다. 둘다 생소한 업체인데요. 아마 다른분들도 다 생소하실거라 생각됩니다. BioDatomics - The Next Generation in Bioinformatics Tools B사는 BioDT라는 툴을 통해 사용자가 NGS 데이터를 핸들링 하도록 하고 있습니다. BioDT는 라이센스 및 사용방법..

내맘대로 비교/소개하기 - NGS Annotation Report

NGS 데이터가 variant를 calling 한 그 후 이제 자신의 연구에 대한 해답을 찾기 위해 좀 더 다양한 annotation과 filtering 그리고 이것들을 한눈에 보고 insight를 얻을 수 있게 해주는 시각화와 잘 정리된 리포트를 제공하는 치열한 싸움이 시작되었다. 그 치열한 싸움에 얼마전 BGI에 인수된 Complete Genomics사의 'Genome Voyager' 서비스와 LT의 'Ion Reporter'가 있다. 그렇다 이 두 서비스의 공통점이 있는데, 모두 시퀀서를 만드는 회사의 서비스라는 점이다. 두 서비스를 비교하면서 다음의 질문에 대한 대답을 얻을 수 있기를 바라지만, 서비스를 사용해 보지 않았기 때문에 수박 겉핥기 식일 수 밖에 없음을 미리 알아두었으면 한다. 누가 더..

일루미나의 NGS를 위한 앱 개발 지원

일루미나는 BaseSpace라는 클라우드 기반의 분석 시스템이 있습니다. BaseSpace에서 사용자들은 자신의 원하는 앱을 만들어서 추가하여 기능을 확장할 수 있도록 지원하는 BaseSpace Developer (Illumina native app engine program)를 이번에 오픈했습니다. 일루미나는 2년전 BaseSpace를 통해 MiSeq 사용자들에게 무료 데이터 관리, 아카이빙, 분석, 공유, 저장할 수 있도록 제공했는데요. 개발자들은 무료 또는 유료의 BaseSpace와 연동되는 앱을 개발 등록하여 사용할 수 있게 된것입니다. BaseSpace Developer 홈페이지

Qiagen의 CLC Bio 인수와 일루미나의 NextBio 인수

Qiagen & CLC Bio 덴마크 오루후스의 bioinformatics 소프트웨어 업체인 CLC Bio를 Qiagen이 인수 했습니다. AllSeq’s 블로그에서 처음 알려졌으며, CLC Bio 관계자와 Qiagen측은 공식적인 답변을 거부했습니다. CLC Bio는 Sanger sequencing에서부터 next-generation sequencing에 이르는 분석 소프트웨어를 개발하고 판매하고 있습니다. 지난 4월 IBM과 함께 각각의 제품을 결합한 next-generation sequencing 데이터 분석 솔루션을 제공할 것이라고 하기도 했습니다. CLC는 12년도 30%의 소프트웨어 판매 증가를 보였으나 비상장사로 자세한 내용은 제공하지 않았습니다. 이번이 올해들어 두번째 Bioinfomati..

Variant Calling 어떤 소프트웨어를 사용해야 할까요?

GATK를 쓰세요. from Variant Callers for Next-Generation Sequencing Data: A Comparison Study SAMtools, GATK, glftools와 Atlas2 총 4개를 비교한 논문입니다. 뭐 결론은... GATK가 Bayesian 모델을 사용하고 있으며, MapReduce를 이용하여 분산 처리가 가능하다는 강점이 있습니다. 부가적으로 realignment, recalivration, VQSR등을 통해 variant call에 우위를 가지고 있습니다. 각 샘플의 read data (D)로 부터 샘플의 genotype (G)를 어떻게 알아(inference)낼까? genoetype (G)가 나올 확률을 Bayes' rule을 이용하여 계산합니다. 즉..