본문 바로가기

분류 전체보기748

파이썬을 이용한 개인유전체 분석 몇년전 개인유전체 데이터가 보편화 되면 자신이 직접 자신의 유전체 데이터를 분석(해킹)할 수 있도록 가이드를 해줄 책을 하나 만들고자 했다. 옛날옛날부터 블로그에 끄적였던 내용들을 정리할겸,, 겸사겸사 이제 책 만들기에는 여러가지 상황상 힘들것 같고, 몇년동안 다른일들 때문에 돌보지 못했던 내용을 하나씩 풀어볼까 한다. 요즘에는 국내에서도 DTC(소비자직접거래) 방식의 유전자 검사를 통해 혈통분석이라는 이름으로 자신의 조상(ancestry)정보 등을 확인할 수 있는데, 오늘은 이와도 연관된 맛보기 챕터로 "인구 집단 비교" 부분을 공개한다. Demo chapter3 from Hong ChangBum 그럼 이만, 뿅 2020. 12. 15.
정밀 종양학 텍스트마이닝(1) - 문헌에서 변이정보 추출하기 내가 특정 암(또는 질병)에 대한 변이를 모아 놓았다고 할때, 해당 변이가 언급된 논문을 항상 최신으로 업데이트 해주는 경우 해당 변이가 해당 질병에 어떠한 영향을 주는지에 대한 정보를 항상 지켜볼 수 있게 된다. 더 나아가 해당 논문에서 언급된 변이를 논문을 보고 manual curation을 거쳐 knowledge base화 하는데에도 도움을 줄 수 있다. 다음은 BRCA Exchange로 BRCA1/2 mutation의 pathogenicity 정보를 제공하는 데이터베이스로 mutation을 클릭하면 다양한 정보와 함께 해당 mutation이 언급된 논문(제목, 저자, PMID, 해당 mutation이 언급된 본문 내용) 정보를 함께 제공한다. 아래 변이는 BRCA1의 L1750P 변이로 ClinV.. 2020. 12. 15.
도커 entrypoint 회피 및 스크립트 killed 도커 entrypoint로 지정된 스크립트(명령어)를 실행했는데도 한참 후 결과가 리턴되지 않는다면, Killed,,, 프로세스를 강제로 kill했을 수 있다. 1) entry point를 실행하지 않고 bash로 접속한다. 도커 실행시 --entrypoint /bin/bash 옵션을 주고 도커 이미지로 진입한다. 2) 스크립트를 도커 이미지 안에서 실행해본다. 스크립트 실행되다가 Killed 가 나오면 해당 스크립트를 실행하면서 리소스를 너무 잡아 먹기 때문에 걍 linux에서 해당 process를 kill해버린 경우다. 3)그렇다면 도커 설정에서 CPUs, Memory, Swap을 올려라! 4) 다시 스크립트를 실행하면,, 끝 2020. 12. 11.
NGS 데이터 평가하기 얼마전 NIST에서는 RM(Reference Material) 8393을 발표했습니다. RA는 말 그대로 표준이 되는 물질이죠. 이 표준물질은 Human DNA인데요. 그냥 DNA가 아니라 Whole-Genome Variant를 평가할 수 있는 표준물질입니다. 즉 이 DNA의 vaiant들을 모두 정리해 놓았다는 것입니다. 따라서 NGS를 이용하는 여러 분야에서 다양하게 사용될 수 있습니다. 그럼 어떻게 사용될 수 있는지 한번 볼까요? Variants 평가 시나리오 Variants의 평가는 서로 다른 장비간 또는 서로 다른 파이프라인간에 비교하는데 사용되거나 표준물질에서 이미 정의된 variants와 직접 장비/파이프라인 통해 생성된 데이터를 서로 비교할 수 있습니다. Validate Pipeline 당.. 2020. 12. 4.