전체 글 749

아이폰 집중모드에서 위치 정보가 작동하지 않는 경우 사용하기

갑자기 4년여동안 아이폰8을 쓰다가 13으로 변경하면서 집중모드(focus)를 사용하기로 결정하고, 특정 지역, 구역에 진입하면 집중모드를 실행하도록 설정 하기로 했다. 예를 들면, 사무실에 도착하면 지정된 알림만 설정하여, 각종 앱에서의 push 알람을 무시하도록 하여 일에 집중(?)하도록 말이다. 여기서 잠깐, 지오펜스(Genofencing, Geography + Fence)는 실제 위치에 기반여 가상의 경계(fence)나 구역을 만드는 것으로 사용자가 울타리에 출입을 알려 주는 것으로 아이폰 집중모드의 위치기반 설정은 지오펜스를 통해 특정 위치에서의 앱 액세스를 허용 또는 제한하는 것이다. 하지만, 어쩐일인지 iOS15의 집중모드에서의 위치(location) 기반의 알림이 작동하지 않았다. 구글링을..

howto 2022.04.12

파이썬을 이용한 개인유전체 분석

몇년전 개인유전체 데이터가 보편화 되면 자신이 직접 자신의 유전체 데이터를 분석(해킹)할 수 있도록 가이드를 해줄 책을 하나 만들고자 했다. 옛날옛날부터 블로그에 끄적였던 내용들을 정리할겸,, 겸사겸사 이제 책 만들기에는 여러가지 상황상 힘들것 같고, 몇년동안 다른일들 때문에 돌보지 못했던 내용을 하나씩 풀어볼까 한다. 요즘에는 국내에서도 DTC(소비자직접거래) 방식의 유전자 검사를 통해 혈통분석이라는 이름으로 자신의 조상(ancestry)정보 등을 확인할 수 있는데, 오늘은 이와도 연관된 맛보기 챕터로 "인구 집단 비교" 부분을 공개한다. Demo chapter3 from Hong ChangBum 그럼 이만, 뿅

유전자정보분석 2020.12.15 (2)

정밀 종양학 텍스트마이닝(1) - 문헌에서 변이정보 추출하기

내가 특정 암(또는 질병)에 대한 변이를 모아 놓았다고 할때, 해당 변이가 언급된 논문을 항상 최신으로 업데이트 해주는 경우 해당 변이가 해당 질병에 어떠한 영향을 주는지에 대한 정보를 항상 지켜볼 수 있게 된다. 더 나아가 해당 논문에서 언급된 변이를 논문을 보고 manual curation을 거쳐 knowledge base화 하는데에도 도움을 줄 수 있다. 다음은 BRCA Exchange로 BRCA1/2 mutation의 pathogenicity 정보를 제공하는 데이터베이스로 mutation을 클릭하면 다양한 정보와 함께 해당 mutation이 언급된 논문(제목, 저자, PMID, 해당 mutation이 언급된 본문 내용) 정보를 함께 제공한다. 아래 변이는 BRCA1의 L1750P 변이로 ClinV..

유전자정보분석 2020.12.15 (1)

도커 entrypoint 회피 및 스크립트 killed

도커 entrypoint로 지정된 스크립트(명령어)를 실행했는데도 한참 후 결과가 리턴되지 않는다면, Killed,,, 프로세스를 강제로 kill했을 수 있다. 1) entry point를 실행하지 않고 bash로 접속한다. 도커 실행시 --entrypoint /bin/bash 옵션을 주고 도커 이미지로 진입한다. 2) 스크립트를 도커 이미지 안에서 실행해본다. 스크립트 실행되다가 Killed 가 나오면 해당 스크립트를 실행하면서 리소스를 너무 잡아 먹기 때문에 걍 linux에서 해당 process를 kill해버린 경우다. 3)그렇다면 도커 설정에서 CPUs, Memory, Swap을 올려라! 4) 다시 스크립트를 실행하면,, 끝

Linux 2020.12.11

NGS 데이터 평가하기

얼마전 NIST에서는 RM(Reference Material) 8393을 발표했습니다. RA는 말 그대로 표준이 되는 물질이죠. 이 표준물질은 Human DNA인데요. 그냥 DNA가 아니라 Whole-Genome Variant를 평가할 수 있는 표준물질입니다. 즉 이 DNA의 vaiant들을 모두 정리해 놓았다는 것입니다. 따라서 NGS를 이용하는 여러 분야에서 다양하게 사용될 수 있습니다. 그럼 어떻게 사용될 수 있는지 한번 볼까요? Variants 평가 시나리오 Variants의 평가는 서로 다른 장비간 또는 서로 다른 파이프라인간에 비교하는데 사용되거나 표준물질에서 이미 정의된 variants와 직접 장비/파이프라인 통해 생성된 데이터를 서로 비교할 수 있습니다. Validate Pipeline 당..

바이오마커와 정밀종양학(precision oncology)

문헌데이터의 중요성 생물학 문헌 데이터들은 유전자, 단백질(Protein), 화학 성분(Chemical compound) 등 질병 관련 연구에 있어서 중요한 내용을 포함하고 있만 데이터의 양이 방대 하고 산재되어 있어, 연구자들이 일일이 모든 문헌 데이터 를 확인하는 것은 거의 불가능하다. 정밀종양학에 한정하여 환자의 diagnostic, prognostic, predisposing, drug response marker와 gene, variant와의 관계로 한정하여 보면, 1) BRAF V600E와 관련된 논문은 pubmed에서 2004년 5건에서 2017년 454건으로 증가 2) Oncology trial(임상시험)에서 biomarker를 이용한 시험은 전체 시험대비 2000년 ~15%에서 2018년..

Deep Genomics

누가 뭐래도 요즘 화두는 deep learning이 아닐까? 그렇다면 현재 genomics 또는 이와 관련하여 어떤 움직임들이 있는지 한번 알아보도록 한다. 유전질환 딥러닝 - Face2Gene 예전 칼 짐머의 "Game of Genomes"의 시즌1의 두번째 에피소드인 "깨어진 코드"편을 보면 이런 장면이 나온다. 칼 짐머가 자신의 염기서열을 시퀀싱 하기로 한후 보스턴의 브리검여성병원의 로버트 그린은 칼 짐머의 얼굴을 유심히 보는 장면이 나온다. “전 지금 유전병에서 나타나는 얼굴의 특징을 찾고 있는 거에요” 브리검여성병원(Brgham and women’s hospital)의 로버트 그린이 말했다. “눈의 모양, 귀가 너무 낮게 있지는 않은지. 귀가 복잡하게 생기진 않았는지” 그린박사는 사무실을 앞뒤로..

blogging 2017.01.12 (1)

23andMe 재단장

국내 질병 예측성 유전자 검사 현황 지난 19일 "질병예측성 유전자 검사의 개선방안 공청회"가 진행되었다. 공청회의 질병관리본부의 질병예측성 유전자 검사의 관리에 관한 용역 결과에 대한 세션에서 의하면 유전자 검사를 6개의 카테고리로 나누어 관리하는 방안으로 카테고리 1~4까지는 기존의 유전자 검사에 해당하며 카테고리 5와 6의 경우는 다음과 같은 기준으로 나뉘어 관리하도록 하고 있다. 질병관리본부의 질병예측성 유전자 검사 관리 용역 결과 유전자 검사 분류 이에 유전체기업협의회의 경우 기존 검사와 더불어 질병예측성 유전자검사와 웰니스 유전자 검사의 카테고리로 나누어 관리하고자 하고 있다. 특히 웰니스 유전자 검사의 경우 DTC를 허용하는 것을 골자로 하고 있다. 유전체기업협의회의 유전자검사 분류 방안 미..

개인유전체분석 2015.10.28 (7)

결함을 허용하는 의존성 있는 태스크의 관리

그래프를 이용한 태스크 표현 흔히 바이오인포매틱스 분석이라고 하는 경우 스크립트나 모듈을 작성하여 일련의 분석을 수행하곤 한다. 그러나 단순한 형태의 일이 아니라 더욱 고난이도의 일을 처리하다가 보면 (물론 대부분이 그렇지만) 태스크의 의존성을 고려해야 하는 경우가 많다. 그래프를 이용하여 이를 표현해 보면서 어떻게 의존성과 결함을 고려한 스케줄러를 만들 수 있는지 생각해 보도록 하자. 총 4개의 노드 (Task1, Task2, Task3, Task4)와 엣지로 구성된 그래프로 각각의 엣지는 다음과 같은 의존성을 가진다. Task1=>[Task2, Task3] Task2=>[Task4] Task3=>[Task4] Task4=>[] 즉, Task1이 끝나야 Task2,3이 수행되고 Task4는 Task2,..

빅데이터분석 2015.10.13

BGZF (Blocked GNU Zip Format)

Random Access BAM 파일의 경우에는 BGZF를 이용하기 때문에 원하는 곳으로 빠르게 access가 가능하다. 우리가 흔히 사용하는 GZIP (GNU ZIP) 보다는 압축효율 (압축했을때 용량)이 떨어지지만 random access가 가능하다는 잇점으로 인해 BAM 파일(BAM의 경우 재빠르게 자신이 원하는 position을 뷰잉하는데 많이 사용하기 때문)에서 사용하는 기술이다. 용량이 큰 텍스트 파일을 압축해 놓고 파일의 어느 부분이던지 랜덤하게 액세스 가능하기 때문에 그 활용도가 높은데 특히나 클러스터를 이용하는 경우 파일을 분할하는 등의 I/O 작업이 필요 없기 때문에 그 활용이 매우 높다고 할 수 있다. 여러 활용중 하나로 FASTQ 파일에 적용하여 사용하고 있다. FASTQ 응용 일루..