유전자정보분석 127

심심하면 읽는것

Chapter 1. Exome Report 살펴보기 요즘 Whole-Exome Sequencing을 Clnical (Mendelian Disorder의 진단)에 활용하는 논문이 많이 나오고 있다. 이때 고려해야 할 것은 첫번째로 CAP와 CLIA 인증을 득한 곳에서 실험이 이루어져야 한다는건 기본이다. 이렇게 생산된 데이터는 간단히 HGMD와 ESP나 TG등과 비교하고 이것이 medically actionable한것에 대해서 리포트를 해준다. 23andMe도 이러한 트렌드를 예전에 미리 예측하고 Exome pilot을 수행한 적이 있고 몇번 블로그에서 언급한 적이 있다. 파일럿 프로그램에 참여한 사람들은 현재까지 2개의 리포트를 받았는데, 첫번째 리포트는 예전에 언급했었고 이번에는 update된 리포트를..

1000 Genomes Project 데이터를 1초만에 사용하기

데이터를 사용하기 위한 컴퓨팅 리소스가 없다. 즉 분석할 리눅스 서버가 없다거나 서버가 있더라도 디스크 공간이 부족하거나 바로 사용 가능하지 않은때가 있다. 이 문제는 클라우드를 활용하면 문제 없다. 물론 비용이 들어가지만 몇 달씩 진행되는 분석이 아니라 간단하게 사용한다면 비용적인 부담은 적다. 데이터를 사용하기 위해 준비하는데 시간이 너무 오래 걸린다. 간단하게 BWA로 매핑을 하거나 VCF 파일을 가지고 뭔가 확인 하려고 해도 레퍼런스 데이터 인덱싱해야 하고 프로그램 설치해야 하고 이것저것 셋팅하다보면 하루도 부족하다. 위의 두가지 문제를 어느 정도 해결하기 위한 방안을 내리도록 하겠다. 아마존에는 많은 프로젝트들이 돌아가고 있고 각각의 프로젝트들은 아마존을 손쉽게 사용하기 위해 다양한 데이터를 준..

개인 유전체 데이터의 시각화 2

저번 시간에 이어 두번째 개인 유전체 데이터의 시각화에 대한 이야기 입니다. 오늘은 Genome browser를 비롯한 다양한 시각화 방법에 대해서 알아보겠습니다. 지난 시간을 정리 한다면 다음의 두 가지로 요약될 수 있습니다. 테이블 형태의 개인 유전체 데이터 시각화 : 일반인들에게 익숙하고 요약된 정보를 보여주는데에 적합 Ideogram을 이용한 개인 유전체 데이터 시각화: 유전체 데이터를 시각화함에 있어 염색체 모양을 이용하는 방법 Linear genome browser 지도는 위도/경도의 두개의 값을 통해서 특정한 위치에 접근이 가능한것처럼 genome 데이터는 염색체번호 염색체상의 일련의 linear한 위치로 접근이 가능하다. 앞에 놓인 자(scale)를 보면 쉽게 이해가 갈것이다. 많은 gen..

개인 유전체 데이터의 시각화

한 개인의 지닌 유전체 raw 데이터는 3 billion nucleotide base pairs로 구성되어 있으며, A4용지 1장에 12 point의 폰트로 약 3,000자를 쓸 수 있다고 한다면 총 유전체는 A4지 백만 페이지에 해당하는 엄청난 양이다. 미국인이 평균 진료 시간이 약 20분임을 감안한다면 한 개인의 유전체 raw 데이터를 사람이 인지하고 이를 설명하기에는 무리이다. 따라서, 시각화 툴과 기술을 이용하여 raw 데이터를 viewing, exploring, summarizing하고 integrating하여 raw 데이터를 용도에 맞도록 사용하여야 하겠다. Tabular view 현대 사회에서 데이터를 시각화하여 방법으로 가장 널리 사용되는 방법으로 표를 통해 고수준의 요약정보를 제공할 수 ..

GATK 버전 스토리

초기 GATK가 2.X 버전으로 업데이트 되면서 연구용/상업용 라이센스를 가진 버전과 2.0 버전의 subset 기능을 가진 GATK-LITE 버전을 내놓아 상업용으로도 사용 가능하도록 했다. GATK 2.X도 2.3버전 (The Genome Analysis Toolkit (GATK) v2.3-9-gdcdccbb)까지는 지속적으로 위의 두 라이센스를 적용하여 상업용도 무료로 사용 가능하도록 했으나, GATK 2.4 버전으로 최근 업데이트 되면서 새로운 GATK-LITE 버전이 사라지고 즉, 상업용/무료의 라이센스가 사라지고 다음과 같이 3가지 라이센스 정책으로 변경되었다. Development of third-party tools: MIT (free-open) 즉, GATK의 third-party 툴을 ..

GenomeCloud 분석 화면

사용자가 분석할 로우데이터(FASTQ)를 업로드하면 'Reads'의 지정된 폴더에 저장됩니다. 각 파일을 선택하면 해당 속성창이 나타나구요. 파일의 생성날짜부터 간단한 통계정보를 제공합니다. 업로드된 로우데이터는 Wizard 기능을 통해 손쉽게 Mapping을 수행합니다. 지정된 옵션을 Wizard를 따라 설정한 후 작업을 제출하면 해당 작업이 얼만큼 진행되어지는지 확인이 가능하며, 제출된 작업(mapping)이 완료되면 이메일로도 알려줍니다.

물흐르듯이 streaming pipeline- genome 데이터 처리

사람들이 가장 많이 질문하는 것이 업로드 속도이다. 대용량 데이터인데 업로드 속도는 얼마나 나오느냐? 그러면 되겠느냐? 참 이걸 어떻게 설명해야 할지 난감할 따름이다. 집에 수도꼭지 하나쯤 다들 가지고 있을것이다. 아무리 수도꼭지가 크더라도 정수장에서 집까지 연결된 수도배관이 작다면 혹은 동네까지 들어오는 배관은 충분히 넉넉한데 동네에서 집까지 들어오는 배관이 작다면 너네 집에 아무리 수도꼭지가 크던 뭔짓을 하던 원래 배관이 수용 할 수 있는 만큼의 물만을 받을 수 있다. 엄청난 수도배관을 집까지 설치하거나 엄청난 고압으로 집까지 물을 쏴주지 않는 이상 속도는 획기적으로 빨라지지 않는다. 그렇다면 넉 놓고 앉아 있어야 한느건가? 그렇지만은 않다. 그림 a.는 현재 클라우드에서 분석을 할 경우에 일어나는 ..

대용량 Genome 데이터를 빠르게 액세스하기

KT의 GenomeCloud 서비스에는 연구자가 손쉽게 Reference Genome에 대해서 Mapping과 Variant Call을 해주고 데이터를 관리해 주는 g-Analysis라는 서비스가 있습니다. Mapping을 수행하고 나면 BAM이라는 표준 포맷으로 결과를 제공하고 있는데, 이 파일은 Human의 경우 대략 100 ~ 200 GB 정도의 크기가 됩니다. GenomeCloud에서의 BAM 파일 활용법 이 파일을 가지고 Variant Call 이나 Genome Browser를 통해 시각화하는데에 사용됩니다. 그래서 GenomeCloud 서비스에서는 다음의 4가지 방법으로 이 파일을 사용할 수 있도록 하고 있습니다. GenomeCloud에 그냥 보관 (저희가 안전하게 보관해 드립니다. 1개월 또..

KT의 유전체 분석 서비스 GenomeCloud

지난 1년여 남짓 KT라는 회사에 들어와서 정말 필요한 서비스가 무엇인지 고민하고 또 그것을 어떻게 연구자들에게 좋은 모습으로 보여드릴까 고민한 흔적이 이번 "GenomeCloud"라는 서비스로 베타 테스트를 진행하게 되었습니다. 실제 필드에서 산/학/연 모두가 서로 윈윈할 수 있는 그런 서비스를 출시하기 위해 노력했고, 아직은 부족한 부분이 더 많지만, 우선 매 맞을 각오로 오늘 이렇게 선보이게 되었습니다. 우선 서비스는 다음의 두가지로 나뉘어집니다. 바이오인포매틱스 연구자를 죽이는? g-Cluster 저도 한창 이런저런 분석을 하던 시절 제일 불편했던 점 (그 반대로 핑계가 되어 나를 보호해준?)이 내가 원하는 시간에 바로 분석을 할 수 없었던 점입니다. 항상 연구소나 학교의 컴퓨팅은 바쁘게 돌아가죠..