저번 시간에 이어 두번째 개인 유전체 데이터의 시각화에 대한 이야기 입니다. 오늘은 Genome browser를 비롯한 다양한 시각화 방법에 대해서 알아보겠습니다. 지난 시간을 정리 한다면 다음의 두 가지로 요약될 수 있습니다. 테이블 형태의 개인 유전체 데이터 시각화 : 일반인들에게 익숙하고 요약된 정보를 보여주는데에 적합 Ideogram을 이용한 개인 유전체 데이터 시각화: 유전체 데이터를 시각화함에 있어 염색체 모양을 이용하는 방법 Linear genome browser 지도는 위도/경도의 두개의 값을 통해서 특정한 위치에 접근이 가능한것처럼 genome 데이터는 염색체번호 염색체상의 일련의 linear한 위치로 접근이 가능하다. 앞에 놓인 자(scale)를 보면 쉽게 이해가 갈것이다. 많은 gen..
한 개인의 지닌 유전체 raw 데이터는 3 billion nucleotide base pairs로 구성되어 있으며, A4용지 1장에 12 point의 폰트로 약 3,000자를 쓸 수 있다고 한다면 총 유전체는 A4지 백만 페이지에 해당하는 엄청난 양이다. 미국인이 평균 진료 시간이 약 20분임을 감안한다면 한 개인의 유전체 raw 데이터를 사람이 인지하고 이를 설명하기에는 무리이다. 따라서, 시각화 툴과 기술을 이용하여 raw 데이터를 viewing, exploring, summarizing하고 integrating하여 raw 데이터를 용도에 맞도록 사용하여야 하겠다. Tabular view 현대 사회에서 데이터를 시각화하여 방법으로 가장 널리 사용되는 방법으로 표를 통해 고수준의 요약정보를 제공할 수 ..
초기 GATK가 2.X 버전으로 업데이트 되면서 연구용/상업용 라이센스를 가진 버전과 2.0 버전의 subset 기능을 가진 GATK-LITE 버전을 내놓아 상업용으로도 사용 가능하도록 했다. GATK 2.X도 2.3버전 (The Genome Analysis Toolkit (GATK) v2.3-9-gdcdccbb)까지는 지속적으로 위의 두 라이센스를 적용하여 상업용도 무료로 사용 가능하도록 했으나, GATK 2.4 버전으로 최근 업데이트 되면서 새로운 GATK-LITE 버전이 사라지고 즉, 상업용/무료의 라이센스가 사라지고 다음과 같이 3가지 라이센스 정책으로 변경되었다. Development of third-party tools: MIT (free-open) 즉, GATK의 third-party 툴을 ..
사람들이 가장 많이 질문하는 것이 업로드 속도이다. 대용량 데이터인데 업로드 속도는 얼마나 나오느냐? 그러면 되겠느냐? 참 이걸 어떻게 설명해야 할지 난감할 따름이다. 집에 수도꼭지 하나쯤 다들 가지고 있을것이다. 아무리 수도꼭지가 크더라도 정수장에서 집까지 연결된 수도배관이 작다면 혹은 동네까지 들어오는 배관은 충분히 넉넉한데 동네에서 집까지 들어오는 배관이 작다면 너네 집에 아무리 수도꼭지가 크던 뭔짓을 하던 원래 배관이 수용 할 수 있는 만큼의 물만을 받을 수 있다. 엄청난 수도배관을 집까지 설치하거나 엄청난 고압으로 집까지 물을 쏴주지 않는 이상 속도는 획기적으로 빨라지지 않는다. 그렇다면 넉 놓고 앉아 있어야 한느건가? 그렇지만은 않다. 그림 a.는 현재 클라우드에서 분석을 할 경우에 일어나는 ..