전체 글 749

유입 키워드로 보는 내 블로그

블로그의 유입 키워드를 보다가 재미난것들이 있어서 소개해 보려고 한다. 걍 빵 터지는 것은 없어도 ㅋㅋㅋ 서정선 이종은 한국인 백인유전자 개체 'ensembl'이 없습니다 수전증 아빠 원인 적금해지비율 난 단맛만좋아 남자친구 귀지 서정선 교수와 이종은 사장을 나란히 검색한 사람은 과연 뭘 알고 싶었을까? 두사람이 사귀나 뭐 그런거?? -.-;; 한국인 백인유전자 서양인과 결혼하면 됩니다. 앙상블을 설치하세요 수전증은 아빠가 원인이 아니라 술을 끊으세요. 적금은 오래 가지고 계세요. 단 맥북 사시려거등 해지하세요 나도 단맛이 좋습니다. 파주세요....

blogging 2013.04.09

개인 유전체 데이터의 시각화

한 개인의 지닌 유전체 raw 데이터는 3 billion nucleotide base pairs로 구성되어 있으며, A4용지 1장에 12 point의 폰트로 약 3,000자를 쓸 수 있다고 한다면 총 유전체는 A4지 백만 페이지에 해당하는 엄청난 양이다. 미국인이 평균 진료 시간이 약 20분임을 감안한다면 한 개인의 유전체 raw 데이터를 사람이 인지하고 이를 설명하기에는 무리이다. 따라서, 시각화 툴과 기술을 이용하여 raw 데이터를 viewing, exploring, summarizing하고 integrating하여 raw 데이터를 용도에 맞도록 사용하여야 하겠다. Tabular view 현대 사회에서 데이터를 시각화하여 방법으로 가장 널리 사용되는 방법으로 표를 통해 고수준의 요약정보를 제공할 수 ..

Amazon AWS vs. KT ucloud biz (GenomeCloud)

클라우드는 만능도 아니며, 공짜도 아니다. 하지만 클라우드가 무엇이고 자신의 환경에 어떻게 적용해야 할지에 대해서 분명 고민해야 할 부분이다. 아래 그림은 Bioinformatics 영역에서 클라우드 컴퓨팅을 활용하기 위한 방법을 잘 보여주고 있다. Prototyping 단계 대규모의 분석을 하기전에 우선 1대의 서버에 분석하고자하는 워크플로우를 작은 데이셋에 대해서 적용한다. 여기서는 NGS 데이터에 대해서 우선 2.2 MB의 read 파일을 가지고 진행하여 5시간에 끝냈다. 확장을 준비하는 Deveploing Sclable Application 단계 대규모 분석은 흔히 클러스터링을 통해 여러대의 서버를 동시에 사용한다. 이를 위해서 클러스터 관리 소프트웨어를 설치하고 1단계의 prototyping 단..

computer system 2013.03.19

BigData 관점에서 Personalized Genomic Medicine

현시점에서의 Genomic Data 사용 시나리오 NGS를 통해 생산된 데이터를 가지고 현재 시점에서 Personalized Genomic Medicine에 사용할 경우 최선은 다음의 시나리오가 최선일 것이다. 최대한 에러 제거 (quality scores, pseudogene들을 제거) dbSNP 등을 이용, allele frequency를 확인 (common한 것들은 가지고 있어도 안죽으니 최대한 인종 특이적인 SNP들을 많이 확보하는 것은 필수) 부모에게 물려받은 것은지 확인, homo인지 heteo인지 또는 autosomal인지를 구분 Protein에 영향을 주는지를 Polyphen 등으로 확인 PhastCons, Phylop 등으로 conservation 정도를 확인 (오랫동안 묵혀져 있는 곳에..

빅데이터분석 2013.03.17

Mac OSX 에서 Eclipse 폰트 안티알리아싱

Eclipse에서 요즘 코딩할 일이 있어서 좀 사용하고 있는데, 이게 Mac에서는 폰트 알리아싱 때문에 가독성이 확 떨어져 버린다. 그렇다고 제어판에서 일정 크기 이하의 폰트에서 알리아싱을 해제하는 옵션을 사용하면 Mac의 모든 어플리케이션들의 폰트에 영향을 주기 때문에 난감하다. 다음과 같이 콘솔에서 명령을 사용하면 이클립스에서 좀더 깔끔하게 가독성 있게 프로그래밍이 가능하다는... 별쓰잘데기 없는것일 수 있지만, 요즘 들어 한짓거리 중에서 제일 뿌듯한 짓거리라는... defaults write org.eclipse.eclipse AppleAntiAliasingThreshold 20

blogging 2013.03.16

여러 샘플을 동시에 분석하기 - Reduced BAM을 이용한 다샘플 한큐 분석

100 샘플 이상을 동시에 분석해서 variant를 calling할때 잇점이 무엇인가? 우선 100 샘플이상을 동시에 분석이 가능한가부터 짚고 넘어가야겠다. 일반적으로 NGS에서 variant calling은 BAM 파일을 가지고 하는데, 요 BAM 파일의 크기가 크기 때문에 merge하여 동시에 분석 (calling all samples simultaneously)하기에 버겁다. 자 이제 하나씩 벗겨 보자. Calling all samples simultaneously vs. Batch calling 암 샘플 분석이나 대규모 집단에서 나타나는 일반적인 (common) variant를 얻기 위한 연구일 경우에는 여러개의 샘플에서 나타나는 variant가 필요하다. 이러한 경우에는 각 샘플을 뭉쳐서 var..

GATK 버전 스토리

초기 GATK가 2.X 버전으로 업데이트 되면서 연구용/상업용 라이센스를 가진 버전과 2.0 버전의 subset 기능을 가진 GATK-LITE 버전을 내놓아 상업용으로도 사용 가능하도록 했다. GATK 2.X도 2.3버전 (The Genome Analysis Toolkit (GATK) v2.3-9-gdcdccbb)까지는 지속적으로 위의 두 라이센스를 적용하여 상업용도 무료로 사용 가능하도록 했으나, GATK 2.4 버전으로 최근 업데이트 되면서 새로운 GATK-LITE 버전이 사라지고 즉, 상업용/무료의 라이센스가 사라지고 다음과 같이 3가지 라이센스 정책으로 변경되었다. Development of third-party tools: MIT (free-open) 즉, GATK의 third-party 툴을 ..