저번 포스팅에 구글의 Genomics API와 그들의 전략에 대해서 간단히 살펴보았다. 현재 진행중인 Google의 gonomics API는 하루가 멀다하고 새로운 기능들을 올라오고 있다. 오늘은 저번 포스팅에 있어서 추가할 내용들에 대해서 기술하도록 하겠다. 결론은 이제 genomics 연구자들은 google의 플랫폼에 대해서도 배워야 할 때가 다가왔다는 것이다. Dataset import 기능 - google storage로 부터 import는 아직 준비중,,, genomics 데이터를 사용하기 위해서는 Datasets를 만들어야 한다. 이 datasets은 크게 Google storage, NCBI 그리고 Local 에 저장된 file을 각각 사용할 수 있다. Google의 storage를 활용하는..
무슨 논문제목 같기는 하네. 간단히 말해서 NGS Big Data 분석을 위해서 컴퓨터 hardware (Cluster, Cloud)와 software(BWA, GATK 등) 사이에서 이들을 효율적으로 연결시켜주는 것이 필요하다는 것이다. 지금까지 써왔던 Resource Managent를 위한 Job Scheduler인 OpenPBS, SGE, OGE (SLURM, Torqueue는 써보지 못했음) 를 사용하는데에 실제 데이터 분석을 하는데에 있어 컴퓨터 자원을 효율적으로 사용하지 못한다는 단점이 존재한다. 일반적으로 컴퓨터의 레벨 (levels of computing)은 Core, Machine, Cluster로 나뉘어진다. 하나의 Machine은 메모리를 공유하는 여러 Core가 존재하며 각 Mach..
제목은 "과학계산"이라고 했으나 여기서는 "유전체 관련"이라고 한정지어 이야기를 하겠다. 왜냐고 그건 내 마음이니까. 요즘 국내에서도 많은 사람들이 자신의 연구에 클라우드를 사용하기 시작했다. 클라우드를 사용하기를 원하는 사람들 중 다음의 상황이 가장 많다. 빠른 시간내에 분석 결과를 내고 싶다. 대부분의 사람들은 샘플을 수집하고 이를 시퀀서와 같은 장비를 통해 데이터를 생산해 낸다. 즉, 분석할 데이터셋트가 만들어진다. 여기서 문제가 발생한다. 각종 연구에 있어서 논문으로의 출판까지 비교적 여유롭지 못하다는 것이다. 여기에는 많은 이유가 있을 수 있다. 가령 주어진 과제비에 대한 산출물(즉, 논문)을 내야하는 시기가 정해져 있다는 것이다. 어쩔 수 없는 이유들로 인해 데이터 생산까지의 시간을 일정내에 ..
기쁨은 나누면 배가 된다는 옛말이 있습니다. Bioinformatics 분야에도 이말이 적용되는데요. 바로 그 나눔의 핵심에는 클라우드 컴퓨팅이 있습니다. 무슨 말이냐구요. DNANexus와 Baylor의 클라우드 기반 분석 DNANexus라는 클라우드 기반의 NGS 분석 업체와 Baylor 의대 (BCM)의 이야기입니다. 바로 ASHG에서 DNANexus와 BCM의 Human Genome Seuqencing Center (HGSC)는 14,000명의 WGS와 WES를 통해 심장질환과 노화에 대한 유전적 영향을 연구를 위한 클라우드 기반의 협력 분석 시스템 프로젝트를 공유했습니다. 텍사즈주 휴스턴의 BCM Cohorts for Heart and Aging Research in Genomic Epidemi..
현시점에서의 Genomic Data 사용 시나리오 NGS를 통해 생산된 데이터를 가지고 현재 시점에서 Personalized Genomic Medicine에 사용할 경우 최선은 다음의 시나리오가 최선일 것이다. 최대한 에러 제거 (quality scores, pseudogene들을 제거) dbSNP 등을 이용, allele frequency를 확인 (common한 것들은 가지고 있어도 안죽으니 최대한 인종 특이적인 SNP들을 많이 확보하는 것은 필수) 부모에게 물려받은 것은지 확인, homo인지 heteo인지 또는 autosomal인지를 구분 Protein에 영향을 주는지를 Polyphen 등으로 확인 PhastCons, Phylop 등으로 conservation 정도를 확인 (오랫동안 묵혀져 있는 곳에..
하나의 어플리케이션 (주로 웹)을 개발하는데에는 스택을 필요로 한다. 가장 잘 알고 있는 스택은 우리가 흔히 알고 있는 APM (Apache, PHP, MySQL)을 들 수 있겠다. 하지만 세상은 클라우드, 소셜, 빅데이터 등의 새로운 기술과 트렌드가 나오기 시작하면서 APM만으로는 해결이 불가능한 상황으로 다양한 어플리케이션 스택들이 나오고 이를 사용한다. Java기반의 웹 어플케이션 프레임워크로는 JBoss, Spring, Tomcat PHP의 경우 Zend Server, Codelnniter Ruby의 경우 Ruby on Rails Node.js Python의 경우 Django, Flask, Bottle Python을 사용하고 한다면 다음과 같은 스택이 현재 많이 사용되고 있다. Linux + ng..