분류 전체보기 749

GenomeCloud 분석 화면

사용자가 분석할 로우데이터(FASTQ)를 업로드하면 'Reads'의 지정된 폴더에 저장됩니다. 각 파일을 선택하면 해당 속성창이 나타나구요. 파일의 생성날짜부터 간단한 통계정보를 제공합니다. 업로드된 로우데이터는 Wizard 기능을 통해 손쉽게 Mapping을 수행합니다. 지정된 옵션을 Wizard를 따라 설정한 후 작업을 제출하면 해당 작업이 얼만큼 진행되어지는지 확인이 가능하며, 제출된 작업(mapping)이 완료되면 이메일로도 알려줍니다.

물흐르듯이 streaming pipeline- genome 데이터 처리

사람들이 가장 많이 질문하는 것이 업로드 속도이다. 대용량 데이터인데 업로드 속도는 얼마나 나오느냐? 그러면 되겠느냐? 참 이걸 어떻게 설명해야 할지 난감할 따름이다. 집에 수도꼭지 하나쯤 다들 가지고 있을것이다. 아무리 수도꼭지가 크더라도 정수장에서 집까지 연결된 수도배관이 작다면 혹은 동네까지 들어오는 배관은 충분히 넉넉한데 동네에서 집까지 들어오는 배관이 작다면 너네 집에 아무리 수도꼭지가 크던 뭔짓을 하던 원래 배관이 수용 할 수 있는 만큼의 물만을 받을 수 있다. 엄청난 수도배관을 집까지 설치하거나 엄청난 고압으로 집까지 물을 쏴주지 않는 이상 속도는 획기적으로 빨라지지 않는다. 그렇다면 넉 놓고 앉아 있어야 한느건가? 그렇지만은 않다. 그림 a.는 현재 클라우드에서 분석을 할 경우에 일어나는 ..

대용량 데이터 업로드 - parallel, multi-part upload

요즘 사용하는 컴퓨터는 코어가 여러개인 멀티-코어가 대세죠, 파일 업로드도 멀티-코어를 이용해서 패러럴하게 업로드하는 방법을 소개하겠습니다. 물론 업로드하는 곳은 아마존의 S3나 KT 클라우드 스토리지와 같은 서비스입니다. 병렬로 즉 멀티-코어를 활용하여 업로드 속도를 빠르게 업로드하는 방법은 크게 아래 그림과 같이 2가지 방식으로 생각해 볼 수 있습니다. 하나는 원본 파일1개에 대해서 클라이언트측에서 잘게 자른후 이 조각들(parts)을 코어/프로세스수에 맞추어 쓰레드로 동시에 업로드하는 것입니다. 실제 swift에는 조각나 저장되어 있지만, 사용자는 다운로드 할 경우에는 마치 1개의 파일인 마냥 사용할 수 있습니다. 물론 이러한 기능은 아마존의 S3도 지원하는 기능입니다. 다른 방법은 여러개의 파일을..

computer system 2013.01.03

대용량 Genome 데이터를 빠르게 액세스하기

KT의 GenomeCloud 서비스에는 연구자가 손쉽게 Reference Genome에 대해서 Mapping과 Variant Call을 해주고 데이터를 관리해 주는 g-Analysis라는 서비스가 있습니다. Mapping을 수행하고 나면 BAM이라는 표준 포맷으로 결과를 제공하고 있는데, 이 파일은 Human의 경우 대략 100 ~ 200 GB 정도의 크기가 됩니다. GenomeCloud에서의 BAM 파일 활용법 이 파일을 가지고 Variant Call 이나 Genome Browser를 통해 시각화하는데에 사용됩니다. 그래서 GenomeCloud 서비스에서는 다음의 4가지 방법으로 이 파일을 사용할 수 있도록 하고 있습니다. GenomeCloud에 그냥 보관 (저희가 안전하게 보관해 드립니다. 1개월 또..

KT의 유전체 분석 서비스 GenomeCloud

지난 1년여 남짓 KT라는 회사에 들어와서 정말 필요한 서비스가 무엇인지 고민하고 또 그것을 어떻게 연구자들에게 좋은 모습으로 보여드릴까 고민한 흔적이 이번 "GenomeCloud"라는 서비스로 베타 테스트를 진행하게 되었습니다. 실제 필드에서 산/학/연 모두가 서로 윈윈할 수 있는 그런 서비스를 출시하기 위해 노력했고, 아직은 부족한 부분이 더 많지만, 우선 매 맞을 각오로 오늘 이렇게 선보이게 되었습니다. 우선 서비스는 다음의 두가지로 나뉘어집니다. 바이오인포매틱스 연구자를 죽이는? g-Cluster 저도 한창 이런저런 분석을 하던 시절 제일 불편했던 점 (그 반대로 핑계가 되어 나를 보호해준?)이 내가 원하는 시간에 바로 분석을 할 수 없었던 점입니다. 항상 연구소나 학교의 컴퓨팅은 바쁘게 돌아가죠..

Bioinformatics Stack, Bioinformatics PaaS

하나의 어플리케이션 (주로 웹)을 개발하는데에는 스택을 필요로 한다. 가장 잘 알고 있는 스택은 우리가 흔히 알고 있는 APM (Apache, PHP, MySQL)을 들 수 있겠다. 하지만 세상은 클라우드, 소셜, 빅데이터 등의 새로운 기술과 트렌드가 나오기 시작하면서 APM만으로는 해결이 불가능한 상황으로 다양한 어플리케이션 스택들이 나오고 이를 사용한다. Java기반의 웹 어플케이션 프레임워크로는 JBoss, Spring, Tomcat PHP의 경우 Zend Server, Codelnniter Ruby의 경우 Ruby on Rails Node.js Python의 경우 Django, Flask, Bottle Python을 사용하고 한다면 다음과 같은 스택이 현재 많이 사용되고 있다. Linux + ng..

빅데이터분석 2012.11.28

클라우드 어플리케이션 관리 - Fabric with python

클라우드에는 스냅샷과 커스텀 이미지를 이용해서 관리자가 소프트웨어 인스톨이나 설정 및 시스템관리를 편리하게 할 수 있도록 도와준다. 하지만, 자주 변경되거나 시시각각으로 서로 다른 설정을 해줘야 하는 경우 (특히나 이쪽 분야는...)가 흔하디 흔하기 때문에 이러한 클라우드의 장점을 이용하기 보다는 걍 하나하나 설치/설정/관리를 해주는게 지금 나의 상황에서는 더 편리하다. 가령 10대의 서버에는 A라는 묶음의 소프트웨어를 설치/설정하고 20대의 서버에는 B라는 묶음의 소프트웨어를 설치/설정하고 3대에는 A라는 묶음+알파 또는 -알파의 설정이 필요한 경우가 비일비재하다는 것이다. 그렇다면 해결책은 바로 Fabric이라는 파이썬 라이브러리를 이용하면 된다. 잠시 나의 Fabric 설정을 살펴보면 다음과 같은 ..

computer system 2012.11.23

클라우드를 이용해서 어플리케이션 개발시 알아두면 편리한 것들

클라우드의 내부를 알아야 한다. 즉, KT 클라우드를 사용해서 뭔가를 해보고 싶다면 OpenStack에 대해서 좀 알아야 한다. 그래서 넌 좀 뭘 아냐고, 잘 모른다. 내가 클라우드를 구축할 것도 아니기에 기본적으로 클라우드를 이용해서 어플리케이션을 개발시 필요한 사항들만 알면 된다는 의미다. 클라우드스택이 사용자에게 VM을 만들어 주면 우리는 그것을 그냥 쓰면 되는 거지만, 클라우드 스택 자체가 나에게 VM을 만들어주면서 가진 정보를 내가 가져올 수 있는데, 바로 user-data와 meta-data이다. (다음은 KT의 ucloud (즉, OpenStack)에 해당하는 이야기이다.) 맨처음 VM을 만들면 사용자는 다음의 스크립트를 통해 RVM이라는 가상의 서버(내가 만든 VM을 관리하는...)가 있는..

Linux 2012.11.08

빅 데이터가 우리의 건강을 책임진다.

ReadWriteWeb에 실린 "How Big Data Is Improving Helathcare"를 보면 "Big data in Healthcare Hype and Hope"라는 보고서가 있다. 해당 보고서에 따르면 현재 빅 데이터가 6가지 방법으로 우리의 건강(Healthcare)을 돕고 있다고 이야기 하고 있다. 개인적으로 천식환자를 트래킹하고 정보를 수집, 이를 활용하는 Asthmapolis (천식나라)와 SNS를 통한 질병 관측 지도를 보여주는 Sickwether (아픈날씨) 서비스는 꽤 흥미로왔다. 특히 Sickwether와 같은 경우 맘스홀릭과 같은 커뮤니티나 앱을 통해 데이터의 질/양적 향상을 도모하고 읍면동 단위의 예보를 통해 지역 병원 및 약국 의약품 광고 + 건강관련(피트니스센터, 동..

Whole Genome Sequencing의 임상 적용

Science Translational Medicine의 Rapid Whole-Genome Sequencing for Genetic Disease Diagnosis in Neonatal Intensive Care Units 두개의 새로운 알고리즘 (SSAGA and RUNES)과 일루미나의 새로운 시퀀서(Illumina HiSeq 2500)를 이용하여 whole genome seqencing의 신생아에게 적용하여 신속하게 유전질환의 진단에 사용 캔자스시티의 Children's Mercy Hospital의 Stephen Kingsmore가 이끄는 Center for Pediatric Genomic Medicine에 따르면 50시간내에 혈액채취에서 WGS를 수행하고 진단까지 수행하고 약 $13,500 (1천..