티스토리 뷰
반응형
Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요.
1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다.
직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다.
5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다.
9페이지: 월컴 트러스터의 전시홀에 전시된 휴먼 지놈을 프린트해 놓은 책
10페이지: SNP을 찾는 Affymetrix의 칩입니다. 참고로 23andMe는 illumina의 칩을 사용하죠.
11-12 페이지: NGS 기계로 차세대 시퀀싱 기계입니다.
13페이지: 컴플리트 지놈이나 패시픽 바이오사이언스 등의 회사에서 NGS를 이용해 시퀀싱을 하고 있죠.
14-20: 많은 데이터가 빠르게 생성되고 있다.
29페이지: 1.1페타의 스토리지 용량을 보여주고 있습니다. 정말 후덜덜한 용량이 아닐 수 없네요, 출처는 Bioteam의 사장인 Chris Dagdigian씨의 터미널을 캡처한 것 같은데,,, 지난번 온 마이클의 사장님 되겠습니다. ^^
2. 그렇다면 어떻게 해야할까?
30-37페이지까지의 슬라이드에서는 이러한 문제에 대해서 알고리즘, 컴퓨팅 파워, 데이터의 관리, 데이터의 공유, 경영상의 마음가짐, 확장성 등에 대해서 다시 한번 생각해봐야 한다고 말하고 있습니다. 여기서 정확히 operational mindset의 의미를 모르겠지만, 제가 생각하기에 실제 조직내에서 이러한 데이터의 증가에 따른 경영진(생물학만을 전공한 윗분)의 확실한 뒷받침이 필요하다 정도일것 같습니다.
3. 두개의 핵심 트렌드를 잡아라.
38-44페이지에서는 바로 아마존의 웹서비스와 하둡을 언급합니다.
4. 실제 예를 보여줍니다.
47페이지부터는 지놈상의 숏리드(짧은 서열 조각들)를 레퍼런스와 매핑하는 방법에 대해서 이야기하고 시간이 많이 소요되는 작업임을 이야기 하고 있습니다. 그래서 이것을 MapReduce를 이용해서 매핑하는 CloudBurst라는 프로그램에 대해서 이야기 합니다. CloudBurst는 이미 아마존에서 사용할 수 있습니다.
58페이지에서는 보타이(Bowtie:나비넥타이)라는 가장 널리 사용하는 align 프로그램에 대해서 이야기 합니다. 그 다음으로 SOAPsnp으로 이렇게 정렬(align)된 서열로 부터 SNP을 찾아내는 프로그램에 대해서 이야기 합니다. 마지막으로 crossbow라는 snp 분석 프로그램에 대해서도 언급하네요. 이 프로그램들은 CloudBurst와는 달리 MapReduce로 작성된 프로그램이 아닌 시리얼한 프로그램인데 이것을 MapReduce로 하는 방법에 대해서 이야기를 하고 있습니다.
5. 이것뿐이냐?
78페이지에서부터는 이전에 서열정렬 부분이 아닌, 1)드노보 어셈블링(아까 본 서열 정렬 프로그램은 레퍼런스가 있어서 레퍼런스에 맞추는 것이지만, 드노보 어셈블링은 레퍼런스 없이 지들끼리 정렬, 따라서 더 시간이 소요) 2) 머신런닝이나 통계적인 처리 부분 3)단백질의 구조 예측 등등 많은 생물정보학과 하둡의 결합 부분을 이야기 하고 있습니다.
마지막으로 아마존에서 고이 간직하고 있는 public data set에 생물학 관련 데이터들이 있고, 사용 가능한 상태라는 언급을 하고 있습니다.
전체적으로 제가 예전에 발표했던 거랑 맥락은 같으나 실제 예가 더 포함 되어 있네요,,, 지금 서열 정렬부분에 한해서 예를 들었는데, 저는 좀 다른 부분(SNP의 분석쪽)에 관해서 준비하고 있습니다. 그럼 조금만 기다려 주시면,,,
1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다.
직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다.
5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다.
9페이지: 월컴 트러스터의 전시홀에 전시된 휴먼 지놈을 프린트해 놓은 책
10페이지: SNP을 찾는 Affymetrix의 칩입니다. 참고로 23andMe는 illumina의 칩을 사용하죠.
11-12 페이지: NGS 기계로 차세대 시퀀싱 기계입니다.
13페이지: 컴플리트 지놈이나 패시픽 바이오사이언스 등의 회사에서 NGS를 이용해 시퀀싱을 하고 있죠.
14-20: 많은 데이터가 빠르게 생성되고 있다.
29페이지: 1.1페타의 스토리지 용량을 보여주고 있습니다. 정말 후덜덜한 용량이 아닐 수 없네요, 출처는 Bioteam의 사장인 Chris Dagdigian씨의 터미널을 캡처한 것 같은데,,, 지난번 온 마이클의 사장님 되겠습니다. ^^
2. 그렇다면 어떻게 해야할까?
30-37페이지까지의 슬라이드에서는 이러한 문제에 대해서 알고리즘, 컴퓨팅 파워, 데이터의 관리, 데이터의 공유, 경영상의 마음가짐, 확장성 등에 대해서 다시 한번 생각해봐야 한다고 말하고 있습니다. 여기서 정확히 operational mindset의 의미를 모르겠지만, 제가 생각하기에 실제 조직내에서 이러한 데이터의 증가에 따른 경영진(생물학만을 전공한 윗분)의 확실한 뒷받침이 필요하다 정도일것 같습니다.
3. 두개의 핵심 트렌드를 잡아라.
38-44페이지에서는 바로 아마존의 웹서비스와 하둡을 언급합니다.
4. 실제 예를 보여줍니다.
47페이지부터는 지놈상의 숏리드(짧은 서열 조각들)를 레퍼런스와 매핑하는 방법에 대해서 이야기하고 시간이 많이 소요되는 작업임을 이야기 하고 있습니다. 그래서 이것을 MapReduce를 이용해서 매핑하는 CloudBurst라는 프로그램에 대해서 이야기 합니다. CloudBurst는 이미 아마존에서 사용할 수 있습니다.
58페이지에서는 보타이(Bowtie:나비넥타이)라는 가장 널리 사용하는 align 프로그램에 대해서 이야기 합니다. 그 다음으로 SOAPsnp으로 이렇게 정렬(align)된 서열로 부터 SNP을 찾아내는 프로그램에 대해서 이야기 합니다. 마지막으로 crossbow라는 snp 분석 프로그램에 대해서도 언급하네요. 이 프로그램들은 CloudBurst와는 달리 MapReduce로 작성된 프로그램이 아닌 시리얼한 프로그램인데 이것을 MapReduce로 하는 방법에 대해서 이야기를 하고 있습니다.
5. 이것뿐이냐?
78페이지에서부터는 이전에 서열정렬 부분이 아닌, 1)드노보 어셈블링(아까 본 서열 정렬 프로그램은 레퍼런스가 있어서 레퍼런스에 맞추는 것이지만, 드노보 어셈블링은 레퍼런스 없이 지들끼리 정렬, 따라서 더 시간이 소요) 2) 머신런닝이나 통계적인 처리 부분 3)단백질의 구조 예측 등등 많은 생물정보학과 하둡의 결합 부분을 이야기 하고 있습니다.
마지막으로 아마존에서 고이 간직하고 있는 public data set에 생물학 관련 데이터들이 있고, 사용 가능한 상태라는 언급을 하고 있습니다.
전체적으로 제가 예전에 발표했던 거랑 맥락은 같으나 실제 예가 더 포함 되어 있네요,,, 지금 서열 정렬부분에 한해서 예를 들었는데, 저는 좀 다른 부분(SNP의 분석쪽)에 관해서 준비하고 있습니다. 그럼 조금만 기다려 주시면,,,
View more presentations from Deepak Singh.
반응형
공지사항
최근에 올라온 글