유전자정보분석

SNP Browser 작업

hongiiv 2008. 9. 10. 18:24
반응형
10,000명에 대한 각각의 500,000개의 데이터 즉, 10,000 x 500,000의 속이 꽉찬 매트릭스가 탄생하게 된다. 여기서 원하는 것들만 뽑아내서 지지고 볶고 다듬는 작업,, sparse matrix도 아니고 ㅜㅜ.

여기서 우선 DB에 넣고 원하는 값만을 뽑아내는 작업을 해봤는데, 프로그램 작성시 DB에 대해서 연결을 해줘야 하고, 인덱스에 테이블 쪼개기, 하드웨어 최적화 등등의 작업까지 모두 해보았지만, 별로 맘에 들지 않는다.

2842421354_1302607842_o
간단한 질의를 수행했지만 6분정도의 시간이 소요

IMG_0441
간단하게 말해 10,000 x 500,000 매트릭스 내용을 보여주는 브라우저 - 현재 프로토타입 단계 자세한건 나중에 ^^

브라우저야 어느정도의 시간을 감수하면서 DB에 넣을 데이터들을 만들었지만, 저 데이터를 가지고 분석하는 작업은 만만치 않은 상황에서, Column-Oriented Databases를 완벽하게?? 구현한 그것도 Java API를 통해서 바로 지금 당장 프로그래밍이 가능한 놈을 찾았버렸다. ^^ 사실 이전에 봤었던 건데, 당장 쓸일 없겠다 싶었는데, 이렇게 쓰게 될줄이야 ㅜㅜ

IMG_0471고생한다. 맥북아~~

추가>>
좀전에 잠깐 SNP 브라우저에 대해서 언급했는데, 조금만 더 자세하게 이야기 해볼까 한다. 현재 전체적인 모습은 각각의 chromosome에 대해서 position으로 정렬된 SNP의 리스트를 보여주고 rs번호와 gene으로 검색이 가능하도록 했다. 또한 +버튼을 누르게 되면 해당 SNP와 gene 정보를 google maps api를 통해서 시각적으로 보여준다. 거기에 dbsnp, entrez gene, 인종별 snp의 분포 등등의 부가적인 정보도 보여주고,,, 기존의 gbrowser 등을 사용할까도 생각해 봤지만,,, 역시 그냥 맨땅에 한번 만들어 보는것도,,,^^

IMG_0467
바로 요런 모습 되겠다. 아까 올린것은 google maps를 붙이기전,,, 지금은 붙인 모습

testc


반응형