유전자정보분석

Galaxy를 이용한 Genome Sequence 알아내기

hongiiv 2010. 11. 29. 11:11
반응형
Galaxy를 보고 있자면 몇 해전 국내에서 선풍적인? 인기를 몰았던 Biopipe나 Bioworks가 생각난다. 그네들(workflow 도구들)이 조금만 다듬어졌었더라면, 그리고 너무 WebServices에 얽매여 있었던 것 같다는 느낌이 강하다. WebServices가 분명 많은 잇점이 있기는 하지만 역시나 어려운건 사실이기 때문이다.

요즘 NGS 데이터가 늘어나면서 Galaxy를 자주 찾게 된다. 비단 NGS 데이터의 align이나 variation을 찾는것 외에도 분석하느데 있어서 잡다한 일들을 비교적 손쉽게 할 수 있기 때문이다. 시간이 허락된다면, 간단히 실제 Galaxy를 사용하는 방법에 대해서 포스팅하려고하는데, 오늘은 첫 번째로 Reference 시퀀스를 가져오는 방법에 대해서 써보려고 한다. Tag로 galaxy, 갤럭시 로 검색해서 보면 될 듯... 앞으로 컨텐츠가 쌓인다면 -.-;;

Galaxy 튜토리얼에도 자신이 원하는 flanking sequecne를 알아내는 방법이 나와있는데, 여기서 약간의 혼동이 일어나서 좀 버벅 거렸는데 우선 genomic region을 정의하는 방법에 대해서 짚고 넘어가야겠다.


위의 그림은 UCSC Genome Browser에서 1번 염색체의 1에서 부터 5bp를 질의한 경우이다. 이때 0과1사이에 T, 1과 2사이에 A가 존재한다. 즉 1bp~5bp까지의 hg18 Reference 시퀀스는 'TAACC'가 된다.


그런데 Galaxy에서는 0부터 시작한다. 0이 T, 1이 A 즉 0bp~5bp가 'TAACC'가 된다. 1bp~5bp까지를 쿼리로 날리면 'AACC' 가 나오게 된다.

이렇듯이 UCSC와 Galaxy가 서로 다른 Genomic Region 표시 방법을 사용하기 때문에 주의해야 합니다. -.-;; 그렇다면, RS671에 대해서 앞뒤로 100bp의 flanking sequence를 얻고자 한다면,

===rs671의 dbSNP128(hg18)의 위치===
chr12    110726149 110726149

galaxy start 110726149-101=110726048
galaxy stop 110726149+100=110726249

chr12 110726048 110726249 <-galaxy 에서의 position

ucsc start 110726149-100=110726049
ucsc stop 110726149+100=110726249

chr12 110726049 110726249 <-UCSC 에서의 position

Galaxy에서 우선 Get Data의 Upload File from your computer를 선택하고, 다음과 같은 포맷의 위치정보 파일을 업로드 한다.


Fetch Sequences의 Extract Genomic DNA using coordiantes from assebled/unassembled genomes 메뉴를 선택해서 해당 위치의 sequence를 얻으면 된다.
반응형