blogging

데이터 홍수와 생물 정보 웹 서비스

hongiiv 2008. 10. 9. 23:29
반응형
일전에 와이어드의 '이론의 끝 - 데이터 홍수가 과학적 방법을 쓸모없게 만든다'에 대한 'LiFiDeA의 전문가의 시대는 끝났나'라는 글에서 보듯 생물학에서의 데이터들은 전문가들의 시대를 끝낼 만큼 점차 쌓여져 가고 있지만, 데이터의 이질성으로 인해 전문가들을 끝낼 수만은 없는 상황이다.

이러한 상황에서 몇년전 부터 생물정보 데이터를 검색하고 이를 생물정보 분석도구와 연결하여 사용하도록 해주는 웹 서비스와 이에 기반을 둔 워크플로우 툴들이 상당 수 소개되어 사용되고 있다. 이미 유럽이나 일본에서는 자신들의 데이터와 도구들을 웹 서비스화 하고 있지만, 이것 또한 여러가지 문제점을 지니고 있다.

그럼 왜 워크플로우나 웹 서비스를 사용하지 않을까? 물론 홍보가 잘 되지 않은 이유도 있겠고, 국내에서는 워크플로우의 핵심이라고 할 수 있는 데이터나 분석 도구에 대한 웹 서비스는 존재하지 않는다는(예전엔 몇몇개가 보였는데 ^^) 이유도 있을 수 있겠다. 그러나 그 안을 좀 더 깊숙히 들어가면,

첫째, 웹 서비스를 만들기만 하고 그 활용이나 보급에는 많은 시간을 할애하고 있지 않고 있고, 물론 웹 서비스만으로는 모든 것을 실현할 수 없다는 이유도 있다(원하는 서비스가 없어서 원하는 서비스를 생성하다 보면 공개된 웹서비스는 1% 만든 코드가 99%가 되는 경우도 허다하다. 하지만 이게 어딘가?).

둘째, 웹 서비스를 제공하는 기관마다 그 형식이나 명명 규칙이 다르다는 것이다. 어디에서는 chromosome을 표현할때  'chr1'이라고 하고 어디는 '1', 어디는 'chr01' 이런식으로 호출하는 인자의사양이나 명명규칙, 주고받는 데이터의 구조 등이 서로 묘한 차이가 있다는 것이다.

셋째, 데이터난 분석도구의 특성상 시간이 오래 걸리는 경우에 대한 처리 방법이 상이하다는 점이다. 어디는 해당 job에 대해 job id를 부여하고 이를 체크하는 메소드를 주는 반면, 어디는 메일로만 통보하는 곳도 있다는 점이다.

넷째, 웹 서비스를 제공하는 곳에 대한 지나친 의존도 이다. 웹 서비스의 특성상 서비스가 정상적으로 운영중인지 잠시 장애가 발생한것인지, 없어져  버린것은 아닌지에 대한 정보가 분명치 않다는 것이다. 기껏 웹 서비스를 이용해서 일련의 워크플로우를 작성했는데 그 중간의 웹서비스 하나 때문에 전체 프로세스가 중단 되어 쓸모 없어 버릴 수 있기 때문이다.

다섯째, 도대체 뭐가 어디에 있는지 알아내기가 만만치 않다라는 것이다. 그런 이유에서 일전의 KOBIC에서는 Biopipe에 그나마 정리를 해서 넣었지만, 요즘은 보이지도 않는다(아무생각없이 없을꺼라고 단정짓고 열심히 코드를 작성했는데 몇일 후 똑같은 일을 수행하는 서비스를 찾았을때의 허탈감은 ㅜㅜ).

물론 이러한 문제점들을 지니고는 있지만, 그 활용과 가능성에는 그 누구도 이의를 제기하지는 못할 것이다. 점점 데이터가 증가하면 할 수록 웹 서비스의 진가는 드러날테니 말이다. 그러므로 데이터의 질적 양적인 성장뿐만 아니라 개발되는 데이터나 서비스에 대한 웹 서비스의 제공은 필수적이라 할 수 있겠다. 실제로 데이터의 홍수가 있지만, 그 데이터를 도대체 가져다 쓸 방법이 없어 무용지물이 될 수도 있으니 말이다.

그럼 위와 같은 문제점을 해결하기 위한 방법을 한번 모색해 봐야 하지 않을까? 한다.

반응형