blogging

우편번호로 지도를 작성하자 - MDS(Multi Dimensional Scaling) - 실패 ^^

hongiiv 2008. 6. 30. 21:18
반응형
예전부터 지도상의 좌표를 주소로 변환의 정확성을 높이기 위해 ML을 적용해야겠다는 생각만 했었는데, 오늘은 그 생각을 실행하기 전에 우선 약 5만개의 우편번호 데이터베이스에 우편번호에 해당하는 좌표간의 거리를 Km로 변환하고 5만x5만 행렬을 만들었다. 제법 100MB 넘는 행렬 데이터를 가진 텍스트 파일이 만들어졌다.

그런데 막상 R을 이용해서 MDS plot을 생성하려고 하는데,,, 여기 저기서 에러가 -.- 한참만에 알아낸건 바로 원본 DB에 문제가 있었다.

1) 중복되는 우편번호가 있다. (원래 그런건가??, 이건 배포하는 우편번호를 보고 확인해봐야겠다)
2) 우편번호가 달라도 좌표가 같은 것들도 있다.(이건 내가 만들때 그렇게 만들었기 때문에,,,)
3) 좌표값이 없는 우편번호가 존재한다. (이건 또 왜그래,,,)

zip
삐뚤빼뚤 우편번호 행렬 ^^ - 시작하자마자 저 0들은 ㅋㅋㅋ

그외에도 정확성에도 문제가 있고,,, 여러 문제가 있어 다시 우편번호DB를 만드는 것이 정신 건강상 좋을것 같다. 다시 한번 느끼는 거지만, 원본 데이터가 깨끗해야 하는것이 기본이거늘,,,,

서울 은평구
서울 은평구 지역만 MDS plot을 생성해봤는데,,, 뒤집고 엎고 하니 실제 지도와 비슷한 그래프 탄생 ^^;;

mds

불광동 아래에 녹번, 응암동이 위치하고, 불광 좌측으로 갈현, 역촌, 구산,  신사, 수색동이 위치한다.



반응형