그냥 머리속에서 좋은거야~~라고만 생각했는데,, 저번 PlatformDay에서 한재선 박사님의 발표를 듣고는 Multi-Step MapReduce Programming이라는 단어와 Reusing Intermediate Data에서 실질적으로 저렇게 쓰이면 좋겠구나,,,라는 생각을 해 보았다. 뭐 사람들에게 이론적으로 아무리 말을 해도 감이 오지 않으니,, 그렇다고 WordCount와 Sort를 가지고는 너무 약하고,,, 한박사님의 발표에 쓰인 웹서버 로그를 ML로 클러스터링까지 하면야 딱 좋겠지만,,이라고 생각하던 차에 아마존에서 비슷한 웹서버 로그에 대한 예제(Running Hadoop MapReduce on Amazon EC2 and Amazon S3)를 찾았다. 나온지는 꽤 되었지만,,, 난 처음 ..