본문 바로가기

바게의 개인공간/일기장

2009.07.16 자동 스팸 댓글 공격



며칠 전 신기한 현상을 발견했다.
똑같은 사람이 내가 운영중인 블로그 3개에 모두 댓글을 남긴 것이다. (이런 사람은 극히 드물다. 각 블로그의 용도가 달라서)
물론, 각 블로그마다 서로 링크가 있어서 이동 했을 수는 있겠지만...
위 이미지는 각 블로그 글 제목과 댓글 내용이다.
무슨 답변을 달아줄까 생각하느라 몇 분간 고민했다.
그리고 결론 내렸다. 자동으로 스팸 댓글이 달린 것이라고... 그 이유는 다음과 같다.

1. "~군여" 라는 문장 패턴이 자주 등장한다.
일반적인 사람의 경우 저렇게 똑같은 패턴으로 댓글을 남기지 않는다. 블로그글의 내용이 다르고 그에 따라서 사용할 주제어들도달라지기 때문이다.

2. 댓글의 길이가 너무 짧다.
완전한 단문이다. 일반적인 댓글은 어떤 내용을 담고 있으나, 저 댓글들은 아무 의미 없는 내용이다.
물론 친한 사람들 끼리는 저런 식으로 댓글도 남기곤 하지만..

3. "한국어 형태소 분석과.... " 라는 블로그의 댓글이 이상하다.
형태소분석과 검색엔진 알고리즘과는 관계가 없으며, 블로그 내용에 검색엔진 알고리즘에 대한 것이 없었다.
넓게 보자면 색인과정의 일부로 형태소분석이 들어가긴 하지만, 쌩뚱맞게 블로그 내용에도 없는 내용을 적었다.

4. 아이디를 클릭하자 외국 사이트가 떴다.
이게 가장 큰 실마리였는데, 아이디를 클릭하자 외국 꽃 판매 사이트가 떴다.
외국 사람이 한국블로그에 와서, 그것도 연관성 없는 글들을 읽고 댓글을 남긴다?
한국어 공부를 위해서? 나랑 전생에 인연이 있었나?
아래는 그 외국 사이트 메인화면이다.



참 황당한 사건이고, 신기해서 댓글은 당분간 안 지울 것이다.
내 짧은 생각으로는 문서의 주제어를 뽑고 그와 관련된 다른 주제어(이미 마이닝해 놓은)와 답변 패턴을 합쳐서 글을 생성하는 것 같다.
아무튼 대단한 것은 언뜻 봐서는 스팸인지 모르도록.. 기계가 생성한 글인지 느낌이 안 오도록
글을 아주 잘 만들었다는 것이다.

저런 기술도 공부하면, 한국어 분석과 의미 분석, 자동 답변 생성등에 유용할 것 같다.
저거 만든 분이 있다면 연락주시길, 배우고 싶습니다!


가장 윗 글의 링크이다.직접 아이디를 클릭해 보시길..
http://bage.bagesoft.com/597#comment2336547