검색 엔진
[박혜웅] 불용어 목록 (stoplist)
BAGE
2010. 3. 27. 17:30
-
stoplist(불용어목록) 의 특징
- 색인어로서 가치가 없다고 판단되는 용어 목록
- 영문텍스트에서 20~30% 정도 발생
- 색인어목록에서 stoplist를 제거할 경우, 색인속도향상과 메모리용량 감소, 검색속도 향상
-
stoplist의 판정방법
-
문서에 자주 포함하는 단어는 가치가 없으므로 stoplist에 포함됨.
- 예: 컴퓨터분야에서 computer, program, source, machine, language
-
문서에 자주 포함하지만 색인어로 유용한 경우(예외사항)
- 예: time, war, home, life, water, world
-
-
stoplist 제거 방법
-
어휘분석기의 출력(토큰)과 stoplist 비교(비추)
- 이진탐색 또는 해싱이용
-
어휘분석기 내부에서 stoplist 제거(추천)
- stop words file에서 stoplist를 읽음
- stoplist에서 DFA(유한오토마타)를 생성
- 텍스트(입력파일)에서 색인어(term) 목록을 출력
-