본문 바로가기

검색 엔진

[박혜웅] 불용어 목록 (stoplist)

  • stoplist(불용어목록) 의 특징

    • 색인어로서 가치가 없다고 판단되는 용어 목록
    • 영문텍스트에서 20~30% 정도 발생
    • 색인어목록에서 stoplist를 제거할 경우, 색인속도향상과 메모리용량 감소, 검색속도 향상

 

  • stoplist의 판정방법

    • 문서에 자주 포함하는 단어는 가치가 없으므로 stoplist에 포함됨.

      • 예: 컴퓨터분야에서 computer, program, source, machine, language
    • 문서에 자주 포함하지만 색인어로 유용한 경우(예외사항)

      • 예: time, war, home, life, water, world

 

  • stoplist 제거 방법

    • 어휘분석기의 출력(토큰)과 stoplist 비교(비추)

      • 이진탐색 또는 해싱이용
    • 어휘분석기 내부에서 stoplist 제거(추천)

      1. stop words file에서  stoplist를 읽음
      2. stoplist에서 DFA(유한오토마타)를 생성
      3. 텍스트(입력파일)에서 색인어(term) 목록을 출력