-
stoplist(불용어목록) 의 특징
- 색인어로서 가치가 없다고 판단되는 용어 목록
- 영문텍스트에서 20~30% 정도 발생
- 색인어목록에서 stoplist를 제거할 경우, 색인속도향상과 메모리용량 감소, 검색속도 향상
-
stoplist의 판정방법
-
문서에 자주 포함하는 단어는 가치가 없으므로 stoplist에 포함됨.
- 예: 컴퓨터분야에서 computer, program, source, machine, language
-
문서에 자주 포함하지만 색인어로 유용한 경우(예외사항)
- 예: time, war, home, life, water, world
-
-
stoplist 제거 방법
-
어휘분석기의 출력(토큰)과 stoplist 비교(비추)
- 이진탐색 또는 해싱이용
-
어휘분석기 내부에서 stoplist 제거(추천)
- stop words file에서 stoplist를 읽음
- stoplist에서 DFA(유한오토마타)를 생성
- 텍스트(입력파일)에서 색인어(term) 목록을 출력
-
'검색 엔진' 카테고리의 다른 글
[박혜웅] 정보검색시스템과 DBMS의 비교 (0) | 2010.03.27 |
---|---|
[박혜웅] 유의어 사전 (thesaurus) (0) | 2010.03.27 |
[박혜웅] 어간 추출 (stemming) (0) | 2010.03.27 |
[박헤웅] 어휘 분석 (lexical analysis) (0) | 2010.03.27 |
[박혜웅] 검색 연산의 종류 (0) | 2010.03.27 |