[박혜웅] 역파일 (inverted file)

역파일의 특징
- 단어번호, 문헌번호에 대해서 순서대로 정렬한다.
  1. 단어번호에 대한 정렬은 질의어(검색어)와 연관된 문서집합을 찾는데 사용
  2. 문헌번호에 대한 정렬은 검색어가 여러 단어일 경우, 각각의 단어에 대한 문서집합 간의 연산(merging)을 위해 필요함
- 구현은 쉽다.
- 업데이트가 어렵다.
  - 정렬된 상태를 유지해야하므로

렉시콘에 포함되지 않는 글자 또는 단어
- 불용어 목록: 관사,전치사등
- 색인될 필요가 없는 문자열: 숫자등
- 단어 구분의 규칙이 되는 문자: 공백, 마침표등

[박혜웅] 집합 (set) (0)	2010.03.27
[박혜웅] 요약 파일 (signature file) (0)	2010.03.27
[박혜웅] 접두 B+트리 (prefix B+tree) (0)	2010.03.27
[박혜웅] 자료구조의 종류 (0)	2010.03.27
[박혜웅] 비트벡터와 해싱 (bitvector & hashing) (0)	2009.03.04

바게의 정보검색