본문 바로가기

검색 엔진

[박혜웅] 문서의 랭킹(가중치)를 결정하는 기본 요소

대부분의 검색모델에서 문서의 랭킹(가중치)를 결정할 때 기본적으로 사용하는 요소는 다음과 같으며,
질의어에 포함된 단어들을 키워드라 할 때, 아래의 각 값이 클 수록 가중치가 높아집니다.
- TF
- IDF
- 문서길이의 역


TF = term frequency (문서안에서 키워드의 출현 빈도)
키워드가 문서안에 많이 있다면, 해당 문서는 키워드와 관련될 확률이 높으므로, 가중치가 높아집니다.

IDF = inverse document frequency (전체 문서중 키워드의 출현빈도의 역)
전체 문서들중 키워드가 포함된 문서가 적다면, 키워드는 희소성이 있는 것이므로, 가중치가 높아집니다.

문서길이의 역 (문서안의 색인어 수)
문서의 길이가 짧을수록 키워드가 포함될 확률은 낮아집니다.
키워드가 포함될 확률이 낮으면서 포함되었다는 것은 그 키워드가 문서에서 중요한 의미를 가질 확률이 높아지므로, 가중치가 높아집니다.