본문 바로가기

검색 엔진

[박혜웅] 확률 모델(probabilistic model)

  •  확률 모델

    • 전체 문서에 대한 질의에 대한 적합성(연관성) 정보가 검색하기 전에 수행되어 있다고 가정
    • 확률모델의 유사도 계산 방법

      • log( 1/ IDF )

        • IDF(분모): 전체문서중 용어가 포함된 문서가 적을 수록 가중치가 높다.

          • n/N ==> n/N-n

 

  • 확률모델의 용어 가중치 계산

    • log( TF / IDF )

      • TF(분자): 적합문서중 용어가 포함된 문서가 많을 수록 가중치가 높다.

        • r/R ==> r/R-r
      • IDF(분모): 전체문서중 용어가 포함된 문서가 적을 수록 가중치가 높다.

        • n/N ==> n-r / N-n-R+r
    •  

 

  • Crof의 용어 가중치 계산

    •