본문 바로가기

검색 엔진

[박혜웅] 검색결과 평가(evaluation of IR)

  • 실행요율

    • 시스템 사용시간
  • 저장효율

    • 자료 저장에 필요한 파일크기(byte) 비율

      • 문헌크기+색인크기 / 문헌크기
  • 검색효율

    • 적합문서라고 판단하는 기준이 주관적이라서 신뢰성 문제있음
    • 검색효율 판단 방법: 재현율과 정확률(precision)

      • 재현율(recall, 조회율)

        • 총 적합문서중 검색결과에 표시된 문서의 비율
        • 특허,법률등에선 재현율이 높아야 함. (최대한 많은 결과를 표시하도록)
      • 정확도

        • 총 검색결과중 적합한 문서의 비율
        • 웹검색은 정확율이 높아야 함.(사용자가 최소한의 결과만 검토하므로)

 

  • 재현율과 정확율은 반비례 관계

    •  보다 많은 문서가 검색될 수록(재현율이 높을수록) 적합하지 않은 문서가 포함될 확률이 높다(정확율이 낮아질 가능성이 높다).
  • 결합평가 측정치 E

    • P:정확율, R:재현율, b: 사용자의 요구(재현율/정확율)
    • b=2이면, 사용자가 재현율을 정확율보다 2배 크게 요구한 다는 뜻이다.


 

 

테스트 컬렉션 

 

이 글은 스프링노트에서 작성되었습니다.