검색 엔진
[박혜웅] 검색결과 평가(evaluation of IR)
BAGE
2010. 3. 27. 15:54
-
실행요율
- 시스템 사용시간
- 시스템 사용시간
-
저장효율
-
자료 저장에 필요한 파일크기(byte) 비율
- 문헌크기+색인크기 / 문헌크기
- 문헌크기+색인크기 / 문헌크기
-
-
검색효율
- 적합문서라고 판단하는 기준이 주관적이라서 신뢰성 문제있음
-
검색효율 판단 방법: 재현율과 정확률(precision)
-
재현율(recall, 조회율)
- 총 적합문서중 검색결과에 표시된 문서의 비율
- 특허,법률등에선 재현율이 높아야 함. (최대한 많은 결과를 표시하도록)
-
정확도
- 총 검색결과중 적합한 문서의 비율
- 웹검색은 정확율이 높아야 함.(사용자가 최소한의 결과만 검토하므로)
-
-
재현율과 정확율은 반비례 관계
- 보다 많은 문서가 검색될 수록(재현율이 높을수록) 적합하지 않은 문서가 포함될 확률이 높다(정확율이 낮아질 가능성이 높다).
-
결합평가 측정치 E
- P:정확율, R:재현율, b: 사용자의 요구(재현율/정확율)
- b=2이면, 사용자가 재현율을 정확율보다 2배 크게 요구한 다는 뜻이다.
테스트 컬렉션
이 글은 스프링노트에서 작성되었습니다.