본문 바로가기

검색 엔진

[박혜웅] 적합성 피드백(relevance feedback)

  •  relavance feedback(적합성 피드백, 연관 피드백)

    • 불완전한 초기 질의를 수정(가중치를 수정하거나 용어자체를 수정)하여 검색된 문서의 적합성(정확도와 조회율)을 높이는 것
    • 사용자가 자신의 검색 결과를 보고 각 문서에 대한 적합성 여부를 표시하면 시스템이 초기 질의를 수정하여 다시 검색을 수행

      • 정보 검색에 있어서 컴퓨터 시스템과 사용자의 협업을 통해 검색을 수행하는 방법.
      • 적절한 문서는 증가시키고 부적절한 문서는 줄여 나가 사용자가 원하는 정보를 찾을 수 있도록 한다.
    • 적합성 피드백을 위한 2가지 기본 요소

      • 질의 확장(수정)
      • 용어 가중치 재산정

 

  • 새로운 질의용어를 추가하기 위한 방법

    • 개개의 질의용어에 대하여 가장 연관 있는 용어를 나열
    • 연관문헌(적합한 문헌)에 포함된 용어 목록 나열
    • 렉시콘에 역문헌빈도수와 색인어와 가장 유사한 단어 몇개를 포함한다.

 

  • 적합성 피드백의 구현 방법

    • 질의를 수정하지 않고, 질의용어(검색어)의 가중치를 재산정

      • 검색이 되지 않은 문서는 가중치를 수정하여도 검색되지 않는다.
      • 확률모델의 가중치 재산정 기법
    • 질의용어 가중치를 재산정하지 않고, 질의 용어만 수정

      • 시소러스 이용

        • 용어-용어간 연결 또는 클러스터링 이용
    • 질의용어 가중치를 재산정하여, 질의를 수정

      • Rocchio, Ide의 방법 

 

  • 모델별 적합성 피드백

    • 불리언 모델

      • 수정된 불리언 질의를 자동으로 구성하기 위한 전방처리기 사용
      • 사용자에게 순위부여된 용어의 목록 제공
    • 벡터공간 모델

      • Rocchio, Ide의 방법
    • 확률 모델

      • Crof의 방법

 

  • 적합성피드백의 순서

    1. 질의에 대한 검색결과를 사용자가 확인한다.
    2. 문서목록중 적합하다고 판단되는 문서에 표시한다.
    3. 정보검색시스템은 질의를 수정하여 다시 검색한다.

      • 1번 부터 다시 반복한다.
      • 1-3번 과정을 반복할 수록 검색결과는 좋아진다.

 

  • Rocchio 의 질의 백터 가중치 재산정 방법

    • 적합문서에 포함된 검색어의 가중치를 증가시키고, 비적합문서에 포함된 검색어의 가중치를 감소시켜 질의를 재생성
    •  

 

  • Ide 의 질의 백터 가중치 재산정 방법

    • Rocchio 의 방법을 변형
    • 성능상 Rocchio 의 방법와의 차이는 없음
    • Ide Regular

      •  정규화 부분 제거

    • Ide Dec-hi

      • 비적합문서의 평균 벡터 대신 최상위의 비적합문서의 벡터로 대체

    • 비적합문서의 벡터 부분 제거


      •  

 

 

  • 적합성 피드백의 평가방법

    • 피드백을 사용하지 않는 경우와 피드백 1회를 사용한 경우 비교
    • 이미 표시되었던 검색결과는 재구성된 질의에 의한 검색결과에서 표시하지 않음

 

 

 

이 글은 스프링노트에서 작성되었습니다.