본문 바로가기

검색 엔진

[박혜웅] 검색 연산의 종류

  • 검색 연산의 종류

    • 질의연산
    • 문헌연산
    • 용어연산
  • 질의연산

    • 질의를 분해, 문헌식별자와 결합, 수정하는 과정
    • 질의: 사용자가 검색시스템에 요청하는 형식 문장

 

  • 질의연산의 종류

    • 질의 분해(파싱)

      • 예: 불리언 질의 -> 단어 + 불리언 연산자
    • 문헌식별자와 결합

      • 분해된 질의 단어별로 문헌식별자와 결합
    • 질의 수정

      • 검색결과의 문헌들을 참고하여 질의 용어가 추가/삭제됨
      • 예: relevance feedback
  • 문헌연산

    • 문헌식별자(문서 ID) 부여
    • 구성항목(제목, 저자...) 들로 파싱
    • 구성항목(마다 항목식별자 부여
  • 용어연산

    • 정보검색 시스템에 있는 용어들에 대한 연산

 

  • 용어연산의 종류

    • lexical analysis(어휘 분석)
    • stoplist(불용어목록)

      • 잠재적인 색인용어중에서 색인하지 않을 단어 목록
      • 예: but, or, not
    • stemming(스테밍)

      • 공통 어근 형태로 변환
    • thesaurus(시소러스)

      • 시소러스를 이용하여 동의어 목록 또는 동의어 관계 출력
    • 절단

      • 와일드카드문자를 사용하여 단어 융합
      • (예) 절단? -> 절단하다, 절단된, 절단
    • 가중치부여

      • 용어의 통계분포에 의한 가중치 부여
      • 통계분포: 용어의 문헌, 문헌집합에서의 발생빈도

이 글은 스프링노트에서 작성되었습니다.