본문 바로가기

검색 엔진

[박혜웅] 유의어 사전 (thesaurus)

  • thesaurus(시소러스)의 특징

    • 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분하여, 생성한 용어사전
    • 특정 주제영역(domain)에 따라 다르게 설계
    • 현재는 대부분 수작업으로 시소러스 생성
    • 동형이의어(homographs)는 시소러스의 사용에 대한 복잡성이 증가함

      • 수작업으로는 가능하지만, 자동으로는 처리하기 어려움.
    • 특정용어는 매우 빠르게 변경(evolve)되는 경향이 있어 유지,관리가 어려움

 

  • 시소러스의 이용

    • 검색시 수집된 문헌의 수가 너무 작으면

      • 동의어, 반의어, 상의어, 하의어를 이용하여 질의를 확장
    • 검색시 수집된 문헌의 수가 너무 크면

      • 특정한(specific) 질의를 축소

 

 

  • 시소러스의 예

    • INSPEC thesaurus 


      • NT: 특정한 용어
      • BT: 일반적인 용어
      • RT: 관련용어

        • (부분-전체) 또는 (객체-특성)
      • UF: 대체집합
      • CC, FC: INSPEC 분류설계, 용어가 사용되는 주제설계

 

  • 시소러스의 특성 구분

    • 조합(cordination) 레벨

      • 선조합(precordination): 수작업에 의한 시소러스
      • 후조합(postcordination): 자동화에 의한 시소러스
    • 용어 관련성(term relationship)

      • 동등한 관련성

        • 동의어(synonymy)

          • 예: 상품명, 대중적인용어, 대체용어
        • 준동의어(quasi-synonymy)

          • 예: 유전현상(genetics), 유전형질(heredity)
      • 계층적 분류

        • 예: dog, shepherd
      • 비계층적 분류

        • 부분적

          • 예: bus, seat
        • 속성

          • 예: rose, fragance(향기)

 

  • 시소러스의 생성

    • 수동생성

      1. 주제영역을 정의한다.
      2. 영역을 세부영역(항목)으로 분할
      3. 세부영역에 대한 용어 수집

        • 색인, 백과사전 , 교과서, 잡지제목, 목록등 이용
      4. 용어 분석

        • 동의어, 광이어, 합의어에 대하여 분석
        • 정의 및 의미범위에 대한 주석포함
      5. 계층화
      6. 일관성 검사, 정제
    • 자동생성

      1. 색인할 어휘 평가 및 선택

        • 출현빈도수에 따른 선택: 중간정도의 빈도수 선호
        • 분별값: 분별(discriminate, distingush)이 쉬운 용어 선택
        • 포아손(Poisson) 방법 이용: 일상적이지 않은 단어 선택
      2. 용어간 유사성 계산

        • Cosin
        • Dice: (2*공통 관련문헌수)/(A관련문헌수+B관련문헌수)

          • 두 용어를 A,B 라 가정할 때
      3. 어휘(계층) 구성

        • 클러스터링: 유사성 정보를 이용하여 용어를 분류
        • 계층화

          • 빈도수가 높을 수록 상위 개념
      4. 시소러스의 병합