본문 바로가기

검색 엔진

[박혜웅] 유의어 사전 (thesaurus)

BAGE 2010. 3. 27. 17:31

thesaurus(시소러스)의 특징
- 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분하여, 생성한 용어사전
- 특정 주제영역(domain)에 따라 다르게 설계
- 현재는 대부분 수작업으로 시소러스 생성
- 동형이의어(homographs)는 시소러스의 사용에 대한 복잡성이 증가함
  - 수작업으로는 가능하지만, 자동으로는 처리하기 어려움.
- 특정용어는 매우 빠르게 변경(evolve)되는 경향이 있어 유지,관리가 어려움

시소러스의 이용
- 검색시 수집된 문헌의 수가 너무 작으면
  - 동의어, 반의어, 상의어, 하의어를 이용하여 질의를 확장
- 검색시 수집된 문헌의 수가 너무 크면
  - 특정한(specific) 질의를 축소

시소러스의 예
- INSPEC thesaurus
  - NT: 특정한 용어
  - BT: 일반적인 용어
  - RT: 관련용어
    - (부분-전체) 또는 (객체-특성)
  - UF: 대체집합
  - CC, FC: INSPEC 분류설계, 용어가 사용되는 주제설계

시소러스의 특성 구분
- 조합(cordination) 레벨
  - 선조합(precordination): 수작업에 의한 시소러스
  - 후조합(postcordination): 자동화에 의한 시소러스
- 용어 관련성(term relationship)
  - 동등한 관련성
    - 동의어(synonymy)
      - 예: 상품명, 대중적인용어, 대체용어
    - 준동의어(quasi-synonymy)
      - 예: 유전현상(genetics), 유전형질(heredity)
  - 계층적 분류
    - 예: dog, shepherd
  - 비계층적 분류
    - 부분적
      - 예: bus, seat
    - 속성
      - 예: rose, fragance(향기)

시소러스의 생성
- 수동생성
  1. 주제영역을 정의한다.
  2. 영역을 세부영역(항목)으로 분할
  3. 세부영역에 대한 용어 수집
    - 색인, 백과사전 , 교과서, 잡지제목, 목록등 이용
  4. 용어 분석
    - 동의어, 광이어, 합의어에 대하여 분석
    - 정의 및 의미범위에 대한 주석포함
  5. 계층화
  6. 일관성 검사, 정제
- 자동생성
- 1. 색인할 어휘 평가 및 선택
    - 출현빈도수에 따른 선택: 중간정도의 빈도수 선호
    - 분별값: 분별(discriminate, distingush)이 쉬운 용어 선택
    - 포아손(Poisson) 방법 이용: 일상적이지 않은 단어 선택
  2. 용어간 유사성 계산
    - Cosin
    - Dice: (2*공통 관련문헌수)/(A관련문헌수+B관련문헌수)
      - 두 용어를 A,B 라 가정할 때
  3. 어휘(계층) 구성
    - 클러스터링: 유사성 정보를 이용하여 용어를 분류
    - 계층화
      - 빈도수가 높을 수록 상위 개념
  4. 시소러스의 병합

'검색 엔진' 카테고리의 다른 글

[박혜웅] 색인 구조(indexing structure)의 종류 (0)	2010.03.27
[박혜웅] 정보검색시스템과 DBMS의 비교 (0)	2010.03.27
[박혜웅] 불용어 목록 (stoplist) (0)	2010.03.27
[박혜웅] 어간 추출 (stemming) (0)	2010.03.27
[박헤웅] 어휘 분석 (lexical analysis) (0)	2010.03.27

티스토리툴바