검색 엔진
[박혜웅] 유의어 사전 (thesaurus)
BAGE
2010. 3. 27. 17:31
-
thesaurus(시소러스)의 특징
- 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분하여, 생성한 용어사전
- 특정 주제영역(domain)에 따라 다르게 설계
- 현재는 대부분 수작업으로 시소러스 생성
-
동형이의어(homographs)는 시소러스의 사용에 대한 복잡성이 증가함
- 수작업으로는 가능하지만, 자동으로는 처리하기 어려움.
- 특정용어는 매우 빠르게 변경(evolve)되는 경향이 있어 유지,관리가 어려움
-
시소러스의 이용
-
검색시 수집된 문헌의 수가 너무 작으면
- 동의어, 반의어, 상의어, 하의어를 이용하여 질의를 확장
-
검색시 수집된 문헌의 수가 너무 크면
- 특정한(specific) 질의를 축소
-
-
시소러스의 예
-
INSPEC thesaurus
- NT: 특정한 용어
- BT: 일반적인 용어
-
RT: 관련용어
- (부분-전체) 또는 (객체-특성)
- UF: 대체집합
- CC, FC: INSPEC 분류설계, 용어가 사용되는 주제설계
-
-
시소러스의 특성 구분
-
조합(cordination) 레벨
- 선조합(precordination): 수작업에 의한 시소러스
- 후조합(postcordination): 자동화에 의한 시소러스
-
용어 관련성(term relationship)
-
동등한 관련성
-
동의어(synonymy)
- 예: 상품명, 대중적인용어, 대체용어
-
준동의어(quasi-synonymy)
- 예: 유전현상(genetics), 유전형질(heredity)
-
-
계층적 분류
- 예: dog, shepherd
-
비계층적 분류
-
부분적
- 예: bus, seat
-
속성
- 예: rose, fragance(향기)
-
-
-
-
시소러스의 생성
-
-
수동생성
- 주제영역을 정의한다.
- 영역을 세부영역(항목)으로 분할
-
세부영역에 대한 용어 수집
- 색인, 백과사전 , 교과서, 잡지제목, 목록등 이용
-
용어 분석
- 동의어, 광이어, 합의어에 대하여 분석
- 정의 및 의미범위에 대한 주석포함
- 계층화
- 일관성 검사, 정제
-
자동생성
-
-
색인할 어휘 평가 및 선택
- 출현빈도수에 따른 선택: 중간정도의 빈도수 선호
- 분별값: 분별(discriminate, distingush)이 쉬운 용어 선택
- 포아손(Poisson) 방법 이용: 일상적이지 않은 단어 선택
-
용어간 유사성 계산
- Cosin
-
Dice: (2*공통 관련문헌수)/(A관련문헌수+B관련문헌수)
- 두 용어를 A,B 라 가정할 때
-
어휘(계층) 구성
- 클러스터링: 유사성 정보를 이용하여 용어를 분류
-
계층화
- 빈도수가 높을 수록 상위 개념
- 시소러스의 병합
-
-