본문 바로가기

자료구조 & 알고리즘/문자열 매칭 알고리즘

[박혜웅] 연속된 부분 문자열 (sistring)

  • sistring(시스트링): 텍스트에 대하여, 시작점으로부터 오른쪽끝까지 연속된 substring(부문자열)

    • Semi-Infinite string (반무한 문자열)

       

    • sistring 은 시작위치(position) 으로 식별됨

      • text에서 sistring을 생성할 때, 문자,단어,문장,문단 중에서 하나를 선택하여 단위로 사용할 수 있음
      • 주로 단어 단위로 사용(문자단위보다 저장공간이 20%로 감소)

 

  •  sistring 끼리의 비교

    • "A SA..." < "AMP...." < "E ST...."
    • 공백이 가장 앞이며 나머지는 알파벳순으로 비교

 

  • sistring의 예

    •  sistring.png