본문 바로가기

검색 엔진

[강한구] Lucene을 보자

http://oak.cs.ucla.edu/cs144/projects/lucene/

http://hackerlabs.org/blog/2011/10/01/hacking-lucene-the-index-format/  (이 자료 대박~!!!)

http://lucene.apache.org/core/old_versioned_docs/versions/3_5_0/fileformats.html


Lucene 3.6 으로 진행하려고합니다.

4.3.0이 나온상태에서 굳이 3.6을 보는 이유는, 해당 버전의 자료 존재여부입니다.

4.3.0은 문서가 없어도 너~무 없어요;;


목표가 있어야 어디까지 공부할지가 나오겠죠?  Lucene에서 알아볼것은 다음과 같습니다.

색인 구조는 어떻게 생겨 먹었는지, 검색은 어떻게 하는지, segment merge, update/delete, optimize는 어떻게 하는지 입니다.

알려고 하는 이유는 현재 Lucene 을 이용해서 서비스도 하고 오픈소스 Crescent에 간간히 패치도 내고 있는데,

Lucene에 대한 이해도가 너무 낮기 때문이고,

가장 중요한 이유는 현재 서비스한 검색이 Optimize 하거나 검색 서비스가 되는 상황에서 증분색인을 돌리면 엄청난 CPU
부하발생과 메모리를 엄청 잡아먹는데 왜 그러는지 알고 싶어서입니다.


진행은 편의상 말을 놓겠습니다.