'lucene'에 해당되는 글 '2'건

  1. 2008/01/21 루씬 Query (1)
  2. 2008/01/09 [lucene] CLucene 설치 방법

루씬 Query

dev/검색 2008/01/21 17:08

루씬에 내장된 Query 기능은 다양하다.
그중, 몇가지 한글 문서 검색에 사용할 수 있을 만한 Query Class를 살펴보면 다음과 같다.

1. Term Query.
   단순히 특정 필드에 특정 term이 존재하는 document를 검색한다.

2. Range Query.
   특정 필드 값의 시작~끝 범위에 존재하는지 검사한 후, 해당 document를 검색해낸다.

3. Prefix Query.
   문자열의 prefix를 포함하는지 검색하며, 이는 Category별로 분류되어있는 index를 검색할때 유용할 것으로 보인다.

4. Boolean Query.
   몇몇 query를 조합하여 질의가 가능하다. - AND, OR, NOT

5. Phrase Query.
   query term의 인접성을 만족하는 document를 검색해낸다.
   이것은 루씬의 indexing 정보에 각 term의 slop 정보가 포함되어 있기 때문에 가능하다.
   예를 들어 "빠르게 달리는 갈색 머리를 가진 늑대같은 남자"라는 document는
   "갈색", "늑대같은" 사이의 slop이 3이상으로 query 되어야 검색이 된다는 것이다.

6. Wildcard Query
   한글 문서 indexing에서 사용할 수 있을지 고민 중이다.

7. Fuzzy Query
   유사 term 검색용으로서, 특정 term과 비슷한 term을 검색한다.
   유사어, 혹은 speller에 적용 가능할지 검토 중이다.



2008/01/21 17:08 2008/01/21 17:08
Posted by scott
TAG ,
1. CLucene의 최신 버전은 0.9.20이며 아래 URL에서 구할수 있다.
http://sourceforge.net/projects/clucene/

2. GNU의 배포 형식을 따르고 있어 autotools로 컴파일, Library를 생성, system 설치가 가능하다.

Utility 참고 사이트 & download
http://www.gnu.org/software/autoconf/
http://www.gnu.org/software/automake/
http://www.gnu.org/software/libtool/
http://www.gnu.org/software/m4/

다음은 Build 과정이다.

partita@ubuntu-vm:/mnt/hgfs/win_shared/SearchBooster/clucene-core-0.9.20$./configure

partita@ubuntu-vm:/mnt/hgfs/win_shared/SearchBooster/clucene-core-0.9.20$make

partita@ubuntu-vm:/mnt/hgfs/win_shared/SearchBooster/clucene-core-0.9.20$make install

1) path 설정 : configure의 prefix를 지정하지 않으면 Makefile 생성시 default 설치 경로인 /usr/local을 지정하게 되며 make install을 통한 최종 라이브러리 설치 경로는 /usr/local/lib, 헤더 설치 경로는 /usr/local/include 이다.
따라서 CLucene 라이브러리를 링크하고자 하는 프로그램은 위의 lib, include 경로를 /etc/profile이나, LD_LIBRARY_PATH에 설정하여야 링크시 에러가 발생하지 않는다.
또는 ld.so.conf에 경로를 추가하는 방법도 된다고 한다.

2) autotools를 사용하여 빌드하면 static 라이브러리와 dynamic 라이브러리 모두 생성이 되며 install 시에도 두가지 모두 설치 디렉토리에 복사된다.
따라서 clucene 라이브러리를 사용하고자 하는 프로그램은 두가지 방법으로 링크가 가능하다.

3) demo 실행
partita@ubuntu-vm:/mnt/hgfs/win_shared/SearchBooster/clucene-core-0.9.20/src/demo$make
위와 같이 실행하면 cl_demo 실행 스크립트가 생성되는데, 이것은 테스트용으로 실제 설치된 clucene 라이브러리를 링크하는 것이 아니고 clucene 소스파일을 통판으로 묶어서 컴파일된 실행 이미지를 생성, 링크하는 것이다.

partita@ubuntu-vm:/mnt/hgfs/win_shared/SearchBooster/clucene-core-0.9.20/src/demo$./cl_demo

<sample text를 이용하여 indexing 과정>

사용자 삽입 이미지



<index와 segment 파일 생성>
사용자 삽입 이미지


<query, search 화면>
사용자 삽입 이미지


샘플 데이타는 /clucene-core-0.9.20/test/data/ 아래에 있다.


2008/01/09 15:29 2008/01/09 15:29
Posted by scott