Giới thiệu bộ thư viện JakataLucene

Jakata Lucene được viết bởi một nhĩm lập trình do Doug Cutting đứng đầu.Phát triển từ cuối năm 1997 đầu năm 1998 cho đến nay đã cĩ bản Lucene v1.3-RC5(cĩ thể tải miễn phí từ địa chỉ http://jakata.apache.org/builds/jakata-

lucene/release/v1.3-rc5/). Jakata Lucene là bộ cơng cụ để phát triển một hệ

thống Search Engine hồn chỉnh đáp ứng đầy đủ các yêu cầu về tìm kiếm thơng tin trên các dữ liệu văn bản (text) và siêu văn bản(html, htm) trong phiên bản đầy đủ bổ sung các chức năng tìm kiếm trên các tài liệu cĩ định dạng đăc biêt như các file *.doc ,*.pdf ...Tồn bộ các thư viện được viết bằng mã Java vì vậy cĩ tính mở cao dễ sử dụng lại để xây dựng các Search Engine theo các yêu cầu

khác nhau.Đã cĩ rất nhiều ứng dụng dựa trên bộ thư viện Jakata Lucene ví dụ:

Bob Dylan ( http://bobdylan.com/ ) Jive Forum

(http://www.jivesoftware.com/)...

Thư viện Jakata Lucene được tổ chức theo cấu trúc org.apache.lucene, bao gồm các gĩi thư viện thành phần như sau:

Analysis: chứa các lớp tinh chỉnh một xâu ki tự thành các từ, cụm từ khố cĩ thể đánh chỉ mục được.

Analysis.de: cĩ chức năng giống gĩi Analysis nhưng cĩ hỗ trợ cho việc xử lý các tài liệu tiếng Đức

Analysis.standard:xây dựng một cách phân tích nội dung câu truy vấn một các đơn giản.Lưu các từ thành mảng các đối tượng String để thuận tiện cho việc so sánh

Document: bao gồm các chức năng thao tác với các tài liệu

Index: chứa các lớp cho phép truy cập,hiệu chỉnh các chỉ mục

QueryParser: chứa các lớp với chức năng phân tích câu truy vấn phục vụ tìm kiếm thơng tin

Search: Cài đặt các lớp phục vụ tìm kiếm thơng tin trên các bảng chỉ mục

Store: phục vụ các chức năng lưu giữ dữ liệu (I/O)

Util: Bao gồm các lớp chứa các tiện ích phục vụ các chức năng khác nhau

Để sử dụng lucene trong ứng dụng ta cần làm theo các bước sau:

 Với mỗi tài liệu sử dụng lớp Field trong pakage Document đánh chỉ mục cho các cặp giá trị tương ứng (key,value), key là số hiệu của trường và value là giá trị mơ tả tài liệu.

 Tạo ra một đối tượng IndexWriter để thêm các tài liệu trên vào bảng chỉ mục - sử dụng phương thức addDocument()

 Dùng QueryParse.parce() để tinh chỉnh câu truy vấn tài liệu

 Tạo đối tượng IndexSearch sử dụng phương thức Search() để tìm các tài liệu thích hợp

Lucene được xây dụng như một mơ hình Search Engine, nĩ là mơ hình tương đối chuẩn và uyển chuyển cho việc phát triển Search Engine đặc dụng.Với mục đích trên, Lucene chưa phải là một ứng dụng hồn chỉnh các Index dữ liệu khá thủ cơng,dữ liệu cần index phải nằm cùng một thư mục nào đĩ,tài liệu index là các file cụ thể chưa đáp ứng được yêu cầu thu thập dữ liệu trên mạng.Mặt khác đánh giá độ quan trọng của tài liệu mang tính chất hình thức mặc dù đã nghiên cứu nhưng chưa đưa ra giải pháp xử lý thơng tin mờ cũng như xử lý Unicode. Các yêu cầu xử lý cao cấp như:xử lý ngơn ngữ tự nhiên, xử lý vấn đều đồng âm.. đều chưa tiếp cận. Tĩm lại với quan điểm xem Lucene như một mơ hình chúng ta cần cĩ những hướng nghiên cứu phát triển để xây dựng một hệ thống hồn chỉnh hơn

Giới thiệu bộ thư viện JakataLucene

Giới thiệu một số Search Engine điển hình