Các bƣớc sử dụng Lucene

Một phần của tài liệu nghiên cứu thuật toán knuth-morris-pratt và ứng dụng (Trang 66 - 67)

1. Mô tả đối tƣợng cần đánh chỉ mục: Lucene coi mỗi đối tƣợng cần đánh chỉ mục là một Document. Mỗi Document có thể có nhiều Field, mỗi Field tƣơng ứng một thuộc tính của đối tƣợng cần đánh chỉ mục. Ví dụ, muốn tìm kiếm các trang web ở dạng HTML. Nhƣ vậy đối tƣợng cần đánh chỉ mục là trang HTML; các thuộc tính có thể là nơi lƣu trữ (host), đƣờng dẫn, tiêu đề, metadata và nội dung của chính trang web. Với mỗi Field, bạn có thể chọn giữa đánh chỉ mục hay không đánh chỉ mục. Nếu chọn đánh chỉ mục, bạn có thể tìm kiếm trên Field đó. Các Field không đánh chỉ mục thƣờng là các Field không quan trọng trong quá trình tìm kiếm và phục vụ chủ yếu cho nhu cầu trình bày kết quả trả về.

2. Đánh chỉ mục: Thực hiện xây dựng các hàm công cụ để chuyển đổi dữ liệu ban đầu thành dữ liệu mô tả trong Document. Ví dụ, nếu dữ liệu ban đầu của là tập tin PDF hay Word, thì phải có các hàm để đọc hiểu các định dạng này và chuyển về dạng chuỗi văn bản tƣơng ứng. Thao tác đánh chỉ mục khá phức tạp. Trƣớc hết dữ liệu văn bản sẽ đƣợc phân tích thành các từ khóa, đồng thời loại bỏ các từ không dùng đến (stop words, trong tiếng Anh các từ nhƣ a, an, the là các stop words), sau đó các từ khóa sẽ đƣợc dùng để tạo inverted index (chỉ mục nghịch đảo) và lƣu thành các phân đoạn dạng thuận tiện cho việc tìm kiếm sau này. Chỉ mục nghịch đảo dùng để chỉ cách lƣu trữ danh sách các tài liệu mà có chứa từ cho trƣớc. Gọi là nghịch đảo bởi vì thông thƣờng, với mỗi tài liệu cho trƣớc, ngƣời ta lƣu trữ danh sách các từ có trong tài liệu đó. Ví dụ, với từ khóa Lucene, ta sẽ lƣu trữ danh sách các trang web A, B, C có chứa từ khóa này. Sau này khi ngƣời dùng gõ vào từ khóa Lucene, danh

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

sách này có thể giúp định vị nhanh chóng các trang web có chứa nó. Nếu dùng chỉ mục thông thƣờng, phải quét qua hết các trang web có trong cơ sở dữ liệu mới tìm ra. Cách này rất tốn thời gian khi số lƣợng dữ liệu lớn.

3. Tìm kiếm: Sau khi dữ liệu đã đƣợc đánh chỉ mục, có thể thực hiện tìm kiếm trên chúng. Tìm kiếm toàn vẹn cho phép bạn có thể tìm kiếm theo danh sách các từ khóa cùng với các toán tử luận lí.

Lucene không phải là một ứng dụng hay một máy tìm kiếm hoàn chỉnh để ngƣời dùng có thể sử dụng ngay, đây chỉ là một thƣ viện, nó cung cấp các thành phần quan trọng nhất của một máy tìm kiếm đó là tạo chỉ mục và truy vấn. Chính vì chỉ cung cấp các thành phần quan trọng trong việc tạo chỉ mục nên ngƣời dùng rất linh hoạt trong việc ứng dụng vào sản phẩm của mình, cũng nhƣ có một số cải tiến cho phù hợp hơn.

Một phần của tài liệu nghiên cứu thuật toán knuth-morris-pratt và ứng dụng (Trang 66 - 67)

Tải bản đầy đủ (PDF)

(76 trang)