CHƯƠNG IV CÀI ĐẶT HỆ THỐNG

Một phần của tài liệu Báo cáo đồ án tốt nghiệp: Tìm kiếm và quản lý đồ án sử dụng Lucene (Trang 31 - 41)

Để thực hiện việc tìm kiếm trên các tài liệu (đồ án), ở đây ta dùng thư viện mã nguồn mở Lucene để đánh chỉ mục và tìm kiếm. Lucene là một thư viện mã nguồn mở cho tìm kiếm toàn văn, được phát triển bởi Dough Cutting (hiện đang làm việc cho Yahoo). Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm. Để có thể sử dụng Lucene, cần phải có sẵn dữ liệu. Dữ liệu có thể là tập hợp các tập tin dạng PDF, Word hay là các trang web HTML; hoặc là dữ liệu lưu trong các hệ quản trị CSDL như MS SQL Server hay MySQL. Với Lucene, ta có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau này có thể thực hiện thao tác tìm kiếm toàn văn trên dữ liệu đó.

Việc sử dụng thư viện Lucene có một số ưu điểm so với việc tìm kiếm sử dụng câu lệnh SQL như:

 Có thể tìm kiếm toàn văn trên các tài liệu.

 Không bị giới hạn bởi cú pháp của ngôn ngữ SQL.

 Tốc độ tìm kiếm nhanh hơn rất nhiều.

 Độ chính xác và số lượng kết quả trả về đầy đủ hơn.

Một trong những bước cơ bản khi xây dựng hệ thống tìm kiếm là trích rút văn bản từ tài liệu cần đánh chỉ mục. Nếu tài liệu là ở định dạng text, thì ta có thể dễ dàng sử dụng thư viện có sẵn của java để trích rút văn bản trong file đó. Tuy nhiên, trong thực tế, phần lớn tài liệu được lưu dưới rất nhiều định dạng như doc, docx, pdf hay html... Do đó, để đánh chỉ mục với mỗi tài liệu, đầu tiên chúng ta cần xác định tài liệu thuộc loại gì, sau đó dùng API cần thiết để trích rút ra văn bản từ tài liệu đó. Ở đây ta dùng một bộ thư viện mã nguồn mở gọi là Tika để làm những việc trên.

Ngoài ra chương trình còn sử dụng một số thư viện như View.JS để đọc tài liệu trên web, PHPExcel để import, export CSDL sang file Excel, PHPJavaBridge để kết nối, truyền dữ liệu từ chương trình java sang trang web sử dụng php.

4.2. Thử nghiệm chương trình

4.2.1. Giao diện chương trình

Hình 27: Giao diện tìm kiếm

Hình 28: Giao diện xem đồ án

Hình 31: Giao diện quản lý đồ án của người dùng

Hình 34: Giao diện sửa thông tin người dùng

4.3. Đánh giá kết quả

4.3.1. Ưu điểm

 Hệ thống hoàn thành đầy đủ các chức năng yêu cầu

 Tốc độ tìm kiếm nhanh, kết quả tìm kiếm tương đối chính xác

 Các chức năng quản lý thực hiện tốt 4.3.2. Nhược điểm

 Giao diện chưa được đẹp, thân thiện với người sử dụng

 Các chức năng chưa phong phú.

Một phần của tài liệu Báo cáo đồ án tốt nghiệp: Tìm kiếm và quản lý đồ án sử dụng Lucene (Trang 31 - 41)