Nghiên cứu công nghệ tìm kiếm (mã nguồn mở) lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống văn bản

46 287 0
Nghiên cứu công nghệ tìm kiếm (mã nguồn mở) lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trước tiên, xin cảm ơn gia đình tơi ln cổ vũ, động viên, giúp đỡ tơi q trình hồn thiện luận văn Dưới bảo TS.Nguyễn Văn Vinh trường Đại học Cơng nghệ - Đại học Quốc Gia, tơi hồn thiện nhiệm vụ đề luận văn Tôi xin gửi lời cảm ơn sâu sắc tới TS.Nguyễn Văn Vinh tận tình hướng dẫn cho tơi định hướng ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thông tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Tơi xin cảm ơn bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt trình học tập làm luận văn Hà Nội, ngày 22 tháng 05 năm 2017 Tác giả luận văn Nguyễn Thị Loan LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu cơng nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải toán tìm kiếm hệ thống Văn bản” cơng trình nghiên cứu hướng dẫn khoa học TS.Nguyễn Văn Vinh, tham khảo nguồn tài liệu rõ trích dẫn danh mục tài liệu tham khảo Các nội dung công bố kết trình bày luận văn trung thực chưa công bố cơng trình Hà Nội, ngày 22 tháng 05 năm 2017 Tác giả luận văn Nguyễn Thị Loan MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 10 1.1 Khái niệm hệ thống tìm kiếm thơng tin 10 1.2 Các phận cấu thành hệ thống tìm kiếm thơng tin 10 1.3 Hệ thống tìm kiếm thơng tin Google 12 1.4 Kiến trúc hệ thống tìm kiếm thơng tin 14 CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN VỀ MÃ NGUỒN MỞ LUCENE 20 2.1 Giới thiệu thư viện Lucene 20 2.2 Quy trình đánh mục 23 2.3 Các toán tử đánh mục 23 2.4 Tối ưu hóa việc đánh mục 24 2.5 Tính đờ ng thời, an tồn tiến tình,ngăn chă ̣n các thực thi 24 2.6 Bô ̣ chuyể n đổ i câu truy vấ n của người dùng: QueryParser 25 2.7 Các biể u thức truy vấ n của QueryParser 25 2.8 Bộ phân tích – Analyzer: 26 2.9 Sử du ̣ng lớp IndexSearcher 26 2.10 Cú pháp truy vấn Lucene 27 2.11 Các máy tìm kiếm phát triển dựa Lucene 28 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 29 3.1 Tài mã nguồn Lucene.NET 29 3.2 Dữ liệu văn thử nghiệm 30 3.3 Mơ hình sở liệu 30 3.3.1 Lược đồ sở liệu 30 3.3.2 Danh sách bảng 31 3.3.3 Mô tả bảng 31 3.4 Giao diện 34 3.4.1 Giao diện trang Quản lý lĩnh vực 34 3.4.2 Giao diện trang Quản lý văn 35 3.4.3 Giao diện trang Cập nhật văn 35 3.4.4 Giao diện trang Tìm kiếm văn 36 3.4.5 Giao diện trang Tìm kiếm nâng cao văn 37 3.4.6 Giao diện trang Xem chi tiết văn 38 3.4.7 Giao diện trang Xem nội dung file văn 38 3.5 Đánh giá thử nghiệm 40 3.5.1 Mô hình kiến trúc ứng dụng thử nghiệm 40 3.5.2 Kịch kết 41 CHƯƠNG 4: KẾT LUẬN 44 4.1 Đánh giá kết nghiên cứu 44 TÀI LIỆU THAM KHẢO 46 DANH MỤC CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Việt CSDL Cơ sở liệu DBMS Hệ quản trị sở liệu (Database Management Systems) Search Engine Máy tìm kiếm Index Chỉ mục Crawl Thu thập liệu API Application Programming Interface Rank Hạng Stop word Là từ xuất nhiều không mang nhiều ý nghĩa (và, vẫn, vậy, nhưng, nếu, đáng lẽ, đang, thì, thế…) DANH MỤC CÁC BẢNG Bảng Tên Bảng Bảng 1.2.2.1 Bảng mục nghịch đảo Bảng 2.7.1 Bảng biểu thức truy vấn QueryParser Bảng 2.7.2 Bảng tốn tử tìm kiếm Bảng 3.3.1 Bảng danh sách bảng CSDL Bảng 3.3.3.1 Bảng Lĩnh vực Bảng 3.3.3.2 Bảng Người ký Bảng 3.3.3.3 Bảng Văn Bảng 3.3.3.4 Bảng Loại văn Bảng 3.3.3.5 Bảng Cơ quan ban hành Bảng 3.6.2.1 Bảng Kịch tìm kiếm Hệ thống tìm kiếm thơng thường Bảng 3.6.2.2 Bảng Kịch tìm kiếm Hệ thống tìm kiếm thơng tin DANH MỤC CÁC HÌNH VẼ Hình vẽ Tên hình Hình 1.3.1 Mơ hình kiến trúc hệ thống tìm kiếm Google Hình 1.4.1.1 Mơ hình kiến trúc hệ thống tìm kiếm thơng tin Hình 1.4.1.2 Quy trình thu thập liệu Hình 1.4.1.3 Quy trình đánh mục Hình 2.1.1 Lucene hệ thống tìm kiếm thơng tin Hình 2.2.1 Quy trình đánh mục Lucene Hình 2.7.1 Hình biểu thức truy vấn Hình 2.7.2 Hình từ viết tắt thay cho toán tử Hình 3.1.1 Hình tích hợp thư viện mã nguồn mở Lucene.net Hình 3.2.1 Hình Các tập tin kết xuất sau lập mục Hình 3.3.1 Hình lược đồ sở liệu Hình 3.4.1 Giao diện trang Quản lý lĩnh vực Hình 3.4.2 Giao diện trang Quản lý văn Hình 3.4.3 Giao diện trang Cập nhật văn Hình 3.4.4 Giao diện trang Tìm kiếm văn Hình 3.4.5 Giao diện trang Tìm kiếm nâng cao văn Hình 3.4.6 Giao diện trang Xem chi tiết văn Hình 3.4.7 Giao diện trang Xem nội dung file văn Hình 3.5.1 Hình Kiến trúc ứng dụng thử nghiệm MỞ ĐẦU Với phát triển không ngừng công nghệ thông tin, số lượng tài liệu điện tử người tạo ngày phong phú đa dạng, nhu cầu khai thác liệu kho tài liệu lớn, nhu cầu thường ngày thiết thực người sử dụng Tuy nhiên, khó khăn người gặp phải việc khai thác thông tin là: Khả tìm kiếm xác thơng tin cần tìm kho tài liệu, khả tìm kiếm nhanh với số lượng liệu lớn Nếu dùng hệ quản trị sở liệu quan hệ để tìm kiếm liệu gặp phải hạn chế như: Bị giới hạn cú pháp ngôn ngữ SQL, tốc độ tìm kiếm chậm tìm kiếm gần (dùng LIKE) sở liệu lớn…Điều thúc đẩy cho đời hệ thống tìm kiếm, điển hình cho hệ thống máy tìm kiếm Google Yahoo…Tuy nhiên, phần lớn cơng cụ tìm kiếm sản phẩm thương mại mã nguồn giữ bí mật Vì vậy, nhiều đơn vị phát triển phần mềm tự xây dựng từ đầu cơng cụ tìm kiếm cách sử dụng thư viện mã nguồn mở Trên giới có số thư viện mã nguồn mở hỗ trợ xây dựng hệ thống tìm kiếm thơng tin như: Lucene, Egothor, Xapian, MG4J, Sphinx…Trong số mã nguồn mở Lucene thư viện mã nguồn mở nhiều tổ chức, cá nhân sử dụng nhất, cụ thể: CNET sử dụng Lucene để tìm kiếm danh sách thể loại sản phẩm, Wikipedia dùng lucene để tìm kiếm nội dung tồn văn ElasticSearch Sorl hai cơng cụ tìm kiếm mạnh xây dựng phát triển dựa tảng Lucene,… Vì vậy, đề tài lựa chọn Lucene để xây dựng thử nghiệm hệ thống tìm kiếm thơng tin Đề tài luận văn “Nghiên cứu cơng nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải tốn tìm kiếm hệ thống Văn bản” cố gắng giải vấn đề nêu Luận văn kế thừa thư viện mã nguồn mở Lucene để xây dựng hệ thống tìm kiếm với hai thành phần Tạo mục Tìm kiếm Luận văn tập trung nghiên cứu cơng nghệ mã nguồn mở Lucene áp dụng cho toán quản lý Văn bản, đưa hướng phát triển tương lai Do thời gian có hạn, việc xử lý văn bản, theo dõi tiến độ xử lý, đánh giá kết xử lý… phức tạp nên luận văn tập trung hoàn thiện chức quản lý văn áp dụng công nghệ Lucene để đánh mục, tìm kiếm văn Nội dung mà luận văn nghiên cứu bao gồm: Tìm hiểu tổng quan hệ thống tìm kiếm thơng tin Tìm hiểu tổng quan cơng nghệ tìm kiếm mã nguồn mở Lucene Phân tích, thiết kế, xây dựng ứng dụng thử nghiệm Quản lý Văn Bố cục luận văn sau: Chương 1: Nghiên cứu tổng quan hệ thống tìm kiếm thơng tin, thành phần nguyên lý hoạt động hệ thống tìm kiếm thơng tin Chương 2: Nghiên cứu tính hoạt động mã nguồn mở Lucene, sử dụng mã nguồn mở Lucene.NET để xây dựng thử nghiệm hệ thống tìm kiếm thơng tin Chương 3: Trên sở nghiên cứu Hệ thống tìm kiếm thơng tin mã nguồn mở Lucene, đề xuất xây dựng thử nghiệm hệ thống tìm kiếm Văn với hai thành phần là: Tạo mục Tìm kiếm Chương 4: Trình bày kết đạt được, hạn chế luận văn hướng phát triển cho hệ thống quản lý Văn ứng dụng công nghệ Lucene tương lai CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN Với hệ thống có số lượng lớn tài liệu việc tra cứu, tìm kiếm thơng tin thơng thường chưa đáp ứng nhu cầu tìm kiếm người dùng Hệ thống chủ yếu tìm kiếm cách xác dựa tiêu đề tài liệu, sở liệu tìm kiếm đơn giản, tốc độ tìm kiếm chậm, chưa xác chưa hỗ trợ phép tốn tìm kiếm Vậy vấn đề cần cải thiện để cải thiện cho hệ thống tra cứu tìm kiếm thơng tin 1.1 Khái niệm hệ thống tìm kiếm thơng tin Theo lý thuyết, hệ thống tìm kiếm thơng tin hệ thống thơng tin Nó sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm phổ biến yếu tố thơng tin đến người sử dụng Hệ thống tìm kiếm thơng tin thường thao tác với liệu dạng văn khơng có giới hạn yếu tố thông tin văn Hệ thống thông tin bao gồm tập hợp yếu tố thông tin, tập yêu cầu vài chế tìm kiếm để định yếu tố thông tin liên quan đến yêu cầu Theo nguyên tắc, mối quan hệ câu truy vấn tài liệu có từ so sánh trực tiếp Nhưng thực tế, liên quan câu truy vấn tài liệu xác định định trực tiếp mà gián tiếp cách: tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ mục trước xác định mức độ liên quan Người sử dụng đưa vào câu hỏi, yêu cầu hệ thống tìm tập mục để tìm tài liệu liên quan, sau xếp tài liệu theo mức độ liên quan giảm dần trả cho người sử dụng 1.2 Các phận cấu thành hệ thống tìm kiếm thông tin 1.2.1 Bộ thu thập thông tin Bộ phận thu thập thơng tin chương trình chạy tự động dùng để thu thập, lấy liệu lưu trữ nội dung từ trang web Internet Bộ phận có thành phần chính: Một thành phần để theo dõi phát URL mới, phát URL thay đổi Một thành phần dùng để đọc đệ quy nội dung tài liệu tất trang web từ tập URL có, phân tích tài liệu, trích xuất nội dung tài liệu định dạng html, pdf, excel lưu trữ sở liệu thu thập 10 3.3.3.2 Bảng VB_NguoiKy Bảng 3.3.3.2: Bảng Người ký ST T Mã trường Kiểu trường PK Độ Null /F lớn K No Giá trị mặc định PK Mô tả ID Int Khóa Ten Nvarchar 200 No Tên người ký ChucVu Nvarchar 500 Yes Chức vụ người ký 3.3.3.3 Bảng VB_VanBan Bảng 3.3.3.3: Bảng Văn ST T Mã trường Kiểu trường PK Độ Null /F lớn K PK Mô tả ID Int SoHieu Nvarchar 500 No Số hiệu NgayBanHanh DateTime No Ngày ban hành NgayHieuLuc DateTime Yes Ngày hiệu lực TieuDe Nvarchar 500 No IDLoaiVanBan Int No FK Mã loại văn IDLinhVuc Int No FK Mã lĩnh vực IDCoQuanBanHa Int nh No FK Mã quan ban hành văn 32 No Giá trị mặc định Khóa Tiêu đề văn No Mã người ký IDNguoiKy Int FK 10 TrichYeu Nvarchar 500 No Trích yếu 11 NoiDung Ntext 16 Nội dung 12 FileVanBan Nvarchar 200 Yes File nội dung 13 FilePhuLuc Nvarchar 200 Yes File phụ lục 14 NgayTao DateTime Yes Ngày tạo 15 IDNguoiTao Int No Mã người tạo Yes 3.3.3.4 Bảng VB_LoaiVanBan Bảng 3.3.3.4: Bảng Loại văn ST T Mã trường Kiểu trường ID Int Ten PK Độ Null /F lớn K No Nvarchar 200 No MoTa Nvarchar 500 Yes ThuTu Int 33 Yes PK Giá trị mặc định Mơ tả Khóa Tên loại văn Mô tả loại văn Thứ tự 3.3.3.5 Bảng VB_CoQuanBanHanh Bảng 3.3.3.5: Bảng Cơ quan ban hành ST T Mã trường Kiểu trường PK Độ Null /F lớn K Giá trị mặc định PK Mô tả ID Int No ParentID Int No Mã cha Ten Nvarchar 200 No Tên quan MoTa Nvarchar 500 Yes Mô tả quan DiaChi Nvarchar 500 Yes Địa quan DienThoai Nvarchar 20 Điện thoại Yes Khóa 3.4 Giao diện 3.4.1 Giao diện trang Quản lý lĩnh vực Giao diện cho phép người dùng quản lý danh mục lĩnh vực văn Thêm lĩnh vực văn bản, xóa cập nhật lĩnh vực văn có hệ thống Hình 3.4.1: Giao diện trang Quản lý lĩnh vực 34 3.4.2 Giao diện trang Quản lý văn Giao diện cho phép người dùng thêm mới, cập nhật xóa văn có hệ thống Đây chức tạo nên Cơ sở liệu văn phục vụ việc đánh mục để tạo sở liệu Lucene Hệ thống cho phép đánh mục toàn văn lưu trữ CSDL, đánh mục văn vừa thêm mới, cập nhật xóa mà khơng cần phải đánh mục lại từ đầu Hình 3.4.2: Giao diện trang Quản lý văn 3.4.3 Giao diện trang Cập nhật văn Chức cho phép người dùng thực thêm cập nhật văn có hệ thống Thông tin văn bao gồm trường thông tin như: Số hiệu văn bản, ngày ban hành, ngày hiệu lực, trích yếu, nội dung văn bản… 35 Hình 3.4.3: Giao diện trang Cập nhật văn 3.4.4 Giao diện trang Tìm kiếm văn Giao diện cho phép người dùng gõ từ khóa tìm kiếm, hệ thống thực tìm kiếm từ khóa file mục, xếp kết trả danh sách kết theo mức độ liên quan câu truy vấn tài liệu sở liệu mục Chức cho phép người dùng gõ trực tiếp từ khóa kết hợp với phép toán mà Lucene hỗ trợ (AND, OR, NOT…), tìm kiếm xác, tìm kiếm gần tìm với ký tự đại diện 36 Hình 3.4.4: Giao diện trang Tìm kiếm văn 3.4.5 Giao diện trang Tìm kiếm nâng cao văn Ngồi chức tìm kiếm tổng qt hệ thống cịn cho phép người dùng tra cứu, tìm kiếm nâng cao văn theo tiêu chí tìm kiếm như: Tìm theo thể loại văn bản, lĩnh vực văn tìm theo quan ban hành văn 37 Hình 3.4.5: Giao diện trang Tìm kiếm nâng cao văn 3.4.6 Giao diện trang Xem chi tiết văn Sau người dùng tra cứu tìm kiếm văn bản, hệ thống hiển thị danh sách văn theo tiêu chí tìm kiếm Tại danh sách văn kết tìm kiếm, người dùng click chọn văn để xem thông tin chi tiết văn bản, tải văn xem nội dung gốc văn Hình 3.4.6: Giao diện trang Xem chi tiết văn 3.4.7 Giao diện trang Xem nội dung file văn Với văn đưa vào hệ thống, việc xem thơng tin chi tiết văn người dùng xem trực tiếp nội dung văn lưu trữ file pdf Đây nội dung toàn văn cần đưa vào hệ thống để đánh mục phục vụ chức tra cứu, tìm kiếm văn 38 Hình 3.4.7: Giao diện trang Xem nội dung file văn 39 3.5 Đánh giá thử nghiệm 3.5.1 Mơ hình kiến trúc ứng dụng thử nghiệm Dữ liệu văn File mục CSDL văn Tạo mục văn Ứng dụng thử nghiệm phục vụ Tìm kiếm văn Người sử dụng Hình 3.5.1: Hình Kiến trúc ứng dụng thử nghiệm Hệ thống thử nghiệm có thành phần chính:  Dữ liệu văn thử nghiệm: Tất văn đưa vào hệ thống lưu trữ hệ Quản trị CSDL SQL Server 2008 gọi sở liệu Văn Với mơ thử nghiệm với số lượng khoảng 300 văn  Tạo mục văn bản: Từ liệu văn đưa vào hệ thống, xây dựng chức đánh mục cho văn bản, chức tạo file mục lưu trữ đĩa cứng máy tính, sở liệu mục hay sở liệu Lucene 40  Tìm kiếm văn bản: Người dùng truy cập vào đường dẫn phần mềm thử nghiệm gõ từ khóa tìm kiếm văn Hệ thống thực tìm kiếm sở liệu Lucene hay tìm file mục trả kết cho người dùng Từ danh sách kết tìm kiếm người dùng xếp tăng dần, giảm dần theo số hiệu văn bản, ngày ban hành, ngày hiệu lực Hoặc click vào văn để xem thông tin chi tiết Công cụ phát triển ứng dụng:  Bộ thư viện mã nguồn mở Lucene.NET phiên 3.0  Visual Studio 2008, ngôn ngữ C#  Microsoft SQL Server 2008 R2 3.5.2 Kịch kết Với liệu văn đánh mục, thử nghiệm sử dụng chức tìm kiếm văn với kịch sau:  Tìm kiếm theo từ khóa  Tìm kiếm theo phép tốn AND  Tìm kiếm theo phép tốn OR  Tìm kiếm xác từ khóa  Tìm kiếm từ khóa tiếng việt khơng có dấu (tìm kiếm gần đúng)  Tìm kiếm với ký tự đại diện  Tìm kiếm gợi ý từ khóa (autocomplete) Hệ thống thực thành cơng máy tính cá nhân với cấu hình Intel Core i5-3210M, CPU 2.5GHz, 8GB RAM với kết sau: Bảng 3.5.2.1: Bảng Kịch tìm kiếm Hệ thống tìm kiếm thơng thường Kịch tìm kiếm Từ khóa tìm kiếm Tìm kiếm theo từ khóa bất quy kỳ Tìm kiếm theo từ khóa bất Ban hành kỳ Tìm kiếm theo phép tốn Mơi AND trường AND 41 Số lượng kết Thời gian tìm kiếm (giây) 67 1.25 34 1.76 0.84 Tìm kiếm theo phép tốn OR Mơi OR trường 0.74 Tìm kiếm xác từ khóa “quy chế” 1.026 0.311 0.24 0.53 Tìm kiếm từ khóa tiếng việt khơng có dấu (tìm Quy che kiếm gần đúng) Tìm kiếm với ký tự đại diện BGD* Ban hành Quy chế Tìm kiếm gợi ý từ khóa cơng tác sinh viên (autocomplete) chương trình đào tạo đại học hệ quy Bảng 3.5.2.2: Bảng Kịch tìm kiếm Hệ thống tìm kiếm thơng tin Kịch tìm kiếm Từ khóa tìm kiếm Tìm kiếm theo từ khóa bất quy kỳ Tìm kiếm theo từ khóa bất Ban hành kỳ Tìm kiếm theo phép tốn AND Mơi AND trường Tìm kiếm theo phép tốn OR Mơi OR trường Tìm kiếm xác từ khóa “quy chế” Tìm kiếm từ khóa tiếng việt khơng có dấu (tìm Quy che kiếm gần đúng) 42 Số lượng kết Thời gian tìm kiếm (giây) 45 0.027 76 0.016 117 0.041 130 0.023 17 0.012 48 0.017 Tìm kiếm với ký tự đại diện BGD* Ban hành Quy chế Tìm kiếm gợi ý từ khóa cơng tác sinh viên (autocomplete) chương trình đào tạo đại học hệ quy 0.029 251 0.023 Qua kết thống kê cho thấy chức tìm kiếm hệ thống sở dư liệu thông thường không hỗ trợ tốn tử tìm kiếm, khơng hỗ trợ tìm kiếm xác dấu “” tìm kiếm tiếng việt khơng có dấu Đặc biệt tốc độ tìm kiếm hệ thống tìm kiếm thơng tin nhanh nhiều so với chức tìm kiếm hệ quản trị sở liệu thơng thường Kết thử nghiệm tìm kiếm hệ thống tìm kiếm thơng tin tương đối xác hiệu quả, hỗ trợ đầy đủ phép tốn tìm kiếm với thời gian tìm kiếm nhanh Như hệ thống thử nghiệm tìm kiếm văn sử dụng mã nguồn mở Lucene đáp ứng mục tiêu đặt đề tài 43 CHƯƠNG 4: KẾT LUẬN Với giải pháp nâng cao hiệu việc tra cứu, tìm kiếm liệu cách nghiên cứu thư viện mã nguồn mở Lucene để xây dựng thử nghiệm Hệ thống tìm kiếm thơng tin văn lưu trữ kho liệu Với thuận lợi lớn hệ thống kế thừa toàn chức từ thư viện mã nguồn mở Lucene.NET Về lý thuyết, luận văn tìm hiểu thành phần hệ thống tìm kiếm thơng tin bao gồm: Thành phần Thu thập liệu: thực thu thập toàn liệu tìm kiếm đưa nguồn tập trung để phục vụ q trình phân tích đánh mục liệu Thành phần Đánh mục liệu: thực phân tích, tiền xử lý nội dung liệu, sau tiến hành đánh mục liệu theo cách thức, chế yêu cầu máy tìm kiếm cụ thể Thành phần Tìm kiếm liệu: thực phân tích câu truy vấn tìm kiếm tài liệu file index, sau kết hợp với thông tin xếp hạng để trả lại kết tìm kiếm cho người dùng Luận văn tìm hiểu cách hệ thống tính hoạt động mã nguồn mở Lucene như: Lucene cung cấp khả phân tích liệu, tạo mục cho tài liệu để xây dựng nên hệ thống mục, cung cấp khả tiếp nhận xâu truy vấn người dùng, thực tìm kiếm dựa hệ thống mục có trả kết Thực nghiệm, từ sở lý thuyết, luận văn xây dựng cài đặt thành công ứng dụng thực nghiệm Lucene vào hệ thống tìm kiếm Văn Trong đó, ứng dụng thư thư viện mã nguồn mở Lucene.NET để xây dựng hệ thống tìm kiếm với hai thành phần là: Tạo mục Tìm kiếm văn Hệ thống kết thừa tồn thư viện mã nguồn mở Lucene.NET nên tính hiệu lớn khơng chi phí quyền sử dụng 4.1 Đánh giá kết nghiên cứu 4.1.1 Kết đạt được: Về luận văn thực tốt nội dung đề đạt số kết định: Luận văn trình bày sở lý thuyết nguyên lý vận hành hệ thống tìm kiếm thơng tin, trình bày cách hệ thống tính hoạt động mã nguồn mở Lucene Luận văn ứng dụng thành công mã nguồn mở Lucene công tác tìm kiếm thơng tin hệ thống Quản lý văn 44 4.1.2 Hạn chế: Bên cạnh kết đạt đề tài cịn có mặt hạn chế như: Phần thực nghiệm dừng lại phạm vi nhỏ với số lượng văn hạn chế Đề tài chưa nghiên cứu thư viện mã nguồn mở khác giống thư viện Lucene, chưa nghiên cứu số tính liên quan đến tìm kiếm tiếng Việt Đề tài cần nâng cao hiệu tìm kiếm tính tiện dụng cho người sử dụng, giao diện hiển thị tốt tảng thiết bị Desktop, laptop, tablet, mobile… 4.2 Hướng phát triển Hướng nghiên cứu đề tài tập trung nghiên cứu tìm hiểu mã nguồn mở khác giống thư viện mã nguồn mở Lucene, để áp dụng thử nghiệm đưa nhận xét, đánh giá so sánh hiệu với thư viện Lucene Nghiên cứu, xây dựng module chức khác để hoàn thiện hệ thống Quản lý văn Ngồi cần nghiên cứu số tính xử lý nâng cao cho việc tìm kiếm tiếng Việt áp dụng vào hệ thống Quản lý văn Tôi nhận thấy rằng, với việc phát triển nhanh chóng cơng nghệ thơng tin nhu cầu tìm kiếm thơng tin người dùng ngày nhiều có nhiều hệ thống tìm kiếm thơng tin ứng dụng mã nguồn mở Lucene đời 45 TÀI LIỆU THAM KHẢO Tiếng Việt Đỗ Phúc, Đỗ Hoàng Cường, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Nguyễn Việt Hoàng, Nguyễn Việt Thành, Phạm Phú Hội, Dương Ngọc Long Nam, Nguyễn Phước Thanh Hải, “Phát triển Hệ thống S.E” Hỗ trợ Tìm kiếm Thơng tin, thuộc lãnh vực CNTT Internet qua từ khóa tiếng Việt”, Đại học Khoa Học Tự Nhiên, TP.HCM, 2004 Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, ”Tạp chí khoa học công nghệ”, Đại học Đà Nẵng, 2010 Tiếng Anh Michael McCandless, Erik Hatcher, Otis Gospodnetic, Lucene in action, 2010 Haralambos Marmanis and Dmitry Babenko, Algorithms of the Intelligent Web, 2009 Chris Manning and Pandu Nayak, Introduction to Information Retrieval http://infolab.stanford.edu/~backrub/google.html http://www.lucenetutorial.com https://www.tutorialspoint.com https://lucenenet.apache.org/ 10.https://en.wikipedia.org/wiki/Lucene 46 ... đoan luận văn ? ?Nghiên cứu cơng nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải tốn tìm kiếm hệ thống Văn bản? ?? cơng trình nghiên cứu tơi hướng dẫn khoa học TS.Nguyễn Văn Vinh, tham khảo nguồn tài... tảng Lucene, … Vì vậy, đề tài tơi lựa chọn Lucene để xây dựng thử nghiệm hệ thống tìm kiếm thông tin Đề tài luận văn ? ?Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải tốn tìm kiếm hệ. .. lý văn áp dụng công nghệ Lucene để đánh mục, tìm kiếm văn Nội dung mà luận văn nghiên cứu bao gồm: Tìm hiểu tổng quan hệ thống tìm kiếm thơng tin Tìm hiểu tổng quan cơng nghệ tìm kiếm mã nguồn

Ngày đăng: 18/07/2017, 21:25

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan