1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng kỹ thuật tìm kiếm thông tin xây dựng mô đun tìm kiếm bài viết theo nội dung trên trang web thành phần (tóm tắt)

12 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ỦY BAN NHÂN DÂN TỈNH TRÀ VINH TRƯỜNG ĐẠI HỌC TRÀ VINH NGUYỄN HỒNG PHƯƠNG ỨNG DỤNG KỸ THUẬT TÌM KIẾM THƠNG TIN XÂY DỰNG MƠ-ĐUN TÌM KIẾM BÀI VIẾT THEO NỘI DUNG TRÊN TRANG WEB THÀNH PHẦN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN TRÀ VINH, NĂM 2020 ỦY BAN NHÂN DÂN TỈNH TRÀ VINH TRƯỜNG ĐẠI HỌC TRÀ VINH NGUYỄN HỒNG PHƯƠNG ỨNG DỤNG KỸ THUẬT TÌM KIẾM THƠNG TIN XÂY DỰNG MƠ-ĐUN TÌM KIẾM BÀI VIẾT THEO NỘI DUNG TRÊN TRANG WEB THÀNH PHẦN Ngành: Công nghệ thông tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Trương Quốc Định TRÀ VINH, NĂM 2020 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Ứng dụng kỹ thuật tìm kiếm thơng tin xây dựng mơ-đun tìm kiếm viết theo nội dung trang web thành phần” thực hướng dẫn trực tiếp thầy TS Trương Quốc Định Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Trà Vinh, ngày 14 tháng năm 2020 Học viên Nguyễn Hồng Phương i LỜI CẢM ƠN Đầu tiên, tơi xin trân trọng cảm ơn quý Thầy, Cô Bộ môn Công nghệ thông tin Khoa Kỹ thuật Công nghệ Phòng Đào tạo Sau đại học Trường Đại học Trà Vinh Q Thầy, Cơ tận tình dạy dỗ giúp đỡ tơi q trình học Cao học Tôi xin trân trọng cảm ơn Ban Giám hiệu Trường Đại học Trà Vinh tạo điều kiện sở vật chất quản lý suốt q trình học tập trường Tơi xin gửi lời cảm ơn chân thành đến TS Trương Quốc Định, người tận tình hướng dẫn, giúp đỡ tơi suốt thời gian thực luận văn Xin trân trọng cảm ơn Lê Hồng Phương, Nguyễn Thị Minh Huyền Vũ Xuân Lương cung cấp thông tin liên quan thư viện phân tách từ tiếng Việt vnTokenizer Xin cảm ơn Ban Giám hiệu Trường Đại học Xây dựng miền Tây quan tâm tạo điều kiện thời gian để thân tơi có điều kiện tham gia học tập hoàn thành luận văn tốt nghiệp Xin cảm ơn bạn bè, đồng nghiệp chia sẻ công việc dành thời gian cho tham gia học tập, nghiên cứu thực luận văn; Cảm ơn bạn học lớp trao đổi, chia sẻ kiến thức bổ ích giúp tơi thực luận văn Với nội dung đề tài phong phú, thời gian thực luận văn có hạn nên khơng tránh khỏi hạn chế, thiếu sót nội dung thực hiện, kính mong quan tâm bảo quý Thầy, Cô bạn đồng nghiệp ii MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II DANH MỤC HÌNH - V DANH MỤC BẢNG BIỂU - VI TÓM TẮT VII ABSTRACT - VIII CHƯƠNG TỔNG QUAN - 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1.2 MỤC TIÊU NGHIÊN CỨU - 1.2.1 MỤC TIÊU CHUNG 1.2.2 MỤC TIÊU CỤ THỂ 1.3 PHẠM VI GIỚI HẠN LUẬN VĂN 1.4 ĐỐI TƯỢNG NGHIÊN CỨU VÀ ĐỐI TƯỢNG KHẢO SÁT 1.5 TỔNG QUAN CÁC NGHIÊN CỨU LIÊN QUAN 1.5.1 LỊCH SỬ PHÁT TRIỂN CỦA CƠNG CỤ TÌM KIẾM 1.5.2 MỤC TIÊU VÀ CHỨC NĂNG CỦA MỘT HỆ THỐNG TÌM KIẾM THƠNG TIN 1.5.3 MƠ HÌNH TÌM KIẾM THƠNG TIN TRUYỀN THỐNG 1.6 PHƯƠNG PHÁP NGHIÊN CỨU 1.6.1 PHƯƠNG PHÁP LÝ THUYẾT 1.6.2 PHƯƠNG PHÁP THỰC NGHIỆM - CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 GIỚI THIỆU VỀ TÌM KIẾM THƠNG TIN 2.1.1 KHÁI NIỆM - 2.1.2 KIẾN TRÚC CHUNG CỦA MỘT HỆ THỐNG TÌM KIẾM THƠNG TIN - 2.1.3 NGUYÊN TẮC HOẠT ĐỘNG - 2.1.4 ĐÁNH GIÁ KẾT QUẢ TÌM KIẾM 2.1.5 TÁCH TỪ VỚI CÔNG CỤ VNTOKENIZER 2.1.6 BỘ PHẬN LẬP CHỈ MỤC - 10 2.1.7 CÁC PHƯƠNG PHÁP LẬP CHỈ MỤC - 11 2.1.8 QUÁ TRÌNH TẠO CHỈ MỤC NGHỊCH ĐẢO 15 2.1.9 XẾP HẠNG TÀI LIỆU 18 iii 2.1.10 BỘ PHẬN TÌM KIẾM 23 2.2 MƠ HÌNH TÌM KIẾM THƠNG TIN 23 2.2.1 MƠ HÌNH KHƠNG GIAN VECTOR 24 2.2.2 PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VÀ SỬ DỤNG ĐỘ ĐO COSINE - 26 2.2.3 QUÁ TRÌNH TRUY VẤN - 27 CHƯƠNG KHẢO SÁT, PHÂN TÍCH, XÂY DỰNG ỨNG DỤNG 29 3.1 HỆ THỐNG TÌM KIẾM THEO NỘI DUNG - 29 3.2 PHÂN TÍCH DỮ LIỆU LƯU TRỮ 31 3.3 THIẾT KẾ CƠ SỞ DỮ LIỆU LƯU TRỮ TRUY VẤN [7] - 32 3.4 GIẢI THUẬT LẬP CHỈ MỤC - 33 3.5 GIẢI THUẬT TÍNH TRỌNG SỐ 34 3.6 GIẢI THUẬT TÍNH COSINE 36 3.7 GIẢI THUẬT XẾP HẠNG KẾT QUẢ 36 3.8 HIỂN THỊ KẾT QUẢ 37 CHƯƠNG KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN 38 4.1 CÔNG CỤ VÀ MÔI TRƯỜNG THỰC NGHIỆM - 38 4.1.1 CÔNG CỤ VÀ MÔI TRƯỜNG THỰC NGHIỆM - 38 4.1.2 CHUẨN BỊ DỮ LIỆU KIỂM THỬ - 38 4.2 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ - 40 4.2.1 KẾT QUẢ SAU KHI TÁCH TỪ - 40 4.2.2 KẾT QUẢ SAU KHI TÍNH TRỌNG SỐ CHO CÂU, TỪ - 42 4.2.3 KẾT QUẢ TÍNH ĐỘ TƯƠNG ĐỒNG COSIN - 42 4.2.4 HIỂN THỊ KẾT QUẢ LÊN GIAO DIỆN - 46 4.2.5 ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƯỢC - 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 KẾT QUẢ ĐẠT ĐƯỢC - 49 HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN - 49 TÀI LIỆU THAM KHẢO - 51 1) TÀI LIỆU THAM KHẢO TIẾNG VIỆT - 51 2) TÀI LIỆU ĐIỆN TỬ 51 iv DANH MỤC HÌNH Hình 1 Mơ hình cơng cụ tìm kiếm truyền thống Hình Mơ hình tìm kiếm thơng tin văn Hình 2 Ví dụ đường recall / precision Hình Sử dụng gói tách từ vnTokenizer 10 Hình hai thành phần mục nghịch đảo 12 Hình Quá trình đánh mục 16 Hình Kiến trúc tổng quan hệ thống tìm kiếm 27 Hình Lưu đồ xử l‎ ‎ý ỉ‎ ‎ậ gn‎ t ‎ý o‎ Hình Lưu đồ xử l‎ ‎ý ỉ‎ ‎ậ gn‎ậ ‎hc ý 29 30 Hình 3 Giao diện xuất kết tìm kiếm 37 Hình Dữ liệu kiểm thử 40 Hình Kết tính trọng số cho từ khóa 42 Hình Giao diện hiển thị kết tìm kiếm 47 v DANH MỤC BẢNG BIỂU Bảng Biểu diễn cấu trúc lưu trữ mục theo mơ hình tra cứu luận lý 11 Bảng 2 Mô tả cách đánh số cho tập tin mơ hình lập mục nghịch đảo 13 Bảng Xây dựng tập mục nghịch đảo có xếp gom nhóm 14 Bảng Số lần xuất mục từ tài liệu 19 Bảng Trọng số mục từ tài liệu Wt,d 20 Bảng Điểm số tài liệu ứng với câu truy vấn 20 Bảng Số liệu tf idf mục từ 21 Bảng Trọng số mục từ tài liệu Wt,d 22 Bảng Điểm số tài liệu ứng với câu truy vấn 22 Bảng 10 Số lần xuất từ tài liệu 25 Bảng 11 Quy đổi tần suất xuất từ T tài liệu D sang chiều dài chuẩn 26 Bảng Cấu trúc Table “ArticleDetail” lưu nội dung viết 31 Bảng Cấu trúc Table “Page” lưu thơng tin nhóm 31 Bảng 3 INDEXING_TERM lưu từ mục từ 32 Bảng DOCUMENT lưu thông tin file 32 Bảng TONGTAILIEU lưu tổng từ ID viết 33 Bảng TONGTAILIEUCHUATU lưu tổng tài liệu chứa từ, câu 33 Bảng INVERTED_INDEX lưu trọng số cho từ khóa 33 Bảng Thông số phần cứng kiểm thử 38 Bảng Danh sách công cụ phần mềm 38 Bảng Thông tin liệu thử nghiệm 39 Bảng 4 Kết sau tách từ 40 Bảng Kết tính trọng số sau tìm kiếm 42 vi TÓM TẮT Ngày nay, mạng internet phát triển rộng khắp, với phát triển công nghiệp 4.0 song hành bùng nổ thơng tin, liệu Tuy nhiên, việc tìm kiếm thơng tin cách nhanh chóng xác trở thành nhu cầu cấp thiết Trong luận văn trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin dựa nôi dung viết tập tin đính đèm viết đó, bao gồm giai đoạn là: tiền xử lý tài liệu; lập mục xây dựng hệ thống web site tìm kiếm Nghiên cứu trình bày chế lập mục mơ hình truy xuất thơng tin dựa ngơn ngữ Java, cơng cụ lập trình Netbean 11.0 thư viện mã nguồn mở Java Giải pháp sử dụng cấu trúc mục nghịch đảo (Inverted Index) để lập mục cho text viết tài liệu văn đính kèm (*.Pdf, *.Doc, *.Docx, *.Png), xử dụng mơ hình khơng gian vector, tính độ tương đồng Cosine, xếp hạng kết trã Cuối xây dựng hệ thống tìm kiếm thơng tin Từ khóa: tìm kiếm thơng tin, mục, hàm so khớp, mục nghịch đảo, xếp hạng, tài liệu tương thích, độ xác, độ bao phủ, tính điểm cho tài liệu, danh sách số tài liệu vii ABSTRACT Nowadays, the internet develops widely, along with the development of Industry 4.0 in parallel with the explosion of information and data However, finding information quickly and accurately becomes an urgent need In this thesis will present the basic steps to take to build an information retrieval system based on the content of the article and the attachments in that article, including the main stages: pre-treatment document management; indexing and building web site search systems Study and present the Java language-based indexing mechanism and information retrieval model, Netbean 11.0 programming tools, and Java open source libraries The solution uses an Inverted Index structure to index post text and attached text documents (* Pdf, * Doc, * Docx, * Png), uses tissue Cosine, cosine similarity calculation, returned result ratings Finally building an information search system Keywords: Searching information, index, inverse, rank, compatible material, degree of accuracy, degree of coverage, give a mark for material, list of the material index viii CHƯƠNG 1: TỔNG QUAN 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI Trường Đại học Xây dựng miền Tây trải qua 40 năm xây dựng phát triển, thông tin Nhà trường đăng tải trang www.mtu.edu.vn lớn Chính vậy, người dùng cần tìm nội dung viết nội dung văn file đính kèm từ viết (file word, pdf) gặp nhiều khó khăn Hạn chế việc tìm kiếm dựa vào tiêu đề viết lưu trữ SQL Server để tìm viết đăng tải người dùng tra cứu thủ cơng link viết Chính lý nên tác giả định chọn tên đề tài “Ứng dụng kỹ thuật tìm kiếm thơng tin xây dựng mơ-đun tìm kiếm viết theo nội dung trang web thành phần” xây dựng hệ thống tìm kiếm viết dựa vào nội dung nội dung văn file đính kèm viết (file word, pdf) cách vận dụng cơng cụ hỗ trợ tính tách từ, tách câu xây dựng thành mục lưu trữ hệ quản trị sở liệu SQL Server Thông qua luận văn tác giả muốn nâng cao hiểu biết việc tìm kiếm thơng tin theo nội dung viết file văn đính kèm đồng thời áp dụng vào thực tiễn nhiều lĩnh vực khác 1.2 MỤC TIÊU NGHIÊN CỨU 1.2.1 Mục tiêu chung - Thực nghiên cứu tổng quan hệ tìm kiếm thơng tin văn Trọng tâm tập trung nghiên cứu vấn đề tìm kiếm dựa từ khóa, cách tiếp cận lập mục dựa từ khóa, tính độ tương đồng từ khóa, xếp hạng kết trả - Xây dựng cơng cụ cho phép tìm kiếm viết, tập tin đính kèm theo viết có nội dung phù hợp với nhu cầu tìm kiếm người dùng 1.2.2 Mục tiêu cụ thể - Nghiên cứu lý thuyết quản trị tin tập tin đính kèm, thực bước phân tích, thiết kế sở liệu, đặc tả từ khóa cho việc tìm kiếm thơng tin - Nghiên cứu sở lý thuyết lĩnh vực tìm kiếm thơng tin; xây dựng tập mục nghịch đảo, lưu tập mục vào sở liệu SQL Server - Tìm kiếm xếp kết trả theo độ tương đồng Cosine - Phân tích, thiết kế mơ hình tìm kiếm tin, tập tin đính kèm theo nội dung - Xây dựng ứng dụng “Tìm kiếm tin, tập tin đính kèm theo nội dung” ứng dụng web, cài đặt thử nghiệm hệ thống Trường Đại học Xây dựng miền Tây 1.3 PHẠM VI GIỚI HẠN LUẬN VĂN Trong luận văn này, tác giả xin nghiên cứu lý thuyết hệ thống tìm kiếm thơng tin viết theo nội dung dựa sở liệu có sẵn lưu trữ SQL Server 2014 hệ thống máy chủ Trường Đại học Xây dựng miền Tây Website Trường Đại học Xây dựng miền Tây thiết kế, xây dựng đóng gói giới hạn chỉnh sửa source, lẽ việc thay đổi source gặp nhiều khó khăn, luận văn tơi xin nghiên cứu việc tách từ, tạo mục thực tính trọng số phương thức thủ cơng, tuần thực việc lần Tuy nhiên, để tiết kiệm thời gian tài nguyên hệ thống luận văn xây dựng chế tách từ tạo mục cho tài liệu cập nhật mới, sau tính lại trọng số cho tồn hệ thống Việc xác định tài liệu thực sau: - Đầu tiên tạo bảng chứa liệu có cấu tạo bảng giống cấu tạo bảng chứa liệu - Tiếp theo sử dụng câu truy vấn so sánh nội dung bảng chứa liệu gốc liệu copy tồn liệu khơng tiến hành copy tách từ, tính trọng số… Nếu so sánh chưa tồn liệu gốc bảng copy tiến hành đọc phân tích, tách từ, câu tính trọng số cho tài liệu đó, tiến hành thêm liệu vừa tách vào bảng tính mục từ, thêm liệu gốc vào bảng copy để làm sở cho lần so sánh Luận văn nghiên cứu xử lý nội dung viết dựa ngôn ngữ tiếng Việt, file tài liệu đính kèm có phần mở rộng là: PDF, Doc, Docx, PNG 1.4 ĐỐI TƯỢNG NGHIÊN CỨU VÀ ĐỐI TƯỢNG KHẢO SÁT Đối tượng nghiên cứu - Đối tượng nghiên cứu luận văn toán “tìm kiếm thơng tin viết theo nội dung nội dung bao gồm: chuỗi câu viết tập tin đính kèm có dạng: *.doc, *.docx, *.pdf, *.png” - Cụ thể hóa cho việc giải toán vừa nêu nghiên cứu: cách tách từ câu tài liệu đính kèm, tạo mục nghịch đảo, tính độ tương đồng sử dụng độ đo Cosine, xếp hạng, đánh giá trình bày kết cho người dùng ... PHƯƠNG ỨNG DỤNG KỸ THUẬT TÌM KIẾM THƠNG TIN XÂY DỰNG MƠ -ĐUN TÌM KIẾM BÀI VIẾT THEO NỘI DUNG TRÊN TRANG WEB THÀNH PHẦN Ngành: Công nghệ thông tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN. .. thơng tin xây dựng mơ -đun tìm kiếm viết theo nội dung trang web thành phần? ?? xây dựng hệ thống tìm kiếm viết dựa vào nội dung nội dung văn file đính kèm viết (file word, pdf) cách vận dụng cơng cụ... kế mơ hình tìm kiếm tin, tập tin đính kèm theo nội dung - Xây dựng ứng dụng ? ?Tìm kiếm tin, tập tin đính kèm theo nội dung? ?? ứng dụng web, cài đặt thử nghiệm hệ thống Trường Đại học Xây dựng miền

Ngày đăng: 23/03/2022, 14:31

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w