Luận án Tiến sĩ Kỹ thuật: Khai phá dữ liệu tuần tự để dự đoán hành vi truy cập Web

156 6 0
Luận án Tiến sĩ Kỹ thuật: Khai phá dữ liệu tuần tự để dự đoán hành vi truy cập Web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận án này tập trung vào việc đề xuất mô hình dự đoán khai phá dữ liệu cho dự đoán truy cập Web để nâng cao hiệu quả về độ chính xác và thời gian xử lý cho khai phá dữ liệu mang tính chất tuần tự (còn gọi là dữ liệu phụ thuộc thời gian). Mời các bạn tham khảo chi tiết nội dung luận án này.

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thơn Dã KHAI PHÁ DỮ LIỆU TUẦN TỰ ĐỂ DỰ ĐOÁN HÀNH VI TRUY CẬP WEB LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - Năm 2020 i HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thơn Dã KHAI PHÁ DỮ LIỆU TUẦN TỰ ĐỂ DỰ ĐOÁN HÀNH VI TRUY CẬP WEB CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 9.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TÂN HẠNH TS PHẠM HOÀNG DUY Hà Nội – Năm 2020 ii LỜI CAM ĐOAN Tôi xin cam đoan luận án tiến sĩ Khai phá liệu để dự đoán hành vi truy cập Web cơng trình nghiên cứu khoa học độc lập riêng tơi Các số liệu luận án có nguồn gốc xuất xứ rõ ràng Các kết nghiên cứu luận án tơi tự tìm hiểu, phân tích cách trung thực, nghiêm túc, khách quan chưa cơng bố cơng trình khác Tác giả Nguyễn Thôn Dã iii LỜI CÁM ƠN Tôi xin chân thành gửi lời cám ơn đến Ban lãnh đạo Học viện Cơng nghệ Bưu Viễn thơng, Đào tạo Sau Đại học tập thể thầy cô Khoa Cơng nghệ Thơng tin có nhiều hỗ trợ cho tơi hồn thành nhiệm vụ nghiên cứu giao Tôi gửi lời biết ơn đến hai cán hướng dẫn luận án cho Thầy TS Tân Hạnh Thầy TS Phạm Hồng Duy (cơng tác Học viện Cơng nghệ Bưu Viễn thơng), người thầy với kinh nghiệm kiến thức chuyên môn cao tận tình hướng dẫn, bảo cho tơi để tơi hồn thành luận án Tơi cám ơn Ban Giám Hiệu trường Đại học Kinh tế - Luật, ĐHQG-HCM, nơi công tác, đặc biệt lãnh đạo Khoa Hệ thống thông tin trường giới thiệu tạo điều kiện cho thực luận án Rất trân trọng cám ơn nhà nghiên cứu, thầy cô, đồng nghiệp có góp ý hữu ích, phản biện khách quan mang tính xây dựng để tơi khơng ngừng hồn thiện luận án Tơi vơ biết ơn bố mẹ tơi, người có công sinh thành dưỡng dục, động viên giúp đỡ suốt thời gian nghiên cứu thực luận án iv MỤC LỤC LỜI CAM ĐOAN ii LỜI CÁM ƠN iii DANH MỤC CÁC CHỮ VIẾT TẮT x DANH MỤC CÁC KÝ HIỆU TOÁN HỌC xi Giới thiệu Tính cấp thiết luận án Mục tiêu luận án Đối tượng phạm vi nghiên cứu Các vấn đề nghiên cứu Phương pháp nghiên cứu Các đóng góp luận án Bố cục luận án CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TUẦN TỰ 10 CHO DỰ ĐOÁN TRUY CẬP WEB 10 1.1 Giới thiệu 10 1.2 Khái niệm dự đoán hành vi truy cập Web 12 1.3 Các phương pháp phổ biến 15 1.3.1 Phương pháp luật kết hợp 15 1.3.1.1 Khái niệm 15 1.3.1.2 Các cơng trình nghiên cứu liên quan 16 1.3.1.3 Ưu điểm hạn chế 17 1.3.2 Phương pháp chuỗi Markov 18 1.3.2.1 Khái niệm 18 1.3.2.2 Các nghiên cứu liên quan 20 v 1.3.2.3 Ưu điểm hạn chế 21 1.3.3 Phương pháp Clustering 22 1.3.3.1 Khái niệm 22 1.3.3.2 Các nghiên cứu liên quan, ưu điểm hạn chế 23 1.3.4 Phương pháp mạng neuron nhân tạo 24 1.3.4.1 Khái niệm 24 1.3.4.3 Ưu điểm hạn chế 24 1.3.5 Các phương pháp phối hợp phương pháp phổ biến 25 1.3.5.1 Các cơng trình liên quan 25 1.3.5.2 Ưu điểm, hạn chế khuyến nghị 28 1.4 Phương pháp dự đoán chuỗi liệu 30 1.4.1 Phương pháp dự đoán (Compact Prediction Tree - CPT) 31 1.4.2 Phương pháp dự đoán cải tiến (Compact Prediction Tree plus - CPT+) 34 1.4.3 Ưu điểm hạn chế phương pháp dự đoán cải tiến (CPT+) 37 1.4.4 Tổng hợp so sánh phương pháp dự đoán chuỗi liệu 38 1.5 Đề xuất mơ hình dự đốn hành vi truy cập Web 40 1.6 Các giải pháp đề xuất 42 1.7 Kết luận chương 43 CHƯƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU TUẦN TỰ 44 CHO DỰ ĐOÁN TRUY CẬP WEB 44 2.1 Giới thiệu 44 2.2 Cơ sở lý luận giải pháp 44 2.3 Khái niệm Web Usage Mining 45 2.3.1 Định nghĩa Web Usage Mining 45 2.3.2 Tầm quan trọng Web Usage Mining 46 2.3.3 Khái niệm sở liệu Web Log 47 vi 2.3.3.1 Định nghĩa sở liệu Web Log 47 2.3.3.2 Cấu trúc nội dung Web Log 47 2.3.4 Xây dựng sở liệu cho dự đoán truy cập Web 50 2.3.4.1 Mục tiêu 50 2.3.4.2 Dữ liệu 51 2.3.4.3 Phương pháp 52 2.3.4.4 Các độ đo đánh giá 58 2.3.4.5 Các kết thử nghiệm 58 2.3.5 Đánh giá thảo luận 61 2.3.6 Kết luận chương 63 CHƯƠNG NÂNG CAO HIỆU QUẢ VỀ ĐỘ CHÍNH XÁC 64 KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 64 3.1 Giới thiệu 64 3.2 Cơ sở lý luận giải pháp 64 3.3 Nội dung giải pháp nâng cao hiệu độ xác cho dự đoán truy cập Web 66 3.4 Giải pháp nâng cao độ xác dự đốn truy cập Web với giải thuật PageRank CPT+ 67 3.5 Các kết thử nghiệm nâng cao hiệu độ xác cho dự đốn truy cập Web 76 3.5.1 Mục tiêu 76 3.5.2 Dữ liệu 76 3.5.3 Phương pháp 77 3.5.4 Độ đo đánh giá 80 3.5.5 Các kết thử nghiệm 81 3.6 Kết luận chương 85 CHƯƠNG NÂNG CAO HIỆU QUẢ VỀ THỜI GIAN 87 KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 87 4.1 Giới thiệu 87 vii 4.2 Cơ sở lý luận giải pháp 87 4.3 So sánh thời gian thực thi tiếp cận dự đoán liệu 88 4.3.1 Các liệu dùng để so sánh thời gian thực thi dự đoán 88 4.3.2 So sánh thời gian tiếp cận dự đoán liệu 89 4.4 Giải pháp nâng cao hiệu thời gian cho dự đoán truy cập Web với CPT+ 91 4.4.1 Cơ sở lý luận giải pháp 91 4.4.2 Giải thuật nâng cao hiệu thời gian dự đoán truy cập Web 91 4.5 Các kết thử nghiệm nâng cao hiệu thời gian thực thi dự đoán truy cập Web 93 4.5.1 Mục tiêu 93 4.5.2 Dữ liệu 93 4.5.3 Phương pháp 94 4.5.4 Các độ đo đánh giá 96 4.5.5 Kết thử nghiệm phân tích 96 4.5.5.1 Kết thử nghiệm tập liệu FIFA 96 4.5.5.2 Kết thử nghiệm tập liệu KOSARAK 97 4.5.5.3 Kết thử nghiệm tập liệu BMS 99 4.5.2.4 Kết thử nghiệm tập liệu pamviewsanibel 100 4.5.2.5 Kết thử nghiệm tập liệu inees 101 4.6 Kết luận chương 103 CHƯƠNG TÍCH HỢP NÂNG CAO ĐỘ CHÍNH XÁC VÀ NÂNG CAO HIỆU QUẢ VỀ THỜI GIAN KHAI PHÁ DỮ LIỆU TUẦN TỰ 104 CHO DỰ ĐOÁN TRUY CẬP WEB 104 5.1 Giới thiệu 104 5.2 Tích hợp phương pháp K-Fold Cross Validation cho giải pháp nâng cao độ xác khai phá liệu cho dự đoán truy cập Web 105 5.2.1 Phương pháp K-Fold Cross Validation 105 viii 5.2.2 Xây dựng tập liệu huấn luyện nâng cao độ xác 106 5.2.2.1 Mục tiêu 106 5.2.2.2 Dữ liệu 106 5.2.2.3 Phương pháp 106 5.2.2.4 Kết thực nghiệm phân tích 107 5.2.3 Kết hợp giải pháp nâng cao độ xác hiệu thời gian khai phá liệu cho dự đoán truy cập Web 112 5.2.3.1 Mục đích 112 5.2.3.2 Dữ liệu 112 5.2.3.3 Phương pháp 112 5.2.3.4 Các độ đo đánh giá 113 5.2.3.5 Kết thực nghiệm phân tích 113 5.3 Kết luận Chương 114 PHẦN KẾT LUẬN 116 Đóng góp luận án 116 Đánh giá, bàn luận tổng quan dự đoán truy cập Web 116 2.1 Đánh giá, bàn luận kết nghiên cứu chuẩn hóa sở liệu Web Log cho dự đoán truy cập Web 117 2.2 Đánh giá, bàn luận kết nâng cao hiệu độ xác khai phá liệu cho dự đoán truy cập Web 119 2.3 Đánh giá, bàn luận kết nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web 120 2.4 Đánh giá, bàn luận kết kết hợp giải pháp nâng cao độ xác nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web 121 2.5 Kết luận kiến nghị 122 2.5.1 Ưu điểm 122 2.5.2 Hạn chế 123 ix 2.5.3 Hướng phát triển 123 DANH MỤC CÁC CƠNG TRÌNH NGHIÊN CỨU 125 TÀI LIỆU THAM KHẢO 127 ... Information & Knowledge Management, 2(04), 375-390 Adami, G., Avesani, P., & Sona, D (2003) Clustering documents in a web directory Paper presented at the Proceedings of the 5th ACM international workshop... Terveen, L., & Hill, W (2000) Does “authority” mean quality? Predicting expert quality ratings of Web documents Paper presented at the Proceedings of the 23rd annual international ACM SIGIR conference

Ngày đăng: 09/06/2021, 09:49