ĐÓNG GÓP MỚI CỦA LUẬN ÁN Tên đề tài: Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê Chuyên ngành: Khoa học máy tính Mã số: 9480101 Họ và tên NCS: Phan Phương Lan Khóa: 32 Người hướng dẫn khoa học: 1. PGS. TS. Huỳnh Xuân Hiệp 2. TS. Huỳnh Hữu Hưng Cơ sở đào tạo: Trường Đại học Bách khoa, Đại học Đà Nẵng NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN Một là, đề xuất hai mức độ quan trọng hàm ý thống kê mới KnnUIR và KnnIIR dùng để dự đoán xếp hạng của người cần tư vấn. KnnUIR và KnnIIR được dựa trên một số mức độ quan trọng hàm ý thống kê có sẵn và kết hợp nhiều yếu tố tác động đến việc dự đoán xếp hạng; qua đó cải thiện hiệu quả tư vấn. Hai là, đề xuất ba mô hình tư vấn mới SIR, UIR và IIR có thể áp dụng cho cả dữ liệu nhị phân và dữ liệu phi nhị phân. Những mô hình này sử dụng các mức độ quan trọng hàm ý thống kê có sẵn, KnnUIR và KnnIIR tương ứng để gợi ý cho người dùng danh sách các mục dữ liệu phù hợp. Các mô hình đề xuất được đánh giá theo tính chính xác của gợi ý và của xếp hạng dự đoán trên cả dữ liệu nhị phân và phi nhị phân. Kết quả thực nghiệm cho thấy hiệu quả tư vấn những các mô hình này cao hơn của những mô hình hiện có được so sánh. Ba là, phát triển công cụ phần mềm Interestingnesslab dùng cho thực nghiệm. Công cụ này cài đặt các hàm tiện ích và các mô hình tư vấn đề xuất bằng ngôn ngữ R. Các hàm tiện ích được sử dụng để xây dựng, tích hợp và đánh giá các mô hình tư vấn đề xuất. Bốn là, thu thập tập dữ liệu nhị phân DKHP có thể dùng để đánh giá hiệu quả hệ tư vấn. Tập DKHP lưu thông tin đăng ký học phần của các sinh viên công nghệ thông tin bậc đại học.
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHAN PHƯƠNG LAN HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2019 ii ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHAN PHƯƠNG LAN HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS TS Huỳnh Xuân Hiệp TS Huỳnh Hữu Hưng Đà Nẵng - Năm 2019 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thực hiện, hướng dẫn PGS.TS Huỳnh Xuân Hiệp TS Huỳnh Hữu Hưng Tôi cam đoan kết nghiên cứu trình bày luận án trung thực không chép từ cơng trình nghiên cứu khác Một số kết nghiên cứu thành tập thể đồng tác giả đồng ý cho sử dụng luận án Mọi trích dẫn luận án có ghi nguồn gốc xuất xứ rõ ràng đầy đủ Tác giả NCS Phan Phương Lan LỜI CẢM ƠN Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc gửi lời tri ân đến PGS TS Huỳnh Xuân Hiệp TS Huỳnh Hữu Hưng tận tình hướng dẫn, truyền đạt kiến thức kinh nghiệm nghiên cứu khoa học cho suốt trình học tập, nghiên cứu hồn thành luận án Tơi xin chân thành cảm ơn Phịng Đào tạo Khoa Công nghệ thông tin Trường Đại học Bách khoa tạo điều kiện thuận lợi cho thời gian làm nghiên cứu sinh Xin cảm ơn Ban Lãnh đạo trường Đại học Cần Thơ, Khoa Công nghệ thông tin Truyền thông, Bộ môn Công nghệ phần mềm hỗ trợ tạo điều kiện tốt để tơi tập trung nghiên cứu Tơi xin bày tỏ lịng biết ơn chân thành đến GS TS Régis Gras cung cấp cho tơi nhiều tài liệu lý thuyết phân tích hàm ý thống kê có góp ý sâu sắc cho nghiên cứu Xin chân thành cảm ơn nhà khoa học dành thời gian công sức đọc đưa góp ý quý báu để luận án hồn chỉnh Cuối cùng, tơi xin gửi lời cảm ơn sâu sắc đến gia đình bạn thân - người ln bên cạnh, giúp đỡ động viên suốt thời gian học tập, nghiên cứu hoàn thành luận án Đà Nẵng, ngày 09 tháng 11 năm 2019 NCS Phan Phương Lan i MỤC LỤC MỤC LỤC I DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT VI DANH MỤC BẢNG VIII DANH MỤC HÌNH IX MỞ ĐẦU CHƯƠNG TỔNG QUAN .7 1.1 Mức độ quan trọng hàm ý thống kê 1.1.1 Định nghĩa mức độ quan trọng hàm ý thống kê 1.1.2 Mức độ quan trọng hàm ý thống kê cho liệu nhị phân 1.1.2.1 Mối quan hệ hàm ý thống kê liệu nhị phân 1.1.2.2 Chỉ số hàm ý cường độ hàm ý 10 1.1.2.3 Cường độ hàm ý có entropy 12 1.1.2.4 Chỉ số gắn kết 13 1.1.2.5 Chỉ số đóng góp 13 1.1.2.6 Chỉ số tiêu biểu 14 1.1.3 Mức độ quan trọng hàm ý thống kê cho liệu phi nhị phân 14 1.1.3.1 Mối quan hệ hàm ý thống kê liệu phi nhị phân 15 1.1.3.2 Mức độ quan trọng hàm ý thống kê cho liệu phi nhị phân 15 1.2 Mức độ quan trọng xếp hạng hàm ý thống kê 17 1.3 Hệ tư vấn hướng nghiên cứu 18 1.3.1 Hệ tư vấn 18 1.3.2 Phân loại hệ tư vấn 21 1.3.2.1 Hệ tư vấn thuộc nhóm cá thể 22 1.3.2.2 Hệ tư vấn thuộc nhóm cộng tác/cộng đồng 22 1.3.2.3 Hệ tư vấn thuộc nhóm chuyên gia 23 1.3.2.4 Hệ tư vấn thuộc nhóm lai ghép 24 ii 1.3.2.5 Hệ tư vấn thuộc nhóm theo ngữ cảnh 25 1.3.3 Các hướng nghiên cứu hệ tư vấn 26 1.3.3.1 Nghiên cứu liệu 26 1.3.3.2 Nghiên cứu đề xuất cải tiến phương pháp tư vấn 27 1.3.3.3 Nghiên cứu đánh giá hệ tư vấn 29 1.4 Kỹ thuật tư vấn lọc cộng tác 29 1.4.1 Kỹ thuật lọc cộng tác dựa nhớ (láng giềng) 29 1.4.2 Kỹ thuật lọc cộng tác dựa mơ hình 30 1.4.2.1 Tư vấn lọc cộng tác dựa luật kết hợp 30 1.4.2.2 Mơ hình nhân tố tiềm ẩn 31 1.5 Đánh giá hiệu tư vấn 32 1.5.1 Phương pháp đánh giá chéo k tập 35 1.5.2 Tính xác gợi ý 36 1.5.3 Tính xác xếp hạng dự đốn 37 1.5.4 Tính xác gợi ý thứ tự 38 1.6 Phương pháp tư vấn theo mức độ quan trọng hàm ý thống kê 39 1.6.1 Tư vấn dựa phân tích hàm ý thống kê có 40 1.6.2 Tư vấn dựa mức độ quan trọng hàm ý thống kê 41 1.7 Kết luận chương 43 CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ TRÊN LUẬT KẾT HỢP 44 2.1 Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật SIR 44 2.1.1 Mơ hình tư vấn SIR 44 2.1.2 Mơ hình tư vấn SIR cải tiến 48 2.2 Hoạt động mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật 49 2.2.1 Hoạt động mơ hình tư vấn SIR 49 2.2.2 Hoạt động mơ hình tư vấn SIR cải tiến 53 2.3 Đánh giá hiệu tư vấn mơ hình SIR 54 2.3.1 Dữ liệu thực nghiệm mơ hình SIR 54 2.3.2 Công cụ thực nghiệm mơ hình SIR 56 iii 2.3.3 Hiệu tư vấn mơ hình SIR liệu nhị phân 57 2.3.3.1 Các giá trị tham số phù hợp 58 2.3.3.2 Thời gian xây dựng mơ hình tư vấn trước sau cải tiến 60 2.3.3.3 Tính xác gợi ý qua so sánh nội liệu nhị phân 62 2.3.3.4 Tính xác gợi ý qua so sánh ngoại liệu nhị phân 66 2.3.3.5 Mơ hình tư vấn SIR gợi ý đăng ký học phần 69 2.3.4 Hiệu tư vấn mơ hình SIR liệu phi nhị phân 69 2.3.4.1 Tính xác gợi ý qua so sánh nội liệu phi nhị phân 70 2.3.4.2 Tính xác gợi ý qua so sánh ngoại liệu phi nhị phân 73 2.4 Kết luận chương 75 CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG .77 3.1 Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê người dùng 78 3.2 Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng UIR 79 3.3 Hoạt động mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng 81 3.4 Đánh giá hiệu tư vấn mơ hình UIR 85 3.4.1 Dữ liệu thực nghiệm mơ hình UIR 85 3.4.2 Công cụ thực nghiệm mơ hình UIR 86 3.4.3 Đánh giá mơ hình UIR qua tính xác gợi ý 86 3.4.3.1 Tính xác mơ hình UIR qua so sánh ngoại 87 3.4.3.2 Tính xác mơ hình UIR qua so sánh nội 92 3.4.4 Đánh giá mơ hình UIR qua tính xác xếp hạng dự đoán 95 3.4.4.1 Sai số mơ hình UIR qua so sánh ngoại 95 3.4.4.2 Sai số mơ hình UIR qua so sánh nội 98 3.4.5 Đánh giá mơ hình UIR qua tính xác gợi ý thứ tự 99 3.4.5.1 Độ lợi tích lũy giảm dần mơ hình UIR liệu nhị phân 100 3.4.5.2 Độ lợi tích lũy giảm dần mơ hình UIR liệu phi nhị phân 101 3.5 Kết luận chương 103 iv CHƯƠNG TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN MỤC 104 4.1 Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê mục liệu 105 4.2 Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục IIR 106 4.3 Hoạt động mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục 109 4.4 Đánh giá hiệu tư vấn mơ hình IIR 111 4.4.1 Dữ liệu công cụ thực nghiệm mơ hình IIR 111 4.4.2 Thời gian xây dựng ma trận mục trực tiếp gián tiếp 112 4.4.3 Đánh giá mơ hình IIR qua tính xác gợi ý 113 4.4.3.1 Tính xác mơ hình IIR qua so sánh nội 114 4.4.3.2 Tính xác mơ hình IIR qua so sánh ngoại 116 4.4.3.3 Tính ổn định mơ hình IIR 118 4.4.4 Đánh giá mơ hình IIR qua tính xác xếp hạng dự đốn 121 4.4.4.1 Sai số mơ hình IIR qua so sánh nội 122 4.4.4.2 Sai số mơ hình IIR qua so sánh ngoại 126 4.4.5 Đánh giá mơ hình IIR qua tính xác gợi ý thứ tự 128 4.5 So sánh hiệu tư vấn mô hình đề xuất 130 4.5.1 So sánh thời gian tư vấn 130 4.5.2 So sánh tính xác mơ hình 132 4.5.3 Đánh giá chung mơ hình đề xuất 136 4.6 Kết luận chương 138 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 139 Kết luận 139 Hướng phát triển 140 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ 141 TÀI LIỆU THAM KHẢO 143 PHỤ LỤC Phụ lục 1: Công cụ Interestingnesslab tập liệu DKHP v Công cụ Interestingnesslab Tập liệu DKHP Phụ lục 2: Giải thuật tư vấn theo mức độ quan trọng hàm ý thống kê luật kết hợp Sinh tập luật dựa ngưỡng hỗ trợ, ngưỡng tin cậy độ dài tối đa luật Biểu diễn tập luật theo phân tích hàm ý thống kê Tính cường độ hàm ý, số gắn kết luật Lọc tập luật theo ngưỡng cường độ hàm ý số gắn kết Phụ lục 3: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng 10 Biểu diễn mối quan hệ hai người dùng theo phân tích hàm ý thống kê 10 Tính cường độ hàm ý hai người dùng 11 Tìm láng giềng gần người cần tư vấn 12 Xác định số tiêu biểu mục mối quan hệ hàm ý hai người dùng 12 Dự đoán xếp hạng người dùng cho mục liệu 14 Phụ lục 4: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục liệu 15 Xây dựng ma trận mục liệu - gián tiếp 15 Xây dựng ma trận mục liệu - trực tiếp 16 Dự đoán xếp hạng người dùng cho mục liệu 17 Phụ lục 5: Giải thuật đánh giá hệ tư vấn 18 Phụ lục 6: Xác định giá trị tham số phù hợp mơ hình SIR, AR IBCF 21 Ngưỡng tin cậy hỗ trợ mơ hình SIR, AR 21 Độ dài tối đa luật mơ hình SIR, AR 22 Số láng giềng gần mô hình IBCF 25 vi DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Cường độ hàm ý Tiếng Anh Implication/Implicative intensity Propension intensity Cường độ hàm ý có entropy Entropic version of implicative intensity Chỉ số gắn kết Cohesion measure Chỉ số hàm ý Viết tắt Implication/Implicative index Propesion index Chỉ số tiêu biểu Typicality measure Chỉ số đóng góp Contribution measure Độ đo hấp dẫn khách quan Objective interestingness measure Độ lợi tích lũy giảm dần Normalized discounted cumulative gain nDCG Hệ tư vấn Recommender/Recommendation systems RS Mơ hình tư vấn theo mức độ quan trọng hàm ý thống kê luật Statistical implicative rules based model SIR Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê mục Item implicative rating based model IIR Mơ hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê người dùng User implicative rating based model UIR Mục/Mục liệu Item Phân tích hàm ý thống kê Statistical implicative analysis Phản ví dụ Counter-example Sai số bình phương trung bình Root of mean squared error RMSE Sai số tuyệt đối trung bình Mean absolute error MAE SIA ...