Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 141 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
141
Dung lượng
3,44 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2018 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN QUỐC NGHĨA HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý THỐNG KÊ Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Cán hƣớng dẫn: PGS TS Huỳnh Xuân Hiệp TS Đặng Hoài Phƣơng Đà Nẵng - Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thực hiện, hướng dẫn PGS.TS Huỳnh Xn Hiệp TS Đặng Hồi Phương Tơi cam đoan kết nghiên cứu trình bày luận án trung thực không chép từ cơng trình nghiên cứu khác Một số kết nghiên cứu thành tập thể đồng tác giả đồng ý cho sử dụng luận án Mọi trích dẫn luận án có ghi nguồn gốc xuất xứ rõ ràng đầy đủ Tác giả Phan Quốc Nghĩa ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH x MỞ ĐẦU 1 Tính cấp thiết luận án Mục tiêu, phƣơng pháp, đối tƣợng phạm vi nghiên cứu luận án 3 Các đóng góp luận án 4 Bố cục luận án CHƢƠNG TỔNG QUAN 1.1 Phân tích hàm ý thống kê 1.2 Khuynh hƣớng biến thiên hàm ý thống kê 11 1.3 Mơ hình tƣ vấn 13 1.3.1 Các khái niệm 13 1.3.2 Mơ hình tƣ vấn dựa lọc nội dung 14 1.3.2.1 Bài toán tƣ vấn lọc nội dung 14 1.3.2.2 Các nhƣợc điểm mơ hình tƣ vấn dựa lọc nội dung 16 1.3.3 Mơ hình tƣ vấn dựa lọc cộng tác 17 1.3.3.1 Bài toán tƣ vấn dựa lọc cộng tác 18 1.3.3.2 Lọc cộng tác dựa nhớ 18 1.3.3.3 Lọc cộng tác dựa mơ hình 20 1.3.3.4 Các nhƣợc điểm mơ hình tƣ vấn lọc cộng tác 20 1.3.4 Mơ hình tƣ vấn dựa đặc tính nhân học 21 1.3.5 Mơ hình tƣ vấn dựa tri thức 22 1.3.6 Mô hình tƣ vấn dựa luật kết hợp 24 1.3.7 Mơ hình tƣ vấn dựa phân tích hàm ý thống kê 25 iii 1.3.8 Mơ hình tƣ vấn tích hợp 26 1.4 Đánh giá mơ hình tƣ vấn 27 1.4.1 Phƣơng pháp xây dựng liệu đánh giá 28 1.4.2 Phƣơng pháp đánh giá mơ hình tƣ vấn 29 1.4.2.1 Đánh giá dựa giá trị xếp hạng dự đoán 29 1.4.2.2 Đánh giá dựa kết tƣ vấn 29 1.5 Ứng dụng mơ hình tƣ vấn 30 1.6 Hƣớng phát triển mơ hình tƣ vấn 31 1.7 Kết luận chƣơng 32 CHƢƠNG PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ HÀM Ý THỐNG KÊ 34 2.1 Độ đo hấp dẫn khách quan 34 2.2 Phân lớp độ đo hấp dẫn khách quan 36 2.2.1 Phân lớp độ đo dựa khảo sát thuộc tính 36 2.2.2 Phân lớp độ đo dựa khảo sát hành vi 37 2.3 Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê 37 2.3.1 Quy tắc xác định giá trị biến thiên độ đo dựa đạo hàm riêng 38 2.3.2 Quy tắc phân lớp độ đo dựa thuộc tính biến thiên 40 2.4 Kết phân lớp độ đo hấp dẫn khách quan bất đối xứng 41 2.4.1 Kết phân lớp độ đo dựa đạo hàm riêng theo n 43 2.4.2 Kết phân lớp độ đo dựa đạo hàm riêng theo n 45 2.4.3 Kết phân lớp độ đo dựa đạo hàm riêng theo n 47 2.4.4 Kết phân lớp độ đo dựa đạo hàm riêng theo n 48 2.5 So sánh đánh giá kết phân lớp theo tham số hàm ý thống kê 51 2.6 Kết luận chƣơng 52 CHƢƠNG MƠ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ 53 3.1 Luật kết hợp dựa thuộc tính định 53 3.1.1 Định nghĩa luật kết hợp dựa thuộc tính định 53 3.1.2 Thuật toán sinh luật kết hợp dựa thuộc tính định 54 iv 3.2 Tham số hàm ý thống kê luật kết hợp 56 3.2.1 Tham số hàm ý thống kê 56 3.2.2 Tham số hàm ý thống kê dựa ma trận nhị phân 57 3.2.2.1 Chuyển tập liệu giao dịch sang ma trận thƣa nhị phân 57 3.2.2.2 Chuyển tập luật kết hợp sang ma trận thƣa nhị phân 58 3.2.2.3 Xác định giá trị cho tham hàm ý thống kê luật kết hợp59 3.3 Tính giá trị số hàm ý thống kê giá trị đạo hàm riêng dựa tham số hàm ý thống kê 61 3.4 Mơ hình tƣ vấn dựa số hàm ý thống kê 61 3.4.1 Định nghĩa mơ hình tƣ vấn dựa số hàm ý thống kê 61 3.4.2 Thuật toán tƣ vấn dựa số hàm ý thống kê 63 3.5 Thực nghiệm 64 3.5.1 Dữ liệu thực nghiệm 64 3.5.2 Đánh giá độ xác mơ hình tập liệu chuẩn 67 3.5.3 Đánh giá độ xác mơ hình tập liệu thực 68 3.6 Kết luận chƣơng 72 CHƢƠNG MƠ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN CƢỜNG ĐỘ HÀM Ý THỐNG KÊ 73 4.1 Luật kết hợp dựa cƣờng độ hàm ý thống kê 73 4.1.1 Định nghĩa luật kết hợp dựa cƣờng độ hàm ý thống kê 73 4.1.2 Thuật toán sinh luật kết hợp dựa cƣờng độ hàm ý thống kê 74 4.2 Mơ hình tƣ vấn lọc cộng tác dựa cƣờng độ hàm ý thống kê 76 4.2.1 Định nghĩa mơ hình tƣ vấn dựa cƣờng độ hàm ý thống kê 76 4.2.2 Thuật toán tƣ vấn dựa cƣờng độ hàm ý thống kê 78 4.2.3 Đánh giá độ xác mơ hình 79 4.3 Thực nghiệm 81 4.3.1 Dữ liệu thực nghiệm 81 4.3.2 So sánh độ xác mơ hình liệu xếp hạng dạng nhị phân liệu xếp hạng dạng số thực 81 v 4.3.3 Độ xác mơ hình so với mơ hình tƣ vấn lọc cộng tác khác82 4.4 Kết luận chƣơng 84 CHƢƠNG MÔ HÌNH TƢ VẤN LỌC CỘNG TÁC DỰA TRÊN TƢƠNG ĐỒNG HÀM Ý THỐNG KÊ 85 5.1 Độ đo tƣơng đồng dựa cƣờng độ hàm ý thống kê 85 5.1.1 Độ đo tƣơng đồng hàm ý thống kê hai ngƣời dùng 86 5.1.2 Thuật toán đo độ tƣơng đồng hàm ý thống kê hai ngƣời dùng 86 5.1.3 Tính chất độ đo tƣơng đồng hàm ý thống kê hai ngƣời dùng 87 5.2 Mơ hình tƣ vấn lọc cộng tác dựa tƣơng đồng hàm ý thống kê 89 5.2.1 Định nghĩa mô hình tƣ vấn dựa tƣơng đồng hàm ý thống kê 89 5.2.2 Thuật toán tƣ vấn lọc cộng tác dựa tƣơng đồng hàm ý thống kê 90 5.3 Thực nghiệm 92 5.3.1 Dữ liệu thực nghiệm 92 5.3.2 Đánh giá mơ hình liệu xếp hạng dạng số thực 92 5.3.2.1 Đánh giá mơ hình dựa kết xếp hạng 93 5.3.2.2 Đánh giá mơ hình dựa kết tƣ vấn 94 5.3.3 Đánh giá mô hình liệu xếp hạng dạng nhị phân 94 5.4 Kết luận chƣơng 97 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 98 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ TÀI LIỆU THAM KHẢO PHỤ LỤC vi DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Viết tắt Phân tích hàm ý thống kê Statistical implicative analysis Khuynh hƣớng biến thiên hàm ý Tendency of variation in statistical thống kê implications Độ đo hấp dẫn khách quan Objective interestingness measures Độ đo hấp dẫn chủ quan Subjective interestingness measures Độ đo số hàm ý thống kê Implication index Độ đo cƣờng độ hàm ý thống kê Implication intensity Độ đo tƣơng đồng Similarity measures Độ đo tƣơng đồng hàm ý thống Statistical implicative similarity kê measures Hệ tƣ vấn Recommender systems RS Mơ hình tƣ vấn Recommender models RM Content-based recommender models CB Mơ hình tƣ vấn dựa lọc nội dung Hồ sơ ngƣời dùng User profile Mơ hình tƣ vấn dựa lọc Collaborative filtering recommender cộng tác models Mơ hình tƣ vấn lọc cộng tác dựa User-based collaborative filtering ngƣời dùng recommender models Mơ hình tƣ vấn lọc cộng tác dựa Item-based collaborative filtering sản phẩm recommender models Mơ hình tƣ vấn dựa luật kết Recommender based on association hợp rule models Mơ hình tƣ vấn dựa đặc tính nhân học Mơ hình tƣ vấn dựa tri thức Demographic recommender models Knowledge-based recommender models ASI CF UBCF IBCF AR DRM KRM vii Mơ hình tƣ vấn dựa phân Recommender model based on tích hàm ý thống kê statistical implicative analysis Mơ hình tƣ vấn tích hợp Hybrid recommender models Mơ hình tƣ vấn dựa tính Computational Intelligence-based tốn thơng minh recommender models Mơ hình tƣ vấn dựa mạng Social network-based recommender xã hội models Mơ hình tƣ vấn dựa ngữ Context awareness-based cảnh recommender models Đánh giá dựa giá trị xếp hạng Đánh giá dựa kết tƣ vấn Evaluation based on the ratings Evaluation based on recommendation results ASICF HRM CIRM SNRM CARM viii DANH CÁC MỤC BẢNG Bảng 1.1 Ma trận hỗn độn 30 Bảng 2.1 Kết khảo sát độ đo dựa đạo hàm riêng tham số 42 Bảng 2.2 Kết phân lớp độ đo dựa đạo hàm riêng theo n .43 Bảng 2.3 Kết phân lớp độ đo dựa đạo hàm riêng theo .45 Bảng 2.4 Kết phân lớp độ đo dựa đạo hàm riêng theo .47 Bảng 2.5 Kết phân lớp độ đo dựa đạo hàm riêng theo ̅ 49 Bảng 3.1 Tập liệu phân nhóm thí sinh 55 Bảng 3.2 Kết sinh tập phổ biến phần tử 55 Bảng 3.3 Kết sinh tập phổ biến phần tử 55 Bảng 3.4 Kết sinh tập phổ biến phần tử 56 Bảng 3.5 Kết sinh luật kết hợp dựa thuộc tính định .56 Bảng 3.6 Kết chuyển từ liệu giao dịch sang dạng ma trận nhị phân 57 Bảng 3.7 Kết chuyển từ luật kết hợp sang dạng ma trận nhị phân 58 Bảng 3.8 Kết chuyển vế trái luật kết hợp sang dạng ma trận nhị phân 59 Bảng 3.9 Kết chuyển vế phải luật kết hợp sang dạng ma trận nhị phân .59 Bảng 3.10 Giá trị tham số ̅ cho luật kết hợp .60 Bảng 3.11 Giá trị số hàm ý thống kê giá trị đạo hàm riêng theo tham số hàm ý thống kê luật kết hợp .61 Bảng 3.12 Nội dụng chi tiết tập liệu Lenses 65 Bảng 3.13 Mẫu liệu tuyển sinh xử lý .66 Bảng 3.14 Tập luật kết hợp sinh tập liệu Lenses .67 Bảng 3.15 Kết xác định tham số hàm ý thống kê ̅ 67 Bảng 3.16 Kết tính giá trị độ đo số hàm ý thống kê giá trị đạo hàm riêng theo tham số hàm ý thống kê cho luật kết hợp 68 Bảng 3.17 Kết tƣ vấn với thuộc tính điều kiện {i1=1, i2=2, i3=2, i4=1} 68 Bảng 3.18 Kết sinh luật kết hợp cho mơ hình tập liệu DVT-Data .69 Bảng 3.19 Kết xác định tham số , , , ̅ 10 luật kết hợp mơ hình tƣ vấn 69 ̅ 33 34 35 36 37 38 39 ̅ Mutual Information MI, 2-way Support Variation ̅ ̅ ̅ ̅ ̅ ̅ Prevalence Putative Causal Dependency Recall, Completeness Sebag and Schoenauer Specificity 1, Negative Reliability ( ) ̅ ̅ ̅ ̅ ̅ Zhang Zhang ̅ ̅ Phụ lục 2: Công thức đạo hàm riêng độ đo theo tham số n Đạo hàm riêng theo tham số n TT ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ( ( ) )( ̅ (( ̅ ( ) ( ) ̅ ) ̅ ̅ ) ̅ ) ̅ 10 11 ̅ 12 13 ̅ 14 ( ( )( ( ))) √ 15 ( )( ( )) ( ( ) ) √ ( ) ( ( 16 ( ) ) ( ) ) 17 ̅ 18 ̅ 19 20 ̅ ̅ ̅ where ̅ ̅ ( ̅ ̅ ( ) ( ̅ ( ( ̅ ( ) ̅ ∑ ) ̅ )) ( ) ( ̅ ̅ ( ( ( √ ̅ ( ) 21 )( )) ̅ ( 22 ̅ ) ) ) ( ) ) ̅ ̅ 23 24 { ̅ ̅ 25 ̅ { 26 ̅ ̅ ̅ ̅ 27 ( √ ̅ ̅ ( ( ( 30 31 32 ) ̅ (√ )( ) ) ̅ 28 29 ) ̅ ( ) ̅ ̅ 0 )( ) ̅ ̅ ̅ ̅ ̅ ̅ ̅ 33 ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ 34 ̅ 35 0 36 37 ̅ 38 ̅ 39 ( ̅) ̅ ( ̅ ̅ ̅) ̅ Phụ lục 3: Công thức đạo hàm riêng độ đo theo tham số Đạo hàm riêng theo tham số TT ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ( ̅ ) (( ( ) )( ̅ )( ̅ ̅ ̅ ( ) ) ) ̅ ̅ 10 11 ̅ 12 ̅ 13 14 (( √ ( )( ( )( 15 ( ))) ( ))) ( )( ( (( )) ( ) ) ) √ ( ) ( 16 ( ) ) ( )( ) ̅ 17 ̅ 18 ̅ 19 20 ̅ ̅ ̅ where ̅ ̅ ( )( ( ) ̅ ( ( ( ̅ ) ̅ ( ) 21 ∑ 22 ̅ ( ( ̅ ) n nB nA ( ̅ )) ) n nB n ) ( ( nAB ̅ ( ̅ ( )) n ) nA ̅ ̅ ∑ 23 24 { ̅ 25 ̅ ̅ ̅ { ̅ 26 27 ( 28 29 ( ̅ √ ̅ ( ̅ ) ̅ ( ̅ 31 ̅ ̅ √ ) ) ̅ 30 32 ̅ ) ̅ ( ̅ ) ) ) ̅ ̅ ̅ ̅ 33 ̅ ̅ ̅ ̅ ( ̅ ) 34 ̅ 35 36 37 ̅ ̅ 38 39 ( ̅) ̅ ( ̅ ̅ ̅) Phụ lục 4: Công thức đạo hàm riêng độ đo theo tham số Đạo hàm riêng theo tham số TT ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ( ) ̅ (( ( ( ) ) ̅ )( ̅ ) ) ̅ ̅ ( ̅ ) ̅ ( ) ̅ 10 11 ̅ 12 13 14 ( √ ( ( ) (( ( )( ))) ( ))) 15 ( )( ( )) ( 16 √ ( ( ( ) ) ) ( ( ) )) ( ) ( ( ( ) ) ( )( )) 17 18 ̅ 19 ( )( ̅ ( ) ( ̅ ( 20 )) ̅ ̅ ( ( ̅ ) ( ( ( ) ̅ ∑ 22 23 24 { ̅ 25 ̅ ̅ { 27 ̅ ̅ √ ̅ ) ̅ n n n A B ( A ) ( n nB ) ( A ) ( n nB ) 2 n n 21 26 ̅ ) ) ̅ ) ) ( ̅ ( ) ( ) 28 ̅ ( ̅ ̅ ( 29 )( ) ) 30 ̅ 31 32 ̅ ̅ ̅ ̅ ̅ ( ̅ 33 ) ̅ ̅ ̅ ̅ 34 ̅ 35 ̅ 36 37 38 39 ̅ ( ̅) ̅ Phụ lục 5: Công thức đạo hàm riêng độ đo theo tham số TT Đạo hàm riêng theo tham số ̅ ̅ ̅ ( ) ( ) ̅ ̅ ̅ ( ) (( ) ( ) ( ̅ ( ) ) ̅ ̅ ̅ ̅ ̅ ( ) ) ̅ 10 11 ̅ 12 13 14 ( ( √ ( ( ( ) (( )( ( ( 15 )))) ))) )( ( )) (( )( ( ))) ( √ ( ( ( ) ) ) ( ( ) )) 16 ( ) ( ( ) ) ( )( )( ( ( ) ) ( )( )) 17 ̅ 18 ̅ 19 ( 20 ( ̅ ̅ ) ( ( ) ̅ ( ) ) ( ( ) n A (n nB ) n 21 ∑ 22 ̅ 23 24 { ̅ { 25 ̅ 26 27 √ ̅ ( ̅ ̅ ) √ ̅ )) ( 28 ) ( 29 ) 30 31 32 ̅ ̅ ̅ ̅ 33 ̅ ̅ ̅ ̅ ̅ 34 ( 35 ) 36 37 ̅ 38 39 ( ̅) ̅ ( ̅ ̅ ̅ ̅) Phụ lục 6: Bộ công cụ ARQAT ngôn ngữ R Kiến trúc tổng thể: ARQAT TOOLS Data Application - Recommendation models - Evaluation models Data proceesing IIsRule algorithm Interest Values Interest Measures Cardinality Utility Association rules Apriori algorithm Các thành phần ARQAT: - Data: liệu sử dụng cho thực nghiệm Dữ liệu thực nghiệm liệu giao dịch ma trận xếp hạng - Data proceesing: hàm tiện ích dùng để xử lý liệu cho thực nghiệm mô hình tƣ vấn đánh giá mơ hình tƣ vấn - Apriori algorithm: hàm sinh luật kết hợp dựa ngƣỡng độ đo Support độ đo Confidence - IIsRule algorithm: hàm sinh luật kết hợp dựa ngƣỡng độ đo cƣờng độ hàm ý thống kê (Implication intensity) - Cardinality: chức xác định giá trị cho tham số hàm ý thống kê Mỗi luật kết hợp có gồm tham số { ̅ } Cardinality sinh ma trận chứa giá trị tham số hàm ý thống kê toàn tập luật kết hợp với dòng ma trận tham số luật kết hợp - Utility: tập hàm tiện ích đƣợc sử dụng chức Cardinality - Interest Values: chức xác định giá trị hấp dẫn luật kết hợp độ đo đƣợc lựa chọn Mỗi luật kết hợp có giá trị hấp dẫn theo độ đo hấp dẫn cụ thể Interest Value sinh ma trận chứa giá trị hấp dẫn toàn tập luật kết hợp theo độ đo đƣợc chọn ngƣời sử dụng Mỗi dòng ma trận lƣu giá trị hấp dẫn luật kết hợp theo độ đo đƣợc chọn - Interest Measures: hàm tính giá trị hấp dẫn độ đo cho luật kết hợp Tổng số hàm độ đo đƣợc cài đặt cho công cụ 109 Những hàm đƣợc sử dụng InterestValues - Application: thƣ viện mở lƣu ứng dụng đƣợc xây dựng dựa chức nêu Hiện tại, cơng cụ cài đặt: mơ hình tƣ vấn luận án đƣợc cài đặt, chức đánh giá mơ hình, chức tích hợp mơ hình Ngƣời sử dụng dùng cài đặt tập liệu thực tế (chẳng hạn: liệu đăng ký học phần, liệu mua hàng hóa, liệu tuyển sinh) để tìm danh sách kết tƣ vấn kết đánh giá mơ hình ... riêng dựa tham số hàm ý thống kê 61 3.4 Mơ hình tƣ vấn dựa số hàm ý thống kê 61 3.4.1 Định nghĩa mơ hình tƣ vấn dựa số hàm ý thống kê 61 3.4.2 Thuật toán tƣ vấn dựa số hàm ý thống. .. hợp dựa cƣờng độ hàm ý thống kê 74 4.2 Mơ hình tƣ vấn lọc cộng tác dựa cƣờng độ hàm ý thống kê 76 4.2.1 Định nghĩa mô hình tƣ vấn dựa cƣờng độ hàm ý thống kê 76 4.2.2 Thuật toán tƣ vấn dựa. .. mối quan hệ hàm ý thống kê sản phẩm cần tƣ vấn nhƣ mức độ hàm ý nhóm ngƣời dùng dựa phƣơng pháp phân tích hàm ý thống kê - Nghiên cứu mơ hình tƣ vấn nhƣ: tƣ vấn dựa nội dung, tƣ vấn dựa lọc công