Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao (Luận án tiến sĩ)
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ ĐẬU HẢI PHONG NGHIÊN CỨU PHÁT TRIỂN MƠ HÌNH, THUẬT TỐN KHAI PHÁ TẬP PHẦN TỬ CĨ TRỌNG SỐ VÀ LỢI ÍCH CAO LUẬN ÁN TIẾN SĨ CƠ SỞ TOÁN HỌC CHO TIN HỌC HÀ NỘI – NĂM 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ ĐẬU HẢI PHONG NGHIÊN CỨU PHÁT TRIỂN MƠ HÌNH, THUẬT TỐN KHAI PHÁ TẬP PHẦN TỬ CÓ TRỌNG SỐ VÀ LỢI ÍCH CAO Chuyên ngành: Cơ sở Toán học cho Tin học Mã số : 62.46.01.10 LUẬN ÁN TIẾN SĨ CƠ SỞ TOÁN HỌC CHO TIN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN MẠNH HÙNG PGS.TS ĐOÀN VĂN BAN HÀ NỘI - 2018 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực dƣới hƣớng dẫn tập thể cán hƣớng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thơng tin trích dẫn đƣợc ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hồn tồn trung thực, chƣa đƣợc công bố tác giả hay cơng trình khác i LỜI CẢM ƠN Luận án đƣợc thực hoàn thành Khoa Công nghệ Thông tin, Học viện kỹ thuật Quân Để đạt đƣợc kết thiếu định hƣớng hỗ trợ giáo viên hƣớng dẫn Tơi ln tỏ lòng cảm ơn tri ân ngƣời giúp đỡ trình nghiên cứu sau Tơi ln tỏ lòng biết ơn công lao to lớn hai giáo viên hƣớng dẫn Thầy ngƣời Thầy lớn tận tình, hƣớng dẫn giúp đỡ nghiên cứu Tôi trân trọng cảm ơn Lãnh đạo, Thầy/Cô Khoa Công nghệ Thông tin, Phòng Sau đại học - Học viện Kỹ thuật Quân tạo điều kiện thuận lợi, giúp đỡ q trình học tập nghiên cứu Tơi cảm ơn tới Ban Giám Hiệu, Thầy/Cô bạn bè đồng nghiệp trƣờng Đại học Thăng Long tạo điều kiện để tập trung nghiên cứu Tôi xin dành tất yêu thƣơng lời cảm ơn tới gia đình, bố mẹ, vợ con, anh chị em ngƣời thân động viên mạnh mẽ giúp thực Luận án Xin chân thành cảm ơn! Tác giả luận án Đậu Hải Phong ii MỤC LỤC LỜI CAM ĐOAN .I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VII DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ IX MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN 1.1 Giới thiệu chung 1.2 Tập phổ biến 1.2.1 Khái niệm sở 1.2.2 Một số phƣơng pháp khai phá tập phổ biến 1.3 Tập phổ biến có trọng số 12 1.3.1 Khái niệm sở 13 1.3.2 Một số phƣơng pháp khai phá tập phổ biến có trọng số 14 1.3.3 Thuật toán khai phá tập phổ biến có trọng số theo chiều dọc 19 1.4 Tập lợi ích cao 34 1.4.1 Khái niệm sở 35 1.4.2 Một số phƣơng pháp khai phá tập lợi ích cao 38 1.5 Kết luận chƣơng 43 CHƢƠNG THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO DỰA TRÊN MƠ HÌNH CWU 45 2.1 Giới thiệu chung 45 iii 2.2 Mơ hình hiệu khai phá tập lợi ích cao 46 2.2.1 Đặt vấn đề 46 2.2.2 Đề xuất mơ hình CWU 47 2.3 Thuật toán HP khai phá tập lợi ích cao dựa số hình chiếu mơ hình CWU 51 2.3.1 Mơ tả thuật tốn HP 54 2.3.2 Ví dụ minh họa thuật toán HP 57 2.3.3 Độ phức tạp tính tốn thuật tốn HP 63 2.3.4 Kết thực nghiệm 64 2.4 Thuật toán song song PPB khai phá tập lợi ích cao dựa số hình chiếu danh sách lợi ích 68 2.4.1 Một số cấu trúc đƣợc sử dụng thuật toán PPB gồm: 70 2.4.2 Mơ tả thuật tốn song song PPB 73 2.4.3 Ví dụ minh họa thuật toán PPB 75 2.4.4 Độ phức tạp tính tốn thuật toán PPB 80 2.4.5 Kết thực nghiệm 82 2.5 Thuật toán CTU-PRO+ 85 2.5.1 Một số cấu trúc 86 2.5.2 Độ phức tạp tính tốn thuật toán CTU-PRO+ 97 2.5.3 Kết thực nghiệm 98 2.6 Kết luận chƣơng 100 CHƢƠNG THUẬT TỐN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ CẤU TRÚC RTWU 102 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao 102 3.1.1 Mô tả cấu trúc CUP 104 iv 3.1.2 Ví dụ minh họa CUP 106 3.2 Thuật toán HUI-Growth 111 3.2.1 Ví dụ minh họa thuật toán HUI-Growth 112 3.2.2 Độ phức tạp thuật toán HUI-Growth 113 3.2.3 Kết thực nghiệm 114 3.3 Cấu trúc RTWU cho tỉa tập ứng viên 116 3.4 Thuật toán EAHUI-Miner dựa cấu trúc RTWU 125 3.4.1 Xây dựng danh sách lợi ích mở rộng 125 3.4.2 Thuật toán EAHUI-Miner 127 3.4.3 Độ phức tốn tính tốn thuật tốn EAHUI-Miner 127 3.4.4 Thuật toán song song PEAHUI-Miner 128 3.4.5 Kết thực nghiệm 130 3.5 Kết luận chƣơng 134 KẾT LUẬN VÀ KIẾN NGHỊ 136 Kết đạt được: 136 Hướng phát triển: 137 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 138 TÀI LIỆU THAM KHẢO 139 v DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt AU Actual Utility Lợi ích thực tế CFP Compact Frequent Pattern Mẫu phổ biến nén CSDL Database Cơ sở liệu CUP Compressed Utility Pattern Mẫu lợi ích nén CWU Candidate Weighted Utility Lợi ích trọng số ứng viên FI Frequent Itemsets Tập phổ biến FP Frequent Pattern Mẫu phổ biến IT Index Table Bảng số HCWU High Candidate Weighted Lợi ích ứng viên có trọng Utility số cao Low Candidate Weighted Lợi ích trọng số ứng viên Utility thấp STT 10 LCWU 11 RTWU Thuật ngữ tiếng Anh Remaining Transaction Weighted Utilization Thuật ngữ tiếng Việt Lợi ích giao dịch lại Bảng ứng viên 12 TC Table Candidate 13 TWU Transaction Weighted Utility Lợi ích trọng số giao dịch 14 UL Utility List Danh sách lợi ích 15 UT Utility Table Bảng giao dịch lợi ích Vertical Mining using Khai phá theo chiều dọc Diffset Groups sử dụng nhóm Diffset 16 VMUDG 17 VMWFP Vertical Mining of Weighted Khai phá theo chiều dọc tập phổ biến có trọng số Frequent Patterns vi DANH MỤC CÁC BẢNG Bảng 1.1 Cơ sở liệu minh họa 20 Bảng 1.2 Bảng Diffset phần tử 20 Bảng 1.3 Bảng trọng số phần tử 22 Bảng 1.4 Cơ sở liệu giao dịch minh họa 35 Bảng 1.5 Lợi ích phần tử 35 Bảng 2.1 Cơ sở liệu giao dịch minh họa 48 Bảng 2.2 Lợi ích phần tử 48 Bảng 2.3 Bảng TC1 với tập gồm 1- phần tử 53 Bảng 2.4 Bảng số ITA tập {A} 53 Bảng 2.5 Bảng UTA phần tử A 54 Bảng 2.6 Bảng TC1 với tập gồm phần tử 57 Bảng 2.7 Cơ sở liệu giao dịch sau xếp loại D 58 Bảng 2.8 Bảng TC1 sau cập nhật lại CWU 58 Bảng 2.9 Bảng UTC phần tử C 59 Bảng 2.10 Bảng số ITC phần tử C 59 Bảng 2.11 Bảng TC2 với tiền tố C giao dịch 60 Bảng 2.12 Bảng TC2 với tiền tố C giao dịch 60 Bảng 2.13 Bảng TC2 với tiền tố C CSDL 61 Bảng 2.14 Bảng TC1 sau cập nhật lại CWU 61 Bảng 2.15 Bảng số IT{CB} tập {CB} 62 Bảng 2.16 So sánh giá trị CWU TWU 63 vii Bảng 2.17 Cơ sở liệu giao dịch minh họa 68 Bảng 2.18 Bảng lợi ích ngồi phần tử 69 Bảng 2.19 Bảng lợi ích phần tử giao dịch 70 Bảng 2.20 Bảng TC1 với tập gồm phần tử 70 Bảng 2.21 Bảng số ITC tập {C} 71 Bảng 2.22 Bảng TC1 toàn cục với tập gồm phần tử 75 Bảng 2.23 Bảng số ITC phần tử C 76 Bảng 2.24 Bảng TC2 với tiền tố C giao dịch 77 Bảng 2.25 Bảng TC2 với tiền tố C giao dịch 78 Bảng 2.26 Bảng TC2 với tiền tố C 78 Bảng 2.27 Bảng số IT{CB} tập {CB} 79 Bảng 2.28 So sánh số lƣợng ứng viên danh sách lợi ích TWU 80 Bảng 2.29 Cơ sở liệu giao dịch minh họa 86 Bảng 2.30 Bảng lợi ích phần tử 86 Bảng 3.1 Cơ sở liệu giao dịch 103 Bảng 3.2 Bảng lợi ích phần tử 103 Bảng 3.3 CSDL giao dịch đƣợc 103 Bảng 3.4 Cơ sở liệu giao dịch 117 Bảng 3.5 Lợi ích phần tử 118 Bảng 3.6 Danh sách lợi ích mở rộng tập {bc} 119 Bảng 3.7 Các thuộc tính CSDL 130 Bảng 3.8 So sánh số lƣợng tập ứng viên 131 viii ... GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ ĐẬU HẢI PHONG NGHIÊN CỨU PHÁT TRIỂN MƠ HÌNH, THUẬT TỐN KHAI PHÁ TẬP PHẦN TỬ CĨ TRỌNG SỐ VÀ LỢI ÍCH CAO Chun ngành: Cơ sở Toán học cho... trọng số 12 1.3.1 Khái niệm sở 13 1.3.2 Một số phƣơng pháp khai phá tập phổ biến có trọng số 14 1.3.3 Thuật tốn khai phá tập phổ biến có trọng số theo chiều dọc 19 1.4 Tập lợi. .. chƣơng 100 CHƢƠNG THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ CẤU TRÚC RTWU 102 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao 102 3.1.1 Mơ tả cấu trúc