PHƯƠNG PHÁP PHÂN lớp dựa TRÊN kết hợp TRỌNG yếu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN  LÊ HỒNG VÂN PHƯƠNG PHÁP PHÂN LỚP DỰA TRÊN KẾT HỢP TRỌNG YẾU LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS LÊ HOÀI BẮC TP HỒ CHÍ MINH – NĂM 2017 LỜI CÁM ƠN Luận văn kết trình cố gắng không ngừng thân giúp đỡ, động viên khích lệ Thầy, bạn bè, đồng nghiệp người thân Qua trang viết tác giả xin gửi lời cảm ơn tới người giúp đỡ tác giả thời gian học tập – nghiên cứu khoa học vừa qua Tác giả xin tỏ lòng kính trọng biết ơn sâu sắc người thầy giáo PGS.TS Lê Hoài Bắc trực tiếp hướng dẫn cung cấp tài liệu, thông tin khoa học cần thiết cho luận văn Tác giả đặc biệt thể lòng mang ơn sâu sắc người thầy giáo PGS.TS Võ Đình Bảy TS Nguyễn Quốc Huy tận tình giúp đỡ động viên tác giả suốt nhiều tháng trình thực luận văn Tác giả xin chân thành cảm ơn Trường đại học Công Nghệ Thông Tin, khoa Khoa Học Máy Tính tạo điều kiện cho tác giả hoàn thành tốt việc học tập nghiên cứu khoa học Cuối tác giả xin chân thành cảm ơn đồng nghiệp, đơn vị công tác giúp đỡ tác giả trình học tập thực luận văn TP Hồ Chí Minh, ngày 03 tháng 03 năm 2017 Người thực luận văn Lê Hồng Vân LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu tơi thực Các số liệu, kết phân tích luận văn hoàn toàn trung thực chưa cơng bố cơng trình nghiên cứu trước Mọi hướng dẫn, thông tin tham khảo cho việc thực luận văn thông tin đầy đủ rõ ràng luận văn TP Hồ Chí Minh, ngày 03 tháng 03 năm 2017 Người thực luận văn Lê Hoàng Vân Mục lục Số trang Mục lục Danh mục bảng .3 Danh mục hình vẽ, đồ thị MỞ ĐẦU .5 Chương GIỚI THIỆU .6 1.1 Tổng quan 1.2 Bài toán khai thác luật kết hợp 1.2.1 Các định nghĩa 1.2.2 Các tính chất .9 1.2.3 Thuật toán Apriori 1.3 Bài toán Phân lớp kết hợp .10 1.3.1 Các định nghĩa 10 1.3.2 Các giai đoạn 11 Chương THUẬT TOÁN PHÂN LỚP KẾT HỢP 12 2.1 Thuật toán PAM .12 2.1.1 Tiền xử lý liệu .12 2.1.2 Khai thác tập luật ứng viên .12 2.1.3 Xây dựng phân lớp 14 2.1.4 Phân lớp cho liệu 18 2.1.5 Ví dụ minh họa 18 2.2 Thuật toán CBA* 31 2.2.1 Xây dựng phân lớp 31 2.2.2 Phân lớp cho liệu [1] 33 2.2.3 Ví dụ minh họa 33 Chương SỬ DỤNG DÀN TRONG KHAI THÁC TẬP LUẬT 39 3.1 Lý thuyết dàn .39 3.1.1 Cấu trúc dàn 39 3.1.2 Các quy tắc xây dựng dàn 41 3.2 Xây dựng dàn theo chiều sâu 42 3.2.1 Phương pháp xây dựng dàn 42 3.2.2 Chạy bước 44 3.3 Xây dựng dàn theo chiều rộng 51 3.3.1 Phương pháp xây dựng dàn 51 3.3.2 Chạy bước 54 Chương THỰC NGHIỆM .58 4.1 Phương pháp đánh giá 58 4.2 Môi trường cài đặt 59 4.3 Các liệu 60 4.4 So sánh thuật toán PAM CBA* 61 4.4.1 Độ xác phân lớp 61 4.4.2 Kích thước phân lớp 63 4.5 Hiệu việc sử dụng dàn 65 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 5.1 Kết luận 69 5.2 Hướng phát triển .70 TÀI LIỆU THAM KHẢO 71 Danh mục bảng Bảng 2.1 Bộ liệu huấn luyện T 18 Bảng 2.2 Các thuộc tính item liệu T 19 Bảng 2.3 Tập luật phổ biến với minsup = 20% 19 Bảng 2.4 Tập luật phổ biến loại bỏ luật thừa prunedCARs 21 Bảng 2.5 Tập luật prunedCARs theo độ ưu tiên giảm dần .22 Bảng 2.6 Tập luật prunedCARs có độ Trọng yếu (1) 24 Bảng 2.7 Bộ liệu huấn luyện T (1) 25 Bảng 2.8 Tập luật prunedCARs có độ Trọng yếu (2) 26 Bảng 2.9 Bộ liệu huấn luyện T (2) 27 Bảng 2.10 Tập luật prunedCARs có độ Trọng yếu (3) 27 Bảng 2.11 Bộ liệu huấn luyện T (3) 28 Bảng 2.12 Tập luật prunedCARs có độ Trọng yếu (4) 28 Bảng 2.13 Bộ phân lớp AC PAM 29 Bảng 2.14 Bộ liệu kiểm tra T’ 29 Bảng 2.15 Bộ liệu huấn luyện T 34 Bảng 2.16 Tập luật prunedCARs theo độ ưu tiên giảm dần .34 Bảng 2.17 Bộ phân lớp AC CBA* 37 Bảng 4.1 Các liệu sử dụng thực nghiệm .60 Bảng 4.2 Độ xác phân lớp với 𝜆 ∈ [0.55,1] 61 Bảng 4.3 Độ xác kích thước phân lớp 63 Bảng 4.4 Thời gian khai thác số luật tập luật ứng viên 66 Danh mục hình vẽ, đồ thị Hình 2.1 Thủ tục xây dựng phân lớp PAM_CB [3] 17 Hình 2.2 Thủ tục xây dựng phân lớp CBA*_CB [1] 32 Hình 3.1 Cấu trúc đỉnh .39 Hình 3.2 Quan hệ cha đỉnh 41 Hình 3.3 Một dàn đầy đủ xây dựng theo chiều sâu với item .43 Hình 3.4 Thủ tục khai thác loại bỏ luật thừa PAM_RG (dàn sâu) 44 Hình 3.5 (a) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 45 Hình 3.6 (b) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 46 Hình 3.7 (c) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 47 Hình 3.8 (d) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 48 Hình 3.9 (e) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 48 Hình 3.10 (f) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 49 Hình 3.11 (g) Cấu trúc dàn sâu với nhãn lớp Y từ liệu Bảng 2.1 .50 Hình 3.12 Cấu trúc dàn sâu với nhãn lớp N từ liệu Bảng 2.1 .50 Hình 3.13 Kết giai đoạn xây dựng dàn theo chiều rộng có item 51 Hình 3.14 Một dàn đầy đủ xây dựng theo chiều rộng với item 52 Hình 3.15 Thủ tục khai thác loại bỏ luật thừa PAM_RG (dàn rộng) 54 Hình 3.16 Cấu trúc dàn rộng với nhãn lớp Y từ liệu Bảng 2.1 sau giai đoạn 55 Hình 3.17 Cấu trúc dàn rộng với nhãn lớp Y từ liệu Bảng 2.1 sau giai đoạn 56 Hình 3.18 Cấu trúc dàn rộng với nhãn lớp N từ liệu Bảng 2.1 sau giai đoạn 57 Hình 4.1 Phương pháp phân lớp chéo (10-fold cross validation) 58 Hình 4.2 Giao diện ứng dụng chạy thuật tốn PAM 59 Hình 4.3 Giao diện ứng dụng chạy thuật toán CBA* 60 Hình 4.4 So sánh độ xác phân lớp CBA* PAM (λ=0.75) 62 Hình 4.5 Độ xác phân lớp λ thay đổi .62 Hình 4.6 Kích thước phân lớp λ thay đổi (0 ≤ λ≤0.6) 64 Hình 4.7 Kích thước phân lớp λ thay đổi (0.65 ≤ λ≤1.0) 64 Hình 4.8 So sánh số luật phân lớp CBA* PAM (λ=0.75) 65 Hình 4.9 Tỷ lệ thời gian thực thi Dàn sâu PAM (minsup=1%) 67 Hình 4.10 Tỷ lệ thời gian thực thi Dàn Rộng PAM (minsup=1%) .68 Hình 4.11 Tỷ lệ thời gian thực thi Dàn rộng Dàn sâu (minsup=1%) 68 MỞ ĐẦU Phân lớp nhiệm vụ quan trọng toán khai thác liệu Trong đó, phân lớp kết hợp có nhiều nghiên cứu có ý nghĩa đáng quan tâm năm gần độ xác cao Các thuật tốn khai thác luật kết hợp truyền thống thường sinh nhiều luật phân lớp kết hợp dư thừa đơi mâu thuẫn Luận văn trình bày phương pháp phân lớp kết hợp hiệu Kết phương pháp phân lớp đạt hiệu suất tốt nhỏ gọn Phương pháp dựa độ đo mới, đặt tên độ trọng yếu (Principality), dùng để đo độ xác độ bao phủ việc phân lớp luật kết hợp Phương pháp phân lớp dựa kết hợp trọng yếu (Principal Association Mining - PAM) [3] xác nhận có hiệu việc cải thiện độ xác phân lớp giảm kích thước phân lớp thực nghiệm tiến hành nhiều liệu UCI Quá trình khai thác tập luật phổ biến loại bỏ luật dư thừa gây tốn nhiều thời gian thuật toán khai thác liệu liệu ngày lớn có nhiều thuộc tính phức tạp Luận văn đề xuất phương pháp hiệu để cải thiện mặt thời gian trình Ý tưởng phương pháp đánh dấu luật cần loại bỏ từ lúc khai thác liệu để tìm tập luật phổ biến Sẽ có phương pháp khác để thực ý tưởng trên, phương pháp xây dựng dàn theo chiều sâu phương pháp xây dựng dàn theo chiều rộng Kết thực nghiệm cho thấy phương pháp có hiệu tốt so với phương pháp tiếng Apriori, sử dụng PAM Ngoài ra, thực nghiệm cho thấy phương pháp xây dựng dàn theo chiều rộng tốt so với theo chiều sâu Chương 1: Giới thiệu Chương GIỚI THIỆU 1.1 Tổng quan Mục đích khai thác liệu tìm tri thức ẩn chứa bên liệu lớn Các tri thức sử dụng nhiều lĩnh vực khác nhau, chẳng hạn nghiên cứu khoa học hay thương mại điện tử, thị trường tài chính, dự báo xu chấp nhận cho vay Trong đó, khai thác luật kết hợp hướng nghiên cứu từ lâu đạt nhiều kết tốt đem lại tri thức tốt dễ hiểu cho người sử dụng Khai thác luật kết hợp lần đề xuất Agrawal đồng [7], mục đích khai thác luật kết hợp nhằm xác định kết tương quan yếu tố xảy đồng thời tập liệu Các mối quan hệ khai thác kết hợp trình bày tập mẫu phổ biến luật kết hợp Dạng chung luật kết hợp phép kéo theo X⇒Y, X Y tương ứng điều kiện kết Luật kết hợp trả lời câu hỏi dạng “Nếu khách hàng mua sản phẩm A, làm để họ mua sản phẩm B?” Hoặc “Những sản phẩm khách hàng mua mua sản phẩm C D?” Phương pháp phân lớp lĩnh vực nghiên cứu sâu rộng với nhiều phương pháp khác đề xuất nhằm xây dựng phân lớp định, luật quy nạp, mơ hình Naive Bayes, mạng nơron, SVM,… Mục đích của phương pháp phân lớp tìm phân lớp để phân loại liệu Luật kết hợp mang tính diễn giải tốt nên việc tích hợp vào phương pháp phân lớp tạo phân lớp "dễ hiểu" người, điều ảnh hưởng tốt việc dự đoán cho liệu Trong thập kỷ qua, phân lớp dựa khai thác luật kết hợp hay phân lớp kết hợp lên cải tiến mạnh mẽ so với việc học dựa luật truyền thống Phân lớp kết hợp trở nên phổ biến năm gần Một số phương pháp đề xuất nhằm xây dựng phân lớp với lớp luật kết hợp chất lượng cao CBA [1], CMAR [8], MCAR [4], Những kỹ thuật sử dụng phương pháp tiếp cận khác để khai thác mẫu phổ biến, cách sinh luật, xếp hạng luật, Chương 1: Giới thiệu loại bỏ luật dư thừa hay luật có hại (luật dẫn đến việc phân lớp khơng xác) phân lớp đối tượng liệu CBA (Classification Based on Associations) [1] giới thiệu ý tưởng việc sử dụng luật kết hợp để phân lớp, xây dựng phân lớp kết hợp dự đoán nhãn lớp theo độ đo tin cậy CBA dùng phương pháp tiếng Apriori để tìm mẫu phổ biến Những luật có độ tin cậy lớn so với ngưỡng độ tin cậy người dùng định nghĩa phát sinh từ mẫu phổ biến Sau đó, chiến lược thu gọn áp dụng để loại bỏ luật không sử dụng không cần thiết Tất luật phân lớp CAR (Class Associations Rule) xếp hạng theo thứ tự giảm dần độ tin cậy, độ hỗ trợ thời gian phát sinh Việc phân lớp cho đối tượng liệu dựa luật có ưu tiên cao phù hợp với đối tượng CBA2 [2] thuật toán cải tiến CBA CBA2 khắc phục điểm yếu CBA hạn chế độ hỗ trợ đơn khai thác luật dài Hạn chế giải cách sử dụng nhiều độ hỗ trợ tối thiểu, hạn chế thứ hai giải cách tích hợp CBA với định phương pháp Naive Bayes Nhiều phương pháp phân lớp kết hợp hoạt động với độ hỗ trợ độ tin cậy, ngưỡng tối thiểu sử dụng để tạo luật kết hợp Ví dụ, CBA2 loại bỏ luật mà độ hỗ trợ độ tin cậy thấp ngưỡng tối thiểu cho trước Vì vậy, số luật với độ tin cậy cao độ hỗ trợ thấp bị bỏ qua Luật dài cụ thể thường có độ hỗ trợ thấp bị bỏ qua Nhưng phân lớp kết hợp tốt nên có luật tổng quát luật cụ thể Nó nên có luật đặc biệt dành cho đối tượng đặc biệt Ngoài độ hỗ trợ độ tin cậy, nhiều nhà nghiên cứu tìm kiếm tiêu chí thú vị khác để thử nghiệm Tuy nhiên, kết thực nghiệm cho thấy kỹ thuật có hiệu đạt độ xác cao hầu hết trường hợp, lại làm tiêu tốn nhiều thời gian Bài toán phân lớp kết hợp (phân lớp dựa luật kết hợp) xem trường hợp đặc biệt toán khai thác luật kết hợp Bài toán phân lớp kết hợp xem xét luật kết hợp có chứa thuộc tính nhãn lớp Nhiệm vụ phân lớp kết hợp tìm phân lớp (gồm luật kết hợp) dùng để xác định nhãn lớp cho đối tượng liệu chưa phân lớp Chương 3: Sử dụng dàn khai thác tập luật Hình 3.18 Cấu trúc dàn rộng với nhãn lớp N từ liệu Bảng 2.1 sau giai đoạn 57 Chương 5: Kết luận hướng phát triển Chương THỰC NGHIỆM 4.1 Phương pháp đánh giá Có nhiều phương pháp khác để đánh giá thuật toán ma trận nhầm lẫn (Confusion matrix), khoảng tin cậy (Confident Interval), phân lớp chéo (Cross validation), … Luận văn sử dụng phương pháp phân lớp chéo với số phần cố định 10 (10-fold cross validation) Hình 4.1 Phương pháp phân lớp chéo (10-fold cross validation) - Tập liệu huấn luyện chia thành 10 phần riêng biệt với số dòng xấp xỉ Ngồi cần định hướng để số nhãn lớp phần tương đương - Thuật toán chạy 10 lần độc lập; với lần chạy thứ i: liệu kiểm tra phần thứ i; phần lại hợp thành liệu huấn luyện Kết lần chạy có số đối tượng phân lớp số đối tượng phân lớp sai - Khi đó, độ xác phân lớp cuối tính sau tính sau: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦(𝐴𝐶 ) = ∑10 𝑖=1 𝑐𝑅𝑜𝑤𝑠 ∗ 100% 10 ∑𝑖=1 𝑐𝑅𝑜𝑤𝑠 + ∑10 𝑤𝑅𝑜𝑤𝑠 𝑖=1 58 (4.1) Chương 5: Kết luận hướng phát triển Trong đó, - 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦(𝐴𝐶) độ xác phân lớp AC - cRows: Số đối tượng liệu phân lớp lần chạy thứ i - wRows: Số đối tượng liệu phân lớp sai lần chạy thứ i 4.2 Môi trường cài đặt Các chương trình minh họa thuật tốn luận văn hồn tồn tác giả tự lập trình: - Dạng ứng dụng: Windows Forms Application - Ngơn ngữ lập trình: C# - Net Framework 4.5.1 - IDE: Microsoft Visual Studio 2015 Các kết trình bày sau có chạy ứng dụng viết máy tính cá nhân với cấu sau: - CPU: Intel(R) Core(TM) i5-6500 3.2GHz - RAM: 8192MB RAM - Hệ điều hành: Windows 10 Pro 64-bit Hình 4.2 Giao diện ứng dụng chạy thuật tốn PAM 59 Chương 5: Kết luận hướng phát triển Hình 4.3 Giao diện ứng dụng chạy thuật toán CBA* 4.3 Các liệu Các liệu thực nghiệm luận văn lấy từ UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/datasets.html) Đặc điểm cụ thể liệu sau: Bảng 4.1 Các liệu sử dụng thực nghiệm STT Bộ liệu Số dòng Số thuộc tính Số nhãn lớp Phân bổ nhãn lớp Số item Balance-s 625 (288, 49, 288) 20 Breast-w 699 (458, 241) 90 Car 1728 (1210, 384, 69, 65) 21 Hayes 132 (51, 51, 30) 15 Vote 435 16 (267, 168) 32 Lenses 24 (4, 5, 15) Nursery 12960 (4320, 2, 328, 4266, 4044) 27 Tic-Tac 958 (626, 332) 27 60 Chương 5: Kết luận hướng phát triển 4.4 So sánh thuật toán PAM CBA* Độ đo trọng yếu kết hợp độ tin cậy tính đầy đủ luật Trong đó, độ tin cậy đóng vai trò quan trọng Vì vậy, thực nghiệm giảm dần tỷ trọng độ tin cậy, tức giá trị lambda giảm dần Cụ thể, thực nghiệm kiểm tra kết với giá trị lambda giảm dần từ 0, lần giảm 0.05 Tiến hành kiểm tra tất liệu Bảng 4.1 với minsup = 0.05 minconf = 0.35 4.4.1 Độ xác phân lớp Trong Bảng 4.2, dòng kết thuật tốn CBA*, dòng kết thuật toán PAM với giá trị lambda khác PAM với 𝜆 thay đổi từ đến 1.0 Bảng 4.2 Độ xác phân lớp với 𝜆 ∈ [0.55,1] CBA* Balance Breast Car Vote Lenses Nursery Hayes Tic-Tac 84.32 94.85 87.27 94.71 66.67 91.79 81.06 100.00 84.85 73.59 𝜆 0.55 77.44 91.99 PAM với 𝜆 thay đổi từ 0.55 đến 1.0 89.29 95.63 83.33 85.35 0.60 80.64 92.42 91.78 95.40 79.17 85.19 82.58 90.40 0.65 84.64 93.42 92.13 95.40 79.17 85.35 78.79 90.40 0.70 84.80 94.56 93.06 94.94 83.33 88.36 77.27 90.19 0.75 85.44 94.99 93.92 95.63 83.33 93.65 78.79 95.20 0.80 84.96 95.14 93.98 95.63 83.33 97.11 78.79 97.39 0.85 84.80 94.85 93.69 96.09 83.33 97.39 79.55 98.43 0.90 84.80 94.99 93.46 95.63 83.33 97.55 80.30 98.43 0.95 84.64 95.14 93.52 94.71 83.33 97.48 80.30 98.64 1.00 83.84 95.42 93.23 98.16 66.67 97.30 79.55 97.91 Các giá trị màu đỏ giá trị cao so với thuật toán CBA* Dễ dàng thấy thuật toán PAM có độ xác cao thuật tốn CBA* (Hình 4.4): có 6/8 liệu cao đa số giá trị lambda; có 2/8 có độ xác thấp hơn, có Tic-tac-toe mà liệu đạt độ xác tuyệt đối thuật tốn CBA* Ngồi ra, dễ dàng nhận thấy độ xác PAM ổn định tương đối cao với lamda khoảng 0.75 đến 0.95 (Hình 4.5) 61 Chương 5: Kết luận hướng phát triển 100 95 Độ xác (%) 90 85 80 75 70 65 60 Balance Breast Car Vote Lenses Nursery Hayes Tic-Tac Các liệu CBA* PAM (λ=0.75) Hình 4.4 So sánh độ xác phân lớp CBA* PAM (λ=0.75) 100 Độ xác (%) 95 90 85 80 75 70 0.55 0.6 0.65 0.7 0.75 0.8 Trọng số 𝜆 0.85 0.9 Balance Breast Car Vote Lenses Nursery Hayes Tic-Tac Hình 4.5 Độ xác phân lớp λ thay đổi 62 0.95 Chương 5: Kết luận hướng phát triển 4.4.2 Kích thước phân lớp Ở Bảng 4.3, dòng kết thuật tốn CBA*, dòng kết thuật toán PAM với giá trị lambda khác Ứng với liệu, ô kết có giá trị: giá trị bên trái độ xác phân lớp giá trị bên phải số luật phân lớp Các giá trị màu đỏ xanh dương giá trị tốt PAM so với thuật toán CBA* (độ phân lớp cao tốt hơn; số lượng luật phân lớp tốt hơn) Quan sát mà thuật tốn PAM có độ phân lớp xác tốt theo số luật phân lớp thường Có 5/8 liệu đạt kết vừa có độ xác tốt vừa có số lượng luật Bảng 4.3 Độ xác kích thước phân lớp Balance-s CBA* 84.32 71.6 Breast-w Car Vote 94.85 51.3 87.27 20.2 94.71 21.0 λ Lenses 66.67 2.0 Nursery 91.79 87.8 Hayes Tic-Tac 81.06 12.2 100.00 8.0 PAM với λ thay đổi từ đến 1.0 0.00 59.04 9.7 77.83 11.2 65.68 3.4 76.32 2.5 83.33 3.0 70.96 4.0 46.97 4.3 69.94 3.0 0.05 60.16 7.6 77.83 11.2 65.68 3.4 91.72 2.0 83.33 3.0 70.96 4.0 45.45 4.3 69.94 3.0 0.10 60.96 6.0 77.83 11.2 73.78 4.0 95.63 2.0 83.33 3.0 70.96 4.0 45.45 4.3 69.94 3.0 0.15 61.92 6.0 77.83 11.2 74.48 4.0 95.63 2.0 83.33 3.0 70.96 4.0 45.45 4.3 69.94 3.0 0.20 65.44 7.6 77.83 11.2 74.48 4.0 95.63 2.0 83.33 3.0 70.96 4.0 45.45 4.3 69.94 3.0 0.25 72.32 10.3 78.25 11.2 74.48 4.0 95.17 2.0 83.33 3.0 70.96 4.0 50.00 4.4 69.94 3.0 0.30 74.24 12.6 78.40 11.0 74.48 4.0 95.63 2.0 83.33 3.1 70.96 4.0 53.03 4.5 69.94 3.0 0.35 77.12 15.9 84.55 12.6 74.48 4.0 95.63 2.0 83.33 4.0 70.96 4.0 56.82 6.0 69.94 3.0 0.40 77.12 15.8 88.13 12.8 74.48 4.0 95.63 2.0 83.33 4.0 70.96 4.0 56.82 6.0 69.94 3.0 0.45 77.60 17.0 90.27 12.8 81.08 13.2 95.63 2.0 83.33 4.9 84.72 7.0 57.58 6.1 69.94 3.0 0.50 77.44 17.3 91.56 18.8 88.72 14.5 95.63 2.0 83.33 4.9 85.11 7.3 65.91 6.6 69.94 3.0 0.55 77.44 20.6 91.99 18.2 89.29 17.0 95.63 2.0 83.33 4.9 85.35 8.5 84.85 8.0 73.59 4.3 0.60 80.64 34.9 92.42 24.8 91.78 30.5 95.40 2.0 79.17 6.1 85.19 11.6 82.58 8.1 90.40 8.0 0.65 84.64 47.2 93.42 27.0 92.13 53.7 95.40 3.0 79.17 6.5 85.35 15.9 78.79 10.6 90.40 8.0 0.70 84.80 49.1 94.56 29.8 93.06 65.9 94.94 8.2 83.33 6.5 88.36 29.6 77.27 14.3 90.19 10.6 0.75 85.44 54.1 94.99 29.9 93.92 76.5 95.63 9.1 83.33 6.5 93.65 65.2 78.79 16.1 95.20 10.9 0.80 84.96 55.2 95.14 29.8 93.98 77.5 95.63 8.5 83.33 6.5 97.11 121.2 78.79 16.9 97.39 11.0 0.85 84.80 57.7 94.85 30.1 93.69 77.8 96.09 12.3 83.33 6.5 97.39 126.2 79.55 17.7 98.43 11.0 0.90 84.80 58.5 94.99 31.6 93.46 77.3 95.63 10.8 83.33 6.5 97.55 138.3 80.30 18.8 98.43 11.0 0.95 84.64 58.3 95.14 39.5 93.52 78.0 94.71 19.5 83.33 6.5 97.48 156.8 80.30 18.8 98.64 26.7 1.00 83.84 64.2 95.42 67.1 93.23 103.8 98.16 41.7 66.67 12.2 97.30 202.3 79.55 30.4 97.91 38.7 63 Chương 5: Kết luận hướng phát triển 40 Số luật phân lớp 35 30 25 20 15 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 Trọng số 𝜆 Hình 4.6 Kích thước phân lớp λ thay đổi (0 ≤ λ≤0.6) Số luật phân lớp 100 80 60 40 20 0.65 0.7 0.75 0.8 0.85 Trọng số 𝜆 0.9 Balance Breast Car Vote Lenses Nursery Hayes Tic-Tac 0.95 Hình 4.7 Kích thước phân lớp λ thay đổi (0.65 ≤ λ≤1.0) 64 Chương 5: Kết luận hướng phát triển 100 90 80 Số luật phân lớp 70 60 50 40 30 20 10 Balance Breast Car CBA* Vote Lenses Nursery Các liệu Hayes Tic-Tac PAM (λ=0.75) Hình 4.8 So sánh số luật phân lớp CBA* PAM (λ=0.75) 4.5 Hiệu việc sử dụng dàn Các Bảng 4.4 hiển thị kết trình khai thác tập luật ứng viên (tập luật phổ biến loại bỏ luật thừa) Với liệu tiến hành thực nghiệm nhiều lần với ngưỡng hỗ trợ tối thiểu khác Kết lần thực nghiệm gồm có số luật thu sau q trình khác thác, thời gian tính giây phương pháp: (1) phương pháp sử dụng thuật toán PAM, (2) phương pháp sử dụng dàn theo chiều sâu, (3) phương pháp sử dụng dàn theo chiều rộng Ba cột sau kết so sánh phương pháp với Ví dụ với liệu Vote minsup=1%, sử dụng dàn theo chiều sâu có thời gian thực thi 83.12% so với thời gian thực thi sử dụng phương pháp PAM hay thời gian thực thi sử dụng dàn theo chiều rộng 42.17% so với sử dụng dàn theo chiều rộng 65 Chương 5: Kết luận hướng phát triển Quan sát kết thực nghiệm, dễ dàng thấy hiệu mặt thời gian phương pháp sử dụng dàn đánh dấu luật dư thừa trình khai thác tập luật phổ biến Ở tất liệu, thời gian nhanh đáng kể so với phương pháp sử dụng PAM (Hình 4.9 Hình 4.10) Và kết thực nghiệm cho thấy hiệu đáng kể phương pháp xây dựng dàn theo chiều rộng so với phương pháp xây dựng dàn theo chiều sâu (Hình 4.11) Ngồi ra, ngưỡng hỗ trợ minsup thấp, tức có nhiều luật khai thác, dẫn đến thời gian thực thi lâu Lúc này, hiệu việc sử dụng dàn xác nhận, liệu lớn (Error! Reference s ource not found.) Bảng 4.4 Thời gian khai thác số luật tập luật ứng viên Bộ liệu Min sup (%) Số luật PAM (1) Dàn sâu (2) Dàn rộng (3) Lenses 105 0.216 0.007 0.006 3.24 2.77 85.57 Balance 116 118 167 387 0.200 0.185 0.185 0.448 0.016 0.031 0.047 0.058 0.005 0.016 0.016 0.031 7.79 16.90 25.34 12.99 2.74 8.43 8.44 6.99 35.14 49.90 33.29 53.80 Hayes 132 253 293 0.248 0.330 0.307 0.003 0.005 0.007 0.002 0.003 0.007 1.21 1.52 2.30 1.00 0.91 2.21 82.25 59.99 96.31 Car 323 402 724 1123 1862 0.440 0.422 0.536 0.670 0.923 0.148 0.169 0.202 0.277 0.441 0.100 0.104 0.132 0.182 0.300 33.72 39.97 37.72 41.40 47.74 22.70 24.67 24.54 27.11 32.50 67.31 61.72 65.06 65.50 68.08 Breast 1867 2208 3094 4700 8853 0.638 0.701 0.652 0.800 1.132 0.138 0.154 0.216 0.379 0.885 0.125 0.126 0.155 0.237 0.439 21.66 21.91 33.17 47.41 78.18 19.52 18.05 23.84 29.65 38.81 90.14 82.39 71.85 62.55 49.64 Nursery 946 1280 1879 3315 3.221 3.619 5.174 8.278 2.579 3.049 4.393 7.080 2.002 2.137 2.820 4.639 80.06 84.24 84.89 85.53 62.16 59.05 54.49 56.04 77.65 70.10 64.19 65.52 66 (𝟐) (𝟏) (%) (𝟑) (𝟏) (%) (𝟑) (𝟐) (%) Chương 5: Kết luận hướng phát triển 7563 17.774 12.948 9.263 72.85 52.12 71.54 Tic-Tac 978 1316 2346 3796 8362 0.332 0.401 0.532 0.817 1.681 0.239 0.325 0.554 0.887 2.000 0.160 0.187 0.284 0.519 0.938 72.10 81.14 104.08 108.50 118.95 48.07 46.60 53.43 63.51 55.81 66.67 57.43 51.34 58.54 46.92 Vote 304159 397962 487616 753053 1707452 38.848 52.965 63.267 100.644 263.825 38.458 50.389 61.521 95.711 219.294 17.905 21.323 28.515 43.503 92.468 99.00 95.14 97.24 95.10 83.12 46.09 40.26 45.07 43.22 35.05 46.56 42.32 46.35 45.45 42.17 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Lenses Balance-s Hayes Car PP Dàn theo chiều sâu Breast-w Nursery Tic-Tac PP sử dụng PAM Hình 4.9 Tỷ lệ thời gian thực thi Dàn sâu PAM (minsup=1%) 67 Vote Chương 5: Kết luận hướng phát triển 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Lenses Balance-s Hayes Car PP Dàn theo chiều rộng Breast-w Nursery Tic-Tac Vote PP sử dụng PAM Hình 4.10 Tỷ lệ thời gian thực thi Dàn Rộng PAM (minsup=1%) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Lenses Balance-s Hayes Car PP Dàn theo chiều rộng Breast-w Nursery Tic-Tac Vote PP Dàn theo chiều sâu Hình 4.11 Tỷ lệ thời gian thực thi Dàn rộng Dàn sâu (minsup=1%) 68 Chương 5: Kết luận hướng phát triển Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Tập liệu lớn với thuộc tính phức tạp thường dẫn đến phân lớp phức tạp bao gồm số lượng lớn luật làm cho hiệu suất phân lớp khơng tốt giảm tính dễ hiểu người Trong luận văn trình bày phương pháp hiệu để xây dựng phân lớp với tập luật nhỏ gọn trì độ xác phân lớp cách thỏa đáng Một độ đo chất lượng luật mới, độ đo trọng yếu trình bày áp dụng để khai thác luật Độ đo trọng yếu kết hợp độ tin cậy với tính đầy đủ Nói cách khác, độ đo bao gồm tính xác phân lớp độ phủ lớp luật Các thí nghiệm tiến hành nhiều liệu UCI cho thấy nhiều hiệu cải thiện nhỏ gọn phân lớp, thỏa mãn hiệu suất phân lớp Nói chung, có cân phân lớp nhỏ gọn độ xác Trọng số độ tin cậy độ đo trọng yếu thấp thường dẫn đến kết phân lớp nhỏ gọn khơng xác Có thể nhận thấy độ xác thuật tốn tốt trọng số độ tin cậy 0.7 Ngoài ra, thuật toán sử dụng độ đo trọng yếu với thực nghiệm rằng, độ đo tin cậy độ đo để định chất lượng luật Độ đo tin cậy quan trọng, quan trọng Độ đo tin cậy cần kết hợp thêm yếu tố khác để định đâu luật tốt, đâu luật không tốt Cụ thể đây, độ tin cậy cần kết hợp với độ đo đầy đủ để trở thành độ đo tốt hơn, độ đo tin cậy chiếm tỷ lệ chủ yếu Tập liệu lớn với thuộc tính phức tạp thường dẫn đến việc tốn chi phí lớn cho giai đoạn khai thác tập luật phổ biến loại bỏ luật thừa, chi phí thời gian Việc áp dụng cấu trúc dàn giải vấn đề khai thác tập luật phổ biến lẫn đánh dấu luật thừa mang lại hiệu lớn mặt thời gian giai đoạn Đặc biệt, luận văn đề xuất phương pháp xây dựng dàn hiệu Đó phương pháp xây dựng dàn theo chiều rộng So với phương pháp xây dựng dàn theo chiều sâu, trình tạo đỉnh cấp phương pháp xây dựng dàn theo 69 Chương 5: Kết luận hướng phát triển chiều rộng độc lập, không phụ thuộc lẫn Chính đỉnh cấp tạo song song phương pháp 5.2 Hướng phát triển Quá trình xây dựng phân lớp cần tính lại thơng tin cho luật nhiều, cần nghiên cứu để giảm bớt chi phí cho q trình Bên cạnh đó, làm để biết giá trị lambda tốt cho tập liệu cụ thể đó, hay cho luật cụ thể đó, hướng cần nghiên cứu Ngoài ra, kết hợp độ đo vào phương pháp phân lớp đa nhãn hướng đáng quan tâm Cơ sở liệu ngày thường xuyên cập nhật, cập nhật ảnh hưởng đến kết trình khai thác luật đương nhiên ảnh hưởng đến phân lớp cuối Quá trình khai thác luật phổ biến loại bỏ luật giai đoạn tương đối tốn nhiều chí phí thời gian q trình phân lớp kết hợp Chính vậy, phương pháp cập nhật dàn có sẵn liệu thay đổi hữu ích nhiều so với phải xây dựng lại từ đầu Khi đó, việc liệu huấn luyện có thay đổi khơng phải vấn đề lớn đến q trình phân lớp kết hợp Chính vậy, cần có nghiên cứu sâu rộng vấn đề 70 TÀI LIỆU THAM KHẢO Tiếng Anh Bing Liu, Wynne Hsu, Yiming Ma (1998), “Integrating classification and association rule mining”, Proceedings of the 4th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 80–86 Bing Liu, Yiming Ma, Ching Kian Wong (2000), “Improving an Association Rule Based Classifier”, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, pp 504–509 Chen Fuzan, Yanlan Wang, Minqiang Li, Harris Wu, Jin Tian (2014), “Principal Association Mining: An efficient classification approach”, Knowledge-Based Systems 67, pp.16–25 F Thabtah, P Cowling, S Hammoud (2006), “Improving rule sorting, predictive accuracy and training time in associative classification”, Expert Systems Appl 31 (2), pp 414–426 M.J Zaki, K Gouda (2003), “Fast vertical mining using diffsets”, Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 326–335 Loan T.T Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh (2012), “Classification based on association rules: a lattice-based approach”, Expert Systems Appl 39 (13), pp 11357–11366 R Agrawal, T Imielinski, A Swami (1993), “Mining association rules between sets of items in large databases”, Proceedings of the ACM SIGMOD Conference on Management of data, vol 22(2) pp 207–216 W Li, J Han, J Pei (2001), “CMAR: Accurate and efficient classification based on multiple class-association rules”, Proceedings IEEE International Conference on Data Mining (ICDM 2001), pp 369–376 71 ... luật phân lớp kết hợp dư thừa mâu thuẫn Luận văn trình bày phương pháp phân lớp kết hợp hiệu Kết phương pháp phân lớp đạt hiệu suất tốt nhỏ gọn Phương pháp dựa độ đo mới, đặt tên độ trọng yếu. .. khai thác luật kết hợp Bài toán phân lớp kết hợp xem xét luật kết hợp có chứa thuộc tính nhãn lớp Nhiệm vụ phân lớp kết hợp tìm phân lớp (gồm luật kết hợp) dùng để xác định nhãn lớp cho đối tượng... phủ việc phân lớp luật kết hợp Phương pháp phân lớp dựa kết hợp trọng yếu (Principal Association Mining - PAM) [3] xác nhận có hiệu việc cải thiện độ xác phân lớp giảm kích thước phân lớp thực

Định dạng
Số trang	74
Dung lượng	10,47 MB