LUAN VAN THAC SI BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01 TP HCM, THÁNG 10 NĂM 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS LÊ HỒI BẮC TP HCM, THÁNG 10 NĂM 2018 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH Người hướng dẫn khoa học: PGS TS Lê Hoài Bắc - Học viên bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số … ngày … /…./2019 Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với tham gia của: Chủ tịch Hội đồng: PGS.TS Phạm Thế Bảo Phản biện 1: TS Trần Minh Thái Phản biện 2: TS Đặng Trường Sơn Ủy viên: PGS.TS Nguyễn Thanh Bình Thư ký: TS Nguyễn Đức Cường - Có thể tìm hiểu Luận văn Thư viện Trường ĐH Ngoại ngữ - Tin học TPHCM, cổng thông tin điện tử, website đơn vị quản lý sau đại học Trường LỜI CAM ĐOAN Tơi xin cam đoan đây cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa từng được cơng bố bất kỳ cơng trình khác Tôi xin cam đoan rằng giúp đỡ cho việc thực Luận văn được cảm ơn thông tin trích dẫn Luận văn được chỉ rõ nguồn gốc TPHCM, ngày 25 tháng 10 năm 2018 Tác giả luận văn Lê Thanh Phong LỜI CẢM ƠN Lời đầu xin chân thành cảm ơn PGS TS Lê Hồi Bắc tận tình hướng dẫn cung cấp tài liệu thông tin khoa học cần thiết cho luận văn Xin chân thành cảm ơn Lãnh đạo trường Đại học Ngoại ngữ Tin học Thành Phố Hồ Chí Minh, Ban Sau Đại Học, Khoa Công Nghệ Thông Tin tạo điều kiện cho tơi hồn thành tốt cơng việc nghiên cứu khoa học Cuối cùng, tơi xin chân thành cảm ơn đến gia đình, anh chị bạn đồng nghiệp, đơn vị công tác hỗ trợ cho rất nhiều suốt trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Tơi xin chân thành cảm ơn! Tác giả Lê Thanh Phong DANH MỤC VIẾT TẮT STT Từ viết tắt Ý nghĩa AUC Area Under the ROC Curve CLS Concept Learning System CSC4.5 Cost-Sensitive C4.5 CSDL Cơ Sở Dữ Liệu FN False Negative FP False Positive FPR False Positive Rate ID3 Interactive Dichotomizer ILA Inductive Learning Algorithm 10 KTDL Khai Thác Dữ Liệu 11 MDL Minimum Description Length 12 NB Naïve Bayes 13 ROC Receiver Operating Characteristic 14 SC4.5 Standard C4.5 15 SQL Structured Query Language 16 TN True Negative 17 TP True Positive 18 TPR True Positive Rate 19 UCI University of California Irvine (Machine Learning Repository) i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2-1: Quá trình khai thác liệu Hình 2-3: Quá trình phân lớp liệu - Bước xây dựng mơ hình phân lớp Hình 2-4: Quá trình phân lớp liệu – Ước lượng độ chính xác mơ hình 10 Hình 2-5: Quá trình phân lớp liệu – Phân lớp liệu 11 Hình 2-6: Mơ hình ứng dụng luật 15 Hình 2-7: Phương pháp Holdout 28 Hình 2-8: K-Fold Coss–Validation 29 Hình 3-1: Đồ thị ROC biểu diển phân lớp rời rạc xác suất B 30 Hình 3-2: AUC – diện tích đường cong ROC phân lớp A 31 Hình 3-3: Cây định với thuật toán C4.5 bằng cách giảm nhiều impurity 40 Hình 3-4: Cây định với thuật toán AUC4.5 bằng cách gia tăng giá trị AUC 43 Hình 4-1: Đồ thị so sánh kết AUCmean tập DTest 47 ii DANH MỤC CÁC BẢNG BIỂU Bảng 3-1: Ma trận nhầm lẫn 32 Bảng 3-2: Mô tả tập liệu mất cân đối 39 Bảng 4-1: Tập liệu với số phần tử lớp thiểu số 44 Bảng 4-2: Phương sai, độ lệch chuẩn toàn tập liệu 45 Bảng 4-3: Kết thực nghiệm tập DTest qua 10 lần kiểm tra 46 Bảng 4-4: Bảng kết 10 lần test tập liệu Wine Quality – Red 48 Bảng 4-5: Kết tập liệu Wine Quality – Red 48 Bảng 4-6: Bảng kết 10 lần test tập liệu Nursery 49 Bảng 4-7: Kết tập liệu Nursery 49 Bảng 4-8: Bảng kết 10 lần test tập liệu Car Evaluation 50 Bảng 4-9: Kết tập liệu Car Evaluation 50 Bảng 4-10: Bảng kết 10 lần test tập liệu Ecoli 50 Bảng 4-11: Kết tập liệu Ecoli 51 Bảng 4-12: Bảng kết 10 lần test tập liệu Mushroom 51 Bảng 4-13: Kết tập liệu Mushroom 52 Bảng 4-14: Bảng kết 10 lần test tập liệu Wine Quality – White 52 Bảng 4-15: Kết tập liệu Wine Quality – White 53 Bảng 4-16: Bảng kết 10 lần test tập liệu Contraceptive Method Choice 53 Bảng 4-17: Kết tập liệu Contraceptive Method Choice 54 Bảng 4-18: Bảng kết 10 lần test tập liệu Tic-Tac-Toe Endgame 54 Bảng 4-19: Kết tập liệu Tic-Tac-Toe Endgame 54 iii MỤC LỤC DANH MỤC VIẾT TẮT i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ii DANH MỤC CÁC BẢNG BIỂU iii MỤC LỤC iv CHƯƠNG TỔNG QUAN 1.1 Đặt vấn đề 1.2 Cơ sở hình thành đề tài 1.3 Các nghiên cứu liên quan 1.4 Mục tiêu luận văn 1.5 Đối tượng nghiên cứu 1.6 Các phương pháp nghiên cứu 1.6.1 Phương pháp nghiên cứu tài liệu 1.6.2 Phương pháp thực nghiệm 1.6.3 Phương pháp thống kê, phân tích liệu 1.7 Nội dung phạm vi luận văn 1.8 Ý nghĩa luận văn 1.8.1 Ý nghĩa khoa học 1.8.2 Ý nghĩa thực tiễn 1.9 Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai thác liệu iv 2.1.1 Khai thác liệu gì? 2.1.2 Quá trình khai thác liệu 2.1.3 Khai thác liệu sử dụng phân lớp 2.1.4 Khai thác liệu sử dụng luật kết hợp 14 2.1.5 Khai thác liệu sử dụng cây định 15 CHƯƠNG PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI BẰNG CÂY QUYẾT ĐỊNH 30 3.1 Đường cong Receiver Operating Characteristic (ROC) 30 3.2 Diện tích đường cong ROC 31 3.3 Độ đo đánh giá hiệu suất phân lớp 31 3.4 Thuật toán AUC4.5 33 3.4.1 Ý tưởng chính thuật toán AUC4.5 33 3.4.2 Một số giải thuật chính 34 3.5 Ví dụ minh hoạ cho thuật toán AUC4.5 39 3.5.1 Dữ liệu minh hoạ 39 3.5.2 Minh hoạ bằng thuật toán C4.5 40 3.5.3 Minh hoạ bằng thuật toán AUC4.5 41 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Mô tả tập liệu 44 4.2 Môi trường thực nghiệm 44 4.3 Kiểm chứng mơ hình bằng phương pháp Hold-out 45 4.4 Kết thực nghiệm 45 4.4.1 Phương sai, độ lệch chuẩn 45 v THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.4.2 Kết tám tập liệu sau kiểm tra tập DTest 10 lần Bảng 4-3: Kết thực nghiệm tập 𝐃𝐓𝐞𝐬𝐭 qua 10 lần kiểm tra Classifier TPR FPR AUC Wine Quality – Red SC4.5 CSC4.5 AUC4.5 Nursery 0.000 0.000 TPRmean=0.667 0.000 0.000 FPRmean = 0.685 0.500 0.500 AUCmean = 0.491 SC4.5 CSC4.5 AUC4.5 Car Evaluation 0.523 0.963 TPRmean=0.947 0.005 0.037 FPRmean = 0.005 0.759 0.963 AUCmean = 0.971 SC4.5 CSC4.5 AUC4.5 Ecoli 0.591 1.000 TPRmean=1.000 0.016 0.094 FPRmean = 0.000 0.787 0.953 AUCmean = 1.000 SC4.5 CSC4.5 AUC4.5 Mushroom 0.714 0.857 TPRmean=0.971 0.029 0.076 FPRmean = 0.165 0.843 0.890 AUCmean = 0.905 SC4.5 1.000 CSC4.5 1.000 AUC4.5 TPRmean=1.000 Wine Quality – White 0.000 0.000 FPRmean = 0.000 1.000 1.000 AUCmean = 1.000 SC4.5 0.478 CSC4.5 0.577 AUC4.5 TPRmean=0.610 Contraceptive Method Choice 0.107 0.158 FPRmean = 0.335 0.686 0.709 AUCmean = 0.637 SC4.5 0.225 CSC4.5 0.333 AUC4.5 TPRmean=0.661 Tic-Tac-Toe Endgame 0.076 0.092 FPRmean = 0.430 0.574 0.621 AUCmean = 0.616 0.062 0.062 FPRmean = 0.107 0.784 0.789 AUCmean = 0.829 SC4.5 CSC4.5 AUC4.5 0.631 0.640 TPRmean=0.766 46 THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.100 KẾT QUẢ GIÁ TRỊ AUCmean CỦA CÁC BỘ PHÂN LỚP 1.000 0.900 AUC values 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 Wine Quality Contraceptive Tic-Tac-Toe – White Method Choice Endgame Wine Quality – Red Nursey Car Evaluation Ecoli Mushroom SC4.5 0.500 0.759 0.787 0.843 1.000 0.686 0.574 0.784 CSC4.5 0.500 0.963 0.953 0.890 1.000 0.709 0.621 0.789 AUC4.5(mean) 0.491 0.971 1.000 0.905 1.000 0.637 0.616 0.829 Hình 4-1: Đồ thị so sánh kết AUCmean tập DTest 47 THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.4.3 Phân tích tập liệu Wine Quality – Red: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 1.13%, đây tỉ lệ lớp thiểu số nhỏ nhất (mất cân đối lớn nhất) tập liệu nghiên cứu Bảng 4-4: Bảng kết 10 lần test tập liệu Wine Quality – Red Lần test TPR FPR Phương sai AUC 1.000 0.852 0.574 1.000 0.843 0.579 0.000 0.301 0.350 0.833 0.839 0.497 0.833 0.728 0.553 0.000 0.347 0.327 1.000 0.983 0.509 0.833 0.835 0.499 0.167 0.314 0.426 10 1.000 0.803 0.599 TPRmean=0.667 FPRmean=0.685 Độ lệch chuẩn 0.00906 0.09520 AUCmean=0.491 Nguồn từ: nghiên cứu tác giả Bảng 4-5: Kết tập liệu Wine Quality – Red Classifier TPR FPR AUC SC4.5 0.000 0.000 0.500 CSC4.5 0.000 0.000 0.500 AUC4.5 TPRmean = 0.667 FPRmean = 0.685 AUCmean = 0.491 Thuật tốn SC4.5 CSC4.5, có TPR = FPR = 0, có nghĩa hai thuật tốn SC4.5 CSC4.5 khơng phân lớp xác được bất kỳ giá trị lớp thiểu số Trong đó, thuật tốn AUC4.5, mặc dù AUCmean = 0.491 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 (AUC = 0.500) Nhưng với giá trị TPRmean = 0.667, nói lên thuật tốn AUC4.5 phân lớp xác được số giá trị lớp thiểu số, mặc dù kết không cao 48 THỰC NGHIỆM VÀ ĐÁNH GIÁ Ngoài ra, tập Wine Quality – Red giá trị thuộc tính thuộc loại liên tục, biến động liệu rất lớn từng thuộc tính Ảnh hưởng lớn đến trình phân lớp Trong tập liệu đem kiểm tra, tập Wine Quality – Red, kết kiểm tra có độ lệch chuẩn = 0.095199 cao nhất Nursery: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 2.53% Bảng 4-6: Bảng kết 10 lần test tập liệu Nursery Lần test TPR FPR Phương sai AUC 0.933 0.007 0.963 0.950 0.005 0.973 0.929 0.004 0.963 0.962 0.004 0.979 0.932 0.005 0.963 0.932 0.005 0.963 0.954 0.008 0.973 0.927 0.005 0.961 0.977 0.005 0.986 10 0.977 0.006 0.986 TPRmean=0.947 FPRmean=0.005 Độ lệch chuẩn 0.0001 0.00988 AUCmean=0.971 Nguồn từ: nghiên cứu tác giả Bảng 4-7: Kết tập liệu Nursery Classifier SC4.5 CSC4.5 AUC4.5 TPR 0.523 0.963 TPRmean = 0.947 FPR 0.005 0.037 FPRmean = 0.005 AUC 0.759 0.963 AUCmean = 0.971 Thuật toán AUC4.5 cho kết tốt, với AUCmean = 0.971 lớn rất nhiều so với thuật tốn chuẩn SC4.5 với AUC = 0.759 Cịn với thuật tốn CSC4.5 với AUC = 0.963 có nhỉnh đơi chút Mặt khác, tập Nursery có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC 10 lần kiểm tra gần dẫn đến độ lệch chuẩn = 0.009877 bé Car Evaluation: Thuộc tính rời rạc = 6, tỉ lệ lớp thiểu số = 3.76% 49 THỰC NGHIỆM VÀ ĐÁNH GIÁ Bảng 4-8: Bảng kết 10 lần test tập liệu Car Evaluation Lần test TPR FPR Phương sai AUC 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 10 1.000 TPRmean=1.000 0.000 FPRmean=0.000 Độ lệch chuẩn 1.000 0.0000 0.0000 AUCmean=1.000 Nguồn từ: nghiên cứu tác giả Bảng 4-9: Kết tập liệu Car Evaluation Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.591 1.000 TPRmean = 1.000 AUC 0.016 0.094 FPRmean = 0.000 0.787 0.953 AUCmean = 1.000 Thuật toán AUC4.5 cho kết vượt trội, với AUCmean = 1.000, phân lớp chính xác 100% lớp thiểu số lớp đa số qua lần kiểm tra Trong thuật toán chuẩn SC4.5 với AUC = 0.787 thuật toán CSC4.5 với AUC = 0.953 cịn sai sót phân lớp nhầm lớp đa số lớp thiểu số Tập liệu Car Evaluation có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC 10 lần kiểm tra không thay đổi, đến độ lệch chuẩn = 0.0000 Ecoli: Thuộc tính liên tục = 8, thuộc tính rời rạc = 1, tỉ lệ lớp thiểu số = 5.95% Bảng 4-10: Bảng kết 10 lần test tập liệu Ecoli Lần test TPR FPR 1.000 Phương sai AUC 0.058 0.971 50 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.000 0.125 0.938 1.000 0.163 0.918 0.857 0.058 0.900 1.000 0.202 0.899 1.000 0.212 0.894 0.857 0.077 0.890 1.000 0.231 0.885 1.000 0.250 0.875 10 1.000 TPRmean=0.971 0.250 FPRmean=0.165 0.875 0.00091 0.03022 AUCmean=0.905 Nguồn từ: nghiên cứu tác giả Bảng 4-11: Kết tập liệu Ecoli Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.714 0.857 TPRmean = 0.971 AUC 0.029 0.076 FPRmean = 0.165 0.843 0.890 AUCmean = 0.905 Mặc dù thuật toán AUC4.5 cho kết tốt, với AUCmean = 0.905 cho kết phân loại cao so với thuật toán chuẩn SC4.5 với AUC = 0.843 thuật toán CSC4.5 với AUC = 0.875 Trong 10 lần kiểm tra, có đến lần cho kết 100% phân loại lớp thiểu số tập liệu mất cân đối Tuy nhiên, tập Ecoli có độ lệch chuẩn = 0.03022 chỉ thấp tập Wine Quality – Red, cao tập liệu mà tác giả nghiên cứu Chứng tỏ tập liệu có thuộc tính kiểu liên tục ảnh hưởng rất lớn đến thuật toán AUC4.5 Mushroom: Thuộc tính rời rạc = 22, tỉ lệ lớp thiểu số = 7.60% Bảng 4-12: Bảng kết 10 lần test tập liệu Mushroom Lần test TPR FPR Phương sai AUC 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 51 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 10 1.000 TPRmean=1.000 0.000 FPRmean=0.000 1.000 0.00000 0.00000 AUCmean=1.000 Nguồn từ: nghiên cứu tác giả Bảng 4-13: Kết tập liệu Mushroom Classifier TPR FPR AUC SC4.5 1.000 0.000 1.000 CSC4.5 1.000 0.000 1.000 AUC4.5 TPRmean = 1.000 FPRmean = 0.000 AUCmean = 1.000 Cả Thuật toán AUC4.5, thuật toán chuẩn SC4.5 thuật toán CSC4.5 cho kết phân lớp xác 100% lớp đa số lớp thiểu số Lại khẳng định, tập liệu với thuộc tính có giá trị kiểu rời rạc, cho kết phân lớp tốt thuộc tính có giá trị kiểu liên tục Wine Quality – White: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 17.97% Bảng 4-14: Bảng kết 10 lần test tập liệu Wine Quality – White Lần test TPR FPR Phương sai AUC 0.546 0.265 0.640 0.409 0.180 0.614 0.639 0.313 0.663 0.742 0.373 0.685 0.698 0.468 0.615 0.595 0.263 0.666 0.467 0.199 0.634 0.818 0.576 0.621 0.632 0.379 0.627 10 0.557 0.348 0.605 52 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ TPRmean=0.610 FPRmean=0.335 0.00069 0.02631 AUCmean=0.637 Nguồn từ: nghiên cứu tác giả Bảng 4-15: Kết tập liệu Wine Quality – White Classifier TPR SC4.5 CSC4.5 AUC4.5 FPR 0.478 0.577 TPRmean = 0.610 AUC 0.107 0.158 FPRmean = 0.335 0.686 0.709 AUCmean = 0.637 Thuật toán AUC4.5 cho kết AUCmean = 0.637 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 Nhưng với giá trị TPRmean = 0.610 cao nói lên thuật tốn AUC4.5 phân lớp xác lớp thiểu số so với thuật toán SC4.5 CSC4.5, mặc dù kết khơng cao Ngồi ra, tập Wine Quality – White giá trị thuộc tính thuộc loại liên tục Ảnh hưởng lớn đến trình phân lớp Kết kiểm tra có độ lệch chuẩn = 0.02631 Contraceptive Method Choice: Thuộc tính liên tục=9, tỉ lệ lớp thiểu số=22.61% Bảng 4-16: Bảng kết 10 lần test tập liệu Contraceptive Method Choice Lần test TPR FPR Phương sai AUC 0.714 0.432 0.641 0.738 0.472 0.633 0.529 0.370 0.579 0.667 0.413 0.627 0.734 0.530 0.602 0.604 0.386 0.609 0.642 0.414 0.614 0.600 0.351 0.624 0.718 0.448 0.635 10 0.664 TPRmean=0.661 0.482 FPRmean=0.430 Độ lệch chuẩn 0.591 0.00041 0.02028 AUCmean=0.616 Nguồn từ: nghiên cứu tác giả 53 THỰC NGHIỆM VÀ ĐÁNH GIÁ Bảng 4-17: Kết tập liệu Contraceptive Method Choice Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.225 0.333 TPRmean = 0.661 AUC 0.076 0.092 FPRmean = 0.430 0.574 0.621 AUCmean = 0.616 Thuật toán AUC4.5 cho kết AUCmean = 0.616 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 Nhưng với giá trị TPRmean = 0.661 cao rất nhiều nói lên thuật tốn AUC4.5 phân lớp chính xác lớp thiểu số so với thuật toán SC4.5 CSC4.5, mặc dù kết khơng cao Ngồi ra, tập Contraceptive Method Choice giá trị thuộc tính thuộc loại liên tục Ảnh hưởng lớn đến trình phân lớp Kết kiểm tra có độ lệch chuẩn = 0.02028 Tic-Tac-Toe Endgame: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 34.62% Bảng 4-18: Bảng kết 10 lần test tập liệu Tic-Tac-Toe Endgame Lần test TPR FPR Phương sai AUC 0.745 0.105 0.820 0.807 0.104 0.851 0.708 0.070 0.819 0.779 0.098 0.840 0.748 0.101 0.823 0.776 0.105 0.835 0.794 0.112 0.841 0.753 0.097 0.828 0.785 0.126 0.829 10 0.764 TPRmean=0.766 0.151 FPRmean=0.107 0.807 0.00017 0.01285 AUCmean=0.829 Nguồn từ: nghiên cứu tác giả Bảng 4-19: Kết tập liệu Tic-Tac-Toe Endgame Classifier Độ lệch chuẩn TPR FPR 54 AUC THỰC NGHIỆM VÀ ĐÁNH GIÁ SC4.5 0.631 0.062 0.784 CSC4.5 0.640 0.062 0.789 AUC4.5 TPRmean = 0.766 FPRmean = 0.107 AUCmean = 0.829 Thuật toán AUC4.5 cho kết phân loại tốt chỉ số TPR, FPR AUC tập liệu mất cân đối Lại khẳng định, tập liệu với thuộc tính có giá trị kiểu rời rạc, cho kết phân lớp tốt thuộc tính có giá trị kiểu liên tục Độ lệch chuẩn = 0.01285 nhỏ 4.5 Đánh giá kết thực nghiệm Qua kết thực nghiệm, phân tích tám tập liệu được kiểm tra tập DTest 10 lần lấy kết trung bình cho chỉ số TPRmean, FPRmean AUCmean (bảng V) chỉ số phương sai – độ lệch chuẩn (bảng IV) có nhận xét sau: + Tỉ lệ mất cân đối lớp không ảnh hưởng lớn đến kết phân lớp thuật toán đề xuất AUC4.5 + Đối với tập liệu với thuộc tính có giá trị rời rạc: - Cho kết phân lớp tốt lớp thiểu số tập liệu mất cân đối - Trong đó, tất tập liệu cho kết phân loại tốt, vượt trội so với hai thuật toán SC4.5 CSC4.5 Đặc biệt tập liệu Car Evaluation Mushroom có kết phân lớp chính xác 100% - Độ lệch chuẩn hai tập Car Evaluation Mushroom bằng khơng (=0) Cịn độ lệch hai tập Nursery Tac-Tic-Toe Endgame không lớn, chứng tỏ tính ổn định thuật toán liệu thuộc nhóm có giá trị kiểu rời rạc + Đối với tập liệu với thuộc tính có giá trị liên tục: - Chỉ có tập liệu Ecoli có kết phân loại cao so với hai thuật toán SC4.5 CSC4.5 Tuy nhiên độ lệch chuẩn tập Ecoli cao, chỉ đứng sau tập Wine Quality – Red, chứng tỏ cần xem lại liệu loại liên tục 55 THỰC NGHIỆM VÀ ĐÁNH GIÁ - Ba tập liệu lại Wine Quality – Red, Wine Quality – White Contraceptive Method Choice chỉ số TPRmean cao so với thuật toán SC4.5 CSC4.5 Nếu bỏ qua chỉ số FPRmean (phân loại lớp đa số nhầm vào lớp thiểu số) để đạt kết AUCmean cao thuật tốn AUC4.5 đạt được mục đích nâng cao độ chính xác phân lớp lớp thiểu số tập liệu mất cân đối - Độ lệch chuẩn tất bốn tập liệu loại liên tục đứng cao nhất tám tập liệu theo thứ tự 0.02028, 0.02631, 0.03022 0.09520 Cho thấy ổn định, phân bố liệu tập liệu liên tục vấn đề cần xem xét 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn này, thuật toán AUC4.5 được cải tiến từ thuật C4.5 dùng giá trị AUC thay cho Gain-entropy tiêu chí tách cắt tỉa cây nhằm nâng cao hiệu phân lớp liệu mất cân đối, cụ thể lớp thiểu số, thích hợp cho phân lớp mất cân đối nhị phân Các kết thực nghiệm đánh giá tám tập liệu mất cân đối thực từ kho học máy UCI [28] chỉ rằng thuật toán cải tiến AUC4.5 cho hiệu phân lớp tốt thuật toán SC4.5 SCS4.5 Điều khẳng định tầm quan trọng dùng trực tiếp giá trị AUC vào việc huấn luyện tập liệu có ảnh hưởng tới trình phân lớp Đặc biệt, phương pháp cải tiến không hy sinh giá trị FPR nhằm gia tăng giá trị TPR để đạt giá trị AUC cao nhất Phương pháp đề xuất không cần cài đặt chi phí khác chi phí phân loại sai phương pháp học với chi phí nhạy cảm, thời gian huấn luyện ít hiệu phân lớp tốt Phương pháp cải thiện được tỷ lệ phân loại chính xác lớp thiểu số tập liệu mất cân đối Tuy nhiên liệu có giá trị kiểu liên tục vấn đề cần quan tâm xử lý trước đưa vào phân loại áp dụng thuật toán AUC4.5 Với kết đạt được thuật toán Nếu áp dụng hệ thống vào ứng dụng chẩn đoán y học nâng cao hiệu chẩn đoán, áp dụng vào lĩnh vực phát xâm nhập, tấn công cao hiệu giám sát hệ thống Tuy nhiên, nay, chưa có phương pháp tối ưu hẳn cho tất tập liệu thực tế ngành khai thác liệu chấp nhận điều Trên sở nghiên cứu kết đạt được, chúng nhận thấy có nhiều vấn đề cần được tiếp tục nghiên cứu phát triển để đóng góp vào lĩnh vực phân lớp liệu mất cân đối nói riêng lĩnh vực khai thác liệu nói chung 57 TÀI LIỆU THAM KHẢO [1] J R Quinlan, “Induction of Decision Trees,” Mach Learn., vol 1, no 1, pp 81–106, 1986 [2] J Han, M Kamber, and J Pei, Data mining : Concepts and Techniques Elsevier/Morgan Kaufmann, 2012 [3] I H Witten, E Frank, and M a Hall, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, vol 54, no 2011 [4] V Ganganwar, “An overview of classification algorithms for imbalanced datasets,” Int J Emerg Technol Adv Eng., vol 2, no 4, pp 42–47, 2012 [5] Y Yang and G Ma, “Ensemble-based active learning for class imbalance problem,” J Biomed Sci Eng., vol 03, no 10, pp 1022–1029, Oct 2010 [6] B Zadrozny, J Langford, and N Abe, “Cost-sensitive learning by cost-proportionate example weighting,” in Third IEEE Int Conf on Data Mining, 2003, pp 435–442 [7] Y Tang, S Krasser, D Alperovitch, and P Judge, “Spam Sender Detection with Classification Modeling on Highly Imbalanced Mail Server Behavior Data,” in Proc of Intl Conf on Artificial Int and Pattern Recognition, 2008, pp 174–180 [8] V Engen, “Machine learning for network based intrusion detection.,” Bounemouth University, 2010 [9] X Liu, J Wu, and Z Zhou, “Exploratory Under-Sampling for Class-Imbalance Learning,” in Sixth Int Conf on Data Mining (ICDM’06), 2006, pp 965–969 [10] S.-J Yen and Y.-S Lee, “Cluster-based under-sampling approaches for imbalanced data distributions,” Expt Syst with Appl., vol 36, no 3, pp 5718–5727, Apr 2009 [11] N M Phương, T T Ánh Tuyết, N T Hồng, and Đ X Thọ, “Random Border Undersampling: Thuật toán giảm phần tử ngẫu nhiên đường biên liệu mất cân bằng,” in FAIR - Nghiên cứu ứng dụng CNTT, 2015 58 [12] N Japkowicz, “Learning from Imbalanced Data Sets: A Comparison of Various Strategies,” AAAI wsh Learn from imb data sets, vol 68, pp 10–15, 2000 [13] N V Chawla, K W Bowyer, L O Hall, and W P Kegelmeyer, “SMOTE: Synthetic Minority Over-sampling Technique,” J Artif Intell Res., vol 16, pp 321–357, 2002 [14] H Han, W.-Y Wang, and B.-H Mao, “Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning,” Springer, Berlin, Heidelberg, 2005, pp 878– 887 [15] G Weiss, K McCarthy, and B Zabar, “Cost-sensitive learning vs sampling: Which is best for handling unbalanced classes with unequal error costs?,” Dmin, pp 1–7, 2007 [16] C Drummond and R C Holte, “Exploiting the Cost(In)sensitivity of Decisions Tree Splitting Criteria,” Int Conf Mach Learn., vol 1, no 1, pp 239–246, 2000 [17] W Fan, S Stolfo, J Zhang, and P Chan, “AdaCost: Misclassification Cost-Sensitive Boosting,” ’99 Proc Sixt Intl Conf Mach Learn., pp 97–105, 1999 [18] Y Sun, M S Kamel, A K C Wong, and Y Wang, “Cost-sensitive boosting for classification of imb data,” Patt Recog., vol 40, no 12, pp 3358–3378, 2007 [19] H Guo and H L Viktor, “Learning from Imbalanced Data Sets with Boosting and Data Generation : The DataBoost-IM Approach,” ACM SIGKD Explor Newsl - Spec issue Learn from imb datasets, vol 6, no 1, pp 30–39, 2004 [20] M a Maloof, “Learning When Data Sets are Imbalanced and When Costs are Unequal and Unknown,” Analysis, vol 21, no Ii, pp 1263–1284, 2003 [21] J R Quinlan, “J Ross Quinlan C4.5 - Programs for Machine Learning,” Morgan Kaufmann, vol 5, no p 302, 1993 [22] T Fawcett, “An introduction to ROC analysis,” Pattern Recognit Lett., vol 27, no 8, pp 861–874, 2006 [23] M R Tolun and S M Abu-Soud, “An Inductive Learning Algorithm for Production Rule Discovery,” 1999 59 [24] P T Huấn and L H Bắc, “Khai thác tập phổ biến từ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu xử lý đa nhân,” Can Tho Univ J Sci., vol CN, p 155, Oct 2017 [25] A Tran, T Truong, and L H Bac, “Efficiently mining ass rules based on max single constraints,” Vietnam J Comp Sci., vol 4, no 4, pp 261–277, Nov 2017 [26] D Nguyen, B Vo, and L H Bac, “CCAR: An efficient method for mining class association rules with itemset constraints,” Eng Appl Artif Intell., vol 37, pp 115–124, Jan 2015 [27] S M A.-S Mehmet R Tolun, Hayri Sever, Mahmu, Hayri Sever, Mahmut Uludag, “ILA-2: An Inductive Learning Algorithm For Knowledge Discovery,” Cybern Syst., vol 30, no 7, pp 609–628, Oct 1999 [28] C L Blake and C J Merz, “UCI Repository of machine learning databases,” Univ Calif., p http://archive.ics.uci.edu/ml/, 1998 [29] J.-S Lee, J Lee, and B Gu, “AUC-based C4.5 decision tree algorithm for imbalanced data classification”, 2016 60