Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định phân lớp dữ liệu mất cân đối

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Sử Dụng Cây Quyết Định Phân Lớp Dữ Liệu Mất Cân Đối
Tác giả	Lê Thanh Phong
Người hướng dẫn	PGS. TS. Lê Hoài Bắc
Trường học	Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn
Năm xuất bản	2018
Thành phố	TP.HCM

Định dạng
Số trang	71
Dung lượng	2,2 MB

Nội dung

Luận văn Sử dụng cây quyết định phân lớp dữ liệu mất cân đối được thực hiện với mục tiêu chính như thách thức của bài toán phân lớp dữ liệu mất cân đối là vấn đề về đối tượng cần quan tâm nghiên cứu lại có rất ít mẫu - mẫu lớp thiểu số so với các lớp khác trong tập dữ liệu - mẫu lớp đa số.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01 TP HCM, THÁNG 10 NĂM 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS LÊ HỒI BẮC TP HCM, THÁNG 10 NĂM 2018 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH Người hướng dẫn khoa học: PGS TS Lê Hoài Bắc - Học viên bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số … ngày … /…./2019 Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với tham gia của: Chủ tịch Hội đồng: PGS.TS Phạm Thế Bảo Phản biện 1: TS Trần Minh Thái Phản biện 2: TS Đặng Trường Sơn Ủy viên: PGS.TS Nguyễn Thanh Bình Thư ký: TS Nguyễn Đức Cường - Có thể tìm hiểu Luận văn Thư viện Trường ĐH Ngoại ngữ - Tin học TPHCM, cổng thông tin điện tử, website đơn vị quản lý sau đại học Trường LỜI CAM ĐOAN Tơi xin cam đoan đây cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa từng được cơng bố bất kỳ cơng trình khác Tôi xin cam đoan rằng giúp đỡ cho việc thực Luận văn được cảm ơn thông tin trích dẫn Luận văn được chỉ rõ nguồn gốc TPHCM, ngày 25 tháng 10 năm 2018 Tác giả luận văn Lê Thanh Phong LỜI CẢM ƠN Lời đầu xin chân thành cảm ơn PGS TS Lê Hồi Bắc tận tình hướng dẫn cung cấp tài liệu thông tin khoa học cần thiết cho luận văn Xin chân thành cảm ơn Lãnh đạo trường Đại học Ngoại ngữ Tin học Thành Phố Hồ Chí Minh, Ban Sau Đại Học, Khoa Công Nghệ Thông Tin tạo điều kiện cho tơi hồn thành tốt cơng việc nghiên cứu khoa học Cuối cùng, tơi xin chân thành cảm ơn đến gia đình, anh chị bạn đồng nghiệp, đơn vị công tác hỗ trợ cho rất nhiều suốt trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Tơi xin chân thành cảm ơn! Tác giả Lê Thanh Phong DANH MỤC VIẾT TẮT STT Từ viết tắt Ý nghĩa AUC Area Under the ROC Curve CLS Concept Learning System CSC4.5 Cost-Sensitive C4.5 CSDL Cơ Sở Dữ Liệu FN False Negative FP False Positive FPR False Positive Rate ID3 Interactive Dichotomizer ILA Inductive Learning Algorithm 10 KTDL Khai Thác Dữ Liệu 11 MDL Minimum Description Length 12 NB Naïve Bayes 13 ROC Receiver Operating Characteristic 14 SC4.5 Standard C4.5 15 SQL Structured Query Language 16 TN True Negative 17 TP True Positive 18 TPR True Positive Rate 19 UCI University of California Irvine (Machine Learning Repository) i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2-1: Quá trình khai thác liệu Hình 2-3: Quá trình phân lớp liệu - Bước xây dựng mơ hình phân lớp Hình 2-4: Quá trình phân lớp liệu – Ước lượng độ chính xác mơ hình 10 Hình 2-5: Quá trình phân lớp liệu – Phân lớp liệu 11 Hình 2-6: Mơ hình ứng dụng luật 15 Hình 2-7: Phương pháp Holdout 28 Hình 2-8: K-Fold Coss–Validation 29 Hình 3-1: Đồ thị ROC biểu diển phân lớp rời rạc xác suất B 30 Hình 3-2: AUC – diện tích đường cong ROC phân lớp A 31 Hình 3-3: Cây định với thuật toán C4.5 bằng cách giảm nhiều impurity 40 Hình 3-4: Cây định với thuật toán AUC4.5 bằng cách gia tăng giá trị AUC 43 Hình 4-1: Đồ thị so sánh kết AUCmean tập DTest 47 ii DANH MỤC CÁC BẢNG BIỂU Bảng 3-1: Ma trận nhầm lẫn 32 Bảng 3-2: Mô tả tập liệu mất cân đối 39 Bảng 4-1: Tập liệu với số phần tử lớp thiểu số 44 Bảng 4-2: Phương sai, độ lệch chuẩn toàn tập liệu 45 Bảng 4-3: Kết thực nghiệm tập DTest qua 10 lần kiểm tra 46 Bảng 4-4: Bảng kết 10 lần test tập liệu Wine Quality – Red 48 Bảng 4-5: Kết tập liệu Wine Quality – Red 48 Bảng 4-6: Bảng kết 10 lần test tập liệu Nursery 49 Bảng 4-7: Kết tập liệu Nursery 49 Bảng 4-8: Bảng kết 10 lần test tập liệu Car Evaluation 50 Bảng 4-9: Kết tập liệu Car Evaluation 50 Bảng 4-10: Bảng kết 10 lần test tập liệu Ecoli 50 Bảng 4-11: Kết tập liệu Ecoli 51 Bảng 4-12: Bảng kết 10 lần test tập liệu Mushroom 51 Bảng 4-13: Kết tập liệu Mushroom 52 Bảng 4-14: Bảng kết 10 lần test tập liệu Wine Quality – White 52 Bảng 4-15: Kết tập liệu Wine Quality – White 53 Bảng 4-16: Bảng kết 10 lần test tập liệu Contraceptive Method Choice 53 Bảng 4-17: Kết tập liệu Contraceptive Method Choice 54 Bảng 4-18: Bảng kết 10 lần test tập liệu Tic-Tac-Toe Endgame 54 Bảng 4-19: Kết tập liệu Tic-Tac-Toe Endgame 54 iii MỤC LỤC DANH MỤC VIẾT TẮT i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ii DANH MỤC CÁC BẢNG BIỂU iii MỤC LỤC iv CHƯƠNG TỔNG QUAN 1.1 Đặt vấn đề 1.2 Cơ sở hình thành đề tài 1.3 Các nghiên cứu liên quan 1.4 Mục tiêu luận văn 1.5 Đối tượng nghiên cứu 1.6 Các phương pháp nghiên cứu 1.6.1 Phương pháp nghiên cứu tài liệu 1.6.2 Phương pháp thực nghiệm 1.6.3 Phương pháp thống kê, phân tích liệu 1.7 Nội dung phạm vi luận văn 1.8 Ý nghĩa luận văn 1.8.1 Ý nghĩa khoa học 1.8.2 Ý nghĩa thực tiễn 1.9 Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai thác liệu iv 2.1.1 Khai thác liệu gì? 2.1.2 Quá trình khai thác liệu 2.1.3 Khai thác liệu sử dụng phân lớp 2.1.4 Khai thác liệu sử dụng luật kết hợp 14 2.1.5 Khai thác liệu sử dụng cây định 15 CHƯƠNG PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI BẰNG CÂY QUYẾT ĐỊNH 30 3.1 Đường cong Receiver Operating Characteristic (ROC) 30 3.2 Diện tích đường cong ROC 31 3.3 Độ đo đánh giá hiệu suất phân lớp 31 3.4 Thuật toán AUC4.5 33 3.4.1 Ý tưởng chính thuật toán AUC4.5 33 3.4.2 Một số giải thuật chính 34 3.5 Ví dụ minh hoạ cho thuật toán AUC4.5 39 3.5.1 Dữ liệu minh hoạ 39 3.5.2 Minh hoạ bằng thuật toán C4.5 40 3.5.3 Minh hoạ bằng thuật toán AUC4.5 41 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Mô tả tập liệu 44 4.2 Môi trường thực nghiệm 44 4.3 Kiểm chứng mơ hình bằng phương pháp Hold-out 45 4.4 Kết thực nghiệm 45 4.4.1 Phương sai, độ lệch chuẩn 45 v THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.4.2 Kết tám tập liệu sau kiểm tra tập DTest 10 lần Bảng 4-3: Kết thực nghiệm tập 𝐃𝐓𝐞𝐬𝐭 qua 10 lần kiểm tra Classifier TPR FPR AUC Wine Quality – Red SC4.5 CSC4.5 AUC4.5 Nursery 0.000 0.000 TPRmean=0.667 0.000 0.000 FPRmean = 0.685 0.500 0.500 AUCmean = 0.491 SC4.5 CSC4.5 AUC4.5 Car Evaluation 0.523 0.963 TPRmean=0.947 0.005 0.037 FPRmean = 0.005 0.759 0.963 AUCmean = 0.971 SC4.5 CSC4.5 AUC4.5 Ecoli 0.591 1.000 TPRmean=1.000 0.016 0.094 FPRmean = 0.000 0.787 0.953 AUCmean = 1.000 SC4.5 CSC4.5 AUC4.5 Mushroom 0.714 0.857 TPRmean=0.971 0.029 0.076 FPRmean = 0.165 0.843 0.890 AUCmean = 0.905 SC4.5 1.000 CSC4.5 1.000 AUC4.5 TPRmean=1.000 Wine Quality – White 0.000 0.000 FPRmean = 0.000 1.000 1.000 AUCmean = 1.000 SC4.5 0.478 CSC4.5 0.577 AUC4.5 TPRmean=0.610 Contraceptive Method Choice 0.107 0.158 FPRmean = 0.335 0.686 0.709 AUCmean = 0.637 SC4.5 0.225 CSC4.5 0.333 AUC4.5 TPRmean=0.661 Tic-Tac-Toe Endgame 0.076 0.092 FPRmean = 0.430 0.574 0.621 AUCmean = 0.616 0.062 0.062 FPRmean = 0.107 0.784 0.789 AUCmean = 0.829 SC4.5 CSC4.5 AUC4.5 0.631 0.640 TPRmean=0.766 46 THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.100 KẾT QUẢ GIÁ TRỊ AUCmean CỦA CÁC BỘ PHÂN LỚP 1.000 0.900 AUC values 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 Wine Quality – Red Nursey Car Evaluation Ecoli Mushroom Wine Quality Contraceptive Tic-Tac-Toe – White Method Choice Endgame SC4.5 0.500 0.759 0.787 0.843 1.000 0.686 0.574 0.784 CSC4.5 0.500 0.963 0.953 0.890 1.000 0.709 0.621 0.789 AUC4.5(mean) 0.491 0.971 1.000 0.905 1.000 0.637 0.616 0.829 Hình 4-1: Đồ thị so sánh kết AUCmean tập DTest 47 THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.4.3 Phân tích tập liệu  Wine Quality – Red: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 1.13%, đây tỉ lệ lớp thiểu số nhỏ nhất (mất cân đối lớn nhất) tập liệu nghiên cứu Bảng 4-4: Bảng kết 10 lần test tập liệu Wine Quality – Red Lần test TPR FPR Phương sai AUC 1.000 0.852 0.574 1.000 0.843 0.579 0.000 0.301 0.350 0.833 0.839 0.497 0.833 0.728 0.553 0.000 0.347 0.327 1.000 0.983 0.509 0.833 0.835 0.499 0.167 0.314 0.426 10 1.000 0.803 0.599 TPRmean=0.667 FPRmean=0.685 Độ lệch chuẩn 0.00906 0.09520 AUCmean=0.491 Nguồn từ: nghiên cứu tác giả Bảng 4-5: Kết tập liệu Wine Quality – Red Classifier TPR FPR AUC SC4.5 0.000 0.000 0.500 CSC4.5 0.000 0.000 0.500 AUC4.5 TPRmean = 0.667 FPRmean = 0.685 AUCmean = 0.491 Thuật tốn SC4.5 CSC4.5, có TPR = FPR = 0, có nghĩa hai thuật tốn SC4.5 CSC4.5 khơng phân lớp xác được bất kỳ giá trị lớp thiểu số Trong đó, thuật tốn AUC4.5, mặc dù AUCmean = 0.491 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 (AUC = 0.500) Nhưng với giá trị TPRmean = 0.667, nói lên thuật tốn AUC4.5 phân lớp xác được số giá trị lớp thiểu số, mặc dù kết không cao 48 THỰC NGHIỆM VÀ ĐÁNH GIÁ Ngoài ra, tập Wine Quality – Red giá trị thuộc tính thuộc loại liên tục, biến động liệu rất lớn từng thuộc tính Ảnh hưởng lớn đến trình phân lớp Trong tập liệu đem kiểm tra, tập Wine Quality – Red, kết kiểm tra có độ lệch chuẩn = 0.095199 cao nhất  Nursery: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 2.53% Bảng 4-6: Bảng kết 10 lần test tập liệu Nursery Lần test TPR FPR Phương sai AUC 0.933 0.007 0.963 0.950 0.005 0.973 0.929 0.004 0.963 0.962 0.004 0.979 0.932 0.005 0.963 0.932 0.005 0.963 0.954 0.008 0.973 0.927 0.005 0.961 0.977 0.005 0.986 10 0.977 0.006 0.986 TPRmean=0.947 FPRmean=0.005 Độ lệch chuẩn 0.0001 0.00988 AUCmean=0.971 Nguồn từ: nghiên cứu tác giả Bảng 4-7: Kết tập liệu Nursery Classifier SC4.5 CSC4.5 AUC4.5 TPR 0.523 0.963 TPRmean = 0.947 FPR 0.005 0.037 FPRmean = 0.005 AUC 0.759 0.963 AUCmean = 0.971 Thuật toán AUC4.5 cho kết tốt, với AUCmean = 0.971 lớn rất nhiều so với thuật tốn chuẩn SC4.5 với AUC = 0.759 Cịn với thuật tốn CSC4.5 với AUC = 0.963 có nhỉnh đơi chút Mặt khác, tập Nursery có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC 10 lần kiểm tra gần dẫn đến độ lệch chuẩn = 0.009877 bé  Car Evaluation: Thuộc tính rời rạc = 6, tỉ lệ lớp thiểu số = 3.76% 49 THỰC NGHIỆM VÀ ĐÁNH GIÁ Bảng 4-8: Bảng kết 10 lần test tập liệu Car Evaluation Lần test TPR FPR Phương sai AUC 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 10 1.000 TPRmean=1.000 0.000 FPRmean=0.000 Độ lệch chuẩn 1.000 0.0000 0.0000 AUCmean=1.000 Nguồn từ: nghiên cứu tác giả Bảng 4-9: Kết tập liệu Car Evaluation Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.591 1.000 TPRmean = 1.000 AUC 0.016 0.094 FPRmean = 0.000 0.787 0.953 AUCmean = 1.000 Thuật toán AUC4.5 cho kết vượt trội, với AUCmean = 1.000, phân lớp chính xác 100% lớp thiểu số lớp đa số qua lần kiểm tra Trong thuật toán chuẩn SC4.5 với AUC = 0.787 thuật toán CSC4.5 với AUC = 0.953 cịn sai sót phân lớp nhầm lớp đa số lớp thiểu số Tập liệu Car Evaluation có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC 10 lần kiểm tra không thay đổi, đến độ lệch chuẩn = 0.0000  Ecoli: Thuộc tính liên tục = 8, thuộc tính rời rạc = 1, tỉ lệ lớp thiểu số = 5.95% Bảng 4-10: Bảng kết 10 lần test tập liệu Ecoli Lần test TPR FPR 1.000 Phương sai AUC 0.058 0.971 50 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.000 0.125 0.938 1.000 0.163 0.918 0.857 0.058 0.900 1.000 0.202 0.899 1.000 0.212 0.894 0.857 0.077 0.890 1.000 0.231 0.885 1.000 0.250 0.875 10 1.000 TPRmean=0.971 0.250 FPRmean=0.165 0.875 0.00091 0.03022 AUCmean=0.905 Nguồn từ: nghiên cứu tác giả Bảng 4-11: Kết tập liệu Ecoli Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.714 0.857 TPRmean = 0.971 AUC 0.029 0.076 FPRmean = 0.165 0.843 0.890 AUCmean = 0.905 Mặc dù thuật toán AUC4.5 cho kết tốt, với AUCmean = 0.905 cho kết phân loại cao so với thuật toán chuẩn SC4.5 với AUC = 0.843 thuật toán CSC4.5 với AUC = 0.875 Trong 10 lần kiểm tra, có đến lần cho kết 100% phân loại lớp thiểu số tập liệu mất cân đối Tuy nhiên, tập Ecoli có độ lệch chuẩn = 0.03022 chỉ thấp tập Wine Quality – Red, cao tập liệu mà tác giả nghiên cứu Chứng tỏ tập liệu có thuộc tính kiểu liên tục ảnh hưởng rất lớn đến thuật toán AUC4.5  Mushroom: Thuộc tính rời rạc = 22, tỉ lệ lớp thiểu số = 7.60% Bảng 4-12: Bảng kết 10 lần test tập liệu Mushroom Lần test TPR FPR Phương sai AUC 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 51 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 1.000 0.000 1.000 10 1.000 TPRmean=1.000 0.000 FPRmean=0.000 1.000 0.00000 0.00000 AUCmean=1.000 Nguồn từ: nghiên cứu tác giả Bảng 4-13: Kết tập liệu Mushroom Classifier TPR FPR AUC SC4.5 1.000 0.000 1.000 CSC4.5 1.000 0.000 1.000 AUC4.5 TPRmean = 1.000 FPRmean = 0.000 AUCmean = 1.000 Cả Thuật toán AUC4.5, thuật toán chuẩn SC4.5 thuật toán CSC4.5 cho kết phân lớp xác 100% lớp đa số lớp thiểu số Lại khẳng định, tập liệu với thuộc tính có giá trị kiểu rời rạc, cho kết phân lớp tốt thuộc tính có giá trị kiểu liên tục  Wine Quality – White: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 17.97% Bảng 4-14: Bảng kết 10 lần test tập liệu Wine Quality – White Lần test TPR FPR Phương sai AUC 0.546 0.265 0.640 0.409 0.180 0.614 0.639 0.313 0.663 0.742 0.373 0.685 0.698 0.468 0.615 0.595 0.263 0.666 0.467 0.199 0.634 0.818 0.576 0.621 0.632 0.379 0.627 10 0.557 0.348 0.605 52 Độ lệch chuẩn THỰC NGHIỆM VÀ ĐÁNH GIÁ TPRmean=0.610 FPRmean=0.335 0.00069 0.02631 AUCmean=0.637 Nguồn từ: nghiên cứu tác giả Bảng 4-15: Kết tập liệu Wine Quality – White Classifier TPR SC4.5 CSC4.5 AUC4.5 FPR 0.478 0.577 TPRmean = 0.610 AUC 0.107 0.158 FPRmean = 0.335 0.686 0.709 AUCmean = 0.637 Thuật toán AUC4.5 cho kết AUCmean = 0.637 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 Nhưng với giá trị TPRmean = 0.610 cao nói lên thuật tốn AUC4.5 phân lớp xác lớp thiểu số so với thuật toán SC4.5 CSC4.5, mặc dù kết khơng cao Ngồi ra, tập Wine Quality – White giá trị thuộc tính thuộc loại liên tục Ảnh hưởng lớn đến trình phân lớp Kết kiểm tra có độ lệch chuẩn = 0.02631  Contraceptive Method Choice: Thuộc tính liên tục=9, tỉ lệ lớp thiểu số=22.61% Bảng 4-16: Bảng kết 10 lần test tập liệu Contraceptive Method Choice Lần test TPR FPR Phương sai AUC 0.714 0.432 0.641 0.738 0.472 0.633 0.529 0.370 0.579 0.667 0.413 0.627 0.734 0.530 0.602 0.604 0.386 0.609 0.642 0.414 0.614 0.600 0.351 0.624 0.718 0.448 0.635 10 0.664 TPRmean=0.661 0.482 FPRmean=0.430 Độ lệch chuẩn 0.591 0.00041 0.02028 AUCmean=0.616 Nguồn từ: nghiên cứu tác giả 53 THỰC NGHIỆM VÀ ĐÁNH GIÁ Bảng 4-17: Kết tập liệu Contraceptive Method Choice Classifier SC4.5 CSC4.5 AUC4.5 TPR FPR 0.225 0.333 TPRmean = 0.661 AUC 0.076 0.092 FPRmean = 0.430 0.574 0.621 AUCmean = 0.616 Thuật toán AUC4.5 cho kết AUCmean = 0.616 thấp chút đỉnh so với thuật toán SC4.5 CSC4.5 Nhưng với giá trị TPRmean = 0.661 cao rất nhiều nói lên thuật tốn AUC4.5 phân lớp chính xác lớp thiểu số so với thuật toán SC4.5 CSC4.5, mặc dù kết khơng cao Ngồi ra, tập Contraceptive Method Choice giá trị thuộc tính thuộc loại liên tục Ảnh hưởng lớn đến trình phân lớp Kết kiểm tra có độ lệch chuẩn = 0.02028  Tic-Tac-Toe Endgame: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 34.62% Bảng 4-18: Bảng kết 10 lần test tập liệu Tic-Tac-Toe Endgame Lần test TPR FPR Phương sai AUC 0.745 0.105 0.820 0.807 0.104 0.851 0.708 0.070 0.819 0.779 0.098 0.840 0.748 0.101 0.823 0.776 0.105 0.835 0.794 0.112 0.841 0.753 0.097 0.828 0.785 0.126 0.829 10 0.764 TPRmean=0.766 0.151 FPRmean=0.107 0.807 0.00017 0.01285 AUCmean=0.829 Nguồn từ: nghiên cứu tác giả Bảng 4-19: Kết tập liệu Tic-Tac-Toe Endgame Classifier Độ lệch chuẩn TPR FPR 54 AUC THỰC NGHIỆM VÀ ĐÁNH GIÁ SC4.5 0.631 0.062 0.784 CSC4.5 0.640 0.062 0.789 AUC4.5 TPRmean = 0.766 FPRmean = 0.107 AUCmean = 0.829 Thuật toán AUC4.5 cho kết phân loại tốt chỉ số TPR, FPR AUC tập liệu mất cân đối Lại khẳng định, tập liệu với thuộc tính có giá trị kiểu rời rạc, cho kết phân lớp tốt thuộc tính có giá trị kiểu liên tục Độ lệch chuẩn = 0.01285 nhỏ 4.5 Đánh giá kết thực nghiệm Qua kết thực nghiệm, phân tích tám tập liệu được kiểm tra tập DTest 10 lần lấy kết trung bình cho chỉ số TPRmean, FPRmean AUCmean (bảng V) chỉ số phương sai – độ lệch chuẩn (bảng IV) có nhận xét sau: + Tỉ lệ mất cân đối lớp không ảnh hưởng lớn đến kết phân lớp thuật toán đề xuất AUC4.5 + Đối với tập liệu với thuộc tính có giá trị rời rạc: - Cho kết phân lớp tốt lớp thiểu số tập liệu mất cân đối - Trong đó, tất tập liệu cho kết phân loại tốt, vượt trội so với hai thuật toán SC4.5 CSC4.5 Đặc biệt tập liệu Car Evaluation Mushroom có kết phân lớp chính xác 100% - Độ lệch chuẩn hai tập Car Evaluation Mushroom bằng khơng (=0) Cịn độ lệch hai tập Nursery Tac-Tic-Toe Endgame không lớn, chứng tỏ tính ổn định thuật toán liệu thuộc nhóm có giá trị kiểu rời rạc + Đối với tập liệu với thuộc tính có giá trị liên tục: - Chỉ có tập liệu Ecoli có kết phân loại cao so với hai thuật toán SC4.5 CSC4.5 Tuy nhiên độ lệch chuẩn tập Ecoli cao, chỉ đứng sau tập Wine Quality – Red, chứng tỏ cần xem lại liệu loại liên tục 55 THỰC NGHIỆM VÀ ĐÁNH GIÁ - Ba tập liệu lại Wine Quality – Red, Wine Quality – White Contraceptive Method Choice chỉ số TPRmean cao so với thuật toán SC4.5 CSC4.5 Nếu bỏ qua chỉ số FPRmean (phân loại lớp đa số nhầm vào lớp thiểu số) để đạt kết AUCmean cao thuật tốn AUC4.5 đạt được mục đích nâng cao độ chính xác phân lớp lớp thiểu số tập liệu mất cân đối - Độ lệch chuẩn tất bốn tập liệu loại liên tục đứng cao nhất tám tập liệu theo thứ tự 0.02028, 0.02631, 0.03022 0.09520 Cho thấy ổn định, phân bố liệu tập liệu liên tục vấn đề cần xem xét 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn này, thuật toán AUC4.5 được cải tiến từ thuật C4.5 dùng giá trị AUC thay cho Gain-entropy tiêu chí tách cắt tỉa cây nhằm nâng cao hiệu phân lớp liệu mất cân đối, cụ thể lớp thiểu số, thích hợp cho phân lớp mất cân đối nhị phân Các kết thực nghiệm đánh giá tám tập liệu mất cân đối thực từ kho học máy UCI [28] chỉ rằng thuật toán cải tiến AUC4.5 cho hiệu phân lớp tốt thuật toán SC4.5 SCS4.5 Điều khẳng định tầm quan trọng dùng trực tiếp giá trị AUC vào việc huấn luyện tập liệu có ảnh hưởng tới trình phân lớp Đặc biệt, phương pháp cải tiến không hy sinh giá trị FPR nhằm gia tăng giá trị TPR để đạt giá trị AUC cao nhất Phương pháp đề xuất không cần cài đặt chi phí khác chi phí phân loại sai phương pháp học với chi phí nhạy cảm, thời gian huấn luyện ít hiệu phân lớp tốt Phương pháp cải thiện được tỷ lệ phân loại chính xác lớp thiểu số tập liệu mất cân đối Tuy nhiên liệu có giá trị kiểu liên tục vấn đề cần quan tâm xử lý trước đưa vào phân loại áp dụng thuật toán AUC4.5 Với kết đạt được thuật toán Nếu áp dụng hệ thống vào ứng dụng chẩn đoán y học nâng cao hiệu chẩn đoán, áp dụng vào lĩnh vực phát xâm nhập, tấn công cao hiệu giám sát hệ thống Tuy nhiên, nay, chưa có phương pháp tối ưu hẳn cho tất tập liệu thực tế ngành khai thác liệu chấp nhận điều Trên sở nghiên cứu kết đạt được, chúng nhận thấy có nhiều vấn đề cần được tiếp tục nghiên cứu phát triển để đóng góp vào lĩnh vực phân lớp liệu mất cân đối nói riêng lĩnh vực khai thác liệu nói chung 57 TÀI LIỆU THAM KHẢO [1] J R Quinlan, “Induction of Decision Trees,” Mach Learn., vol 1, no 1, pp 81–106, 1986 [2] J Han, M Kamber, and J Pei, Data mining : Concepts and Techniques Elsevier/Morgan Kaufmann, 2012 [3] I H Witten, E Frank, and M a Hall, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, vol 54, no 2011 [4] V Ganganwar, “An overview of classification algorithms for imbalanced datasets,” Int J Emerg Technol Adv Eng., vol 2, no 4, pp 42–47, 2012 [5] Y Yang and G Ma, “Ensemble-based active learning for class imbalance problem,” J Biomed Sci Eng., vol 03, no 10, pp 1022–1029, Oct 2010 [6] B Zadrozny, J Langford, and N Abe, “Cost-sensitive learning by cost-proportionate example weighting,” in Third IEEE Int Conf on Data Mining, 2003, pp 435–442 [7] Y Tang, S Krasser, D Alperovitch, and P Judge, “Spam Sender Detection with Classification Modeling on Highly Imbalanced Mail Server Behavior Data,” in Proc of Intl Conf on Artificial Int and Pattern Recognition, 2008, pp 174–180 [8] V Engen, “Machine learning for network based intrusion detection.,” Bounemouth University, 2010 [9] X Liu, J Wu, and Z Zhou, “Exploratory Under-Sampling for Class-Imbalance Learning,” in Sixth Int Conf on Data Mining (ICDM’06), 2006, pp 965–969 [10] S.-J Yen and Y.-S Lee, “Cluster-based under-sampling approaches for imbalanced data distributions,” Expt Syst with Appl., vol 36, no 3, pp 5718–5727, Apr 2009 [11] N M Phương, T T Ánh Tuyết, N T Hồng, and Đ X Thọ, “Random Border Undersampling: Thuật toán giảm phần tử ngẫu nhiên đường biên liệu mất cân bằng,” in FAIR - Nghiên cứu ứng dụng CNTT, 2015 58 [12] N Japkowicz, “Learning from Imbalanced Data Sets: A Comparison of Various Strategies,” AAAI wsh Learn from imb data sets, vol 68, pp 10–15, 2000 [13] N V Chawla, K W Bowyer, L O Hall, and W P Kegelmeyer, “SMOTE: Synthetic Minority Over-sampling Technique,” J Artif Intell Res., vol 16, pp 321–357, 2002 [14] H Han, W.-Y Wang, and B.-H Mao, “Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning,” Springer, Berlin, Heidelberg, 2005, pp 878– 887 [15] G Weiss, K McCarthy, and B Zabar, “Cost-sensitive learning vs sampling: Which is best for handling unbalanced classes with unequal error costs?,” Dmin, pp 1–7, 2007 [16] C Drummond and R C Holte, “Exploiting the Cost(In)sensitivity of Decisions Tree Splitting Criteria,” Int Conf Mach Learn., vol 1, no 1, pp 239–246, 2000 [17] W Fan, S Stolfo, J Zhang, and P Chan, “AdaCost: Misclassification Cost-Sensitive Boosting,” ’99 Proc Sixt Intl Conf Mach Learn., pp 97–105, 1999 [18] Y Sun, M S Kamel, A K C Wong, and Y Wang, “Cost-sensitive boosting for classification of imb data,” Patt Recog., vol 40, no 12, pp 3358–3378, 2007 [19] H Guo and H L Viktor, “Learning from Imbalanced Data Sets with Boosting and Data Generation : The DataBoost-IM Approach,” ACM SIGKD Explor Newsl - Spec issue Learn from imb datasets, vol 6, no 1, pp 30–39, 2004 [20] M a Maloof, “Learning When Data Sets are Imbalanced and When Costs are Unequal and Unknown,” Analysis, vol 21, no Ii, pp 1263–1284, 2003 [21] J R Quinlan, “J Ross Quinlan C4.5 - Programs for Machine Learning,” Morgan Kaufmann, vol 5, no p 302, 1993 [22] T Fawcett, “An introduction to ROC analysis,” Pattern Recognit Lett., vol 27, no 8, pp 861–874, 2006 [23] M R Tolun and S M Abu-Soud, “An Inductive Learning Algorithm for Production Rule Discovery,” 1999 59 [24] P T Huấn and L H Bắc, “Khai thác tập phổ biến từ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu xử lý đa nhân,” Can Tho Univ J Sci., vol CN, p 155, Oct 2017 [25] A Tran, T Truong, and L H Bac, “Efficiently mining ass rules based on max single constraints,” Vietnam J Comp Sci., vol 4, no 4, pp 261–277, Nov 2017 [26] D Nguyen, B Vo, and L H Bac, “CCAR: An efficient method for mining class association rules with itemset constraints,” Eng Appl Artif Intell., vol 37, pp 115–124, Jan 2015 [27] S M A.-S Mehmet R Tolun, Hayri Sever, Mahmu, Hayri Sever, Mahmut Uludag, “ILA-2: An Inductive Learning Algorithm For Knowledge Discovery,” Cybern Syst., vol 30, no 7, pp 609–628, Oct 1999 [28] C L Blake and C J Merz, “UCI Repository of machine learning databases,” Univ Calif., p http://archive.ics.uci.edu/ml/, 1998 [29] J.-S Lee, J Lee, and B Gu, “AUC-based C4.5 decision tree algorithm for imbalanced data classification”, 2016 60 ... số phân lớp đúng từ k lần lặp chia cho tổng số mẫu tập liệu ban đầu [27][23] Hình 2-7: K-Fold Coss–Validation 29 PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI BẰNG CÂY QUYẾT ĐỊNH CHƯƠNG PHÂN LỚP DỮ LIỆU MẤT CÂN... NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN VĂN THẠC SỸ Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01 NGƯỜI HƯỚNG DẪN KHOA HỌC... phân lớp thường được sử dụng ma trận nhầm lẫn (confusion matrix) [22] Bảng I 31 PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI BẰNG CÂY QUYẾT ĐỊNH Bảng 3-1: Ma trận nhầm lẫn thể hiệu suất dự đoán phân lớp nhị phân

Ngày đăng: 05/07/2022, 15:38

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] J. R. Quinlan, “Induction of Decision Trees,” Mach. Learn., vol. 1, no. 1, pp. 81–106, 1986

Sách, tạp chí

Tiêu đề:	Induction of Decision Trees,” "Mach. Learn

[2] J. Han, M. Kamber, and J. Pei, Data mining : Concepts and Techniques. Elsevier/Morgan Kaufmann, 2012

Sách, tạp chí

Tiêu đề:	Data mining : Concepts and Techniques

[3] I. H. Witten, E. Frank, and M. a. Hall, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, vol. 54, no. 2. 2011

Sách, tạp chí

Tiêu đề:	Data Mining: Practical Machine Learning Tools and Techniques, Third Edition

[4] V. Ganganwar, “An overview of classification algorithms for imbalanced datasets,” Int. J. Emerg. Technol. Adv. Eng., vol. 2, no. 4, pp. 42–47, 2012

Sách, tạp chí

Tiêu đề:	An overview of classification algorithms for imbalanced datasets,” "Int. "J. Emerg. Technol. Adv. Eng

[5] Y. Yang and G. Ma, “Ensemble-based active learning for class imbalance problem,” J. Biomed. Sci. Eng., vol. 03, no. 10, pp. 1022–1029, Oct. 2010

Sách, tạp chí

Tiêu đề:	Ensemble-based active learning for class imbalance problem,” "J. "Biomed. Sci. Eng

[6] B. Zadrozny, J. Langford, and N. Abe, “Cost-sensitive learning by cost-proportionate example weighting,” in Third IEEE Int. Conf. on Data Mining, 2003, pp. 435–442

Sách, tạp chí

Tiêu đề:	Cost-sensitive learning by cost-proportionate example weighting,” in "Third IEEE Int. Conf. on Data Mining

[7] Y. Tang, S. Krasser, D. Alperovitch, and P. Judge, “Spam Sender Detection with Classification Modeling on Highly Imbalanced Mail Server Behavior Data,” in Proc. of Intl. Conf. on Artificial Int. and Pattern Recognition, 2008, pp. 174–180

Sách, tạp chí

Tiêu đề:	Spam Sender Detection with Classification Modeling on Highly Imbalanced Mail Server Behavior Data,” in "Proc. of Intl. Conf. on Artificial Int. and Pattern Recognition

[8] V. Engen, “Machine learning for network based intrusion detection.,” Bounemouth University, 2010

Sách, tạp chí

Tiêu đề:	Machine learning for network based intrusion detection

[9] X. Liu, J. Wu, and Z. Zhou, “Exploratory Under-Sampling for Class-Imbalance Learning,” in Sixth Int. Conf. on Data Mining (ICDM’06), 2006, pp. 965–969

Sách, tạp chí

Tiêu đề:	Exploratory Under-Sampling for Class-Imbalance Learning,” in "Sixth Int. Conf. on Data Mining (ICDM’06)

[10] S.-J. Yen and Y.-S. Lee, “Cluster-based under-sampling approaches for imbalanced data distributions,” Expt. Syst. with Appl., vol. 36, no. 3, pp. 5718–5727, Apr. 2009

Sách, tạp chí

Tiêu đề:	Cluster-based under-sampling approaches for imbalanced data distributions,” "Expt. Syst. with Appl