# Tập dữ liệu Thuộc tính Phương sai Độ lệch chuẩn
1 Car-Evaluation Rời rạc 0.00000 0.00000 2 Mushroom Rời rạc 0.00000 0.00000 3 Nursery Rời rạc 0.00010 0.00988 4 Tic-Tac-Toe Rời rạc 0.00017 0.01285 5 Contraceptive-Method-Choice Liên tục 0.00041 0.02028 6 Winequlity-White Liên tục 0.00069 0.02631 7 Ecoli Liên tục 0.00091 0.03022
THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.4.2 Kết quả tám tập dữ liệu sau khi kiểm tra tập DTest 10 lần.
Bảng 4-3: Kết quả thực nghiệm trên tập 𝐃𝐓𝐞𝐬𝐭 qua 10 lần kiểm tra.
Classifier TPR FPR AUC
1. Wine Quality – Red
SC4.5 0.000 0.000 0.500
CSC4.5 0.000 0.000 0.500
AUC4.5 TPRmean=0.667 FPRmean= 0.685 AUCmean= 0.491 2. Nursery
SC4.5 0.523 0.005 0.759
CSC4.5 0.963 0.037 0.963
AUC4.5 TPRmean=0.947 FPRmean= 0.005 AUCmean= 0.971 3. Car Evaluation
SC4.5 0.591 0.016 0.787
CSC4.5 1.000 0.094 0.953
AUC4.5 TPRmean=1.000 FPRmean = 0.000 AUCmean = 1.000 4. Ecoli
SC4.5 0.714 0.029 0.843
CSC4.5 0.857 0.076 0.890
AUC4.5 TPRmean=0.971 FPRmean= 0.165 AUCmean= 0.905 5. Mushroom
SC4.5 1.000 0.000 1.000
CSC4.5 1.000 0.000 1.000
AUC4.5 TPRmean=1.000 FPRmean= 0.000 AUCmean= 1.000 6. Wine Quality – White
SC4.5 0.478 0.107 0.686
CSC4.5 0.577 0.158 0.709
AUC4.5 TPRmean=0.610 FPRmean= 0.335 AUCmean= 0.637 7. Contraceptive Method Choice
SC4.5 0.225 0.076 0.574
CSC4.5 0.333 0.092 0.621
AUC4.5 TPRmean=0.661 FPRmean= 0.430 AUCmean= 0.616 8. Tic-Tac-Toe Endgame
SC4.5 0.631 0.062 0.784
CSC4.5 0.640 0.062 0.789
Hình 4-1: Đồ thị so sánh kết quả AUCmean của tập DTest
1. Wine Quality
– Red 2. Nursey
3. Car
Evaluation 4. Ecoli 5. Mushroom
6. Wine Quality – White 7. Contraceptive Method Choice 8. Tic-Tac-Toe Endgame SC4.5 0.500 0.759 0.787 0.843 1.000 0.686 0.574 0.784 CSC4.5 0.500 0.963 0.953 0.890 1.000 0.709 0.621 0.789 AUC4.5(mean) 0.491 0.971 1.000 0.905 1.000 0.637 0.616 0.829 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
1.100 KẾT QUẢ GIÁ TRỊ AUCmean CỦA CÁC BỘ PHÂN LỚP
AUC v
THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.4.3 Phân tích trên từng tập dữ liệu.
Wine Quality – Red: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 1.13%, đây là tỉ lệ lớp thiểu số nhỏ nhất (mất cân đối lớn nhất) trong các tập dữ liệu nghiên cứu.
Bảng 4-4: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – Red Lần Lần
test TPR FPR AUC Phương sai Độ lệch chuẩn
1 1.000 0.852 0.574 2 1.000 0.843 0.579 3 0.000 0.301 0.350 4 0.833 0.839 0.497 5 0.833 0.728 0.553 6 0.000 0.347 0.327 7 1.000 0.983 0.509 8 0.833 0.835 0.499 9 0.167 0.314 0.426 10 1.000 0.803 0.599
TPRmean=0.667 FPRmean=0.685 AUCmean=0.491 0.00906 0.09520
Nguồn từ: nghiên cứu của tác giả
Bảng 4-5: Kết quả tập dữ liệu Wine Quality – Red
Classifier TPR FPR AUC
SC4.5 0.000 0.000 0.500
CSC4.5 0.000 0.000 0.500
AUC4.5 TPRmean= 0.667 FPRmean= 0.685 AUCmean = 0.491
Thuật tốn SC4.5 và CSC4.5, cĩ TPR = 0 và FPR = 0, cĩ nghĩa hai thuật tốn SC4.5 và CSC4.5 khơng phân lớp chính xác được bất kỳ giá trị nào của lớp thiểu số.
Trong khi đĩ, thuật tốn AUC4.5, mặc dù AUCmean = 0.491 thấp hơn chút đỉnh so với thuật tốn SC4.5 và CSC4.5 (AUC = 0.500). Nhưng với giá trị TPRmean = 0.667, nĩi lên thuật tốn AUC4.5 đã phân lớp chính xác được một số giá trị của lớp thiểu số, mặc dù kết quả khơng cao.
Ngồi ra, tập Wine Quality – Red giá trị của thuộc tính thuộc loại liên tục, biến động dữ liệu rất lớn trên từng thuộc tính. Ảnh hưởng lớn đến quá trình phân lớp. Trong các tập dữ liệu đem kiểm tra, thì tập Wine Quality – Red, kết quả kiểm tra cĩ độ lệch chuẩn = 0.095199 cao nhất.
Nursery: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 2.53%.
Bảng 4-6: Bảng kết quả 10 lần test trên tập dữ liệu Nursery Lần Lần
test
TPR FPR AUC Phương sai Độ lệch
chuẩn 1 0.933 0.007 0.963 2 0.950 0.005 0.973 3 0.929 0.004 0.963 4 0.962 0.004 0.979 5 0.932 0.005 0.963 6 0.932 0.005 0.963 7 0.954 0.008 0.973 8 0.927 0.005 0.961 9 0.977 0.005 0.986 10 0.977 0.006 0.986
TPRmean=0.947 FPRmean=0.005 AUCmean=0.971 0.0001 0.00988
Nguồn từ: nghiên cứu của tác giả
Bảng 4-7: Kết quả tập dữ liệu Nursery
Classifier TPR FPR AUC
SC4.5 0.523 0.005 0.759
CSC4.5 0.963 0.037 0.963
AUC4.5 TPRmean= 0.947 FPRmean= 0.005 AUCmean= 0.971
Thuật tốn AUC4.5 cho kết quả tốt, với AUCmean = 0.971 lớn hơn rất nhiều so với thuật tốn chuẩn SC4.5 với AUC = 0.759. Cịn với thuật tốn CSC4.5 với AUC = 0.963 thì cĩ nhỉnh hơn đơi chút. Mặt khác, tập Nursery cĩ giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra khá gần nhau dẫn đến độ lệch chuẩn = 0.009877 khá bé.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Bảng 4-8: Bảng kết quả 10 lần test trên tập dữ liệu Car Evaluation Lần Lần
test
TPR FPR AUC Phương sai Độ lệch
chuẩn 1 1.000 0.000 1.000 2 1.000 0.000 1.000 3 1.000 0.000 1.000 4 1.000 0.000 1.000 5 1.000 0.000 1.000 6 1.000 0.000 1.000 7 1.000 0.000 1.000 8 1.000 0.000 1.000 9 1.000 0.000 1.000 10 1.000 0.000 1.000
TPRmean=1.000 FPRmean=0.000 AUCmean=1.000 0.0000 0.0000
Nguồn từ: nghiên cứu của tác giả
Bảng 4-9: Kết quả tập dữ liệu Car Evaluation
Classifier TPR FPR AUC
SC4.5 0.591 0.016 0.787
CSC4.5 1.000 0.094 0.953
AUC4.5 TPRmean= 1.000 FPRmean= 0.000 AUCmean= 1.000
Thuật tốn AUC4.5 cho kết quả vượt trội, với AUCmean = 1.000, phân lớp chính xác 100% lớp thiểu số và lớp đa số qua các lần kiểm tra. Trong khi thuật tốn chuẩn SC4.5 với AUC = 0.787 và thuật tốn CSC4.5 với AUC = 0.953 vẫn cịn sai sĩt trong phân lớp nhầm lớp đa số và lớp thiểu số. Tập dữ liệu Car Evaluation cĩ giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra khơng thay đổi, đến độ lệch chuẩn = 0.0000.
Ecoli: Thuộc tính liên tục = 8, thuộc tính rời rạc = 1, tỉ lệ lớp thiểu số = 5.95%.
Bảng 4-10: Bảng kết quả 10 lần test trên tập dữ liệu Ecoli Lần Lần
test TPR FPR AUC Phương sai Độ lệch chuẩn
2 1.000 0.125 0.938 3 1.000 0.163 0.918 4 0.857 0.058 0.900 5 1.000 0.202 0.899 6 1.000 0.212 0.894 7 0.857 0.077 0.890 8 1.000 0.231 0.885 9 1.000 0.250 0.875 10 1.000 0.250 0.875
TPRmean=0.971 FPRmean=0.165 AUCmean=0.905 0.00091 0.03022
Nguồn từ: nghiên cứu của tác giả
Bảng 4-11: Kết quả tập dữ liệu Ecoli
Classifier TPR FPR AUC
SC4.5 0.714 0.029 0.843
CSC4.5 0.857 0.076 0.890
AUC4.5 TPRmean= 0.971 FPRmean= 0.165 AUCmean= 0.905
Mặc dù thuật tốn AUC4.5 cho kết quả tốt, với AUCmean = 0.905 cho kết quả phân loại cao hơn so với thuật tốn chuẩn SC4.5 với AUC = 0.843 và thuật tốn CSC4.5 với AUC = 0.875. Trong 10 lần kiểm tra, cĩ đến 8 lần cho kết quả 100% phân loại lớp thiểu số trong tập dữ liệu mất cân đối.
Tuy nhiên, tập Ecoli cĩ độ lệch chuẩn = 0.03022 chỉ thấp hơn tập Wine Quality – Red, cao hơn các tập dữ liệu mà tác giả nghiên cứu. Chứng tỏ tập dữ liệu cĩ thuộc tính kiểu liên tục ảnh hưởng rất lớn đến thuật tốn AUC4.5.
Mushroom: Thuộc tính rời rạc = 22, tỉ lệ lớp thiểu số = 7.60%.
Bảng 4-12: Bảng kết quả 10 lần test trên tập dữ liệu Mushroom Lần Lần
test
TPR FPR AUC Phương sai Độ lệch
chuẩn
1 1.000 0.000 1.000
THỰC NGHIỆM VÀ ĐÁNH GIÁ 4 1.000 0.000 1.000 5 1.000 0.000 1.000 6 1.000 0.000 1.000 7 1.000 0.000 1.000 8 1.000 0.000 1.000 9 1.000 0.000 1.000 10 1.000 0.000 1.000
TPRmean=1.000 FPRmean=0.000 AUCmean=1.000 0.00000 0.00000
Nguồn từ: nghiên cứu của tác giả
Bảng 4-13: Kết quả tập dữ liệu Mushroom
Classifier TPR FPR AUC
SC4.5 1.000 0.000 1.000
CSC4.5 1.000 0.000 1.000
AUC4.5 TPRmean= 1.000 FPRmean= 0.000 AUCmean = 1.000
Cả 3 Thuật tốn AUC4.5, thuật tốn chuẩn SC4.5 và thuật tốn CSC4.5 đều cho kết quả phân lớp chính xác 100% ở lớp đa số và lớp thiểu số. Lại một nữa khẳng định, tập dữ liệu với thuộc tính cĩ giá trị kiểu rời rạc, cho kết quả phân lớp tốt hơn thuộc tính cĩ giá trị kiểu liên tục.
Wine Quality – White: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 17.97%.
Bảng 4-14: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – White Lần Lần
test TPR FPR AUC Phương sai Độ lệch
chuẩn 1 0.546 0.265 0.640 2 0.409 0.180 0.614 3 0.639 0.313 0.663 4 0.742 0.373 0.685 5 0.698 0.468 0.615 6 0.595 0.263 0.666 7 0.467 0.199 0.634 8 0.818 0.576 0.621 9 0.632 0.379 0.627 10 0.557 0.348 0.605
TPRmean=0.610 FPRmean=0.335 AUCmean=0.637 0.00069 0.02631
Nguồn từ: nghiên cứu của tác giả
Bảng 4-15: Kết quả tập dữ liệu Wine Quality – White
Classifier TPR FPR AUC
SC4.5 0.478 0.107 0.686
CSC4.5 0.577 0.158 0.709
AUC4.5 TPRmean= 0.610 FPRmean= 0.335 AUCmean= 0.637
Thuật tốn AUC4.5 cho kết quả AUCmean = 0.637 thấp hơn chút đỉnh so với thuật tốn SC4.5 và CSC4.5. Nhưng với giá trị TPRmean = 0.610 cao hơn nĩi lên thuật tốn AUC4.5 đã phân lớp chính xác hơn trên lớp thiểu số so với thuật tốn SC4.5 và CSC4.5, mặc dù kết quả khơng cao. Ngồi ra, tập Wine Quality – White giá trị của thuộc tính thuộc loại liên tục. Ảnh hưởng lớn đến quá trình phân lớp. Kết quả kiểm tra cĩ độ lệch chuẩn = 0.02631.
Contraceptive Method Choice: Thuộc tính liên tục=9, tỉ lệ lớp thiểu số=22.61%.
Bảng 4-16: Bảng kết quả 10 lần test trên tập dữ liệu Contraceptive Method Choice Lần Lần
test TPR FPR AUC Phương sai Độ lệch
chuẩn 1 0.714 0.432 0.641 2 0.738 0.472 0.633 3 0.529 0.370 0.579 4 0.667 0.413 0.627 5 0.734 0.530 0.602 6 0.604 0.386 0.609 7 0.642 0.414 0.614 8 0.600 0.351 0.624 9 0.718 0.448 0.635 10 0.664 0.482 0.591
TPRmean=0.661 FPRmean=0.430 AUCmean=0.616 0.00041 0.02028
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Bảng 4-17: Kết quả tập dữ liệu Contraceptive Method Choice
Classifier TPR FPR AUC
SC4.5 0.225 0.076 0.574
CSC4.5 0.333 0.092 0.621
AUC4.5 TPRmean= 0.661 FPRmean= 0.430 AUCmean= 0.616
Thuật tốn AUC4.5 cho kết quả AUCmean = 0.616 thấp hơn chút đỉnh so với thuật tốn SC4.5 và CSC4.5. Nhưng với giá trị TPRmean = 0.661 cao hơn rất nhiều nĩi lên thuật tốn AUC4.5 đã phân lớp chính xác hơn trên lớp thiểu số so với thuật tốn SC4.5 và CSC4.5, mặc dù kết quả khơng cao.
Ngồi ra, tập Contraceptive Method Choice giá trị của thuộc tính thuộc loại liên tục. Ảnh hưởng lớn đến quá trình phân lớp. Kết quả kiểm tra cĩ độ lệch chuẩn = 0.02028.
Tic-Tac-Toe Endgame: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 34.62%.
Bảng 4-18: Bảng kết quả 10 lần test trên tập dữ liệu Tic-Tac-Toe Endgame Lần Lần
test TPR FPR AUC Phương sai Độ lệch chuẩn
1 0.745 0.105 0.820 2 0.807 0.104 0.851 3 0.708 0.070 0.819 4 0.779 0.098 0.840 5 0.748 0.101 0.823 6 0.776 0.105 0.835 7 0.794 0.112 0.841 8 0.753 0.097 0.828 9 0.785 0.126 0.829 10 0.764 0.151 0.807
TPRmean=0.766 FPRmean=0.107 AUCmean=0.829 0.00017 0.01285
Nguồn từ: nghiên cứu của tác giả
Bảng 4-19: Kết quả tập dữ liệu Tic-Tac-Toe Endgame
SC4.5 0.631 0.062 0.784
CSC4.5 0.640 0.062 0.789
AUC4.5 TPRmean= 0.766 FPRmean= 0.107 AUCmean= 0.829
Thuật tốn AUC4.5 cho kết quả phân loại tốt hơn trong cả 3 chỉ số TPR, FPR và AUC trên tập dữ liệu mất cân đối. Lại một nữa khẳng định, tập dữ liệu với thuộc tính cĩ giá trị kiểu rời rạc, cho kết quả phân lớp tốt hơn thuộc tính cĩ giá trị kiểu liên tục. Độ lệch chuẩn = 0.01285 khá nhỏ.
4.5 Đánh giá kết quả thực nghiệm
Qua kết quả thực nghiệm, phân tích trên tám tập dữ liệu đã được kiểm tra trên tập DTest 10 lần và lấy kết quả trung bình cho các chỉ số TPRmean, FPRmean và AUCmean (bảng V) và chỉ số phương sai – độ lệch chuẩn (bảng IV) cĩ những nhận xét sau:
+ Tỉ lệ mất cân đối giữa các lớp khơng ảnh hưởng lớn đến kết quả phân lớp của thuật tốn đề xuất AUC4.5.
+ Đối với tập dữ liệu với thuộc tính cĩ giá trị rời rạc:
- Cho kết quả phân lớp tốt ở lớp thiểu số trên tập dữ liệu mất cân đối.
- Trong đĩ, tất cả các tập dữ liệu đều cho kết quả phân loại tốt, vượt trội so với hai thuật tốn SC4.5 và CSC4.5. Đặc biệt tập dữ liệu Car Evaluation và Mushroom cĩ kết quả
phân lớp chính xác 100%.
- Độ lệch chuẩn của hai tập Car Evaluation và Mushroom bằng khơng (=0). Cịn độ lệch của hai tập Nursery và Tac-Tic-Toe Endgame khơng lớn, chứng tỏ tính ổn định thuật
tốn cũng như dữ liệu thuộc nhĩm cĩ giá trị kiểu rời rạc. + Đối với tập dữ liệu với thuộc tính cĩ giá trị liên tục:
- Chỉ cĩ tập dữ liệu Ecoli cĩ kết quả phân loại cao hơn so với hai thuật tốn SC4.5 và
CSC4.5. Tuy nhiên độ lệch chuẩn của tập Ecoli khá cao, chỉ đứng sau tập Wine Quality
THỰC NGHIỆM VÀ ĐÁNH GIÁ
- Ba tập dữ liệu cịn lại Wine Quality – Red, Wine Quality – White và Contraceptive
Method Choice thì chỉ số TPRmean cao hơn so với thuật tốn SC4.5 và CSC4.5. Nếu bỏ qua chỉ số FPRmean (phân loại lớp đa số nhầm vào lớp thiểu số) để đạt kết quả AUCmean
cao thì thuật tốn AUC4.5 đã đạt được mục đích là nâng cao độ chính xác phân lớp của lớp thiểu số trong tập dữ liệu mất cân đối.
- Độ lệch chuẩn của tất cả bốn tập dữ liệu loại liên tục đứng cao nhất trong tám tập dữ liệu. theo thứ tự 0.02028, 0.02631, 0.03022 và 0.09520. Cho thấy sự ổn định, sự phân bố dữ liệu trong tập dữ liệu liên tục là vấn đề cần xem xét.
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong luận văn này, thuật tốn AUC4.5 được cải tiến từ thuật C4.5 dùng giá trị AUC thay cho Gain-entropy trong tiêu chí tách và cắt tỉa cây nhằm nâng cao hiệu quả phân lớp dữ liệu mất cân đối, cụ thể trên lớp thiểu số, thích hợp cho phân lớp mất cân đối nhị phân. Các kết quả thực nghiệm đánh giá trên tám tập dữ liệu mất cân đối thực từ kho học máy UCI [28] đã chỉ ra rằng thuật tốn cải tiến AUC4.5 cho hiệu quả phân lớp tốt hơn thuật tốn SC4.5 và SCS4.5. Điều này khẳng định tầm quan trọng khi dùng trực tiếp giá trị AUC vào việc huấn luyện trong tập dữ liệu cĩ ảnh hưởng tới quá trình phân lớp. Đặc biệt, phương pháp cải tiến khơng hy sinh giá trị FPR nhằm gia tăng giá trị TPR để đạt giá trị AUC cao nhất.
Phương pháp đề xuất khơng cần cài đặt các chi phí khác nhau như chi phí phân loại sai như trong phương pháp học với chi phí nhạy cảm, cho nên thời gian huấn luyện ít hơn nhưng hiệu quả phân lớp tốt hơn.
Phương pháp cải thiện được tỷ lệ phân loại chính xác trên lớp thiểu số trong tập dữ liệu mất cân đối. Tuy nhiên dữ liệu cĩ giá trị kiểu liên tục cũng là vấn đề cần quan tâm và xử lý trước khi đưa vào phân loại khi áp dụng trên thuật tốn AUC4.5.
Với những kết quả đạt được của thuật tốn. Nếu áp dụng hệ thống vào ứng dụng chẩn đốn y học sẽ nâng cao hiệu quả chẩn đốn, nếu áp dụng vào lĩnh vực phát hiện xâm nhập, tấn cơng sẽ năng cao hiệu quả giám sát hệ thống. Tuy nhiên, hiện nay, chưa cĩ một phương pháp nào tối ưu hơn hẳn cho tất cả các tập dữ liệu thực tế và trong ngành khai thác dữ liệu thì đều chấp nhận điều này. Trên cơ sở nghiên cứu và các kết quả đạt được, chúng tơi nhận thấy cĩ nhiều vấn đề cần được tiếp tục nghiên cứu và phát triển để đĩng gĩp vào lĩnh vực phân lớp dữ liệu mất cân đối nĩi riêng và lĩnh vực khai thác dữ liệu nĩi chung.
TÀI LIỆU THAM KHẢO
[1] J. R. Quinlan, “Induction of Decision Trees,” Mach. Learn., vol. 1, no. 1, pp. 81–106,
1986.
[2] J. Han, M. Kamber, and J. Pei, Data mining : Concepts and Techniques. Elsevier/Morgan Kaufmann, 2012.
[3] I. H. Witten, E. Frank, and M. a. Hall, Data Mining: Practical Machine Learning Tools
and Techniques, Third Edition, vol. 54, no. 2. 2011.
[4] V. Ganganwar, “An overview of classification algorithms for imbalanced datasets,” Int.
J. Emerg. Technol. Adv. Eng., vol. 2, no. 4, pp. 42–47, 2012.
[5] Y. Yang and G. Ma, “Ensemble-based active learning for class imbalance problem,” J.
Biomed. Sci. Eng., vol. 03, no. 10, pp. 1022–1029, Oct. 2010.
[6] B. Zadrozny, J. Langford, and N. Abe, “Cost-sensitive learning by cost-proportionate example weighting,” in Third IEEE Int. Conf. on Data Mining, 2003, pp. 435–442. [7] Y. Tang, S. Krasser, D. Alperovitch, and P. Judge, “Spam Sender Detection with
Classification Modeling on Highly Imbalanced Mail Server Behavior Data,” in Proc. of