Trong mục này luận văn trình bày một số kết quả chính khi chạy trên Weka. Do giới hạn về số trang của luận văn nên không thể nêu chi tiết các thao tác.
(1) Kết quả phân lớp trước khi xử lý dữ liệu mất cân bằng theo kịch bản 1
Kết quả phân lớp trước khi xử lý dữ liệu mất cân bằng sử dụng thuật toán SVM được trình bày trong bảng 3.2
Bảng 3.3 Kết quả phân lớp trước khi xử lý dữ liệu mất cân bằng sử dụng thuật toán SVM
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.866 0.448 0.783 0.866 0.822 0.709 0 0.552 0.134 0.688 0.552 0.613 0.709 1 0.757 0.338 0.75 0.757 0.749 0.709 Avg. === Confusion Matrix === a b <-- classified as 433 67 | a = 0 120 148 | b = 1
(2) Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng theo kịch bản 2
Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán DEC-SVM được trình bày trong bảng 3.3
Bảng 3.4 Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán DEC-SVM
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.757 0.213 0.775 0.757 0.766 0.772 0 0.787 0.243 0.77 0.787 0.778 0.772 1 0.772 0.228 0.772 0.772 0.772 0.772 Avg. === Confusion Matrix === a b <-- classified as 355 114 | a = 0 103 381 | b = 1
Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán HMU được trình bày trong bảng 3.4
Bảng 3.5 Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán HMU
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.741 0.187 0.8 0.741 0.769 0.777 0 0.813 0.259 0.757 0.813 0.784 0.777 1 0.777 0.223 0.779 0.777 0.777 0.777 Avg. === Confusion Matrix === a b <-- classified as 200 70 | a = 0 50 218 | b = 1
Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán HBU được trình bày trong bảng 3.5
Bảng 3.6 Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán HBU
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.866 0.146 0.856 0.866 0.861 0.86 0 0.854 0.134 0.864 0.854 0.859 0.86 1 0.86 0.14 0.86 0.86 0.86 0.86 Avg. === Confusion Matrix === a b <-- classified as 232 36 | a = 0 39 229 | b = 1
Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán RBU được trình bày trong bảng 3.6
Bảng 3.7 Kết quả phân lớp sau khi xử lý dữ liệu mất cân bằng với thuật toán RBU
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.906 0.302 0.827 0.906 0.865 0.802 0 0.698 0.094 0.824 0.698 0.756 0.802 1 0.826 0.222 0.825 0.826 0.822 0.802 Avg. === Confusion Matrix === a b <-- classified as 386 40 | a = 0 81 187 | b = 1
Kết quả phân lớp trước và sau khi xử lý dữ liệu mất cân bằng với các thuật toán DEC-SVM, HBU, HMU, RBU được tổng hợp theo bảng 3.7
Bảng 3.8 Bảng tổng hợp kết quả phân lớp trước và sau khi xử lý dữ liệu mất cân bằng
Thuật toán accuracy (%)
Negative Positive
Pre Rec F1 Pre Rec F1
ORIGINAL 75.65 78.3 86.6 82.2 68.8 55.2 61.3 DEC-SVM 77.23 77.5 75.7 76.6 77.0 78.7 77.8 HBU-SVM 86.01 85.6 86.6 86.1 86.4 85.4 85.9 HMU-SVM 77.70 80 74.1 76.9 75.7 81.3 78.4 RBU 82.56 82.7 90.6 86.5 82.4 69.8 75.6