3.3 Phân tích, đánh giá kết quả thực nghiệm
3.3.4 Thực hiện phân lớp bằng thuật tốn Support Vector Machines
Tham số C, được gọi là tham số độ phức tạp trong Weka kiểm sốt mức độ linh hoạt của quy trình vẽ đường phân tách các lớp cĩ thể. Giá trị 0 cho phép khơng vi phạm ký quỹ, trong khi mặc định là 1.
Một tham số chính trong SVM là loại Kernel sẽ sử dụng. Hạt nhân đơn giản nhất là hạt nhân tuyến tính phân tách dữ liệu bằng một đường thẳng hoặc siêu phẳng. Mặc định trong Weka là một hạt nhân đa thức sẽ phân tích các lớp bằng cách sử dụng một đường cong hoặc uốn lượn, đa thức càng cao, càng lung lay (giá trị số mũ).
Một hạt nhân phổ biến và mạnh mẽ là kernel RBF hoặc Radial Basis Function kernel cĩ khả năng học các đa giác khép kín và các hình dạng phức tạp để phân tách các lớp.
Đĩ là một ý tưởng tốt để thử một bộ các giá trị hạt nhân và C (Độ phức tạp) khác nhau về vấn đề của bạn và xem cái gì hoạt động tốt nhất.
Kịch bản 1: Thực hiện huấn luyện trong chế độ phân lớp Percentage split đề xác
định tỉ lệ phân chia, trong thực nghiệm này em xác định tỉ lệ 80%, cĩ nghĩa là chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test). Đề đạt hiệu quả phân lớp như sau:
Bảng 3.20: Độ chính xác của thuật tốn SVM (kịch bản 1) SVM
phân loại chính xác 135 (96.4286 %) phân loại khơng chính xác 5 (3.5714 %) ● Đánh giá về phần tách thử nghiệm cho SVM
Bảng 3.21: Tĩm tắt cho SVM (kịch bản 1)
SVM
Thống kê Kappa 0.9226
Sai số trung bình tuyệt đối 0.0357 Lỗi bình phương trung bình gốc 0.189 Sai số tuyệt đối tương đối 7.8505 %
SVM 0.967 0.040 0.978 0.967 0.972 0.923 0.963 0.966 tính 0.960 0.33 0.941 0.960 0.950 0.923 0.963 0.918 Ác tính Weighted Avg 0.964 0.038 0.965 0.964 0.964 0.923 0.963 0.949 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.23: Ma trận nhầm lẫn của (kịch bản 1) SVM Phân loại Lành tính Ác tính Phiên họp1 87 3 Phiên họp2 2 48
Kịch bản 2: Thực nghiệm huấn luyện trong chế độ phân Cross-validation. Tập
dữ liệu sẽ được chia đều k tập (folds) cĩ kích thước xấp xỉ nhau và bộ phân loại học được sẽ được đánh giá bởi phương pháp Cross-validation. Trong thực nghiệm này em xác định chọn fold = 10, để đạt hiệu quả phân lớp như sau:
Bảng 3.24: Độ chính xác của thuật tốn SVM (kịch bản 2) SVM
phân loại chính xác 676 ( 96.7096 %)
phân loại khơng chính xác 23 ( 3.2904 %)
● Đánh giá về phần tách thử nghiệm cho SVM
Bảng 3.25: Tĩm tắt cho SVM (kịch bản 2)
SVM
Thống kê Kappa 0.9274
Sai số trung bình tuyệt đối 0.0329
Lỗi bình phương trung bình gốc 0.1814
Sai số tuyệt đối tương đối 7.2803 %
Lỗi bình phương tương đối gốc 38,1642 %
● Độ chính xác chi tiết theo lớp cho SVM
Bảng 3.26: Các thước đo độ chính xác của thuật tốn SVM (kịch bản 2)
TP FP Precision Recall F-Measure MCC ROC PRC Class
SVM 0.972 0.041 0.978 0.972 0.975 0.927 0.965 0.969 Lành tính 0.959 0.028 0.947 0.959 0.953 0.927 0.965 0.922 Ác tính Weighted Avg 0.967 0.037 0.967 0.967 0.967 0.927 0.965 0.953 Ma trận nhầm lẫn (Confusion matrix) Bảng 3.27: Ma trận nhầm lẫn của (kịch bản 2) Phân loại Lành tính Ác tính SVM Phiên họp1 445 13 Phiên họp2 10 231