3.3 Phân tích, đánh giá kết quả thực nghiệm
3.3.5 Thực hiện phân lớp bằng thuật tốn Decision tree (J48)
Kịch bản 1: Thực hiện huấn luyện trong chế độ phân lớp Percentage split đề xác
định tỉ lệ phân chia, trong thực nghiệm này em xác định tỉ lệ 80%, cĩ nghĩa là chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test). Đề đạt hiệu quả phân lớp như sau:
Bảng 3.28: Độ chính xác của thuật tốn J48 (kịch bản 1) J48
phân loại chính xác 130 (92.8571 %) phân loại khơng chính xác 10 (7.1429 %) ● Đánh giá về phần tách thử nghiệm cho J48
Bảng 3.29: Tĩm tắt cho J48 (kịch bản 1)
J48
Thống kê Kappa 0.8485
Sai số trung bình tuyệt đối 0.092 Lỗi bình phương trung bình gốc 0.2429 Sai số tuyệt đối tương đối 20.2164 % Lỗi bình phương tương đối gốc 50.6609 %
Tổng số phiên bản 140
Độ chính xác chi tiết theo lớp cho J48
● Ma trận nhầm lẫn (Confusion matrix)
Bảng 3.31: Ma trận nhầm lẫn của (kịch bản 1)
Phân loại Lành tính Ác tính
J48 Phiên họp1 82 8
Phiên họp2 2 48
Kịch bản 2: Thực nghiệm huấn luyện trong chế độ phân Cross-validation. Tập
dữ liệu sẽ được chia đều k tập (folds) cĩ kích thước xấp xỉ nhau và bộ phân loại học được sẽ được đánh giá bởi phương pháp Cross-validation. Trong thực nghiệm này em xác định chọn fold = 10, để đạt hiệu quả phân lớp như sau:
Bảng 3.32: Độ chính xác của thuật tốn J48 (kịch bản 2)
J48 phân loại chính xác 661 ( 94.5637 % ) phân loại khơng chính xác 38 ( 5.4363 % )
● Đánh giá về phần tách thử nghiệm cho J48
Bảng 3.33: Tĩm tắt cho J48 (kịch bản 2)
J48
Thống kê Kappa 0.8799
Sai số trung bình tuyệt đối 0.0691 Lỗi bình phương trung bình gốc 0.2228 Sai số tuyệt đối tương đối 15.2992 % Lỗi bình phương tương đối gốc 46.8739 %
● Độ chính xác chi tiết theo lớp cho J48
Bảng 3.34: Các thước đo độ chính xác của thuật tốn J48 (kịch bản 2)
J48 TP FP Precision Recall F- Measure MCC ROC PRC Class 0.956 0.075 0.961 0.956 0.958 0.880 0.955 0.955 Lành tính 0.925 0.044 0.918 0.925 0.921 0.880 0.955 0.903 Ác tính Weighted Avg 0.946 0.064 0.946 0.946 0.946 0.880 0.955 0.937 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.35: Ma trận nhầm lẫn của (kịch bản 2) Phân loại Lành tính Ác tính J48 Phiên họp1 438 20 Phiên họp2 18 223
Riêng thuật tốn J48, em cĩ thể sử dụng chức năng Visualize tree để xem hình ảnh cây quyết định.
Hình 3.21 : Cây quyết định Visualization