3.3 Phân tích, đánh giá kết quả thực nghiệm
3.3.3 Thực hiện phân lớp bằng thuật tốn K-Nerrest neighbor
Thuật tốn hỗ trợ cả phân lớp và hồi quy. Nĩ cũng được gọi là KNN cho ngắn gọn. Nĩ hoạt động bằng cách lưu trữ tồn bộ tập dữ liệu huấn luyện và truy vấn nĩ để xác định vị trí của các mẫu đào tạo tương tự nhất khi đưa ra dự đốn. Như vậy, khơng
cĩ mơ hình nào ngồi tập dữ liệu huấn luyện thơ và phép tính duy nhất được thực hiện là truy vấn bộ dữ liệu huấn luyện khi yêu cầu dự đốn.
Theo Cấu hình Weka cho thuật tốn k-NN em được xác định giá trị tham số K (số K là số láng giềng gần nhất ) K = 1 và dùng khoảng cách Euclidean để tính khoảng cách giữa các trường hợp, điều này tốt cho dữ liệu số cĩ cùng tỷ lệ. khoảng cách Manhattan là tốt để sử dụng nếu thuộc tính khác nhau về các biện pháp hoặc loại.
Kịch bản 1: Thực hiện huấn luyện trong chế độ phân lớp Percentage split đề xác
định tỉ lệ phân chia, trong thực nghiệm này em xác định tỉ lệ 80%, cĩ nghĩa là chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test). Đề đạt hiệu quả phân lớp như sau:
Bảng 3.12: Độ chính xác của thuật tốn k-NN (kịch bản 1) K-NN phân loại chính xác 134 (95.7143 %)
phân loại khơng chính xác 6 (4.2857 %) ● Đánh giá về phần tách thử nghiệm cho k-NN
Bảng 3.13: Tĩm tắt cho k-NN (kịch bản 1)
K-NN
Thống kê Kappa 0.9067
Sai số trung bình tuyệt đối 0.0445 Lỗi bình phương trung bình gốc 0.2067 Sai số tuyệt đối tương đối 9.7789 % Lỗi bình phương tương đối gốc 43.1086 %
Tổng số phiên bản 140
● Độ chính xác chi tiết theo lớp cho k-NN
Bảng 3.14: Các thước đo độ chính xác của thuật tốn k-NN (kịch bản 1)
TP FP Precision Recall F-Measure MCC ROC PRC Class
k-NN 0.967 0.060 0.967 0.967 0.967 0.907 0.953 0.956 Lành tính 0.940 0.033 0.940 0.940 0.940 0.907 0.953 0.95 Ác tính Weighted Avg 0.957 0.050 0.957 0.957 0.957 0.907 0.953 0.938
dữ liệu sẽ được chia đều k tập (folds) cĩ kích thước xấp xỉ nhau và bộ phân loại học được sẽ được đánh giá bởi phương pháp Cross-validation. Trong thực nghiệm này em xác định chọn fold = 10, để đạt hiệu quả phân lớp như sau:
Bảng 3.16: Độ chính xác của thuật tốn k-NN (kịch bản 2) K-NN
phân loại chính xác 665 (95.1359 %) phân loại khơng chính xác 34 (4.8641 %) ● Đánh giá về phần tách thử nghiệm cho k-NN
Bảng 3.17: Tĩm tắt cho k-NN (kịch bản 2)
K-NN
Thống kê Kappa 0.8919
Sai số trung bình tuyệt đối 0.0501
Lỗi bình phương trung bình gốc 0.2202
Sai số tuyệt đối tương đối 11.077 %
Lỗi bình phương tương đối gốc 46.3291 %
Tổng số phiên bản 699
● Độ chính xác chi tiết theo lớp cho k-NN
Bảng 3.18: Các thước đo độ chính xác của thuật tốn k-NN (kịch bản 2)
TP FP Precision Recall F-Measure MCC ROC PRC Class
k-NN 0.967 0.079 0.959 0.967 0.963 0.892 0.945 0.952 Lành tính 0.921 0.03 0.937 0.921 0.929 0.892 0.945 0.888 Ác tính Weighted Avg 0.921 0.03 0.951 0.951 0.951 0.892 0.945 0.930
● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.19: Ma trận nhầm lẫn của (kịch bản 2) K-NN Phân loại Lành tính Ác tính Phiên họp1 433 15 Phiên họp2 19 22