Qua kết quả phân lớp trên để xây dựng mơ hình phân tích dữ liệu bệnh ung thư vú trên nền tảng máy học của cơng cụ Weka bằng thuật tốn Nạve Bayes, thuật tốn K-Nerrest neighbor, thuật tốn Support Vector Machines, thuật tốn Decision tree (J48) để tận dụng các hiệu quả tối ưu khi chạy các giải thuật phân lớp trên nền tảng này. Kết quả thực hiện cho thấy khi sử dụng cơng cụ Weka để phân tích dữ liệu bệnh ung thư vú đạt hiệu suất cao và cĩ kết quả tốt trên tập dữ liệu bệnh ung thư vú. Em tin tưởng rằng nếu với số lượng mẫu càng lớn và dữ liệu lớn thì mơ hình phân tích sẽ tối ưu hơn về mặt thời gian xử lý giải thuật. Trong tương lai em sẽ nghiên xây dựng các cơng cụ weka để giả lập dữ liệu với số lượng dữ liệu lớn để đánh giá về mặt hiệu suất và thời gian xử lý và tiếp tục nghiên cứu song song hĩa các giải thuật trên để thực nghiệm trên cluster.
Hiệu quả
Trong phần này, em đánh giá hiệu quả của tất cả các bộ phân loại về thời gian xây dựng mơ hình, một cách chính xác các trường hợp được phân loại, các trường hợp
Khơng chính xác 10 5 6 6
Sự chính xác 92.8571 96.4286 95.7143 95.7143
Hình 3.22 :Biểu đồ so sánh của các bộ phân loại khác nhau
Để đo lường tốt hơn hiệu suất của bộ phân loại, lỗi mơ phỏng cũng được xem xét trong nghiên cứu này. Làm như vậy, em đánh giá hiệu quả của trình phân loại của em về:
● Thống kê Kappa (KS) như một thước đo được điều chỉnh ngẫu nhiên về sự thống nhất giữa các phân loại và sự thật các lớp học,
● Sai số tuyệt đối trung bình (MAE) là mức độ gần của dự báo hoặc dự đốn với kết quả cuối cùng,
● Lỗi bình phương trung bình gốc (RMSE) ● Lỗi tuyệt đối tương đối (RAE)
● Lỗi bình phương tương đối gốc (RRSE).
KS, MAE và RMSE ở dạng số. RAE và RRSE tính theo phần trăm. Kết quả được thể hiện trong Bảng 3.39 và Hình 3.23.
Bảng 3.39 : Huấn luyện và lỗi mơ phỏng.
Tiêu chí đánh giá Bộ phân loại
J48 SVM NB K-NN KS 0.8485 0.9226 0.9075 0.9067 MAE 0.092 0.0357 0.0434 0.0445 RMSE 0.2429 0.189 0.2067 0.2067 RAE% 20.2164 7.8505 9.5354 9.7789 RRSE (%) 50.6609 39.4215 43.1196 43.1068
Hình 3.23: Sơ đồ so sánh các thuật tốn học máy liên quan đến các tiêu chí đánh giá: KS, MAE, RMSE, RAE và RRSE.
Khi mơ hình dự đốn được xây dựng, em cĩ thể kiểm tra mức độ hiệu quả của nĩ. Đối với điều đĩ, em so sánh các thước đo độ chính xác dựa trên các giá trị độ chính xác, thu hồi, tỷ lệ TP và tỷ lệ FP cho J48, SVM, NB và k-NN như được thể hiện trong Bảng 3.40.
Bảng 3.40: So sánh các phép đo độ chính xác cho J48, SVM, NB và k-NN.
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Ảea Class J48 0.911 0.04 0.976 0.911 0.943 0.852 0.955 0.962 2 0.96 0.089 0.857 0.96 0.906 0.852 0.955 0.893 4 SVM 0.967 0.04 0.978 0.967 0.972 0.923 0.963 0.966 2 0.96 0.033 0.941 0.96 0.975 0.923 0.963 0.918 4 NB 0.956 0.04 0.977 0.956 0.966 0.908 0.944 0.997 2 0.96 0.044 0.923 0.96 0.941 0.908 0.99 0.971 4 K-NN 0.967 0.06 0.967 0.967 0.94 0.907 0.953 0.956 2 0.94 0.033 0.94 0.94 0.94 0.907 0.953 0.905 4
Bảng 3.41 : Ma trận nhầm lẫn của 4 thuật tốn
Benign Malignant class
J48 82 8 Benign 2 48 Malignant SVM 87 3 Benign 2 48 Malignant NB 86 4 Benign 2 48 Malignant K-NN 87 3 Benign 3 47 Malignant Hình 3.24 : Biểu đồ so sánh Ma trận nhầm lẫn