Khi xây dựng một mô hình Học máy, chúng ta cần một phép đánh giá để xem mô hình sử dụng có hiệu quả không và để so sánh khả năng của các mô hình. Trong nghiên cứu này, tôi sử dụng ma trận nhầm lẫn (confusion matrix) và
độ chính xác (accuracy) để đánh giá mô hình
Ma trận nhầm lẫn (confusion matrix)
Bảng dưới đây mô tả một ma trận nhầm lẫn của mô hình phân loại cơ bản gồm 2 phân lớp Có, Không. Bảng 2-3. Ma trận nhầm lẫn cơ bản Giá trị dự đoán Có Không Giá trị thực tế Có a b Không c d
Quan sát confusion matrix, ta có các thông tin sau:
a: TP (true positive) – mẫu mang nhãn Có được phân lớp đúng vào lớp Có. b: FN (false negative) – mẫu mang nhãn Có bị phân lớp sai vào lớp Không.
c: FP (false positive) – mẫu mang nhãn Không bị phân lớp sai vào lớp Có. d: TN (true negative) – mẫu mang nhãn Không được phân lớp đúng vào lớp Không.
Độ chính xác (accuracy) của mô hình trên được tính như sau:
A (Accuracy) = 𝑎 + 𝑑
𝑎 + 𝑏 + 𝑐 + 𝑑
Hệ số R bình phương: Đối với mô hình hồi quy, chúng tôi sử dụng hệ số R bình phương để đánh giá chất lượng dự đoán của mô hình. Công thức tính hệ số R bình phương:
𝑅2 = 1 − 𝐸𝑆𝑆 𝑇𝑆𝑆
Trong đó:
ESS (Residual Sum of Squares) là tổng các độ lệch bình phương của phần dư (phần biến thiên không do hồi quy).
TSS (Total Sum of Squares) là tổng độ lệch bình phương của toàn bộ các dữ liệu nghiên cứu.
Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy.
CHƯƠNG 3. KẾT QUẢ VÀ BÀN LUẬN