Có bốn tiêu chí được sử dụng để đánh giá kết quả của các mô hình trong luận văn. Các tiêu chí đó lần lượt là: accuracŷ, recall, precision, F1. Những tiêu chí này được tính toán dựa trên bốn chỉ số kết quả của bài toán phân loại nhị phân đó là: true positive, false positive, true negative, false negative. Trong bài toán xác định tin xấu, ta coi kết quả tin xấu là dương tính và tin bình thường là âm tính. tp là trường hợp kết quả dự đoán là dương tính cho mẫu có nhãn dương tính. fp là khi kết quả dự đoán là dương tính cho mẫu có nhãn âm tính. tn là trường hợp dự đoán đúng cho mẫu có nhãn âm tính. fn là trường hợp dự đoán sai cho mẫu có nhãn âm tính.
Bảng 3.1: Bảng chân lý cho các trường hợp kết quả dự đoán
Tin xấu
(nhãn) Tin bình thường (nhãn) Tin xấu (dự đoán) True positive False positive
Tin bình thường (dự đoán) False negative True negative
Tiêu chí accuracy có công thức như sau:
ACC=tp+tn N
Tiêu chí recall là tỷ lệ dự đoán đúng trên tổng số các mẫu dương tính. Recall
có ý nghĩa thể hiện độ bao phủ của kết quả dự đoán. Recall càng cao thì càng nhiều tin xấu được xác định. Recall có công thức như sau:
Recall= tp tp+fn
Tuy nhiên có những tình huống khi mà mô hình dự đoán sai rất nhiều nhưng
recall có giá trị cao. Đó là khi fn nhỏ nhưng fp lại rất lớn. Bởi vì fp không ảnh hưởng đến recall nên ngay cả khi hầu hết các dự đoán dương tính đều là dự đoán sai thì recall vẫn có thể có giá trị gần với 100%. Chính vì vậy, recall thường được đi kèm với precision để đánh giá mô hình một cách toàn vẹn hơn. Tiêu chí precision
là tỷ lệ dự đoán đúng trên toàn bộ các dự đoán dương tính. Tiêu chí này có ý nghĩa thể hiện độ tin cậy của kết quả dự đoán. Precision có công thức như sau:
Precision=tp
tp+fp
Trong trường hợp ví dụ trên, khi recall đạt 100% bởi vì fn = 0 và fp lớn, khi đó precision sẽ có giá trị rất nhỏ, gần bằng 0.
Tiêu chí F1 thường được sử dụng như là một sự cân bằng giữa hai tiêu chí recall
và precision. Với một mô hình dự đoán không hoàn hảo, khi một trong hai tiêu chí
recall hoặc precision đạt mức rất cao (100%) thì tiêu chí kia sẽ có giá trị thấp. Một báo cáo kết quả thí nghiệm chỉ sử dụng một trong hai tiêu chí sẽ dẫn đến kết quả không khách quan. Tiêu chí F1 được tổng hợp từ recall và precision sẽ giúp loại bỏ những tình huống như vậy. Công thức của điểm số F1 như sau:
F1=2×recall ×precision recall+precision
Ngoài tiêu chí F1, một tiêu chí tổng quan hơn cũng thường được sử dụng đó là điểm số Fβ. Tiêu chí Fβ cho phép đặt trọng số khác nhau cho các sai số loại fp và fn, để dùng cho các bài toán mà sai số fp và fn có chi phí khác nhau. Tham số β được dùng để xác địch tỷ lệ chi phí giữa hai loại sai số. Tiêu chí F1 chính là một trường hợp của tiêu chí Fβ với β = 1. Công thức của Fβ như sau:
Fβ= (1+β2)× tp
(1+β2)×tp+β2×fn+fp
Trong công thức trên, fn được coi là có chi phí cao gấp β lần so với fp.