Phương pháp đánh giá mô hình của bài toán nhận biết ngôn ngữ tự động dựa vào học sâu được đo bằng việc tính toán chính xác việc phân lớp dựa vào một tập kiểm thử cụ thể. Một số định nghĩa như sau:
Accuracy (ACC): Độ đo chính xác trung bình tổng quát của các nhãn, là tỷ lệ giữa kết quả dự đoán đúng trong tống số mẫu dữ liệu thực tế.
Accuracy = TP+TN
TP+TN+FP+FN = Số lượng mẫu dự đoán đúng Tổng số mẫu
Trong đó:
- True Positive (TP): tổng số lượng tích cực dự đoán ĐÚNG với số số lượng tích cực thực tế
- True Negative (TN): tổng số lượng tiêu cực dự đoán ĐÚNG với số lượng tiêu cực thực tế;
- False Positive (FP): tổng số lượng tích cực dự đoán SAI với số lượng tích cực thực tế;
- False Negative (FN): tổng số lượng tiêu cực dự đoán SAI với số lượng tiêu cực thực tế.
Precision (Độ chính xác): được định nghĩa là số lượng dự đoán được thực
hiện chính xác hoặc có liên quan trong số tất cả các dự đoán dựa trên lớp tích cực, là tỉ lệ số mẫu tích cực phân loại đúng trong số những mẫu được phân loại là đúng
Precision = TP
TP + FP = Số lượng tích cực phân loại đúng Tổng số phân loại đúng
Recall (Độ bao phủ): chỉ số thể hiện trong tất cả các trường hợp Positive,
bao nhiêu trường hợp đã được dự đoán chính xác, là tỉ lệ số mẫu tích cực đúng trong số những điểm thực sự là positive
Recall = TP
TP + FN = Số lượng tích cực phân loại đúng Tổng số phân loại trong thực tế)
F1_score: Độ đo F1 là giá trị trung bình hài hòa của độ chính xác và độ bao phủ giúp tối ưu hóa một bộ phân loại cho độ chính xác cân bằng và hiệu suất thu hồi.
F1 = 2 x Precision x Recall Precision + Recall