CHƯƠNG 2: MÁY HỌC VECTƠ HỖ TRỢ
2.1. Tổng quan về bài toán phân lớp
2.1.3. Đánh giá mô hình phân loại
Trong bài toán phân lớp nhị phân. Ta xem một trong hai lớp là lớp dương (positive), lớp còn lại là lớp âm (negative). Để biểu diễn kết quả phân lớp nhị phân người ta thường sử dụng ma trận nhầm lẫn (confusion matrix) để chỉ ra cụ thể mỗi lớp được phân lớp như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.
Predict Class
Yes No
Actual Class
Yes a b
No c d
Bảng 2.1: Cấu trúc biểu diễn ma trận nhầm lẫn Trong đó:
- a: TP (true positive) – mẫu mang nhãn dương được phân lớp đúng vào lớp dương.
- b: FN (false negative) – mẫu mang nhãn dương bị phân lớp sai vào lớp âm.
- c: FP (false positive) – mẫu mang nhãn âm bị phân lớp sai vào lớp dương.
- d: TN (true negative) – mẫu mang nhãn âm được phân lớp đúng vào lớp âm.
Hình 2.2: Ma trận nhầm lẫn cho mô hình phát hiện ảnh mèo
Chúng ta có thể suy ra ngay rằng tổng các phần tử trong toàn ma trận này chính là số điểm trong tập kiểm thử. Các phần tử trên đường chéo của ma trận là số điểm được phân loại đúng của mỗi lớp dữ liệu. Từ đây có thể suy ra accuracy chính bằng tổng các phần tử trên đường chéo chia cho tổng các phần tử của toàn ma trận.
Hai thước đo đánh giá (effectiveness measure) phổ biến nhất để tổng kết và so sánh các mô hình phân lớp nhị phân là độ chính xác (precision) và độ bao phủ (recall).
Độ bao phủ đo mô hình phân lớp thực hiện việc tìm tất cả các phần tử thuộc về lớp dương tốt như thế nào, và độ chính xác đo mô hình phân lớp được thực hiện việc loại bỏ phần tử không liên quan đến lớp dương tốt như thế nào.
Hình 2.3: Minh họa độ chính xác và độ bao phủ [17]
Precision và Recall được xem là hữu ích trong việc đánh giá mô hình phân lớp.
Tuy nhiên, trong một số trường hợp thì precision và recall có giá trị tỉ lệ nghịch với nhau. Ví dụ như số lượng gợi ý mà hệ thống tạo ra là 10, số lượng gợi ý phù hợp là 3, số lượng sản phẩm mua bởi người dùng là 3 thì độ chính xác thấp (30%), tuy nhiên giá trị recall lại cao (100%) nghĩa là độ chính xác thấp nhưng người dùng lại hài lòng bởi vì họ mua có 3 sản phẩm và hệ thống gợi ý đúng cả 3 sản phẩm đó. Trong tình huống đó, một vài chỉ số khác được sử dụng như F-score, False Positive Rate, False Negative Rate, ROC - AUC được sử dụng để đánh giá hiệu quả tổng thể của mô hình phân lớp.
- F-score: được sử dụng để đánh giá hiệu quả tổng thể của hệ thống bằng cách kết hợp hài hòa hai chỉ số Recall và Precision. Chỉ số này thường đặc biệt ưa chuộng trong trường hợp các phần tử thuộc lớp dương tính chiếm tỉ lệ rất ít. F-score được tính bằng công thức
F-score = ∗ ∗
(2.5)
- False Positive Rate (tỉ lệ dương tính giả): đánh giá mức độ mô hình phân lớp phân loại nhầm các phần tử thuộc lớp âm tính vào lớp dương tính. FPR được tính bởi công thức
FPR = (2.6)
- False Negative Rate (tỉ lệ âm tính giả): đánh giá mức độ mô hình phân lớp phân loại nhầm các phần tử thuộc lớp dương tính vào lớp lớp âm tính. FNR được tính bởi công thức
FNR = (2.7)
- ROC - AUC: Đường cong ROC (receiver operating characteristic) là biểu đồ thể hiện hiệu suất của một mô hình phân lớp ở tất cả các ngưỡng phân loại lớp. Đường cong này vẽ hai tham số: True Positive Rate và False Positive Rate. Để tính toán các điểm trong đường cong ROC, chúng ta có thể đánh giá mô hình hồi quy logistic nhiều lần với các ngưỡng phân loại khác nhau, nhưng điều này sẽ không hiệu quả. May mắn thay, có một thuật toán dựa trên phân loại hiệu quả có thể cung cấp thông tin này được gọi là AUC (area under the curve) để đo toàn bộ khu vực hai chiều bên dưới toàn bộ đường cong ROC từ (0,0) đến (1,1). AUC cung cấp một thước đo tổng thể về hiệu suất trên tất cả các ngưỡng phân loại có thể có. Một cách diễn giải AUC là xác suất mà mô hình xếp hạng một ví dụ dương tính ngẫu nhiên cao hơn một ví dụ âm tính ngẫu nhiên