CHƯƠNG II: QUY TRÌNH XÂY DỰNG MÔ HÌNH PHÂN LỚP VĂN BẢN
2.6. Phương pháp đánh giá các mô hình phân lớp
Thông thường khi đã xây dựng xong một mô hình, chúng ta cần một vài phép đánh giá để xem mô hình có tối ưu nhất không và để so sánh với các mô hình khác. Sau đây là một số phương pháp dùng để đánh giá các mô hình phân lớp.
2.6.1. Độ chính xác (Accuracy)
Đây là phương pháp đánh giá đơn giản và được sử dụng rộng rãi trong việc đánh giá hiệu năng của mô hình phân lớp. Cách đánh giá này đơn giản tính tỷ lệ giữa dữ liệu dự đoán đúng và tất cả các trường hợp được dự đoán.
Độ 𝐜𝐡í𝐧𝐡 𝐱á𝐜 = 𝐂á𝐜 𝐭𝐫ườ𝐧𝐠 𝐡ợ𝐩 𝐝ự đ𝐨á𝐧 𝐜𝐡í𝐧𝐡 𝐱á𝐜
𝐓ấ𝐭 𝐜ả 𝐜á𝐜 𝐭𝐫ườ𝐧𝐠 𝐡ợ𝐩 đượ𝐜 𝐝ự đ𝐨á𝐧 (13) Sau khi đã xây dựng các mô hình chúng ta tiến hành so sánh các mô hình phân lớp khác nhau và chọn ra mô hình tối ưu nhất dựa trên độ chính xác (accuracy) cao nhất của mô hình đó.
2.6.2. Phương pháp đánh giá theo Precision và Recall
Ta thường sử dụng phép đo này cho bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau nhiều.
Trước hết xét bài toán phân loại nhị phân. Ta cũng coi một trong hai lớp là positive, lớp còn lại là negative.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
Hình 2. 5: Cách tính Precision và Recall.
(Nguồn: A systematic analysis of performance measures for classification tasks) Với một cách xác định một lớp là positive, Precision được định nghĩa là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive (TP + FP).
Recall được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive (TP + FN).
Một cách toán học, Precision và Recall là hai phân số có tử số bằng nhau nhưng mẫu số khác nhau:
𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧 = 𝑻𝑷
𝑻𝑷 + 𝑭𝑷 (14)
𝐑𝐞𝐜𝐚𝐥𝐥 = 𝑻𝑷
𝑻𝑷 + 𝑭𝑵 (15)
2.6.3. Phương pháp đánh giá F1-score
F1-score là trung bình điều hòa (harmonic mean) của các tiêu chí precision và recall (giả sử rằng hai đại lượng này khác không):
𝟐
𝑭𝟏= 𝟏
𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 + 𝟏
𝒓𝒆𝒄𝒂𝒍𝒍 (16)
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
ℎ𝑎𝑦
𝑭𝟏 = 𝟐 𝟏
𝒑𝒓𝒆𝒔𝒊𝒄𝒊𝒐𝒏𝟏 + 𝟏 𝒓𝒆𝒄𝒂𝒍𝒍
= 𝟐 𝒑𝒓𝒆𝒄𝒊𝒐𝒏.𝒓𝒆𝒄𝒂𝒍𝒍 𝒑𝒓𝒆𝒄𝒊𝒐𝒏 + 𝒓𝒆𝒄𝒂𝒍𝒍
(17)
𝑭𝟏 -score có giá trị nằm trong nửa khoảng (0,1]. 𝑭𝟏càng cao, bộ phân lớp càng tốt. Khi cả recall và precision đều bằng 1 (tốt nhất có thể), 𝑭𝟏 =1. Khi cả recall và precision đều thấp, ví dụ bằng 0.1, 𝑭𝟏=0.1.
Trường hợp tổng quát của 𝐹1 score là 𝐹𝛽 score:
𝑭𝜷 = (𝟏 +𝜷𝟐) 𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏.𝒓𝒆𝒄𝒂𝒍𝒍
𝜷𝟐.𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 + 𝒓𝒆𝒄𝒂𝒍𝒍 (18) 𝑭𝟏 chính là một trường hợp đặc biệt của 𝑭𝜷 khi 𝜷 =1. Khi 𝜷 >1, recall được coi trọng hơn precision, khi 𝜷 <1, precision được coi trọng hơn. Hai đại lượng 𝜷thường được sử dụng là 𝜷 =2 và 𝜷 =0.5.
2.6.4. Phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix)
Các đánh giá sử dụng độ chính xác (accuracy) chỉ cho chúng ta biết được tỷ lệ bao nhiêu phần trăm lượng dữ liệu được dự đoán đúng mà không chỉ ra được mỗi loại nhãn lớp được phân loại như thế nào, nhãn lớp nào có độ dự đoán đúng nhất, và dữ liệu thuộc nhãn lớp nào thường được bị phân loại vào lớp khác. Để có thể biểu diễn được điều này, chúng ta sẽ sử dụng phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix).
Phương pháp đánh giá ma trận nhầm lẫn được thể hiện qua Hình 2.6.
Hình 2. 6: Phương pháp đánh giá ma trận nhầm lẫn trong weka
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
Phân tích hình trên, ta có thể thấy sau khi đưa dữ liệu test vào để kiểm thử thì kết quả nhãn lớp thế giới có tỷ lệ dự đoán cao nhất với tỷ lệ 44/45 tập dữ liệu. Và nhãn lớp đời sống có tỷ lệ dự đoán đúng thấp nhất với 26/45 tập dữ liệu, trong đó các tập dữ liệu còn lại được dự đoán sai sang nhãn lớp khác như giải trí, giáo dục, kinh doanh và pháp luật. Từ đó ta kết luận rằng phương pháp đánh giá ma trận thể hiện rõ từng chi tiết một cách chính xác kết quả dự đoán cho từng nhãn lớp trong tập dữ liệu.
2.6.5. Phương pháp đánh giá bằng đường ROC
Ngoài hai phương pháp đánh giá thường được sử dụng trên còn có một phương pháp đánh giá mô hình đơn giản nữa đó là đánh giá bằng đường ROC (Receiver Operating Characteristic) của từng mô hình. Đường ROC là một công cụ khác so sánh hiệu năng giữa hai hay nhiều mô hình khác nhau một cách trực quan.
Để vẽ được đường ROC của bộ phân lớp M, chúng ta cần sắp xếp các bộ dữ liệu kiểm thử theo thứ tự giảm dần của kết quả dự đoán nhãn phân lớp.
Đường ROC của mô hình nào nằm trên cùng sẽ có hiệu năng cao hơn các mô hình còn lại.
Ví dụ: trong Hình 2.7 sau có 3 mô hình được thể hiện lần lượt qua 3 đường ROC.
Hình 2. 7: Đường ROC của các mô hình
Trong hình trên ta cĩ thể nhận thấy mơ hình phân lớp cơ sở Nạve-Bayes nằm trên cùng cho nên ta sẽ kết luận rằng mơ hình phân lớp cơ sở Nạve-Bayes cĩ hiệu năng vượt trội hơn hai mô hình phân lớp cơ sở J48 và KNN.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế