Các độ đo hiệu quả

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 24 - 28)

2.5 Phương pháp đánh giá và so sánh

2.5.1 Các độ đo hiệu quả

2.5.1.1 Độ chính xác và sai số

Độ chính xác là một trong các thước đo phổ biến nhất để đánh giá hiệu năng của một bài toán dự đoán. Ví dụ ta thường nghe thấy rằng, các bác sỹ dự đoán một bệnh nhân X mắc chứng bệnh Y với độ chính xác 95%

hay dự báo thời tiết ngày mai khả năng mưa với mức độ chắc chắn (chính xác) là 70%. Độ chính xác được tính một cách đơn giản như sau:

Độ chính xác=Số lần dự đoán đúng

Tổng số lần dự đoán ×100% (2.21)

Cụ thể hơn, trong bài toán phân loại, hiệu năng của thuật toán được đánh giá dựa trên tập dữ liệu kiểm thử (test set) khi ta so sánh nhãn dự đoán của các quan sát với nhãn gốc tương ứng. Ví dụ, trong bài toán phân loại thư rác, tập kiểm thử của ta có 10 quan sát trong đó có 5 quan sát mang nhãn(tức là được phân loại là thư rác) và 5 nhãn(không phải là thư rác). Giả sử một thuật toán học có giám sát X phân loại 10 quan sát trong tập kiểm thử trên thành 8 quan sát thuốc lớp , 2 quan sát thuộc lớp . Trong đó, 3 quan sát thuộc lớp bị phân nhầm vào lớp . Như vậy tổng số quan sát được dự đoán đúng là 7 quan sát, ta có thể kết luận rằng đô chính xác của phân lớp X là 107 ×100%=70%.

Độ chính xác là một thước đo đơn giản có thể phản ánh được mức độ hiệu quả của mô hình phân loại. Tuy nhiên, trong một vài tình huống thực tế, độ chính xác là không đủ để đánh giá hiệu năng của một mô hình. Ví dụ, giả sử một tập dữ liệu không cân bằng với 98% quan sát thuộc lớp 1 và 2% thuộc lớp 2, nếu thuật toán của ta đơn giản là gán tất cả các quan sát vào lớp 1 thì độ chính xác của thuật toán đó là 98%. Tuy nhiên đó là một thuật toán không hiệu quả vì nó luôn dự đoán sai đối với các quan sát thuộc lớp 2.

Tương tự với độ chính xác ta có một độ đo khác được gọi là độ sai số (classification error rate). Thay vì ta nói dự đoán một giả thuyết là đúng với độ chính xác 95% thì ta có thể phát biểu là giả thuyết đó được dự đoán với sai số là 5%. Hai phát biểu này là tương đương. Từ ví dụ trên, ta có thể dễ dàng suy ra công thức tính độ sai số là như sau:

Sai số= Số lần dự đoán sai

Tổng số lần dự đoán×100%=100%Độ chính xác (2.22) 2.5.1.2 Confusion Matrix

Do nhược điểm của cách tính độ chính xác hoặc sai số ở trên nên cần thiết phải có một độ đo khác có khả năng cho chúng ta biết rằng số lượng các quan sát được phân loại vào từng lớp là bao nhiêu. Confusion Matrix là công cụ giúp chúng ta giải quyết được vấn đề này.

Về cơ bản, Confusion matrix là một ma trận cỡK×Ktrong đó là số nhãn lớp có trong tập dữ liệu, nó thểK hiện rằng có bao nhiêu quan sát thực sự thuộc vào lớpy=k(được con người gán vào lớp ) và bao nhiêu quank sát được thuật toán dự đoán vào từng lớpy= jvới j=1,. .. ,K. Để hiểu rõ hơn, ta xét ví dụ sau, giả sử tập dữ liệu kiểm thử có 10 quan sát thuộc về các lớp {0, 1, 2}. Confusion matrix của tập kiểm thử đó được cho trong bảng sau:

Nhãn gốc

Nhãn dự đoán

0 1 2 Tổng

0 2 1 1 4

1 1 2 0 3

2 0 1 2 3

Bảng 2.1: Ví dụ ma trận Confusion

Từ bảng Confusion matrix trên, ta nhận thấy rằng các giá trị trên đường chéo của ma trận là số các quan sát được dự đoán đúng tương ứng với nhãn gốc của quan sát đó. Ngoài ra, ta cũng có thể dễ dàng thấy được số lượng quan sát được phân loại sai vào các lớp khác nhau. Ví dụ, trong 10 quan sát thuộc tập kiểm thử thì có 2 quan sát được phân loại đúng vào lớp 0. Trong khi đó, có 1 quan sát thuộc lớp 0 bị phân sai vào lớp 1 và 1 quan sát bị phân sai vào lớp 2.

Cách biểu diễn trên của confusion matrix còn được gọi làunnormalized confusion matrix, tức là confusion matrix chưa chuẩn hoá. Để có cái nhìn rõ hơn, ta có thể chuẩn hóa confusion matrix đó bằng cách lấy mỗi hàng của ma trận confusion matrix chưa chuẩn hóa chia cho tổng các phần tử trên hàng đó. Do đó, ta có nhận xét rằng tổng các phần tử trên một hàng của ma trận confusion matrix chuẩn hóa luôn bằng 1. Thông thường, khi biểu diễn confusion matrix ta thường sử dụng màu sắc để minh họa cho trực quan, dễ theo dõi. Hình sau minh

họa một cách trực quan một confusion matrix.

Hình 2.3: Minh họa bằng màu sắc cho confusion matrix chưa chuẩn hóa và confusion matrix đã chuẩn hóa

Đối với các bài toán có nhiều lớp dữ liệu, cách biểu diễn bằng màu này rất hữu ích. Các ô màu đậm thể hiện các giá trị cao tức là khả năng phân đúng vào lớp đó cao. Một mô hình tốt sẽ cho một confusion matrix có các phần tử trên đường chéo chính có giá trị lớn, các phần tử còn lại có giá trị nhỏ. Nói cách khác, khi biểu diễn bằng màu sắc, đường chéo có màu càng đậm so với phần còn lại sẽ càng tốt. Từ hai hình trên ta thấy rằng confusion matrix đã chuẩn hoá mang nhiều thông tin hơn. Sự khác nhau được thấy ở ô trên cùng bên trái. Lớp dữ liệu 0 được phân loại không thực sự tốt nhưng trong ma trận confusion matrix chưa chuẩn hóa, nó vẫn có màu đậm như hai ô còn lại trên đường chéo chính.

2.5.1.3 Độ đo Precision, Recall và F1

Precision, Recall và F1 là các độ đo khác được sử dụng rất phổ biến trong việc đánh giá các mô hình phân loại. Precision cũng có nghĩa là độ chính xác, tuy nhiên để phân biệt với độ chính xác đã giới thiệu ở trên, tác giả luận văn xin giữ nguyên tên gọi cho các độ đo trong mục này.

Precision là tỷ lệ quan sát thu được có liên quan đến một lớp cụ thể. Precision được định nghĩa là tổng số các quan sát có nhãnciđược dự đoán chính xác chia cho tổng số các quan sát được dự đoán có nhãnci.

P c( i) =Số quan sát được gán chính xác nhãnci

Tổng số quan sát được gán nhãnci (2.23)

Recall được tính bằng tổng số các quan sát có nhãnciđược dự đoán chính xác chia cho tổng số các quan sát có nhãncitrong tập kiểm thử.

R c( i) = Số quan sát được gán chính xác nhãnci

Tổng số các quan sát có nhãncitrong tập huấn luyện (2.24)

Ta gọi trung bình precision và recall của toàn bộ các nhãn là trung bình vĩ mô. Do đó P và R vĩ mô được tính như sau:

P=∑| |i=1c P c( i)

| |c (2.25)

R=∑| |i=1c R c( i)

| |c (2.26)

Trong đó, P(ci) , R(ci) là độ precision và recall của nhãnci,| |c là tổng số nhãn. Trong bài toán phân loại, có một mối quan hệ nghịch đảo giữa precision và recall. Tức là precision giảm thì recall sẽ tăng lên. Thông thường khi minh họa giá trị precision và recall của thuật toán ta kết hợp chúng thành một đường cong P-R. Hình sau minh họa đường cong P-R trong một bài toán phân loại.

Hình 2.4: Đường cong P-R trong bài toán phân loại

Ngoài ra, thay vì sử dụng đường cong P-R ta dùng độ đo khác được gọi là F1 [ ]. F1 là một trung bình38 điều hòa của các tiêu chí P và R. F1 có các tính chất sau:

F1 có xu hướng lấy giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị P và R.

F1 có giá trị lớn nếu cả 2 giá trị P và R đều lớn.

F1=2× ×P R

P+R (2.27)

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 24 - 28)

Tải bản đầy đủ (PDF)

(59 trang)