Đánh giá hiệu quả phân lớp

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Bài toán phân lớp không cân đối cho dữ liệu giáo dục (Trang 53 - 58)

Chương 2. CƠ SỞ LÝ THUYẾT

2.3 Đánh giá hiệu quả phân lớp

Đánh giá hiệu quả phân lớp là điều then chốt để chọn mô hình phân lớp nào thích hợp với dữ liệu hiện có và nhu cầu của người dùng. Giả sử ta dùng dữ liệu từ các đợt bán hàng trước đó để xây dựng một mô hình phân lớp nhằm dự đoán cung cách mua hàng của khách hàng. Ta muốn đánh giá là mô hình phân lớp ấy có thể dự đoán chính xác đến mức nào. Ta có thể thử dùng nhiều phương pháp khác nhau để xây dựng nhiều

mô hình phân lớp rồi so sánh độ chính xác của chúng. Nhưng độ chính xác là gì? Làm cách nào ta đánh giá chúng? Có độ đo tính chính xác của mô hình phân lớp nào thích hợp hơn các độ đo khác chăng? Làm sao ta tìm được một cách đánh giá độ chính xác tin cậy được? Những câu hỏi đó sẽ được giải đáp trong mục này.

2.3.1 Các độ đo để đánh giá hiệu quả của mô hình phân lớp

Các độ đo đánh giá mô hình phân lớp bao gồm độ chính xác (accuracy, hay còn gọi là tỷ lệ nhận diện – recognition rate), độ nhạy (sensitive, hay còn gọi là độ bao quát – recall), độ đặc hiệu (specificity), độ xác đáng (precision), F1 và F. Chú ý rằng, tuy

độ chính xác là một độ đo cụ thể, nhưng từ ngữ “độ chính xác” còn được dùng như một thuật ngữ tổng quát để chỉ các khả năng dự đoán của mô hình phân lớp.

Bảng 2.1: Các độ đo đánh giá mô hình phân lớp [5].

Việc dùng dữ liệu huấn luyện để rút ra một mô hình phân lớp rồi lại dùng chính

dữ liệu đó để đánh giá độ chính xác của mô hình kết quả học được có thể dẫn tới những đánh giá quá lạc quan đến mức sai lầm về giải thuật học đối với dữ liệu. Thay vì vậy, ta nên đo độ chính xác của mô hình phân lớp học được trên một tập kiểm tra (test set),

bao gồm các bản ghi đã có nhãn lớp nhưng chưa được dùng để huấn luyện mô hình đó.

Các thuật ngữ cơ bản (đối với trường hợp thuộc tính lớp chỉ có 2 giá trị):

o Bản ghi dương tính (positive tuple): loại bản ghi thuộc lớp quan tâm

chính.

o Bản ghi âm tính (positive tuple): tất cả các bản ghi không thuộc loại trên.

Ký hiệu: P: số lượng bản ghi dương tính;

N: số lượng bản ghi âm tính.

Với mỗi bản ghi, ta so sánh giá trị nhãn lớp mà mô hình dự đoán được với nhãn

lớp đã biết của bản ghi đó. Có vài thuật ngữ khác cần cho việc tính toán nhiều độ đo đánh giá, việc hiểu chúng sẽ giúp dễ nắm bắt ý nghĩa của các độ đo khác nhau.

o Số dương tính đúng (True Positives – TP): là số bản ghi dương tính được mô

hình dự đoán nhãn đúng.

o Số âm tính đúng (True Negatives – TF): là số bản ghi âm tính được mô hình

dự đoán nhãn đúng.

o Số dương tính sai (False Positives – FP): là các bản ghi âm tính nhưng bị dự

đoán nhãn sai là dương tính.

o Số âm tính sai (False Negatives – FN): là các bản ghi dương tính nhưng bị dự

đoán nhãn sai là âm tính.

Các thuật ngữ này được tóm tắt trong ma trận nhầm lẫn (confusion matrix) ở

Hình 2.7 bên dưới.

Hình 2.7: Ma trận nhầm lẫn cùng với các tổng số bản ghi dương tính và âm tính [5].

Ma trận nhầm lẫn giúp phân tích xem mô hình phân lớp của ta có thể dự đoán các bản ghi thuộc các lớp khác nhau tốt đến đâu. TPTN cho ta biết số bản ghi mà mô hình dự đoán đúng, còn FPFN cho ta biết số bản ghi mô hình dự đoán sai (đoán

nhãn lầm).

Nếu có m lớp (trong đó m ≥ 2) thì ma trận nhầm lẫn là một bảng có kích thước ít nhất là m x m (nếu không kể các hàng và cột phụ thì bằng đúng m x m). Mỗi mục trị CMi,jm hàng và m cột đầu tiên biểu thị số lượng bản ghi thuộc lớp i được mô hình

phân lớp dự đoán là lớp j (CM là acronym của Confusion Matrix). Để một mô hình

phân lớp có độ chính xác cao, lý tưởng nhất là hầu hết các bản ghi sẽ nằm dọc theo đường chéo của ma trận nhầm lẫn, từ mục trị CM1,1 đến mục trị CMm,m, còn các mục trị còn lại đều bằng 0 hoặc gần bằng 0.

Bảng đó có thể có thêm một cột phụ hoặc hàng phụ để cung cấp các giá trị tổng

cộng. Ví dụ, bảng trong Hình 2.7 có thêm cột Total với các mục trị PN, cùng với

hàng Total với các mục trị P’ (số bản ghi được dự đoán nhãn dương tính, bằng TP+FP) và N’ (số bản ghi được dự đoán nhãn âm tính, bằng TN+FN). Tổng số các bản ghi là TP+TN+FP+FN, hoặc P+N, hoặc P’+N’. Ma trận trong Hình 2.7 là dành cho bài toán

phân lớp nhị phân, nhưng ta có thể vẽ ra ma trận dành cho đa lớp theo cách tương tự.

2.3.2 Ý nghĩa các độ đo

Độ chính xác (accuracy, hay còn gọi là recognition rate trong các tài liệu về nhận

diện mẫu) của một mô hình phân lớp trên một tập kiểm tra nhất định nào đó là tỷ lệ các bản ghi của tập kiểm tra được phân lớp đúng bởi mô hình đó, tức là:

accuracy =

(2.2)

Tỷ lệ sai (error rate hay misclassification rate) của mô hình phân lớp M chỉ đơn

giản là bằng 1 – accuracy(M), trong đó accuracy(M) là độ chính xác của M. Giá trị này cũng có thể được tính như sau:

error rate =

(2.3)

Độ nhạy (sensitivity) còn được gọi là tỷ lệ dương tính đúng (true positive rate,

tức tỷ lệ các bản ghi dương tính được nhận diện đúng), còn độ đặc hiệu (specificity) là tỷ lệ âm tính đúng (true negative rate, tức tỷ lệ các bản ghi âm tính được nhận diện đúng). Các độ đo này được định nghĩa theo các công thức:

sensitivity = (2.4)

specificity = (2.5) Có thể chứng minh rằng độ chính xác là một hàm của độ nhạy và độ đặc hiệu:

accuracy = sensitivity

+ specificity

(2.6)

Các độ đo độ xác đáng (precision) và độ bao quát (recall) cũng được dùng rộng

rãi trong phân lớp. Có thể xem độ xác đáng như là độ đo về tính đúng đắn (tức tỷ lệ các bản ghi được dự đoán nhãn là dương tính và thực tế đúng như vậy), còn độ bao quát là

một độ đo về tính đầy đủ (tức tỷ lệ các bản ghi dương tính được dự đoán nhãn đúng như vậy). Độ bao quát trông có vẻ quen thuộc, vì nó cũng chính là độ nhạy (hay tỷ lệ dương tính đúng). Các độ đo này có thể được tính như sau:

precision =

(2.7)

recall =

= (2.8)

Một cách khác để sử dụng độ xác đáng và độ bao quát là, kết hợp chúng vào một độ đo duy nhất. Đây là cách tiếp cận của độ đo F (còn được gọi là F1 score hoặc F- score) và độ đo Fβ:

F =

(2.9)

Fβ =

(2.10)

Như vậy, độ đo F là trung bình điều hòa của độ xác đáng và độ bao quát, còn độ đo Fβ là một độ đo có trọng số của độ xác đáng và độ bao quát. Các độ đo Fβ thường dùng là F2F0.5.

Ngoài các độ đo dựa trên độ chính xác, các mô hình phân lớp còn có thể được so sánh theo những khía cạnh bổ sung sau đây:

Tốc độ (speed): phí tổn tính toán cần thiết để sinh ra và sử dụng mô hình phân

lớp. Mô hình phân lớp nào tốn quá nhiều thời gian để chạy thì người dùng có thể sẽ ngại sử dụng, cho dù nó có độ chính xác phân lớp cao.

Tính khả diễn dịch hay tính dễ hiểu (interpretability): mức độ thông hiểu mà mô

hình phân lớp hoặc mô hình dự đoán mang lại cho người dùng.

 Việc hiểu được những dự đoán mà mô hình phân lớp đưa ra có thể mang lại sự tin cậy của người dùng đối với những dự đoán đó. Nếu không tin cậy kết quả phân lớp, người dùng có thể không chịu đưa ra quyết định, đặc biệt là trong những lĩnh vực như y khoa, đầu tư tài chính, an ninh và nghiên cứu khoa học nói chung.

 Hơn nữa, các mô hình phân lớp dễ hiểu không phải chỉ được dùng để dự đoán các lớp của dữ liệu kiểm tra, mà còn có thể giúp người dùng có được những hiểu biết sâu hơn về dữ liệu và lĩnh vực ứng dụng

Tính khả diễn dịch là khái niệm có phần chủ quan, và vì thế khó đánh giá nó. Các cây quyết định và luật phân lớp có thể dễ hiểu, tuy nhiên tính dễ hiểu của chúng có thể mất đi nếu chúng trở nên phức tạp, còn các mạng nơ-rôn và mạng Bayes thì khó hiểu đối với người dùng không chuyên về KPDL [5].

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Bài toán phân lớp không cân đối cho dữ liệu giáo dục (Trang 53 - 58)

Tải bản đầy đủ (PDF)

(131 trang)