CHƢƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU
2.1. Tổng quan về bài tốn dự báo
2.1.2. Các tiêu chuẩn đánh giá
Tiêu chuẩn đánh giá là để xác định đƣợc mơ hình cĩ thực sự đem lại hiệu quả khơng. Việc đánh giá khả năng giữa các mơ hình cần sử dụng các tiêu chuẩn chung và các mơ hình đĩ cũng cần dùng chung tập dữ liệu kiểm thử.
Một số tiêu chuẩn phổ biến hiện nay nhƣ: Precision, MSE, F1, Recall, Accuracy,... Đối với bài tốn dự báo, luận văn sẽ lựa chọn giới thiệu về các tiêu chuẩn đánh giá là MSE, RMSE. R2 và Accuracy
a. Tiêu chuẩn Mean squared error(MSE)
Mean squared error (MSE - Sai số bình phƣơng trung bình) của một phép ƣớc lƣợng là “trung bình của bình phƣơng các sai số”, chính là “sự chênh lệch giữa các giá trị đƣợc mơ hình dự đốn và giá trị thực tế”[17]. Nguyên nhân gây ra sự chênh lệch này cĩ thể do ngẫu nhiên hay do phép ƣớc lƣợng khơng lƣờng trƣớc đƣợc việc thơng tin cĩ khả năng đƣa ra đƣợc một ƣớc tính đúng hơn.
Nếu Ŷ là vector của n giá trị dự đốn, và Y là vector của các giá trị thực tế
ứng với đầu vào của hàm số phát ra dự báo thì MSE của phép dự báo cĩ thể đƣợc ƣớc lƣợng theo cơng thức:
20
MSE phù hợp với việc đánh giá chất lƣợng của các bài tốn dự đốn (nhƣ là một hàm ánh xạ dữ liệu đầu vào tùy ý với một mẫu giá trị của một biến ngẫu nhiên) hoặc một cơng cụ ƣớc tính (nhƣ trong một hàm tốn học ánh xạ một mẫu dữ liệu với một ƣớc tính của một tham số của tổng thể từ đĩ dữ liệu đƣợc lấy mẫu).
b. Root Mean Square Error - RMSE
Root Mean Square Error (RMSE – Sai số trung bình bình phƣơng gốc) là thƣớc đo mức độ phân tán các giá trị dự đốn từ các giá trị thực tế RMSE thƣờng đƣợc sử dụng trong các bài tốn dự báo, phân tích hồi quy, khí hậu học để xác minh kết quả thí nghiệm. RMSE cho thấy mức độ hiệu quả của mơ hình, RMSE càng nhỏ thì sai số càng bé, độ tin cậy của mơ hình càng cao.
Lấy căn bậc 2 của MSR cho ra RMSE, vì vậy ta cĩ cơng thức của RMSE nhƣ sau:
Khi đánh giá hiệu quả của một mơ hình trong bài tốn cụ thể, giá trị RMSE và MSE cao thể hiện mơ hình chƣa thực sự ổn định.
c. Tiêu chuẩn R Square
R Square hay cịn đƣợc gọi là R2/R bình phƣơng hoặc hệ số xác định (Coefficient of detemination) là một trong những giá trị cĩ ý nghĩa lớn và quan trọng trong trong phƣơng pháp hồi quy tuyến tính. Trong thống kê, dữ liệu đầu ra hoặc kết quả cho sự thay đổi đang đƣợc nghiên cứu đƣợc gọi là các biến phụ thuộc, dữ liệu đầu vào hoặc nguyên nhân tạo ra sự thay đổi đƣợc gọi là biến độc lập (hay cịn gọi là biến hồi quy). Với mỗi cuộc nghiên cứu, bất kỳ biến nào mà đƣợc thao tác cũng cĩ thể đƣợc gọi là một biến độc lập. Các mơ hình và thử nghiệm đƣợc tiến hành để kiểm tra những tác động của các biến độc lập lên các biến phụ thuộc.
Sự biến thiên của biến phụ thuộc đƣợc chia thành hai phần:
21 - Phần biến thiên do hồi quy.
- Phần biến thiên khơng do hồi quy (hay cịn gọi là phần dƣ). Từ đĩ, R2 đƣợc tính với cơng thức:
Trong đĩ:
- Residual Sum of Squares (ESS): là tổng độ lệch bình phƣơng của phần biến thiên khơng do hồi quy.
- Total Sum of Squares (TSS): tổng độ lệch bình phƣơng của tồn bộ các nhân tố.
Cĩ thể thấy, R2 sẽ dao động trong khoảng từ 0 đến 1. Nếu R2 càng trở về gần 1 thì mơ hình sẽ cĩ độ phù hợp cao với bộ dữ liệu đã đƣợc sử dụng để chạy hồi quy. Ngƣợc lại, nếu R2 càng gần 0 thì mơ hình đã xây dựng cĩ độ phù hợp càng thấp với bộ dữ liệu dùng để chạy hồi quy. Đặc biệt, khi phƣơng trình hồi quy chỉ cĩ 1 biến độc lập (hay cịn gọi là phƣơng trình hồi quy đơn biến) thì R2 chính là “bình phƣơng của hệ số tƣơng quan r giữa hai biến đĩ”.
Hệ số tƣơng quan R hay cịn đƣợc gọi là multiple r (multiple regression) gắn liền mật thiết với R2, cho nên ta cần lƣu ý đến hệ số này khi thực hiện tính ESS. Multiple R cho phép kiểm tra xem cĩ thể thêm các biến vào mơ hình hay khơng, đồng thời, nĩ cũng cĩ khả năng loại bỏ ảnh hƣởng của một số biến nhất định.
Hệ số R2 cĩ thể cho ta thấy:
- Mức độ phù hợp của mơ hình với dữ liệu (hoặc biến).
Ví dụ:
22
Nếu R2 = 0,7 thì mức độ phù hợp của mơ hình hồi quy tuyến tính với dữ liệu ở mức 70%, cịn 30% cịn lại phụ thuộc cách thu thập dữ liệu, hoặc do sai số đo lƣờng, ngồi ra cĩ thể do cĩ biến độc lập khác giải thích cho biến phụ thuộc mà chƣa cĩ trong mơ hình nghiên cứu,…
- Mơ hình sẽ phù hợp với bài tốn cần giải quyết ở mức bao nhiêu:
Theo các nhà nghiên cứu, mơ hình đƣợc coi là phù hợp khi R2>50%. Tuy nhiên, với một số trƣờng hợp nhƣ giá chứng khốn, giá cổ phiếu, giá vàng, … sẽ cĩ sự biến động lớn, các mơ hình này đều khơng bắt buộc phải cĩ R2>50% vì rất khĩ để dự đốn giá nếu chỉ dựa vào các biến độc lập nhƣ GDP, ROE, ROA, …
- Với R2 càng cao thì mối quan hệ giữa biến độc lập và biến phụ thuộc càng chặt chẽ, đồng thời mơ hình cĩ khả năng ổn định càng cao.
d. Accuracy
Trong phép đo của một tập hợp, Accuracy (độ chính xác) là độ gần của các phép đo với một giá trị cụ thể. Cĩ thể hiểu đơn giản rằng, Accuracy “tính tỉ lệ giữa
số điểm được dự đốn đúng và tổng số điểm trong một tập dữ liệu kiểm thử” [15].
Ví dụ:
Với bài tốn gồm 3 lớp dữ liệu đƣợc ký hiệu là a, b, c. Trong thực tế thì các lớp cĩ thể đƣợc ký hiệu bất kỳ, khơng bắt buộc là chữ hoặc bắt đầu từ a. Giả sử ta xét 10 điểm dữ liệu trong tập kiểm thử với các ký hiệu thực tế đƣợc biểu diễn bằng y_dung = [a, a, a, a, b, b, b, c, c, c]. Giả thuyết rằng bộ phân lớp mà ta đang cần đánh giá dự đốn ký hiệu cho các điểm này là y_dudoan = [a, b, a, a, b, b, a, c, b, c]. Đối với ví dụ này, ta thấy rằng trong tổng số 10 điểm thì cĩ 7 điểm dữ liệu đƣợc dự đốn đúng. Vì vậy Accuracy/R2 của mơ hình là 0.7 (hay 70%).
Độ chính xác Accuracy thƣờng thích hợp với các bài tốn mà các lớp dữ liệu cĩ kích thƣớc tƣơng đối giống nhau, độ chính xác thấp sẽ gây ra sự khác biệt giữa kết quả mơ hình dự đốn và giá trị trong thực tế.
23