1. Đo lường hiệu suất mô hình hồi quy
Trong các bài toán hồi quy (regression), việc đo lường hiệu suất mô hình rất quan trọng để đánh giá khả năng dự đoán của mô hình trên dữ liệu thực tế. Các chỉ số đo lường được sử dụng phổ biến để đánh giá hiệu suất của mô hình hồi quy bao gồm Mean Absolute (MAE), Mean Squared Error (RMSE) và R-squared (R^2).
a. Mean Absolute Error (MAE)
- MAE đo lường độ lệch trung bình tuyệt đối giữa giá trị thực tế và giá trị dự đoán của mô hình.
- Công thức:
Trong đó:
n là số lượng mẫu.
yi là giá trị thức tế tại điểm dữ liệu thứ i.
y^I là giá trị dự đoán tại điểm dữ liệu thứ i.
- Ý nghĩa: MAE phản ánh độ chính xác dự đoán trung bình, nhưng không phân biệt rõ giữa các lỗi lớn hay nhỏ (tất cả lỗi đều được tính như nhau).
- Đơn vị của MAE giống như biến mục tiêu, ví dụ nếu biến mục tiêu là giá nhà (đơn vị: tỷ đồng), MAE sẽ có đơn vị triệu đồng.
- Ưu điểm:
MAE dễ hiểu và dễ tính toán.
Không bị ảnh hưởng mạnh bởi outliers như MSE.
b. Mean Squared Error (MSE)
- MSE đo lường trung bình bình phương sai số, tức là mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế được bình phương lên.
- Công thức
- Ý nghĩa: MSE là một chỉ số phổ biến trong việc đánh giá mô hình hồi quy. Nó nhấn mạnh các lỗi lớn vì sai số được bình phương, do đó các giá trị outliers sẽ ảnh hưởng lớn hơn.
- Đơn vị: MSE có đơn vị là bình phương của đơn vị biến mục tiêu (ví dụ: triệu đồng²).
- Ưu điểm: Nhạy cảm với các lỗi lớn, giúp làm nổi bật các trường hợp dự đoán sai nghiêm trọng.
c. Root mean Squared Error (RMSE)
- RMSE là căn bậc hai của MSE, giúp đưa đơn vị đo về cùng loại với đơn vị của biến mục tiêu.
- Công thức
- Ý nghĩa:
RMSE tương tự như MSE nhưng dễ diễn giải hơn vì nó có cùng đơn vị với giá trị dự đoán (ví dụ: triệu đồng).
Cũng như MSE, nhạy cảm với lỗi lớn hơn MAE.
- Ưu điểm: Đơn vị giống với biến mục tiêu, nên dễ hiểu và trực quan hơn.
d. R-squared (R^2)
- R² hay hệ số xác định là một chỉ số để đánh giá mức độ mà mô hình giải thích được biến thiên của dữ liệu.
- Công thức
- Trong đó:
yi là giá trị thực tại điểm dữ liệu thứ i.
y^i là giá trị dự đoán tại điểm dữ liệu thứ i.
y- là giá trị trung bình của các giá trị thực tế.
- Ý nghĩa: R² thể hiện tỷ lệ phần trăm biến thiên của giá trị mục tiêu được mô hình giải thích. Giá trị của R² nằm trong khoảng từ 0 đến 1:
R² = 1: Mô hình dự đoán hoàn hảo.
R² = 0: Mô hình không dự đoán tốt hơn so với mô hình đơn giản chỉ dự đoán giá trị trung bình.
- Ưu điểm:
Dễ hiểu và là thước đo phổ biến để đánh giá khả năng giải thích của mô hình.
Không phụ thuộc vào đơn vị đo lường của biến mục tiêu.
2. Cross-Validation: Kỹ thuật kiểm tra chéo
Cross-validation (kiểm tra chéo) là một kỹ thuật quan trọng trong học máy nhằm đánh giá mô hình một cách ổn định và tránh overfitting. Khi chia dữ liệu thành các tập huấn luyện và kiểm tra, một mô hình có thể hoạt động rất tốt trên tập huấn luyện nhưng lại kém hiệu quả trên dữ liệu mới do hiện tượng overfitting. Cross-validation giúp giảm thiểu hiện tượng này bằng cách đánh giá mô hình trên nhiều tập con khác nhau của dữ liệu.
a. Kỹ Thuật K-Fold Cross-Validation
- Trong K-Fold Cross-Validation, dữ liệu được chia thành K phần có kích thước bằng nhau. Mô hình sẽ được huấn luyện K lần, mỗi lần sử dụng K-1 phần để huấn luyện và 1 phần để kiểm tra. Kết quả của mô hình được đánh giá bằng cách tính trung bình các kết quả qua tất cả K lần huấn luyện và kiểm tra.
- Quy trình K-Fold Cross Validation:
Chia tập dữ liệu thành K phần.
Huấn luyện mô hình K lần, mỗi lần lấy 1 phần làm tập test và K-1 phần còn lại làm tập train.
Tính toán các chỉ số đánh giá trên tập test sau mỗi lần huấn luyện.
Cuối cùng, tính trung bình các chỉ số từ K lần lặp để có đánh giá ổn định về mô
- Ưu Điểm của K-Fold Cross-Validation:
Thay vì chỉ chia dữ liệu một lần (train-test-split), K-fold cross-validation đảm bảo rằng mọi dữ liệu đều được sử dụng làm tập kiểm tra ít nhất một lần.
K-Fold Cross-Validation cho phép sử dụng toàn bộ dữ liệu vừa để huấn luyện, vừa để kiểm tra, giúp tận dụng tối đa dữ liệu.
Các kết quả được trung bình qua K lần kiểm tra, giúp đánh giá mô hình chính xác và khách quan hơn so với chỉ dựa vào một tập kiểm tra cố định.
b. Kỹ Thuật Stratified K-Fold Cross-Validation
- Stratified K-Fold là một biến thể của K-Fold Cross-Validation, đặc biệt hữu ích khi làm việc với dữ liệu phân loại có sự mất cân bằng giữa các lớp (class imbalance).
Trong Stratified K-Fold, dữ liệu được chia sao cho mỗi phần có tỷ lệ các lớp giống với tỷ lệ của tập dữ liệu ban đầu.
- Khi dữ liệu không cân bằng, ví dụ như trong bài toán phân loại mà số lượng mẫu thuộc các lớp không đồng đều, Stratified K-Fold giúp đảm bảo mỗi phần có đủ đại diện của tất cả các lớp, làm cho việc huấn luyện và đánh giá chính xác hơn.
Kết luận:
Trong bài toán Dự đoán giá nhà, một dạng bài toán hồi quy. Mục tiêu là dự đoán giá trị liên tục (giá nhà), nên việc lựa chọn phương pháp đánh giá mô hình phụ thuộc vào các yếu tố như độ chính xác, mức độ ảnh hưởng của các sai số lớn, và khả năng giải thích mô hình nên các phương pháp như MAE, MSE, RMSE và R² sẽ phù hợp hơn.
RMSE, MSE và MAE là ba chỉ số sẽ được sử dụng song song. RMSE và MSE để đánh giá mức độ ảnh hưởng của các lỗi lớn, và MAE để cung cấp thông tin trực quan về sai số trung bình.
R² có thể bổ sung để đo lường khả năng giải thích biến động giá nhà của mô hình.