IV. PHÂN TÍCH ĐA BIẾN
4.2.1. Phân tích mối quan hệ giữa Thu nhập- Chi tiêu trung bình
a. Hồi quy đa biến
Code hồi quy đa thức giữa Income và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend
Biểu đồ hồi quy đa thức giữa Income và Average_Spend
Nhận xét:
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy.
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
- MSE: MSE là trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán. Giá trị của MSE = 6226.66, mô hình có nhiều sai số lớn.
- R²: R-squared là thước đo cho biết tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. R² = 0.799 có nghĩa là khoảng 80% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
b. Cây quyết định
Code cây quyết định giữa Income và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend
Biểu đồ cây quyết định giữa Income và Average_Spend
Nhận xét:
- Giá trị của MSE = 24937, mô hình có nhiều sai số rất lớn
- R² = 0.197 có nghĩa là khoảng 20% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
c. Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Income và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend
Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend Nhận xét:
- Giá trị của MSE = 13886, mô hình có nhiều sai số rất lớn.
- R² = 0.552 có nghĩa là khoảng 55% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
d. K láng giềng gần nhất
Code K láng giềng gần nhất giữa Income và Average_Spend
Các chỉ số đánh giá K láng giềng gần nhất giữa Income và Average_Spend
Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend
Nhận xét:
- Giá trị của MSE = 7144, mô hình có nhiều sai số khá lớn.
- R² = 0.769 có nghĩa là khoảng 77% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình
Thông qua 4 mô hình khác nhau:
- Polynomial Regression - Decision Tree
- Random Fores
- K-Nearest Neighbors
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra. Kết quả cho thấy:
- Polynomial Regression : o MSE = 6226
o R² = 0799
- Decision Tree Regressor o MSE = 24937 o R² = 0.197
- Random Fores Regressor o MSE = 13886
o R² = 0.552
- K-Nearest Neighbors Regressor o MSE = 7144
o R² = 0.769
Dựa trên các thông số MSE và R² của các mô hình trên, ta thấy mô hình Polynomial Regression là mô hình có kết quả đánh giá mối quan hệ giữa Thu nhập hàng năm và Chi tiêu trung bình. Mô hình có R2 Score cao nhất:
0799, giải thích tốt khoảng 80% sự biến động của biến phụ thuộc trên tập kiểm tra. Ngoài ra còn có MSE thấp nhất: 6226, mức độ sai số thấp nhất trong các mô hình.
=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ
4.2.2. Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung.
Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
Nhận xét:
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy.
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
- MSE: MSE là trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán. Giá trị của MSE = 27459.97, mô hình có nhiều sai số rất lớn.
- R²: R-squared là thước đo cho biết tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. R² = 0.115 có nghĩa là khoảng 11% biến thiên của biến phụ thuộc có thể được giải
Code cây quyết định giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và Average_Spend
Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend
Nhận xét:
- Giá trị của MSE = 38823.41, mô hình có nhiều sai số rất lớn
- R² = -0.24 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
c. Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
Biểu đồ rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend Nhận xét:
- Giá trị của MSE = 38115.99, mô hình có nhiều sai số rất lớn.
- R² = -0.227 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
d. K láng giềng gần nhất
Code K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend
Biểu đồ K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend
Nhận xét:
- Giá trị của MSE = 54356.83, mô hình có nhiều sai số rất lớn.
- R² = -0.74 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
- Decision Tree - Random Fores
- K-Nearest Neighbors
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra. Kết quả cho thấy:
- Polynomial Regression : o MSE = 27459
o R² = 0.115
- Decision Tree Regressor o MSE = 38823 o R² = -0.24
- Random Fores Regressor o MSE = 38115
o R² = -0.227
- K-Nearest Neighbors Regressor o MSE = 54356
o R² = -0.74
Dựa trên các thông số MSE và R² của các mô hình trên, ta không thấy mô hình nào có thể đạt được kết quả tốt.
=> Không có mô hình nào tốt để đánh giá mối quan hệ.