Phân tích mối quan hệ giữa Thu nhập- Chi tiêu trung bình

Một phần của tài liệu Đề tài phân tích dữ liệu mua sắm Đồ Án môn phân tích dữ liệu (Trang 54 - 72)

IV. PHÂN TÍCH ĐA BIẾN

4.2.1. Phân tích mối quan hệ giữa Thu nhập- Chi tiêu trung bình

a. Hồi quy đa biến

Code hồi quy đa thức giữa Income và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend

Biểu đồ hồi quy đa thức giữa Income và Average_Spend

Nhận xét:

- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy.

- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.

- MSE: MSE là trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán. Giá trị của MSE = 6226.66, mô hình có nhiều sai số lớn.

- R²: R-squared là thước đo cho biết tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. R² = 0.799 có nghĩa là khoảng 80% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

b. Cây quyết định

Code cây quyết định giữa Income và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend

Biểu đồ cây quyết định giữa Income và Average_Spend

Nhận xét:

- Giá trị của MSE = 24937, mô hình có nhiều sai số rất lớn

- R² = 0.197 có nghĩa là khoảng 20% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

c. Rừng ngẫu nhiên

Code rừng ngẫu nhiên giữa Income và Average_Spend

Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend

Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend Nhận xét:

- Giá trị của MSE = 13886, mô hình có nhiều sai số rất lớn.

- R² = 0.552 có nghĩa là khoảng 55% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

d. K láng giềng gần nhất

Code K láng giềng gần nhất giữa Income và Average_Spend

Các chỉ số đánh giá K láng giềng gần nhất giữa Income và Average_Spend

Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend

Nhận xét:

- Giá trị của MSE = 7144, mô hình có nhiều sai số khá lớn.

- R² = 0.769 có nghĩa là khoảng 77% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình

Thông qua 4 mô hình khác nhau:

- Polynomial Regression - Decision Tree

- Random Fores

- K-Nearest Neighbors

Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra. Kết quả cho thấy:

- Polynomial Regression : o MSE = 6226

o R² = 0799

- Decision Tree Regressor o MSE = 24937 o R² = 0.197

- Random Fores Regressor o MSE = 13886

o R² = 0.552

- K-Nearest Neighbors Regressor o MSE = 7144

o R² = 0.769

Dựa trên các thông số MSE và R² của các mô hình trên, ta thấy mô hình Polynomial Regression là mô hình có kết quả đánh giá mối quan hệ giữa Thu nhập hàng năm và Chi tiêu trung bình. Mô hình có R2 Score cao nhất:

0799, giải thích tốt khoảng 80% sự biến động của biến phụ thuộc trên tập kiểm tra. Ngoài ra còn có MSE thấp nhất: 6226, mức độ sai số thấp nhất trong các mô hình.

=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ

4.2.2. Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung.

Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

Nhận xét:

- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy.

- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.

- MSE: MSE là trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán. Giá trị của MSE = 27459.97, mô hình có nhiều sai số rất lớn.

- R²: R-squared là thước đo cho biết tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. R² = 0.115 có nghĩa là khoảng 11% biến thiên của biến phụ thuộc có thể được giải

Code cây quyết định giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và Average_Spend

Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend

Nhận xét:

- Giá trị của MSE = 38823.41, mô hình có nhiều sai số rất lớn

- R² = -0.24 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

c. Rừng ngẫu nhiên

Code rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend

Biểu đồ rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend Nhận xét:

- Giá trị của MSE = 38115.99, mô hình có nhiều sai số rất lớn.

- R² = -0.227 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

d. K láng giềng gần nhất

Code K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend

Biểu đồ K láng giềng gần nhất giữa Overall_Satisfaction và Average_Spend

Nhận xét:

- Giá trị của MSE = 54356.83, mô hình có nhiều sai số rất lớn.

- R² = -0.74 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

- Decision Tree - Random Fores

- K-Nearest Neighbors

Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra. Kết quả cho thấy:

- Polynomial Regression : o MSE = 27459

o R² = 0.115

- Decision Tree Regressor o MSE = 38823 o R² = -0.24

- Random Fores Regressor o MSE = 38115

o R² = -0.227

- K-Nearest Neighbors Regressor o MSE = 54356

o R² = -0.74

Dựa trên các thông số MSE và R² của các mô hình trên, ta không thấy mô hình nào có thể đạt được kết quả tốt.

=> Không có mô hình nào tốt để đánh giá mối quan hệ.

Một phần của tài liệu Đề tài phân tích dữ liệu mua sắm Đồ Án môn phân tích dữ liệu (Trang 54 - 72)

Tải bản đầy đủ (DOCX)

(75 trang)
w