Bảng phân công công việc- Phân tích mối quan hệ giữa Mức độ hài lòng và chi tiêu trung bình - Tiền xử lí dữ liệu 100%... STT Thuộc tính Kiểu dữ liệu Mô tả4 Household Size Int Kích thước
TỔNG QUAN VỀ ĐỒ ÁN
Lý do chọn đề tài
Hành vi mua sắm của khách hàng là yếu tố then chốt mà các doanh nghiệp cần chú ý, ảnh hưởng trực tiếp đến chiến lược kinh doanh và quảng bá sản phẩm Việc nắm bắt thói quen và xu hướng tiêu dùng giúp doanh nghiệp tối ưu hóa quyết định về marketing, quản lý tồn kho và dịch vụ khách hàng, từ đó nâng cao hiệu quả hoạt động và đáp ứng tốt hơn nhu cầu của khách hàng.
Nghiên cứu các yếu tố ảnh hưởng đến hành vi mua sắm của khách hàng là rất quan trọng trong phân tích dữ liệu, giúp doanh nghiệp dự đoán và thích ứng với xu hướng mua sắm thay đổi Việc này không chỉ nâng cao hiệu quả tiếp thị mà còn gia tăng sự hài lòng và lòng trung thành của khách hàng.
Với nhận thức về tầm quan trọng của vấn đề này, em chọn thực hiện đề tài
Phân tích dữ liệu mua sắm là một phương pháp quan trọng để nghiên cứu và xác định các yếu tố chính tác động đến quyết định mua hàng của khách hàng Qua đề tài này, chúng tôi hy vọng cung cấp cái nhìn mới mẻ và giá trị về thói quen mua sắm của người tiêu dùng.
Mục tiêu đồ án
Mục tiêu của đồ án này là phân tích dữ liệu mua sắm để hiểu nhu cầu và hành vi của khách hàng Qua việc khai thác và trực quan hóa dữ liệu, đồ án xác định các yếu tố chính ảnh hưởng đến quyết định mua hàng, bao gồm loại sản phẩm ưa thích, tần suất mua sắm và tác động của chương trình khuyến mãi Kết quả phân tích sẽ giúp doanh nghiệp xây dựng chiến lược kinh doanh tối ưu, cải thiện trải nghiệm khách hàng và nâng cao hiệu quả hoạt động Đồng thời, đồ án cũng thực hành áp dụng các kỹ thuật phân tích dữ liệu hiện đại để giải quyết vấn đề thực tế.
Thông tin về dữ liệu
Tập dữ liệu customers_survey được lấy từ trang web https://www.kaggle.com/.
Dữ liệu này cho biết các thông tin chi tiết về xu hướng mua sắm của khách hàng.
Tập dữ liệu bao gồm 200 dòng, 17 cột dữ liệu:
Age: Tuổi của khách hàng.
Gender: Giới tính của khách hàng.
Income: Thu nhập hàng năm của khách hàng.
Household_Size: Kích thước hộ gia đình, tức là số lượng người trong hộ gia đình.
Overall_Satisfaction: Mức độ hài lòng tổng thể của khách hàng (thang điểm 1-5).
Average_Spend: Chi tiêu trung bình.
Education_Level: Trình độ giáo dục của khách hàng (ví dụ: Trung học, Đại học, Sau đại học).
Employment_Status: Tình trạng việc làm của khách hàng.
Marital_Status: Tình trạng hôn nhân của khách hàng.
Location: Nơi ở của khách hàng.
Shopping_Frequency: Tần suất mua sắm của khách hàng.
Product_Preferences: Sở thích sản phẩm của khách hàng.
Product_Quality_Importance: Độ quan trọng của chất lượng sản phẩm đối với khách hàng (thang điểm 1-5).
Promotions_Discounts_Interest: Mức độ quan tâm đến khuyến mãi và giảm giá (thang điểm 1-5).
Product_Satisfaction: Mức độ hài lòng với sản phẩm mà khách hàng đã mua (thang điểm 1-5).
Thông tin tổng quan về tập dữ liệu
5 dòng đầu của tập dữ liệu
Bảng mô tả dữ liệu
STT Thuộc tính Kiểu dữ liệu Mô tả
2 Gender string Giới tính (Nam/Nữ)
3 Income float Thu nhập hàng tháng
4 Household Size Int Kích thước hộ gia đình
5 Average Spend float Chi tiêu trung bình hàng tháng của khách hàng
6 Overall_Satisfaction Int Mức độ hài lòng tổng thể
7 Education_Level string Trình độ giáo dục
8 Employment Status string Tình trạng việc làm
9 Marital_Status string Tình trạng hôn nhân
10 Location string Vị trí địa lý của khách hàng
11 Shopping Frequency string Tần suất mua sắm
12 Product Preferences string Sở thích sản phẩm
13 Shopping Channels string Kênh mua sắm
14 Payment Methods string Phương thức thanh toán
Importance int Độ quan trọng của chất lượng sản phẩm
Discounts Interest int Mức độ quan tâm đến khuyến mãi và giảm giá
17 Product_Satisfaction int Mức độ hài lòng với sản
Số loại giá trị trong từng cột
TIỀN XỬ LÝ DỮ LIỆU
Kiểm tra dữ liệu không hợp lệ
Tiến hành kiểm tra trong tập dữ liệu có tồn tại những dòng dữ liệu không hợp lệ như:
Dữ liệu thiếu: Dòng dữ liệu không chứa giá trị, NAN (Not a Number), null.
Dữ liệu trùng lặp: các dòng chứa thông tin hoàn toàn giống nhau.
Dữ liệu phân phối không đồng đều có nghĩa là các giá trị trong tập dữ liệu không được phân bố đồng đều, dẫn đến sự chênh lệch đáng kể giữa các phần tử Sự không đồng nhất này gây ra nhiều trở ngại trong quá trình phân tích dữ liệu, ảnh hưởng đến độ chính xác và tính khả thi của các kết quả phân tích.
Giá trị ngoại lai đề cập đến những giá trị có độ lớn quá cao hoặc quá thấp so với các giá trị khác trong tập dữ liệu Ngoài ra, định dạng không đúng xảy ra khi kiểu dữ liệu không tuân thủ các quy tắc đã được thiết lập.
Kiểm tra số giá trị null trong tập dữ liệu
Số dòng trùng lặp trong tập dữ liệu
Nhận xét: Tập dữ liệu không có giá trị null, các dòng trùng lặp, giá trị ngoại lai.
Phải đảm bảo dữ liệu trong tập dữ liệu được chuẩn hóa và đồng nhất.
Nhận xét: Qua hình trên ta thấy hiện tại dữ liệu đã đồng nhất về đơn vị nên không cần phải định dạng lại.
Chuẩn hóa dữ liệu
3.1 Phân tích đối tượng khách hàng
3.1.1 Phân tích khách hàng dựa trên giới tính
Code hàm biểu diễn biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ
PHÂN TÍCH ĐƠN BIẾN
Phân tích đối tượng khách hàng
3.1.1 Phân tích khách hàng dựa trên giới tính
Code hàm biểu diễn biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ
Code hàm biểu diễn biểu đồ cột biểu diễn tổng số tiền chi tiêu của 2 giới tính
Tổng tiền chi tiêu của hàng 2 nhóm giới tính
Code hàm biểu diễn biểu đồ cột biểu diễn số tiền mua sắm trung bình của nam và nữ
Biểu đồ cột biểu diễn số tiền mua sắm trung bình của nam và nữ
Code hàm biểu diễn biểu đồ cột biểu diễn tần suất mua hàng của nam và nữ
Biểu đồ cột biểu diễn tần suất mua hàng của nam và nữ
Nhận xét: Qua 4 biểu đồ trên,ta rút ra nhiều kết luận sau:
- Tỉ lệ mua hàng của nam chênh lệch 16% so với nữ.
- Có sự chênh lệch lớn giữa tổng số tiền chi tiêu của nam và nữ (nam > nữ)
- Số tiền trung bình dùng để mua sản phẩm thời trang của phái nam và phái nữ không chênh lệch nhau quá lớn.
- Tần suất mua hàng của phái nam đều cao ở các cột mốc, phái nữ tập trung mua sắm cao ở cột mốc hiểm khi.
Phái nam thường có xu hướng chi tiêu và mua sắm nhiều hơn, với số tiền trung bình cho mỗi giao dịch lớn hơn Điều này cho thấy khách hàng nam giới mang lại tiềm năng lớn cần được khai thác và phát triển.
=> Nữ giới ít tham gia mua hàng, tần suất mua hàng thấp, nhưng số tiền trung bình trên 1 đơn hàng không thấp hơn nam giới.
=> Sản phẩm đều thu hút cả hai giới, nhưng với phái nữ vẫn chưa đủ sức hấp dẫn.
3.1.2 Phân tích độ tuổi mua hàng
Nhóm sẽ phân tích độ tuổi theo WHO:
Nhóm vị thành niên (10-19 tuổi)
Người cao tuổi (65 tuổi trở lên)
Dựa trên 5 nhóm tuổi, nhóm nghiên cứu đã loại trừ trẻ em do nhận thức của độ tuổi này chưa đủ để thực hiện hành vi mua sắm.
Code hàm biểu diễn biểu đồ cột biểu diễn số lượng.
Biểu đồ thể hiện số lượng mua hàng của các nhóm độ tuổi
Code hàm biểu diễn tổng số tiền mua sắm của các nhóm tuổi biểu diễn tổng số tiền chi tiêu của các nhóm tuổi
Code hàm biểu diễn số tiền trung bình mua sắm của các nhóm tuổi
Biểu đồ cột biểu diễn tần suất mua hàng của các nhóm tuổi
Biểu đồ cột biểu diễn tần suất mua hàng của các nhóm tuổi
Nhận xét: Qua 4 biểu đồ liên quan đến nhóm tuổi, ta có thể rút ra kết luận:
- Nhóm khách hàng trưởng thành (25-64 tuổi) chiếm tỷ trọng áp đảo.
- Tổng số tiền và số lượng sản phẩm đã mua của nhóm tuổi trưởng thành là doanh thu chính.
- Giá trị số tiền chi tiêu trung bình giữa các nhóm tuổi khá đồng đều, không có sự chênh lệch đáng kể
Phân tích tần suất mua hàng theo độ tuổi cho thấy nhóm khách hàng trưởng thành chiếm ưu thế rõ rệt trong tất cả các thời điểm khảo sát.
Sự chênh lệch này khá rõ rệt so với các nhóm tuổi còn lại.
Nhóm khách hàng trưởng thành đóng vai trò quan trọng trong việc thúc đẩy doanh thu, với tổng chi tiêu cao và tần suất mua sắm lớn Độ tuổi này không chỉ chiếm ưu thế về số lượng mà còn sở hữu tiềm năng phát triển mạnh mẽ, do đó cần được chú trọng trong các chiến lược tiếp thị.
=> Vẫn chưa khai thác được nhiều từ các nhóm tuổi còn lại.
Phân tích điểm đánh giá
3.2.1 Mức độ hài lòng với sản phẩm
Code hàm biểu diễn điểm đánh giá trung bình của sản phẩm biểu diễn điểm đánh giá trung bình của các loại mặt hàng
Các mặt hàng đều có điểm đánh giá trung bình tương đối đồng đều, không có sự chênh lệch lớn giữa chúng Tuy nhiên, điểm đánh giá tổng thể vẫn chưa đạt mức cao.
Mặc dù các mặt hàng hiện tại chỉ đạt mức trung bình, nhưng giá cả vẫn chưa tương xứng với chất lượng sản phẩm, dẫn đến ấn tượng không tốt từ phía khách hàng.
3.2.2 Mức độ quan tâm tới mã giảm giá
Code hàm biểu diễn mức độ quan tâm giảm giá biểu diễn mức độ quan tâm giảm giá
Nhận xét: Nhìn chung thì số lượng quan tâm tới mã giảm giá chiếm số lượng lớn nhất (4-5)
=> Khách hàng có chú ý đến những sản phẩm có giảm giá.
3.2.3 Số lượng sản phẩm bán được ở các khu vực
Code hàm biểu diễn số lượng sản phẩm được bán ra ở các khu vực
Biểu diễn số lượng sản phẩm được bán ra ở các khu vực
Nhận xét: 3 khu vực có số lượng mặt hàng bán ra khá đồng đều, không chênh lệch quá lớn
Phân tích hành vi thanh toán
3.3.1 Phân tích sự ưa chuộng của các phương thức thanh toán
Code hàm biểu diễn tỉ lệ sử dụng các phương thức thanh toán
Diễn tỉ lệ sử dụng các phương thức thanh toán
Nhận xét: Các phương thức thanh toán như có tỷ lệ gần như tương đương, Nhưng cash có phần thấp hơn so với 2 phương thức còn lại.
=> Phương thức thanh toán tiền mặt đang giảm dần so với các phương thức thanh toán hiện đại.
3.3.2 Tìm hiểu sự lựa chọn kênh mua sắm
Code hàm biểu diễn tỉ lệ sử dụng các kênh mua sắm biểu diễn tỉ lệ sử dụng các kênh mua sắm
Nhận xét: Xu hướng mua sắm kết hợp giữa trực tuyến và trực tiếp đang trở thành lựa chọn ưu tiên của nhiều người tiêu dùng.
PHÂN TÍCH ĐA BIẾN
Khách hàng nam
4.1.1 Phân tích mối quan hệ giữa Thu nhập - Chi tiêu trung bình. a Hồi quy đa biến
Code hồi quy đa thức giữa Income và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
MSE (Mean Squared Error) là chỉ số đo lường độ chính xác của mô hình dự đoán, được tính bằng trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 5642.95, cho thấy mô hình đang gặp nhiều sai số lớn trong việc dự đoán.
R-squared (R²) là một chỉ số quan trọng trong phân tích hồi quy, cho biết tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Ví dụ, nếu R² = 0.780, điều này có nghĩa là khoảng 78% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình Cây quyết định cũng là một phương pháp hữu ích trong việc phân tích và dự đoán, giúp hình thành các quyết định dựa trên dữ liệu.
Code cây quyết định giữa Income và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend
Biểu đồ cây quyết định giữa Income và Average_Spend
- Giá trị của MSE = 12412, mô hình có nhiều sai số rất lớn
- R² = 0.518 có nghĩa là khoảng 52% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Income và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend
Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend
- Giá trị của MSE = 7267, mô hình có nhiều sai số rất lớn.
- R² = 0.718 có nghĩa là khoảng 72% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất
Code K láng giềng gần nhất giữa Income và Average_Spend
Các chỉ số đánh giá K láng giềng gần nhất giữa Income và
Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend
- Giá trị của MSE = 5782, mô hình có nhiều sai số khá lớn.
- R² = 0.775 có nghĩa là khoảng 78% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình
Thông qua 4 mô hình khác nhau:
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra Kết quả cho thấy:
Dựa vào các chỉ số MSE và R², mô hình Hồi quy đa thức (Polynomial Regression) cho thấy kết quả tốt nhất trong việc đánh giá mối quan hệ giữa Thu nhập và Chi tiêu trung bình Cụ thể, mô hình này đạt R² Score cao nhất là 0.78, cho thấy nó giải thích khoảng 78% sự biến động của biến phụ thuộc trong tập kiểm tra Hơn nữa, mô hình cũng có MSE thấp nhất là 5642.95, chỉ ra mức độ sai số thấp nhất trong số các mô hình được xem xét.
=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ
4.1.2 Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung bình.
Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và
Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
MSE, hay trung bình bình phương của sai số, đo lường sự khác biệt giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 25272.81, mô hình hiện tại cho thấy nhiều sai số lớn, cần được cải thiện để nâng cao độ chính xác.
R-squared (R²) là một chỉ số quan trọng trong phân tích hồi quy, cho thấy tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Cụ thể, giá trị R² = 0.018 chỉ ra rằng chỉ khoảng 1.8% biến thiên của biến phụ thuộc có thể được giải thích thông qua mô hình này.
Code cây quyết định giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và
Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend
- Giá trị của MSE = 26479.29, mô hình có nhiều sai số rất lớn
- R² = -0.028 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Overall_Satisfaction và
Biểu đồ rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
- Giá trị của MSE = 26223.11, mô hình có nhiều sai số rất lớn.
- R² = -0.018 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất
Code K láng giềng gần nhất giữa Overall_Satisfaction và
Các chỉ số đánh giá K láng giềng gần nhất giữa Overall_Satisfaction và
Biểu đồ K láng giềng gần nhất giữa Overall_Satisfaction và
- Giá trị của MSE = 24997, mô hình có nhiều sai số rất lớn.
- R² = 0.028 có nghĩa là khoảng 2.8% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra Kết quả cho thấy:
Dựa trên các thông số MSE và R² của các mô hình trên, ta không thấy mô hình nào có thể đạt được kết quả tốt.
=> Không có mô hình nào tốt để đánh giá mối quan hệ.
Khách hàng nữ
4.2.1 Phân tích mối quan hệ giữa Thu nhập- Chi tiêu trung bình. a Hồi quy đa biến
Code hồi quy đa thức giữa Income và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend
Biểu đồ hồi quy đa thức giữa Income và Average_Spend
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
MSE, hay trung bình bình phương của sai số, đo lường sự khác biệt giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 6226.66, mô hình hiện tại cho thấy có nhiều sai số lớn, điều này cho thấy cần cải thiện độ chính xác của dự đoán.
R-squared (R²) là chỉ số đo lường tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình, với giá trị R² = 0.799 cho thấy khoảng 80% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình Cây quyết định là một công cụ hữu ích trong việc phân tích dữ liệu và đưa ra quyết định dựa trên các biến này.
Code cây quyết định giữa Income và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend
Biểu đồ cây quyết định giữa Income và Average_Spend
- Giá trị của MSE = 24937, mô hình có nhiều sai số rất lớn
- R² = 0.197 có nghĩa là khoảng 20% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Income và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend
Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend
- Giá trị của MSE = 13886, mô hình có nhiều sai số rất lớn.
- R² = 0.552 có nghĩa là khoảng 55% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất
Code K láng giềng gần nhất giữa Income và Average_Spend
Các chỉ số đánh giá K láng giềng gần nhất giữa Income và
Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend
- Giá trị của MSE = 7144, mô hình có nhiều sai số khá lớn.
- R² = 0.769 có nghĩa là khoảng 77% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình
Thông qua 4 mô hình khác nhau:
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra Kết quả cho thấy:
Dựa trên các chỉ số MSE và R², mô hình Hồi quy đa thức (Polynomial Regression) cho thấy kết quả tốt nhất trong việc đánh giá mối quan hệ giữa thu nhập hàng năm và chi tiêu trung bình, với R² Score cao nhất.
Mô hình 0799 giải thích khoảng 80% sự biến động của biến phụ thuộc trên tập kiểm tra và đạt được MSE thấp nhất là 6226, cho thấy mức độ sai số thấp nhất trong các mô hình.
=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ
4.2.2 Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung.
Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và
Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend
- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy
- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
MSE, hay trung bình bình phương của sai số, đo lường độ chính xác giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE đạt 27,459.97, mô hình hiện tại cho thấy nhiều sai số lớn, cho thấy cần cải thiện độ chính xác của dự đoán.
R-squared (R²) là chỉ số thể hiện tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Cụ thể, giá trị R² = 0.115 cho thấy khoảng 11% biến thiên của biến phụ thuộc có thể được giải thích.
Code cây quyết định giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và
Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend
- Giá trị của MSE = 38823.41, mô hình có nhiều sai số rất lớn
- R² = -0.24 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên
Code rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
Các chỉ số đánh giá rừng ngẫu nhiên giữa Overall_Satisfaction và
Biểu đồ rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend
- Giá trị của MSE = 38115.99, mô hình có nhiều sai số rất lớn.
- R² = -0.227 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất
Code K láng giềng gần nhất giữa Overall_Satisfaction và
Các chỉ số đánh giá K láng giềng gần nhất giữa Overall_Satisfaction và
Biểu đồ K láng giềng gần nhất giữa Overall_Satisfaction và
- Giá trị của MSE = 54356.83, mô hình có nhiều sai số rất lớn.
- R² = -0.74 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.
Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra Kết quả cho thấy:
Dựa trên các thông số MSE và R² của các mô hình trên, ta không thấy mô hình nào có thể đạt được kết quả tốt.
=> Không có mô hình nào tốt để đánh giá mối quan hệ.