Đề tài phân tích dữ liệu mua sắm Đồ Án môn phân tích dữ liệu

Bảng phân công công việc- Phân tích mối quan hệ giữa Mức độ hài lòng và chi tiêu trung bình - Tiền xử lí dữ liệu 100%... STT Thuộc tính Kiểu dữ liệu Mô tả4 Household Size Int Kích thước

TỔNG QUAN VỀ ĐỒ ÁN

Lý do chọn đề tài

Hành vi mua sắm của khách hàng là yếu tố then chốt mà các doanh nghiệp cần chú ý, ảnh hưởng trực tiếp đến chiến lược kinh doanh và quảng bá sản phẩm Việc nắm bắt thói quen và xu hướng tiêu dùng giúp doanh nghiệp tối ưu hóa quyết định về marketing, quản lý tồn kho và dịch vụ khách hàng, từ đó nâng cao hiệu quả hoạt động và đáp ứng tốt hơn nhu cầu của khách hàng.

Nghiên cứu các yếu tố ảnh hưởng đến hành vi mua sắm của khách hàng là rất quan trọng trong phân tích dữ liệu, giúp doanh nghiệp dự đoán và thích ứng với xu hướng mua sắm thay đổi Việc này không chỉ nâng cao hiệu quả tiếp thị mà còn gia tăng sự hài lòng và lòng trung thành của khách hàng.

Với nhận thức về tầm quan trọng của vấn đề này, em chọn thực hiện đề tài

Phân tích dữ liệu mua sắm là một phương pháp quan trọng để nghiên cứu và xác định các yếu tố chính tác động đến quyết định mua hàng của khách hàng Qua đề tài này, chúng tôi hy vọng cung cấp cái nhìn mới mẻ và giá trị về thói quen mua sắm của người tiêu dùng.

Mục tiêu đồ án

Mục tiêu của đồ án này là phân tích dữ liệu mua sắm để hiểu nhu cầu và hành vi của khách hàng Qua việc khai thác và trực quan hóa dữ liệu, đồ án xác định các yếu tố chính ảnh hưởng đến quyết định mua hàng, bao gồm loại sản phẩm ưa thích, tần suất mua sắm và tác động của chương trình khuyến mãi Kết quả phân tích sẽ giúp doanh nghiệp xây dựng chiến lược kinh doanh tối ưu, cải thiện trải nghiệm khách hàng và nâng cao hiệu quả hoạt động Đồng thời, đồ án cũng thực hành áp dụng các kỹ thuật phân tích dữ liệu hiện đại để giải quyết vấn đề thực tế.

Thông tin về dữ liệu

Tập dữ liệu customers_survey được lấy từ trang web https://www.kaggle.com/.

Dữ liệu này cho biết các thông tin chi tiết về xu hướng mua sắm của khách hàng.

Tập dữ liệu bao gồm 200 dòng, 17 cột dữ liệu:

Age: Tuổi của khách hàng.

Gender: Giới tính của khách hàng.

Income: Thu nhập hàng năm của khách hàng.

Household_Size: Kích thước hộ gia đình, tức là số lượng người trong hộ gia đình.

Overall_Satisfaction: Mức độ hài lòng tổng thể của khách hàng (thang điểm 1-5).

Average_Spend: Chi tiêu trung bình.

Education_Level: Trình độ giáo dục của khách hàng (ví dụ: Trung học, Đại học, Sau đại học).

Employment_Status: Tình trạng việc làm của khách hàng.

Marital_Status: Tình trạng hôn nhân của khách hàng.

Location: Nơi ở của khách hàng.

Shopping_Frequency: Tần suất mua sắm của khách hàng.

Product_Preferences: Sở thích sản phẩm của khách hàng.

Product_Quality_Importance: Độ quan trọng của chất lượng sản phẩm đối với khách hàng (thang điểm 1-5).

Promotions_Discounts_Interest: Mức độ quan tâm đến khuyến mãi và giảm giá (thang điểm 1-5).

Product_Satisfaction: Mức độ hài lòng với sản phẩm mà khách hàng đã mua (thang điểm 1-5).

Thông tin tổng quan về tập dữ liệu

5 dòng đầu của tập dữ liệu

Bảng mô tả dữ liệu

STT Thuộc tính Kiểu dữ liệu Mô tả

2 Gender string Giới tính (Nam/Nữ)

3 Income float Thu nhập hàng tháng

4 Household Size Int Kích thước hộ gia đình

5 Average Spend float Chi tiêu trung bình hàng tháng của khách hàng

6 Overall_Satisfaction Int Mức độ hài lòng tổng thể

7 Education_Level string Trình độ giáo dục

8 Employment Status string Tình trạng việc làm

9 Marital_Status string Tình trạng hôn nhân

10 Location string Vị trí địa lý của khách hàng

11 Shopping Frequency string Tần suất mua sắm

12 Product Preferences string Sở thích sản phẩm

13 Shopping Channels string Kênh mua sắm

14 Payment Methods string Phương thức thanh toán

Importance int Độ quan trọng của chất lượng sản phẩm

Discounts Interest int Mức độ quan tâm đến khuyến mãi và giảm giá

17 Product_Satisfaction int Mức độ hài lòng với sản

Số loại giá trị trong từng cột

TIỀN XỬ LÝ DỮ LIỆU

Kiểm tra dữ liệu không hợp lệ

Tiến hành kiểm tra trong tập dữ liệu có tồn tại những dòng dữ liệu không hợp lệ như:

Dữ liệu thiếu: Dòng dữ liệu không chứa giá trị, NAN (Not a Number), null.

Dữ liệu trùng lặp: các dòng chứa thông tin hoàn toàn giống nhau.

Dữ liệu phân phối không đồng đều có nghĩa là các giá trị trong tập dữ liệu không được phân bố đồng đều, dẫn đến sự chênh lệch đáng kể giữa các phần tử Sự không đồng nhất này gây ra nhiều trở ngại trong quá trình phân tích dữ liệu, ảnh hưởng đến độ chính xác và tính khả thi của các kết quả phân tích.

Giá trị ngoại lai đề cập đến những giá trị có độ lớn quá cao hoặc quá thấp so với các giá trị khác trong tập dữ liệu Ngoài ra, định dạng không đúng xảy ra khi kiểu dữ liệu không tuân thủ các quy tắc đã được thiết lập.

Kiểm tra số giá trị null trong tập dữ liệu

Số dòng trùng lặp trong tập dữ liệu

Nhận xét: Tập dữ liệu không có giá trị null, các dòng trùng lặp, giá trị ngoại lai.

Phải đảm bảo dữ liệu trong tập dữ liệu được chuẩn hóa và đồng nhất.

Nhận xét: Qua hình trên ta thấy hiện tại dữ liệu đã đồng nhất về đơn vị nên không cần phải định dạng lại.

Chuẩn hóa dữ liệu

3.1 Phân tích đối tượng khách hàng

3.1.1 Phân tích khách hàng dựa trên giới tính

Code hàm biểu diễn biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ

PHÂN TÍCH ĐƠN BIẾN

Phân tích đối tượng khách hàng

3.1.1 Phân tích khách hàng dựa trên giới tính

Code hàm biểu diễn biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ biểu đồ tròn biểu diễn tỉ lệ giữa nam và nữ

Code hàm biểu diễn biểu đồ cột biểu diễn tổng số tiền chi tiêu của 2 giới tính

Tổng tiền chi tiêu của hàng 2 nhóm giới tính

Code hàm biểu diễn biểu đồ cột biểu diễn số tiền mua sắm trung bình của nam và nữ

Biểu đồ cột biểu diễn số tiền mua sắm trung bình của nam và nữ

Code hàm biểu diễn biểu đồ cột biểu diễn tần suất mua hàng của nam và nữ

Biểu đồ cột biểu diễn tần suất mua hàng của nam và nữ

Nhận xét: Qua 4 biểu đồ trên,ta rút ra nhiều kết luận sau:

- Tỉ lệ mua hàng của nam chênh lệch 16% so với nữ.

- Có sự chênh lệch lớn giữa tổng số tiền chi tiêu của nam và nữ (nam > nữ)

- Số tiền trung bình dùng để mua sản phẩm thời trang của phái nam và phái nữ không chênh lệch nhau quá lớn.

- Tần suất mua hàng của phái nam đều cao ở các cột mốc, phái nữ tập trung mua sắm cao ở cột mốc hiểm khi.

Phái nam thường có xu hướng chi tiêu và mua sắm nhiều hơn, với số tiền trung bình cho mỗi giao dịch lớn hơn Điều này cho thấy khách hàng nam giới mang lại tiềm năng lớn cần được khai thác và phát triển.

=> Nữ giới ít tham gia mua hàng, tần suất mua hàng thấp, nhưng số tiền trung bình trên 1 đơn hàng không thấp hơn nam giới.

=> Sản phẩm đều thu hút cả hai giới, nhưng với phái nữ vẫn chưa đủ sức hấp dẫn.

3.1.2 Phân tích độ tuổi mua hàng

Nhóm sẽ phân tích độ tuổi theo WHO:

Nhóm vị thành niên (10-19 tuổi)

Người cao tuổi (65 tuổi trở lên)

Dựa trên 5 nhóm tuổi, nhóm nghiên cứu đã loại trừ trẻ em do nhận thức của độ tuổi này chưa đủ để thực hiện hành vi mua sắm.

Code hàm biểu diễn biểu đồ cột biểu diễn số lượng.

Biểu đồ thể hiện số lượng mua hàng của các nhóm độ tuổi

Code hàm biểu diễn tổng số tiền mua sắm của các nhóm tuổi biểu diễn tổng số tiền chi tiêu của các nhóm tuổi

Code hàm biểu diễn số tiền trung bình mua sắm của các nhóm tuổi

Biểu đồ cột biểu diễn tần suất mua hàng của các nhóm tuổi

Nhận xét: Qua 4 biểu đồ liên quan đến nhóm tuổi, ta có thể rút ra kết luận:

- Nhóm khách hàng trưởng thành (25-64 tuổi) chiếm tỷ trọng áp đảo.

- Tổng số tiền và số lượng sản phẩm đã mua của nhóm tuổi trưởng thành là doanh thu chính.

- Giá trị số tiền chi tiêu trung bình giữa các nhóm tuổi khá đồng đều, không có sự chênh lệch đáng kể

Phân tích tần suất mua hàng theo độ tuổi cho thấy nhóm khách hàng trưởng thành chiếm ưu thế rõ rệt trong tất cả các thời điểm khảo sát.

Sự chênh lệch này khá rõ rệt so với các nhóm tuổi còn lại.

Nhóm khách hàng trưởng thành đóng vai trò quan trọng trong việc thúc đẩy doanh thu, với tổng chi tiêu cao và tần suất mua sắm lớn Độ tuổi này không chỉ chiếm ưu thế về số lượng mà còn sở hữu tiềm năng phát triển mạnh mẽ, do đó cần được chú trọng trong các chiến lược tiếp thị.

=> Vẫn chưa khai thác được nhiều từ các nhóm tuổi còn lại.

Phân tích điểm đánh giá

3.2.1 Mức độ hài lòng với sản phẩm

Code hàm biểu diễn điểm đánh giá trung bình của sản phẩm biểu diễn điểm đánh giá trung bình của các loại mặt hàng

Các mặt hàng đều có điểm đánh giá trung bình tương đối đồng đều, không có sự chênh lệch lớn giữa chúng Tuy nhiên, điểm đánh giá tổng thể vẫn chưa đạt mức cao.

Mặc dù các mặt hàng hiện tại chỉ đạt mức trung bình, nhưng giá cả vẫn chưa tương xứng với chất lượng sản phẩm, dẫn đến ấn tượng không tốt từ phía khách hàng.

3.2.2 Mức độ quan tâm tới mã giảm giá

Code hàm biểu diễn mức độ quan tâm giảm giá biểu diễn mức độ quan tâm giảm giá

Nhận xét: Nhìn chung thì số lượng quan tâm tới mã giảm giá chiếm số lượng lớn nhất (4-5)

=> Khách hàng có chú ý đến những sản phẩm có giảm giá.

3.2.3 Số lượng sản phẩm bán được ở các khu vực

Code hàm biểu diễn số lượng sản phẩm được bán ra ở các khu vực

Biểu diễn số lượng sản phẩm được bán ra ở các khu vực

Nhận xét: 3 khu vực có số lượng mặt hàng bán ra khá đồng đều, không chênh lệch quá lớn

Phân tích hành vi thanh toán

3.3.1 Phân tích sự ưa chuộng của các phương thức thanh toán

Code hàm biểu diễn tỉ lệ sử dụng các phương thức thanh toán

Diễn tỉ lệ sử dụng các phương thức thanh toán

Nhận xét: Các phương thức thanh toán như có tỷ lệ gần như tương đương, Nhưng cash có phần thấp hơn so với 2 phương thức còn lại.

=> Phương thức thanh toán tiền mặt đang giảm dần so với các phương thức thanh toán hiện đại.

3.3.2 Tìm hiểu sự lựa chọn kênh mua sắm

Code hàm biểu diễn tỉ lệ sử dụng các kênh mua sắm biểu diễn tỉ lệ sử dụng các kênh mua sắm

Nhận xét: Xu hướng mua sắm kết hợp giữa trực tuyến và trực tiếp đang trở thành lựa chọn ưu tiên của nhiều người tiêu dùng.

PHÂN TÍCH ĐA BIẾN

Khách hàng nam

4.1.1 Phân tích mối quan hệ giữa Thu nhập - Chi tiêu trung bình. a Hồi quy đa biến

Code hồi quy đa thức giữa Income và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend

- Hệ số hồi quy: Đây là hệ số hồi quy cho biến độc lập trong mô hình hồi quy

- Intercept: Đây là giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.

MSE (Mean Squared Error) là chỉ số đo lường độ chính xác của mô hình dự đoán, được tính bằng trung bình bình phương của sai số giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 5642.95, cho thấy mô hình đang gặp nhiều sai số lớn trong việc dự đoán.

R-squared (R²) là một chỉ số quan trọng trong phân tích hồi quy, cho biết tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Ví dụ, nếu R² = 0.780, điều này có nghĩa là khoảng 78% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình Cây quyết định cũng là một phương pháp hữu ích trong việc phân tích và dự đoán, giúp hình thành các quyết định dựa trên dữ liệu.

Code cây quyết định giữa Income và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend

Biểu đồ cây quyết định giữa Income và Average_Spend

- Giá trị của MSE = 12412, mô hình có nhiều sai số rất lớn

- R² = 0.518 có nghĩa là khoảng 52% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên

Code rừng ngẫu nhiên giữa Income và Average_Spend

Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend

Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend

- Giá trị của MSE = 7267, mô hình có nhiều sai số rất lớn.

- R² = 0.718 có nghĩa là khoảng 72% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất

Code K láng giềng gần nhất giữa Income và Average_Spend

Các chỉ số đánh giá K láng giềng gần nhất giữa Income và

Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend

- Giá trị của MSE = 5782, mô hình có nhiều sai số khá lớn.

- R² = 0.775 có nghĩa là khoảng 78% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình

Thông qua 4 mô hình khác nhau:

Mỗi mô hình được đánh giá thông qua chỉ số R2 Score và MSE để đánh giá chất lượng dự đoán trên tập kiểm tra Kết quả cho thấy:

Dựa vào các chỉ số MSE và R², mô hình Hồi quy đa thức (Polynomial Regression) cho thấy kết quả tốt nhất trong việc đánh giá mối quan hệ giữa Thu nhập và Chi tiêu trung bình Cụ thể, mô hình này đạt R² Score cao nhất là 0.78, cho thấy nó giải thích khoảng 78% sự biến động của biến phụ thuộc trong tập kiểm tra Hơn nữa, mô hình cũng có MSE thấp nhất là 5642.95, chỉ ra mức độ sai số thấp nhất trong số các mô hình được xem xét.

=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ

4.1.2 Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung bình.

Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và

Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

MSE, hay trung bình bình phương của sai số, đo lường sự khác biệt giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 25272.81, mô hình hiện tại cho thấy nhiều sai số lớn, cần được cải thiện để nâng cao độ chính xác.

R-squared (R²) là một chỉ số quan trọng trong phân tích hồi quy, cho thấy tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Cụ thể, giá trị R² = 0.018 chỉ ra rằng chỉ khoảng 1.8% biến thiên của biến phụ thuộc có thể được giải thích thông qua mô hình này.

Code cây quyết định giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và

Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend

- Giá trị của MSE = 26479.29, mô hình có nhiều sai số rất lớn

- R² = -0.028 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên

Code rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá rừng ngẫu nhiên giữa Overall_Satisfaction và

Biểu đồ rừng ngẫu nhiên giữa Overall_Satisfaction và Average_Spend

- Giá trị của MSE = 26223.11, mô hình có nhiều sai số rất lớn.

- R² = -0.018 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất

Code K láng giềng gần nhất giữa Overall_Satisfaction và

Các chỉ số đánh giá K láng giềng gần nhất giữa Overall_Satisfaction và

Biểu đồ K láng giềng gần nhất giữa Overall_Satisfaction và

- R² = 0.028 có nghĩa là khoảng 2.8% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

Dựa trên các thông số MSE và R² của các mô hình trên, ta không thấy mô hình nào có thể đạt được kết quả tốt.

=> Không có mô hình nào tốt để đánh giá mối quan hệ.

Khách hàng nữ

4.2.1 Phân tích mối quan hệ giữa Thu nhập- Chi tiêu trung bình. a Hồi quy đa biến

Code hồi quy đa thức giữa Income và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Income và Average_Spend

Biểu đồ hồi quy đa thức giữa Income và Average_Spend

MSE, hay trung bình bình phương của sai số, đo lường sự khác biệt giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE là 6226.66, mô hình hiện tại cho thấy có nhiều sai số lớn, điều này cho thấy cần cải thiện độ chính xác của dự đoán.

R-squared (R²) là chỉ số đo lường tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình, với giá trị R² = 0.799 cho thấy khoảng 80% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình Cây quyết định là một công cụ hữu ích trong việc phân tích dữ liệu và đưa ra quyết định dựa trên các biến này.

Code cây quyết định giữa Income và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Income và Average_Spend

Biểu đồ cây quyết định giữa Income và Average_Spend

- Giá trị của MSE = 24937, mô hình có nhiều sai số rất lớn

- R² = 0.197 có nghĩa là khoảng 20% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên

Code rừng ngẫu nhiên giữa Income và Average_Spend

Các chỉ số đánh giá rừng ngẫu nhiên giữa Income và Average_Spend

Biểu đồ rừng ngẫu nhiên giữa Income và Average_Spend

- R² = 0.552 có nghĩa là khoảng 55% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. d K láng giềng gần nhất

Code K láng giềng gần nhất giữa Income và Average_Spend

Các chỉ số đánh giá K láng giềng gần nhất giữa Income và

Biểu đồ K láng giềng gần nhất giữa Income và Average_Spend

- Giá trị của MSE = 7144, mô hình có nhiều sai số khá lớn.

- R² = 0.769 có nghĩa là khoảng 77% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình.

***Kết luận quá trình phân tích mối quan hệ Thu nhập - Chi tiêu trung bình

Thông qua 4 mô hình khác nhau:

Dựa trên các chỉ số MSE và R², mô hình Hồi quy đa thức (Polynomial Regression) cho thấy kết quả tốt nhất trong việc đánh giá mối quan hệ giữa thu nhập hàng năm và chi tiêu trung bình, với R² Score cao nhất.

Mô hình 0799 giải thích khoảng 80% sự biến động của biến phụ thuộc trên tập kiểm tra và đạt được MSE thấp nhất là 6226, cho thấy mức độ sai số thấp nhất trong các mô hình.

=> Mô hình Polynomial Regression là lựa chọn tốt nhất để đánh giá mối quan hệ

4.2.2 Phân tích mối quan hệ giữa Mức độ hài lòng tổng thể - Chi tiêu trung.

Code hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá hồi quy đa thức giữa Overall_Satisfaction và

Biểu đồ hồi quy đa thức giữa Overall_Satisfaction và Average_Spend

MSE, hay trung bình bình phương của sai số, đo lường độ chính xác giữa giá trị thực tế và giá trị dự đoán Với giá trị MSE đạt 27,459.97, mô hình hiện tại cho thấy nhiều sai số lớn, cho thấy cần cải thiện độ chính xác của dự đoán.

R-squared (R²) là chỉ số thể hiện tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình Cụ thể, giá trị R² = 0.115 cho thấy khoảng 11% biến thiên của biến phụ thuộc có thể được giải thích.

Code cây quyết định giữa Overall_Satisfaction và Average_Spend

Các chỉ số đánh giá cây quyết định giữa Overall_Satisfaction và

Biểu đồ cây quyết định giữa Overall_Satisfaction và Average_Spend

- Giá trị của MSE = 38823.41, mô hình có nhiều sai số rất lớn

- R² = -0.24 có nghĩa là khoảng 0% biến thiên của biến phụ thuộc có thể được giải thích bởi mô hình. c Rừng ngẫu nhiên