1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án kết thúc học phần khoa học dữ liệu đề tài xây dựng mô hình phân tích dữ liệu để xác định khách hàng tiềm năng cho siêu thị

44 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BO GIAO DUC VA DAO TAO DAI HOC KINH TE TP HO CHI MINH

UEH

UNIVERSITY

DO AN KET THUC HOC PHAN

Môn học: Khoa học đữ liệu

DE TAI: XAY DUNG MO HiNH PHAN TICH DU LIEU DE XAC ĐỊNH KHACH HANG TIEM NANG CHO SIEU THI

Giáng viên hướng dẫn Mã lớp học phần

Phòng học

Nhóm sinh viên thực hiện

Nguyễn Châu Anh

Nguyễn Phương Nhung Nguyễn Thị Kim Cương Hoàng Ngọc Anh Trần Hoàng Minh

Nguyễn Mạnh Tuan

23CTINE50905969 B2-103-ST7

MSSV 31221027053 31221026813 31221023123 31221021529 31221021126

TP Hồ Chi Minh, ngay 8 thang 12 nam 2023 1

Trang 2

BANG DANH GIA MUC BO THAM GIA CUA CAC THANH VIEN

STT Ho va Tén Nhiém vu Danh gia

Nguyễn Châu Anh - Thảo luận đề tải

Hoàng Ngọc Anh - Thảo luận đề tài

- Xây dựng phương pháp phân lớp dữ liêư;

thực hiên bài toán phân lớp

100%

Trần Hoàng Minh - Tổng quan lý thuyết chương 1

Trang 3

Danh muc bang

Bang: Mô tả về những thuộc tính (Attribute) của dữ liệu

Danh mục hình ảnh

Hình 1: Xây dựng mô hình phân lớp Hình 2: Đánh giá mô hình phân lớp Hình 3: Quá trình phẫn lớp dữ liệu Hình 4: Quá trình phân cụm dữ liệu

Hình 5: Phân cụm dữ liệu bằng phương pháp K-means Hình 6: Các bước phân cụm bằng phương pháp K-means Hình 7: Quy trình lọc trường không cần thiết

Hình 8: Thông tin dữ liệu trong bảng Rank

Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler Hình 10: Xác định trường là biến phụ thuộc với Select column Hình 11: Mô hình churn bị dữ liệu

Hình 12: Quá trình thực hiện phân tách dữ liệu Hình 13: Xây dựng mô hình phân lớp dữ liệu

Hình 14: Kết quả đánh giá mô hình bằng phương pháp K-fold Hình 15: Kết quả ma trận nhằm lẫn của phương pháp Tree

Hình 16: Kết quả ma trận nhằm lẫn của phương pháp Logistic Regression Hình 17: Kết quả ma trận nhằm lẫn của phương pháp SVM

Hình 18: Kết quả ma trận nhằm lẫn của phương pháp Neural Network

Hình 19: Mô hình dự báo khách hàng tiềm năng Hình 20: Kết quả dự báo

Hình 21: Mô hình phan cum theo k-Means

Hình 22: Kết quả k-Means

Hình 23: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2 cụm Hình 24: Kết quả 2 mẫu quan sát có chỉ số Silhouette cao nhất của từng cum

Trang 4

Danh mục biểu đồ

Biểu đồ 1: Biểu đồ thể hiện phân loại khách hàng

Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng

Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán

Biểu đồ 5: Biểu đồ thể hiện vị trí các chỉ nhánh siêu thị

Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng

(thang điểm 10)

Biểu đồ 7: Biểu đồ thể hiện phân loại sản phrm Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng Nguồn dữ liệu, các xử lý, file Excel, Orange :

https://drive.google.com/drive/folders/l_ Frf5xKựl9Nvo76U4d6ZpUlóxuw0GfNC? foclid=IwA611GZ8s-yO5 XGkmevKpWxkGSqabytly3g4s-2IkjJJ9Z_ 72JFiMwfh2Kk6mJ0

Trang 5

Chương 1 Tong quan 7

1.1 Giới thiệu khoa học dữ liệu - 2301001010101 19911 ng KTS HT TT ky 7

1.2 Giới thiệu về đỗ án 22-22 2 2221221122112221211122112211211211221112112112122122 re 8

Chương 2: Quy trình thực hiện và kết quả 15

2.1 Mô tả nguồn dữ liệu và cầu trúc của dữ liệu 2 5c S1 1E SE 1E tr Hee 15 2.2 Tiền xử lý dữ liệu ST E1 1221111 tt 111212121 1 H1 ng Han 16 2.2.1 Xử lý và lọc các dữ liệu bị thiếu, các trường không cân thiết 16

2.2.2 Phân tách dit @U 0 ccccccccecscesssesssesssessesssvesseessvesssessvesssetiesstestesssssesseeaneasen 17

2.3 Xác định biến độc lập và biến phụ thuộc - 5-55 1 1 SE 21121271211 21E.1EEEEe.rtee 18

2.4 Bài toán I: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc

thù của bộ đữ liệu - 2-21 221 2212221121122711221121122112112111211222 re 19 2.4.1 Mô tả bài toán s55: 2s 211221122112211211221121112112211212112122 rau 19

2.4.2 Tiên hành phân tích dữ liệu 2S SE E121 E121121112E12121 E821 1E re 19

2.4.3 Kết luận bài toán I 5: 2221 21221122122112212222212211221 re 26

2.5 Bài toán 2: Bài toán phân lớp, 5 1 22 2221121111211 152115 1115111512511 111gr 27

2.5.1 Mô tả bài toán s 221 2222212211221 rukg 27

2.5.2 Chạy mô hình và đánh giá kết quả 5: 2s SE E2 11221122111 trrre 27

2.6 Bài toán 3: Bài toán phân cụm - c2 2211211112115 1151 1151115 1 5 E111 xá ke ườy 38

2.6.1 Mô tả bài toán - 5: 2s 221 221122112211211221121112112211222112112 rau 38

Trang 6

LOI MO DAU

Khoa học dữ liệu là một lĩnh vực mới mẻ và đầy tiềm năng trong thời đại công nghệ 4.0 Khoa học dữ liệu không chỉ giúp chúng ta hiểu được những xu hướng, mẫu và quy luật ân sau những dữ liệu không lồ, mà còn giúp chúng ta tạo ra những giải pháp sáng tạo và hiệu quả cho

các bài toán thực tế trong nhiều lĩnh vực khác nhau, như y tế, giáo dục, kinh tế, kinh doanh, an

ninh,

Trong số các lĩnh vực có thể áp dụng Khoa học dữ liệu, ngành kinh doanh bán lẻ là một

trong những ngành có nhu cầu và tiềm năng cao Ngành kinh doanh bán lẻ phải đối mặt với nhiều thách thức, như cạnh tranh gay gắt, thị trường biến động, khách hàng đa dạng, Đề tồn tại và phát triển, các doanh nghiệp trong ngành kinh doanh bán lẻ cần phải năm bắt được nhu cầu và hành vi của khách hàng, cũng như tối ưu hóa các chiến lược kinh doanh, như giá cả, sản phâm, quảng cáo, khuyến mãi

Trong khuôn khô của đề án kết thúc môn Khoa học dữ liệu, chúng em quan tâm đến việc áp

dụng Khoa học dữ liệu đề giải quyết một bài toán cụ thê trong ngành kinh doanh bán lẻ, đó là

bài toán dự đoán khách hàng tiềm năng cho siêu thị Đây là một bài toán quan trọng và thực tế, vì nó có thê giúp siêu thị tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách hàng Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thê tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình khuyến mãi và ưu đãi phù hợp Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của khách hàng, cũng như thu hút được nhiều khách hàng mới.

Trang 7

Chương 1 Tổng quan

1.1 Giới thiệu khoa học dữ liệu 1.1.1 Khoa học dữ liệu là gì?

- Khoa học dữ liệu (Data Science) là một lĩnh vực liên ngành về các quá trình và các hệ thống

rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cau tric hay phi cầu

trúc

1.1.2 Nhiệm vụ của khoa học dữ liệu

- Thu thập : Thu thập dữ liệu, nhập dữ liệu, tiếp nhận tín hiệu, trích xuất dữ liệu

- Giải thích, trình bày những kết quả đó cho các bên liên quan đến chuyên hóa các kết qua

thành hành động

1.1.3 Thành phần của khoa học dữ liệu

- Bao gồm 2 phần chính :

+ Data la thành phần đầu tiên cia cum data science, néu thiéu no thi tat cả các quá trình tiếp

theo đều không thê thực hiện được Việc đầu tiên phải làm sau khi có đữ liệu là làm sạch dữ liệu và biến đối dữ liệu, nó chiếm đến 80% tổng thời gian thực hiện phân tích

+ §cience đã có dữ liệu rồi, cần phải phân tích, trích rút có quy luật có ích và sử dụng chúng một cách có hiệu quả Ở đây, một số lĩnh vực sẽ giúp ích chúng ta như thông kê máy học, học sâu, tôi ưu

1.1.4 Những lĩnh vực của khoa học dữ liệu

- Khai thác dữ liệu (Data mining): là quá trình tìm kiếm, phân loại và phân tích dữ liệu lớn để

tìm ra các mô hình và quy luật ân

- Thống kê (Statistic): Sử dụng các phương pháp thống kê đề thu nhập, phân tích, diễn giải và

Trang 8

dựa trên mạng thần kinh nhân tạo kết hợp với việc học biểu diễn đặc trưng

1.1.5 Ứng dụng của khoa học dữ liệu

- Lĩnh vực Y tế: Khoa học dữ liệu giúp xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo, nghiên cứu về gen và di truyền, điều chế thuốc

- Lĩnh vực Tài chính - Ngân hàng: Khoa học dữ liệu giúp phân tích rủi ro, dự đoán xu hướng thị trường và tối ưu hóa hoạt động ngân hàng

- Lĩnh vực Giao thông vận tải: Khoa học dữ liệu giúp tôi ưu hóa lộ trình và dự đoán lưu lượng

giao thông

- Lĩnh vực Thương mại điện tử và dịch vụ số: Khoa học dữ liệu giúp nâng cao trải nghiệm

người dùng và tôi ưu hóa hoạt động kinh doanh

- Lĩnh vực sản xuất: Khoa học dữ liệu giúp tối ưu hóa quy trình sản xuất và dự đoán nhu câu - Lĩnh vực quảng cáo: Khoa học dữ liệu giúp tối ưu hóa quảng cáo và tiếp thị

1.1.6 Quy trình của khoa học dữ liệu - Thu thập, nắm bắt dữ liệu (Capture data)

- wuan trị dữ liệu (Manage data)

- Phân tích và khám phá (Exploratory) - Phân tích sau cùng (Final analysis) - Báo cáo (Geporting)

1.1.7 Xu hướng nghề nghiệp trong ngành khoa học dữ liệu

- Kỹ sư phát triển ứng dụng AI: Làm việc với các công nghệ trí tuệ nhân tạo đề phát triển các ứng dụng thông minh

- Kỹ sư dữ liệu: Xây dựng và quản lý cơ sở dữ liệu, đảm bảo dữ liệu được lưu trữ một cách an

toàn và hiệu quả

- Chuyên viên phân tích kinh doanh: Sử dụng dữ liệu để đưa ra các quyết định kinh doanh - Chuyên viên phân tích và phát triên đữ liệu: Làm việc với dữ liệu để tạo ra các giái pháp mới

và cải tiễn các quy trình hiện tại

- Chuyên gia nghiên cứu cấp cao về trí tuệ nhân tạo: Nghiên cứu và phát triển các công nghệ trí

tuệ nhân tạo mới

1.2 Giới thiệu về đồ án 1.2.1 Lý do chọn đề tài

Trang 9

Trong thời đại công nghệ 4.0, Khoa học dữ liệu là một lĩnh vực hấp dẫn và có nhiều ứng dụng

trong các ngành nghề khác nhau Nhóm đã chọn đề tài “ Xây dựng mô hình dự đoán khách

hàng tiềm năng cho siêu thị” cho đề án kết thúc môn Khoa học dữ liệu vì chúng em muôn khai

thác và phát triển tiềm năng của mình trong lĩnh vực này Chúng em cũng mong muốn đóng góp cho sự phát triển của ngành kinh doanh bán lẻ, đặc biệt là siêu thị, bằng cách áp dụng các kỹ thuật phân tích dữ liệu và học máy đề giải quyết các bài toán thực tế

Nhóm em nghĩ rằng việc xây dựng một mô hình dự đoán khách hàng tiềm năng cho siêu thị là một đề tài có ý nghĩa và thách thức Một mặt, đề tài này có thể mang lại nhiều lợi ích cho doanh nghiệp, như tăng doanh thu, giảm chỉ phí, nâng cao chất lượng dịch vụ và khách hàng Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình khuyến mãi và ưu đãi phù hợp Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của

khách hàng, cũng như thu hút được nhiều khách hàng mới Mặt khác, đề tài này cũng đòi hỏi cả

nhóm phải nắm vững các kiến thức và kỹ năng cơ bản về Khoa học dữ liệu, như thu thập, xử lý, khám phá, mô hình hóa và trình bày dữ liệu Nhóm cũng phải tìm hiểu và áp dụng các phương pháp học máy phù hợp đề xây dựng mô hình dự đoán, cũng như đánh giá và cải thiện hiệu quả của mô hình

Nhóm mong muốn qua đề án này, chúng em có thê học hỏi và cải thiện được năng lực nghiên cứu và làm việc của mình trong lĩnh vực Khoa học dữ liệu Nhóm cũng hy vọng rằng đề án của

Nhóm có thê đem lại những giá trị thiết thực cho ngành kinh doanh bán lẻ nói chung và siêu thị

nói riêng

1.2.2 Mục tiêu nghiên cứu

- Tập dữ liệu du lịch cung cấp thông tin chỉ tiết về các khách hàng có lựa chọn khác nhau và một số khách hàng tiềm năng có thẻ thành viên

- Lựa chọn mô hình phân lớp phù hợp cho bộ dữ liệu - Phân tích các thông tin có trong bộ dữ liệu:

https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales - Ứng dụng công cụ Orange vào việc xử lý thông tin

- Đưa ra biêu đồ, công cụ thống kê phù hợp cho từng thông tin - Đánh giá, phân tích bộ dữ liệu.

Trang 10

- Đưa ra kết luận

- Các chính sách phù hợp cho siêu thị 1.2.3 Đối tượng nghiên cứu

Tất cả lượt khách hàng đã mua sắm, đến từ những quốc gia khác nhau bao gồm cả đàn ông, phụ

nữ, hay trẻ em với những độ tuổi khác nhau sẽ cho ra các so sánh khác nhau Bộ đữ liệu được

thu thập trên web kagsøle đường lmk:

https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales 1.2.4 Phương pháp thực hiện

1.2.4.1 Phương pháp phân lớp dữ liệu a) Định nghĩa phân lớp dữ liệu

Phân lớp dữ liêlà quá trình phân môí(Iđôi tượng dữ liêú vào mô([hay nhiều lớp (loại) đã cho

trước nhờ môflmô hình phân lớp Mô hình này được xây dựng dựa trên môffâp[dữ lê đã được

gán nhãn trước đó (thuôữvề lớp nào) ưuá trình gán nhãn (thuô # lớp nào) cho đối tượng dữ liêu

chính là quả trình phân lớp dữ liêu” b) Quá trình phân lớp dữ liệu

ưuá trình phân lớp dữ liê gồm 2 bước chính:

- Bước l: Xây dựng mô hình (hay còn gọi là giai doan "hoc" hode "hu''n luyén")

‹ Dữ liêữ đầu vảo: là dữ liêqmẫu đã được gán nhãn và tiền xử lý

¢ Các thuâ(oán phân lớp: cây quyết định, hàm số toán học, tâøluâtƑ

¢ Kết quả của bước này là mô hình phân lớp đã được huấn luyêñI(trình phân lớp).

Trang 11

f(x) By

Classification

4 Combi | tow then Risk = High

Hình 1: Xây dựng mô hình phân lớp

- Bước 2: Sứ dụng mô hình, chia thành 2 bước nhỏ:

« ˆ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

Ké quả phân lớp \

7

| |

!

|

t=~-/? Thuộc tính bị “lờ” đi Hình 2: Đánh giá mồ hình phân lớp « Bước 2.2: Phân lớp dữ liêu mới

Trang 12

Classifier (model) New data

Hinh 3: Qua trinh phan lép di liéu 1.2.4.2 Phương pháp phân cụm dữ liệu

a) Định nghĩa về phân cụm dữ liệu

Mỗi đối tượng thuộc duy nhất l cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm

có ít nhất 1 phần tử

Đây là quá trình gom cụm hoặc nhóm các đối tượng hay dữ liệu có điểm tương đồng:

- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

- Các đối tượng thuộc cụm hoặc nhóm khác nhau sẽ có các tính chất khác nhau

» & %Ẳ

Mee Trich chon

đặc trưng —

Biếu điển kết ( “———— | Đánh giá kết

Hình 4: Quá trình phân cụm dữ liệu Thuật toán điển hình: K-means, K-medoids, Fuzzy C-means.

Trang 13

b) Thuat toan K-means

Hình 5: Phân cụm dữ liệu bằng phương pháp K-means

Thuật toán K-means thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

Tư tưởng chính: Ta xem một đối tượng trong tập dữ liệu là một điểm trong không gian d chiều

(với d là số lượng thuộc tính của đối tượng):

® Bước số 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm

© Bước số 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở

từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta

dừng thuật toán

® Bước số 3: Cập nhật lại trung tâm cho từng cụm bang cach lay trung bình cộng của tất cả các

điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2 ® Bước số 4: ưuay lại bước 2

Hình 6: Các bước phân cụm bằng phương pháp K-means

13

Trang 14

1.2.4.3 Đánh giá phương pháp, mô hình a) Test and Score

Dau vao:

¢ Dé liéu: dữ liệu đầu vào

‹ Dữ liệu thử nghiệm: dữ liệu riêng biệt dé thử nghiệm

« Người học: thuật toán học tập

Đầu ra: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm b) Confusion Matrix

Cac Confusion Matrix cho biết số / tý lệ các trường hợp giữa các lớp dự đoán và thực tế Việc lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra Bằng cách này, người ta có thể quan sát những trường hợp cụ thê bị phân loại sai và làm thế nảo

Đầu vào: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm Đầu ra:

« Dữ liệu được chọn: tập hợp dữ liệu được chon từ ma trận nhằm lẫn

« Dữ liệu: với thông tin bô sung về việc liệu một thê hiện dữ liệu đã được chọn chưa Chương 2: Quy trình thực hiện và kết quả

2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu

Bộ đữ liệu có tên là '“Supermarket sales” được lấy tir Kaggle Đây là dữ liệu về doanh số bán

hàng của một công ty siêu thị được ghi nhận trong vòng 3 tháng tại 3 chỉ nhánh khác nhau Với mục tiêu nghiên cứu được đề ra ở trên, bộ dữ liệu này sẽ hữu dụng trong việc phân lớp và phân cụm các khách hàng tiềm năng

Dữ liệu gồm: 17 cột thuộc tính và 1001 hàng (đôi tượng) được thu thập tại thời điểm khách

hàng mua hàng tại siêu thị

Trang 15

Customer type Loại khách hàng Gồm Member va Normal Gender Giới tính khách hàng Gém Male va Female

Product line Phan loai mat hang Chuỗi ký tự Unit price Đơn giá (tính bằng đô la) | Số thập phân

ưuanfIty Số lượng sản phẩm Số thập phân

Total Tong hóa đơn đã bao gồm | Số thập phân thuê

Date Ngày mua hàng Tháng, Ngày, Năm Time Thoi gian mua hang Thời gian

Ewallet Cogs Giá vốn hàng hóa Số thập phân Gross margin Tỷ lệ lợi nhuận gộp Số thập phân

percentage

Gross income Tổng thu nhập Số thập phân

Bảng 1: Mô tả về những thuộc tính (Attribute) của dữ liệu

2.2 Tiền xử lý dữ liệu

2.2.1 Xử lý và lọc các dữ liệu bị thiếu, các trường không cần thiết

- Bộ dữ liệu không chứa dữ liệu bị thiếu, để xác định các trường nào là có thông tin cho các xử

lý về sau, với mục tiêu phân lớp và phân cụm loại khách hàng, nhóm sẽ dùng ớank để xem các giá trị info.gain của các trường nhằm loại bỏ di các trường không có giá trị

- Ding Select Column dé chon Customer Type là target, sau đó gắn vào ớank đề hiện thị các

gia tri.

Trang 16

[_] ReliefF

(_) rcsar

Select Attributes ©) None

© all © manual

Hinh 8: Thong tin di liéu trong bang Rank

theo

2.2.2 Phan tach dir liéu

16

goc duoc tach thanh file “Forecast data’

- Ảnh trên cho thấy, trường Gross margin percentage (Tỷ lệ lợi nhuận gộp) không có giá trị trong tập dữ liệu, nhóm sẽ loại trường này bằng Select Column đề tiếp tục các bước xử lý tiếp

- Tiếp đến, đề tách dữ liệu làm 2 phần, một phần để xây dựng mô hình và một phần data để dự

báo, nhóm đã sử dụng chức năng Data Sample trong Orange đề thực hiện tách ngẫu nhiên dữ

liệu làm 2 file riêng: 70% dữ liệu gốc duoc tach va luu thanh file “Sale Data” va 30% dữ liệu

Trang 17

Data Sample — Data E1

Data aa)" Data @ Data 4 2

2SV File Import Select Columns Rank Loai Gross margin Data Sampler 3 eee percentage $

Options

(_) Replicable (deterministic) sampling

(_) Stratify sample (when possible)

Sample Data = ? B | 2100 G 700)

Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler

2.3 Xác định biến độc lập và biến phụ thuộc

- Như phần mục tiêu đã đề ra, để phân lớp và phân cụm dự đoán tập khách hàng tiềm năng, nhóm sẽ sử dụng trường Customer Type là biến phụ thuộc Các biến còn lại sẽ là biến độc lập

giúp xác định và dự báo tập khách hàng tiềm năng.

Trang 18

Ignored (1)

gross margin percentage

| Ignore new variables by default

= ? B | 3) 1000)- GB 1000) 14

Features (14)

Product line Time

Unit price

Quantity

Rating Gender

Date

City Branch

Target (1)

Customer type Metas (1)

Invoice ID

Hình 10: Xác định trường là biến phụ thuộc với Select column 2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc thù

của bộ dữ liệu

2.4.1 Mô tả bài toán

Sử dụng các phương pháp thống kê mô tả và các lược đồ excel thông dụng đề phát hiện những

đặc thù của dữ liệu

Mỗi cột dữ liệu tương ứng cho I thuộc tính của đối tượng

Các thuộc tính được xem xét và đánh giá sự phân bồ bằng lược đồ để xác định mức ảnh hưởng của thuộc tính đến kết quả của việc xây dựng mô hình dự đoán khách hàng tiềm năng cho

doanh nghiệp siêu thị trên

2.4.2 Tiến hành phân tích dữ liệu

Dữ liệu 1

Trang 19

m™ Member = Normal

Từ biêu đồ trên ta thấy không có sự chênh lệch quá lớn giữa khách hàng thành viên và khách

hàng thường cụ thê khách hàng thành viên chiếm 50.1% trong khi khách hàng thường chiếm 49,9% va chí chênh lệch 0.2%

Có thê nói rằng, dù khách hàng không thành viên hay thành viên cũng không ảnh hưởng đến

số lượng khách hàng đến mua sắm, điều này chỉ ra những chiến lược bán hàng của siêu thị vẫn chưa có sự hấp dẫn đối với khách hàng thành viên Do đó muốn tăng thêm sự hài lòng của

khách hàng, gia tăng số lượng khách hàng đăng ký thành viên thì siêu thị cần đưa ra nhiều hon

những voucher ưu đãi, khuyên mãi hấp dẫn hay các chương trình tri ân khách hàng là thành viên Siêu thị cần đưa ra nhiều hơn những lợi ích thiết thực hơn nhằm khuyến khích khách hàng

thường trở thành khách hàng thành viên của siêu thị Dữ liệu 2

Trang 20

255 bọ 250

2 x 245

-

2 x 240

nN w uw

N ©

260

Member g Normal

3 225

Số khách hàng nữ là thành viên là 52,1% nhiều hơn khách hàng nữ bình thường chiếm

47,9% trong tổng sô khách hàng là thành viên nữ

Còn đối với khách hàng thành viên nam (48,1%) / hơn khách hàng nam không thành viên

(51,9%)

=>Nhin tông thể có thể thấy số khách hàng thành viên là nữ vẫn nhiều hơn so với số khách

hàng thành viên là nam Điều này cũng dễ hiểu bởi phần lớn phụ nữ sẽ là người đảm nhận

những công việc nội trợ, chăm sóc gia đình nên sẽ quan tâm nhiều hơn đến các ưu đãi, khuyến

mãi đề chỉ tiêu hợp lý và thông minh hơn và có thê là khách h àng tiềm năng hơn

Dữ liệu 3

20

Trang 21

4o

ag Normal

20 10 0

2 3 _ 5 6 7 8 9 10 1

Có thế thấy, không có sự khác biệt lớn về số lượng khách hàng thành viên hay không thành

viên trong việc mua nhiều hàng nhất (10 sản phẩm) hay mua ít hàng nhất (1 sản phẩm) bởi vì vào từng thời điệm và nhụ cầu mua sắm của môi người là khác nhau

co £

wm Normal 176 139 184

Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán

21

Trang 22

Đối với phương thức thanh toán bằng ví điện tử: Cũng có sự chênh lệch giữa khách hàng thành viên và không thành viên Tuy nhiên, trái với 2 phương thức thanh toán trên thì ở phương thức này số khách hàng thường chiêm 53,3% trên tổng sô khách hàng thanh toán qua ví điện tử có tỷ lệ lớn hơn khách hàng thành viên (46,73%)

=>Công nghệ phát triển, thanh toán không còn chỉ dùng mỗi tiền mặt mà đã phát triển thêm nhiều phương thức khác hiện đại hơn Người tiêu dùng có thê dễ dàng lựa chọn phương thức

thanh toán tiện lợi, hữu dụng cũng như mang lại nhiéu loi ich hon cho minh

Ngày đăng: 10/08/2024, 16:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w