Danh muc bang Bang: Mô tả về những thuộc tính Attribute của dữ liệu Danh mục hình ảnh Hình 1: Xây dựng mô hình phân lớp Hình 2: Đánh giá mô hình phân lớp Hình 3: Quá trình phẫn lớp dữ l
Trang 1BO GIAO DUC VA DAO TAO DAI HOC KINH TE TP HO CHI MINH
UEH
UNIVERSITY
DO AN KET THUC HOC PHAN
Môn học: Khoa học đữ liệu
DE TAI: XAY DUNG MO HiNH PHAN TICH DU LIEU DE XAC ĐỊNH
KHACH HANG TIEM NANG CHO SIEU THI
Giáng viên hướng dẫn
Mã lớp học phần
Phòng học
Nhóm sinh viên thực hiện
Nguyễn Châu Anh
Nguyễn Phương Nhung Nguyễn Thị Kim Cương Hoàng Ngọc Anh
Trần Hoàng Minh
Nguyễn Mạnh Tuan
23CTINE50905969 B2-103-ST7
Trang 2BANG DANH GIA MUC BO THAM GIA CUA CAC THANH VIEN
STT Ho va Tén Nhiém vu Danh gia
Nguyễn Châu Anh - Thảo luận đề tải
Hoàng Ngọc Anh - Thảo luận đề tài
- Xây dựng phương pháp phân lớp dữ liêư;
thực hiên bài toán phân lớp
100%
Trần Hoàng Minh - Tổng quan lý thuyết chương 1
Trang 3
Danh muc bang
Bang: Mô tả về những thuộc tính (Attribute) của dữ liệu
Danh mục hình ảnh
Hình 1: Xây dựng mô hình phân lớp
Hình 2: Đánh giá mô hình phân lớp
Hình 3: Quá trình phẫn lớp dữ liệu
Hình 4: Quá trình phân cụm dữ liệu
Hình 5: Phân cụm dữ liệu bằng phương pháp K-means
Hình 6: Các bước phân cụm bằng phương pháp K-means
Hình 7: Quy trình lọc trường không cần thiết
Hình 8: Thông tin dữ liệu trong bảng Rank
Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler
Hình 10: Xác định trường là biến phụ thuộc với Select column
Hình 11: Mô hình churn bị dữ liệu
Hình 12: Quá trình thực hiện phân tách dữ liệu
Hình 13: Xây dựng mô hình phân lớp dữ liệu
Hình 14: Kết quả đánh giá mô hình bằng phương pháp K-fold
Hình 15: Kết quả ma trận nhằm lẫn của phương pháp Tree
Hình 16: Kết quả ma trận nhằm lẫn của phương pháp Logistic Regression Hình 17: Kết quả ma trận nhằm lẫn của phương pháp SVM
Hình 18: Kết quả ma trận nhằm lẫn của phương pháp Neural Network
Hình 19: Mô hình dự báo khách hàng tiềm năng
Trang 4Danh mục biểu đồ
Biểu đồ 1: Biểu đồ thể hiện phân loại khách hàng
Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng
Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua
Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán
Biểu đồ 5: Biểu đồ thể hiện vị trí các chỉ nhánh siêu thị
Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng
(thang điểm 10)
Biểu đồ 7: Biểu đồ thể hiện phân loại sản phrm
Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng
Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng
Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng
Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng
Nguồn dữ liệu, các xử lý, file Excel, Orange :
https://drive.google.com/drive/folders/l_ Frf5xKựl9Nvo76U4d6ZpUlóxuw0GfNC? foclid=IwA611GZ8s-yO5 XGkmevKpWxkGSqabytly3g4s-2IkjJJ9Z_ 72JFiMwfh2Kk6mJ0
Trang 5Chương 1 Tong quan 7
1.1 Giới thiệu khoa học dữ liệu - 2301001010101 19911 ng KTS HT TT ky 7
1.2 Giới thiệu về đỗ án 22-22 2 2221221122112221211122112211211211221112112112122122 re 8
Chương 2: Quy trình thực hiện và kết quả 15
2.1 Mô tả nguồn dữ liệu và cầu trúc của dữ liệu 2 5c S1 1E SE 1E tr Hee 15 2.2 Tiền xử lý dữ liệu ST E1 1221111 tt 111212121 1 H1 ng Han 16 2.2.1 Xử lý và lọc các dữ liệu bị thiếu, các trường không cân thiết 16
2.2.2 Phân tách dit @U 0 ccccccccecscesssesssesssessesssvesseessvesssessvesssetiesstestesssssesseeaneasen 17
2.3 Xác định biến độc lập và biến phụ thuộc - 5-55 1 1 SE 21121271211 21E.1EEEEe.rtee 18
2.4 Bài toán I: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc
thù của bộ đữ liệu - 2-21 221 2212221121122711221121122112112111211222 re 19 2.4.1 Mô tả bài toán s55: 2s 211221122112211211221121112112211212112122 rau 19
2.4.2 Tiên hành phân tích dữ liệu 2S SE E121 E121121112E12121 E821 1E re 19
2.4.3 Kết luận bài toán I 5: 2221 21221122122112212222212211221 re 26
2.5 Bài toán 2: Bài toán phân lớp, 5 1 22 2221121111211 152115 1115111512511 111gr 27
2.5.1 Mô tả bài toán s 221 2222212211221 rukg 27
2.5.2 Chạy mô hình và đánh giá kết quả 5: 2s SE E2 11221122111 trrre 27
2.6 Bài toán 3: Bài toán phân cụm - c2 2211211112115 1151 1151115 1 5 E111 xá ke ườy 38
2.6.1 Mô tả bài toán - 5: 2s 221 221122112211211221121112112211222112112 rau 38
Trang 6LOI MO DAU
Khoa học dữ liệu là một lĩnh vực mới mẻ và đầy tiềm năng trong thời đại công nghệ 4.0 Khoa học dữ liệu không chỉ giúp chúng ta hiểu được những xu hướng, mẫu và quy luật ân sau những dữ liệu không lồ, mà còn giúp chúng ta tạo ra những giải pháp sáng tạo và hiệu quả cho
các bài toán thực tế trong nhiều lĩnh vực khác nhau, như y tế, giáo dục, kinh tế, kinh doanh, an
ninh,
Trong số các lĩnh vực có thể áp dụng Khoa học dữ liệu, ngành kinh doanh bán lẻ là một
trong những ngành có nhu cầu và tiềm năng cao Ngành kinh doanh bán lẻ phải đối mặt với nhiều thách thức, như cạnh tranh gay gắt, thị trường biến động, khách hàng đa dạng, Đề tồn tại và phát triển, các doanh nghiệp trong ngành kinh doanh bán lẻ cần phải năm bắt được nhu cầu và hành vi của khách hàng, cũng như tối ưu hóa các chiến lược kinh doanh, như giá cả, sản phâm, quảng cáo, khuyến mãi
Trong khuôn khô của đề án kết thúc môn Khoa học dữ liệu, chúng em quan tâm đến việc áp
dụng Khoa học dữ liệu đề giải quyết một bài toán cụ thê trong ngành kinh doanh bán lẻ, đó là
bài toán dự đoán khách hàng tiềm năng cho siêu thị Đây là một bài toán quan trọng và thực tế,
vì nó có thê giúp siêu thị tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách hàng Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thê tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình khuyến mãi và ưu đãi phù hợp Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của khách hàng, cũng như thu hút được nhiều khách hàng mới
Trang 7Chương 1 Tổng quan
1.1 Giới thiệu khoa học dữ liệu
1.1.1 Khoa học dữ liệu là gì?
- Khoa học dữ liệu (Data Science) là một lĩnh vực liên ngành về các quá trình và các hệ thống
rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cau tric hay phi cầu
trúc
1.1.2 Nhiệm vụ của khoa học dữ liệu
- Thu thập : Thu thập dữ liệu, nhập dữ liệu, tiếp nhận tín hiệu, trích xuất dữ liệu
- Giải thích, trình bày những kết quả đó cho các bên liên quan đến chuyên hóa các kết qua
thành hành động
1.1.3 Thành phần của khoa học dữ liệu
- Bao gồm 2 phần chính :
+ Data la thành phần đầu tiên cia cum data science, néu thiéu no thi tat cả các quá trình tiếp
theo đều không thê thực hiện được Việc đầu tiên phải làm sau khi có đữ liệu là làm sạch dữ liệu và biến đối dữ liệu, nó chiếm đến 80% tổng thời gian thực hiện phân tích
+ §cience đã có dữ liệu rồi, cần phải phân tích, trích rút có quy luật có ích và sử dụng chúng một cách có hiệu quả Ở đây, một số lĩnh vực sẽ giúp ích chúng ta như thông kê máy học, học sâu, tôi ưu
1.1.4 Những lĩnh vực của khoa học dữ liệu
- Khai thác dữ liệu (Data mining): là quá trình tìm kiếm, phân loại và phân tích dữ liệu lớn để
tìm ra các mô hình và quy luật ân
- Thống kê (Statistic): Sử dụng các phương pháp thống kê đề thu nhập, phân tích, diễn giải và
Trang 8dựa trên mạng thần kinh nhân tạo kết hợp với việc học biểu diễn đặc trưng
1.1.5 Ứng dụng của khoa học dữ liệu
- Lĩnh vực Y tế: Khoa học dữ liệu giúp xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo, nghiên cứu về gen và di truyền, điều chế thuốc
- Lĩnh vực Tài chính - Ngân hàng: Khoa học dữ liệu giúp phân tích rủi ro, dự đoán xu hướng thị trường và tối ưu hóa hoạt động ngân hàng
- Lĩnh vực Giao thông vận tải: Khoa học dữ liệu giúp tôi ưu hóa lộ trình và dự đoán lưu lượng
giao thông
- Lĩnh vực Thương mại điện tử và dịch vụ số: Khoa học dữ liệu giúp nâng cao trải nghiệm
người dùng và tôi ưu hóa hoạt động kinh doanh
- Lĩnh vực sản xuất: Khoa học dữ liệu giúp tối ưu hóa quy trình sản xuất và dự đoán nhu câu
- Lĩnh vực quảng cáo: Khoa học dữ liệu giúp tối ưu hóa quảng cáo và tiếp thị
1.1.6 Quy trình của khoa học dữ liệu
- Thu thập, nắm bắt dữ liệu (Capture data)
- wuan trị dữ liệu (Manage data)
- Phân tích và khám phá (Exploratory)
- Phân tích sau cùng (Final analysis)
- Báo cáo (Geporting)
1.1.7 Xu hướng nghề nghiệp trong ngành khoa học dữ liệu
- Kỹ sư phát triển ứng dụng AI: Làm việc với các công nghệ trí tuệ nhân tạo đề phát triển các ứng dụng thông minh
- Kỹ sư dữ liệu: Xây dựng và quản lý cơ sở dữ liệu, đảm bảo dữ liệu được lưu trữ một cách an
toàn và hiệu quả
- Chuyên viên phân tích kinh doanh: Sử dụng dữ liệu để đưa ra các quyết định kinh doanh
- Chuyên viên phân tích và phát triên đữ liệu: Làm việc với dữ liệu để tạo ra các giái pháp mới
và cải tiễn các quy trình hiện tại
- Chuyên gia nghiên cứu cấp cao về trí tuệ nhân tạo: Nghiên cứu và phát triển các công nghệ trí
tuệ nhân tạo mới
1.2 Giới thiệu về đồ án
1.2.1 Lý do chọn đề tài
Trang 9Trong thời đại công nghệ 4.0, Khoa học dữ liệu là một lĩnh vực hấp dẫn và có nhiều ứng dụng
trong các ngành nghề khác nhau Nhóm đã chọn đề tài “ Xây dựng mô hình dự đoán khách
hàng tiềm năng cho siêu thị” cho đề án kết thúc môn Khoa học dữ liệu vì chúng em muôn khai
thác và phát triển tiềm năng của mình trong lĩnh vực này Chúng em cũng mong muốn đóng góp cho sự phát triển của ngành kinh doanh bán lẻ, đặc biệt là siêu thị, bằng cách áp dụng các
kỹ thuật phân tích dữ liệu và học máy đề giải quyết các bài toán thực tế
Nhóm em nghĩ rằng việc xây dựng một mô hình dự đoán khách hàng tiềm năng cho siêu thị là một đề tài có ý nghĩa và thách thức Một mặt, đề tài này có thể mang lại nhiều lợi ích cho doanh nghiệp, như tăng doanh thu, giảm chỉ phí, nâng cao chất lượng dịch vụ và khách hàng Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình khuyến mãi và ưu đãi phù hợp Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của
khách hàng, cũng như thu hút được nhiều khách hàng mới Mặt khác, đề tài này cũng đòi hỏi cả
nhóm phải nắm vững các kiến thức và kỹ năng cơ bản về Khoa học dữ liệu, như thu thập, xử lý, khám phá, mô hình hóa và trình bày dữ liệu Nhóm cũng phải tìm hiểu và áp dụng các phương pháp học máy phù hợp đề xây dựng mô hình dự đoán, cũng như đánh giá và cải thiện hiệu quả của mô hình
Nhóm mong muốn qua đề án này, chúng em có thê học hỏi và cải thiện được năng lực nghiên cứu và làm việc của mình trong lĩnh vực Khoa học dữ liệu Nhóm cũng hy vọng rằng đề án của
Nhóm có thê đem lại những giá trị thiết thực cho ngành kinh doanh bán lẻ nói chung và siêu thị
nói riêng
1.2.2 Mục tiêu nghiên cứu
- Tập dữ liệu du lịch cung cấp thông tin chỉ tiết về các khách hàng có lựa chọn khác nhau và một số khách hàng tiềm năng có thẻ thành viên
- Lựa chọn mô hình phân lớp phù hợp cho bộ dữ liệu
- Phân tích các thông tin có trong bộ dữ liệu:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
- Ứng dụng công cụ Orange vào việc xử lý thông tin
- Đưa ra biêu đồ, công cụ thống kê phù hợp cho từng thông tin
- Đánh giá, phân tích bộ dữ liệu
Trang 10- Đưa ra kết luận
- Các chính sách phù hợp cho siêu thị
1.2.3 Đối tượng nghiên cứu
Tất cả lượt khách hàng đã mua sắm, đến từ những quốc gia khác nhau bao gồm cả đàn ông, phụ
nữ, hay trẻ em với những độ tuổi khác nhau sẽ cho ra các so sánh khác nhau Bộ đữ liệu được
thu thập trên web kagsøle đường lmk:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
1.2.4 Phương pháp thực hiện
1.2.4.1 Phương pháp phân lớp dữ liệu
a) Định nghĩa phân lớp dữ liệu
Phân lớp dữ liêlà quá trình phân môí(Iđôi tượng dữ liêú vào mô([hay nhiều lớp (loại) đã cho
trước nhờ môflmô hình phân lớp Mô hình này được xây dựng dựa trên môffâp[dữ lê đã được
gán nhãn trước đó (thuôữvề lớp nào) ưuá trình gán nhãn (thuô # lớp nào) cho đối tượng dữ liêu
chính là quả trình phân lớp dữ liêu”
b) Quá trình phân lớp dữ liệu
ưuá trình phân lớp dữ liê gồm 2 bước chính:
- Bước l: Xây dựng mô hình (hay còn gọi là giai doan "hoc" hode "hu''n luyén")
‹ Dữ liêữ đầu vảo: là dữ liêqmẫu đã được gán nhãn và tiền xử lý
¢ Các thuâ(oán phân lớp: cây quyết định, hàm số toán học, tâøluâtƑ
¢ Kết quả của bước này là mô hình phân lớp đã được huấn luyêñI(trình phân lớp).
Trang 11f(x) By
Classification
4 Combi | tow then Risk = High
Hình 1: Xây dựng mô hình phân lớp
- Bước 2: Sứ dụng mô hình, chia thành 2 bước nhỏ:
« ˆ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
« Bước 2.2: Phân lớp dữ liêu mới
Trang 12Classifier (model) New data
Hinh 3: Qua trinh phan lép di liéu 1.2.4.2 Phương pháp phân cụm dữ liệu
a) Định nghĩa về phân cụm dữ liệu
Mỗi đối tượng thuộc duy nhất l cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm
có ít nhất 1 phần tử
Đây là quá trình gom cụm hoặc nhóm các đối tượng hay dữ liệu có điểm tương đồng:
- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau
- Các đối tượng thuộc cụm hoặc nhóm khác nhau sẽ có các tính chất khác nhau
»
& %Ẳ Mee Trich chon
Biếu điển kết ( “———— | Đánh giá kết
Hình 4: Quá trình phân cụm dữ liệu Thuật toán điển hình: K-means, K-medoids, Fuzzy C-means
Trang 13b) Thuat toan K-means
Hình 5: Phân cụm dữ liệu bằng phương pháp K-means
Thuật toán K-means thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Tư tưởng chính: Ta xem một đối tượng trong tập dữ liệu là một điểm trong không gian d chiều
(với d là số lượng thuộc tính của đối tượng):
® Bước số 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
© Bước số 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở
từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta
dừng thuật toán
® Bước số 3: Cập nhật lại trung tâm cho từng cụm bang cach lay trung bình cộng của tất cả các
điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
® Bước số 4: ưuay lại bước 2
Hình 6: Các bước phân cụm bằng phương pháp K-means
13
Trang 141.2.4.3 Đánh giá phương pháp, mô hình
a) Test and Score
Dau vao:
¢ Dé liéu: dữ liệu đầu vào
‹ Dữ liệu thử nghiệm: dữ liệu riêng biệt dé thử nghiệm
« Người học: thuật toán học tập
Đầu ra: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
b) Confusion Matrix
Cac Confusion Matrix cho biết số / tý lệ các trường hợp giữa các lớp dự đoán và thực tế Việc lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra Bằng cách này, người ta có thể quan sát những trường hợp cụ thê bị phân loại sai và làm thế nảo
Đầu vào: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
Đầu ra:
« Dữ liệu được chọn: tập hợp dữ liệu được chon từ ma trận nhằm lẫn
« Dữ liệu: với thông tin bô sung về việc liệu một thê hiện dữ liệu đã được chọn chưa
Chương 2: Quy trình thực hiện và kết quả
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu
Bộ đữ liệu có tên là '“Supermarket sales” được lấy tir Kaggle Đây là dữ liệu về doanh số bán
hàng của một công ty siêu thị được ghi nhận trong vòng 3 tháng tại 3 chỉ nhánh khác nhau Với mục tiêu nghiên cứu được đề ra ở trên, bộ dữ liệu này sẽ hữu dụng trong việc phân lớp và phân cụm các khách hàng tiềm năng
Dữ liệu gồm: 17 cột thuộc tính và 1001 hàng (đôi tượng) được thu thập tại thời điểm khách
hàng mua hàng tại siêu thị
Trang 15
Customer type Loại khách hàng Gồm Member va Normal
Gender Giới tính khách hàng Gém Male va Female
Product line Phan loai mat hang Chuỗi ký tự
Unit price Đơn giá (tính bằng đô la) | Số thập phân
ưuanfIty Số lượng sản phẩm Số thập phân
Total Tong hóa đơn đã bao gồm | Số thập phân
thuê Date Ngày mua hàng Tháng, Ngày, Năm
Time Thoi gian mua hang Thời gian
Ewallet Cogs Giá vốn hàng hóa Số thập phân
Gross margin Tỷ lệ lợi nhuận gộp Số thập phân
percentage
Gross income Tổng thu nhập Số thập phân
Bảng 1: Mô tả về những thuộc tính (Attribute) của dữ liệu
2.2 Tiền xử lý dữ liệu
2.2.1 Xử lý và lọc các dữ liệu bị thiếu, các trường không cần thiết
- Bộ dữ liệu không chứa dữ liệu bị thiếu, để xác định các trường nào là có thông tin cho các xử
lý về sau, với mục tiêu phân lớp và phân cụm loại khách hàng, nhóm sẽ dùng ớank để xem các giá trị info.gain của các trường nhằm loại bỏ di các trường không có giá trị
- Ding Select Column dé chon Customer Type là target, sau đó gắn vào ớank đề hiện thị các
gia tri
Trang 16goc duoc tach thanh file “Forecast data’
- Ảnh trên cho thấy, trường Gross margin percentage (Tỷ lệ lợi nhuận gộp) không có giá trị trong tập dữ liệu, nhóm sẽ loại trường này bằng Select Column đề tiếp tục các bước xử lý tiếp
- Tiếp đến, đề tách dữ liệu làm 2 phần, một phần để xây dựng mô hình và một phần data để dự
báo, nhóm đã sử dụng chức năng Data Sample trong Orange đề thực hiện tách ngẫu nhiên dữ
liệu làm 2 file riêng: 70% dữ liệu gốc duoc tach va luu thanh file “Sale Data” va 30% dữ liệu
Trang 17
Data Sample — Data E1
Data aa)" Data @ Data 4 2
2SV File Import Select Columns Rank Loai Gross margin Data Sampler 3 eee
©) Bootstrap
Options
(_) Replicable (deterministic) sampling
(_) Stratify sample (when possible)
Sample Data
= ? B | 2100 G 700) Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler
2.3 Xác định biến độc lập và biến phụ thuộc
- Như phần mục tiêu đã đề ra, để phân lớp và phân cụm dự đoán tập khách hàng tiềm năng, nhóm sẽ sử dụng trường Customer Type là biến phụ thuộc Các biến còn lại sẽ là biến độc lập
giúp xác định và dự báo tập khách hàng tiềm năng
Trang 18Ignored (1)
gross margin percentage
| Ignore new variables by default
= ? B | 3) 1000)- GB 1000) 14
Features (14)
Product line Time
Unit price
Quantity
Rating Gender
Date
City Branch
Target (1)
Customer type Metas (1) Invoice ID
Hình 10: Xác định trường là biến phụ thuộc với Select column
2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc thù
của bộ dữ liệu
2.4.1 Mô tả bài toán
Sử dụng các phương pháp thống kê mô tả và các lược đồ excel thông dụng đề phát hiện những
đặc thù của dữ liệu
Mỗi cột dữ liệu tương ứng cho I thuộc tính của đối tượng
Các thuộc tính được xem xét và đánh giá sự phân bồ bằng lược đồ để xác định mức ảnh hưởng của thuộc tính đến kết quả của việc xây dựng mô hình dự đoán khách hàng tiềm năng cho
doanh nghiệp siêu thị trên
2.4.2 Tiến hành phân tích dữ liệu
Dữ liệu 1
Trang 19Từ biêu đồ trên ta thấy không có sự chênh lệch quá lớn giữa khách hàng thành viên và khách
hàng thường cụ thê khách hàng thành viên chiếm 50.1% trong khi khách hàng thường chiếm 49,9% va chí chênh lệch 0.2%
Có thê nói rằng, dù khách hàng không thành viên hay thành viên cũng không ảnh hưởng đến
số lượng khách hàng đến mua sắm, điều này chỉ ra những chiến lược bán hàng của siêu thị vẫn chưa có sự hấp dẫn đối với khách hàng thành viên Do đó muốn tăng thêm sự hài lòng của
khách hàng, gia tăng số lượng khách hàng đăng ký thành viên thì siêu thị cần đưa ra nhiều hon
những voucher ưu đãi, khuyên mãi hấp dẫn hay các chương trình tri ân khách hàng là thành viên Siêu thị cần đưa ra nhiều hơn những lợi ích thiết thực hơn nhằm khuyến khích khách hàng
thường trở thành khách hàng thành viên của siêu thị
Dữ liệu 2
Trang 20Số khách hàng nữ là thành viên là 52,1% nhiều hơn khách hàng nữ bình thường chiếm
47,9% trong tổng sô khách hàng là thành viên nữ
Còn đối với khách hàng thành viên nam (48,1%) / hơn khách hàng nam không thành viên
(51,9%)
=>Nhin tông thể có thể thấy số khách hàng thành viên là nữ vẫn nhiều hơn so với số khách
hàng thành viên là nam Điều này cũng dễ hiểu bởi phần lớn phụ nữ sẽ là người đảm nhận
những công việc nội trợ, chăm sóc gia đình nên sẽ quan tâm nhiều hơn đến các ưu đãi, khuyến
mãi đề chỉ tiêu hợp lý và thông minh hơn và có thê là khách h àng tiềm năng hơn
Dữ liệu 3
20
Trang 21Có thế thấy, không có sự khác biệt lớn về số lượng khách hàng thành viên hay không thành
viên trong việc mua nhiều hàng nhất (10 sản phẩm) hay mua ít hàng nhất (1 sản phẩm) bởi vì vào từng thời điệm và nhụ cầu mua sắm của môi người là khác nhau
Trang 22Đối với phương thức thanh toán bằng ví điện tử: Cũng có sự chênh lệch giữa khách hàng thành viên và không thành viên Tuy nhiên, trái với 2 phương thức thanh toán trên thì ở phương thức này số khách hàng thường chiêm 53,3% trên tổng sô khách hàng thanh toán qua ví điện tử