Bài toán phân nhóm đối với khách hàng mua sắm tại siêu thị Coopextra Thủ Đức

9 225 2
Bài toán phân nhóm đối với khách hàng mua sắm tại siêu thị Coopextra Thủ Đức

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài báo này, tiến hành nghiên cứu triển khai cho một bộ dữ liệu khách hàng tại siêu thị CoopExtra Thủ Đức và đạt được một số phân khúc hữu dụng, hứa hẹn sẽ giúp việc chăm sóc, tiếp thị khách hàng hiệu quả hơn.

Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Nghiên cứu Bài tốn phân nhóm khách hàng mua sắm siêu thị Coopextra Thủ Đức Lê Hồng Diễn∗ , Nguyễn Phúc Sơn, Phạm Hoàng Uyên, Lê Văn Hinh TÓM TẮT Phân khúc khách hàng (customer segmentation) trình phân nhóm khách hàng dựa đặc điểm chung hành vi, thói quen mua sắm sử dụng dịch vụ họ …để công ty, doanh nghiệp tie´ˆ p thị cho nhóm khách hàng cách hiệu phù hợp Phân khúc khách hàng giúp cho nhà tie´ˆ p thị hiểu khách hàng đưa mục tiêu, chie´ˆ n lược phương thức tie´ˆ p thị cho nhóm đối tượng khác nhau.Trong báo này, chúng tơi nghiên cứu tốn phân khúc khách hàng thông qua phương pháp phân cụm (clustering methods) thống kê học máy không giám sát (unsupervised learning) Các thuật toán dùng K-means Elbow vốn thuật toán tie´ˆ ng ứng dụng thành công nhiều lĩnh vực marketing, sinh học, thư viện, bảo hiểm, tài Mục đích việc phân cụm tìm phân khúc thị trường có ý nghĩa Tuy nhiên, việc lựa chọn thay đổi tham số thuật toán thuật toán trở nên hiệu việc tìm phân khúc thị trường có ý nghĩa thách thức Trong báo này, tie´ˆ n hành nghiên cứu triển khai cho liệu khách hàng siêu thị CoopExtra Thủ Đức đạt số phân khúc hữu dụng, hứa hẹn giúp việc chăm sóc, tie´ˆ p thị khách hàng hiệu Từ khoá: phân khúc khách hàng, phân khúc thị trường, phương pháp phân cụm, thuật toán K-means, phương pháp Elbow GIỚI THIỆU Đại học Kinh te´ˆ - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh Liên hệ Lê Hồng Diễn, Đại học Kinh te´ˆ - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh Email: dienlh@uel.edu.vn Lịch sử • Ngày nhận: 12-12-2018 • Ngày chấp nhận: 22-01-2019 • Ngày đăng: 31-03-2019 DOI : 10.32508/stdjelm.v3i1.537 Bản quyền © ĐHQG Tp.HCM Đây báo công bố mở phát hành theo điều khoản the Creative Commons Attribution 4.0 International license Phân tích khách hàng nhánh quan trọng việc phân tích liệu kinh doanh Tìm hiểu hành vi, ghi nhận thói quen mua sắm, nắm bắt sở thích khách hàng v.v ln doanh nghiệp đầu tư nhằm tạo lợi the´ˆ cạnh tranh lâu dài Nhóm khách hàng công ty thường đa dạng thành phần, khác độ tuổi v.v từ dẫn đe´ˆ n tâm lý mua sắm khác Do đó, doanh nghiệp thường phải phân chia khách hàng thành nhóm có đặc điểm tương tự nhau, từ đưa chie´ˆ n lược sản xuất, tie´ˆ p thị sản phẩm nhằm đáp ứng tốt nhu cầu mua sắm, tăng doanh thu cơng ty Có nhiều cách để phân chia hay phân cụm khách hàng Trước đây, phận marketing phân cụm chủ ye´ˆ u dựa vào thơng tin truyền thống như: • Thơng tin địa lý (thị trấn, quận, thành phố, tiểu bang, quốc gia cư trú) Ngày nay, với thành tựu khoa học liệu cách mạng công nghiệp 4.0, doanh nghiệp bắt đầu thu thập xử lý liệu khách hàng cách chi tie´ˆ t nhiều Việc giúp phận chăm sóc, tie´ˆ p thị khách hàng có điều kiện hiểu sâu hành vi mua sắm, thói quen, sở thích v.v Cấu trúc báo gồm phần: • Giới thiệu • Phương pháp nghiên cứu • Mơ tả liệu • Nhân học (bao gồm độ tuổi, giới tính, thu nhập giáo dục) • Các ke´ˆ t phân tích • Tâm lý học (như tầng lớp xã hội, lối sống đặc điểm cá tính) • Thảo luận • Ke´ˆ t luận • Dữ liệu hành vi (bao gồm thói quen chi tiêu) Trích dẫn báo này: Hồng Diễn L, Phúc Sơn N, Hồng Un P, Văn Hinh L Bài tốn phân nhóm khách hàng mua sắm siêu thị Coopextra Thủ Đức Sci Tech Dev J - Eco Law Manag.; 3(1):28-36 28 Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 PHƯƠNG PHÁP NGHIÊN CỨU Nhóm đối tượng vào nhóm gần Phương pháp nghiên cứu đề tài phương pháp phân cụm Phân cụm kĩ thuật Machine Learning phổ bie´ˆ n để phân tích liệu sử dụng nhiều lĩnh vực marketing, y te´ˆ , sinh học…cũng nghiên cứu kinh te´ˆ , tài Phân cụm trình phân loại điểm liệu vào nhóm cụ thể Trong đó, điểm liệu nhóm phải có thuộc tính tương tự (similar features) ngược lại, điểm nhóm khác phải có thuộc tính khơng giống (dissimilar features) Độ đo khoảng cách để đánh giá độ tương tự điểm liệu Mục tiêu phân cụm tìm nhóm liệu tương đồng Tuy nhiên, khơng có tiêu chí xem tốt để đánh giá hiệu phân cụm, điều phụ thuộc vào mục đích phân cụm Các phương pháp phân cụm chia thành hai loại bản: phân cụm theo cấp bậc (Hierarchical clustering) Partitional clustering Hierarchical clustering tie´ˆ n hành hợp liên tie´ˆ p cụm nhỏ thành cụm lớn cách tách cụm lớn thành cụm nhỏ Partitional clustering phương pháp phân nhóm sử dụng để phân loại quan sát tập liệu thành nhiều nhóm dựa giống chúng Các thuật toán yêu cầu người dùng định số lượng cụm tạo Trong báo sử dụng phương pháp phân cụm phổ bie´ˆ n phương pháp K-means Phân cụm K-means (MacQueen, 1967) thuật tốn học máy khơng giám sát sử dụng để phân nhóm đối tượng cho vào k cụm, k định trước Trong phân cụm K-means, cụm biểu diễn tâm (centroid) tương ứng với trung bình điểm gán cho cụm Ý tưởng thuật toán K-means xác định cụm cho total within-cluster variation nhỏ với định nghĩa total within-cluster variation sau: Xác định lại tâm cho nhóm cách tính giá trị trung bình cho điểm liệu cụm tương ứng Thực lại bước cho đe´ˆ n khơng có thay đổi nhóm điểm liệu MƠ TẢ DỮ LIỆU Trong đó, xi điểm liệu thuộc cụm Ck , µ k giá trị trung bình điểm cụm Ck Bộ liệu khách hàng thu thập có 475 điểm liệu từ khách hàng mua sắm siêu thị CoopExtra quận Thủ Đức Để có liệu này, thực thu hóa đơn mua hàng 475 khách hàng Sau thực thao tác tiền xử lý liệu Bộ liệu bao gồm chi tiêu cho lần mua sắm khách hàng siêu thị danh mục sản phẩm đa dạng Số thuộc tính: 15 Đặc điểm tập liệu: Đa bie´ˆ n Đặc tính thuộc tính: numeric character Một mẫu liệu (Hình 1) bao gồm quan sát từ liệu thực phần mềm R: Chúng ta khai thác liệu thông qua quan sát mô tả thống kê tập liệu để bie´ˆ t số thơng tin thuộc tính mối quan hệ thuộc tính the´ˆ Hình bảng thống kê mơ tả liệu thực hàm summary() R Nhìn vào biểu diễn Boxplot cho liệu (Hình 3) vẽ hàm boxplot() R, ta thấy tính có nhiều điểm ngoại lệ Chúng ta lọc outlier (Hình 4) cách sử dụng khoảng cách Cook Trong thống kê, khoảng cách Cook dùng để xét ảnh hưởng điểm liệu thực phân tích hồi quy bình phương nhỏ Khoảng cách đặt theo tên nhà thống kê người Mỹ R Dennis Cook, người đưa khái niệm vào năm 1977 Các outlier làm ảnh hưởng đe´ˆ n độ xác mơ hình phân tích dự đốn Tuy nhiên phân khúc khách hàng, ne´ˆ u xóa bỏ outlier bỏ lỡ nhiều thơng tin hữu ích khách hàng Đây khách hàng thuộc phân khúc tầm cao mang lại giá trị cho doanh nghiệp Do đó, doanh nghiệp cần phân tích để có cách tie´ˆ p cận dịch vụ chăm sóc khách hàng phù hợp Thuật tốn K-means tóm tắt sau CÁC KẾT QUẢ PHÂN TÍCH CHÍNH k tot.withiness = k ∑ W (Ck ) = ∑ ∑ k=1 k=1 xi ∈Ck (xi − µk )2 Chỉ định số lượng cụm k Chọn ngẫu nhiên k điểm từ tập liệu làm trung tâm (centroids) cho k cụm Tính khoảng cách điểm đeˆ´ n k tâm (thường dùng khoảng cách Euclidean) 29 Trong phần sử dụng hàm K-means ngơn ngữ lập trình R để phân khúc khách hàng thành nhóm riêng biệt dựa thói quen mua hàng dựa vào tập liệu Thuật toán xác định phân khúc cụm khách hàng có tương quan Tạp chí Phát triển Khoa học Công nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 1: Mẫu liệu Hình 2: Thống kê mơ tả liệu Hình 3: Biểu diễn Boxplot 30 Tạp chí Phát triển Khoa học Công nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 4: Các outlier liệu (Sử dụng hàm cooks.distance() R để vẽ) Trước tiên ta tie´ˆ n hành tải liệu chuẩn hóa liệu hàm scale() R Thuật toán K-means định chọn số cụm k tạo Hiệu thuật toán phụ thuộc vào việc chọn số cụm k Vậy làm the´ˆ để xác định lượng cụm tối ưu tập liệu phân tích? Hàm fviz_nbclust () [trong gói factoextra] cung cấp giải pháp để ước tính số lượng cụm tối ưu Và phương pháp sử dụng phương pháp Elbow Dựa vào thuật toán phân cụm cho giá trị k khác nhau, thường từ đe´ˆ n 10 Với k, tính total within-cluster sum of square (WSS) Sau vẽ đường cong WSS theo số cụm k Vị trí uốn cong đồ thị xem số cụm tối ưu Chúng ta thu ke´ˆ t Hình Phương pháp Elbow gợi ý cho chọn cụm tối ưu k=4 Thực chọn ke´ˆ t sai lệch đơn vị, tức k=3 k=5 Trong chọn k=4 Sau đó, thực phân cụm sử dụng thuật tốn K-means với k=4 thu hình ảnh phân cụm Hình 6) Mỗi màu tượng trưng cho nhóm khách hàng có chung đặc điểm mua sắm 31 Chúng ta tìm hiểu phân tích phân cụm để tìm đặc điểm chung nhóm Trong phân cụm bao gồm khách hàng Nhìn vào Hình 7, nhận thấy đa phần khách hàng phân cụm mua sắm nhiều cho mặt hàng hóa mỹ phẩm_vệ sinh, đặc biệt khách hàng số 3,6,7 Trong số tiền trung bình khách hàng chi trả cho hóa mỹ phẩm_vệ sinh tồn liệu 121745 (VNĐ).Đây hầu he´ˆ t khách hàng thuộc loại thẻ vàng Trong phân cụm (Hình 8) có 18 khách hàng Tất khách hàng nhóm chi tiêu nhiều vào mặt hàng đồ dùng gia đình Ngồi khai thác thêm số thông tin đáng ý Như khách hàng số ngồi đồ dùng gia đình mua số lượng lớn mặt hàng hóa mỹ phẩm_vệ sinh Hay khách hàng số mua sắm thêm nhiều mặt hàng hóa mỹ phẩm_vệ sinh may mặc_phụ kiện, khách hàng số 7, chi nhiều cho sản phẩm đồ uống Trong phân cụm (Hình 9) có 105 khách hàng Nhìn vào bảng liệu phân cụm thấy có Tạp chí Phát triển Khoa học Công nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 5: Số cụm tối ưu (sử dụng Hàm fviz_nbclust () gói factoextra R để vẽ) Hình 6: Ke´ˆ t phân cụm với k=4 Hình 7: Dữ liệu phân cụm 32 Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 8: Dữ liệu phân cụm số liên hệ khách hàng chưa thực rõ ràng Do đó, cần thực phân cụm lần để tìm nhóm khách hàng cụ thể Với bước thực phân cụm tương tự cho liệu phân cụm 3, ta thu phân cụm tương ứng (Hình 10) Để tránh nhầm lẫn, chúng tơi kí hiệu nhóm nhỏ phân cụm nhóm 3.1, 3.2, 3.2, 3.4 Nhóm lọc có khách hàng (Hình 11) thuộc nhóm chi tiêu nhiều cho sản phẩm đồ uống khoảng từ 548500 (VNĐ) đe´ˆ n 1192500 (VNĐ) Nhóm 3.2 (Hình 12) có 16 khách hàng tập trung mua sắm mức trung bình cho mặt hàng may mặc_phụ kiện khoảng từ 259000 (VNĐ) đe´ˆ n 1130000 (VNĐ) Nhóm 3.3 (Hình 13) có 26 khách hàng chi tiêu mức trung bình cho mặt hàng thực phẩm tươi sống Chi tiêu trung bình nhóm vào mức 409172 (VNĐ) Nhóm 3.4 (Hình 14) tập trung vào nhóm khách hàng mua sản phẩm hóa mỹ phẩm_vệ sinh khoảng từ 253850 (VNĐ) đe´ˆ n 764800 (VNĐ) Nhóm chi tiêu mức trung bình so với phân cụm Có thể hiểu nhóm phân khúc tầm trung nhóm phân cụm phân khúc tầm cao Như vậy, sau phân tích phân cụm tìm số thơng tin hữu ích khách hàng Phân cụm (Hình 15) phân cụm có nhiều khách hàng 328 khách hàng Tuy nhiên nhìn vào bảng liệu phân cụm này, không thấy mối liên hệ khách hàng Và hầu he´ˆ t khách hàng chi tiêu cho mặt hàng mức thấp Đây hộ cá thể gia đình mua sắm khơng theo quy luật THẢO LUẬN Để có liệu phục vụ cho nghiên cứu này, nhóm nghiên cứu lên ke´ˆ hoạch tổ chức thu thập liệu Sau tie´ˆ n hành phân tích liệu ngơn ngữ lập trình R Trong báo này, thuật tốn sử dụng phân cụm khách hàng thuật toán K-means.Ưu điểm 33 thuật toán K-means đơn giản hiệu quả, thực liệu lớn Định hướng nghiên cứu nhóm tương lai mở rộng nghiên cứu cách thêm vào liệu bie´ˆ n thực thuật tốn phân cụm khác phân tích thành phần (PCA), phân cụm theo phân cấp thuật toán DBSCAN (Density-based spatial clustering of applications with noise) để có góc nhìn khác mà thuật tốn K-means khơng nhìn thấy Từ tìm phân khúc khách hàng cụ thể ý nghĩa KẾT LUẬN Tóm lại, qua q trình phân tích thử nghiệm phương pháp Elbow nhóm nghiên cứu tìm số phân cụm thích hợp cụm tương ứng với phân khúc khách hàng khác Từ tìm số phân khúc có ý nghĩa như: • Phân cụm khách hàng tập trung vào mặt hàng hóa mỹ phẩm vệ sinh • Phân cụm tập trung vào mặt hàng đồ dùng gia đình Đây khách hàng chi trả mức trung bình nhiều • Trong phân cụm 3, tìm phân khúc khách hàng cho nhóm đồ uống (nhóm 3.1), nhóm may mặc phụ kiện (nhóm 3.2), nhóm thực phẩm sống (3.3), nhóm hóa mỹ phẩm vệ sinh (nhóm 3.4, phân khúc thấp phân cụm 1) Nghiên cứu phân khúc khách hàng việc làm cần thie´ˆ t công ty hay doanh nghiệp Thông qua phân khúc khách hàng phần giúp doanh nghiệp tìm hiểu, nắm bắt hành vi mua sắm khách hàng để có giải pháp riêng, chie´ˆ n lược quảng cáo, tie´ˆ p thị dịch vụ chăm sóc khách hàng hiệu với khác biệt dù nhỏ nhóm khách hàng Tạp chí Phát triển Khoa học Công nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 9: Dữ liệu phân cụm Hình 10: Ke´ˆ t phân cụm cụm Hình 11: Dữ liệu nhóm 3.1 Hình 12: Dữ liệu nhóm 3.2 34 Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế - Luật Quản lý, 3(1):28- 36 Hình 13: Dữ liệu nhóm 3.3 Hình 14: Dữ liệu nhóm 3.4 Hình 15: Dữ liệu phân cụm DANH MỤC TỪ VIẾT TẮT CÁM ƠN Nhóm tác giả chân thành cảm ơn hỗ trợ đại sứ quán Ireland Hà Nội tài trợ kinh phi cho báo WSS: (Within-cluster Sum of Square) - Tổng bie´ˆ n thiên bình phương khoảng cách cụm PCA: Phân tích thành phần DBSCAN: (Density-based spatial clustering of applications with noise) -Phân cụm theo phân cấp thuật tốn TUN BỐ VỀ XUNG ĐỘT LỢI ÍCH Nhóm tác giả xin cam đoan khơng có xung đột lợi ích cơng bố báo TUYÊN BỐ ĐÓNG GÓP CỦA CÁC TÁC GIẢ Lê Hồng Diễn Nguyễn Phúc Sơn có đóng góp việc tie´ˆ n hành xử lý, phân tích liệu vie´ˆ t thảo Phạm Hoàng Uyên Lê Văn Hinh có đóng góp trình tổ chức thu thập liệu 35 TÀI LIỆU THAM KHẢO Dolnicar S, Grn B, Leisch F Market Segmentation Market Segmentation Analysis: Understanding It, Doing It, and Making It Useful Springer; 2018 p 11–22 Kassambara A Practical guide to cluster analysis in R: unsupervised machine learning In: STHDA; 2017 Kanungo T, Mount DM, Netanyahu NS, Piatko CD, Silverman R, Wu A, et al An efficient k-means clustering algorithm: Analysis and implementation IEEE Transactions on Pattern Analysis and Machine Intelligence 2002;7:881–92 Khan SS, Ahmad A Ahmad AJPrl Cluster center initialization algorithm for K-means clustering Pattern Recognition Letters 2004;25(11):1293–302 A density-based algorithm for discovering clusters in large spatial databases with noise In: Ester M, Kriegel HP, Sander J, Xu X, editors Proceedings of the SecondInternational Conference on Knowledge Discovery andData Mining (KDD-96) AAAI Press; 1996 p 226–231 Science & Technology Development Journal – Economics - Law and Management, 3(1):28- 36 Research Article On a segmentation of Coopextra customers in Thu Duc district Le Hong Dien∗ , Nguyen Phuc Son, Pham Hoang Uyen, Le Van Hinh ABSTRACT Customer segmentation is the process of grouping customers based on similar characteristics such as behavior, shopping habits…so that businesses can marketing to each customer group effectively and appropriately Customer segmentation helps businesses determine different strategies and different marketing approaches to different groups Customer segmentation helps marketers better understand customers as well as provide goals, strategies and marketing methods for different target groups This paper aims to examine the customer segmentation using clustering method in statistics and unsupervised machine learning The algorithms used are K-means and Elbow which are famous algorithms that have been successfully applied in many areas such as marketing, biology, library, insurance, finance The purpose of clustering is to find meaningful market segments However, the adoption and adjustment of parameters in the algorithms so as to find significant customer segmentations remain a challenge at present In this paper, we used data of customers of Thu Duc CoopExtra and found significant customer segmentations which can be useful for more effective marketing and customer care by the supermarket Key words: Customer segmentation, market segmentation, clustering, K-means algorithm, Elbow method University of Economics & Law, VNUHCM, Vietnam Correspondence Le Hong Dien, University of Economics & Law, VNUHCM, Vietnam Email: dienlh@uel.edu.vn History • Received: 12-12-2018 • Accepted: 22-01-2019 Published: 31-03-2019 DOI : 10.32508/stdjelm.v3i1.537 Copyright â VNU-HCM Press This is an openaccess article distributed under the terms of the Creative Commons Attribution 4.0 International license Cite this article : Hong Dien L, Phuc Son N, Hoang Uyen P, Van Hinh L On a segmentation of Coopextra customers in Thu Duc district Sci Tech Dev J - Eco Law Manag.; 3(1):28-36 36 ... phân khúc tầm trung nhóm phân cụm phân khúc tầm cao Như vậy, sau phân tích phân cụm tìm số thơng tin hữu ích khách hàng Phân cụm (Hình 15) phân cụm có nhiều khách hàng 328 khách hàng Tuy nhiên nhìn... Trong phân cụm 3, tìm phân khúc khách hàng cho nhóm đồ uống (nhóm 3.1), nhóm may mặc phụ kiện (nhóm 3.2), nhóm thực phẩm sống (3.3), nhóm hóa mỹ phẩm vệ sinh (nhóm 3.4, phân khúc thấp phân cụm... CoopExtra quận Thủ Đức Để có liệu này, chúng tơi thực thu hóa đơn mua hàng 475 khách hàng Sau thực thao tác tiền xử lý liệu Bộ liệu bao gồm chi tiêu cho lần mua sắm khách hàng siêu thị danh mục

Ngày đăng: 16/01/2020, 05:46

Từ khóa liên quan

Mục lục

  • Bài toán phân nhóm đối với khách hàng mua sắm tại siêu thị Coopextra Thủ Đức

    • GIỚI THIỆU

    • PHƯƠNG PHÁP NGHIÊN CỨU

      • Thuật toán K-means có thể tóm tắt như sau

      • MÔ TẢ DỮ LIỆU

      • CÁC KẾT QUẢ PHÂN TÍCH CHÍNH

      • THẢO LUẬN

      • KẾT LUẬN

      • DANH MỤC TỪ VIẾT TẮT

      • TUYÊN BỐ VỀ XUNG ĐỘT LỢI ÍCH

      • TUYÊN BỐ ĐÓNG GÓP CỦA CÁC TÁC GIẢ

      • CÁM ƠN

      • References

Tài liệu cùng người dùng

Tài liệu liên quan