Phân tích phân khúc khách hàng (Customer Segmentation) là một trong những vấn đề quan trọng trong việc quản lý khách hàng và xây dựng các chiến lược marketing phù hợp. Bài viết này tập trung thực hiện một nghiên cứu liên ngành kết hợp giữa phương pháp RFM (Recency, Frequency, Monetary) và học máy (Machine Learning) để phân tích phân khúc khách hàng.
Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Bài Nghiên cứu Open Access Full Text Article Một nghiên cứu liên ngành phân tích phân khúc khách hàng marketing phương pháp học máy Hồ Trung Thành* , Nguyễn Đăng Sơn TÓM TẮT Use your smartphone to scan this QR code and download this article Phân tích phân khúc khách hàng (Customer Segmentation) vấn đề quan trọng việc quản lý khách hàng xây dựng chiến lược marketing phù hợp Việc phân chia thành nhóm khách hàng giúp người quản lý nắm bắt rõ đặc điểm khách hàng hay hành vi tiêu dùng họ, từ tiếp cận khách hàng mục tiêu, giữ chân khách hàng (Customer Retention), gia tăng doanh thu lợi cạnh tranh doanh nghiệp Tuy nhiên, phân tích để tìm nhóm khách hàng vấn đề đặt mà doanh nghiệp cần giải dựa sở vững đáng tin cậy Cùng với hỗ trợ từ giải pháp công nghệ quản lý quan hệ khách hàng (Customer Relationship Management) phát triển mạnh mẽ công nghệ Khoa học liệu, việc áp dụng thuật toán, phương pháp bao gồm định tính định lượng nhằm giúp phân chia nhóm khách hàng phân tích marketing Bài báo tập trung thực nghiên cứu liên ngành kết hợp phương pháp RFM (Recency, Frequency, Monetary) học máy (Machine Learning) để phân tích phân khúc khách hàng Nghiên cứu thực thông qua phương pháp thực nghiệm tập liệu (dataset) với 541,909 giao dịch cửa hàng bán lẻ trực tuyến gom cụm phân khúc khách hàng với đặc trưng cụm kiểm định chất lượng cho thấy tính hiệu khả ứng dụng nghiên cứu Từ khoá: Phân khúc khách hàng, RFM, học máy, phân cụm, tỷ lệ trì khách hàng GIỚI THIỆU Trường Đại học Kinh tế - Luật, ĐHQG-HCM, Việt Nam Liên hệ Hồ Trung Thành, Trường Đại học Kinh tế Luật, ĐHQG-HCM, Việt Nam Email: thanhht@uel.edu.vn Lịch sử • Ngày nhận: 08/6/2021 • Ngày chấp nhận: 20/8/2021 • Ngày đăng: 04/9/2021 DOI : 10.32508/stdjelm.v6i1.850 Bản quyền © ĐHQG Tp.HCM Đây báo cơng bố mở phát hành theo điều khoản the Creative Commons Attribution 4.0 International license Trong phân tích marketing hay công việc liên quan đến quản lý, phục vụ, chăm sóc khách hàng, việc thấu hiểu khách hàng, cố gắng đem đến sản phẩm, dịch vụ, trải nghiệm tốt mục tiêu mà doanh nghiệp hướng đến Tuy nhiên hành trình ln chứa đựng nhiều vấn đề hay tốn chí khơng dễ dàng để có câu trả lời Một sản phẩm hay chương trình khuyến tung thị trường khó đáp ứng hết nhu cầu tất khách hàng Chính doanh nghiệp chuyển dần sang việc phân chia khách hàng thành nhóm riêng – gọi phân khúc khách hàng, nhằm tập trung hóa chăm sóc khách hàng tốt dựa đặc trưng riêng nhóm khách hàng Với phát triển mạnh mẽ công nghệ khoa học liệu nay, việc thu thập lưu trữ liệu khách hàng nguồn tài nguyên mang nhiều giá trị tiềm chờ khai phá sở thuận lợi để áp dụng mô hình tốn học, thuật tốn, phương pháp học máy việc khai thác giải vấn đề kinh doanh Từ việc phân tích liệu, định người quản lý có tính khách quan đa chiều Các định dựa liệu (Datadriven decision making) đưa giảm bớt cảm tính vốn khó đo lường Việc kết hợp phân tích liệu dựa phân khúc khách hàng góp phần vào thành cơng chiến lược marketing hay sách chăm sóc khách hàng nói riêng trì tồn tại, phát triển doanh nghiệp nói chung bối cảnh thị trường chung có nhiều cạnh tranh khốc liệt Để giải vấn đề trên, nghiên cứu tập trung vào toán phân khúc khách hàng với mơ hình, phương pháp phân tích dựa kết hợp hai tảng kinh doanh (Business) cơng nghệ thơng tin (Information Technology) Từ giúp cung cấp chứng kết từ tổng quan đến chi tiết tình hình vận hành kinh doanh sách với phân khúc khách hàng phân tích Một lợi ích lớn phân tích phân khúc khách hàng giúp doanh nghiệp quản trị khách hàng hiệu Khi doanh nghiệp phân khúc khách hàng thành nhóm khác (Hình 1) dựa nhân học, sở thích, hành vi mua sắm giúp doanh nghiệp có chiến lược phù hợp để đồng hành nhu cầu mua sắm hay sử dụng dịch vụ khách hàng từ phản hồi kịp Trích dẫn báo này: Thành H T, Sơn N D Một nghiên cứu liên ngành phân tích phân khúc khách hàng marketing phương pháp học máy Sci Tech Dev J - Eco Law Manag.; 6(1):2005-2015 2005 Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Hình 1: Minh họa phân khúc khách hàng (Nguồn: Subiz)a a P Dung, “Phân khúc khách hàng để Marketing hiệu quả,” Subiz, ngày 27/3/2017 https://subiz.com.vn/blog/phankhuc-khach-hang.html [Ngày truy cập lần cuối 28/06/2021] thời với nhu cầu Nội dung báo phần gồm sở lý thuyết nghiên cứu liên quan, nhằm định hình, xác định mơ hình, thuật tốn phù hợp với mục tiêu đặt Các vấn đề liên quan trình thực nghiệm mơ tả phần - phương pháp quy trình thực nghiên cứu Sau trình thực nghiệm, kết đặc điểm phân khúc khách hàng tìm đề cập phần thảo luận kết Phần cuối kết luận hướng phát triển nghiên cứu CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Phương pháp RFM thường sử dụng việc phân chia nhóm khách hàng tìm đặc điểm phân khúc khách hàng Trong Hình 2, phương pháp RFM biết đến tóm tắt lại giao dịch khách hàng ba yếu tố , bao gồm: Recency xem lần cuối gần mà khách hàng mua hàng (khoảng cách ngày tiến hành áp dụng phương pháp ngày gần khách hàng mua hàng); Frequency tần suất mua hàng khách hàng hay khách hàng mua hàng lần; Monetary tổng lượng tiền mà khách hàng chi tiêu cho toàn hoạt động mua sắm Trong giai đoạn đầu tiên, sau thiết lập phương pháp RFM, yếu tố Recency, Frequency Monetary khách hàng thường xếp hạng theo thứ bậc (ranking) với thang điểm thường từ đến Trong báo John R Miglautsch , tác giả xếp hạng khách hàng việc sử dụng nhãn nhóm khách hàng (Customer quintiles) Tuy nhiên, sau với nhu cầu người ngày phát triển, số lượng giao dịch, hàng hóa tăng 2006 Hình 3: Một hóa đơn bán hàng cửa hàng bán lẻ Việt Nam cao Lượng khách hàng giao dịch doanh nghiệp có thay đổi khác mang đặc thù không giống Điều dẫn đến việc vận hành phương pháp RFM có thay đổi so với trước Trong nghiên cứu sau này, nhà phân tích số liệu ứng dụng cải tiến việc phân chia nhóm khách hàng việc sử dụng thuật toán, phương pháp tảng toán học lĩnh vực học máy Đây lĩnh vực trí tuệ nhân tạo, lĩnh vực phát triển mạnh mẽ song song với ngành khoa học liệu Cụ thể, nghiên cứu tác giả Palaksha Anitha Malini Mrityunjay Patil sử dụng phương pháp phân cụm (clustering) K-means – phương pháp mơ hình học không giám sát (Unsupervised Machine Learning) nhằm phân chia nhóm khách hàng dựa ba yếu tố phương pháp RFM Mỗi phân khúc khách hàng lúc xem cụm (cluster) K-means Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Hình 2: Minh họa phương pháp RFM (Nguồn: Moengage, 2021)a a Aditya, Predictive Segments using RFM Analysis: An In-Depth Guide [Updated], Moengage, ngày 22/2/2021, https://www.moengage.com/blog/rfm-analysis-using-predictive-segments/ [Ngày truy cập cuối 28/6/2021] Điểm bật sử dụng phương pháp K-means hay phương pháp học máy nói chung khả “tự học” phương pháp Các phương pháp học máy tập hợp bước xử lý liệu dựa tảng toán học thống kê Đây điều giải thích cho khác biệt phương pháp học máy nói chung khác với việc xử lý liệu phương pháp lập trình truyền thống Chính vậy, với phương pháp có chất lượng tốt hiệu xử lý thao tác tập liệu khổng lồ phương pháp học máy mạnh mẽ kết sau trình “tự học” liệu tạo định dự đoán tốt 4,5 Trong nghiên cứu nhóm tác giả thực phân cụm hai lần chọn kết tốt Lần thực Recency Monetary lần sau thực Frequency Monetary Trong nghiên cứu , bên cạnh việc sử dụng phương pháp K-means, tác giả so sánh độ hiệu phân cụm phương pháp Fuzzy C-means RM K-means Kết nghiên cứu hiệu sử dụng phương pháp phân cụm học máy cung cấp liệu đặc điểm hành vi khách hàng phân khúc Trong nghiên cứu báo, nhóm tác giả khai thác điểm mạnh nghiên cứu trước từ đề xuất phương pháp nghiên cứu liên ngành kết hợp phân tích phân khúc khách hàng marketing Trong đó, báo tập trung xây dựng mơ hình liệu RFM dựa liệu giao dịch với tham số đặc trưng cấu trúc tương đồng tìm thấy hóa đơn bán hàng cửa hàng nước giới Việt Nam (Hình 3) áp dụng phương pháp học máy khơng giám sát để phân tích phân khúc khách hàng tìm giá trị thật (insight) có khả tác động, ảnh hưởng tới hành vi định mua hàng khách hàng Bên cạnh đó, để đảm bảo chất lượng kết nghiên cứu so với nghiên cứu trước, báo sử dụng phương pháp Elbow với số kiểm định Silhouette để tối ưu số cụm khách hàng, hệ số chuẩn (Zscore) Quy tắc kiểm chứng (Empirical Rule) áp dụng để xử liệu liệu bất thường (Outlier) phương pháp Cohort để phân tích tỷ lệ trì khách hàng kết hợp biểu đồ nhiệt phân phối ma trận PHƯƠNG PHÁP VÀ QUY TRÌNH THỰC NGHIỆM NGHIÊN CỨU Phương pháp nghiên cứu Hình trình bày quy trình nghiên cứu với giai đoạn sau: 1) Giai đoạn từ liệu đầu vào tập dataset khảo sát tiền xử lý (Data Preprocessing) nhằm tìm đặc điểm khơng phù hợp Sau đó, đặc trưng cần thiết từ hành vi tiêu dùng khách hàng tiềm ẩn liệu lựa chọn phù hợp với việc tính tốn giá trị Recency, Frequency, Monetary cuối hồn chỉnh mơ 2007 Tạp chí Phát triển Khoa học Công nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Hình 4: Phương pháp, quy trình nghiên cứu thực nghiệm hình liệu RFM; 2) Giai đoạn giai đoạn chiếm tỷ trọng lớn có mức độ phức tạp tồn nghiên cứu Từ việc khám phá liệu Giai đoạn 1, vấn đề đặc điểm liên quan đến giá trị mơ hình RFM tìm điều có làm ảnh hưởng đến liệu đầu vào cho phương pháp K-means bảo đảm tính xác kết phân cụm phương pháp thực thi Do đó, giai đoạn 2, nghiên cứu lựa chọn phương pháp mơ hình phù hợp với đối tượng liệu nhằm giải việc chuẩn hóa liệu đầu vào phương pháp kiểm định liên quan đến phương pháp K-means để đạt kết tốt phân tích nhóm khách hàng, định lựa chọn nhóm khách hàng dựa kết phân tích từ phương pháp lai; 3) Giai đoạn khai thác liệu có từ mơ hình RFM, nghiên cứu tiến hành phân tích Cohort tìm số khách hàng tháng tính tỷ lệ trì theo biểu đồ nhiệt phân phối theo ma trận Thực nghiệm phân tích phân khúc khách hàng Tiền xử lý liệu thiết lập mơ hình liệu RFM Các phương pháp sau thực dựa tập liệu (dataset) cửa hàng bán lẻ trực tuyến quà tặng phụ kiện (có trụ sở đặt Vương quốc Anh) Tập liệu chứa 541,909 giao dịch cửa hàng bán mặt hàng quà tặng phụ kiện Trong có nhiều khách hàng cửa hàng nhà bán lẻ 2008 Các giao dịch xảy hai năm từ 2010 đến 2011 Trên đơn hàng Hình 5, nghiên cứu tập trung khai thác thuộc tính, bao gồm: thuộc tính CustomerID số hóa đơn thuộc khách hàng; thuộc InvoiceNo (số hóa đơn), đơn hàng có mã hóa đơn riêng số phân biệt với hóa đơn khác Một số hóa đơn xuất nhiều ghi (record) liệu hiểu nhiều mặt hàng mua hóa đơn Thuộc tính dùng để tính giá trị Frequency; thuộc tính Quantity (số lượng mặt hàng) mua hóa đơn; UnitPrice (đơn giá mặt hàng) Với cơng thức Quantity x Price xác định tổng số tiền hàng hóa đơn từ xác định thành tiền đơn hàng Các thuộc tính dùng để tính giá trị Monetary; thuộc tính InvoiceDate (ngày mua hàng) dùng để tính giá trị Recency cách chọn InvoiceDate (gần nhất) tồn hóa đơn (InvoiceNo) khách hàng Sau trình khảo sát tiền xử lý loại bỏ giá trị không cần thiết giữ lại giá trị phù hợp, mơ hình liệu RFM thiết lập với kết trình bày Hình Chuẩn hóa liệu mơ hình RFM Quay trở lại với mơ hình RFM, quan sát giá trị Recency, Frequency Monetary, nhận thấy không tương đồng đơn vị độ chênh lệch phạm vi giá trị lớn ba yếu tố F, R M xét đến tứ phân vị thể Hình Tạp chí Phát triển Khoa học Công nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Hình 5: Một phần tập liệu đầu vào đơn vị với phương pháp phân phối theo hệ số chuẩn (standard score) hay gọi với tên gọi khác Z-score Với điểm Z-score giúp hình dung độ xa điểm liệu so với điểm liệu trung bình (điểm chuẩn) Cơng thức để quy đổi giá trị theo Z-score sau: x − mean (1) std Trong với x giá trị điểm liệu, mean giá trị trung bình tập liệu, std (standard deviation) độ lệch chuẩn tập liệu Sau thực đồng lại giá trị đơn vị liệu RFM với kết Hình 8: Z= Hình 6: Kết mơ hình RFM sau tiền xử lý thiết lập Hình 8: Minh họa kết Z-Score Frequency Hình 7: Mơ tả tứ phân vị liệu RFM Giá trị Recency trải dài từ đến 376 (ngày mua hàng gần nhất), Frequency trải dài từ đến 209 (lần mua) Đặc biệt, Monetary giá trị có miền giá trị lớn từ 3.75 đến 259657.3 (đơn vị tiền tệ) Khi nhìn vào phân phối tứ phân vị Monetary thấy Monetary có giá trị lớn nhiều so với hai yếu tố cịn lại Chính phân bố giá trị yếu tố tập liệu ảnh hưởng outlier đến kết phân cụm, giải pháp quy đổi giá trị Với phương pháp tính đơn giản lại mơ tả lại xác gần giá trị thực ban đầu liệu, điều làm giảm khoảng cách chênh lệch lớn yếu tố phương pháp RFM không làm thay đổi ý nghĩa ban đầu liệu Giải thích cho kết này: trung bình tần suất mua hàng khách hàng 4.24 lần Khi đối chiếu với Fre_zs khách hàng 12346 12748: Khách hàng 12346 có số lần mua hàng so với mặt chung (trung bình) 0.45 lần Đây lý giải thích cho xuất dấu âm giá trị này; Khách hàng 12748 có tần suất mua hàng cao nhiều trung bình 28 lần (28.44) Lựa chọn số cụm tối ưu cho phương pháp Kmeans Phương pháp Elbow minh họa dạng đồ thị đường cong với trục hoành số K cụm (nghĩa số 2009 Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 phân khúc khách hàng dựa giá trị từ mơ hình liệu RFM), trục tung số SSE (Sum of Errors) – tức số đo lường khác biệt điểm cụm SSE tính tổng khoảng cách tính từ điểm liệu cụm đến tâm cụm lặp lại toàn cụm Công thức SSE: ( )2 nj (2) SSE = ∑ki=1 ∑ j=1 d xi j , mi với x điểm liệu, m tâm cụm k số cụm Tiến hành thực phương pháp Elbow có số cụm từ đến 20 mơ hình RFM thu kết sau: Hình 10: Kết Silhouette trung bình với số cụm từ đến xác định số nhóm khách hàng đưa vào phân tích thực tế để tìm đặc điểm phân khúc khách hàng Gom cụm phân khúc khách hàng trực quan hóa kết phân tích Phân tích trực quan kết phân cụm với biểu đồ phân tán (scatter) không gian ba chiều Hình 11 Kết thể cụm phân khúc khách hàng với đặc trưng có cụm Hình 9: Kết đồ thị đường SSE phương pháp Elbow (khuỷu tay) Với đường SSE giống hình khuỷu tay, ta có điểm gập khuỷu tay với K = (điểm trục hồnh) số cụm thích hợp Giải thích cho điều này, tăng số cụm, giá trị đường SSE gần tăng đều, nghĩa khác biệt điểm cụm gần khơng có thay đổi Hay nói cách khác đường SSE có xu hướng giảm dần độ dốc sau điểm “khuỷu tay” vị trí đường SEE xem điểm tối ưu cho tham số đầu vào phương pháp gom cụm K-means Hình 11: Biểu đồ phân tán (Scatter plot) nhóm khách hàng khơng gian ba chiều Kiểm định chất lượng cụm với số Silhouette Để đảm bảo số nhóm khách hàng phân tích từ phương pháp Elbow tốt nhất, nghiên cứu tiến hành đo lường số Silhouette số cụm K=5 thu kết Hình 10, với điểm số trung bình thu khoảng 0.6008 cao tất số cụm khoảng từ đến Điều giải thích rằng, với số cụm 5, khoảng cách từ đối tượng cụm đến tâm cụm tối ưu không xảy tượng lệch tâm cụm cho ảnh hưởng giá trị Monetary đề cập trước Bên cạnh số cụm tăng dần từ đến 9, đặc biệt tăng dần từ 7, điểm Silhouette trung bình có giảm dần, điều có điểm tương đồng với đường SSE Hình Theo nghiên cứu tác giả , kết 2010 Hình 12: Số lượng phần tử (khách hàng) cụm (cluster) Kết phân cụm trực quan Hình 11 Hình 12, với mật độ điểm cụm ổn Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 định nhất, cụm có độ ổn định thấp với vài điểm nằm xa tâm cụm Riêng cụm cụm 3, thứ hai cụm có số lượng phần tử cụm tương ứng 20 3; thứ hai xét đến đặc điểm khác tọa độ theo Frequency (đối với cụm 2) Monetary (đối với cụm 3) có giá trị dương cao (lớn 3), nên xem liệu ngoại lai (outlier) theo Quy tắc kiểm chứng với ba độ lệch chuẩn “68-95-99.7” Kết hợp hai điều kiện trên, ta nhận định khó gán nhãn nhóm khách với cụm Trong kết tập trung vào phân tích đặc điểm cụm tương ứng nhóm khách hàng Các tên gọi gán nhãn cho nhóm (phân khúc) khách hàng dựa đặc điểm mô tả tứ phân vị nhãn mô tả cách tổng quan đặc điểm phân khúc khách hàng Chi tiết đặc điểm nhóm khách hàng gán nhãn phân tích phần KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN cột (trục dọc trái) minh họa cho doanh thu (Monetary) biểu đồ đường (trục dọc phải) số khách hàng Với biểu đồ mơ tả Hình 14 cho thấy tổng lượng Monetary nhóm đứng thứ tất phân khúc với khoảng 30.5% doanh thu Với đặc điểm Recency, Frequency Monetary ta nhận thấy, khơng nhóm khách hàng trung thành chí nhóm khách hàng mang lại tiềm lớn doanh nghiệp Mặc dù nhóm khách hàng chiếm 7.37% doanh thu họ đem lại chiếm 30.49% thường xuyên mua hàng năm (khoảng 17 lần/năm tức đặn hàng tháng) Cộng thêm lợi Recency cụm thấp tức họ có xu hướng quay lại vào lần mua sắm Phân tích nhóm khách hàng phổ thơng (cụm 4) Phân tích nhóm khách hàng trung thành (cụm 0) Hình 15: Mơ tả tứ phân vị nhóm khách hàng phổ thơng Hình 13: Mơ tả tứ phân vị nhóm khách hàng trung thành Theo mơ tả tứ phân vị Hình 13, phân khúc khách hàng có số lượng 289 khách hàng, chiếm 7.4% tổng số khách hàng Từ kết rút số đặc điểm nhóm khách hàng Trong đó, ngày mua hàng gần nằm nhóm tốt Trung bình nhóm khách hàng thường có số ngày mua gần 17 ngày; Tần suất mua hàng trung bình đạt 17 lần cao nhiều so với hai nhóm cịn lại; Và nhóm khách hàng sẵn sàng chi nhiều tiền cho hoạt động mua sắm Trực quan hóa liệu với biểu đồ Hình 14, biểu đồ cột khu vực bên trái thể tỷ lệ phần trăm theo doanh thu (Monetary) số lượng khách hàng phân khúc; khu vực bên phải số liệu chi tiết với dạng Đây nhóm khách hàng có số lượng đơng đảo với tỷ lệ cao 67.5% Trong đó, theo kết phân tích Hình 15, mức chi tiêu khơng q cao thấp Nhóm khách hàng trung thành chiếm cao với 41.3% doanh thu; Recency Frequency trì mức độ ổn định hơn, 50% nhóm khách hàng có lượt mua hàng khoảng lần năm 75% số lượng khách mua hàng lần năm Với nhóm khách hàng này, doanh nghiệp tiếp tục cải thiện sách bán hàng để giữ chân nhóm khách hàng chủ lực Bên cạnh tìm khách hàng tiềm nhóm thúc đẩy họ trở thành khách hàng trung thành Thêm vào đó, có điểm cần quan tâm với yếu tố Recency nhóm khách hàng phổ thơng, Recency tăng từ 34 lên 67 xét từ 50% lượng khách nhóm lên 75% 2011 Tạp chí Phát triển Khoa học Công nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 Hình 14: Tỷ lệ khách hàng doanh thu tương ứng theo phân khúc Phân tích nhóm khách hàng khơng thường xun (cụm 1) Phân tích tỷ lệ trì khách hàng (Customer Retention) Một số đặc điểm nhóm khách hàng đáng quan tâm so với hai nhóm khách hàng cịn lại thể Hình 16 Trong đó, mức độ chi tiêu thấp tất phân khúc, chiếm khoảng 5.8% doanh thu; Tần suất mua hàng có xu hướng trì thấp, cụ thể Rencency trung bình cao, 247 ngày tương đương khoảng tháng khơng có hoạt động mua sắm; Frequency trung bình thấp, khoảng 1.5 lần năm, chí 75% khách hàng nhóm mua sắm tối đa lần năm Đây xem nhóm khách hàng mang lại nhiều rủi ro thách thức cho doanh nghiệp Sự đóng góp giá trị nhóm khách không cao không bật, lại chiếm 14 số lượng khách hàng doanh nghiệp Phương pháp phân tích Cohort hay cịn hiểu phân tích theo nhóm cách theo khoảng thời gian Phương pháp phân tích thường ứng dụng để đo lường mức độ tương tác người dùng theo thời gian 10 Cụ thể tốn phân tích tỷ lệ trì khách hàng (ký hiệu r) này, Cohort giúp tìm khách hàng tháng tháng toàn chu kỳ kinh doanh Sau xác định số lượng khách hàng chu kỳ ứng mốc thời gian (trong toán này, mốc thời gian chu kỳ tương ứng với tháng) kết hợp với công thức tỷ lệ trì thu kết r = (Số khách hàng tháng tiếp theo)/(Tổng số khách hàng ban đầu) (3) Với kết phân tích tỷ lệ trì khách hàng dạng ma trận biểu đồ nhiệt Hình 17, bao gồm: Hình 16: Mơ tả tứ phân vị nhóm khách hàng khơng thường xuyên 2012 • Quan sát theo chiều ngang biểu đồ, tỷ lệ trì khách hàng tính theo mốc thời điểm tháng 12/2010, lượng khách hàng sụt giảm mạnh sau tháng khơng có thay đổi đáng kể tháng Điểm bật tháng thứ 11 có tăng mạnh lên đến 50% Tương tự cho mốc thời gian khác, hồn tồn kiểm tra lại tính khách quan thời điểm khác năm • Quan sát khía cạnh khác chiều dọc biểu đồ, ta thu tỷ lệ trì trung bình sau chu kỳ (một tháng) với giá trị trung Tạp chí Phát triển Khoa học Cơng nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 bình (average) Cứ sau chu kỳ tháng tính từ mốc thời gian, ta trì 21% khách hàng giá trị khơng có xu hướng tăng chu kỳ (trung bình đạt 25% 12 tháng) • Nhìn chung, tỷ lệ trì chưa tốt Tuy nhiên, điểm sáng nhỏ từ tháng thứ trở đi, tỷ lệ có cải thiện nhỏ Trung bình tăng khoảng 4% so với tháng thứ 7, tăng cao tháng thứ 11 (hơn 7% so với tháng thứ 7) Như sách có dấu hiệu tốt, doanh nghiệp trì Bên cạnh đó, kết hợp với kết phân khúc khách hàng trên, nhà quản lý tăng cường thêm chương trình chăm sóc khách hàng nhằm cải thiện hai kết số Hình 17: Trực quan hóa tỷ lệ trì khách hàng dạng ma trận biểu đồ nhiệt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mơ hình nghiên cứu liên ngành đề xuất với phương pháp RFM thực nghiệm đầy đủ bước với liệu mua hàng lịch sử khách hàng bao gồm ba yếu tố Recency, Frequency Monetary quan tâm Nhằm khai thác hiệu mơ hình liệu RFM, phương pháp K-means áp dụng kết hợp với phương pháp RFM để phân tích phân khúc khách hàng Các yếu tố phương pháp RFM có liên kết lẫn thể ý nghĩa khía cạnh khác khách hàng Từ giúp dễ dàng tìm phân khúc khách hàng có hành vi mua sắm tương đồng Với việc áp dụng phương pháp, thuật toán Silhouette, Z-Score, Quy tắc kiểm chứng giúp kết phân tích liệu đảm bảo độ tin cậy xác phát điều bất thường (outlier) tập liệu Khi loại bỏ outlier làm cho kết cuối tối ưu Từ kết thấy vai trị q trình tiền xử lý liệu nhiệm vụ then chốt phân tích liệu Với kết nghiên cứu đạt từ báo giới thiệu không mơ hình nghiên cứu liên ngành mà cịn xem nguồn tham khảo nhiều góc nhìn, khía cạnh để giúp người quản lý có tranh tổng quan nhiều chiều với tình hình doanh nghiệp giúp nhận diện rõ khả nghiên cứu liên ngành phân tích marketing nói riêng lĩnh vực phân tích liệu khách hàng nói chung với phương pháp học máy Bên cạnh đó, liệu sử dụng để thực nghiệm mơ hình nghiên cứu từ cửa hàng bán lẻ Anh khoảng thời gian 2010-2011 Tuy nhiên, theo khảo sát liệu cấu trúc có tương đồng so với liệu bán lẻ cửa hàng, doanh nghiệp bao gồm doanh nghiệp thương mại điện tử Việt Nam Trong bao gồm đầy đủ biến đặc trưng liệu giao dịch cần thiết cho mơ hình nghiên cứu đề cập phần phần Trong xu doanh nghiệp Việt Nam sẵn sàng chuyển đổi số với lượng liệu ngày tăng cao Các hệ thống quản lý khách hàng ngày tự động hóa Tuy nhiên, hệ thống chủ yếu ghi nhận liệu giao dịch thực thống kê định kỳ theo phương pháp truyền thống dẫn đến kết chưa đảm bảo tính khách quan, xác khó phân tích hành vi mua sắm khách hàng để có sở xây dựng chiến lược tiếp cận khách hàng bán hàng hiệu Vì vậy, bên cạnh đóng góp nghiên cứu liên ngành báo, kết nghiên cứu giới thiệu giải pháp phân tích với liệu giao dịch lớn giúp tối ưu hiệu việc định cấp quản lý Tuy nhiên, với kết phân cụm có dựa yếu tố kỹ thuật, doanh nghiệp người quản lý cần xác thực lại kết với góc nhìn kinh doanh, kinh tế thực tế để định tối ưu Một phương pháp, thuật tốn hay mơ hình chưa khái qt tồn tổng quan doanh nghiệp Doanh nghiệp cần kết hợp nhiều phương pháp, mơ hình phân tích khác để có hiểu biết sâu sắc hành vi khách hàng để xây dựng chiến lược tiếp cận kinh doanh phù hợp Từ liệu phân khúc khách hàng kết hợp với nghiên cứu khác xây dựng chiến lược marketing chăm sóc khách hàng riêng cho nhóm nguồn liệu cho Bộ phận nghiên cứu phát triển sản phẩm (R&D) 2013 Tạp chí Phát triển Khoa học Công nghệ – Kinh tế-Luật Quản lý, 6(1):2005-2015 DANH MỤC TỪ VIẾT TẮT TÀI LIỆU THAM KHẢO Machine Learning: Phương pháp học máy K-means: Một thuật toán sử dụng lĩnh vực Machine Learning thuộc mơ hình Học khơng giám sát Cluster: Cụm hay nhóm, gồm điểm liệu phân tích cụm Outlier: Dữ liệu ngoại lai RFM: Mơ hình cấu thành từ ba yếu tố Recency – Frequency – Monetary Recency: Thời gian lần cuối gần mà khách hàng mua hàng Frequency: Tần suất mua hàng khách hàng Monetary: Tổng lượng tiền mà khách hàng chi tiêu cho toàn hoạt động mua sắm Z-Score: Phép đo số mô tả mối quan hệ giá trị với giá trị trung bình nhóm giá trị Z-Score hoạt động dựa theo độ lệch chuẩn so với giá trị trung bình Christy AJ, et al RFM ranking - An effective approach to customer segmentation Journal of King Saud University - Computer and Information Sciences; 2018 p1-7;Available from: https://doi.org/10.1016/j.jksuci.2018.09.004 Miglautsch JR Thoughts on RFM scoring Journal of Database Marketing 2000; 8(1):67-72;Available from: https://doi.org/10 1057/palgrave.jdm.3240019 Anitha P, Patil MM RFM model for customer purchase behavior using K-Means algorithm Journal of King Saud University - Computer and Information Sciences; 2019 p.1-8;Available from: https://doi.org/10.1016/j.jksuci.2019.12.011 Alpaydın E Introduction to Machine Learning (Adaptive Computation and Machine Learning series) 2nd ed Cambridge: The MIT Press; 2009 p.1-19; Muller A, Guido S Introduction to Machine Learning with Python: A Guide for Data Scientists 3rd ed Boston: O’Reilly Media; 2017 p.170-183; Chen D, Sain SL, Guo K Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining Journal of Database Marketing and Customer Strategy Management; 2012 19(3) p.198208;Available from: https://doi.org/10.1057/dbm.2012.17 Salkind NJ Statistics for People Who (Think They) Hate Statistics 6th ed Los Angeles: SAGE Publications, Inc; 2016 p.202220; Patel E, Kushwaha DS Clustering Cloud Workloads: K-Means vs Gaussian Mixture Model Procedia Computer Science; 2020 171(2020) p.158-167;Available from: https://doi.org/10.1016/ j.procs.2020.04.017 Larose DT Data Mining and Predictive Analytics (Wiley Series on Methods and Applications in Data Mining) 2nd ed Hoboken: John Wiley & Sons; 2015 p.582-589; 10 Scroll A, Yoskovitz B Lean Analytics: Use Data to Build a Better Startup Faster 1st ed Treseler M, editor Cambridge: O’Reilly Media, Inc.; 2013 p.24-26; XUNG ĐỘT LỢI ÍCH Nhóm tác giả xin cam đoan khơng có xung đột lợi ích cơng bố báo ĐĨNG GĨP CỦA CÁC TÁC GIẢ Tồn nội dung báo nhóm tác giả thực Các tác giả có đóng góp trình nghiên cứu ý tưởng, mục tiêu, phương pháp nghiên cứu, đề xuất mơ hình, phân tích liệu, đánh giá thảo luận kết 2014 Science & Technology Development Journal – Economics - Law and Management, 6(1):2005-2015 Research Article Open Access Full Text Article An interdisciplinary research between analyzing customer segmentation in marketing and machine learning method Ho Trung Thanh* , Nguyen Dang Son ABSTRACT Use your smartphone to scan this QR code and download this article Customer segmentation is one of the key factors in managing customers and building the appropriate marketing strategies Segmenting customer groups will help managers understand the characteristics of their customers or consumer behaviors, thereby reaching the right target customers, retaining customers (Customer Retention), increasing revenue and competitive advantages of the business However, finding the right customer groups is a challenge that businesses need to solve on a solid and reliable basis Along with the support from current technology solutions such as Customer Relationship Management (CRM) and the application of algorithms and methods including both qualitative and quantitative research to enable businesses to cluster customer groups in marketing analysis This article concentrates on introducing a hybrid model that combines RFM (Recency, Frequency, Monetary) and Machine Learning to analyze customer segmentation The study was conducted through an empirical method on a dataset with 541,909 transactions of online retail stores, clustering customer segments with the characteristics of each cluster being tested for quality demonstrating the effectiveness and applicability of the study Key words: Customer segmentation, RFM, Machine Learning, clustering, customer retention rate University of Economics and Law, VNU-HCM, Vietnam Correspondence Ho Trung Thanh, University of Economics and Law, VNU-HCM, Vietnam Email: thanhht@uel.edu.vn History • Received: 08/6/2021 • Accepted: 20/8/2021 • Published: 04/9/2021 DOI : 10.32508/stdjelm.v6i1.850 Copyright © VNU-HCM Press This is an openaccess article distributed under the terms of the Creative Commons Attribution 4.0 International license Cite this article : Thanh H T, Son N D An interdisciplinary research between analyzing customer seg-mentation in marketing and machine learning method Sci Tech Dev J - Eco Law Manag.; 6(1):2005-2015 2015 ... hàng phân khúc Trong nghiên cứu báo, nhóm tác giả khai thác điểm mạnh nghiên cứu trước từ đề xuất phương pháp nghiên cứu liên ngành kết hợp phân tích phân khúc khách hàng marketing Trong đó,... khả nghiên cứu liên ngành phân tích marketing nói riêng lĩnh vực phân tích liệu khách hàng nói chung với phương pháp học máy Bên cạnh đó, liệu sử dụng để thực nghiệm mơ hình nghiên cứu từ cửa hàng. .. (Outlier) phương pháp Cohort để phân tích tỷ lệ trì khách hàng kết hợp biểu đồ nhiệt phân phối ma trận PHƯƠNG PHÁP VÀ QUY TRÌNH THỰC NGHIỆM NGHIÊN CỨU Phương pháp nghiên cứu Hình trình bày quy trình nghiên