1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân khúc khách hàng tronglĩnh vực bán lẻ xe đạp ứng dụng môhình rfm kết hợp phương pháp học máyphân cụm k means

81 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Mục tiêu tổng quát: Nghiên cứu này đề xuất phương pháp và xây dựng mô hình phân khúc khách hàng dựa trên phương pháp RFM kết hợp với thuật toán học máy phân cụm K-means để phân tích phân

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT (ĐHQG-HCM)KHOA HỆ THỐNG THÔNG TIN

BÁO CÁO ĐỒ ÁN CUỐI KỲ

MÔN: PHƯƠNG PHÁP NGHIÊN CỨU LIÊN NGÀNH ĐỀ TÀI: PHÂN KHÚC KHÁCH HÀNG TRONG 3 Nguyễn Thiên Huy4 Phan Anh Thư5 Dương Văn Nhựt Duy

Trang 2

TP Hồ Chí Minh, tháng 11, 2022

Trang 3

3 Nguyễn Thiên Huy K214060396 10

5 Dương Văn Nhựt Duy K214060391 10

Trang 4

LỜI CẢM ƠN

Đầu tiên, nhóm tác giả xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế - Luật đã đưa môn học Phương pháp nghiên cứu liên ngành vào chương trình giảng dạy Đặc biệt hơn cả, nhóm tác giả xin dành một lời tri ân sâu sắc nhất đến GVC.TS Hồ Trung Thành đã tạo điều kiện, hướng dẫn giúp cho bài nghiên cứu đạt được kết quả và thành công tốt đẹp.

Nhóm cũng đặc biệt gửi lời cảm ơn đến các tác giả, nhóm tác giả đã có những công trình nghiên cứu, bài báo, luận văn đóng góp những mô hình, kiến thức, phương pháp của những lĩnh vực liên quan đến nghiên cứu này giúp cho quá trình nghiên cứu trở nên thuận lợi, hoàn chỉnh hơn.

Tuy nhiên, trong quá trình nghiên cứu, mặc dù đã cố gắng nhưng nhóm vẫn không thể tránh khỏi một số sai sót trong quá trình thực hiện.

Hi vọng sẽ nhận được những góp ý từ quý thầy cô cùng độc giả Xin trân trọng cảm ơn!

Nhóm 1

Too long to read onyour phone? Save to

read later on your computer

Save to a Studylist

Trang 5

LỜI CAM ĐOAN

Nhóm tác giả xin cam đoan đề tài "Phân khúc khách hàng trong lĩnh vực học bán lẻ xe đạp ứng dụng mô hình RFM kết phương pháp học máy phân cụm K-means" là một công trình nghiên cứu do nhóm tác giả thực hiện, không sao chép bất kỳ công trình nghiên cứu nào khác Nghiên cứu được hướng dẫn bởi giáng viên GVC.TS Hồ Trung Thành Các thông tin tham khảo trong bài nghiên cứu đều được nhóm tác giả trích dẫn một cách đầy đủ và cẩn thận Nếu không đúng sự thật nhóm tác giả xin chịu mọi trách nhiệm về sự cam đoan này.

TP Hồ Chí Minh, tháng 11, năm 2022

Nhóm 1MỤC LỤ

Trang 6

1.2 Mục tiêu nghiên cứu 13

1.3 Phương pháp nghiên cứu 14

1.4 Quy trình nghiên cứu 15

1.5 Cấu trúc bài nghiên cứu 16

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MỘT SỐ NGHIÊN CỨU LIÊN QUAN 18 2.1 Cơ sở lý thuyết 18

2.1.1 Hành vi khách hàng 18

2.1.2 Phân tích phân khúc khách hàng 19

2.1.3 Các phương pháp phân khúc khách hàng trước đó 20

2.2 Một số nghiên cứu trước đây 21

CHƯƠNG 3: PHƯƠNG PHÁP THỰC NGHIỆM 2525 3.1 Thu thập dữ liệu 26

3.1.1 Về công ty AdventureWorks Cycles 26

3.1.2 Mô tả bộ dữ liệu 27

3.2 Tiền xử lý dữ liệu 30

Trang 7

CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN 40 40

4.1 Kết quả nghiên cứu 40

4.2 Thảo luận 42

4.2.1 Phân tích nhóm khách hàng hứa hẹn (Promising) 42

4.2.2 Phân tích nhóm khách hàng mới (New Customers) 44

4.2.3 Phân tích nhóm khách hàng sắp ngủ (About to sleep) 46

4.2.4 Phân tích nhóm khách hàng ngủ đông (Hibernating) 47

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4949 5.1 Khuyến nghị 49

5.2 Kết luận và hướng phát triển 50

PHỤ LỤC

52 1 Chuẩn hoá dữ liệu 52

2 Tìm số cụm với phương pháp Elbow 55

3 Kiểm định chất lượng cụm với thuật toán Silhoutte 57

Trang 8

TÀI LIỆU THAM KHẢO 6565

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 3 1: Bảng mô tả dữ liệu của Sales 28 Bảng 3 2: Bảng mô tả dữ liệu của Sales Order 29 Bảng 3 3: Bảng mô tả dữ liệu của Customer 29

Trang 10

Hình 3 6: Giá trị Recency (Nguồn: Nhóm tác giả) 34

Hình 3 7: Giá trị Frequency (Nguồn: Nhóm tác giả) 34

Hình 3 8: Giá trị Monetary (Nguồn: Nhóm tác giả) 35

Hình 3 9: Tổng hợp các giá trị RFM (Nguồn: Nhóm tác giả) 35

Hình 3 10: Giá trị các mốc của R, F, M (Nguồn: Nhóm tác giả) 36

Hình 3 11: Nối điểm RFM (Nguồn: Nhóm tác giả) 36

Hình 3 12 : Dữ liệu sau khi được dán nhãn (Nguồn: Nhóm tác giả) 39

YHình 4 1 Biểu đồ thể hiện độ phân tán của Recency (Nguồn: Nhóm

Trang 11

Hình 4 6: Tỷ lệ chi tiêu của từng nhóm khách hàng (Nguồn: Nhóm tác

Hình 2: Mô tả dữ liệu lên đồ thị 53

Hình 3: Trực quan hoá các kết quả biến đổi 54

Hình 4: Độ lệch qua các phép biến đổi 54

Hình 5: Dữ liệu sau khi biến đổi 55

Hình 6: Kết quả đồ thị đường SSE trong phương pháp Elbow (khuỷu tay) 55

Hình 7: Đường Distortion 56

Hình 8: Kết quả điểm Silhouette với số cụm từ 2 đến 5 58

Hình 9: Phân tích bằng biểu đồ Silhouette cho 2,3,4,5 cụm 58

Trang 12

DANH MỤC TỪ VIẾT TẮT

RFM Recency, Frequency, Monetary CLV Customer Lifetime Value LTV Lifetime Value NPS Net Promoter Score

RR Retention Rate

Trang 13

SƠ ĐỒ GANTT

Trang 14

TÓM TẮT

Thấu hiểu khách hàng là mục tiêu hàng đầu của hầu hết các doanh nghiệp trong lĩnh vực kinh doanh sản phẩm, dịch vụ nói chung và lĩnh vực bán lẻ nói riêng Muốn đạt được điều đó, nhà quản trị phải có khả năng phân chia khách hàng của mình vào từng nhóm riêng biệt và đưa ra chính sách chăm sóc phù hợp với nhu cầu của từng nhóm, cụ thể hơn là từng khách hàng, việc làm này được gọi là phân khúc khách hàng (Customer Segmentation) Ngày nay, khoa học dữ liệu cũng như các công cụ, kỹ thuật phân tích dữ liệu đã và đang phát triển rất nhanh chóng Việc tận dụng được nguồn dữ liệu khổng lồ từ hành vi mua hàng và nhân khẩu học của khách hàng và ứng dụng các thuật toán, mô hình nhằm phân tích các dữ liệu ấy là điều hết sức quan trọng mà bất kỳ doanh nghiệp bán lẻ nào cũng phải nắm bắt nếu muốn đạt được thành công trong thời đại số Bài báo này đề xuất một mô hình kết hợp giữa phương pháp tính toán các giá trị RFM (Recency, Frequency, Monetary) và phân cụm bằng thuật toán học máy K-means (Machine Learning) để phân nhóm khách hàng trong lĩnh vực bán lẻ Ngoài ra, nghiên cứu đã chứng minh sự hữu ích của phương pháp này bằng cách tiến hành thực nghiệm trên tập dữ liệu (dataset) thực tế với 121,254 giao dịch của một cửa hàng bán lẻ trực tuyến xe đạp

(AdventureWorks), qua kiểm định chất lượng đã cho thấy tính hiệu quả và khả năng ứng dụng của nghiên cứu vào thực tiễn Không chỉ đóng góp về mặt lý thuyết, thông qua mô hình này còn giúp các doanh nghiệp, nhà quản trị có thể có những quyết định chính xác hơn dựa trên dữ liệu, từ đó đưa ra các chiến dịch tiếp thị phù hợp cho từng phân khúc khách hàng, mang lại hiệu quả kinh tế và giữ chân được khách hàng.

Trang 15

Từ khóa: Phân khúc khách hàng, RFM, học máy, phân cụm, dán

nhãn.

Trang 16

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI1.1 Lý do chọn đề tài

Phương pháp phân khúc khách hàng không còn là một phương pháp mới lạ trong kinh doanh, hầu hết các doanh nghiệp hiện nay đều sử dụng phương pháp này để tiếp cận khách hàng một cách hiệu quả RFM là một trong những mô hình được các công ty sử dụng rộng rãi, mô hình này giúp các công ty biết khách hàng trung thành của họ, những khách hàng không hài lòng với dịch vụ và sản phẩm của họ và những khách hàng cũ đã rời bỏ họ Tuy nhiên việc áp dụng mô hình RFM vào lĩnh vực bán lẻ sẽ tồn tại nhiều đặc điểm riêng biệt cần được nghiên cứu, Tuy nhiên, việc áp dụng mô hình này cho lĩnh vực bán lẻ xe đạp chưa được phát triển rộng rãi, trong khi đó mô hình RFM có thể giúp nhà bán lẻ tối đa hóa lợi tức đầu tư và hoạch định nguồn lực họ đã bỏ vào chiến dịch marketing một cách hiệu quả hơn Ngoài ra, việc kết hợp mô hình RFM với thuật toán học máy K-means được mong đợi mang lại hiệu quả lớn cho các doanh nghiệp trong việc phân khúc khách hàng Vấn đề lớn nhất của ngành bán lẻ xe đạp là các nhà bán lẻ vẫn còn sử dụng mô hình phân khúc khách hàng truyền thống, vì vậy họ gặp khó khăn trong việc đáp ứng nhu cầu khách hàng và tìm ra nguồn khách hàng tiềm năng Đối với ngành bán lẻ, việc sử dụng mô hình RFM cùng thuật toán K-means được kỳ vọng sẽ cung cấp sự hiểu biết khách hàng tốt hơn nhằm đưa ra quyết định hiệu quả hơn Đó là lý do mà bài nghiên cứu này được thực hiện Bài nghiên cứu này sẽ hướng đến việc tạo lập mô hình phân khúc khách hàng hiệu quả kết hợp phương pháp học máy cho lĩnh vực bán lẻ xe đạp của Công ty AdventureWorks đồng thời so sánh mô hình RFM truyền thống với mô hình RFM khi kết hợp với thuật toán phân cụm K-Means.

1.2 Mục tiêu nghiên cứu

Trang 17

Mục tiêu tổng quát: Nghiên cứu này đề xuất phương pháp và xây dựng mô hình phân khúc khách hàng dựa trên phương pháp RFM kết hợp với thuật toán học máy phân cụm K-means để phân tích phân khúc khách hàng trong lĩnh vực bán lẻ Từ đó hoàn thiện mô hình phân khúc khách hàng hiệu quả, đồng thời đánh giá hiệu quả phương pháp RFM truyền thống so với RFM kết hợp thuật toán học máy Điều này giúp các nhà quản lý doanh nghiệp đưa ra các chiến dịch marketing phù hợp với

- Trình bày về việc thu thập, xử lý dữ liệu để đưa ra phân khúc khách hàng dựa trên mô hình RFM, phương pháp K-means

- Đưa ra những phân tích định tính và định lượng tương ứng với từng phân khúc khách hàng Từ đó hoàn thiện mô hình phân khúc khách hàng hiệu quả sử dụng RFM kết hợp phương pháp học máy.

- Đề xuất/khuyến nghị chiến lược marketing hiệu quả cho từng phân khúc khách hàng.

Đối tượng và phạm vị nghiên cứu

Đối tượng: Phân khúc khách hàng bằng cách ứng dụng mô hình RFM và thuật toán học máy phân cụm K-mean

Phạm vi nghiên cứu:

- Không gian: Nghiên cứu dựa trên dữ liệu về thị trường hoạt động bán lẻ xe đạp của công ty AdventureWorks ( Từ năm 2017 - 2020)

Trang 18

- Thời gian: nghiên cứu này thực hiện trong 2 tháng (từ tháng 9/2022 đến tháng 11/2022)

1.3 Phương pháp nghiên cứu

Nghiên cứu lý thuyết:

- Phương pháp phân tích và tổng hợp lý thuyết: Tổng hợp và đưa ra luận điểm chính thu được từ quá trình phân tích, tổng hợp từ các lý thuyết nền tảng và các nghiên cứu trước.

- Phương pháp phân loại và hệ thống hóa lý thuyết: dựa vào các thông tin thu thập được tiến hành hệ thống hóa và phân thành các mục vấn đề với hướng đi cụ thể, thống nhất, từ đó đưa ra kết luận cuối cùng.

- Phương pháp chuyên gia: tham khảo, phỏng vấn những chuyên gia có hiểu biết sâu rộng về lĩnh vực tiếp thị cũng như học máy, từ đó tổng hợp được những thông tin quan trọng về đối tượng nghiên cứu.

- Phương pháp nghiên cứu tài liệu: Nghiên cứu bài nghiên cứu khoa học được công bố trước đó về lĩnh vực tiếp thị, kỹ phân khúc khách hàng, cụ thể là các mô hình RFM và phương thức kết hợp với các phương pháp máy học để tối ưu hiệu quả mô hình.

Nghiên cứu thực nghiệm:

- Phương pháp thu thập thông tin: Xây dựng bộ dữ liệu dựa trên các ghi nhận của hệ thống bán lẻ, bao gồm các dữ liệu định lượng chủ chốt như số lần mua, tổng tiền, thời điểm giao dịch,…

- Phương pháp định tính: Diễn giải cách phân chia và đặc trưng của từng nhóm khách hàng dựa trên kết quả phân cụm có được từ thực nghiệm.

- Phương pháp định lượng: tìm ra các chỉ số Recency, Frequency, Monetary và xây dựng thang đo giá trị áp dụng với từng

Trang 19

khách hàng Kết hợp kết quả từ mô hình RFM với thuật toán K-means để tăng độ chính xác và tối ưu kết quả phân cụm, phân đoạn khách hàng.

1.4 Quy trình nghiên cứu

Nghiên cứu được thực hiện theo sơ đồ như hình:

Hình 1 1: Quy trình nghiên cứu

1.5 Cấu trúc bài nghiên cứu

Bài báo cáo nghiên cứu này có cấu trúc gồm 5 chương, chi tiết như sau:

Trang 20

Chương 1: Tổng quan tình hình nghiên cứu

Ở chương này nghiên cứu sẽ trình bày về tổng quan đề tài bao gồm lý do chọn đề tài, mục tiêu nghiên cứu, đối tượng, phạm vi, phương pháp nghiên cứu.

Chương 2: Cơ sở lý thuyết

Trong chương 2 sẽ có các nội dung về những lý thuyết nền tảng liên quan tới đề tài bao gồm Hành vi khách hàng, Phân tích phân khúc khách hàng, RFM,… và các công trình nghiên cứu, đóng góp học thuật có liên quan.

Chương 3: Thực nghiệm trên mô hình RFM

Chương 3 trình bày nội dung chi tiết về triển khai mô hình thực nghiệm, bao gồm các bước chuẩn bị, tối ưu dữ liệu và áp dụng mô hình RFM nhằm đưa ra kết quả thực nghiệm cho nghiên cứu này.

Chương 4: Kết quả thực nghiệm và thảo luận

Ở chương 4 sẽ trình bày kết quả của việc triển khai các mô hình, thuật toán và nhận xét đánh giá về kết quả có được.

Chương 5: Kết luận và hướng phát triển

Tổng kết lại thu hoạch của quá trình mà cuộc nghiên cứu này đã nhận được cũng như đưa ra hướng phát triển, đề ra hướng đi, giải pháp để có thể cải thiện nghiên cứu trong tương lai.

Phụ lục: Phân cụm khách hàng với thuật toán K-means Phần này sẽ trình bày phương pháp phân khúc khách hàng kết hợp mô hình RFM và thuật toán phân cụm K-means, bao gồm đưa ra mô hình thực nghiệm và kết quả thực nghiệm, đánh giá và nhận xét về hiệu quả của mô hình đồng thời đưa ra các khuyến nghị khi áp dụng phương pháp này vào phân khúc khách hàng.

Trang 21

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MỘT SỐ NGHIÊN CỨU LIÊNQUAN

Chương 2 trình bày về các lý thuyết và đề cập đến mô hình, phương pháp mà nhóm nghiên cứu sử dụng trong quá trình thực hiện đề tài, đồng thời nêu ra một vài nghiên cứu liên quan trong quá khứ nhằm làm rõ tình hình nghiên cứu và phân tích khoảng trống nghiên cứu.

2.1 Cơ sở lý thuyết

2.1.1 Hành vi khách hàng

Hành vi khách hàng là một lĩnh vực nghiên cứu có nguồn gốc từ các khoa học như tâm lý học, xã hội học, tâm lý xã hội học, nhân văn học và kinh tế học Hành vi khách hàng chú trọng đến việc nghiên cứu tâm lý cá nhân, nghiên cứu những niềm tin cốt yếu, những giá trị, những phong tục, tập quán ảnh hưởng đến hành vi con người và những ảnh hưởng lẫn nhau giữa các cá nhân trong quá trình mua sắm tiêu dùng Đặc biệt, việc nghiên cứu hành vi khách hàng là một phần quan trọng trong nghiên cứu kinh tế học với mục đích tìm hiểu xem bằng cách nào (how) và tại sao (why) những người tiêu dùng mua (hoặc không mua) các sản phẩm và dịch vụ, và quá trình mua sắm của khách hàng diễn ra như thế nào.1

Sự hiểu biết về hành vi khách hàng sẽ cung cấp nền tảng cho những chiến lược marketing, như việc định vị sản phẩm, phân khúc thị trường, phát triển sản phẩm mới, những áp dụng thị trường mới, marketing toàn cầu, những quyết định marketing mix, Những hoạt động marketing chủ yếu này sẽ hiệu quả hơn khi được đặt trên cơ sở một sự hiểu biết về hành vi khách hàng

Có nhiều định nghĩa về hành vi khách hàng, sau đây là một số định nghĩa tiêu biểu:

Trang 22

- Theo Hiệp hội Marketing Hoa Kỳ, hành vi khách hàng chính là sự tác động qua lại giữa các yếu tố kích thích của môi trường với nhận thức và hành vi của con người mà qua sự tương tác đó, con người thay đổi cuộc sống của họ Hay nói cách khác, hành vi khách hàng bao gồm những suy nghĩ và cảm nhận mà con người có được và những hành động mà họ thực hiện trong quá trình tiêu dùng Những yếu tố như ý kiến từ những người tiêu dùng khác, quảng cáo, thông tin về giá cả, bao bì, bề ngoài sản phẩm,… đều có thể tác động đến cảm nhận, suy nghĩ và hành vi của khách hàng.2

- Theo Kotler & Levy, hành vi khách hàng là những hành vi cụ thể của một cá nhân khi thực hiện các quyết định mua sắm, sử dụng

- Hành vi khách hàng là năng động và tương tác vì nó chịu tác động bởi những yếu tố từ môi trường bên ngoài và có sự tác động trở lại đối với môi trường ấy.

- Hành vi khách hàng bao gồm các hoạt động: mua sắm, sử dụng và xử lý sản phẩm dịch vụ

2.1.2 Phân tích phân khúc khách hàng

Việc doanh nghiệp áp dụng một phương thức marketing chung cho các khách hàng của họ có thể không mang lại cho họ những lợi ích mong muốn, bởi mỗi khách hàng là một cá thể khác nhau có những lối sống, trải nghiệm khác nhau do đó ta cần phải phân khúc khách hàng thành từng nhóm theo một hoặc một vài thuộc tính nào đó Phân khúc khách hàng là quá trình phân chia các khách hàng không đồng nhất

Trang 23

thành các nhóm đồng nhất trên cơ sở tương đồng về một hoặc một vài thuộc tính chung nào đó và là điều cần thiết để xử lý nhiều loại khách hàng với nhiều nhóm sở thích đa dạng khác nhau một cách hiệu quả hơn Việc phân khúc khách hàng thường dựa trên một số tiêu chí, như dựa trên dữ liệu nhân khẩu học, ví dụ: giới tính, độ tuổi, tình trạng hôn nhân, quy mô hộ gia đình, ; Dữ liệu địa lý, ví dụ: khu vực cư trú hoặc làm việc, ; Dữ liệu tâm lý học, ví dụ: các đặc điểm về tầng lớp xã hội, lối sống và nhân cách, ; Dữ liệu bán hàng, cho biết các hành vi mua sắm, ví dụ: khối lượng bán hàng, số lượt truy cập, tần suất truy cập, khối lượng tiền tệ, lượt truy cập gần đây, ; Dữ liệu hành vi, tức là dữ liệu chỉ ra các hành vi khác ngoài mua sắm, ví dụ: dữ liệu thu được từ các giỏ hàng hỗ trợ RFID thể hiện những gì người mua sắm bỏ vào giỏ hàng của họ Việc phân khúc khách hàng có thể áp dụng nhiều mô hình khai thác dữ liệu như: mô hình dựa trên liên kết (ví dụ: quy tắc liên kết, chuỗi Markov), phân loại (ví dụ: cây quyết định), phân cụm, khám phá trình tự, dự báo (ví dụ: mạng thần kinh) Dữ liệu bán hàng ở cấp độ khách hàng thường được sử dụng để phân khúc người mua hàng và kiểm tra hành vi mua hàng của họ Nói cách khác, họ kiểm tra hành vi mua sắm (ví dụ: khối lượng bán hàng, tần suất ghé thăm, ) hoặc sự kết hợp của các sản phẩm hoặc danh mục sản phẩm mà người mua hàng đã mua trong toàn bộ lịch sử mua hàng của họ, tức là trong tất cả các lần truy cập của họ trong một cửa hàng vật lý hoặc cửa hàng trực tuyến của một nhà bán lẻ Sau khi áp dụng các phương pháp để gom nhóm khách hàng, các nhóm khách hàng sẽ được gán nhãn tương ứng với các chỉ số đặc trưng của nhóm đó (ví dụ như: nhóm khách hàng tiềm năng, nhóm khách hàng trung thành, nhóm khách hàng V.I.P, nhóm khách hàng có khả năng rời bỏ, ) Sau khi có các phân khúc khách hàng riêng biệt, doanh nghiệp có thể tùy chỉnh kế hoạch

Trang 24

tiếp thị, xác định xu hướng, lập kế hoạch phát triển sản phẩm, chiến dịch quảng cáo và cung cấp các sản phẩm phù hợp với từng phân khúc khách hàng tương ứng từ đó nâng cao doanh số cho doanh nghiệp Việc phân khúc khách hàng rất quan trọng bởi đây doanh nghiệp nào có được cái nhìn chính xác về đặc trưng của từng phân khúc khách hàng sẽ có thể phân chia ngân sách quảng cáo hợp lý hơn và tiết kiệm được nhiều hơn, không những thế còn đem lại hiệu quả to lớn Đối với người làm marketing, đặc biệt là trong lĩnh vực bán lẻ, việc xác định đúng phân khúc khách hàng giúp cho họ hiểu khách hàng mình hơn Khi thấu hiểu khách hàng, nhà bán lẻ có thể điều chỉnh và cải thiện chất lượng dịch vụ mà họ cung cấp để khách hàng có trải nghiệm tốt hơn và đồng hành cùng doanh nghiệp lâu dài, giúp tăng doanh số ổn định, tạo sự bền vững cho doanh nghiệp.

2.1.3 Các phương pháp phân khúc khách hàng trước đó

Trước khi có đủ khả năng để ứng dụng các tiến bộ khoa học công nghệ trong việc phân khúc khách hàng, những nhà bán lẻ thường phân nhóm khách hàng của họ dựa trên việc quan sát và ghi nhận một cách thủ công Phương pháp này tuy gần gũi, dễ dàng thực hiện song lại vô cùng kém hiệu quả vì người thường không thể nào nắm hết một lượng lớn thông tin khách hàng chỉ dựa trên việc nhìn, nghe, đánh giá cá nhân và ghi chép, chưa kể thông tin ở đây không chỉ bao gồm thông tin định danh cá nhân mà còn là nhân khẩu học, hành vi và đôi khi là cả tâm lý học Điều này gây ra những rủi ro cực kỳ lớn cho các nhà bán lẻ khi họ có nguy cơ đánh mất lượng khách hàng đáng kể nếu vô tình “nhớ nhầm” thông tin của một khách hàng thân quen nào đó, giới thiệu sai sản phẩm cho sai người hay đánh giá sai tính cách và hành vi khách hàng do chỉ dựa vào quan điểm cá nhân Vì vậy, xu hướng tất yếu lúc

Trang 25

bấy giờ là cần một sự đổi mới trong việc phân tích phân khúc khách hàng.

Ngày nay, khi công nghệ đã phát triển vượt bậc kéo theo sự ra đời của những kỹ thuật mới như nhãn nhóm khách hàng (Customer Quintiles) và các phương pháp học máy (Machine Learning) đã giúp cho việc phân khúc khách hàng trở nên hiệu quả và chính xác hơn bao giờ hết Bằng cách tính toán và chấm điểm (scoring) những chỉ số khách hàng (RFM, CLV, LTV, NPS…) theo dữ liệu đã thu thập được, nhà phân tích và bán lẻ có thể “dán nhãn” (labelling) các nhóm khách hàng theo từng thuộc tính cụ thể tùy thuộc vào mục đích phân tích VD: phân khúc thành các nhóm Champions, Loyal cho đến Hibernating, Lost customers Trong đó, mô hình RFM là một trong những phương pháp được sử dụng rộng rãi nhất Ưu điểm lớn nhất của phương pháp này chính là cung cấp được thông tin chi tiết về khách hàng chỉ với 3 tiêu chí (Lần truy cập gần đây, Tần suất, Tiền tệ) giúp làm giảm độ phức tạp của mô hình phân tích mà không ảnh hưởng đến độ chính xác của nó Ngoài ra, để mô hình có thể hoàn thiện và phân nhóm một cách phù hợp hơn đối với từng bộ dữ liệu, các nghiên cứu gần đây còn kết hợp RFM với phương pháp học máy, điển hình là Onur DOĞAN và cộng sự (2018) đã sử dụng thuật toán K-means giúp phân chia khách 4

hàng thành các cụm (cluster) dựa trên những tính chất chung của khách hàng.

2.2 Một số nghiên cứu trước đây

Nghiên cứu phân khúc khách hàng (Customer Segmentation) rất quan trọng Đây là một bài toán được rất nhiều sự quan tâm của các doanh nghiệp Để đạt được hiểu quả tối ưu khi kinh doanh, doanh nghiệp luôn cần xác định phân khúc khách hàng phù hợp với sản phẩm của mình, từ đó chuẩn bị nội dung, thông điệp, chiến lược tiếp thị phù

Trang 26

hợp với đối tượng khách hàng mà doanh nghiệp hướng tới RFM là phương pháp thường được sử dụng để phân chia nhóm khách hàng Cho đến hiện tại đã có rất nhiều bài nghiên cứu khoa học, công trình nghiên cứu liên quan đến vấn đề này Trong đó có những nhóm tác giả đến phân khúc khách hàng thông qua mô hình RFM, thuật toán K-means và yếu tố nhân khẩu học,

Dữ liệu khách hàng có thể được phân tích dựa trên nhiều góc nhìn như nhân khẩu học, tâm lý học, đặc điểm tích cách xoay quanh hành vi mua hàng, rủi ro cũng như khả năng sinh lời Một trong những phương pháp phân chia nhóm khách hàng được nhiều nhà nghiên cứu thực hiện nhất đó là dựa trên mô hình RFM, tiêu biểu là You-Shyang Chen và cộng sự (2009) Các giá trị này có thể được kết hợp với nhiều phương 5

pháp hay đặc điểm khác nhằm cho ra kết quả dựa trên góc nhìn đa chiều và chính xác hơn Nhiều nghiên cứu đã thực nghiệm việc ứng dụng khai thác dữ liệu vào phân khúc khách hàng, tuy nhiên nhiều trong số đó phân tích dữ liệu khách hàng từ một góc nhìn chủ quan, thiếu hệ thống thay vì cân nhắc tất cả giai đoạn của mô hình CRM Vì vậy Morteza Namvar và cộng sự (2011) đã xây dựng một phương pháp6

phân khúc khách hàng hệ thống hơn, dựa trên các mô hình RFM, LTV và các tham số nhân khẩu học Tương tự, Daqing Chen và cộng sự (2012)7 đã dựa trên mô hình RFM, phân chia khách hàng thành nhiều cụm bằng thuật toán K-means, sau đó sử dụng thuật toán Decision Tree để ra lọc các cụm và cho ra phân khúc khách hàng, với mục tiêu cung cấp phương pháp tổng quan cho việc sắp xếp và phân khúc khách hàng dựa trên phân tích dữ liệu Abdulkadir Hiziroglu (2013) nhận ra 8

với sự thay đổi nhanh chóng của thị trường, việc đưa ra các chiến lược dựa trên thay đổi hành vi của khách hàng đối với các vấn đề theo thời gian là một thách thức Monireh Hosseini (2015) đã chỉ ra phân tích 9

Trang 27

quan trọng cho thấy việc sử dụng soft-computing trong bài toán phân cụm vẫn đang ở giai đoạn đầu và chưa đủ để khai thác dữ liệu khách hàng Với những phát hiện đó, có thể thấy soft-computing là một phương pháp tiềm năng nhưng vẫn còn nhiều điều cần thực nghiệm để chứng minh tính hiệu quả của nó Để khắc phục, Aryuni và cộng sự (2018)10 đã xây dựng mô hình phân nhóm trên dữ liệu hồ sơ khách hàng dựa trên việc họ sử dụng ngân hàng trực tuyến, hai phương pháp phân nhóm được sử dụng là K-means và K-Medoids Hai phương pháp này được sử dụng dựa trên điểm RFM của các giao dịch trực tuyến của khách hàng Với việc so sánh giữa hai phương pháp về hiệu năng đã cho kết quả phương pháp K-means vượt qua phương pháp K-Medoids ở hai tiêu chí (AWC và chỉ số Davies-Bouldin) Cùng vấn đề đó, Onur DOĞAN và cộng sự (2018) sau khi tiến hành thử nghiệm trong lĩnh 11

vực bán lẻ tại Thổ Nhĩ Kỳ đã phát hiện ra rằng phân loại khách hàng chỉ dựa trên chi phí là không đủ Vì vậy, họ đã đề xuất 2 mô hình phân cụm sử dụng RFM (phân cụm hai bước và phân cụm K-means) được kỳ vọng sẽ cung cấp sự hiểu biết khách hàng tốt hơn nhằm đưa ra quyết định hiệu quả hơn Ngoài các nghiên cứu về RFM, Anastasia Griva và cộng sự (2018) đã đề xuất một mô hình mô tả lượt ghé thăm của 12

khách hàng theo danh mục sản phẩm đã mua trong giỏ hàng và xác định ý định mua sắm đằng sau chuyến thăm đó Theo Rodrigo Heldt và cộng sự (2019) , các mô hình RFM được sử dụng rộng rãi trước đó để 13

ước tính giá trị của khách hàng chỉ dựa trên quan điểm của khách hàng mà bỏ qua quan điểm sản phẩm từ đó nhóm tác giả đã đề xuất mô hình RFM trên mỗi sản phẩm (RFM / P) Hiện nay có những công ty tin rằng giảm giá hay khuyến mãi sẽ giữ chân được khách hàng nhưng điều này lại hoàn toàn ngược lại Siti Monalisa và cộng sự (2019) đã 14

tiến hành nghiên cứu để chứng minh dựa trên danh mục đầu tư (CPA)

Trang 28

và dựa trên giá trị cuộc sống của khách hàng (CLV); RFM, nhân khẩu học và thuật toán gom cụm Fuzzy C-Means (FCM) là mô hình dùng để phân tích Vì vậy, cũng trong năm đó nhiều nhà nghiên cứu đã thực hiện việc kết hợp RFM cùng các thuật toán khác và thực nghiệm để đánh giá tính hiệu quả của chúng, điển hình là Anitha và Patil (2019) 15

với việc triển khai các nguyên tắc phân khúc tập dữ liệu bằng cách sử dụng Thuật toán K-Means trong việc xác định khách hàng tiềm năng ngành bán lẻ Một phương pháp khác đã được Hansi Chen và cộng sự (2019)16 sử dụng chính là dựa trên hình thức sử dụng điện thoại thông minh của khách hàng để đạt được sự thỏa mãn chính xác hơn đối với nhu cầu của khách hàng trong các phân khúc thị trường khác nhau Ngoài ra Jun Wu, Li Shi và cộng sự (2020) cũng đã phân hành vi của 17

khách hàng luôn thay đổi do đó doanh nghiệp cần có một chiến lược tiếp cận khách hàng để dự đoán các hành vi dựa trên phân tích dữ liệu, do đó phương pháp RFM, thuật toán K-means và phương pháp PCA được kết hợp để tiến hành phân cụm khách hàng và phân tích giá trị Một nghiên cứu khác trong nước của Đinh Tiên Minh và Lê Vũ Lan Oanh (2020)18 cũng đã sử dụng mô hình RFM, K-means và các yếu tố nhân khẩu học, tâm lý học để phân khúc khách hàng mua sắm ở các trung tâm thương mại Gần đây Hoàng Anh Dũng (2020) đã ứng dụng mô 19

hình phân cụm và phân nhóm PRF (Parallel Random Forest) cùng với kỹ thuật tối ưu hóa song song dữ liệu và xử lý đồng thời để đưa ra khuyến nghị theo phân khúc khách hàng Quá trình này được thực hiện thông qua khai thác Big Data, kết hợp thuật toán học máy K-means và Random Forest, ứng dụng hệ khuyến nghị và kỹ thuật phân tích hành vi khách hàng để cho ra kết quả phù hợp nhất Hồ Trung Thành và Nguyễn Đăng Sơn (2021) cũng đã kết hợp mô hình RFM cùng phương 20

pháp K-means để phân khúc khách hàng và gom cụm được 5 phân

Trang 29

khúc khách hàng đặc trưng thông qua thực nghiệm, sau kiểm định cho thấy tính hiệu quả khá cao Tương tự, Christy và cộng sự (2021) cũng 21

đã đề cập đến sử dụng các thuật toán không giám sát như K-Means và Fuzzy C-Means trong nghiên cứu của mình Cùng với đó,

Dr.B.Arivazhagan và Dr.G.Vijaiprabhu (2022) đã kết hợp các giá trị 22

RFM này với dữ liệu nhân khẩu học và phân chia các cụm khách hàng bằng phương pháp Hierarchical Agglomerative trong hai lĩnh vực Ngân Hàng và Viễn Thông - hai lĩnh vực bị ảnh hưởng nhiều bởi giá trị khách hàng Trong bài nghiên cứu của Phan Châu Minh Trường (2022) , phân 23

tích hành vi chủ yếu tập trung vào việc phân khúc khách hàng và sẽ được thực hiện bằng cách sử dụng các kỹ thuật học máy không giám sát ứng dụng vào mô hình RFM để khám phá hành vi khách hàng, để hiểu từng phân khúc khách hàng cụ thể Một nghiên cứu mới nhất trong nước, Đỗ Vĩnh Trúc (2022) đã nhận thấy sự không tường minh 24

của các biến R,F,M nên đã làm rõ quy trình phân khúc khách hàng để các tổ chức có thể cải thiện các hoạt động tiếp thị của mình bằng hương pháp tính CLV để bán các dịch vụ hay sản phẩm tốt nhất tiếp theo của họ cho nhóm khách hàng có giá trị hơn, bằng cách tính toán toàn bộ giá trị lâu dài của khách hàng.

Trang 30

CHƯƠNG 3: PHƯƠNG PHÁP THỰC NGHIỆM

Trong chương này, nhóm nghiên cứu mô tả quy trình đi từ phân tích, xây dựng mô hình từ cơ sở lý thuyết đã nêu ở chương hai cho đến thực nghiệm trên bộ dữ liệu thứ cấp đến từ AdventureWorks Quá trình này bao gồm các giai đoạn: thu thập dữ liệu; tiền xử lý dữ liệu; thiết lập mô hình; phân tích và trực quan hóa kết quả.

Hình 3.1 trình bày quy trình quy trình nghiên cứu với 4 giai đoạn chính như sau: 1) Giai đoạn 1 thu thập dữ liệu cho việc tính toán; Giai đoạn 2 là giai đoạn tiền xử lý dữ liệu, đây là giai đoạn có nhiều bước để chọn ra các thuộc tính phù hợp cho việc xử lý (số lần mua hàng, khối lượng đơn hàng, lần mua hàng gần nhất), đối với tập dữ liệu Adventure Work, đây là tập dữ liệu tương đối sạch, cho nên chỉ cần loại bỏ một số giá trị ngoại lai, biến đổi và chuẩn hoá các giá trị cần thiết; 3) Giai đoạn 3 Thiết lập các giá trị RFM, từ bộ dữ liệu đã được làm sạch và chuẩn hoá ở Giai đoạn 2, nghiên cứu tiến hành chấm điểm RFM của từng khách hàng thông qua Lần mua hàng gần nhất, Số lần mua hàng, Tổng số tiền.với số lượng nhóm khách hàng là 5; 4) Giai đoạn 4 Dán nhãn và phân cụm khách hàng, từ bộ điểm RFM của từng khách hàng nghiên cứu tiếp tục phân loại khách hàng dựa trên điểm số của từng người thông qua 2 biến chính là R và F, từ đó rút ra được những kết luận, giải pháp cho từng nhóm khách hàng.

Trang 31

Hình 3 1: Phương pháp, quy trình nghiên cứu và thực nghiệm (Nguồn: Nhóm tácgiả)

3.1 Thu thập dữ liệu

Để tiến hành nghiên cứu, nhóm tác giả có sử dụng bộ dữ liệu AdventureWorks của công ty AdventureWorks Cycles - một công ty ảo hoạt động trong ngành bán lẻ xe đạp Bộ dữ liệu này là bộ dữ liệu có sẵn do công ty Microsoft cung cấp.

3.1.1 Về công ty AdventureWorks Cycles

Về công ty AdventureWorks Cycles, đây là một công ty hoạt động trong lĩnh vực bán lẻ xe đạp, thị trường của công ty bao gồm nhiều khu

Trang 32

vực trên thế giới, như khu vực Bắc Mỹ, Châu Âu và cả Châu Á Công ty có trụ sở chính ở Bothell, Washington với 290 nhân viên.

Kết thúc 1 năm tài chánh thành công, công ty AdventureWorks Cycles đang tìm cách mở rộng thị phần bằng cách tập trung vào các hoạt động bán hàng cho các khách hàng quan trọng nhất của họ, mở rộng thông tin sản phẩm thông qua hệ thống Website đồng thời tiết giảm chi phí bán hàng bằng cách giảm chi phí sản xuất.

3.1.2 Mô tả bộ dữ liệu Về bộ dữ liệu AdventureWorks:

Bộ dữ liệu chứa các giao dịch bán hàng của công ty từ ngày 1/7/2017 đến ngày 15/6/2020 Bộ dữ liệu chứa các dữ liệu lớn về:

- Sales Order: Chứa dữ liệu về các kênh bán hàng (Channel) của Công ty gồm: trực tiếp (Reseller), hay kênh bán hàng qua mạng (Internet); Mã đơn hàng (Sales Order) và dữ liệu chi tiết về mã các món hàng trong một đơn hàng (Sales Order Line, SalesOrderLineKey).

- Sales Territory: Chứa dữ liệu về các vùng lãnh thổ mà Công ty hoạt động gồm các cột dữ liệu về Vùng (Region), Quốc gia (Country), Nhóm (Group).

- Sales: Chứa các dữ liệu bán hàng của công ty như: Dữ liệu chi tiết các món hàng trong đơn hàng (Sales Order Line); dữ liệu bán hàng của kênh bán hàng cho đơn hàng (Reseller); Mã khách hàng (Customer); Ngày mua hàng (Order Day); Ngày đáo hạn (Due Date); Ngày giao hàng (Ship Day); Bán hàng theo vùng lãnh thổ ( Sales Territory); Số lượng bán hàng (Order Quantity); Giá trên đơn vị sản phẩm (Unit Price); Khoảng giảm giá (Unit Price Discount Pct); Tổng doanh thu đối với hóa đơn (Sales Amount).

Trang 33

- Reseller: Dữ liệu về kênh bán hàng Reseller, gồm có: ResellerID; loại danh nghiệp (Business Type); Thành phố (City); Tỉnh (State-Province); Khu vực quốc gia ( Country-Region); Mã vùng (Postal Code).

- Date: Dữ liệu về ngày; tháng năm giao dịch (Date, Month, Full Date); năm tài chính, quý tài chính (Fiscal Year, Fiscal Quarter).

- Product: Dữ liệu về mã sản phẩm (ProductKey, SKU); Thuộc tính sản phẩm (Product); Giá tiêu chuẩn (Standard Cost); Màu sắc (Color); Danh sách giá (List Price); Model; Danh mục phụ (Subcategory); Danh mục (Category).

- Customer: Dữ liệu về khách hàng như: Mã khách hàng (Customer ID); Tên khách hàng (Customer); Thành phố khách hàng sống (City); Tỉnh khách hàng sống (State-Province), Khu vực quốc gia khách hàng sống (Country-Region); Mã vùng của khách hàng (Postal Code).

Trong bài nghiên cứu này chúng tôi tập trung sử dụng các loại dữ liệu sau: Sales Order (Dữ liệu về đơn mua hàng của khách hàng với hơn 121,254 dòng dữ liệu) để tính điểm cho nhân tố Frequency, Order Date (Dữ liệu về ngày mua hàng của khách hàng, với hơn 121,254 dòng dữ liệu bắt đầu từ ngày 1/7/2017 đến ngày 15/6/2020) để tính điểm cho nhân tố Recency, Sales Amount (Tổng tiền đơn hàng của khách hàng, với hơn 121,254 dòng dữ liệu về tổng số tiền của các giao dịch, đơn vị Đô-la ($) cho nhân tố Monetary.

Bảng 3 1: Bảng mô tả dữ liệu của Sales

SalesOrderLineKey Mã chi tiết các dòng sản phẩm liên quan trong mỗi

Trang 34

đơn hàng

ResellerKey Mã nhà bán lẻ của công ty Adventure Works CustomerKey Mã khách hàng

OrderDateKey Ngày đặt đơn hàng

DueDateKey Ngày đáo hạn đơn hàng của khách hàng ShipDateKey Ngày giao hàng đơn hàng của khách hàng SalesTerritoryKey Mã lãnh thổ bán hàng

Order Quantity Số lượng đơn đặt hàng Unit Price Giá trên đơn vị sản phẩm

Extended Amount Giá của số sản phẩm khách hàng mua (Giá trên đơn vị sản phẩm x số sản phẩm)

Unit Price Discount

Product Standard

Cost Chi phí tiêu chuẩn của sản phẩm Total Product Cost Tổng chi phí sản phẩm

Sales Amount Doanh thu đơn hàng

Bảng 3 2: Bảng mô tả dữ liệu của Sales Order

Sales Order Mã đơn hàng Sales Order Line

Mã chi tiết các dòng sản phẩm liên quan trong mỗi

Trang 35

Customer Tên khách hàng đặt đơn hàng

State-Province Bang - Tỉnh nơi khách hàng sống

Country-Region Quốc gia - Khu vực nơi khách hàng sinh sống Postal Code Mã bưu chính (mã bưu điện)

3.2 Tiền xử lý dữ liệu

3.2.1 Lựa chọn các thuộc tính

Nhằm kiểm chứng tính hiệu quả của phương pháp, nhóm tác giả đã tiến hành thực nghiệm trên bộ dữ liệu (dataset) của công ty bán lẻ xe đạp AdventureWorks với hơn 121,254 dòng dữ liệu giao dịch phát sinh từ ngày 01/07/2017 đến ngày 15/06/2022 cùng đầy đủ các thuộc tính cần thiết cho việc thiết lập mô hình RFM Ngoài ra, tập dữ liệu này đã cho thấy một số lượng không nhỏ nhà bán lẻ cũng là khách hàng của công ty.

Hình 3 2: Tập dữ liệu công ty AdventureWorks (Nguồn: Nhóm tác giả)

Trang 36

Như những gì thể hiện trên Hình 3.2, có thể thấy tập dữ liệu của công ty AdventureWorks chứa rất nhiều những thuộc tính khác nhau Mỗi thuộc tính đều biểu hiện một giá trị dạng số hay phi số nào đó của giao dịch như đơn giá, tổng tiền, mã khách hàng, mã đơn hàng… và không phải dữ liệu nào cũng có thể giúp để thiết lập nên mô hình RFM Vì vậy, trước khi đi vào tính toán các giá trị R, F, M, nghiên cứu đã tiến hành quan sát và sàng lọc để tìm ra các thuộc tính cần thiết trong bộ dữ liệu đồ sộ trên và tập trung khai thác vào các thuộc tính sau: CustomerKey (khóa khách hàng), OrderDateKey (khóa ngày đặt hàng), Sales Order (đơn đặt hàng) và Sales Amount (tổng tiền bán ra).

Hình 3 3: Chọn lọc các thuộc tính cần thiết để tính toán giá trị R, F, M (Nguồn:Nhóm tác giả)

Giải thích cho việc lựa chọn các thuộc tính này: thứ nhất, mục đích hàng đầu của nghiên cứu chính là phân khúc khách hàng (Customer Segmentation) vì vậy việc đầu tiên cần phải làm chính là định danh được từng khách hàng, do đó nghiên cứu này sẽ sử dụng CustomerKey làm khóa chính và phân tích những yếu tố xung quanh nó, mỗi một khách hàng chỉ có duy nhất một CustomerKey riêng và phân biệt với các khách hàng còn lại; thứ hai, để tính được giá trị Recency thì nhân tố không thể thiếu đó là OrderDateKey giúp biết được thời gian đơn hàng phát sinh nhằm xác định được số ngày kể từ thời điểm xảy ra lần giao dịch gần nhất cho đến hiện tại; thứ 3, thuộc tính Sales Order được đưa ra để tính giá trị Frequency, Frequency sẽ bằng tổng số lượt Sales Order phát sinh tương ứng với từng khách hàng riêng

Trang 37

biệt; cuối cùng nhưng không thể thiếu, để xác định được nhân tố Monetary, thuộc tính Sales Amount cần phải được đề cập để tính toán tổng số tiền mà một khách hàng cụ thể đã bỏ ra để mua sản phẩm của công ty.

3.2.2 Làm sạch dữ liệu

Làm sạch dữ liệu là quá trình sửa hoặc xóa dữ liệu không chính xác, dữ liệu sai định, trùng lặp hoặc không đầy đủ trong tập dữ liệu Khi kết hợp nhiều nguồn dữ liệu, có nhiều khả năng dữ liệu bị trùng lặp hoặc bị gán nhãn sai Nếu dữ liệu không chính xác, kết quả của mô hình sẽ bị ảnh hưởng nên việc làm sạch dữ liệu là điều vô cùng cần thiết.

Bộ dữ liệu được làm sạch bằng cách xóa những dữ liệu trùng lặp và những dữ liệu không liên quan Trong quá trình thu thập dữ liệu của doanh nghiệp, việc trùng lặp dữ liệu và phát sinh những dữ liệu không liên quan là điều không thể tránh khỏi Với bộ dữ liệu ta có , cần phải đảm bảo những điều kiện sau:

- Cột dữ liệu Sales Order: kiểu dữ liệu String - Cột dữ liệu OrderDateKey: kiểu dữ liệu Số - Cột dữ liệu Amount: kiểu dữ liệu Số thập phân

Lỗi cấu trúc xảy ra khi đo lường hoặc truyền dữ liệu và nhận thấy các quy ước đặt tên lạ, lỗi chính tả hoặc viết hoa không chính xác Ở bước này cần đảm bảo một số điều kiện sau:

- Thuộc tính Sales Order - gồm chữ viết hoa và số - Thuộc tính OrderDateKey - độ dài chuỗi bằng 8 Xem xét các giá trị ngoại lệ: Với dữ liệu đã được tùy chọn thuộc tính, thuộc tính SalesAmount là trường dữ liệu định lượng có thể tìm ẩn những giá trị ngoại lai không phù hợp Vì vậy có thể xem xét trường dữ liệu này qua các trị số thống kê mô tả và sơ đồ boxplot.

Trang 38

Hình 3 4: Thống kê mô tả thuộc tính Sales Amount (Nguồn: Nhóm tác giả)

Một số điểm dữ liệu có giá trị lớn hơn 3000 có mức độ chênh lệch khá lớn Tuy nhiên các giá trị này có ý nghĩa phù hợp với giá trị sản phẩm và số lượng mua của khách hàng Vì vậy các giá trị này nên được giữ lại nhưng cần thảo luận riêng đối với kết quả phân cụm liên quan đến các giá trị ngoại lai này.

Xử lý dữ liệu bị thiếu

Trang 39

Hình 3 5: Số giá trị bị thiếu của từng thuộc tính (Nguồn: Nhóm tác giả)

Tùy theo hiểu biết về bộ dữ liệu và tỉ trọng của lượng dữ liệu bị thiếu so với tổng thể, có thể loại bỏ hoặc thay thế dữ liệu bị thiếu để đảm bảo độ chính xác của dữ liệu Với bộ dữ liệu hiện có, thuộc tính đã được hoàn chỉnh và các điểm dữ liệu không bị thiếu.

3.2.3 Biến đổi dữ liệu

Sau khi đã thu thập, sàng lọc và làm sạch đầy đủ các dữ liệu cần thiết, ở bước tiếp theo, nhóm tác giả sẽ tiến hành chuyển hóa dữ liệu (Data Transformation).

Chuyển hóa dữ liệu là quá trình biến đổi hình thức, cấu trúc hoặc giá trị của dữ liệu nhằm tổ chức dữ liệu một cách trực quan, hiệu quả hơn Bước này giúp tạo nên một tập dữ liệu dễ dàng sử dụng hơn đối với cả con người lẫn máy tính vì nó chứa đủ các thuộc tính, dữ liệu cần thiết cho việc phân tích, không thừa, không thiếu Từ đó, trong quá trình phân tích sẽ giúp hạn chế tối đa vấn đề bị nhiễu thông tin do thừa dữ liệu hoặc thiếu hụt thông tin dẫn tới việc không thể tính toán hoặc tính toán ra các giá trị một cách kém chính xác và thiếu hiệu quả Khi nói đến việc chuyển hóa dữ liệu trong quy trình thiết lập mô hình RFM ở bài báo này, nghĩa là nói về việc tính toán các giá trị Recency, Frequency và Monetary dựa trên những dữ liệu đã có.

Recency là khoảng thời gian (ngày) tính từ lần giao dịch gần nhất mà khách hàng phát sinh đối với công ty vì vậy thuộc tính phù hợp cho

Trang 40

việc tính toán giá trị này sẽ là OrderDateKey Trước khi đi vào xác định R, nhóm tác giả thực hiện định dạng lại cột dữ liệu OrderDateKey sang hình thức “Year-Month-Day” và gộp các CustomerKey trùng lặp lại với nhau để tính toán theo từng khách hàng Tiếp đến, mốc thời gian được xác định trong bài báo là ngày mua gần nhất của tập dữ liệu, sau đó dùng mốc trừ đi ngày mua hàng gần nhất của từng khách hàng (là giá trị Max của cột OrderDateKey) để cho ra được giá trị Recency tương ứng như trong Hình 3 6.

Hình 3 6: Giá trị Recency (Nguồn: Nhóm tác giả)

Frequency - Tần suất mua hàng của khách hàng là chỉ số cần xác định tiếp theo Chỉ số này thường được các doanh nghiệp có dịch vụ, sản phẩm có giá trị lợi nhuận thấp quan tâm, vì họ chỉ có thể tồn tại nếu khách hàng sử dụng dịch vụ của họ một cách thường xuyên, VD: đặt xe Grab, mua một chai nước uống… Giá trị Frequency chính là số lần mua hàng của khách hàng, giá trị này được đưa ra dựa trên việc đếm số lượng Sales Order mà một khách hàng (tương ứng với một CustomerKey) tạo ra.

Ngày đăng: 06/04/2024, 09:40

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w