Giải pháp thực hiện Đề đạt được mục tiêu của đề tài, chúng tôi sẽ sử dụng các phương pháp phân cụm dữ liệu để chia khách hàng thành các nhóm dựa trên đặc điểm chung về hành vi mua sắm..
Trang 3MỤC LỤC
2.1 Bài toán phân cụm khách hàng - 22 22 2222122222112 222 111222 2 2.1.1 Định ngÌĩa 2 2 0 20112011201 11211151 1151111 111111111 4211k tra 2 2.1.2 Ứng dụng - s1 2s E1 E1 2E122121121111121121 101121 2 2.2 Áp dụng K-means vào bài toán phân cụm khách hàng - 3 2.2.1 Mô tả thuật toán K-imea1ns 12111 ky se 4
2.2.3 Một số khái niệm và công thức quan trọng :- -:- 4 2.3 Các phương pháp sử dụng: - - c2 22201220111 13211 111551111 1s, 6 2.3.1 Feature Eng1nee©r1ìỹ:: - ác c2: 2220112111121 1 1521111111115 1 11kg 6 23.2 Chuân hóa đữ liệu bằng StandardScaler: c2 6
Trang 4
3.2 Mô tả bộ dữ liệu: G2 n1 111 11112111111111112111 11111111 TH HH nhi, 9
4.1 | Tidn xt ly dit iQue eeeeseeseseceesecsessseseseseetsesesseeeseseren 12
4.2 Phan tich tham do (EDA) ccc ccceeeeeee eects ceeeeetneeneeeseeeeeaeens 13
4.2.1 Phân tích hạn mức và số dư dựa trên ky hạn 13 4.2.2 Phân tích sự tương quan của các thuộc tính 14
4.3 Chuẩn hóa đữ liệu: -.cct 22t tre 15
4.4 _ Xây dựng mô hình: - 222 221220111131 118211111111 111111221122 17 4.4.1 Lựa chọn số cụm S2 S21 121 131155151111 1121818111 rse 17 4.4.2 Xây dựng mô hình K-means: - 2 255222222222 x+2sss2 18
Chương 5 Kết luận và hướng phát triển 26
Trang 5BANG MO TA CAC THUAT NGU
Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt
2 Total Within-Cluster Variation Sự khác biệt tông cộng
3 Sum of Squared Distances (SSD) Tổng bình phương khoảng cách
Trang 6DANH MỤC CÁC HÌNH
Hình 1 - Ý tưởng bài toán phân cụm khách hàng 2-2 s2 EE£E2EzEZEzzz 3 Hinh 2 - Xác định tâm cụm 2 111111111111 11111111155 125111 151255 15111 rsxy 5 Hinh 3 - Total Within-Cluster Variation ccc c1 11211112 1121111121111 1111 re 6 Hình 4 - Phương pháp khuỷu tay Elbow L2 L0 011220112111 1121 111 kx nhe say 9
Hình 5 - Thống kê đữ liệu - 2 S1 1SE12211121121221111112112122 21121 1x tru 13
Hình 6 — Xử lý dữ liệu - cece c1 11111111111 11111111111111 112011111111 11 11h kHkg 14
Hình 7 - Biểu đồ phân tích các đặc trưng dựa trên loại 'Is Parent 15 Hình 8 - Ma trận tương quan giữa các thuộc tính - : 22252 c2x 22s s+2 16 Hình 9 - Trực quan đữ liệu sau khi giảm chiỀu - - S221 21 1121111215515 se 17 Hình 10 - Biểu đồ xác định số cụm bằng phương pháp Elbow : 19 Hình 11 - Trực quan kết quả của mô hình sử dụng sklearn - 2-5 2552 20 Hình 12 - Trực quan kết quả của mô hình không sử dụng sklearn 21 Hình 13 - Tỷ lệ phân bố của các cụm +52 S221 1871221211211 cm te 22 Hình 14 - Insipht của kết quả phân cụm - s52 E122 E12211122121112122 21x 24 Hình 15 - Phân bố của từng cụm khách hàng theo Income và Spending 25
IV
Trang 7DANH MUC CAC BANG
Bảng 2 — Kết quả phân cụm khi sử dụng và không sử dụng thư viện sklearn 22
Trang 8vi
Trang 9Chương Í Tổng quan
1.1 Giới thiệu đề tài
Đề tài nghiên cứu nảy tập trung vào việc phân cụm khách hàng và đự đoán nhóm
khách hàng tiềm năng cho chiến dịch tiếp thị Trong môi trường kinh doanh ngày
nay, việc hiểu rõ hành vi của khách hàng và xác định những khách hàng có tiềm năng là một phần quan trọng của chiến lược tiếp thị hiệu quả Đề tài này sẽ sử dụng phân cụm khách hàng để nhận biết các nhóm khách hàng có đặc điểm chung và sau
đó dự đoán những khách hàng có tiềm năng nhất đề tiếp cận trong chiến dịch tiếp
thị
1.2 Mục tiêu đề tài
Phân cụm khách hàng dựa trên các biên số quan trọng về hành vị mua săm, như sô
sô tiên mua sắm, thu nhập của khách hang, so lan mua hang qua website, v.v
Dự đoán nhóm khách hàng tiềm năng cho chiến dịch tiếp thị bằng việc sử dụng mô hình học máy hoặc các phương pháp dự đoán tương tự Điều này sẽ giúp doanh nghiệp xác định đối tượng tiềm năng nhất đề tập trung tiếp thị và tối ưu hóa chiến dịch tiếp thị của họ
1.3 Giải pháp thực hiện
Đề đạt được mục tiêu của đề tài, chúng tôi sẽ sử dụng các phương pháp phân cụm
dữ liệu để chia khách hàng thành các nhóm dựa trên đặc điểm chung về hành vi mua sắm Sau đó, chúng tôi sẽ sử đụng mô hình học máy hoặc các kỹ thuật dự đoán
đề dự đoán nhóm khách hàng có tiềm năng cho chiến dịch tiếp thị Điều này sẽ giúp doanh nghiệp tập trung tiếp thị một cách hiệu quả và tối ưu hóa việc tiếp cận đối tượng mục tiêu
Trang 10Chương 2
Cơ sở lý thuyết
2.1 Bài toán phần cụm khách hàng
2.1.1 Định nghĩa Bài toán phân cụm khách hàng là một phần quan trọng của lĩnh vực quản lý khách hàng và tiếp thị, có sự ứng đụng rộng rãi trong nhiều ngành như bán lẻ, dịch vụ tài chính, thương mại điện tử, và nhiều lĩnh vực khác Chia khách hàng thành các nhóm
có đặc điểm tương tự giúp doanh nghiệp xác định mô hình hành vi của khách hàng
và hiểu rõ hơn về họ
Một điểm quan trọng cần lưu ý là không có một cách tiếp cận phân cụm khách hàng duy nhất hoặc "kích cỡ giày vừa" cho mọi tình huống Phương pháp phân cụm cần được tùy chỉnh cho từng dự án cụ thể dựa trên mục tiêu cụ thê của doanh nghiệp vả
dữ liệu khách hàng cụ thê
2.1.2 Ứng dụng Ứng dụng của bài toán phân cụm khách hàng:
- Phân loại Khách Hàng: Bài toán phân cụm khách hàng có thê giúp doanh nghiệp phân loại khách hàng thành các nhóm như "khách hàng trung thành," "khách hàng tiềm năng," và "khách hàng chưa quen biết." Dựa vào việc phân loại này, doanh nghiệp có thê xây dựng chiến lược tương ứng
- _ Tối Ưu Hóa Chiến Dịch Tiếp Thị: Bằng cách hiểu rõ nhóm khách hàng
cụ thê, doanh nghiệp có thê tối ưu hóa chiến dịch tiếp thị để đáp ứng nhu cầu của từng nhóm Điều này bao gồm cả việc tạo nội dung tiếp thị, lựa chọn kênh tiếp thị, và xác định thời điểm thích hợp
- - Xác Dinh Lợi Nhuận và Rủi Ro: Bài toán phân cụm khách hàng có thê giúp xác định những khách hàng có tiềm năng lớn và giá trị cao cho doanh nghiệp Nó cũng có thể giúp xác định những khách hàng có rủi ro cao, chăng hạn như khách hàng có nguy cơ chuyên đổi sang đối thủ cạnh tranh
- Tao San Pham va Dịch Vụ Tùy Chỉnh: Hiểu rõ nhu cầu cụ thể của từng nhóm khách hàng giúp đoanh nghiệp tạo ra sản phẩm và dịch vụ tùy
Trang 11chỉnh đề đáp ứng nhu cầu của họ Điều này giúp tạo sự hài lòng và trung thực tử phía khách hàng
- Quản Lý Khách Hàng: Phân cụm khách hàng cũng có thể giúp trong việc quản lý khách hàng Điều này bao gồm việc xác định cách tương tác với từng nhóm khách hàng và đảm bảo rằng họ nhận được sự chăm sóc phủ hợp
Trong quá trình giải quyết bài toán phân cụm khách hàng, việc áp dụng các phương pháp xử ly dữ liệu và lựa chọn số lượng cụm tối ưu đóng vai trò quan trọng dé dam bảo tính hiệu quả của quy trình phân cum
Hsnh I - Ý tưởng bài toán phân cụm khách hàng
Ví dụ ghi công thức trong mẫu báo cáo Gọi X là tập các đặc trưng mô tả trong
không gian D chiều, khi đó ta có X =[x:, , x„]”“€ R””P chú ý (L) là chỉ số của
Trang 122.2 Áp dung K-means vào bài toán phân cụm khách hàng
Đây là một phương pháp phổ biến để thực hiện việc phân loại và tạo ra các nhóm khách hàng dựa trên đặc điểm và hành vi của họ K-means là một thuật toán phân cụm dựa trên tâm cụm, nó hoạt động theo các bước cụ thê đề tạo ra các nhóm cụm
2.2.1 Mô tả thuật toán K-means Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụm đữ liệu của chúng ta
Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là | trong
- _ Tính tự động: K-means không yêu cầu nhiều giả định trước về dữ liệu
Nó tự động phân cụm dữ liệu mà không cần thông tin về nhãn trước đó
- _ Hiệu suất với dữ liệu lớn: K-means thường hoạt động hiệu quả với dữ liệu lớn, đặc biệt là khi số chiều của đữ liệu không quá lớn
- Phu hop với dữ liệu có cụm đồng nhất: Khi đữ liệu có các cụm đồng nhất và các cụm không chồng lần, K-means thường cho kết quả tốt Đặc trưng:
Trang 13- Phụ thuộc vào số lượng cụm (K): Một trong những điểm yếu của K- means là việc phải xác định số lượng cụm trước Lựa chọn không đúng
về số lượng cụm có thê dẫn đến kết quả không mong muốn
- Nhạy cảm với dữ liệu nhiễu: K-means có thê bị ảnh hưởng bởi dữ liệu nhiễu và có thể tạo ra các cum không chính xác nếu dữ liệu chứa nhiễu
lớn
- Không phù hợp với các cụm có kích thước và hsnh dạng không đều: Khi các cụm có kích thước và hình dạng không đều, K-means có thế không hoạt động tốt và tạo ra kết quả không chính xác
2.2.3 Một số khái niệm và công thức quan trọng Tâm Cụm (Centroid):
Trong K-means, mỗi cụm được đại diện bởi một điểm tâm cụm, là trung bình của tất cả các điểm đữ liệu trong cụm đó Tâm cụm thường được ký hiệu bằng H và được tính bằng công thức:
Trong đó:
« là tâm cụm
-«ồ Niàsô lượng điểm đữ liệu trong cụm
» - X,là điểm dữ liệu trong cum
Trang 14Unlabeled Data Labeled Clusters
« đistanceLA,BỊ là khoảng cách giữa điểm A và B
« — nlà số chiều của đữ liệu (số lượng đặc trưng)
Sự Khác Biệt Tổng Cộng (Total Within-Cluster Variation):
K-means cô gắng tối thiểu hóa sự khác biệt tổng cộng, tức là tông khoảng cách từ mỗi điểm dữ liệu đến tâm cụm của nó Sự khác biệt tong cộng được tính bằng công thức:
« _ C,là tập hợp các điểm dữ liệu trong cụm thứ i
* pla tam cum cua cụm thứ ¡
Trang 15
\ fo]
T
Hsnh 3 - Total Within-Cluster Variation
Lựa Chọn Số Lượng Cụm (K) Tối Ưu:
Một trong những thách thức quan trọng của K-means là lựa chọn số lượng cụm tối
ưu (K) Công thức Elbow là một phương pháp thường được sử dụng đề xác định K tối ưu Nó đo lường sự giảm đột ngột trong sự khác biệt tong cộng khi K tăng lên
2.3 Các phương pháp sử dụng:
2.3.1 Feature Engineering:
Feature engineering la qua trinh tao ra, chon loc hoac biến đổi các đặc trưng (features) tir dir ligu đầu vào để cải thiện hiệu suất của mô hình máy học Đây la một phần quan trọng trong quá trình xây dựng mô hình, vì chất lượng của các đặc trưng có thê ảnh hưởng đến khả năng học và đự đoán của mô hình
Dưới đây là một số lý thuyết cơ bản về phương pháp Feature Engineering:
- Loại bỏ đặc trưng không cần thiết: Loại bỏ các đặc trưng không cần thiết hoặc không ảnh hưởng đến quá trình học mô hình có thể giúp giảm chiều đữ liệu và tăng tốc quá trình đào tạo
- Tao dac trưng mới: Tạo ra các đặc trưng mới tử các đặc trưng hiện có
có thê cải thiện khả năng dự đoán của mô hình Ví dụ, bạn có thê kết hợp hai đặc trưng để tạo ra một đặc trưng mới, hoặc trích xuất thông tin từ một đặc trưng hiện có để tạo ra một đặc trưng mới và ý nghĩa hơn
- Bién déi Đặc trưng: Áp dụng các phép biến đổi đặc trưng như log- transform, scaling dé dam bao rang dit liéu nam trong khoang gia trị phù hợp và giảm thiêu ảnh hưởng của nhiễu
Trang 16- Encoding Categorical Variables: Ma hoa các biến phân loại thành các biến số thích hợp để mô hình có thê hiểu được Các phương pháp như One-Hot Encoding, Label Encoding có thế được sử dụng để thực hiện điều này
- _ Kiểm tra tương quan: Loại bỏ các đặc trưng tương quan cao với nhau
dé tránh vấn đề đa cộng tuyến, điều nảy có thê ảnh hưởng đến khả năng diễn giải của mô hình
2.3.2 Chuẩn hóa dữ liệu bằng StandardScaler:
Chuẩn hóa dữ liệu là một bước quan trọng trong tiền xử ly đữ liệu trước khi áp dụng các thuật toán máy học, bao gồm cả K- “means clustering Trong ngữ cảnh phân cụm, việc chuân hóa đữ liệu giúp đảm bao rằng tat cả các biến số có cùng miễn giá trị, loại bỏ các sai biệt tỷ lệ và đảm bảo rằng tất cả các biến số đều được xem xét với cùng một trọng số
StandardScaler là một công cụ phổ biến được sử dụng dé chuẩn hóa dữ liệu Cách hoạt động của nó đơn giản: nó biến đổi đữ liệu sao cho giá trị trung bình của mỗi biến là 0 và độ lệch chuẩn là 1 Công thức chuẩn hóa đữ liệu bằng StandardScaler cho một biến X là:
z=*=t
Oo
Trong đó:
» - Zlà giá trị đã được chuẩn hóa
« X lagiatri sốc của biến
« — ¡ là giá trị trung bình (mean) của biến X
« _ ơ là độ lệch chuẩn (standard deviation) của biến X
Mặc dù chuẩn hóa đữ liệu có nhiều ưu điểm, nhưng cũng có nhược điểm cần xem xét Một số diém quan trong:
- _ Ảnh Hưởng Đến Biến Sao Lệch: Chuân hóa dữ liệu có thể làm thay đôi phân phối của biến số Điều này có thể ảnh hưởng đến tính phân phối ban đầu của biến số, đặc biệt đối với các biến số không tuân theo phân phối chuẩn ban đầu
- Không Phù Hợp Cho Dữ Liệu Rời Rạc: Chuẩn hóa dữ liệu làm mất đi
tính rời rạc của biến số, điều này không phù hợp khi làm việc với dữ liệu roi rac (categorical data)
Trang 17Khi áp dụng K-means clustering, việc chuẩn hóa dữ liệu bằng StandardScaler thường được thực hiện đề đảm bảo rằng khoảng cách giữa các điểm đữ liệu là đồng nhất và không bị ảnh hưởng bởi sai biệt tỷ lệ của biến số Điều này cải thiện tính hiệu quả của phân cụm và giúp đưa ra kết quả phân chia tốt hơn dựa trên cơ sở khoảng cách
2.3.3 Tsm số cụm K tốt nhất bằng Elbow:
Tìm số lượng phân cụm (clusters) tốt nhất cho một bài toán phân cụm là một phần quan trọng của quá trình thực hiện K-means clustering Một trong những cách phô biến đề xác định số K tốt nhất là sử dụng phương pháp gọi là "phương pháp Elbow" (Elbow method) Phương pháp này giúp đánh giá hiệu suất của việc phân cụm dựa trên sự thay đổi của tông bình phương khoảng cách giữa các điểm đữ liệu và trung tâm cụm khi thay đổi số lượng phân cụm
Phương pháp Elbow hoạt động như sau:
- Thực hiện K-means clustering với một loạt giả trị K khác nhau, tức là thử nghiệm từ Ï đến một số lớn tùy chọn
- Đối với mỗi giá trị K, tính tông bình phương khoảng cach (Sum of Squared Distances, SSD) giữa các điểm đữ liệu và trung tâm cụm SSD là một phép đo cho biết mức độ phân tán của các điểm dữ liệu trong một phân cụm S5D thường là một giá trị dương
- Trỉnh bày SSD theo K Thông thường, khi K tăng lên, SSD sẽ giảm vi mỗi cụm sẽ có ít điểm đữ liệu hơn và khoảng cách giữa các điểm dữ liệu
và trung tâm cụm sẽ giảm đi Tuy nhiên, tồn tại một điểm trong biểu đồ SSD (thường gọi là "điểm Elbow") khi mà sự giảm đi đột ngột của SSD
Trang 18Elbow method
error © Sc 6 <
K values
Hsnh 4 - Phuong phap khuyu tay Elbow
Tuy nhiên, phương pháp Elbow cũng có hạn chế Đôi khi biểu đồ SSD không có một điểm rõ ràng mà có thê coi là điểm Elbow, và việc lựa chọn K có thể trở nên
mơ hồ Ngoài ra, phương pháp Elbow không phụ thuộc hoàn toàn vào số lượng phân cụm tốt mà còn phụ thuộc vào cầu trúc đữ liệu và mục tiêu của việc phân cụm
Do đó, nó thường cần được sử dụng kết hợp với kiến thức về lĩnh vực cụ thé va kiêm tra kết quả phân cụm
10