1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai thác dữ liệu và Ứng dụng ngành khoa học máy tính Đề tài phân loại cụm khách hàng với thuật toán k means

44 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại cụm khách hàng với thuật toán K-Means
Tác giả Đặng Văn Mạnh, Vũ Tùng Quân, Nguyễn Quang Thắng, Trần Thu Trang, Nguyễn Thanh Tân
Người hướng dẫn TS. Lê Thị Thủy
Trường học Trường Đại học Công nghiệp Hà Nội
Chuyên ngành Khoa học máy tính
Thể loại Đồ án
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 44
Dung lượng 1,24 MB

Cấu trúc

  • CHƯƠNG 1: BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG (8)
    • 1.1. Tổng quan về khai phá dữ liệu (8)
    • 1.2. Giới thiệu về bài toán phân loại khách hàng (8)
    • 1.4. Ý nghĩa của bài toán đối với thực tế (10)
    • 1.5. Phương pháp tiếp cận (10)
    • 1.6. Cơ hội và thách thức (11)
      • 1.6.1. Cơ hội (11)
      • 1.6.2. Thách thức (11)
  • CHƯƠNG 2: MỘT SỐ KỸ THUẬT GIẢI QUYẾT BÀI TOÁN (12)
    • 2.1. Phương hướng tiếp cận bài toán (12)
    • 2.2. Một số kỹ thuật giải quyết bài toán (12)
      • 2.2.1. Hierarchical Clustering (12)
      • 2.2.2. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) (16)
      • 2.2.3. Mean-Shift Clustering (20)
      • 2.2.4. Gaussian Mixture Model (22)
      • 2.2.5. K-Means (25)
    • 2.3. Thuật toán Elbow xác định số cụm tối ưu (28)
    • 2.4. Các phương pháp đánh giá kết quả phân tích phân cụm (29)
    • 2.5. Kết luận chương 2 (30)
  • CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM (6)
    • 3.1. Dữ liệu thực nghiệm (31)
    • 3.2. Quy trình thực nghiệm (32)
      • 3.2.1. Đặt mục tiêu (32)
      • 3.2.2. Tiền xử lý dữ liệu (33)
      • 3.2.3. Phân tích mô tả (33)
      • 3.2.4. Phân tích thuật toán (37)
    • 3.3. Đánh giá và đề xuất (41)
    • 3.4. Kết luận chương 3 (42)
  • KẾT LUẬN (43)
  • TÀI LIỆU THAM KHẢO (44)

Nội dung

Thuật toán Means là một công cụ mạnh mẽ trong việc phân loại khách hàng, cho phépchúng ta xây dựng các cụm khách hàng dựa trên các đặc điểm tương đồng giữa K-họ.. Do đó, nhóm 4 chúng em

BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG

Tổng quan về khai phá dữ liệu

Khai phá dữ liệu là một tiến trình sử dụng các công cụ phân tích dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong cơ sở dữ liệu , kết quả của việc khai phá là xác định các mẫu hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các cơ sở dữ liệu Để từ đó rút trích ra được các mẫu, các mô hình hay các thông tin và tri thức từ các cơ sở dữ liệu

Phân loại khách hàng là một ứng dụng phổ biến của khai phá trong kinh doanh và tiếp thị Thay vì đối xử với tất cả khách hàng như một nhóm duy nhất, các doanh nghiệp có thể sử dụng học máy để phân loại khách hàng thành các nhóm nhỏ hơn dựa trên các đặc điểm và hành vi mua sắm Điều này giúp doanh nghiệp hiểu rõ hơn về nhu cầu và sở thích của từng nhóm khách hàng, từ đó cung cấp sản phẩm và dịch vụ phù hợp hơn

Việc áp dụng học máy trong phân loại khách hàng không chỉ giúp cải thiện chiến lược tiếp thị mà còn đóng góp vào việc tăng cường trải nghiệm khách hàng, từ đó nâng cao sự hài lòng và lòng trung thành của họ Điều này tạo ra lợi thế cạnh tranh cho doanh nghiệp trong bối cảnh thị trường ngày càng phức tạp và cạnh tranh gay gắt.

Giới thiệu về bài toán phân loại khách hàng

Bài toán phân loại khách hàng thường bắt đầu bằng việc thu thập và tiền xử lý dữ liệu từ nhiều nguồn khác nhau như dữ liệu giao dịch, hành vi mua sắm trực tuyến, và thông tin nhân khẩu học Sau khi dữ liệu được làm sạch và chuẩn hóa, các thuật toán học máy như K-means được áp dụng để phân chia khách hàng thành các cụm khác nhau dựa trên các đặc điểm chung.

Kết quả của quá trình phân loại này không chỉ là các nhóm khách hàng có đặc điểm tương đồng, mà còn là những hiểu biết sâu sắc về các nhóm khách hàng này, giúp doanh nghiệp đưa ra các quyết định chiến lược Những quyết định này có thể bao gồm việc tạo ra các chiến dịch tiếp thị nhắm đến từng nhóm cụ thể, phát triển các sản phẩm mới dựa trên nhu cầu của nhóm, hoặc tối ưu hóa các dịch vụ khách hàng để tăng cường trải nghiệm của họ.

Hình 1.1 Phân loại khách hàng

Tuy nhiên, bài toán phân loại khách hàng cũng đặt ra nhiều thách thức, chẳng hạn như việc xử lý các dữ liệu không đầy đủ hoặc không đồng nhất, và việc lựa chọn số lượng cụm (k) phù hợp cho thuật toán K-means Ngoài ra, thuật toán K-means có thể bị ảnh hưởng bởi các điểm ngoại lai, gây ảnh hưởng đến kết quả phân cụm.

Nhìn chung, việc áp dụng học máy vào bài toán phân loại khách hàng đem lại nhiều cơ hội cho doanh nghiệp, giúp tối ưu hóa các chiến lược kinh doanh và tiếp thị, nâng cao sự hài lòng của khách hàng, và cuối cùng là tăng cường hiệu quả hoạt động của doanh nghiệp.

1.3 Giới thiệu về mục tiêu của bài toán

Mục tiêu của bài toán này là phân cụm khách hàng thành các nhóm khác nhau dựa trên các đặc điểm và hành vi mua sắm của họ Cụ thể, bài toán sẽ tập trung vào các mục tiêu sau:

● Thu thập dữ liệu: Dữ liệu sẽ được thu thập từ nhiều nguồn khác nhau, bao gồm dữ liệu giao dịch, dữ liệu hành vi trực tuyến, và dữ liệu nhân khẩu học.

● Tiền xử lý dữ liệu: Quá trình này bao gồm việc loại bỏ các dữ liệu không hợp lệ, xử lý các giá trị thiếu, và chuẩn hóa dữ liệu để đảm bảo tính nhất quán.

● Phân cụm khách hàng bằng K-means: Thuật toán K-means sẽ được sử dụng để phân chia dữ liệu khách hàng thành các cụm khác nhau dựa trên sự tương đồng giữa các đặc điểm của khách hàng.

● Phân tích và diễn giải kết quả: Kết quả của quá trình phân cụm sẽ được phân tích để xác định đặc điểm của từng nhóm khách hàng, từ đó giúp doanh nghiệp xây dựng các chiến lược kinh doanh phù hợp.

Thông qua việc phân cụm khách hàng, doanh nghiệp sẽ có thể hiểu rõ hơn về nhu cầu và sở thích của từng nhóm khách hàng, từ đó xây dựng các chiến lược kinh doanh và tiếp thị phù hợp hơn Mục tiêu cuối cùng là cải thiện trải nghiệm khách hàng, tăng cường mối quan hệ với khách hàng, và tối ưu hóa lợi nhuận.

Ý nghĩa của bài toán đối với thực tế

Phân cụm khách hàng có ý nghĩa quan trọng đối với doanh nghiệp trong việc tối ưu hóa các chiến lược tiếp thị và dịch vụ khách hàng Doanh nghiệp có thể:

● Chiến lược tiếp thị tùy chỉnh: Các nhóm khách hàng khác nhau sẽ có nhu cầu và sở thích khác nhau, điều này giúp doanh nghiệp tạo ra các chiến lược tiếp thị và quảng cáo phù hợp hơn.

● Tăng cường mối quan hệ với khách hàng: Bằng cách hiểu rõ hơn về từng nhóm khách hàng, doanh nghiệp có thể cung cấp các dịch vụ và sản phẩm phù hợp hơn, từ đó tăng cường lòng trung thành của khách hàng.

● Tối ưu hóa nguồn lực và chi phí: Phân cụm khách hàng giúp doanh nghiệp tập trung nguồn lực vào những nhóm khách hàng có giá trị cao hơn, từ đó tối ưu hóa chi phí quản lý và phục vụ.

Phương pháp tiếp cận

Phương pháp tiếp cận của bài toán phân cụm khách hàng bao gồm các bước chính sau:

Bước 1: Thu thập dữ liệu

Bước 2: Tiền xử lí dữ liệu

Bước 3: Phân cụm khách hàng bằng K-means

Bước 4: Phân tích và diễn giải kết quả

Cơ hội và thách thức

- Tạo ra giá trị gia tăng cho doanh nghiệp thông qua việc hiểu rõ hơn về khách hàng.

- Cải thiện chiến lược kinh doanh và tiếp thị.

- Tăng cường mối quan hệ và sự hài lòng của khách hàng.

- Việc thu thập và tiền xử lý dữ liệu khách hàng có thể gặp nhiều khó khăn do dữ liệu không đầy đủ hoặc không chính xác.

- Thuật toán K-means có thể bị ảnh hưởng bởi các điểm ngoại lai (outliers) và việc lựa chọn số lượng cụm (k) phù hơp

- Lựa chọn các đặc điểm (features) phù hợp để phân cụm là một thách thức lớn.

MỘT SỐ KỸ THUẬT GIẢI QUYẾT BÀI TOÁN

Phương hướng tiếp cận bài toán

Quá trình giải quyết bài toán bắt đầu bằng việc thu thập và tiền xử lý các bộ dữ liệu thực nghiệm liên quan đến lịch sử mua hàng của khách hàng, thông tin cá nhân của khách hàng và thông tin mua hàng của khách hàng Tiếp đến là nghiên cứu và áp dụng các kỹ thuật để phân cụm khách hàng.

Một số kỹ thuật giải quyết bài toán

Hierarchical Clustering (Phân cụm phân cấp) là một phương pháp phân cụm trong học máy không giám sát, sử dụng để nhóm các đối tượng tương tự nhau vào cùng một cụm mà không cần biết trước số lượng cụm Điểm đặc biệt của phương pháp này là nó tạo ra một cấu trúc phân cấp (hierarchy) từ các đối tượng riêng lẻ cho đến khi tất cả các đối tượng được gộp thành một cụm duy nhất Kết quả của quá trình phân cụm này thường được biểu diễn bằng một đồ thị gọi là dendrogram, trong đó thể hiện mối quan hệ phân cấp giữa các đối tượng và cụm.

Cấu trúc phân cấp: Hierarchical Clustering tạo ra một hệ thống phân cấp các cụm, từ các cụm nhỏ nhất (chứa một đối tượng) đến một cụm duy nhất (chứa tất cả các đối tượng).

Dendrogram: Là biểu đồ phân cấp cho thấy cách các cụm được kết hợp hoặc phân tách ở các cấp độ khác nhau Người dùng có thể chọn cắt dendrogram tại một điểm cụ thể để xác định số cụm mong muốn.

Hai loại phân cụm chính:

+ Agglomerative Clustering (Phân cụm tăng dần): Bắt đầu từ các đối tượng riêng lẻ và dần dần kết hợp các cụm lại với nhau.

+ Divisive Clustering (Phân cụm suy giảm): Bắt đầu từ một cụm chứa tất cả các đối tượng và dần dần tách chúng ra thành các cụm nhỏ hơn.

Agglomerative Clustering (Phân cụm tăng dần)

Hình 2.3 Phân cụm tăng dần

- Bước 1: Bắt đầu với mỗi đối tượng là một cụm riêng lẻ Nếu có N đối tượng, ban đầu sẽ có N cụm.

Hình 2.2 Phân cụm phân cấp

- Bước 2: Tính toán khoảng cách giữa tất cả các cụm theo một phương pháp xác định, ví dụ:

- Single Linkage (Khoảng cách đơn lẻ): Khoảng cách giữa hai cụm là khoảng cách nhỏ nhất giữa các cặp đối tượng thuộc hai cụm khác nhau.

- Complete Linkage (Khoảng cách đầy đủ): Khoảng cách giữa hai cụm là khoảng cách lớn nhất giữa các cặp đối tượng thuộc hai cụm khác nhau.

- Average Linkage (Khoảng cách trung bình): Khoảng cách giữa hai cụm là khoảng cách trung bình giữa tất cả các cặp đối tượng thuộc hai cụm khác nhau.

- Ward's Method: Phương pháp này tối thiểu hóa tổng phương sai trong của các cụm.

- Bước 3: Kết hợp hai cụm gần nhau nhất thành một cụm mới.

- Bước 4: Lặp lại quá trình kết hợp các cụm cho đến khi chỉ còn một cụm duy nhất hoặc đạt được số cụm mong muốn.

Divisive Clustering (Phân cụm suy giảm)

Hình 2.4 Phân cụm suy giảm

- Bước 1: Bắt đầu với một cụm chứa tất cả các đối tượng.

- Bước 2: Lựa chọn cụm cần tách và tìm cách chia cụm đó thành hai cụm con sao cho tối ưu theo tiêu chí đã chọn (ví dụ: tối thiểu hóa tổng khoảng cách nội cụm).

- Bước 3: Lặp lại quá trình tách các cụm cho đến khi mỗi đối tượng thuộc về một cụm riêng lẻ hoặc đạt được số cụm mong muốn.

- Không cần xác định trước số cụm: Người dùng không cần xác định số cụm trước khi thực hiện phân cụm, điều này mang lại sự linh hoạt trong quá trình phân tích.

- Khám phá cấu trúc dữ liệu: Phân cụm phân cấp không chỉ tạo ra các cụm mà còn cho phép khám phá và hiểu rõ hơn về cấu trúc phân cấp của dữ liệu thông qua dendrogram.

- Khả năng trực quan hóa: Dendrogram cung cấp một công cụ trực quan mạnh mẽ để xem cách các cụm liên quan với nhau và cách các đối tượng được nhóm lại ở các mức độ khác nhau.

- Độ phức tạp tính toán: Hierarchical Clustering yêu cầu tính toán khoảng cách giữa tất cả các cặp đối tượng (hoặc cụm) trong mỗi bước, làm cho nó trở nên không khả thi với dữ liệu rất lớn Độ phức tạp thời gian tính toán thường là

O(n3)O(n^3)O(n3) đối với phiên bản cơ bản, với nnn là số đối tượng.

- Khó khăn trong việc điều chỉnh: Một khi quá trình phân cụm đã hoàn tất, rất khó để điều chỉnh các cụm mà không phải thực hiện lại toàn bộ quy trình Điều này khác với các phương pháp như K-means, nơi có thể thực hiện các bước lặp lại để cải thiện kết quả phân cụm.

- Nhạy cảm với nhiễu và ngoại lệ: Các điểm dữ liệu ngoại lệ có thể gây ra sự méo mó đáng kể trong cấu trúc dendrogram, dẫn đến kết quả phân cụm không chính xác.

- Thiếu tính mềm dẻo: Một khi hai đối tượng hoặc cụm được kết hợp trong quá trình phân cụm tăng dần, chúng không thể bị tách ra sau đó Điều này có thể dẫn đến việc các cụm kém chính xác khi một cụm không đồng nhất bị gộp chung.

- Hierarchical Clustering là một công cụ mạnh mẽ trong việc phân tích và phân cụm dữ liệu, đặc biệt hữu ích khi muốn khám phá cấu trúc phân cấp trong dữ liệu Tuy nhiên, do yêu cầu tính toán phức tạp và nhạy cảm với nhiễu, nó thường được áp dụng cho các tập dữ liệu nhỏ đến vừa, nơi mà việc tính toán và điều chỉnh có thể được thực hiện một cách hiệu quả.

2.2.2 DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 2.2.2.1 Giới thiệu

DBSCAN là một thuật toán phân cụm dựa trên mật độ, được giới thiệu bởi Martin Ester, Hans-Peter Kriegel, Jửrg Sander, và Xiaowei Xu vào năm 1996 Nú đặc biệt hữu ích trong việc phát hiện các cụm có hình dạng bất kỳ trong dữ liệu và có khả năng xử lý nhiễu (outliers) một cách hiệu quả DBSCAN không yêu cầu phải biết trước số lượng cụm và có thể tự động xác định số cụm dựa trên mật độ của các điểm dữ liệu.

- Phân cụm dựa trên mật độ: DBSCAN phân cụm các điểm dữ liệu dựa trên khái niệm về mật độ, nơi mà các cụm được định nghĩa là các vùng có mật độ cao ngăn cách bởi các vùng có mật độ thấp.

- Không yêu cầu xác định trước số cụm: DBSCAN không cần biết trước số lượng cụm trong dữ liệu, điều này mang lại sự linh hoạt hơn so với các phương pháp như K-means.

- Khả năng xử lý nhiễu: DBSCAN có thể xác định và bỏ qua các điểm dữ liệu không thuộc bất kỳ cụm nào (gọi là nhiễu).

DBSCAN sử dụng hai tham số chính:

Thuật toán Elbow xác định số cụm tối ưu

Elbow method được minh họa dưới dạng đồ thị đường cong với trục hoành là số k các cụm, trục tung sẽ là tiêu chí đánh giá bao gồm SSE, Silhouette Ở phần này chúng ta tìm hiểu trước về SSE – (Sum Squared Error) – đo lường sự khác biệt giữa các - điểm trong cluster[10][11] Trong k-means clustering, SSE được tính là tổng các khoảng cách tính từ các điểm trong cluster đến điểm trung tâm Centroid của cluster, tính tất cả các cluster, dựa theo công thức Euclidean Khi các điểm dữ liệu hay các đối tượng, các quan sát càng gần nhau thì sẽ có đặc điểm gần giống nhau, được phân trong một cụm, thì cụm đó chứng tỏ “chất lượng” và ngược lại.

Trong đó: k: là số cụm tối đa cần phải tính SSE, thông thường k sẽ chạy từ 1-20 n i : là số lượng phần tử của cụm Ci

X ij : là các điểm trong cụm Ci m i : là tâm của cụm Ci

Distance 2 ( X ij , m i ): là bình phương khoảng cách của điểm X ij tới tâm cụm m i

Sẽ có k cluster cần tính giá trị SSE thường k sẽ chạy từ 1 đến 10 hay 20 Như vậy với mỗi k chúng ta sẽ có 1 SSE Minh họa các cặp k và SSE lên đồ thị Số k tối ưu chính là điểm mà ở đó SSE bắt đầu giảm đều, nhìn trên đồ thị nó là điểm

“turning point”, điểm nằm ở vị trí “cùi chỏ” sẽ là số k cần tìm.

Các bước thực hiện của thuật toán được minh họa như sau:

Bước 1: Tính toán thuật toán phân cụm (ví dụ: phân cụm k-means) cho các giá trị khác nhau của k Ví dụ: bằng cách thay đổi k từ 1 đến 10 cụm.

Bước 2: Với mỗi k, hãy tính tổng của bình phương khoảng cách trong một cụm (SSE)

Bước 3: Vẽ đồ thị đường cong của SSE theo số cụm k.

Bước 4: Vị trí của một khúc quanh (khủy tay) trong đồ thị được coi là số lượng cụm thích hợp để thực hiện phân cụm.

Hình 2.7 Đồ thị đường cong của SSE theo số cụm k

Các phương pháp đánh giá kết quả phân tích phân cụm

- Tại sao phải đánh giá kết quả phân tích phân cụm. Để có kết quả phù hợp, chính xác, đáng tin cậy thì cần có phương pháp cụ thể để đánh giá kết quả đạt được sau khi tiến hành phân cụm dữ liệu Tuy nhiên quyết định bao nhiêu cụm cần phân như thế nào để tối ưu nhất và các cụm có được khi kết thúc thuật toán clustering được đánh giá là phù hợp, chính xác, đáng tin cậy thì cực kỳ quan trọng và cần có phương pháp cụ thể Nếu quá trình chọn k được thực hiện chỉ dựa trên kinh nghiệm phân tích, kiến thức chuyên môn, và mục đích kinh doanh mà không dựa trên chính đặc tính của dữ liệu thì khả năng cao việc ứng dụng clustering sẽ không mang lại giá trị như mong đợi khi các cluster có thể không phản ánh tốt các quy luật, các mối quan hệ những đối tượng quan sát trong tự nhiên đang tiềm ẩn trong tập dữ liệu Vì thế việc đánh giá kết quả đạt được là vô cùng quan trọng.

- Các phương pháp đánh giá kết quả phân cụm: Có một số phương pháp đánh giá phân cụm như sau:

+ Đánh giá trong (internal evaluation): là phương pháp đánh giá kết quả dựa trên chính dữ liệu được phân cụm bằng cách sử dụng các đại lượng đánh giá sự gắn kết cụm như mật độ (density), khoảng cách giữa các phần tử trong cụm hay khoảng cách giữa các cụm với nhau.

+ Đánh giá ngoài (external evaluation): là phương pháp đánh giá kết quả dựa vào tập dữ liệu chuẩn (dữ liệu mẫu) đã được phân cụm từ trước đó, còn được gọi là tập benchmark.

Ngoài ra ta có thể đánh giá việc phân cụm bằng cách so sánh với các kết quả phân cụm khác được sinh ra bởi cùng một thuật toán nhưng với các giá trị tham số đầu vào khác nhau.

KẾT QUẢ THỰC NGHIỆM

Dữ liệu thực nghiệm

- Nguồn gốc dữ liệu: Dữ liệu được thu thập từ một tập hợp thông tin mua sắm của khách hàng File CSV chứa các thuộc tính liên quan đến hành vi mua sắm của khách hàng, bao gồm thông tin như số lượng giao dịch, tổng giá trị mua sắm, và loại hàng hóa mua sắm.

Hình 3.8 Dữ liệu khách hàng

- Cấu trúc dữ liệu: Mỗi hàng trong tập dữ liệu đại diện cho một khách hàng,với các cột tương ứng với các thuộc tính khác nhau Các thuộc tính này bao gồm những đặc điểm như mã khách hàng, độ tuổi, giới tính, thu nhập hàng năm, số lần mua sắm trong năm, và các biến số liên quan đến hành vi mua sắm khác.

Hình 3.9 Cấu trúc dữ liệu

Quy trình thực nghiệm

- Mục tiêu chính của đề tài này là xác định các nhóm khách hàng đồng nhất dựa trên các đặc điểm hành vi mua sắm của họ Các nhóm này sẽ cung cấp thông tin chi tiết về phân khúc khách hàng, từ đó hỗ trợ trong việc xây dựng chiến lược tiếp thị hiệu quả cho từng nhóm.

+ Xác định số lượng cụm tối ưu để đạt được sự phân cụm hiệu quả nhất.+ Xác định các đặc điểm chính của từng nhóm khách hàng để hỗ trợ trong việc hiểu rõ hơn về các phân khúc khác nhau.

3.2.2 Tiền xử lý dữ liệu

- Xử lý giá trị thiếu: Đầu tiên, kiểm tra dữ liệu để xác định các giá trị thiếu và quyết định cách xử lý chúng Ví dụ, có thể thay thế các giá trị thiếu bằng trung bình hoặc loại bỏ các hàng chứa nhiều giá trị thiếu.

Hình 3.10 Mã tiền xử lý dữ liệu

- Chuẩn hóa dữ liệu: Do các thuộc tính có thể có các đơn vị đo khác nhau, việc chuẩn hóa (ví dụ: sử dụng Min-Max Scaling hoặc Standard Scaling) là cần thiết để đảm bảo rằng tất cả các thuộc tính đều đóng góp tương đương trong quá trình phân cụm.

Hình 3.11 Mã chuẩn hóa dữ liệu

- Mã hóa dữ liệu phân loại: Đối với các thuộc tính phân loại như giới tính, cần chuyển đổi chúng thành các giá trị số để thuật toán K-means có thể xử lý.

Hình 3.12 Mã hóa phân loại

- Giảm số chiều: Nếu dữ liệu có quá nhiều thuộc tính, có thể sử dụng các kỹ thuật như PCA để giảm số chiều của dữ liệu, giúp thuật toán K-means hoạt động hiệu quả hơn.

Phân tích mô tả là bước quan trọng trong việc hiểu rõ dữ liệu trước khi áp dụng các thuật toán phân cụm Quá trình này giúp xác định các thuộc tính chính, phát hiện các giá trị ngoại lệ (outliers), và xác định các mẫu phân phối của dữ liệu.

● Thống kê tổng hợp: Chúng ta tiến hành tính toán các giá trị thống kê cơ bản như trung bình, trung vị, độ lệch chuẩn, giá trị tối thiểu, và giá trị tối đa của các thuộc tính Việc này giúp hiểu rõ phân phối của dữ liệu và xác định các thuộc tính có ảnh hưởng lớn nhất đến hành vi mua sắm của khách hàng.

Hình 3.13 Các giá trị thống kê cơ bản của dữ liệu

● Biểu đồ phân phối: Các biểu đồ như histogram và boxplot được sử dụng để trực quan hóa phân phối của các thuộc tính chính Biểu đồ phân phối giúp phát hiện các giá trị ngoại lệ (outliers) và xác định xem liệu các thuộc tính có cần được xử lý thêm hay không.

Hình 3.14 Biểu đồ Histogram của các thuộc tính số

Hình 3.15 Biểu đồ Boxplot của các thuộc tính số

● Ma trận tương quan: Ma trận tương quan giúp xác định mối quan hệ giữa các thuộc tính khác nhau Điều này rất hữu ích để phát hiện các thuộc tính có liên quan mạnh mẽ, từ đó giúp chọn lựa những thuộc tính quan trọng cho việc phân cụm Ví dụ, nếu có một mối tương quan cao giữa thu nhập và số lượng mua sắm, thì đây có thể là một yếu tố quan trọng trong việc phân khúc khách hàng.

Hình 3.16 Ma trận tương quan

Kết quả của bước phân tích mô tả này giúp cung cấp cái nhìn tổng quan về dữ liệu và là cơ sở để thực hiện các bước tiếp theo trong quá trình phân cụm.

Trong mục này, chúng ta sẽ áp dụng thuật toán K-means để phân cụm khách hàng dựa trên các thuộc tính đã được chuẩn hóa Mục tiêu là xác định các nhóm khách hàng đồng nhất để từ đó có thể đưa ra các chiến lược tiếp thị phù hợp.

- Lựa chọn số lượng cụm (k): Phương pháp Elbow và Silhouette Score được sử dụng để xác định số lượng cụm tối ưu Phương pháp Elbow phân tích SSE (Sum of Squared Errors) để xác định điểm gãy (elbow point) - nơi mà tăng số lượng cụm không còn làm giảm SSE đáng kể

- Huấn luyện mô hình K-means: Thuật toán K-means được áp dụng lên dữ liệu đã được chuẩn hóa để phân cụm khách hàng Quá trình này được thực hiện với số lượng cụm tối ưu xác định từ các phương pháp ở trên Kết quả phân cụm sẽ giúp xác định các nhóm khách hàng có các hành vi mua sắm tương đồng.

- Phân tích kết quả: Các cụm được tạo ra bởi thuật toán K-means được phân tích dựa trên các đặc điểm của chúng Chúng ta sẽ đánh giá các cụm này bằng cách kiểm tra các thuộc tính đặc trưng của từng cụm để đo lường hiệu suất của mô hình.

Hình 3.19 Biểu đồ các cụm khách hàng

● count : 3900 (cho biết có 3900 mục nhập độ tuổi).

● mean : 44,09 (tuổi trung bình của khách hàng).

● Std : 15,21 (độ lệch chuẩn của độ tuổi, thể hiện sự thay đổi theo độ tuổi của khách hàng).

● min : 18 (khách hàng trẻ nhất).

● 50% (Trung bình) : 44 (tuổi trung bình).

● min : 70 (khách hàng lớn tuổi nhất).

Hình 3.20 Kết quả phân tích các cụm

+ Đồ thị 3D phân cụm với 3 thuộc tính “Age”, “Frequency of Purchases”,

Hình 3.21 Đồ thị 3D phân cụm

Đánh giá và đề xuất

Sau khi hoàn thành quá trình phân cụm và phân tích các nhóm khách hàng, chúng ta cần đánh giá kết quả và đưa ra các đề xuất cụ thể để cải thiện chiến lược tiếp thị.

- Phân tích cụm: Các nhóm khách hàng sau khi được phân cụm sẽ được phân tích chi tiết để xác định các đặc điểm chung Những đặc điểm này sẽ giúp hiểu rõ hơn về các phân khúc khách hàng khác nhau Ví dụ, một cụm có thể đại diện cho nhóm khách hàng có thu nhập cao và thường xuyên mua các sản phẩm cao cấp, trong khi cụm khác có thể đại diện cho những khách hàng có thu nhập trung bình nhưng mua sắm thường xuyên hơn.

- Đánh giá hiệu suất: Hiệu suất của quá trình phân cụm được đánh giá dựa trên các chỉ số như SSE Nếu kết quả phân cụm cho thấy các cụm rõ ràng và đồng nhất, điều đó cho thấy quá trình phân cụm đã thành công Ngược lại, nếu kết quả không đạt yêu cầu, chúng ta cần xem xét lại quá trình tiền xử lý, hoặc điều chỉnh số lượng cụm.

- Đề xuất chiến lược: Dựa trên các nhóm khách hàng đã được xác định, chúng ta có thể đưa ra các đề xuất chiến lược tiếp thị cụ thể cho từng nhóm Ví dụ, có thể thiết kế các chương trình khuyến mãi dành riêng cho từng phân khúc khách hàng,hoặc cá nhân hóa các chiến lược tiếp thị để tăng cường tương tác với khách hàng.

Kết luận chương 3

Trong chương này, nhóm đã trình bày phần thực nghiệm và đánh giá của dự án thông qua đầy đủ các bước từ tiền xử lý dữ liệu cho tới phân tích mô tả và dự báo.

Từ đó đưa ra được các đánh giá và đề xuất phù hợp để cải thiện kết quả của dự án trong tương lai

Ngày đăng: 29/10/2024, 23:44

w