1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề Tài Nhằm Áp Dụng Thuật Toán K-Means Và Cây Quyết Định Vào Phân Loại Khách Hàng Dựa Trên Mô Hình Rfm, Đo Lường Recency, Frequency, Và Monetary.pdf

26 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

CHƯƠNG II: CƠ SỞ LÝ THUYẾT 3

2.1 Tổng quan về kỹ thuật khai phá dữ liệu 3

2.1.1 Khái niệm khai phá dữ liệu 3

2.1.2 Các giai đoạn của quá trình khai phá dữ liệu 3

2.2 Bài toán phân cụm trong khai phá dữ liệu 4

2.2.1 Khái niệm bài toán phân cụm dữ liệu 4

2.2.2 Các phương pháp phân cụm dữ liệu 5

2.2.3 Độ đo cơ bản trong phân cụm 8

2.2.4 Thuật toán phân cụm K-means 9

CHƯƠNG III: XÂY DỰNG MÔ HÌNH PHÂN CỤM 22

3.1 Cơ sở dữ liệu xây dựng mô hình phân cụm 22

3.2 Tiền xử lý 22

3.3 Biến đổi dữ liệu 25

3.4 Thực nghiệm thuật toán K-means 27

3.4.1 Mở rộng 30

3.5 Thực nghiệm thuật toán cây quyết định 33

Trang 2

3.5.1 Biến đổi dữ liệu 33

3.5.2 Chạy thuật toán cây quyết định 35

3.6 Đánh giá kết quả của 2 thuật toán 36

Trang 3

DANH MỤC HÌNH ẢNH

Hình ảnh 1: Phân cụm phân hoạch 5

Hình ảnh 2: Phân cụm phân cấp 6

Hình ảnh 3: Phân cụm dựa trên mật độ 6

Hình ảnh 4: Phân cụm dựa trên lưới 7

Hình ảnh 5: Phân cụm mờ 7

Hình ảnh 6: Công thức Euclid 8

Hình ảnh 7: Công thức Correlation 9

Hình ảnh 8: Cách thức hoạt động thuật toán K-means (1) 10

Hình ảnh 9: Cách thức hoạt động của thuật toán K-means (2) 10

Hình ảnh 16: Công thức Accuracy (độ đo chính xác) 15

Hình ảnh 17: Mô tả cây quyết định 17

Hình ảnh 18: Ví dụ cây quyết định 17

Hình ảnh 19: Ma trận BCG 20

Hình ảnh 20: Kiểm tra và loại bỏ dữ liệu khuyết thiếu 23

Hình ảnh 21: Chuyển đổi kiểu dữ liệu phù hợp 23

Hình ảnh 22: Mô tả phân bổ dữ liệu GMV trước khi xử lý ngoại lai 24

Hình ảnh 23: Code xử lý dữ liệu ngoại lai 24

Hình ảnh 24: Dữ liệu GMV sau khi xử lý ngoại lai 24

Hình ảnh 25: Tính ngày giao dịch gần nhất của mỗi khách hàng 25

Hình ảnh 26: Loại bỏ từ “days” trong cột dữ liệu “R” 26

Hình ảnh 27: Tính toán số lần sử dụng dịch vụ của khách hàng 26

Hình ảnh 28: Tính toán tổng số tiền khách hàng đã giao dịch 26

Hình ảnh 29: Code nối các bảng và thay đổi kiểu dữ liệu phù hợp với đầu ra mong muốn 27

Trang 4

Hình ảnh 30: Khai báo thư viện cần thiết với thuật toán K-means 27

Hình ảnh 31: Chuẩn hóa dữ liệu MinMaxscaler 27

Hình ảnh 32: Dữ liệu sau khi chuẩn hóa (K-means) 28

Hình ảnh 33: Thiết lập các tham số áp dụng thuật toán K-means 28

Hình ảnh 34: Code đồ thị lựa chọn số cụm phù hợp 28

Hình ảnh 35: Đồ thị số cụm và điểm inertia 29

Hình ảnh 36: Code fit dự đoán trên tập dữ liệu với số cụm là 4 29

Hình ảnh 37: Tâm cụm và độ Silhouette của mô hình 29

Hình ảnh 54: Kết quả sau gán nhãn cho chỉ số RFM 35

Hình ảnh 55: Chuyển dữ liệu định danh về dạng số 35

Hình ảnh 56: Xác định thuộc tính mô tả và thuộc tính dự đoán 35

Hình ảnh 57: Khai báo thư viện và chia bộ dữ liệu huấn luyện và thực nghiệm 35

Hình ảnh 58: Thiết lập các tham số cho mô hình cây quyết định 35

Hình ảnh 59: Tính toán độ chính xác và các chỉ số khác 36

Hình ảnh 60: Kết quả báo cáo các điểm chỉ số của cây quyết định 36

Trang 5

CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI1.1 Đặt vấn đề

Trong thời đại hiện đại ngày nay, lĩnh vực Công nghệ thông tin (CNTT) và ứng dụngcủa nó không ngừng phát triển Lượng thông tin và dữ liệu được thu thập và lưu trữ liên tụcgia tăng Đối với con người, việc xử lý thông tin nhanh chóng là quan trọng để đưa ra quyếtđịnh, đặc biệt khi đối mặt với khối lượng dữ liệu lớn.

Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống không còn đáp ứngđúng mức với thực tế ngày càng phức tạp Do đó, xu hướng mới trong lĩnh vực này là sựphát triển nhanh chóng của kỹ thuật phát hiện tri thức và khai phá dữ liệu Khai phá và phântích dữ liệu đã và đang trở thành đối tượng nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnhvực khác nhau trên toàn cầu Các kết quả thử nghiệm chứng minh rằng, với độ chính xáccao, các mô hình khai phá dữ liệu mang lại sự thành công và cung cấp nguồn tri thức quantrọng.

Trong nền công nghiệp hiện đại, việc quản lý và hiểu biết về khách hàng đóng vai tròquan trọng trong chiến lược kinh doanh Để giải quyết thách thức này, các phương phápphân loại khách hàng dựa trên dữ liệu đã trở thành một phần quan trọng của quá trình quảnlý khách hàng Trong ngữ cảnh này, thuật toán K-Means, một thuật toán phổ biến trong lĩnhvực phân cụm dữ liệu, đặc biệt hữu ích khi áp dụng vào bài toán phân loại nhóm khách hàng.Cùng với cây quyết định (Decision Tree) cũng là một công cụ mạnh mẽ trong phân loại dữliệu Thuật toán này tạo ra một cây quyết định dựa trên các quy tắc, giúp hiểu rõ về quy trìnhquyết định và tương tác giữa các yếu tố Việc áp dụng cây quyết định trong phân loại kháchhàng có thể giúp doanh nghiệp hiểu rõ hơn về đặc tính và hành vi của từng nhóm đối tượng.

Những công cụ này không chỉ mang lại sự chính xác cao mà còn tạo ra cơ hội lớn chodoanh nghiệp tối ưu hóa chiến lược tiếp thị và dịch vụ Bằng cách sử dụng thông tin nhưhành vi mua sắm, tần suất giao dịch và các thông tin nhân khẩu học, cả K-Means và câyquyết định đều giúp doanh nghiệp tối ưu hóa quy trình quản lý khách hàng, cung cấp trảinghiệm cá nhân hóa và nâng cao sự hài lòng của khách hàng.

Trang 6

1.2 Mục tiêu đề tài

Đề tài nhằm áp dụng thuật toán K-Means và cây quyết định vào phân loại khách hàngdựa trên mô hình RFM, đo lường Recency, Frequency, và Monetary Mục tiêu bao gồm sửdụng K-Means đại diện bài toán phân cụm và cây quyết định đại diện bài toán phân lớp đểphân loại khách hàng, từ đó có thể so sánh bài toán nào phù hợp với phân loại nhóm kháchhàng Sử dụng ma trận BCG để xác định vị thế chiến lược và đặc điểm chung của từng nhómkhách hàng Tối ưu hóa chiến lược tiếp thị dựa trên kết quả phân loại, cải thiện trải nghiệmkhách hàng thông qua dịch vụ cá nhân hóa, đánh giá hiệu suất mô hình và cung cấp hiểu biếtsâu sắc về hành vi mua sắm, hỗ trợ doanh nghiệp tối ưu hóa chiến lược kinh doanh.

1.3 Đối tượng và phương pháp nghiên cứu

- Đối tượng: Dữ liệu về khách hàng cùng với giao dịch của khách hàng trong khoảngthời gian từ 1/6/2022 đến 31/8/2022

- Phương pháp: Nghiên cứu lý thuyết về thuật toán K-means và cây quyết định kết hợpvới mô hình RFM phân nhóm khách hàng và ma trận BCG phân tích nhóm kháchhàng.

1.4 Ý nghĩa đề tài

Đề tài tập trung nghiên cứu và ứng dụng cả thuật toán K-Means và cây quyết địnhdựa trên mô hình RFM để phân loại khách hàng thành các nhóm có đặc điểm tương đồng.Kết hợp với ma trận BCG để nhận diện tính chất của từng nhóm, nghiên cứu này giúp doanhnghiệp hiểu rõ hơn về hành vi mua sắm và ưu tiên của từng đối tượng khách hàng.Qua việc kết hợp cả K-Means và cây quyết định, đề tài tạo cơ hội tối ưu hóa chiến lược tiếp thị, cá nhân hóa dịch vụ, và cải thiện trải nghiệm khách hàng Thông qua quá trình phân loại,nghiên cứu có khả năng đưa ra hiểu biết chi tiết về các nhóm đối tượng khách hàng, giúp doanh nghiệp thích ứng linh hoạt với nhu cầu và mong muốn đặc biệt của từng đối tượng khách hàng Đồng thời, thông tin chi tiết này cung cấp cơ sở cho việc tối ưu hóa chiến lược kinh doanh, đảm bảo sự linh hoạt và đáp ứng chính xác đến đặc trưng riêng biệt của từng nhóm khách hàng.

Trang 7

CHƯƠNG II: CƠ SỞ LÝ THUYẾT2.1 Tổng quan về kỹ thuật khai phá dữ liệu

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu (data mining) là quá trình trong khám phá tri thức (KnowledgeDiscovery in Databases - KDD), nơi sử dụng các thuật toán đặc biệt để trích xuất mẫu và môhình hữu ích từ dữ liệu và nó nằm ở giao điểm giữa học máy, thống kê và quản lý cơ sở dữliệu Khai phá dữ liệu đóng vai trò như việc "đào xới" thông tin từ cơ sở dữ liệu với mục tiêuchính là rút trích thông tin có giá trị từ dữ liệu lớn và chuyển đổi nó thành tri thức có ích đểhỗ trợ quyết định và hiểu biết trong nhiều lĩnh vực khác nhau.

Bên cạnh bước phân tích thô, quá trình khai phá dữ liệu liên quan đến nhiều khía cạnhkhác nhau của cơ sở dữ liệu và quản lý dữ liệu Điều này bao gồm xử lý dữ liệu trước để làmcho nó phù hợp với tiêu chuẩn, suy xét mô hình và suy luận thống kê để hiểu rõ cấu trúc vàxu hướng, đánh giá thước đo thú vị của dữ liệu, xem xét các cân nhắc phức tạp và xuất kếtquả về các cấu trúc được phát hiện Ngoài ra, quá trình này bao gồm hiện hình hóa thông tinvà khả năng cập nhật trực tuyến để theo dõi những thay đổi liên tục trong dữ liệu.

2.1.2 Các giai đoạn của quá trình khai phá dữ liệu

Khai phá dữ liệu là một quá trình quan trọng trong quá trình khám phá tri thức từ cáctập dữ liệu và cơ sở dữ liệu Nó đặt con người ở trung tâm và yêu cầu sự tương tác thườngxuyên thông qua các thuật toán chuyên biệt Quá trình này không chỉ liên quan đến bướcphân tích thô mà còn bao gồm nhiều khía cạnh khác nhau như cơ sở dữ liệu, quản lý dữ liệu,xử lý trước dữ liệu, suy xét mô hình, suy luận thống kê, thước đo thú vị, cân nhắc phức tạp,xuất kết quả về cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến.

Các giai đoạn trong quá trình khai phá dữ liệu bao gồm:1 Gom/thu thập dữ liệu (Gathering):

Bước này đòi hỏi việc sưu tập và chọn lọc dữ liệu từ nhiều nguồn khác nhau Quátrình này quan trọng vì chất lượng và đa dạng của dữ liệu thu thập trực tiếp ảnh hưởng đếnkhả năng khám phá tri thức.

Trang 8

2 Trích chọn dữ liệu (Data Selection):

Bước trích chọn dữ liệu đóng vai trò quan trọng trong việc lựa chọn các tập dữ liệuphù hợp từ cơ sở dữ liệu Các thuộc tính có ý nghĩa cho việc khai phá được lựa chọn, và dữliệu được biến đổi để phù hợp với mục tiêu phân tích.

3 Tiền xử lý dữ liệu (Cleansing, Pre-processing, and Preparation):

Giai đoạn này là bước quan trọng để xử lý dữ liệu trước khi áp dụng các thuật toánkhai phá Nó bao gồm việc làm sạch dữ liệu, giảm chiều dữ liệu, và loại bỏ các giá trị khônghợp lý, giúp đảm bảo tính đầy đủ và chính xác của dữ liệu.

4 Biến đổi dữ liệu (Data Transformation):

Ở bước này, dữ liệu được biến đổi để chuyển đổi từ miền xác định này sang miền xácđịnh khác, phù hợp với các kỹ thuật và bài toán cụ thể được áp dụng trong các giai đoạn tiếptheo.

5 Khai phá dữ liệu (Data Mining):

Bước quan trọng nhất trong quá trình khai phá dữ liệu, nơi mà các thuật toán khai pháđược sử dụng để trích xuất thông tin hữu ích hoặc các mẫu đáng chú ý từ dữ liệu Các thuậttoán này có thể bao gồm việc phân loại, phân cụm, hay khám phá luật kết hợp.

6 Đánh giá kết quả (Result Evaluation):

Giai đoạn này nhằm lọc ra từ tập mẫu dữ liệu được trích xuất những mẫu có giá trị vàxác định tiêu chuẩn đánh giá Các kết quả được đánh giá để đảm bảo rằng thông tin hữu íchvà chính xác đã được chiết xuất từ dữ liệu.

2.2 Bài toán phân cụm trong khai phá dữ liệu 2.2.1 Khái niệm bài toán phân cụm dữ liệu

Phân cụm dữ liệu là một phương pháp trong lĩnh vực học máy không giám sát, nơimà mục tiêu chính là gom nhóm các đối tượng dữ liệu tương đồng vào các nhóm khác nhau.Đối tượng dữ liệu ở đây có thể là bất cứ thực thể nào có thể được mô tả bằng dữ liệu, chẳnghạn như các điểm trong không gian đa chiều hoặc các quan sát trong tập dữ liệu.

Trang 9

Nhiệm vụ chính của phân cụm dữ liệu là gom nhóm các đối tượng dữ liệu có sự"tương đồng" vào các nhóm Mỗi nhóm có thể tồn tại độc lập hoặc chồng lên nhau theo cáchphân cấp, và số lượng nhóm cũng không được biết trước Một đối tượng dữ liệu có thể thuộcmột hoặc nhiều nhóm khác nhau Trong quá trình phân cụm, kết quả gom nhóm không thểđược dự đoán trước, đặt ra sự cần thiết của sự đánh giá từ một chuyên gia trong lĩnh vựctương ứng.

Các ứng dụng phổ biến của phân cụm dữ liệu bao gồm phân đoạn thị trường, phânkhúc khách hàng và phân loại web Ngoài ra, kỹ thuật này thường được sử dụng trong bướctiền xử lý để chuẩn bị dữ liệu cho các thuật toán khác.

2.2.2 Các phương pháp phân cụm dữ liệu

a Phân cụm phân hoạch (Partitioning Clustering):

Phân cụm phân hoạch là phương pháp phân loại dữ liệu dựa trên trọng tâm, trong đótập dữ liệu được chia thành n phần tử thành k nhóm, với k được xác định trước Mục tiêu làtạo ra các nhóm sao cho khoảng cách giữa các điểm dữ liệu trong cùng một nhóm tới trọngtâm của nhóm đó là nhỏ nhất so với trọng tâm của các nhóm khác Phương pháp này sử dụngchiến lược tham lam để xác định các nghiệm tối ưu cục bộ Các thuật toán phổ biến bao gồmk-means, k-medoid, clarans.

Hình ảnh 1: Phân cụm phân hoạchb Phân cụm phân cấp (Hierarchical Clustering):

Trang 10

Phân cụm phân cấp kết hợp các đối tượng dữ liệu thành các cụm kết nối với nhau tạothành một hệ thống phân cấp có dạng cây Có hai phương pháp tiếp cận: Bottom-Up (cộnggộp từ dưới lên) và Top-Down (chia nhóm từ trên xuống) Phương pháp này cung cấp mứcđộ chi tiết cao, dễ áp dụng với các công thức xác định độ tương đồng và phù hợp với mọiloại dữ liệu Tuy nhiên, nó đối mặt với khó khăn trong việc lựa chọn tiêu chí dừng phù hợpvà hầu hết các thuật toán không truy cập lại các cụm trung gian trong quá trình xây dựng.Các thuật toán phân cụm phân cấp phổ biến bao gồm Cure, Chameleon, Birch.

Hình ảnh 2: Phân cụm phân cấpc Phân cụm dựa trên mật độ:

Phân cụm dựa trên mật độ sử dụng ý tưởng về việc bổ sung điểm dữ liệu mới từ mộtđiểm dữ liệu hiện có theo hướng mật độ, với ngưỡng mật độ được xác định trước Các thuậttoán phân cụm dựa trên mật độ phổ biến bao gồm Dbscan, Gdbscan, Optics, Dbclasd.

Hình ảnh 3: Phân cụm dựa trên mật độ

Trang 11

d Phân cụm dựa trên lưới:

Phân cụm dựa trên lưới chia dữ liệu thành các ô trên lưới và xử lý đối tượng trongtừng ô một cách gián tiếp, tận dụng cấu trúc liên kết từ không gian thuộc tính Phương phápnày giảm số lượng tính toán và khắc phục nhược điểm của phân cụm dựa trên mật độ khilàm việc với dữ liệu nhiều chiều.

Hình ảnh 4: Phân cụm dựa trên lướie Phân cụm mờ:

Phương pháp phân cụm mờ cho phép một điểm dữ liệu thuộc vào nhiều cụm tùythuộc vào mức độ liên quan, giúp giải quyết vấn đề xác định rõ ranh giới giữa các cụm.

Hình ảnh 5: Phân cụm mờ

Trang 12

2.2.3 Độ đo cơ bản trong phân cụm

Mối quan hệ giữa các phần tử dữ liệu trong quá trình thực hiện phân cụm quyết địnhchất lượng các cụm; các phần tử dữ liệu trong cùng một cụm phải có sự tương đồng cao haycó khoảng cách gần nhau; ngược lại, các phần tử dữ liệu ở các cụm khác nhau co sự khácbiệt và khoảng cách xa nhau.

Độ đo metric d(x,y) được dùng cho phép tính của hai phần tử bất kỳ x,y Độ đo d(x,y)phải thỏa mãn các điều kiện sau:

+) d(x,y) > 0 nếu x khác y+) d(x,y) = 0 nếu x = y+) d(x,y) = d(y,x) với mọi x,y+) d(x,y) <= d(x,z) + d(z,y)

Một số độ đo được sử dụng trong bài toán phân cụm: Khoảng cách Euclid

Khoảng cách Euclid giữa hai điểm bất kỳ x(x1, x2, ,xn) và y(y1, y2,…,yn) trong khônggian được định nghĩa là chiều dài của đường thẳng nối chúng; được xác định bằng côngthức:

Hình ảnh 6: Công thức EuclidHệ số tương quan – Correlation

Hệ số tương quan là công cụ thống kê để đo lường mức độ phụ thuộc tuyến tính giữahai đại lượng Công thức hệ số tương quan r giữa hai đại lượng x và y là:

Trang 13

Hình ảnh 7: Công thức Correlation

Hệ số tương quan r có giá trị trong khoảng [-1,1]; khi r > 0 => x và y có mối tươngquan thuận, tức x tăng (giảm) thì y tăng (giảm); khi r < 0 => x và y có mối tương quannghịch, tức x tăng (giảm) thì y giảm (tăng); khi r = 0 => x và y không có mối tương quan.Khi |x| >> càng lớn thì x và y tương quan càng mạnh

2.2.4 Thuật toán phân cụm K-means

K-means là một thuật toán phân cụm nổi tiếng và được sử dụng phổ biến trong khaiphá dữ liệu bởi tính hiệu quả và đơn giản của nó K-means làm việc với dữ liệu kiểu số và ýtưởng chính là tìm cách phân nhóm các đối tượng dữ liệu ban đầu vào k cụm (với k là mộtsố nguyên dương cho trước) thỏa mãn tổng bình phương khoảng cách từ phần tử dữ liệutrong nhóm tới tâm nhóm là nhỏ nhất

Cách thức thuật toán hoạt động:

Đầu vào: Cho tập dữ liệu D, với K là số cụm, phép đo khoảng cách giữa 2 điểm dữliệu là d(x, y)

Khởi tạo: Khởi tạo K điểm dữ liệu trong D làm các điểm trung tâm (centroid)Lặp lại các bước sau đến khi hội tụ:

- Bước 1: Với mỗi điểm dữ liệu, gán điểm dữ liệu đó vào cluster có khoảng cách đếnđiểm trung tâm của cluster là nhỏ nhất.

- Bước 2: Với mỗi cluster, xác định lại điểm trung tâm của tất cả các điểm dữ liệuđược gán vào cluster đó.

Sau đây là một số bước dưới dạng hình ảnh:

Ngày đăng: 21/06/2024, 16:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w