PHÂN NHÓM DỮ LIỆU KHÁCH HÀNG SỬ DỤNG THUẬT TOÁN KMEANS

57 6 0
PHÂN NHÓM DỮ LIỆU KHÁCH HÀNG SỬ DỤNG  THUẬT TOÁN KMEANS

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ngày nay, việc thấu hiểu và phục vụ khách hàng một cách tốt nhất không chỉ là một mục tiêu mà còn là một yếu tố quyết định thành công cho hầu hết các doanh nghiệp. Để đạt được điều này, việc phân loại khách hàng đã trở thành một phần không thể thiếu lĩnh vực tiếp thị và phân tích dữ liệu. Tuy nhiên, để phân loại khách hàng một cách hiệu quả, nhà quản trị cần áp dụng các phương pháp và thuật toán phù hợp. Một trong những thuật toán quan trọng và mạnh mẽ nhất được sử dụng trong việc phân loại khách hàng là thuật toán K￾Means. Với sự phát triển nhanh chóng của khoa học dữ liệu và các công cụ phân tích dữ liệu, việc tận dụng nguồn dữ liệu khổng lồ từ hành vi mua hàng và nhân khẩu học của khách hàng đã trở nên dễ dàng hơn bao giờ hết. Chúng ta có khả năng áp dụng các thuật toán và mô hình để phân tích dữ liệu này và tạo ra sự thấu hiểu sâu hơn về khách hàng của mình. Trong bài tập lớn này, chúng ta sẽ khám phá chi tiết về thuật toán KMeans và cách áp dụng nó cho bài toán phân loại khách hàng. Chúng ta sẽ tìm hiểu cách sử dụng KMeans để xác định và phân loại khách hàng thành các nhóm dựa trên các đặc điểm, hành vi hoặc thuộc tính cụ thể. Bằng cách này, chúng ta có thể tối ưu hóa chiến lược tiếp thị, nâng cao trải nghiệm cá nhân của khách hàng và tránh lãng phí tài nguyên. Nội dung quyển báo cáo sẽ bao gồm các chương như sau:

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ···🙞🙞🙞🙞🙞··· ĐỒ ÁN CHUYÊN NGÀNH NGÀNH: KHOA HỌC MÁY TÍNH ĐỀ TÀI: PHÂN NHĨM DỮ LIỆU KHÁCH HÀNG SỬ DỤNG THUẬT TOÁN K-MEANS GVHD : TS Nguyễn Mạnh Cường Sinh viên : Phạm Việt Anh - 2020605676 Nguyễn Trọng Thành - 2020603700 Hà Nội – 2023 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ···🙞🙞🙞🙞🙞··· ĐỒ ÁN CHUYÊN NGÀNH NGÀNH: KHOA HỌC MÁY TÍNH ĐỀ TÀI: PHÂN NHĨM DỮ LIỆU KHÁCH HÀNG SỬ DỤNG THUẬT TOÁN K-MEANS GVHD : TS Nguyễn Mạnh Cường Sinh viên : Phạm Việt Anh - 2020605676 Nguyễn Trọng Thành - 2020603700 Hà Nội – 2023 KẾ HOẠCH THỰC HIỆN TIỂU LUẬN, BÀI TẬP LỚN, ĐỒ ÁN Tên Lớp: 20231IT6052002 Tên Nhóm: Nhóm 15 Tên chủ đề: Phân nhóm liệu khách hàng sử dụng thuật tốn K-means Tuần Người thực Cả nhóm Cả nhóm Nguyễn Trọng Thành 4,5 Cả nhóm Phạm Việt Anh Cả nhóm Cả nhóm Cả nhóm Khóa: 15 Nội dung cơng việc Kết đạt Chọn đề tài nghiên cứu Xác định đề phân công công việc tài nghiên cứu tuần chuẩn bị cho cơng việc tuần tới Tìm hiểu tốn, thu Đã hồn thành thập liệu, tiền xử lý công việc liệu, cài đạt mơi đạt trường Hồn thiện chương Đã hoàn thành tập lớn viết chương tập lớn Tìm hiểu kỹ Hiểu rõ kỹ thuật sử dụng thuật có tốn tìm hiểu chi tiết kỹ thuật kỹ thuật sử dụng sử dụng trong toán toán Phương pháp thực Tổng hợp đánh giá Hoàn thiện chương Đã hoàn thành viết báo cáo chương Viết code chạy thử Hồn thành chương trình demo sản phầm demo Tổng hợp đánh giá, Hoàn thành so sánh kết nhận chương trình mà sản phẩm demo tốn đặt Hồn thiện xây dựng chương trình Tổng hợp thực nghiệm Hồn thiện phần cịn lại Hoàn thành báo báo cáo tập lớp cáo tập lớp Tổng hợp thực nghiện Sưu tầm liệu, nghiên cứu tài liệu tổng hợp Thực nhiệm tổng hợp Sưu tầm liệu, nghiên cứu tài liệu tổng hợp Thực Nghiệm Thực nghiệm, tổng hợp, đánh giá Ngày Tháng Năm 2024 XÁC NHẬN CỦA GIẢNG VIÊN (Kí ghi rõ họ tên) Nguyễn Mạnh Cường BÁO CÁO HỌC TẬP CÁ NHÂN/NHÓM Tên Lớp: 20231IT6052002 Tên Nhóm: Nhóm 15 Tên chủ đề: Phân nhóm liệu khách hàng sử dụng thuật tốn K-means Tuần Người thực Cả nhóm Cả nhóm Nguyễn Thành 4,5 Khóa: 15 Nội dung cơng việc Chọn đề tài nghiên cứu phân công công việc tuần Tìm hiểu tốn, thu thập liệu, tiền xử lý liệu, cài đạt môi trường Trọng Hoàn thiện chương tập lớn Cả Nhóm Phạm Việt Anh Cả nhóm Cả nhóm Cả nhóm Kết đạt Kiến nghị với giảng viên hướng dẫn Xác định đề tài nghiên cứu chuẩn bị cho công việc tuần tới Đã hồn thành cơng việc đạt Đã hoàn thành viết chương tập lớn Hiểu rõ kỹ thuật có kỹ thuật sử dụng tốn Tìm hiểu kỹ thuật sử dụng toán tìm hiểu chi tiết kỹ thuật sử dụng tốn Hồn thiện chương Đã hồn thành viết báo cáo chương Viết code chạy thử Hồn thành sản chương trình demo phầm demo Tổng hợp đánh Hoàn thành chương giá, so sánh kết trình mà tốn đặt nhận sản phẩm demo Hồn thiện xây dựng chương trình Hồn thiện phần cịn Hồn thành báo cáo lại báo cáo bài tập lớp tập lớp Ngày Tháng Năm 2024 XÁC NHẬN CỦA GIẢNG VIÊN (Kí ghi rõ họ tên) LỜI CẢM ƠN Trước báo cáo trình bày, chúng em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Mạnh Cường - giảng viên khoa Công nghệ Thông tin, Trường Đại học Công nghiệp Hà Nội Thầy hướng dẫn chúng em q trình thực tập lớn mơn học Đồ án chuyên ngành với chủ đề “Phân nhóm liệu khách hàng sử dụng thuật toán K-means” Thầy truyền đạt cho chúng em kiến thức môn học kiến thức xoay quanh Thầy sẵn sàng trả lời thắc mắc chúng em, hỗ trợ chúng em việc giải vấn đề phát sinh trình thực tập lớn Nhờ có hướng dẫn hỗ trợ tận tình thầy, chúng em hiểu sâu quy trình kiểm thử phần mềm áp dụng kiến thức vào thực tiễn tương lai Chúng em xin chân thành cảm ơn thầy tận tình hướng dẫn giúp đỡ chúng em trình học tập hy vọng có hội học tập nghiên cứu thêm từ thầy tương lai Chúng em hiểu q trình hồn thành báo cáo môn học, không tránh khỏi thiếu sót chúng em sẵn sàng chấp nhận góp ý, phản hồi từ thầy để hoàn thiện báo cáo Kính chúc thầy sức khỏe, hạnh phúc thành công nghiệp truyền đạt kiến thức cho hệ trẻ! MỤC LỤC LỜI CẢM ƠN DANH MỤC HÌNH ẢNH DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT LỜI NÓI ĐẦU CHƯƠNG I TỔNG QUAN VỀ ĐỀ TÀI 1.1 Tổng quan học máy phân cụm liệu 1.2 Bài toán phân loại khách hàng 12 1.3 Phát biểu toán 17 1.4 Ứng dụng thực tế toán 19 1.5 Khó khăn, thách thức tốn phân loại khách hàng 19 Kết luận chương 20 CHƯƠNG II CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN 21 2.1 Phương hướng tiếp cận toán 21 2.2 Một số kỹ thuật giải toán 21 2.3 Hồi quy logistic (Logistic Regression) 22 2.4 Máy vector hỗ trợ (Support Vector Machines) 23 2.5 Cây định (Decision Trees) 25 2.6 Random Forests Gradient Boosting 26 2.7 Phân cụm (Clustering) 27 2.8 Phân tích chuỗi thời gian (Time Series Analysis) 29 2.9 Mạng nơ-ron sâu (Deep Neural Networks) 30 2.10 Phân loại dựa văn (Text Classification) 31 2.11 Phân tích cảm xúc (Sentiment Analysis) 32 2.12 Lựa chọn thuật toán 33 Kết luận chương 33 CHƯƠNG III: THỰC NGHIỆM 34 3.1 Dữ liệu thực nghiệm 34 3.2 Quy trình thực nghiệm 35 Tổng kết chương 50 Kết luận 52 TÀI LIỆU THAM KHẢO 54 DANH MỤC HÌNH ẢNH Hình 1.1: Tổng quan học máy Hình 1.2: Dữ liệu lĩnh vực học máy .10 Hình 1.3: Mơ hình học máy 10 Hình 1.4: Các loại mơ hình học máy .11 Hình 1.5: Mơ hình hồi quy (Regression) .11 Hình 1.6: Phân cụm liệu 12 Hình 1.7: Phân nhóm khách hàng 13 Hình 1.8: Các phương thức thu thập liệu 14 Hình 1.9: Tiền xử lý liệu 14 Hình 1.10: Thuật tốn phân nhóm 15 Hình 1.11: Các thơng số đánh giá hiueje suất mơ hình 16 Hình 1.12: Áp dụng mơ hình để phân nhóm khách hàng .16 Hình 1.13: Một mẫu liệu 17 Hình 1.14: Đầu tốn phân nhóm 18 Hình 2.1: Mơ hình hồi quy (Regression) .22 Hình 2.2: Mơ hình SVM .24 Hình 2.3: Mơ hình định 25 Hình 2.4: Mơ hình Random Forests Gradient Boosting 26 Hình 2.5: Mơ hình phân cụm (Clustering) .28 Hình 2.6: Mơ hình phân tích chuỗi thời gian (Time Series Analysis) .29 Hình 2.7: Mơ hình mạng nơ-ron sâu (Deep Neural Networks) 30 Hình 2.8: Mơ hình phân loại dựa văn (Text Classification) 31 Hình 2.9: Mơ hình phân tích cảm xúc (Sentiment Analysis) 32 Hình 3.1: Đầu vào bước tiền xử lý 35 Hình 3.2: Đầu bước tiền xử lý 36 Hình 3.3: Kiểm tra liệu khuyết 36 Hình 3.4: Kết kiểm tra liệu khuyết .37 Hình 3.5: Số liệu khuyết liệu 37 Hình 3.6: Xóa hàng có chứa liệu khuyết .37 Hình 3.7: Kiểm tra lại xem cịn liệu khuyết khơng 37 Hình 3.8: Thống kê liệu 38 Hình 3.9: Bảng thống kê liệu 38 Hình 3.10: Hàm hiển thị ma trận tương quan biểu đồ Heatmap 39 Hình 3.11: Biểu đồ heatmap biểu thị ma trận tương quan 40 Hình 3.12: Hàm vẽ biểu đồ Histogram 41 Hình 3.13: Biểu đồ histogram cho thông số: Age, Annual Income Spending Score 41 Hình 3.14: Hàm tạo biểu đồ tương quan thuộc tính 42 Hình 3.15: Biểu đồ tương quan thuộc tính .42 Hình 16: Hàm chọn cột giá trị cho thuật toán K-means .42 Hình 3.17: Giá trị X 43 Hình 3.18: Tính số WCSS cho điểm liệu 44 Hình 3.19: Hàm vẽ biểu đồ Elbow 44 Hình 3.20: Biểu đồ Elbow 45 Hình 3.21: Áp dụng thuật tốn K-means .46 Hình 3.22: Đầu sau áp dụng thuật tốn K-means 46 Hình 3.23: File chứa kết sau chạy thuật toán sinh 47 Hình 3.24: Trả cột CustomerID nhãn tương ứng 47 Hình 3.25: Hàm vẽ biểu đồ trực quan hóa kết 48 Hình 3.26: Biểu đồ hiển thị kết sau chạy K-means 49 DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Ký hiệu từ viết tắt Từ viết đầu đủ NLP Natural Language Processing SVM Support Vector Machines DNN Deep Neural Network WCCS Within-Cluster Sum of Squares LỜI NÓI ĐẦU Ngày nay, việc thấu hiểu phục vụ khách hàng cách tốt không mục tiêu mà yếu tố định thành công cho hầu hết doanh nghiệp Để đạt điều này, việc phân loại khách hàng trở thành phần thiếu lĩnh vực tiếp thị phân tích liệu Tuy nhiên, để phân loại khách hàng cách hiệu quả, nhà quản trị cần áp dụng phương pháp thuật toán phù hợp Một thuật toán quan trọng mạnh mẽ sử dụng việc phân loại khách hàng thuật tốn KMeans Với phát triển nhanh chóng khoa học liệu công cụ phân tích liệu, việc tận dụng nguồn liệu khổng lồ từ hành vi mua hàng nhân học khách hàng trở nên dễ dàng hết Chúng ta có khả áp dụng thuật tốn mơ hình để phân tích liệu tạo thấu hiểu sâu khách hàng Trong tập lớn này, khám phá chi tiết thuật toán K-Means cách áp dụng cho tốn phân loại khách hàng Chúng ta tìm hiểu cách sử dụng K-Means để xác định phân loại khách hàng thành nhóm dựa đặc điểm, hành vi thuộc tính cụ thể Bằng cách này, tối ưu hóa chiến lược tiếp thị, nâng cao trải nghiệm cá nhân khách hàng tránh lãng phí tài nguyên Nội dung báo cáo bao gồm chương sau: Chương 1: Tổng quan đề tài Trong chương 1, chúng em trình bày sơ qua chuyên ngành học máy, loại học máy, số thuật toán phổ biến học máy ứng dụng thực tế Sau đó, chúng em trình bày tốn đặt phân loại khách hàng, ứng dụng toán khó khăn, thách thức Chương 2: Các kỹ thuật giải toán Sau phát biểu xác định rõ ràng yêu cầu tốn, chúng em trình bày kỹ thuật giải tốn có, ưu nhược điểm chúng Từ đó, chúng em đưa giải pháp để xử lý toán đặt Chương 3: Thực nghiệm Trong chương này, chúng em trình bày bước để giải toán, là: tiền xử lý liệu, phân tích mơ tả liệu phần chương trình để xử lý tốn Output: Hình 3.11: Biểu đồ heatmap biểu thị ma trận tương quan 40 Vẽ biểu đồ histogram cột giá trị Age, Annual Income Spending Score Input: Hình 3.12: Hàm vẽ biểu đồ Histogram Output: Hình 3.13: Biểu đồ histogram cho thông số: Age, Annual Income Spending Score 41 Mức độ tương quan thuộc tính: Input: Hình 3.14: Hàm tạo biểu đồ tương quan thuộc tính Output: Hình 3.15: Biểu đồ tương quan thuộc tính Chọn cột giá trị để sử dụng cho K - Means: Hình 16: Hàm chọn cột giá trị cho thuật tốn K-means Dịng lệnh trả ma trận 200 x với phần tử ma trận cặp giá trị tương ứng cột cột 42 Giá trị minh họa X: Hình 3.17: Giá trị X 43 3.2.3 Phân loại khách hàng Cuối cùng, số quan trọng để thực phân loại K - Means:  WCSS: Within-Cluster Sum of Squares số sử dụng thuật toán K-Means để đánh giá chất lượng việc phân cụm Chỉ số đo lường tổng bình phương khoảng cách từ điểm liệu đến trung tâm cụm thuộc về: Hình 3.18: Tính số WCSS cho điểm liệu Vẽ biểu đồ Elbow: Hình 3.19: Hàm vẽ biểu đồ Elbow Cho biểu đồ: 44 Hình 3.20: Biểu đồ Elbow Dễ thấy, điểm gấp khúc vị trí k = 5, số WCSS đột ngột có dấu hiệu thay đổi tần suất giảm Vậy nên kết luận k = số hợp lý để lựa chọn cho việc phân cụm 45 Cuối áp dụng K - Means: Input: Hình 3.21: Áp dụng thuật tốn K-means Output: Hình 3.22: Đầu sau áp dụng thuật toán K-means 46 Và sinh thêm file csv hệ thống: Hình 3.23: File chứa kết sau chạy thuật toán sinh Hệ thống trả cột CustomerID cột Y tương ứng với giá trị nhãn sau phân cụm: Hình 3.24: Trả cột CustomerID nhãn tương ứng Trực quan hóa kết quả: 47 Input: Hình 3.25: Hàm vẽ biểu đồ trực quan hóa kết 48 Output: Hình 3.26: Biểu đồ hiển thị kết sau chạy K-means 49 Tổng kết chương Trong q trình phân tích liệu thực K-means clustering liệu Mall_Customer, đã: Nhập Dữ Liệu:  Sử dụng thư viện pandas để đọc liệu từ tệp CSV lưu vào DataFrame  Kiểm tra thơng tin, kích thước, xem mẫu liệu để hiểu cấu trúc liệu Phân Tích Dữ Liệu:  Lựa chọn thuộc tính quan trọng (ví dụ: 'Age', 'Annual Income (k$)', 'Spending Score (1-100)') để thực phân tích  Tính hiển thị ma trận tương quan để đánh giá mối quan hệ đặc trưng Visualize Dữ Liệu:  Vẽ histogram để hiển thị phân phối đặc trưng  Vẽ heatmap ma trận tương quan để trực quan hóa mối quan hệ đặc trưng Xác Định Số Cụm Tối Ưu (Elbow Method):  Sử dụng phương pháp Elbow để xác định số cụm tối ưu cho thuật toán Kmeans  Vẽ biểu đồ WCSS để xác định điểm elbow (khuỷu tay) đường cong Thực Hiện K-means Clustering:  Chọn số cụm dựa kết Elbow Method  Thực K-means clustering đặc trưng chọn Hiển Thị Kết Quả:  Hiển thị biểu đồ scatter để thể cụm vị trí centroid  Tạo nhãn cụm cho điểm liệu hiển thị thông tin cụm Tổng Kết:  Bộ liệu Mall_Customer lựa chọn lý tưởng cho phân tích áp dụng K-means clustering với tính đa chiều khả trực quan hóa cao  Q trình mang lại hiểu biết sâu sắc đặc tính nhóm khách hàng môi trường cửa hàng Trong chương này, chúng em trình bày đặc điểm liệu, bước để giải toán chúng em tiền xử lý, cài đặt, … 50 Tuy chúng em giải toán đặt ra, chúng em chưa thể làm sản phẩm hoàn thiện thêm số chức tìm kiếm, sàng lọc Chúng em hy vọng có thêm thời gian để nhiên cứu phát triển thêm nữa, báo cáo hoàn thiện đem lại nhiều giá trị cho ngành nghiên cứu ứng dụng chúng tương lai 51 Kết luận Trong tiểu luận này, chúng em thực phân nhóm liệu khách hàng thuật toán K-means Qua việc thu thập xử lý liệu liên quan đến yếu tố độ tuổi, thu nhập điểm chi tiêu, chúng em xây dựng mơ hình để phân nhóm khách hàng Kết cho thấy mơ hình có khả phân nhóm khách hàng với tính xác độ trực quan cao, nhiên số nhược điểm cần xem xét để nâng cao hiệu suất mơ hình Bài tiểu luận bước việc thám hiểm ứng dụng phương pháp phân nhóm để hiểu sâu hành vi khách hàng Những kiến nghị sau tảng cho nghiên cứu phát triển để tối ưu hóa quy trình dự báo quản lý ngành Khoa học Dữ liệu Dựa kết phân tích dự báo, chúng em đưa số kiến nghị nhằm cải thiện trình dự báo mức lương ngành Khoa học liệu: - Tăng cường thu thập liệu: Cần tập trung vào việc thu thập liệu chi tiết yếu tố quan trọng - Sử dụng mô hình phức tạp hơn: Trong tương lai, nên xem xét sử dụng phương pháp hồi quy phi tuyến mơ hình học máy phức tạp để phân nhóm khách hàng tốt Đồng thời, rút số điều quan trọng là:  Phân Cụm Khách Hàng: o K-means clustering giúp phân chia khách hàng thành nhóm (clusters) dựa đặc tính tuổi, thu nhập hàng năm điểm tiêu dung o Mỗi nhóm có đặc tính tương tự nhau, giúp hiểu rõ đặc điểm hành vi nhóm khách hang  Hiểu Rõ Đặc Tính Của Các Nhóm: o Từ việc hiển thị biểu đồ scatter thơng tin centroid, dễ dàng hiểu rõ đặc tính nhóm khách hang o Ví dụ, xác định nhóm khách hàng trẻ tuổi có thu nhập cao, nhóm khách hàng có điểm tiêu dùng cao thu nhập thấp  Tối Ưu Hóa Chiến Lược Kinh Doanh: 52 o Kết từ K-means clustering sử dụng để tối ưu hóa chiến lược tiếp thị chăm sóc khách hang o Doanh nghiệp đưa chiến lược đặc biệt cho nhóm khách hàng để tăng cường trải nghiệm mua sắm tối ưu hóa doanh thu  Phát Hiện Nhóm Đặc Biệt: o K-means clustering giúp phát nhóm khách hàng có đặc điểm riêng biệt, khơng rõ ràng nhìn chung vào liệu o Việc giúp doanh nghiệp hiểu rõ đa dạng thị trường mục tiêu  Áp Dụng Kết Quả Dự Đốn: o Sau phân cụm, áp dụng kết mơ hình vào chiến lược kinh doanh cụ thể, từ việc quảng cáo đến quản lý tồn kho Mơ hình K-means chứng minh khả phân loại hiểu biết nhóm khách hàng cách hiệu quả, tạo hội để tối ưu hóa chiến lược tiếp thị chăm sóc khách hàng Tuy nhiên, nhận thức nhược điểm hội cải thiện mơ hình nêu rõ, tạo điều kiện cho phát triển hoàn thiện tương lai Kiến thức kinh nghiệm thu từ dự án không giúp chúng em hiểu rõ mơ hình K-means mà cịn mở hướng nghiên cứu ứng dụng lĩnh vực phân loại khách hàng quản lý liệu khách hàng Cuối cùng, chúng em hy vọng báo cáo không bước nghiên cứu mà nguồn động viên khởi đầu cho nghiên cứu tiếp theo, đặt câu hỏi tạo nên đóng góp tích cực cho cộng đồng nghiên cứu doanh nghiệp 53 TÀI LIỆU THAM KHẢO Mall_Customers Dataset https://www.kaggle.com/datasets/shwetabh123/mallcustomers/data Algorithms Documentation https://www.coursera.org/articles/machine-learning- algorithms 54

Ngày đăng: 12/01/2024, 21:37

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan