Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
2,37 MB
Nội dung
i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp Thầy PGS TS Nguyễn Đình Thuân Mọi tham khảo luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo xin chịu hồn tồn trách nhiệm Tp Hồ Chí Minh, ngày 15 tháng 07 năm 2022 Học viên thực luận văn Trần Thành Nguyên ii LỜI CÁM ƠN Em xin dành lời cảm ơn chân thành sâu sắc đến Thầy PGS TS Nguyễn Đình Thuân người truyền cảm hứng mảng khai phá liệu, khuyến khích dẫn tận tình cho em bước từ bắt đầu hoàn thành luận văn Em xin dành lời cảm ơn chân thành đến quý Thầy Cô Học viện Bưu Chính Viễn Thơng Cơ Sở Thành Phố Hồ Chí Minh truyền đạt kiến thức vô quý giá tạo điều kiện thuận lợi cho em suốt thời gian học tập nghiên cứu trường Tôi xin chân thành cảm ơn Viễn thông Tây Ninh tạo điều kiện cho tơi tìm hiểu thơng tin, cung cấp liệu hỗ trợ suốt trình thực luận văn Cuối em xin gửi lời cám ơn đến Cha Mẹ, vợ con, gia đình, người thân, bạn bè đồng nghiệp quan tâm, ủng hộ suốt trình học tập cao học Tp Hồ Chí Minh, ngày 15 tháng 07 năm 2022 Học viên thực luận văn Trần Thành Nguyên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii MỤC LỤC .iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi DANH SÁCH CÁC BẢNG vii DANH SÁCH CÁC HÌNH VẼ VÀ ĐỒ THỊ viii MỞ ĐẦU Chương 1: TỔNG QUAN 1.1 Bài toán phân khúc khách hàng dựa hành vi sử dụng dịch vụ di động 1.2 Tại cần xác định số cụm tối ưu vào toán phân khúc khách hàng 1.2.1 Tại phải phân khúc khách hàng 1.2.2 Tại phải xác định số cụm tối ưu cho toán phân khúc khách hàng 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu Chương 2: CƠ SỞ LÝ LUẬN 10 2.1 Tổng quan khai phá liệu 10 2.2 Quá trình khám phá tri thức, khai phá liệu 11 2.2.1 Khám phá tri thức 11 2.2.2 Quá trình khai phá liệu 13 2.3 Các phương pháp khai phá liệu 14 2.4 Phân cụm liệu 17 2.4.1 Phân cụm gì? Mục đích phân cụm liệu 17 2.4.2 Các bước để phân cụm 18 2.4.3 Các ứng dụng phân cụm 19 iv 2.4.4 Các phương pháp phân cụm liệu 19 2.4.5 Các thách thức phân cụm 23 2.5 Thuật toán phân cụm K-Means 27 2.5.1 Tổng quan thuật toán 27 2.5.2 Hạn chế K-Means 29 2.6 Thuật toán K-Means++ 29 2.7 Các thuật toán xác định số cụm tối ưu 30 2.7.1 Phương pháp khủy tay(Elbow method) 30 2.7.2 Phương pháp điểm hình bóng trung bình(Average silhouette method) 31 2.8 Các phương pháp đánh giá kết phân tích phân cụm 34 2.8.1 Tại phải đánh giá kết phân tích phân cụm 34 2.8.2 Các phương pháp đánh giá kết phân cụm 34 2.8.3 Các độ đo đánh giá kết phân cụm 34 Chương 3: ÁP DỤNG CÁC THUẬT TOÁN XÁC ĐỊNH SỐ CỤM TỐI ƯU VÀO BÀI TOÁN PHÂN KHÚC KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG TẠI VNPT TÂY NINH 37 3.1 Giới thiệu 37 3.2 Các thử nghiệm 38 3.3 Thu thập liệu hành vi sử dụng dịch vụ di động khách hàng tháng gần 38 3.4 Mô tả liệu thu thập 39 3.5 Tiến hành phân cụm k-means tìm kiếm số cụm tối ưu Elbow method Silhouette Score method 41 3.5.1 Kết xác định số cụm tối ưu sử dụng Phương pháp khủy tay(Elbow method) tập liệu 41 v 3.5.2 Kết xác định số cụm tối ưu sử dụng phương pháp điểm hình bóng(Silhouette Score) tập liệu 43 3.5.3 So sánh kết lựa chọn cụm tối ưu hai phương pháp Khủy tay phương pháp tính điểm Silhouette 44 3.5.4 Tiến hành phân cụm với số lượng cụm tối ưu thu thập với áp dụng thuật tốn K-Means++ để khởi tạo tâm cụm phân cụm .45 3.6 Đánh giá kết phân khúc khách hàng .50 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 4.1 Kết luận 51 4.2 Hạn chế đề tài hướng phát triển tương lai 52 DANH MỤC TÀI LIỆU THAM KHẢO .53 PHỤ LỤC 55 vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CI Cluster Index Độ phụ thuộc KPDL Data Mining Khai phá liệu CSDL Database Cơ sở liệu KPTT Knowledge Discovery Khám phá tri thức CURE Clustering Using REpresentatives Phân cụm cách sử dụng đại diện BIRCH Balance Iterative Reducing and Cân Giảm lặp lại Clustering using Hierarchies Phân cụm cách sử dụng Cấu trúc phân cấp ROCK Robust Clustering Algorithm for Thuật toán phân cụm Categorical Attributes mạnh mẽ cho thuộc tính phân loại vii DANH SÁCH CÁC BẢNG Bảng 3.1: Mô tả trường liệu 39 Bảng 3.2: Giá trị - max, trung bình trường 40 Bảng 3.3: Kết xác định số cụm tối ưu sử dụng Phương pháp khủy tay 42 Bảng 3.4: Kết xác định số cụm tối ưu sử dụng Phương pháp điểm hình bóng(Silhouette Score) 43 Bảng 3.5: So sánh kết hai phương pháp 44 Bảng 3.6: Phân khúc với thuộc tính TOTAL_CALL(đơn vị: ngìn đồng) 45 Bảng 3.7: Phân khúc với thuộc tính TOTAL_SMS(đơn vị tính: VNĐ) 46 Bảng 3.8: Phân khúc với thuộc tính TOTAL_DATA(đơn vị tính: VNĐ) .47 Bảng 3.9: Phân khúc với thuộc tính TOTAL_CALL, TOTAL_SMS, TOTAL_DATA (đơn vị tính: VNĐ) 47 Bảng 3.10: Phân khúc với thuộc tính TOTAL_CALL, TOTAL_SMS, TOTAL_DATA(đơn vị tính: VNĐ) 49 viii DANH SÁCH CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Thị phần viễn thơng Việt Nam tính đến năm 2021(Nguồn: Sách Trắng cơng nghệ thông tin Truyền thông 2021)[1] Hình 1.2: Phân khúc khách hàng Hình 2.1: Quá trình khám phá tri thức 11 Hình 2.2: Quá trình KPDL 14 Hình 2.3: Mơ hình học có giám sát 15 Hình 2.4: Mơ hình học khơng giám sát 15 Hình 2.5: Phân cụm theo cách tiếp cận top-down/bottom-up dendrogram biểu diễn phân cấp đối tượng {a,b,c,d,e} 20 Hình 2.6: Ví dụ phân hoạch với k=3 .21 Hình 2.7: Các cụm có hình dạng 22 Hình 2.8: Phân cụm k-means với k = 28 Hình 2.9: Xác định số cụm tối ưu phương pháp Elbow method 31 Hình 2.10: Xác định số cụm tối ưu phương pháp Average silhouette 33 Hình 3.1: Dữ liệu thực tế vào tháng 11/2021 39 Hình 3.2: Biểu đồ hiển thị kết xác định số cụm tối ưu phương pháp khủy tay41 Hình 3.3: Tỉ lệ phân khúc khách hàng theo tổng chi phí gọi 45 Hình 3.4: Tỉ lệ phân khúc khách hàng theo tổng chi phí sms 46 Hình 3.5: Tỉ lệ phân khúc khách hàng theo tổng chi phí gọi 47 Hình 3.6: Tỉ lệ phân khúc khách hàng theo tổng chi phí liệu di động 48 Hình 3.7: Tỉ lệ phân khúc khách hàng theo tổng chi phí 49 MỞ ĐẦU Với bùng nổ cơng nghệ nay, có nhiều giải pháp công nghệ nghiên cứu triển khai nhằm phục vụ nhu cầu cá nhân doanh nghiệp Trong Data Mining (Khai phá liệu - KPDL) lĩnh vực quan trọng cơng nghệ KPDL q trình chọn lọc, xử lý liệu thô, xếp, phân loại tập hợp liệu lớn qua để xác định mẫu xây dựng mối quan hệ liệu để giải vấn đề cách phân tích liệu Việc ứng dụng KPDL cho phép đơn vị, doanh nghiệp dự đốn trước xu hướng tương lai Trong lĩnh vực viễn thơng, mơi trường có nhiều cạnh tranh số lượng thuê bao, chất lượng dịch vụ mảng di động (cuộc gọi thoại, sms, data…) Các doanh nghiệp viễn thơng cần phải nhanh chóng ứng dụng giải pháp mới, khai phá liệu tập hành vi sử dụng dịch vụ di động khách hàng để hoạch định rõ chiến lược kinh doanh khác tập khách hàng Trong bối cảnh tại, công ty nhận thấy họ phải có nhìn “từ tồn cảnh đến chi tiết” khách hàng từ nhu cầu, sở thích, hành vi, thái độ, nhận thức, … khách hàng Sau đó, hoạt động sản xuất, sales, marketing phải tinh chỉnh cho thỏa mãn nhu cầu khách hàng Đây lợi cạnh tranh cần hướng đến Vấn đề đặt nhóm khách hàng cụ thể, doanh nghiệp viễn thơng cần có chế, sách, chiến lược kinh doanh khác để giữ chân, đáp ứng nhu cầu sử dụng dịch vụ nhóm khách hàng để mang lại chất lượng phục vụ tốt cho nhóm khách hàng Là người công tác lĩnh vực viễn thông, để hỗ trợ cho cơng việc tại, để giúp công ty xác định rõ phân khúc khách hàng sử dụng dịch vụ di động Vinaphone Tây Ninh Nên xin đề xuất đề tài nghiên cứu “Xác định số cụm tối ưu vào toán phân khúc khách hàng sử dụng dịch vụ di động VNPT Tây Ninh” Ngành viễn thông thông tin di động ngành nghề kinh tế kỹ thuật quan trọng đất nước nhằm đảm bảo an ninh thơng tin quốc phịng quốc gia Trong môi trường cạnh tranh khốc liệt nhà cung cấp mạng di động nay, để đáp ứng loại sản phẩm, dịch vụ thích hợp tới khách hàng nhà quản lý tiếp thị cần phải xác định phân khúc khách hàng mục tiêu cốt lõi mà doanh nghiệp muốn thu hút khách hàng Khi mà phân khúc khách hàng hiệu qua doanh nghiệp dễ dàng giới thiệu, khuyến nghị, tiếp thị sản phẩm, dịch vụ phù hợp với nhu cầu, mong muốn nhóm khách hàng Do mục tiêu luận tìm hiểu thuật toán phân cụm, phương pháp xác định số cụm tối ưu sau ứng dụng vào toán phân khúc khách hàng sử dụng dịch vụ di động Vinaphone Tây Ninh Các nội dung cụ thể đề tài bao gồm: - Nghiên cứu báo toán phân cụm - Nghiên cứu tài liệu thuật toán phân cụm: K-means, K-medoids - Nghiên cứu toán lựa chọn số cụm tối ưu: Elbow method, Average silhouette method - Nghiên cứu báo, thuật toán phương pháp đánh giá số lượng cụm: Độ đo bóng (Silhouette), Độ đo Davies – Bouldin, Độ đo Dunn - Ứng dụng thuật toán vào tập liệu khách hàng sử dụng dịch vụ di động Vinaphone Tây Ninh, tiến hành đánh giá chọn phân khúc khách hàng tối ưu 44 3.5.3 So sánh kết lựa chọn cụm tối ưu hai phưong pháp Khủy tay phưong pháp tính điêm Silhouette Bảng 3.5: So sánh kết hai phương pháp STT Tên trường Số cụm tối ưu với phương thức Khủy tay Số cụm tối ưu với cách tính điểm Silhouette(độ đo Euclidean) Thực phân cụm trường liệu TOTAL_CALL 3 TOTAL_SMS 3 TOTAL_DATA 19 TOTAL_VAS 3 TOTAL_OTHER TOTAL_TKC 3 TOTAL_CORE_BAL ANCE Thực phân cụm kết hợp trường liệu 'TOTAL_CALL', 'TOTAL_SMS', 11 'TOTAL_DATA', 6 'TOTAL_VAS', 'TOTAL_OTHER' 'TOTAL_CALL', 12 'TOTAL_SMS', 'TOTAL_DATA' 45 3.5.4 Tiến hành phân cụm vơi số lượng cụm tối ưu thu thập vơi áp dụng thuật toán K-Means++ đê khởi tạo tâm cụm phân cụm Các trường chủ yếu sử dụng phân khúc khách hàng tập trung vào trường quan trọng sau: TOTAL_CALL (Tổng chi phí gọi), TOTAL_SMS(Tổng chi phí gửi tin nhắn SMS), TOTAL_DATA( Tổng chi phí sử dụng liệu di động) trường sử dụng trường liệu tài khoản di động, phản ánh mức độ sử dụng dịch vụ khách hàng a Phân cụm với thuộc tính TOTAL_CALL Số lượng cụm: Thuật tốn: K-Means++ Bảng 3.6: Phân khúc với thuộc tính TOTAL_CALL(đơn vị: ngìn đồng) Thuộc tính TOTAL_CALL Phân khúc Phân khúc Phân khúc (628,717 thuê bao) (5,972 thuê bao) (75,132 thuê bao) 16,338 509,455 137,184 +/-20,127 +/-247,249 +/-56,841 Hình 3.3: Tỉ lệ phân khúc khách hàng theo tổng chi phí gọi 46 b Phân cụm với thuộc tính TOTAL_SMS Số lượng cụm: Thuật toán: K-Means++ Bảng 3.7: Phân khúc với thuộc tính TOTAL_SMS(đơn vị tính: VNĐ) Thuộc tính Phân khúc Phân khúc Phân khúc (700,563 thuê bao) (8,110 thuê bao) (1,148 thuê bao) 1,370 82,328 318,333 +/-40,96 +/-38,833 +/-146,213 TOTAL_SMS Hình 3.4: Tỉ lệ phân khúc khách hàng theo tổng chi phí sms c Phân cụm với thuộc tính TOTAL_DATA Số lượng cụm: Thuật tốn: K-Means++ 47 Bảng 3.8: Phân khúc với thuộc tính TOTAL_DATA(đơn vị tính: VNĐ) Thuộc tính Phân khúc Phân khúc Phân khúc (566,482 thuê bao) (10,864 thuê bao) (132,475 thuê bao) 2,186 255,210 78,312 +/-6,873 +/-97,347 +/-26,979 TOTAL_DATA Hình 3.5: Tỉ lệ phân khúc khách hàng theo tổng chi phí gọi d Phân cụm với thuộc tính TOTAL_CALL, TOTAL_SMS, TOTAL_DATA Số lượng cụm: Thuật toán: K-Means++ Bảng 3.9: Phân khúc với thuộc tính TOTAL_CALL, TOTAL_SMS, TOTAL_DATA (đơn vị tính: VNĐ) Thuộc tính TOTAL_CALL Phân khúc Phân khúc Phân khúc Phân khúc (522,646 thuê (5,342 thuê (119,915 thuê (61,918 thuê bao) bao) bao) bao) 13,502 527,403 43,151 138,455 48 TOTAL_SMS TOTAL_DATA +/-19,165 +/-255,232 +/-44,015 +/-61,024 999 29,186 4,438 12,635 +/-5,472 +/-86,251 +/-16,817 +/-43,003 3,757 36,150 99,466 4,864 +/-10,649 +/-67,776 +/-61,396 +/-13,237 Hình 3.6: Tỉ lệ phân khúc khách hàng theo tổng chi phí liệu di động Số lượng cụm: Thuật toán: K-Means++ 49 Bảng 3.10: Phân khúc với thuộc tính TOTAL_CALL, TOTAL_SMS, TOTAL_DATA(đơn vị tính: VNĐ) Thuộc tính Phân khúc Phân khúc Phân Phân Phân khúc Phân khúc khúc khúc (501,450 (5,342 thuê (5,310 (128,981 (2,251 thuê (60,591 thuê bao) bao) thuê bao) thuê bao) bao) thuê bao) TOTAL 13,134 520,751 68,430 37,995 112,624 137,763 _CALL +/-18,710 +/-256,049 +/-91,888 +/-38,002 +/-126,998 +/-58,788 TOTAL 1,040 15,511 6,832 3,264 236,618 5,919 _SMS +/-5693 +/-32203 +/-21316 +/-8698 +/-133043 +/-14533 TOTAL 2,148 28,905 251,469 77,965 24,502 3,593 _DAT +/-6,802 +/-49,872 +/-97,285 +/-26,480 +/-47,550 +/-10,771 A Hình 3.7: Tỉ lệ phân khúc khách hàng theo tổng chi phí 50 3.6 Đánh giá kết phân khúc khách hàng Theo kết đạt chương ta rút số kết sau: + Ở tất trường hợp phân khúc trên, lượng khách hàng không sử dụng sử dụng dịch vụ có phát sinh chi phí chiếm tỉ lệ cao nhất(>70%) Chi phí phát sinh hàng tháng nhóm