Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
0,91 MB
Nội dung
i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Nếu không đã nêu trên, xin hoàn toàn chịu trách nhiệm về đề tài Tp HCM, ngày 15 tháng 07 năm 2022 Học viên thực luận văn Đàm Thanh Giang ii LỜI CẢM ƠN Trong suốt trình học tập nghiên cứu thực luận văn, nỗ lực thân, tơi đã nhận hướng dẫn nhiệt tình quý báu quý Thầy Cô, với động viên ủng hộ gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn sâu sắc, xin gửi lời cảm ơn chân thành tới: Ban Giám Đốc, Phòng đào tạo sau đại học quý Thầy Cô đã tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Tơi xin chân thành cảm ơn Thầy TS Tân Hạnh đã hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho suốt q trình thực hồn thành luận văn Tơi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp quan đã động viên, hỗ trợ tơi lúc khó khăn để tơi học tập hoàn thành luận văn Mặc dù đã có nhiều cố gắng, nỗ lực, thời gian kinh nghiệm nghiên cứu khoa học hạn chế nên khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý q Thầy Cơ bạn bè đồng nghiệp để kiến thức ngày hoàn thiện Xin chân thành cảm ơn! Tp HCM, ngày 15 tháng 07 năm 2022 Học viên thực luận văn Đàm Thanh Giang iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH HÌNH VẼ vi DANH SÁCH BẢNG vii MỞ ĐẦU CHƯƠNG – MÔ HÌNH HỒI QUY, CÁC KỸ THUẬT HỌC MÁY ÁP DỤNG CHO BÀI TOÁN DỰ ĐOÁN 1.1 Mơ hình Logistic Regression 1.1.1 Giới thiệu 1.1.2 Mơ hình Logistic 1.1.3 Hàm Sigmoid 1.1.4 Hàm mát phương pháp tối ưu 1.2 Support Vector Machine 1.2.1 Giới thiệu 1.2.2 Độ rộng margin 10 1.3 Thuật toán Cây định 11 1.3.1 Giới thiệu 11 1.3.2 Thuật toán ID3 13 1.3.3 Thuật toán C4.5 14 1.4 Các cơng trình nghiên cứu nước 15 1.4.1 Áp dụng kỹ thuật khai phá liệu dự báo thuê bao rời mạng mạng di động 15 1.4.2 Xây dựng mô hình dự đốn khách hàng tiềm cho gói cước mạng di động 16 1.5 Các cơng trình nghiên cứu nước 16 1.5.1 Churn Prediction in the Telecommunications Sector Using Support Vector Machines 16 iv 1.5.2 A comparison of machine learning techniques for customer churn prediction 16 CHƯƠNG – PHÂN TÍCH VÀ ĐÁNH GIÁ DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH 18 Đánh giá thị trường Internet Tây Ninh 18 1.1 1.1.1 Các yếu tố khách hàng 18 1.1.2 Các yếu tố chất lượng dịch vụ 19 1.2 Bài toán chăm sóc dự đốn khách hàng rời mạng VNPT Tây Ninh 19 CHƯƠNG - XÂY DỰNG MƠ HÌNH 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37 Kết đạt 37 1.1 Về mặt lý thuyết 37 1.2 Về mặt thực tiễn 37 Hạn chế 37 Hướng phát triển 38 DANH MỤC TÀI LIỆU THAM KHẢO 39 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt LR Logistic Regression Hồi quy logic RF Random Forest Rừng ngẫu nhiên SVM Support Vector Machines Máy véc tơ hỗ trợ DT Decision Tree Cây định TP True Positive FP False Positive FN False Negative TN True Negative Acc Accuracy Độ xác vi DANH SÁCH HÌNH VẼ Tên hình vẽ Số hiệu Trang Hình 1.1 Đồ thị hàm logistic khoảng t(-6,6) Hình 1.2 Các mặt phân cách hai lớp 10 Hình 1.3 Margin hai lớp 10 Hình 1.4 Mơ hình định 11 Hình 2.1 Thị phần Internet địa bàn Tây Ninh năm 2021 18 Hình 3.1 Mơ tả quy trình dự đốn 22 Hình 3.2 Dữ liệu thực tế Oracle Tây Ninh 23 Hình 3.3 Kết làm liệu 29 Hình 3.4 Scaling liệu 29 Hình 3.5 Tính tốn mức độ tương quan trường liệu 30 Hình 3.6 Các trường liệu lựa chọn 30 Hình 3.7 Biểu đồ so sánh độ xác thuật tốn phân lớp 35 Hình 3.8 Biểu đồ so sánh thời gian huấn luyện thuật toán phân lớp (đơn vị giây) 36 vii DANH SÁCH BẢNG Tên Bảng Số hiệu Trang Bảng 3.1 Mô tả liệu Internet cáp quang VNPT Tây Ninh 24 Bảng 3.2 Mô tả liệu sau thực làm 27 Bảng 3.3 Kết dự đốn mơ hình LR 31 Bảng 3.4 Kết dự đoán SVM 32 Bảng 3.5 Kết dự đoán Random Forest 33 Bảng 3.6 Kết dự đoán Decision Tree 33 Bảng 3.7 Bảng ma trận sai số 34 Bảng 3.8 Cách tính độ xác 35 Bảng 3.9 Kết dự đốn mơ hình 35 MỞ ĐẦU Đặt vấn đề Với phát triển vượt bật thị trường Internet, đã kéo theo bùng nổ về nhu cầu lắp đặt sử dụng dịch vụ Internet cáp quang địa bàn Tây Ninh, điều đã thúc đẩy tăng trưởng mạnh dịch vụ băng rộng cố định, mang đến nguồn doanh thu lớn cho nhà cung cấp dịch vụ Viễn thông – Công nghệ thơng tin, điển hình VNPT Trong bối cảnh thị trường với nhiều biến động cạnh tranh khốc liệt, dự đoán xu hướng phát triển dịch vụ mang đến lợi lớn cho VNPT việc lập kế hoạch, đề sách, chương trình khuyến mãi nhanh nhạy hiệu tạo nền tảng vững để phát triển dịch vụ Thị trường băng rộng cố định mức bão hòa, doanh thu tăng trưởng chững lại việc phát triển thuê bao khó khăn chăm sóc giữ chân khách hàng hữu quan trọng, khơng giúp doanh nghiệp cung cấp dịch vụ phát triển bền vững mà ngăn chặn đối thủ phát triển thuê bao Sự hài lòng khách hàng sử dụng dịch vụ nhân tố quan trọng việc giữ chân khách hàng Trong việc dự đốn tập khách hàng có nguy cao rời mạng giúp cho doanh nghiệp nhanh chóng tiếp cận tư vấn, chăm sóc đề xuất gói cước phù hợp vơ quan trọng Việc lâu thường xuyên phân tích, nhiên thực biện pháp thủ công, thô sơ nhiều thời gian, dẫn đến doanh nghiệp bị động việc tiếp cận tập khách hàng để tư vấn chăm sóc Do để khắc phục tồn đã mô tả, báo cáo sử dụng phương pháp học máy để phân tích dự đốn yếu tố ảnh hưởng đến trải nghiệm sử dụng dịch vụ khách hàng VNPT Tây Ninh Kết dự đốn xác, nhanh chóng giúp doanh nghiệp trì doanh thu bền vững, đảm bảo chất lượng dịch vụ phù hợp với nhu cầu sử dụng khách hàng Đó lý luận văn chọn đề tài: “Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT” Mục đích nghiên cứu Mục đích nghiên cứu phân tích liệu khách hàng thu thập VNPT Tây Ninh: − Xác định yếu tố ảnh hưởng đến trải nghiệm sử dụng khách hàng sử dụng dịch vụ − Phân tích dự đốn để phân tập nhóm khách hàng có nguy cao, đề xuất hướng tiếp cận tư vấn chăm sóc khách hàng Đối tượng phạm vi nghiên cứu Đối tượng, phạm vi nghiên cứu sở liệu thực tế thu thập từ tập khách hàng hữu sử dụng dịch vụ Internet VNPT Tây Ninh Nghiên cứu phương pháp xử lý, phân tích liệu, phương pháp học máy phù hợp với liệu đề tài, nên tảng Python Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: - Tổng hợp, nghiên cứu tài liệu về xử lý, mã hóa, phân tích liệu, học máy, kỹ thuật lập trình - Sử dụng phương pháp nghiên cứu phân tích liệu, phương pháp dự đoán phương pháp thực nghiệm để so sánh, đánh giá phân tích kết đạt Phương pháp nghiên cứu thực nghiệm: sau nghiên cứu lý thuyết, tiến hành thực nghiệm kết với phương pháp học máy Đánh giá kết đạt được; công bố kết nghiên cứu Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học luận văn: tập trung phân tích số liệu thu thập VNPT Tây Ninh, để xác định mức độ tương quan yếu tố ảnh hưởng đến trải nghiệm sử dụng dịch vụ khách hàng.Phân tích yếu tố ảnh hưởng nhờ áp dụng phương pháp học máy LR, SVM, rừng ngẫu nhiên để đưa dự đoán về tập khách hàng có nguy cao Ý nghĩa thực tiễn: xây dựng mơ hình dự đốn tập khách hàng có nguy cao để triển khai cho đơn vị tiếp cận tư vấn chăm sóc, định hướng sách ứng phó phát triển dịch vụ Bố cục báo cáo: báo cáo bao gồm chương với phần mở đầu, phần mục lục, phần kết luận hướng phát triển, phần tài liệu tham khảo Chương – Mơ hình hồi quy, kỹ thuật học máy áp dụng cho tốn dự đốn Chương – Phân tích đánh giá liệu khách hàng sử dụng dịch vụ FiberVNN VNPT Tây Ninh Chương – Xây dựng mô hình dự đốn tập khách hàng có nguy cao, hỗ trợ đơn vị tiếp cận chăm sóc, định hướng sách ứng phó phát triển dịch vụ Phân tích đánh giá kết đạt 26 Khách hàng doanh nghiệp 23 TEN_QUAN Huyện/Thành phố Chuỗi 24 TEN_PHUONG Phường/xã Chuỗi 1: Khu vực loại 25 LOAI_KV Xếp loại khu vực 2: Khu vực loại 3: Khu vực loại 26 KHONG_PSLL Th bao ngày khơng Có: phát sinh lưu lượng Khơng: 1: Hoạt động bình thường 5: Khóa chiều nợ cước 27 TRANGTHAITB_ID Trạng thái thuê bao 6: Tạm sử dụng dịch vụ ngưng theo yêu cầu 7: Thanh lý theo yêu cầu 9: Thanh lý cưỡng 28 ROIMANG Khách hàng có rời mạng hay không 1: Rời mạng 0: Không rời mạng Từ bảng liệu 3.1 tiến hành làm liệu cách loại bỏ dịng liệu có trường trống NULL, trường liệu bất thường nợ ghi nhận 27 âm… Loại bỏ số trường mang tính bảo mật người dùng: họ tên, địa chỉ, mã thuê bao Tiến hành chuyển đổi kiểu liệu từ dạng chữ (chuỗi) sang dạng số cách mã hóa kí tự số Bảng 3.2: Mô tả liệu sau thực làm STT Trường liệu Mô tả Kiểu liệu Thuê bao ID THUEBAO_ID cho thuê Số nguyên bao TOCDOTHUC Tốc độ Internet Số nguyên Số tháng sử dụng dịch vụ tính đến SOTHANG_SD 31/12/2021 Số nguyên tính đến ngày hủy dịch vụ Số ngày dịch vụ bị 11 SONGAY_KHOA ngắt quãng 06 Số nguyên tháng gần 1: Khách hàng 13 TRATRUOC Hình thức đăng ký gói dài tốn khách ngày hàng 0: Khách hàng trả hàng tháng 14 DOANHTHU Doanh thu phát sinh Số nguyên Tiền nợ khách 15 TIENNO hàng tính đến Số nguyên 30/11/2021 16 SOTHANG_NO Tổng số tháng nợ khách hàng Số nguyên 28 Khách hàng sử 17 GOI_DADV dụng gói tích hợp 1: Tích hợp nhiều dịch vụ 0: Riêng lẻ riêng lẻ Số lần báo hỏng 18 SOLAN_BAOHONG khách hàng Số nguyên 06 tháng gần Tổng số lần khơng 21 SOLAN_KO_HAILONG hài lịng khách Số ngun hàng Loại khách hàng 22 LOAI_KH Khách hàng Cá 1: KHDN nhân Khách 0: KHCN hàng doanh nghiệp 1: Khu vực loại 25 LOAI_KV Xếp loại khu vực 2: Khu vực loại 3: Khu vực loại Thuê bao ngày 26 KHONG_PSLL không phát sinh lưu lượng 27 ROIMANG Khách hàng có rời mạng hay khơng Thu kết dạng mã hóa sau: Có: Khơng: 1: Rời mạng 0: Khơng rời mạng 29 Hình 3.3: Kết làm liệu Sử dụng hàm fit_stransform để chuyển đổi liệu dạng số nguyên như: tốc độ, số ngày khóa, doanh thu, tiền nợ, số tháng nợ, số lần báo hỏng, số lần khơng hài lịng, số tháng sử dụng Hình 3.4: Scaling liệu Sử dụng thư viện RFECV để tính độ tương quan trường liệu tập liệu 30 Hình 3.5: Tính toán mức độ tương quan trường liệu Kết ta thu số lượng trường liệu lựa chọn bao gồm: Tốc độ, Số ngày khóa, Doanh thu, Tiền nợ, Số tháng nợ, Số lần báo hỏng, Số lần khơng hài lịng, Loại khách hàng Hình 3.6: Các trường liệu lựa chọn 3.2 Thư viện Scikit-learn Scikit-learn (Sklearn) thư viện mạnh mẽ dành cho thuật toán học máy viết ngôn ngữ Python Thư viện cung cấp tập cơng cụ xử lý tốn machine learning statistical modeling gồm: classification, regression, clustering, dimensionality reduction Thư viện cấp phép quyền chuẩn FreeBSD chạy nhiều nền tảng Linux Scikit-learn sử dụng tài liệu để học tập Để cài đặt scikit-learn trước tiên phải cài thư viện SciPy (Scientific Python) Những thành phần gồm: − Numpy: Gói thư viện xử lý dãy số ma trận nhiều chiều − SciPy: Gói hàm tính tốn logic khoa học − Matplotlib: Biểu diễn liệu dạng đồ thị chiều, chiều − IPython: Notebook dùng để tương tác trực quan với Python 31 − SymPy: Gói thư viện kí tự tốn học − Pandas: Xử lý, phân tích liệu dạng bảng Những thư viện mở rộng SciPy thường đặt tên dạng SciKits Như thư viện gói lớp, hàm sử dụng thuật tốn học máy đặt tên scikit-learn Scikit-learn hỗ trợ mạnh mẽ việc xây dựng sản phẩm Nghĩa thư viện tập trung sâu việc xây dựng yếu tố: dễ sử dụng, dễ code, dễ tham khảo, dễ làm việc, hiệu cao Mặc dù viết cho Python thực thư viện nền tảng scikitlearn lại viết thư viện C để tăng hiệu suất làm việc Ví dụ như: Numpy(Tính tốn ma trận), LAPACK, LibSVM Cython 3.3 Tiến hành thực dự đoán liệu Dựa vào thuật toán cài đặt sẵn thư viện Scikit-Learn đánh giá mạnh mẽ việc sử dụng để dự đoán nguy rời bỏ dịch vụ khách hàng, có tính đến độ tin cậy, hiệu mức độ phổ biến, nghiên cứu thực nghiệm liệu thực tế với mơ hình dự đốn như: Logistic Regression Classification, SVM Classification, Random Forest Classification, Decision Tree Classification, Naive Bayes Classification Thu thập, đánh giá kết lựa chọn mơ hình tối ưu 3.3.1 Dự đốn mơ hình LR Bảng 3.3: Kết dự đốn mơ hình LR Lớp dự đoán (predicted class) Đúng Sai Lớp thực tế Đúng TP = 30000 FN = 74 (actual class) Sai FP = 231 TN = 596 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9901 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 32 Thực huấn luyện mơ hình LR với 70% tập liệu đầu vào thực kiểm tra độ xác với 30% tập liệu với 30,901 khách hàng cịn lại Kết ta có được: − Khách hàng khơng rời mạng dự đốn 30,000 khách hàng − Khách hàng rời mạng dự đoán 596 khách hàng − Khách hàng không rời mạng dự đoán sai 231 khách hàng − Khách hàng rời mạng dự đốn sai 74 Từ đó, ta tính độ xác mơ hình LR 99.01% 3.3.2 Dự đoán SVM Bảng 3.4: Kết dự đoán SVM Lớp dự đoán (predicted class) Đúng Sai Lớp thực tế Đúng TP = 30000 FN = 100 (actual class) Sai FP = 108 TN = 719 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9933 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Thực huấn luyện mô hình thuật tốn SVM với 70% tập liệu đầu vào thực kiểm tra độ xác với 30% tập liệu với 30,901 khách hàng lại Kết ta có được: − Khách hàng khơng rời mạng dự đoán 30,000 khách hàng − Khách hàng rời mạng dự đoán 719 khách hàng − Khách hàng khơng rời mạng dự đốn sai 108 khách hàng − Khách hàng rời mạng dự đốn sai 100 Từ đó, ta tính độ xác mơ hình sử dụng SVM 99.33% 3.3.3 Dự đoán Random Forest Bảng 3.5: Kết dự đoán Random Forest 33 Lớp dự đoán (predicted class) Đúng Sai Lớp thực tế Đúng TP = 30000 FN = 89 (actual class) Sai FP = 97 TN = 730 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9940 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Thực huấn luyện mơ hình thuật tốn Random Forest với 70% tập liệu đầu vào thực kiểm tra độ xác với 30% tập liệu với 30,901 khách hàng cịn lại Kết ta có được: − Khách hàng khơng rời mạng dự đốn 30,000 khách hàng − Khách hàng rời mạng dự đoán 730 khách hàng − Khách hàng không rời mạng dự đoán sai 97 khách hàng − Khách hàng rời mạng dự đốn sai 89 Từ đó, ta tính độ xác mơ hình sử dụng Random Forest 99.40% 3.3.4 Dự đoán Decision Tree Bảng 3.6: Kết dự đoán Decision Tree Lớp dự đoán (predicted class) Đúng Sai Lớp thực tế Đúng TP = 30000 FN = 98 (actual class) Sai FP = 128 TN = 699 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9927 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Thực huấn luyện mơ hình thuật tốn Decision Tree với 70% tập liệu đầu vào thực kiểm tra độ xác với 30% tập liệu với 30,901 khách hàng cịn lại Kết ta có được: − Khách hàng khơng rời mạng dự đốn 30,000 khách hàng 34 − Khách hàng rời mạng dự đoán 699 khách hàng − Khách hàng khơng rời mạng dự đốn sai 128 khách hàng − Khách hàng rời mạng dự đoán sai 98 Từ đó, ta tính độ xác mơ hình sử dụng Decision Tree 99.27% 3.4 Kết dự đốn đánh giá 3.4.1 Độ xác thuật toán Cách đơn giản hay sử dụng accuracy (độ xác) Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Giả sử ta có tốn phân lớp với đầu lớp Đúng/Sai, kết phân lớp tập mẫu so với thực tế có khả thể hiện… Bảng gọi ma trận sai số (confusion matrix) Bảng 3.7: Bảng ma trận sai số Lớp dự đoán (predicted class) Đúng Sai Lớp thực tế Đúng True Positive (TP) False Negative (FN) (actual class) Sai False Positive (FP) True Negative (TN) True Positive thể khả dự đoán phân lớp phân lớp mẫu dự đoán thuộc phân lớp Đúng, False Positive thể khả dự đoán phân lớp sai mẫu dự đoán thuộc phân lớp Đúng False Negative thể khả dự đoán phân lớp phân lớp mẫu dự đoán thuộc phân lớp Sai, True Negative thể khả dự đoán phân lớp sai mẫu dự đoán thuộc phân lớp Sai Ta có độ đo đánh giá hiệu kết phân lớp sau: 35 Bảng 3.8: Cách tính độ xác Tên độ đo Độ xác Cơng thức Diễn giải Tỷ lệ mẫu phân 𝑇𝑃 + 𝑇𝑁 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 lớp toàn tập mẫu 3.4.2 Kết dự đoán đánh giá Bảng 3.9: Kết dự đốn mơ hình Mơ hình Độ xác Thời gian(s) Logistic Regression 0.9901 0.102 SVM 0.9933 8.706 Random Forest 0.9940 0.419 Decision Tree 0.9927 0.042 Hình 3.7: Biểu đồ so sánh độ xác thuật toán phân lớp Bảng 3.7 kết dự đốn mơ hình dựa độ đo trình bày mục 3.1 Từ kết dự đốn thấy mơ hình cho kết sấp xỉ không chênh lệch nhiều Trong đó, mơ hình sử dụng Random Forest cho kết tốt tập liệu so với mơ hình cịn lại 36 10 8.706 0.419 0.102 0.042 Logistic Regression SVM Random Forest Decision Tree Hình 3.8: Biểu đồ so sánh thời gian huấn luyện thuật toán phân lớp (đơn vị giây) Qua ta nhận thấy mơ hình sử dụng thuật tốn RF cho kết tối ưu về độ xác, cịn thuật tốn DT cho kết tối ưu về thời gian thực thi Do giải toán dự đoán số khách hàng rời mạng theo tháng, quý năm cho tập liệu Internet cáp quang VNPT Tây Ninh, ta tiến hành sau: − Đối với tập liệu khách hàng lớn, đòi hỏi phải tối ưu thời gian thực thi, áp dụng thuật toán Decision Tree cho tốn dự đốn tập khách hàng có nguy cao − Đối với tập khách hàng vừa nhỏ, địi hỏi phải tối ưu về độ xác, áp dụng thuật toán Random Forest cho tốn dự đốn tập khách hàng có nguy cao 37 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Thông qua đề tài nghiên cứu, luận văn đã đề xuất thực nghiệm mơ hình dự đốn tập khách hàng có nguy cao dựa liệu người dùng thực tế Từ giúp cho đơn vị chủ động công tác chăm sóc khách hàng định hướng phát triển dịch vụ 1.1 Về mặt lý thuyết Khai thác mơ hình liệu khách hàng có nguy cao để xây dựng mơ hình phát cảnh báo nguy rời mạng Ứng dụng Trí tuệ nhân tạo (AI), Machine Learning, thuật toán học máy phương pháp khai phá liệu vào việc phát khách hàng có nguy cao Khai thác thuật toán phân lớp liệu, cụ thể mơ hình LR, SVM, RF, Cây định… Thực nghiệm ứng dụng thực tế, thu thập kết đánh giá thuật toán tối ưu cho toán Ứng dụng thư viện scikit-learn nền tảng python vào việc nghiên cứu vấn đề học máy, sử dụng tham số để tối ưu mơ hình dự đốn 1.2 Về mặt thực tiễn Luận văn đã đưa giải pháp phát khách hàng có nguy cao cảnh báo sớm cho đơn vị dựa vào liệu lưu trữ hệ thống Việc làm tiền đề để xây dựng công cụ cảnh báo khách hàng có nguy cao phục vụ cho việc chăm sóc lơi kéo khách hàng tương lai, thay cho công tác vận hành nhân công đơn vị Xây dựng mơ hình dự đốn khách hàng nguy cao, phân tích đánh giá mơ hình xây dựng để hiểu rõ về cách thức hoạt động thuật toán khai phá liệu Hạn chế 38 Do liệu thực tế có chênh lệch lớn số lượng thuê bao lý số lượng thuê bao hữu, dẫn đến kết mơ hình chưa cao chưa bao quát hết trường hợp Dữ liệu mẫu cần training mở rộng môi trường áp dụng Các trường hợp phân loại sai nhiều dẫn đến việc nhắm mục tiêu khách hàng có nguy cao chưa thật chuẩn xác Mơ hình dự đốn luận văn mức bản, chưa phân tích sâu vào tham số để phù hợp với mơ hình liệu thực tế Hướng phát triển Tập trung nghiên cứu rút trích đặc trưng thuộc tính phù hợp cho q trình phân tích, tăng độ xác việc dự đốn tập khách hàng có nguy cao Nghiên cứu mơ hình dự đốn để cải thiện mơ hình dự đốn tốt Nghiên cứu áp dụng mơ hình phân loại kết hợp để tìm kiếm mơ hình tối ưu phù hợp với liệu thực tế đơn vị Tiến hành áp dụng VNPT Tây Ninh Cảnh báo sớm nhóm khách hàng có nguy cao, góp phần hỗ trợ cơng tác chăm sóc lơi kéo khách hàng tiến hành nhanh hiệu Từ đó, góp phần thúc đẩy hiệu kinh doanh đơn vị 39 DANH MỤC TÀI LIỆU THAM KHẢO [1] Corinna Cortes, Vladimir Vapnik, (1995), Support-Vector Networks, Machine Learning, (20), pages 273 - 297 [2] David W Hosmer, Stanley Lemeshow (2000), Applied Logistic Regression (2nd ed.), Wiley Online Library [3] Ionut Brandusoiu, G Toderean, (2013), Churn Prediction in the Telecommunications Sector Using Support Vector Machines, ANNALS OF THE ORADEA UNIVERSITY Fascicle of Management and Technological Engineering XXII (XII) [4] Irfan Ullah, Basit Raza, Ahmad Kamran Malik, Muhammad Imran, Saif Ul Islam, and Sung Won Kim, (2019), A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector, IEEE Access, (Volume 7), pages 60134 - 60149 [5] Kamiński B., Jakubczyk M., Szufel P., (2017) A framework for sensitivity analysis of decision trees, Central European Journal of Operations Research 26 (1): 135–159 [6] Mohd Arshad and Muqeem Admed, Prediction of Train Delay in Indian Railways through Machine Learning Techniques INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING, 02/2019 [7] Negash, S., & Gray, P (2008) "Business Intelligence", Handbook on Decision Support Systems 2, 175–193 [8] Saad Ahmed Qureshi, Ammar Saleem Rehman, Ali Mustafa Qamar, Aatif Kamal, Ahsan Rehman, (09/2013), Telecommunication subscribers' churn prediction model using machine learning, Eighth International Conference on Digital Information Management (ICDIM 2013) [9] Tolles Juliana, Meurer William J (2016) Logistic Regression Relating Patient Characteristics to Outcomes, JAMA, 316 (5): 533–4 40 [10] T.Vafeiadis, K.I.Diamantaras, G.Sarigiannidis, K.Ch.Chatzisavvas, (06/2015), A comparison of machine learning techniques for customer churn prediction, Simulation Modelling Practice and Theory, (Volume 55), Pages 19 [11] Utgoff, P E (1989) Incremental induction of decision trees, Machine learning, 4(2), 161–186 [12] Weisbrod, G (2008), "Models to predict the economic development impact of transportation projects: historical experience and new applications", Ann Reg Sci 42, 519–543 [13] Yuan Song (2018), Stock Trend Prediction: Based on Machine Learning Methods https://escholarship.org/uc/ucla, 2018 [14] Yue-gang Song, Qi-lin Cao, Chen Zhang (2019), "Towards a new approach to predict business performance using machine learning", Cognitive Systems Research, Volume 56, 107 [15] Tien-Muoi Le, Chia-Nan Wang & Han-Khanh Nguyen, Using the optimization algorithm to evaluate and predict the business performance of logistics companies–a case study in Vietnam, Applied Economics, 2018 [16] Đoàn Văn Tâm, Xây dựng mơ hình dự đốn khách hàng tiềm cho gói cước mạng di động, 12/2019 [17] Nguyễn Ngọc Tuân, Áp dụng kỹ thuật khai phá liệu dự báo thuê bao rời mạng mạng di động, 2016 [18] Số liệu kinh doanh VNPT Tây Ninh, truy xuất vào ngày 05/05/2022