Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đàm Thanh Giang HỆ THỐNG DỰ ĐOÁN XU HƯỚNG KINH DOANH DỊCH VỤ INTERNET VNPT Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ TP.HCM - NĂM 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Tân Hạnh (Ghi rõ học hàm, học vị) Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: … … ngày … tháng … năm 2022 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Đặt vấn đề Thị trường băng rộng cố định mức bão hòa, doanh thu tăng trưởng chững lại việc phát triển thuê bao khó khăn chăm sóc giữ chân khách hàng hữu quan trọng, khơng giúp doanh nghiệp cung cấp dịch vụ phát triển bền vững mà ngăn chặn đối thủ phát triển thuê bao Sự hài lòng khách hàng sử dụng dịch vụ nhân tố quan trọng việc giữ chân khách hàng Trong việc dự đốn tập khách hàng có nguy cao rời mạng giúp cho doanh nghiệp nhanh chóng tiếp cận tư vấn, chăm sóc đề xuất gói cước phù hợp vơ quan trọng Do cần có thuật tốn dự đốn tập khách hàng có nguy rời mạng cao nhằm giúp doanh nghiệp kịp thời phản ứng trước nguy định hướng phát triển dịch vụ Đó lý luận văn chọn đề tài: “Hệ thống dự đoán xu hướng kinh doanh dịch vụ Internet VNPT” Mục đích nghiên cứu Mục đích nghiên cứu phân tích liệu khách hàng thu thập VNPT Tây Ninh: − Xác định yếu tố ảnh hưởng đến trải nghiệm sử dụng khách hàng sử dụng dịch vụ − Phân tích dự đốn để phân tập nhóm khách hàng có nguy cao, đề xuất hướng tiếp cận tư vấn chăm sóc khách hàng Đối tượng phạm vi nghiên cứu Đối tượng, phạm vi nghiên cứu sở liệu thực tế thu thập từ tập khách hàng hữu sử dụng dịch vụ Internet VNPT Tây Ninh Nghiên cứu phương pháp xử lý, phân tích liệu, phương pháp học máy phù hợp với liệu đề tài, nên tảng Python Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: − Tổng hợp, nghiên cứu tài liệu xử lý, mã hóa, phân tích liệu, học máy, kỹ thuật lập trình − Sử dụng phương pháp nghiên cứu phân tích liệu, phương pháp dự đoán phương pháp thực nghiệm để so sánh, đánh giá phân tích kết đạt Phương pháp nghiên cứu thực nghiệm: sau nghiên cứu lý thuyết, tiến hành thực nghiệm kết với phương pháp học máy Đánh giá kết đạt được; công bố kết nghiên cứu Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học luận văn: tập trung phân tích số liệu thu thập VNPT Tây Ninh, để xác định mức độ tương quan yếu tố ảnh hưởng đến trải nghiệm sử dụng dịch vụ khách hàng.Phân tích yếu tố ảnh hưởng nhờ áp dụng phương pháp học máy LR, SVM, rừng ngẫu nhiên để đưa dự đoán tập khách hàng có nguy cao Ý nghĩa thực tiễn: xây dựng mơ hình dự đốn tập khách hàng có nguy cao để triển khai cho đơn vị tiếp cận tư vấn chăm sóc, định hướng sách ứng phó phát triển dịch vụ Bố cục báo cáo: báo cáo bao gồm chương với phần mở đầu, phần mục lục, phần kết luận hướng phát triển, phần tài liệu tham khảo Chương – Mơ hình hồi quy, kỹ thuật học máy áp dụng cho toán dự đốn Chương – Phân tích đánh giá liệu khách hàng sử dụng dịch vụ FiberVNN VNPT Tây Ninh Chương – Xây dựng mơ hình dự đốn tập khách hàng có nguy cao, hỗ trợ đơn vị tiếp cận chăm sóc, định hướng sách ứng phó phát triển dịch vụ Phân tích đánh giá kết đạt CHƯƠNG 1: MƠ HÌNH HỒI QUY, CÁC KỸ THUẬT HỌC MÁY ÁP DỤNG CHO BÀI TOÁN DỰ ĐOÁN 1.1 Mơ hình Logistic Regression Logistic regression thuật tốn đơn giản lại hiệu toán phân loại (Classification) Logistic regression áp dụng toán phân loại nhị phân (Binary classification) tức ta có hai output, gọi hai nhãn (ví dụ 1) 1.1.1 Giới thiệu Logistic Regression (LR) phân tích thống kê (hay cịn gọi mơ hình logic) phân tích hồi quy thích hợp để tiến hành biến phụ thuộc nhị phân (lưỡng phân), nói cách khác hồi quy với biến phụ thuộc bị giới hạn (Limited Dependent Variable Models) LR mơ hình thống kê dạng sử dụng hàm logistic để mơ hình hóa biến phụ thuộc nhị phân, tồn nhiều phần mở rộng phức tạp Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logic) ước lượng tham số mô hình logistic (một dạng hồi quy nhị phân) Về mặt tốn học, mơ hình logistic nhị phân có biến phụ thuộc với hai giá trị có, chẳng hạn đạt không đạt đại diện biến báo, hai giá trị gắn nhãn “0” “1” 1.1.2 Mô hình Logistic Xét mơ hình logistic với tham số cho trước, sau xem cách hệ số ước tính từ liệu Hãy xem xét mơ hình có hai yếu tố dự đốn: x1 x2 biến nhị phân Bernoulli Y với tham số p = P(Y = 1) Ta giả định mối quan hệ tuyến tính biến dự đoán tỷ lệ logic Y = Mối quan hệ tuyến tính viết dạng tốn học sau Trong ℓ tỷ lệ logic, 𝑏 số logarit 𝛽𝑖 tham số mơ hình Ta có: 𝑝 ℓ = 𝑙𝑜𝑔𝑏 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 1−𝑝 Ta khơi phục tỷ lệ logic cách lũy thừa hai vế trên: 𝑝 = 𝑏 𝛽0 +𝛽1 𝑥1+𝛽2 𝑥2 1−𝑝 Chuyển vế p để ta có xác suất Y = 1: 𝑝= 𝑏𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 = 𝛽 +𝛽 𝑥 +𝛽 𝑥 −(𝛽 +𝛽1 𝑥1 +𝛽2 𝑥2 ) 1 2 𝑏 +1 1+ 𝑏 = 𝑆𝑏 (𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ) Trong đẳng thức thứ hai theo sau cách chia tử số mẫu số phân số cho 𝑏𝛽0 +𝛽1𝑥1 +𝛽2 𝑥2 𝑆𝑏 hàm Sigmoid với số b 1.1.3 Hàm Sigmoid Hàm sigmoid hàm toán học có đường cong hình chữ "S" đường cong sigmoid đặc trưng 1.1.4 Hàm mát phương pháp tối ưu Hàm logistic hàm sigmoid, nhận đầu vào thực tế xuất giá trị từ đến [2] Đối với logic, điều hiểu lấy tỷ lệ logic đầu vào có xác suất đầu Hàm logic tiêu chuẩn: 𝜎: ℝ → (0,1) định nghĩa sau: 𝑒𝑡 𝜎 (𝑡 ) = 𝑡 = 𝑒 +1 + 𝑒 −𝑡 1.2 Support Vector Machine SVM (Support Vector Machine) thuật tốn học máy có giám sát sử dụng phổ biến ngày toán phân lớp (classification) hay hồi qui (Regression) Ý tưởng SVM tìm siêu phẳng (hyper lane) để phân tách điểm liệu Siêu phẳng chia không gian thành miền khác miền chứa loại liệu 1.2.1 Giới thiệu Trong không gian chiều, ta biết khoảng cách từ điểm có toạ độ (𝑥0 , 𝑦0 ) tới đường thẳng có phương trình 𝑤1 𝑥 + 𝑤2 𝑦 + 𝑏 = xác định bởi: |𝑤1 𝑥0 + 𝑤2 𝑦0 + 𝑏| √𝑤12 + 𝑤22 Trong không gian chiều, khoảng cách từ điểm có toạ độ (𝑥0 , 𝑦0 , 𝑧0 ) tới mặt phẳng có phương trình 𝑤1 𝑥 + 𝑤2 𝑦 + 𝑤3 𝑧 + 𝑏 = xác định bởi: |𝑤1 𝑥0 + 𝑤2 𝑦0 + 𝑤3 𝑧0 + 𝑏| √𝑤12 + 𝑤22 + 𝑤32 Hơn nữa, bỏ trị tuyệt đối tử số, xác định điểm nằm phía đường thẳng xét Những điểm làm cho biểu thức trị tuyệt đối mang dấu dương nằm 1, điểm làm cho biểu thức dấu giá trị tuyệt đối mang dấu âm nằm phía lại Những điểm nằm đường thẳng làm cho tử số có giá trị 0, tức khoảng cách Việc tổng quát lên không gian nhiều chiều: Khoảng cách từ điểm (vector) có toạ độ 𝑥0 tới siêu mặt phẳng (hyperplane) có phương trình 𝑤 𝑇 𝑥 + 𝑏 = xác định bởi: 𝑤 𝑇 𝑥0 + 𝑏 ||𝑤||2 Với ||𝑤||2 = √∑𝑑𝑖=1 𝑤𝑖2 với 𝑑 số chiều khơng gian Giả sử có hai lớp khác mô tả điểm không gian nhiều chiều, hai lớp phân tách tuyến tính, tức tồn siêu phẳng phân chia xác hai lớp Hãy tìm siêu mặt phẳng phân chia hai lớp đó, tức tất điểm thuộc lớp nằm phía siêu mặt phẳng ngược phía với tồn điểm thuộc lớp cịn lại Thuật tốn Perceptron Learning Algorithm (PLA) [15] làm việc cho vơ số nghiệm Hình 1.2 Vấn đề đặt là: vô số mặt phân chia, đâu mặt phân chia tốt theo tiêu chuẩn đó? Trong đường thẳng minh họa Hình 1.8 phía trên, có hai đường thẳng lệch phía lớp hình trịn đỏ Điều khiến cho lớp màu đỏ khơng thõa mãn bị lấn nhiều Liệu có cách để tìm đường phân chia mà hai lớp cảm thõa mãn hay khơng? Hình 1.2: Các mặt phân cách hai lớp[1] 1.2.2 Độ rộng margin Nếu ta định nghĩa độ thõa mãn lớp tỉ lệ thuận với khoảng cách gần từ điểm lớp tới đường/mặt phân chia, Hình 1.2 trái, lớp trịn đỏ khơng thõa mãn đường phân chia gần lớp vng xanh nhiều Chúng ta cần đường phân chia cho khoảng cách từ điểm gần lớp (các điểm khoanh tròn) tới đường phân chia Khoảng cách gọi margin 21 14 DOANHTHU 15 TIENNO 16 SOTHANG_NO 17 GOI_DADV 18 SOLAN_BAOHO NG 19 TONG_KHAOSA T 20 SOLAN_HAILON G Doanh thu phát sinh Tiền nợ khách hàng tính đến 30/11/2021 Tổng số tháng nợ khách hàng Khách hàng sử dụng gói tích hợp nhiều dịch vụ riêng lẻ Số lần báo hỏng khách hàng 06 tháng gần Số lần khảo sát mức độ hài lòng khách hàng 06 tháng gần Tổng số lần hài lịng khách hàng gói dài ngày 0: Khách hàng trả hàng tháng Số nguyên Số nguyên Số nguyên 1: Tích hợp 0: Riêng lẻ Số nguyên Số nguyên Số nguyên 22 22 LOAI_KH 23 TEN_QUAN Tổng số lần khơng hài lịng khách hàng Loại khách hàng Khách hàng Cá nhân Khách hàng doanh nghiệp Huyện/Thành phố 24 TEN_PHUONG Phường/xã 25 LOAI_KV 26 KHONG_PSLL 27 TRANGTHAITB_ ID 21 SOLAN_KO_HAI LONG Số nguyên 1: KHDN 0: KHCN Chuỗi Chuỗi 1: Khu vực loại 2: Khu Xếp loại khu vực vực loại 3: Khu vực loại Th bao ngày Có: khơng phát sinh Khơng: lưu lượng 1: Hoạt động bình thường Trạng thái thuê 5: Khóa bao sử dụng dịch chiều vụ nợ cước 6: Tạm ngưng 23 theo yêu cầu 7: Thanh lý theo yêu cầu 9: Thanh lý cưỡng 1: Rời mạng Khách hàng có rời 0: 28 ROIMANG mạng hay khơng Khơng rời mạng Từ bảng liệu 3.1 tiến hành làm liệu cách loại bỏ dòng liệu có trường trống NULL, trường liệu bất thường nợ ghi nhận âm… Loại bỏ số trường mang tính bảo mật người dùng: họ tên, địa chỉ, mã thuê bao Tiến hành chuyển đổi kiểu liệu từ dạng chữ (chuỗi) sang dạng số cách mã hóa kí tự số Bảng 3.2: Mô tả liệu sau thực làm Kiểu STT Trường liệu Mô tả liệu Thuê bao Số THUEBAO_ID ID nguyên cho 24 TOCDOTHUC SOTHANG_SD 11 SONGAY_KHOA 13 TRATRUOC thuê bao Tốc độ Internet Số tháng sử dụng dịch vụ tính đến 31/12/2021 tính đến ngày hủy dịch vụ Số ngày dịch vụ bị ngắt quãng 06 tháng gần Hình thức tốn khách hàng Số nguyên Số nguyên Số nguyên 1: Khách hàng đăng ký gói dài ngày 0: Khách hàng trả hàng tháng 25 14 15 16 17 18 21 22 Doanh thu phát sinh Tiền nợ khách TIENNO hàng tính đến 30/11/2021 Tổng số tháng nợ SOTHANG_NO khách hàng Khách hàng sử dụng gói GOI_DADV tích hợp nhiều dịch vụ riêng lẻ Số lần báo hỏng khách SOLAN_BAOHONG hàng 06 tháng gần Tổng số lần không SOLAN_KO_HAILONG hài lòng khách hàng Loại khách LOAI_KH hàng DOANHTHU Số nguyên Số nguyên Số nguyên 1: Tích hợp 0: Riêng lẻ Số nguyên Số nguyên 1: KHDN 26 Khách hàng Cá nhân Khách hàng doanh nghiệp 25 LOAI_KV 26 KHONG_PSLL 27 ROIMANG Xếp loại khu vực 0: KHCN 1: Khu vực loại 2: Khu vực loại 3: Khu vực loại Thuê bao ngày Có: khơng phát Khơng: sinh lưu lượng 1: Rời Khách mạng hàng có rời 0: mạng hay Không không rời mạng Thu kết dạng mã hóa sau: 27 Hình 3.3: Kết làm liệu Sử dụng hàm fit_stransform để chuyển đổi liệu dạng số nguyên như: tốc độ, số ngày khóa, doanh thu, tiền nợ, số tháng nợ, số lần báo hỏng, số lần khơng hài lịng, số tháng sử dụng Hình 3.4: Scaling liệu Sử dụng thư viện RFECV để tính độ tương quan trường liệu tập liệu Hình 3.5: Tính toán mức độ tương quan trường liệu 28 Kết ta thu số lượng trường liệu lựa chọn bao gồm: Tốc độ, Số ngày khóa, Doanh thu, Tiền nợ, Số tháng nợ, Số lần báo hỏng, Số lần khơng hài lịng, Loại khách hàng Hình 3.6: Các trường liệu lựa chọn 3.2 Thư viện Scikit-learn Scikit-learn (Sklearn) thư viện mạnh mẽ dành cho thuật toán học máy viết ngôn ngữ Python Thư viện cung cấp tập cơng cụ xử lý tốn machine learning statistical modeling gồm: classification, regression, clustering, dimensionality reduction Thư viện cấp phép quyền chuẩn FreeBSD chạy nhiều tảng Linux Scikit-learn sử dụng tài liệu để học tập 3.3 Tiến hành thực dự đoán liệu Thực nghiệm liệu thực tế với mơ hình dự báo như: Logistic Regression Classification, SVM Classification, Random Forest Classification, Decision Tree Classification, Naive Bayes Classification Thu thập, đánh giá kết lựa chọn mơ hình tối ưu 29 3.3.1 Dự đốn mơ hình LR Bảng 3.4: Kết dự đốn mơ hình LR Lớp dự đoán (predicted class) Lớp thực tế (actual class) Đúng Đúng Sai TP = 30000 FN = 74 Sai FP = 231 TN = 596 𝑇𝑃 + 𝑇𝑁 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = 0.9901 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 3.3.2 Dự đoán SVM Bảng 3.5: Kết dự đoán SVM Lớp dự đoán (predicted class) Lớp thực tế (actual class) Đúng Sai Đúng TP = 30000 FN = 100 Sai FP = 108 TN = 719 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9933 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 3.3.3 Dự đoán Random Forest Bảng 3.6: Kết dự đoán Random Forest Lớp dự đoán (predicted class) Lớp thực tế (actual class) Đúng Sai Đúng TP = 30000 FN = 89 Sai FP = 97 TN = 730 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9940 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 30 3.3.4 Dự đoán Decision Tree Bảng 3.7: Kết dự đoán Decision Tree Lớp dự đoán (predicted class) Lớp thực tế (actual class) Đúng Sai Đúng TP = 30000 FN = 98 Sai FP = 128 TN = 699 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 = 0.9927 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 3.1 Kết dự đoán đánh giá 3.4.1 Độ xác thuật tốn Cách đơn giản hay sử dụng accuracy (độ xác) Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Giả sử ta có tốn phân lớp với đầu lớp Đúng/Sai, kết phân lớp tập mẫu so với thực tế có khả thể hiện… Bảng gọi ma trận sai số (confusion matrix) Bảng 3.8: Bảng ma trận sai số Lớp dự đoán (predicted class) Lớp thực tế (actual class) Đúng Sai Đúng True Positive (TP) False Positive (FP) Sai False Negative (FN) True Negative (TN) 31 True Positive thể khả dự đoán phân lớp phân lớp mẫu dự đoán thuộc phân lớp Đúng, False Positive thể khả dự đoán phân lớp sai mẫu dự đoán thuộc phân lớp Đúng False Negative thể khả dự đoán phân lớp phân lớp mẫu dự đoán thuộc phân lớp Sai, True Negative thể khả dự đoán phân lớp sai mẫu dự đoán thuộc phân lớp Sai Ta có độ đo đánh giá hiệu kết phân lớp sau: Bảng 3.9: Cách tính độ xác Tên độ đo Độ xác Cơng thức 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑇𝑃 + 𝑇𝑁 = 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Diễn giải Tỷ lệ mẫu phân lớp toàn tập mẫu 3.4.2 Kết dự đoán đánh giá Bảng 3.10: Kết dự đốn mơ hình Mơ hình Độ xác Thời gian(s) Logistic Regression 0.9901 0.821 SVM 0.9933 80.706 Random Forest 0.9940 3.357 Decision Tree 0.9927 0.334 32 Hình 3.7: Biểu đồ so sánh độ xác thuật toán phân lớp Bảng 3.7 kết dự đoán mơ hình dựa độ đo trình bày mục 3.1 Từ kết dự đốn thấy mơ hình cho kết sấp xỉ khơng chênh lệch q nhiều Trong đó, mơ hình sử dụng Random Forest cho kết tốt tập liệu so với mơ hình cịn lại 33 Hình 3.8: Biểu đồ so sánh thời gian huấn luyện thuật toán phân lớp (đơn vị giây) Qua ta nhận thấy mơ hình sử dụng thuật toán RF cho kết tối ưu độ xác, cịn thuật tốn DT cho kết tối ưu thời gian thực thi Do giải tốn dự đốn số khách hàng rời mạng theo tháng, quý năm cho tập liệu Internet cáp quang VNPT Tây Ninh, ta tiến hành sau: − Đối với tập liệu khách hàng lớn, đòi hỏi phải tối ưu thời gian thực thi, áp dụng thuật toán Decision Tree cho toán dự đoán tập khách hàng có nguy cao − Đối với tập khách hàng vừa nhỏ, đòi hỏi phải tối ưu độ xác, áp dụng thuật tốn Random Forest cho toán dự đoán tập khách hàng có nguy cao 34 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Thông qua đề tài nghiên cứu, luận văn đề xuất thực nghiệm mơ hình dự đốn tập khách hàng có nguy cao dựa liệu người dùng thực tế Từ giúp cho đơn vị chủ động cơng tác chăm sóc khách hàng định hướng phát triển dịch vụ 1.1 Về mặt lý thuyết Khai thác mơ hình liệu khách hàng có nguy cao để xây dựng mơ hình phát cảnh báo nguy rời mạng Ứng dụng Trí tuệ nhân tạo (AI), Machine Learning, thuật toán học máy phương pháp khai phá liệu vào việc phát khách hàng có nguy cao Khai thác thuật toán phân lớp liệu, cụ thể mơ hình LR, SVM, RF, Cây định… Thực nghiệm ứng dụng thực tế, thu thập kết đánh giá thuật toán tối ưu cho toán Ứng dụng thư viện scikit-learn tảng python vào việc nghiên cứu vấn đề học máy, sử dụng tham số để tối ưu mơ hình dự đoán 1.2 Về mặt thực tiễn Luận văn đưa giải pháp phát khách hàng có nguy cao cảnh báo sớm cho đơn vị dựa vào liệu lưu trữ hệ thống Việc làm tiền đề để xây dựng công cụ cảnh báo khách hàng có nguy cao phục vụ cho việc chăm sóc lơi kéo khách hàng tương lai, thay cho công tác vận hành nhân công đơn vị 35 Xây dựng mô hình dự đốn khách hàng nguy cao, phân tích đánh giá mơ hình xây dựng để hiểu rõ cách thức hoạt động thuật toán khai phá liệu Hạn chế Do liệu thực tế có chênh lệch lớn số lượng thuê bao lý số lượng thuê bao hữu, dẫn đến kết mơ hình chưa cao chưa bao quát hết trường hợp Dữ liệu mẫu cần training mở rộng môi trường áp dụng Các trường hợp phân loại sai nhiều dẫn đến việc nhắm mục tiêu khách hàng có nguy cao chưa thật chuẩn xác Mơ hình dự đốn luận văn cịn mức bản, chưa phân tích sâu vào tham số để phù hợp với mơ hình liệu thực tế Hướng phát triển Tập trung nghiên cứu rút trích đặc trưng thuộc tính phù hợp cho q trình phân tích, tăng độ xác việc dự đốn tập khách hàng có nguy cao Nghiên cứu mơ hình dự đốn để cải thiện mơ hình dự đốn tốt Nghiên cứu áp dụng mơ hình phân loại kết hợp để tìm kiếm mơ hình tối ưu phù hợp với liệu thực tế đơn vị Tiến hành áp dụng VNPT Tây Ninh Cảnh báo sớm nhóm khách hàng có nguy cao, góp phần hỗ trợ cơng tác chăm sóc lơi kéo khách hàng tiến hành nhanh hiệu Từ đó, góp phần thúc đẩy hiệu kinh doanh đơn vị