HUFLIT Journal of Science CASE STUDY Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER Võ Đức Vinh1, Trân Văn Lăng2’*1VNPT Đồng Nai2 Trường Đại học Ngoại ngữ Tin học TP HCM vdvinh dni@vnpt vn, langtv[.]
I I HUFLIT Journal of Science CASE STUDY Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER Võ Đức Vinh1, Trân Văn Lăng2’* 1VNPT Đồng Nai Trường Đại học Ngoại ngữ -Tin học TP.HCM vdvinh.dni@vnpt.vn, langtv huflit.edu.vn TĨM TĂT— Bài báo trình bày áp dụng cơng cụ lĩnh vực học máy thuật toán định để xây dựng mơ hình phân tích liệu dự báo sớm thuê bao rời mạng Mô hình sử dụng nguồn liệu lịch sử thuộc tính nguyên nhân gây rời mạng thuê bao VNPT Đồng Nai Kết dự báo khách hàng có khả rời mạng cao với tỉ lệ xác dự báo mơ hình so với số liệu thực tế cao Từ khóa— Học máy, định, khách hàng thuê bao, mạng viễn thông I GIỚI THIỆU Thuê bao rời mạng vấn đề "đau đầu" nhà mạng nước giới lẽ khách hàng (thuê bao) người mang lại doanh thu trì hoạt động nhà mạng Để trì phát triển hoạt động kinh doanh mình, nhà mạng phải tìm cách để phát triển thuê bao đồng thời phải tìm cách để trì hoạt động thuê bao hữu Tổng chi phí để phát triển thuê bao cao nhiều so với việc trì thuê bao hữu Để phát triển thuê bao khoản chi phí phải tốn: • • • • Chi phí nhân cơng: 50.000/th bao; Dây th bao: Đơn giá * chiều dài mét dây bình quân theo định mức = 900 * 150 = 135.000 VNĐ; Modem: 900.000 VND Tổng chi phí cho thuê bao phát triển khoảng: 1.085.000 VNĐ Trong việc thực sách khuyến giảm giá cước khách hàng sử dụng lâu năm (VD: giảm giá cước kỳ hoá đơn tháng sau liền kề ) nhằm mục đích giữ chân khách hàng hữu khỏi phải khoản hao hụt chi phí trên, tạo niềm tin khách hàng Bên cạnh đó, doanh thu từ thuê bao hữu (đặc biệt thuê năm) cao nhiều so với doanh thu thuê bao (theo thống kê sổ liệu VNPT Đồng Nai, thuê năm có doanh thu trung bình cao so th bao mới: doanh thu bình quân thuê bao trước ngày 31/12/2020 169.952 VNĐ, thuê bao phát triển năm 2021 123.485 VNĐ) Chính lý trên, nhà mạng giới khơng ngừng tìm kiếm giải pháp nghiên cứu phát triển ứng dụng để xác định, dự đoán sớm thuê bao có khả rời mạng để có biện pháp kịp thời tác động nhằm trì th bao hoạt động Ngày nay, thị trường viễn thơng tồn giới phải đối mặt với doanh thu nghiêm trọng cạnh tranh gay gắt khách hàng tiềm Để giữ lợi cạnh tranh có nhiều khách hàng tốt, hầu hết nhà khai thác đầu tư khoản chi khổng lò để mở rộng hoạt động kinh doanh họ Do đó, việc giữ chân khách hàng tiềm (khách hàng hữu) trở nên quan trọng nhà khai thác để thu lại số tiền đằu tư đạt lợi nhuận khoảng thời gian ngắn Việc khách hàng ngừng sử dụng dịch vụ công ty khoảng thời gian định chuyển sang nhà mạng khác định nghĩa khách hàng rời mạng [1], Các công ty ln muốn có thêm nhiều khách hàng tốt Mặc dù vậy, qua thời gian, tỷ lệ khách hàng mới/ khách hàng rời mạng có xu hướng tiến tới Vì vậy, tác động khách hàng rời mạng ngày trở nên mạnh mẽ cần quan tâm Việc rời mạng thường gắn liền với vòng đời ngành, ngành giai đoạn phát triển, việc bán hàng tăng trưởng bùng nổ, số khách hàng vượt xa số khách hàng rời mạng, giai đoạn bão hịa, cơng ty tập trung vào việc giảm tỉ lệ rời mạng Thời điểm khách hàng rời mạng cho biết khách hàng gắn bó với cơng ty bao lâu, giá trị vòng đời khách hàng (CLV) cơng ty CLV tính tổng doanh thu mà Cơng ty thu từ khách hàng suốt vịng đời khách hàng trừ tổng chi phí thu hút khách hàng, bán hàng, dịch vụ khách hàng (quy tiền) Các nghiên cứu trước đưa khái niệm khách hàng rời mạng từ nhiều quan điểm khác Theo Olafsson, Li, Wu [3], có loại rời mạng khác Loại thứ rời mạng chủ động (nghĩa khách hàng * Coressponding Author T.V.K.H & C.N.Q.G SÔJĐẶNG KÝ Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER chủ động chọn dừng sử dụng dịch vụ] Loại thứ hai rời mạng bị động (nghĩa khách hàng không cịn khách hàng tốt cơng ty lựa chọn dừng mối quan hệ này) Burez Van den Poel [2] chia rời mạng chủ động thành nhóm: Rời mạng vấn đề thương mại rời mạng vấn đề tài Rời mạng vấn đề thương mại trường hợp khách hàng không gia hạn hợp đồng có thời hạn cố định họ hợp đồng hết hạn Rời mạng vấn đề tài trường hợp khách hàng ngừng tốn trình thực hợp đồng mà họ bị ràng buộc Ngày nay, khách hàng rời mạng trở thành vấn đề quan tâm cơng ty tất lĩnh vực công ty buộc phải hành động để xử lý vấn đề Xem xét tỷ lệ rời mạng ngành khác nhau, nhận thấy ngành viễn thơng ngành có tỉ lệ rời mạng cao với tỉ lệ rời mạng trung bình hàng năm từ 20% đến 40% Khách hàng rời mạng lĩnh vực viễn thông hiểu khách hàng chuyển từ nhà cung cẩp sang nhà cung cấp khác Có cách tiếp cận đổi với việc quản lý rời mạng Cách tiếp cận thứ tiếp cận khơng có mục tiêu dựa vào sản phẩm trội truyền thơng rộng rãi để tăng lịng trung thành trì khách hàng Cách tiếp cận thứ hai tiếp cận có mục tiêu dựa vào việc xác định khách hàng có khả rời mạng, sau cung cấp cho họ giá trị khuyến khích trực tiếp (khuyến mại) tạo gói dịch vụ phù hợp cho khách hàng để giữ họ lại Cách tiếp cận có mục tiêu gồm loại: bị động chủ động Với cách tiếp cận bị động, công ty chờ khách hàng liên hệ với công ty để hủy dịch vụ, cơng ty sau đưa cho khách hàng sách khuyến khích, ví dụ khuyến mại giảm giá, để giữ khách hàng lại Với cách tiếp cận chủ động, công ty cố gắng xác định khách hàng có khả rời mạng thời gian ngắn tiểp theo Sau đó, cơng ty thực chương trình sách đặc biệt để giữ cho khách hàng không rời mạng Cách tiếp cận chủ động có lợi ích chi phí khuyến khích thấp (bởi phần khuyến khích khơng cần thiết phải cao thời điểm khách hàng định rời mạng rồi) khách hàng khơng chuẩn bị sẵn để thương lượng có mức khuyến khích tốt với lý rời mạng Tuy nhiên, cách tiếp cận gây lãng phí việc dự đốn rời mạng khơng xác, sau cơng ty phải lãng phí lượng lớn chi phí để khuyến khích khách hàng thực tế lại với mạng Để giải vấn đề này, nhiều nỗ lực thực để có nhìn xác rời mạng Nhìn chung, nghiên cứu lĩnh vực tập trung mục đích sau: tìm nhân tố ảnh hưởng đến khách hàng rời mạng, xây dựng mô hình cho việc dự đốn khách hàng rời mạng Hiện nay, lĩnh vực phát triển dịch vụ FiberVnn nước có ba nhà mạng viễn thơng lớn đầu tư lĩnh vực Tập đồn bưu viễn thông Việt Nam "VNPT", Công ty viễn thông FPT, Công ty viễn thông Viettel Theo số liệu Cục viễn thông công bố thị phần đến cuối năm 2021, thị phần internet cáp quang VNPT đứng thứ chiếm 32,31% thị phần, đứng thứ Viettel chiếm 48,96%, FPT chiếm 18,5% thị phần lại doanh nghiệp khác Do việc canh tranh thu hút khách hàng việc phát triển thuê bao giữ chân khách hàng nhà mạng cạnh tranh ngày trở nên liệt Tuy nhiên, toán dự báo khách hàng rời mạng Viễn thông tỉnh, thành phố khác xây dựng đưa vào sử dụng chủ yếu phân tích dự báo dịch vụ di động chưa áp dụng cho dịch vụ Fiber Hiện tại, Viễn thơng Đồng Nai thực phân tích số liệu để lọc danh sách khách hàng sử dụng dịch vụ Fiber có khả rời mạng cao chủ yếu dựa vào tiêu báo cáo thống kê từ hệ thống điều hành sản xuất kinh doanh, hệ thống BI cũ dẫn đến việc dự báo số liệu không nhanh chóng, xác nhiều thời gian Xuất phát từ khó khăn yêu cầu đặt đổi với đơn vị mình, nhóm đề tài nghiên cứu xây dựng hệ thống sở liệu khách hàng, tập hợp lịch sử thuộc tính nguyên nhân ảnh hưởng đến rời mạng khách hàng (Ví dụ: độ hài lịng khách hàng công tác lắp đặt sửa chữa; việc khách hàng thực toán hạn; độ ổn định phục vụ dịch vụ nhà mạng ) áp dụng kỹ thuật máy học vào việc phân tích liệu khách hàng rời mạng từ dự báo thuê bao sử dụng có khả rời mạng cao II PHƯƠNG PHÁP THỰC HIỆN Trong báo này, phương pháp thực toán dự báo thuê bao rời mạng thuật toán định tăng cường hai lớp nguồn số liệu thực tế VNPT Đồng Nai Tập liệu mẫu dùng để huấn luyện tập liệu lịch sử thuộc tính nguyên nhân gây ảnh hưởng đển việc rời mạng khách hàng lưu trữ trích xuất đến tháng 12/2020 238.700 thuê bao sử dụng rời mạng VNPT Đồng Nai, bao gồm 14 cột 13 cột đầu bao gồm thuộc tính ảnh hưởng đến rời mạng thuê bao, cột 14 cột Churn (thanhly), cột cột gắn nhãn tập liệu, cột để nhận biết th bao có ý định rời mạng hay khơng Vo Due Vinh, Tran Van Lang Các thuộc tính sử dụng tập liệu huấn luyện: • • • • • • • • • • • • • • Khu Vực (khuvuc.id): địa bàn (ấp, xã, khu phố, xã phường ) huyện quản lý thuê bao Đối tượng (phanloaikhjd): đối tượng phân loại khách hàng (cá nhân, doanh nghiệp, hành nghiệp, trường học ) Số lần báo hỏng (solan_bh): Số lần thuê bao báo hỏng cố (đứt cáp, khơng tín hiệu, mạng chập chờn ) Số lần gọi kiểm (solan_gk): số lãn phận chăm sóc khách hàng thực gọi kiếm để khảo sát dịch vụ đường truyền việc lắp đặt sửa chữa Sơ' lần gọi kiểm hài lịng (solan_gk_hl): Số lần khách hàng trả lời hài lòng gọi kiểm Số lần gọi kiểm không hài long (solan_gk_khl): Sổ khách hàng trả lời hài khơng lịng gọi kiểm Số lần tạm ngưng (solan_td): số lần khách hàng xin tạm ngưng bị tạm ngưng sử dụng dịch vụ (do yêu cầu nợ cước ) Số tháng sử dụng (sothang_sd): Tuổi đời sử dụng khách hàng Giá cước (gia_cuoc): Giá gói cước khách hàng đăng ký sử dụng trọn gói tháng Khơng phát sinh lưu lượng (kpsll): số ngày không phát sinh lưu lượng thuê bao tháng trước liền kề Số Tân gia hạn đặt cọc (solan_gh_datcoc): sỗ lần thuê bao thực gia hạn đặt cọc trả trước hết tiền đặt cọc Số tháng sử dụng hết đặt cọc (sothang_sd_hetdc): số tháng khách hàng sử dụng tiếp sau hết tiền đặt cọc (chuyển qua hình thức trả sau) Điểm tín nhiệm (diemtinnhiem): số điểm tính nhiệm đánh giá khách hàng (Các tiêu chí đánh giá: thời gian sử dụng dịch vụ, giá gói cước dịch vụ, tốn tiền hạn ) Thanh lý (thanhly): Trạng thái thuê bao cịn sử dụng lý Mơ hình dự báo thực hai phương pháp: A PHƯƠNG PHÁP Phương pháp thực dự liệu thô ban đầu chưa qua bước tiền xử lý chuẩn hoá liệu, bao gồm 13 thuộc tính tập danh sách 238.700 khách hàng lưu trữ dạng file CSV (mau_train.csv), tỉ lệ số khách hàng dán nhãn (0:1) Bảng Bảng Bảng tì lệ số khách hàng dán nhãn (0:1) chưa thực tiên xử lý Tổng số record Tổng số gán nhãn (0) Tỉ lệ Tổng số gán nhãn (1) 238700 171.561 71.87% 67139 Tỉ lệ 28.13% Bảng Bảng tập liệu chưa chuẩn hoá khuvuejd phanloaikhid solan_bh solan_gk solan_gk_hl solan_gk_khl solan_td sothang_sd muccuoctb id kpsll solan gh datcoc sothang sd hetdc diemtinnhiem thanhly 432 15| 0] 0 130817 0 50 528 15 2 0 130817 0 50 391 15 1 0 120000 0 50 366 15 1 0 120000 0 50 0 542 15 0 171818 0 50 525 15 0 130817 0 50 371 1 0 190909 0 54s 516 15 0 0 0 50 o 1 ữ 16 512 199091 0 50 391 1 0 327273 0 0 418 15 1 0 0 0 46 389 15 0 120000 0 50 606 15 0 130817 0 50 613 15 1 157181 0 50 502 15 2 0 171818 0 50 353 15 1 0 0 0 46 406 15 0 0 171818 0 45 601 15 0 0 10 130817 0 55 601 15 0 0 10 130817 0 55 601 15 1 0 10 130817 0 55 601 15 0 0 10 171818 0 55 563 15 0 171818 0 50 447 15 1 0 0 46 526 15 1 157272 0 50 420 15 1 0 171818 0 46 466 15 1 0 120000 0 46 406 1 0 645455 0 74 351 15 2 0 199090 0 50 15J _ _ — —547 1 _ 171818 _ ŨL L _ Q 46 .0 Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER Để thực huấn luyện mơ hình chúng tơi sử dụng phần mềm Microsoft Azure (Machine Learning) với bước thao tác sau: • Bước 1: Thực upload file liệu mẫu huấn luyện (mau_train_l.csv) Chọn tab "Datasets": nơi dùng để lưu trữ quản lý liệu Sau hoàn tất thực upload file ta thấy xuất file Hình 1: datasets MY DATASETS SAMPLES NAME SUBMITTED BY trau_trair_1.cr vd'/rh.an DESCRIPTION Hình • DATATYPE CREATED GerericCSV 10/15/2021 1:26:19 PM ị SIZE 9.25 MB Vùng chứa Datasets Bước 2: Chọn Tab "Experiments”: Có chức để thực xây dựng mơ hình Tại bước ta thực kéo thả trình tự cơng cụ dựng sẵn cài đặt cấu hình cho thành phần: Datasets "mau_train_2”: Quản lý tập liệu mẫu Select Column in Dataset: Có tính để chọn thuộc tính để huấn luyện Edit Metadata module: Có tính xử lý liệu bị lỗi Split Data: Có tính chia tập liệu mẫu thành hai tập liệu dùng để huấn luyện liệu kiểm tra mẫu (mặc định cài đặt 80:20) Two-Class Boosted Decision Tree module: Thuật toán định tăng cường hai lớp phương pháp học tổng hợp, thứ hai sửa lỗi cho Dự đốn dựa tồn nhóm đưa dự đoán Cây định tăng cường hai lớp thuật toán dễ dàng đạt hiệu tốt toán dự báo Train Model: Thực huấn luyện mơ hình Score Model: Đánh giá mơ hình dự báo Evaluate Model: Kết suất giá trị mơ hình Sau thực kết nối cài đặt cấu hình cho thành phần ta có mơ hình huấn luyện Hình Hình Mơ hình huấn luyện cài đặt cấu hình kết nối • Bước 3: Thực lưu trữ phàn cài đặt, chạy huấn luyện mơ hình kết tiêu dự báo mơ Hình Vo Due Vinh, Tran Van Lang True Positive False Negative Accuracy Precision False Positive True Negative Recall Fl Score 354 33968 0.960 0.966 Positive Label Negative Label Threshold AUC 0.5 0.995 Hình Kết chl số mơ hình huấn luyện B PHƯƠNG PHÁP 2: Phương pháp thực chuẩn hoá lại liệu huấn luyện mẫu ban đầu trước huấn luyện mơ hình Chúng ta thực giai đoạn sau: Giai đoạn 1: Tiền xử lý liệu Theo liệu thu thập mẫu ban đầu có tổng số thuê bao 238.700 với tổng thuê bao dán nhãn "0” 171.561: 71.87% tổng thuê bao dán nhãn "1" 67.139: 28.13% tạo cân liệu dẫn đển mơ hình dự đoán nghiên vè trường hợp thuê bao sử dụng nhiều Để xử lý việc cân liệu phải cập nhật dán nhãn "1" lại cho thuê bao xem có nguy rời mạng cao cách dựa vào số liệu thống kê cho tình sau: • • • • Số lẫn tạm ngưng >=3 lần (thuê bao có nợ cước >=3 lần nguy rời mạng cao) Điểm tính nhiệm 300.000 (khách hàng sử dụng ngắn hạn nguy rời mạng cao) Thuê bao có số lần báo hỏng >3 số tháng sử dụng >24 (khách hàng khơng hài lịng nhà mạng nguy rời mạng cao) Thuê bao có giá cước = (lỗi liệu) Sau cập nhật xử lý lại, tập liệu mẫu có tổng số thuê bao 238.700 với tổng thuê bao dán nhãn "0" 143.539 : 60% tổng thuê bao dán nhãn "1" 95.161: 40% Sử dụng kỹ thuật feature scaling để chuẩn hóa liệu cho giá trị feature thuộc [-1, 1] (Độ dốc gradient hội tụ nhanh khơng chuẩn hóa liệu) Ta sử dụng công thức feature scaling vào hàm tiền xử lý liệu: ,, Xi-Xmean Standard Deviation x_new = ———77——— Sau thực feature scaling ta nhận bảng kết Bảng Bảng Bảng liệu sau tiên xử lý khuvxK id 0.38124707 0.801261058 phanloaĩkh id solan bh solan gk solan gk hl 0.087897709 0.422304636 0.051016388 0.0B/89//99| 0.4/050/81/1 1.113326222 0.878182449 -O.R8fi?765R3 0.087897799 -0.422304636 0.051016388 1.19422140/ solan gk khl 0.389268579 solan td 0.364741604 sothang sd 272488711 gia c.uoc 0.096194075 kpsll solan ịậi datcoc sothang sd hetdr diemtinnhiem thanhly 0.084738899 0 0.006474812 l.&Qieớ2&08 -0.389268579 -0.364/41604 -1.272488/11 -0.0961940/5 -U.0B4/JB899 0.361710079 -0 3892G8579 -O.3647416O4 0.361/10079 0.3892685/9 o -1.272488711 -0.118667619 -0.084738899 1.ZZ248S711 0.11866761? 0.084/38899 0 -0.9064/4812 -0.90647481 ? o 0.08/897/99 0.422304636 O.Q07897799 -0.422304636 0.051016388 0.051016388 -0.878182449 -0.389268579 -0.364741604 -1.272488711 Ỡ -0.9064/4812 0.37371016 -0.01100985 -0.084738899 0 -0.906474812 0.764307679 0.087897799 -0.4?? 304636 0.051016.388 •0.878182449 -0.389268579 -0.364741604 -1.272488711 -Q.Ữ96194075 -0.084738899 0 -0.906-174812 O’ 1.132632443 3.966/36663 0.084/38899 0 0.583809832 0.653447542 0.087897799 -0.422304636 0.051016388 -0.878182449 -0.389268579 1.17918264 -1.272488711 -0.36798122 -0.084738899 0 -0.906474812 0.604176.37 0.6671.3129.3 -0.472304636 0.051016388 0.361710079 -0.389268579 -0.364741604 -1.272488711 0.045652899 -0.084 38899 0 -0.906474812 o 0.084/388'39 0 a 0.8862/6583 3.966/36663 0.422304636 0.051016388 0.422304636 ■ Ơ.O51016388 0.3617100/9 0.3617100/9 0.3892685/9 0.3892685/9 0.364/41604 1.2/2488/11 0.364/41604 1.2/2488/11 -1.272488711 0.028653866 0.311965533 4.939/8/06'3 -0.553696172 0.087897799 -0.422304636 0.051016388 0.361710079 -0.389268579 -O.3647416O4 -0.36798122 -0.084738899 0 -1.229139793 -0.910912169 0.087897799 -0.472304686 0 -0.90G474812 0- 0.051016388 0.361710079 -0.389268579 -0.364741604 -1.272488711 -0.118667619 -0.0847.38899 1./62048912 0.08/897/99 0.42230463b 0.051016388 0.8/8182449 0.3892685/9 0 0.9064/4812 O' 1.848273463 0.087897799 0.470507817 1.113326222 0.361710079 1.898733363 -0.364741604 -1.272488711 -0.041419877 ■0.084738899 0 -0.906474812 0.48099844 0.087897799 0.470507817 1.113326222 1.601602608 -0.3892G8579 -0.364741604 -l.?7?48871l -0.01100985 -0.084738899 0 -0.906474812 a 1.354352/16 0.08/89/799 0422304636 0.051016388 0.361/100/9 0.084/38899 0 1.229139/93 0- -0.01100985 -0.084738899 0 -1.729139793 0- 1.700459947 0.087897799 -0.422304636 -1.011293445 -0.878182449 -0.389268579 -0.364741604 -1.056601152 -0.096194075 -0.084738899 0 -0.503143586 O’ 1./00459947 0.08/89//99 0 0.503143586 0- -0.701509688 0.087897799 -0.477304636 -1.011293445 0.422304636 1.011293445 1.700459947 ị 1.700459947 0.087897799 -0.422304636 0.422304636 1.232383813 0.08/89/799 -0.422304636 -0.196480175 0.087897799 -0.422304636 0.087897799 0.3892685/9 0.364/41604 0.364741604 1.2/2488/11 1.2/2488/11 -0.878187449 -0.389768579 -0.364741604 -1.277488711 0-0961940/5 0.36/98122 0.084/38899 0.8/8182449 0.3892685/9 0.051016388 0.364/41604 1.056601152 0.0961940/5 0.084/38899 0.361710079 -0.389268579 -0.364741604 -1.056601152 -0.096194075 -0.084738899 1.011293445 0.878182449 0.389268579 0 -0.503143586 ữ 0.084738899 0 0.503143586 0- 0.051016388 -0.8/8182449 -0.389268579 -0.364741604 -1.2/2488/11 -0.01100985 -0.084/38899 0 -0.9064/4812 Ơ 0.051016.388 -0.878182449 1.89873336.3 -0.364741604 -1.272488711 -0.3679812? -0.084738899 0 -1.229139793 0.422304636 0.051016388 0.878182449 1.898733363 0.041230814 0.084738899 0 0.906474812 0- -0.529060586 0.08/89/799 -0.422304636 0.361/100/9 -0.3892685/9 -0.364741604 -1.2/2488/11 -0.01100985 -0.084/38899 0.361710079 -0.389768579 -0.364741604 -1.272488711 -0.118667619 ■0.084738899 -1.229139/93 O’ 0.087897799 -0.422304636 0.051016388 0.051016388 0.0375S789? 0 -1.229139793 O’ /01509688 3.966/36663 0.422304636 0.051016388 0.361/100/9 -1.378988302 0.087897799 0.470507817 1.113326222 0.0R7897799 -0.4 27 904636 0.051016.388 1.601602608 -0.389268579 -0.364741604 -1.272488711 0.361710079 -0.389268579 1.17918264 -1.272488711 0.776625472 0.97.371016 0.087897799 0.3892685/9 0.364741604 0.364741604 0.364741604 1.056601152 1.272488711 1.2/2488/11 0.01100985 0.9/3024/02 0.084/38899 0 1.0295150/1 ữ 0.045650821 -0.084738899 0 -0.906474812 a -0.01100985 -0.084738899 0 -1.229139793 0- Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER Giai đoạn 2: Rút trích liệu Có nhiều trường thơng tin liệu chiết xuất tổng hợp giai đoạn trước, giai đoạn rút trích số trường liệu định phục vụ cho việc giải toán Phần mềm Weka sử dụng đế trích chọn thuộc tính, nhằm mục đích loại bỏ thuộc tính dư thừa, thu gọn tập liệu mẫu, tạo tiền đề quan trọng cho cải tiến hiệu năng, tốc độ xử lý độ xác tập liệu đầu cho mơ hình định Trong Weka, đề tài sử dụng chức Attribute Elevator để thực lựa chọn thuộc tính thơng qua hai phương pháp cấu hình thực thi Weka Các bước thực hiện: • Bước 1: chọn tab "Select attributes": Đây cơng cụ có tính thực lựa chọn thuộc tính có ảnh hưởng đến tập liệu huấn luyện mẫu, tránh dư thừa thuộc tính tập liệu mẫu giúp cho mơ hình dự báo có độ xác tốt Hình Hình Lựa chọn thuộc tính WeKa Bước 2: Tuỳ thuộc vào giải thuật dự định chọn để sử dụng cho trình phân loại sau này, mà ta chọn giải thuật tương ứng để trích chọn thuộc tính Giải thuật "J48" Weka chọn, phương pháp phân lớp mô hình thay giải thuật C4.5 Việc tìm thuộc tính tốt cho q trình phân loại sau thể Hình I Classify Ị Cluster I Associate I Select attributes I Visualize I Q weka.aui.GeneneObjeetEditer weka nttnbuteSelecuon WrapperSubsetEvai WrapperSubsetEval Evaluates attribute sets by using a learning scheme IRCtassaValue classifier doNotChec kCapabilrties valuatlonMeasurc folds seed threshatd Evaluating on training data ị Capabilities : Vo Due Vinh, Tran Van Lang Hình Chọn giải thuật Weka Sử dụng phương pháp trích chọn thuộc tính ta thu tập liệu huấn luyện mẫu với thuộc tính chọn lọc có tác động đến liệu mẫu cho toán dự báo Chúng ta biết rằng, kết việc chọn thuộc tính phụ thuộc lớn vào tập huấn luyện (training dataset) Nếu sử dụng dataset khác thu thập tập thuộc tính khác có kết khác • Bước 3: Sau chọn phương pháp + giả thuật thực thi chương trình, kết cho thuộc tính quan trọng Hình 6: o Wcka Explorer I PreprrHieH-ĩ Ị danarfy I GIUHter Ị Aajwctirfe I Select attributes Ị Vtsuafcze I =kttribut» Evaluator Wrapp.rSubi.tEvil -P wwka la- Mf,ri> trees ,wn-F 5-T n 01 -R -C DrrAUlT -C n 75-M - Hình Kết chọn thuộc tính quan trọng Sau thực chuẩn hố trích lọc thuộc tính quan trọng, bảng liệu tập huấn luyện lưu trữ với tên file có định dạng CSV (mau_train_2.CSV) có thuộc tính (khuvuejd, phanloaikhjd, solan_gk, solan_gk_hl, solan_td, sothang_sd, gia_cuoc, diemtinnhiem, thanhly) Bảng 4: Bảng Bảng liệu mẫu huân luyện sau chuẩn hoá trích lọc thuộc tính khuvuejd 0.579540784 -0.024031073 1.170794848 phanloaikhjd solan_gk 0.087897799 solan_gk_hl solan_td sothang_sd 0.051016388 -0.878182449 -0.364741604 -1.200526192 gĩa_cuoc dĩemtĩnnhiem thanhly -0.01100985| -0.906474812] 0.706850091 0 0.667131293 -1.011293445 -0.878182449 -0.364741604 1.03031192 -0.01100985 0.667131293 -1.011293445 -0.878182449 -0.364741604 1.318161999 -0.36798122 0.706850091 -3.966736663 -1.011293445 -0.878182449 0.868182581 0.051016388 O.14218Ỡ375 -0.800052032 0.087897799 0.087897799 1.17918264 0.022836644 0.338407318 0.36171OO79 -0.364741604 -O.624S2&034 -O.118ÕỠ7Ỡ15 0.142186375 0.60417637 0.087897799 0.051016388 0.361710079 -0.364741604 -1.272488711 -0.118667619 -0.906474812 -0.639920723 0.087897799 0.051016388 0.361710079 -0.364741604 -1.200526192 -0.041419877 -0.664476077 1.762048912 0.087897799 0.051016388 0.361710079 -0.364741604 -1.056601152 0.045652899 -0.341811096 -0.541378379 0.087897799 0.051016388 0.361710079 -0.364741604 0.310686723 -0.014786951 0.303518865 -0.295022519 0.087897799 0.051016388 0.361710079 -0.364741604 0.598536802 -0.0091213 0.5455176 0.85053223 0.087897799 0.051016388 -0.878182449 -0.364741604 -1.272488711 0.045652899 -1.551804773 -0.812369825 0.087897799 0.051016388 -0.36798122 -1.713137263 0.5455176 1.577282017 -1.539119611 1.113326222 -0.878182449 -0.364741604 -0.480900994 -0.118667619 0.361710079 -0.364741604 -1.344451231 0.554905198 0.087897799 -1.011293445 -0.878182449 -0.364741604 0.238724203 -0.014786951 -0.713827481 0.087897799 -1.011293445 -0.878182449 -0.364741604 0.454611762 0.026765316 0.5455176 -0.184162382 0.087897799 0.051016388 -0.878182449 -0.364741604 -0.768751073 -0.156064659 0.06152013 -0.787734239 0.087897799 0.051016388 0.361710079 -0.364741604 0.166761683 -0.014786951 0.5455176 0.653447542 0.667131293 0.051016388 0.361710079 -0.364741604 0.166761683 0.026765316 0.22285262 -0.824687618 0.087897799 0.051016388 0.361710079 -0.364741&04 -0.768751073 -0.096194075 0.142186375 -1.144950236 0.087897799 1.113326222 0.361710079 -0.364741604 0.814424361 -0.118667619 0.706850091 -0.38124707 0.087897799 0.051016388 -0.878182449 -0.364741604 0.598536802 -0.046896466 0.5455176 -0.01171328 0.087897799 -1.011293445 -0.878182449 -0.364741604 1.606012078 -0.056339218 1.190847562 Dự BÁO KHÁCH HÀNG THUÊ BAO RỜI MẠNG DỊCH vụ FIBER 10 Giai đoạn 3: Xây dựng huấn luyện mơ hình Thực bước 1, 2, giải pháp Ta kết số dự báo mơ Hình True Positive False Negative Accuracy Precision Threshold AUC 0.986 0.5 0.998 False Positive True Negative Recall F1 Score 263 28484 0.980 0.983 Positive Label Negative Label Hình Kết số mơ hình dự báo phương pháp Giai đoạn 4: Chuẩn bị số liệu để kiểm tra tỉ lệ dự báo mô hình với số liệu thực tế Dữ liệu dùng để kiểm tra mơ hình dự báo trích xuất từ liệu khách hàng sử dụng dịch vụ Fiber VNPT Đồng Nai tính đến tháng 1/2021 với tổng số thuê bao 165.000 thuê bao Dữ liệu trích xuất theo mẫu huấn luyện với thuộc tính thống kê bắt đấu từ năm 1/2015 đển 1/2021 III KẾT QUẢ THỬ NGHIỆM Cơng cụ sử dụng: • • Phần mềm WEKA (Phiên 3.9.5) sử dụng để thu giảm tập liệu huấn luyện Microsoft Azure (Machine Learning): Đăng ký tài khoản Free-WorkSpace (trả phí theo cấu hình CPU: 2.45$/giờ) A KẾT QUẢ CỦA HAI PHươNG PHÁP Để đánh giá mơ hình dự báo có độ xác tổt hay khơng, chúng c'ân xem xét sổ sau: Do yểu tô rời mạng quan trọng dự báo, nên Positive khả rời mạng • Precision: để đo độ xác (tỷ lệ phần trăm) việc dự đoán tất dự đoán khách hàng rời mạng (bao gồm dự đoán - true positive dự đoán sai false positive) Precision = TP+FP + TP (True Positive): Số th bao rời mạng mơ hình dự đốn + FP (False Positive): Số thuê bao rời mạng mô hình dự đốn sai • Recall: nhằm xác định tỷ lệ phần trăm việc dự đoán trong tất trường hợp thực tế khách hàng rời mạng (bao gơm dự đốn - true positive dự đoán sai - false negative) TP Recall = — TP+FN + TP (True Positive): Sô' thuê bao rời mạng mơ hình dự đốn + FN (False Negative): số th bao sử dụng mơ hình dự đốn sai • Accuracy: tỉ lệ phần trăm mơ hình dự đốn trong tất trường hợp khách hàng sử dụng rời mạng tập liệu kiểm thử Accuracy cao mơ hình dự đốn xác Accuracy^+ ;rN;-; + + TP (True Positive): số thuê bao rời mạng mơ hình dự đốn + FP (False Positive): số th bao rời mạng mơ hình dự đốn sai + FN (False Negative): Số thuê bao sử dụng mơ hình dự đốn sai Vo Due Vinh, Tran Van Lang 11 + TN (False Negative): Số thuê bao sử dụng mơ hình dự đốn • AUC (Area Under The Curve): tỉ lệ phần trăm mơ hình dự đoán tất trường hợp khách hàng rời mạng khách hàng sử dụng Đánh giá kết sau thực hai giải pháp cho ta thấy kết giải pháp tốt giải pháp 1, đồng nghĩa việc chuẩn hoá tiền xử lý liệu mẫu ban đầu rẩt quan trọng Giúp việc dự báo mô hình có kết tốt Bảng đánh giá số hai phương pháp Bảng Bảng Bảng đánh giá ch! tiêu hai phương pháp Phương pháp Accuracy Precision Recall AUC 0.982 0.974 0.961 0.995 0.987 0.986 0.980 0.998 0.005 0.012 0.019 0.003 Phương pháp 1: sử dụng tập liệu thô chưa thực cân liệu tập khách hàng gán nhãn (0:1) bị lệch lớn theo tỉ lệ (71.87% : 21.13%) chưa trích lọc thuộc tính quan trọng (13 thuộc tính) Phương pháp 2: tập liệu thực cân liệu tập khách hàng gán nhãn (0:1) theo tỉ lệ (60% : 40%) trích lọc thuộc tính quan trọng (8 thuộc tính) Tỉ lệ chênh lệch kết dự báo phương pháp B SO SÁNH VỚI Dữ LIỆU THỰC TẾ Kết dự báo mơ hình đối soát với số liệu thuê bao lý thực tế Viễn thông Đồng Nai qua tháng Bảng 6, biểu đồ dự báo thuê bao rời mạng Hình Bảng Bảng thống kê số liệu dự báo so với số liệu thực tế tháng Tháng Mơ hình dự đốn Thanh lý thực tế 1/2021 2/2021 3/2021 4/2021 5/2021 6/2021 7/2021 8/2021 1034 091 1392 1520 1550 1817 1587 1613 1252 991 1014 1191 1590 1513 1537 1413 Dự đoán 994 757 751 788 1213 1152 1165 1195 Tỉ lệ 96.13% 77 17% 53.95% 51.84% 78.26% 63.40% 73.41% 74.09% Tại đại lượng accuracy, precision, recall cao (>95%), tỷ lệ dự đoán so với thực tế Bảng lại thấp nguyên nhân sau: Với mục đích giảm thiểu thuê bao rời muốn giữ chân khách hàng nên có trường hợp bất quy tắc việc thực lý thuê bao thuê bao đủ điều kiện lý Khi chuẩn hoá liệu với ý đồ dự báo khách hàng có khả rời mạng nhiều tỗt để tránh dự báo thiếu sót Dự BÁO KHÁCH HÀNG THƯẼ BAO RỜI MẠNG DỊCH vụ FIBER 12 BIỂU ĐỒ TỶ LỆ Dự BÁO THUÊ BAO RỜI MẠNG 2000 1500 1000 500 Tháng 1/2021 Tháng 2/2021 Tháng 3/2021 Tháng 5/2021 Tháng 4/2021 Tháng 6/2021 Tháng 7/2021 Tháng 8/2021 ■ Tổng dự báo ■ Tổng lý Hình Biếu đỗ tỷ lệ dự báo so với số liệu thực tế X DashBoard ) n THỐNG KẾ tillOŨMCSỜtl X V + Chương Trinh Trọng Điềi Home Chọn tháng: Thanh Phắt triền Ỡ8/2021 Báo Hổng a - n A NotMcure I 1071 100.3a-'inhbcwd.Tk HLe.Ou&jc ^Mangphp X »o 0099 -Vỗ Đức trinh Doanh Thu Xuấttxdl * Thi Đua Khen Thưdng • Hê hình DBRM dúơe xây dựng jrễn nên tàng công nghệ Al(M.ichiw Learning) Mó bình học phân rich lọc danh sách Khải h hàng có nguy