Phương pháp mới xử lý dữ liệu mất cân bằng nâng cao hiệu quả dự đoán khách hàng rời bỏ dịch vụ

Số 02 (223) - 2022 NGHIÊN CỨU TRAO ĐỔI PHƯƠNG PHÁP MỚI XỬ LÝ DỮ LIỆU MẤT CÂN BẰNG NÂNG CAO HIỆU QUẢ DỰ ĐOÁN KHÁCH HÀNG RỜI BỎ DỊCH VỤ TS Nguyễn Hữu Xuân Trường* - Ths Nguyễn Văn Tuấn* Ths Lê Xuân Đoàn* - TS Đặng Xuân Thọ** Dự đoán khách hàng rời bỏ dịch vụ toán phân lớp khai phá liệu, sử dụng mơ hình phân lớp để dự đốn khách hàng có khả rời bỏ dịch vụ hay khơng Đây tốn khó có ý nghĩa quan trọng doanh nghiệp Bài tốn đặc biệt khó liệu thường gặp vấn đề cân số lượng khách hàng rời dịch vụ chiếm tỉ lệ nhỏ tổng số Do đó, tốn dự đốn khách hàng rời dịch vụ trở nên khó khăn thách thức hơn, cần có hướng tiếp cận để giải Một số phương pháp phổ biến giải vấn đề SMOTE, Borderline-SMOTE, Safe-level SMOTE đạt kết tích cực, số trường hợp lại không đạt kết mong đợi Trong báo này, chúng tơi trình bày ứng dụng phương pháp phân lớp liệu cân giải toán dự đoán khách hàng rời bỏ dịch vụ đưa phương pháp cải tiến để nâng cao hiệu dự đốn • Từ khóa: dự đốn khách hàng rời bỏ dịch vụ, liệu cân bằng, phân lớp, SMOTE customer churn prediction is a classification problem in data mining, which uses classification models to predict whether customers are likely to leave a service or not It is one of the difficult and important problems for businesses This problem is especially difficult because the data often has an imbalanced problem when the number of customers leaving the service only accounts for a small percentage of the total Therefore, the problem of predicting customer leaving the service becomes more difficult and challenging, requiring a new approach to solve Some popular methods of solving this problem such as SMOTE, Borderline-SMOTE, Safe-level SMOTE, although achieving positive results, in some cases did not achieve the expected results In this paper, we will present the application of the imbalanced data classification method in solving the problem of predicting customer churn and offer annew method to improve prediction efficiency • Keywords: customer churn, imbalanced data, classification, SMOTE Giới thiệu Bài toán dự đoán khách hàng rời bỏ giao dịch vụ dự đoán liệu khách hàng khơng cịn mua sản phẩm dịch vụ khoảng thời gian định hay không Ngày nhận bài: 25/122021 Ngày gửi phản biện: 26/12/2021 Ngày nhận kết phản biện: 30/12/2021 Ngày chấp nhận đăng: 30/01/2022 Trong thực tế tốn thường gặp tổ chức kinh doanh dịch vụ ngân hàng, bảo hiểm, viễn thông Đây toán quan trọng tổ chức dự đốn sớm việc khách hàng không tiếp tục sử dụng dịch vụ, tổ chức đưa phương án để giữ chân khách hàng Việc trọng đến tập khách hàng (có khả năng) rời bỏ dịch vụ ln Ban lãnh đạo Tổ chức quan tâm nhiều lý Bởi giữ chân khách hàng giúp tăng uy tín thương hiệu, tăng doanh thu Bên cạnh đó, chi phí đầu tư khách hàng nhiều gấp nhiều lần khách hàng cũ việc tìm kiếm khách hàng bị ảnh hưởng việc khách cũ rời bỏ dịch vụ Nhận thức điều đó, tổ chức ln cố gắng níu kéo khách hàng một, tìm biện pháp để kịp thời giữ chân khách hàng có nguy rời bỏ dịch vụ (Duyen, 2017) Dự đốn khách hàng rời bỏ dịch vụ nói riêng tốn dự báo kinh tế, tài nói chung có nghiên cứu phân * Học viện Chính sách Phát triển ** Đại học Sư phạm Hà Nội Tạp chí nghiên cứu Tài kế toán 59 Số 02 (223) - 2022 NGHIÊN CỨU TRAO ĐỔI tích liệu để giải từ lâu đến quan tâm đặc biệt tầm quan trọng Với phát triển khoa học cơng nghệ bùng nổ liệu xuất kho liệu khổng lồ (Big Data) phương pháp phân tích liệu truyền thống địi hỏi yêu cầu điều tra phức tạp tốn mặt thời gian Do đó, xu để giải hiệu toán sử dụng kỹ thuật khai phá liệu thuật toán học máy (Nguyễn Ngọc Tuân, 2016), (H Ali, 2019) Bài toán dự đoán khách hàng rời bỏ dịch vụ thuộc dạng phân lớp khai phá liệu có đặc thù liệu thường cân số lượng đa số (khơng rời dịch vụ) lớn nhiều so với số lượng lớp thiểu số (có rời dịch vụ), điều làm cho thuật toán phân lớp gặp nhiều khó khăn,do cần có hướng tiếp cận riêng để giải (Yanmin , 2009) Mặc dù có số phương pháp, thuật tốn đề xuất cho mơ hình phân lớp dự đoán khách hàng rời bỏ dịch vụ thu kết định số trường hợp riêng, nhiên vấn đề làm tốt để nâng cao hiệu dự đoán Phương pháp phân lớp liệu cân 2.1 Phân lớp liệu Phân lớp (classification) kỹ thuật quan trọng khai phá liệu, mục đích gán (dự đốn) nhãn phần tử liệu (chưa biết nhãn) từ thuộc tính phần tử liệu Tập giá trị nhãn lớp hữu hạn, có giá trị gọi phân lớp nhị phân Ví dụ điển hình phân lớp liệu việc phân loại email gửi đến thư rác hay không, thư rác email gán nhãn Spam chuyển vào thư mục spam, cịn khơng gán nhãn Non-spam chuyển vào thư mục inbox Quá trình phân lớp gồm hai giai đoạn: xây dựng mơ hình (learning) sử dụng mơ hình (classification).Giai đoạn xây dựng mơ hình việc học liệu từ tập liệu huấn luyện (training set) biết trước nhãn thuật toán học máy (machine learning) để tạo mơ hình (model) có khả dự đốn nhãn lớp cho liệu Tuỳ theo thuật toán học máy sử dụng có mơ hình phân lớp khác nhau, chẳng hạn như: định (Decision Tree), k - láng giềng gần (k Nearest Neighboor), máy véc tơ hỗ trợ (Support Vector Machine), Naïve Bayes, rừng ngẫu nhiên (Random Forest)… Sau xây dựng mơ hình phân lớp giai đoạn huấn luyện sử dụng mơ hình để phân lớp liệu hiệu phân lớp chấp nhận Để đánh giá mơ hình phân lớp chấp nhận hay không, ta sử dụng liệu kiểm tra độc lập với liệu huấn luyện từ xác định xem có phần tử liệu phân lớp phân tử liệu bị phân lớp sai Một số độ đo đánh giá hiệu phân lớp phổ biến là: Accuracy, F-score, Sensitivity (Recall), Specificity, G-mean… (Yanmin Sun, 2009) 2.2 Phân lớp liệu cân Dữ liệu cân liệu có chênh lệch lớn số lượng phần tử lớp dự đoán (H Ali, 2019), nghĩa số lượng phần tử đại diện cho lớp lớn nhiều so với lớp khác, chẳng hạn tỷ lệ khách hàng không rời bỏ dịch vụ thường cao nhiều so với khách hàng rời bỏ dịch vụ Hoặc việc phát bệnh nhân ung thư tỷ lệ bệnh nhân khơng bị ung thư cao nhiều so với bệnh nhân bị ung thư Đối với trường hợp hai lớp (chỉ có trường hợp lớp dự đốn, chẳng hạn việc xác định giới tính Nam/Nữ, hay xác định khả khách hàng có rời bỏ dịch vụ/ khơng rời bỏ dịch vụ ) tỷ lệ 1:5, 1:10, 1:100… Lớp chiếm số đông phần tử gọi lớp đa số (negative), ngược lại lớp có phần tử gọi lớp thiểu số (positive) Khi tiến hành khai phá liệu liệu cân thuật tốn thường đạt độ xác cao với lớp đa số với lớp thiểu số ngược lại 60 Tạp chí nghiên cứu Tài kế toán Số 02 (223) - 2022 NGHIÊN CỨU TRAO ĐỔI Trong thực tế, vấn đề cân liệu liệu toán dự đoán khách hàng rời bỏ dịch vụ phổ biến Để giải hiệu cho tốn sử dụng phương pháp phân lớp khai phá liệu, có hai hướng tiếp cận tập trung nghiên cứu cho việc nâng cao hiệu dự đoán là: hướng tiếp cận mức độ thuật toán hướng tiếp cận mức độ liệu (Yanmin Sun, 2009), (H.Ali, 2019) Hướng tiếp cận mức độ thuật toán: Tập trung vào việc điều chỉnh, cải tiến thuật toán phân lớp chuẩn (như định, Naïve Bayes, máy véctơ hỗ trợ SVM, k láng giềng gần KNN ) cho phù hợp với liệu cân bằng, chẳng hạn tăng cường học cho lớp thiểu số Hướng tiếp cận thường phức tạp so với hướng tiếp cận mức độ liệu yêu cầu cần phải hiểu rõ thuật toán phân lớp cần cải tiến Hướng tiếp cận mức độ liệu: Bao gồm phương pháp điều chỉnh để giảm cân liệu cách tăng số lượng phần tử lớp thiểu số (sinh thêm phần tử thuộc lớp thiểu số cách ngẫu nhiên, có chọn lọc, sinh thêm phần tử nhân tạo), giảm số lượng phần tử lớp đa số kết hợp hai phương pháp Cả ba phương pháp hướng đến mục tiêu cân phân bố liệu Ưu điểm phương pháp tiếp cận mức độ liệu linh hoạt, liệu sử dụng để huấn luyện phân loại khác Hướng tiếp cận tập trung nghiên cứu nhiều số phương pháp tiêu biểu kể tới là: • ROS (Random Over-sampling) • RUS (Random Under-sampling) • SMOTE (Synthetic Minority Over-sampling Technique) • BOS (Boderline SMOTE): sinh thêm phần tử nhân tạo dựa đường biên • SLS (Safe-level SMOTE): sinh thêm phần tử nhân tạo dựa mức an tồn • Một số phương pháp khác: Tomek Link, ADASYN… Hình Phân lớp liệu cân theo hướng tiếp cận mức độ liệu Một số tác giả sử dụng phương pháp phân lớp liệu cân để giải toán dự đoán khách hàng rời bỏ dịch vụ theo cách tiếp cận khác Nhóm tác giả (Aamer, 2017) kết hợp phương pháp lựa chọn thuộc tính xử lý liệu cân bằng, đó, Annisa Aditsania cộng (Annisa, 2017) sử dụng phương pháp lấy mẫu tổng hợp thích ứng (ADASYN - biến thể SMOTE) thuật toán lan truyền ngược để xử lý cân liệu toán dự đoán khách hàng rời bỏ dịch vụ Ngoài ra, tác giả (Uma, 2018) đề xuất phương pháp SOS-BUS kết hợp tăng số phần tử nhân tạo SMOTE với kỹ thuật giảm số phần tử họ đề xuất… Về nghiên cứu tập trung chủ yếu vào việc tiếp cận xử lý cân cấp độ liệu, đề xuất số cải tiến kết hợp với thuật toán SMOTE để dự báo khách hàng rời bỏ dịch vụ, nhiên liệu sử dụng mang tính đặc thù khơng cơng khai Tại Việt Nam, số tác (Nguyễn Ngọc Tuân, 2016), (Kien Vu, 2018) nghiên cứu việc áp dụng kỹ thuật khai phá liệu để giải toán dự đoán khách hàng rời bỏ dịch vụ lĩnh vực kinh doanh viễn thơng Đặc biệt, nhóm tác giả FTP Telecom (Duyen, 2017) đồng nghiệp có ứng dụng phân lớp liệu cân phương pháp lựa chọn thuộc tính để giải toán dự đoán khách hàng rời bỏ dịch vụ Internet tổ chức Phương pháp đề xuất nâng cao hiệu dự đoán khách hàng rời bỏ dịch vụ Mặc dù phương pháp phân lớp liệu cân phổ biến SMOTE biến thể có cải tiến mơ hình phân lớp cách sinh thêm phần tử nhân tạo Tạp chí nghiên cứu Tài kế toán 61 Số 02 (223) - 2022 NGHIÊN CỨU TRAO ĐỔI theo cách khác nhau, nhiên qua khảo sát liệu số toán dự đoán khách hàng rời bỏ dịch vụ thực nghiệm chúng tơi nhận thấy phương pháp tồn số hạn chế như: thuật toán phân lớp sử dụng thực nghiệm là: rừng ngẫu nhiên (RF), máy véc tơ hỗ trợ (SVM), k láng giềng gần (KNN) Hình Các bước tiến hành thực nghiệm • Phần tử thiểu số nhân tạo sinh xa với phần tử thiểu số thực sự, nằm vùng có nhiều phần tử đa số nên gây nhiễu (giảm hiệu phân lớp) • Những phần tử đa số nằm sâu vùng có nhiều phần tử thiểu số phần tử có ảnh hưởng nhiễu lớn phương pháp không xử lý nhiễu với phần tử • Phương pháp Borderline SMOTE áp dụng cho trường hợp liệu phân bố đường biên rõ ràng, hay phương pháp Safelevel SMOTE định nghĩa tỷ lệ an tồn dựa số phần tử láng giềng bị nhiễu phân bố liệu không đồng khoảng cách nên áp dụng với toán khách hàng rời bỏ dịch vụ hiệu khơng cao… Do đó, chúng tơi đề xuất phương pháp để nâng cao hiệu cho mơ hình dự đốn khách hàng rời bỏ dịch vụ Phương pháp giống SMOTE xử lý liệu cân trước huấn luyện mơ hình, bước thực sau: • Lấy giá trị khoảng cách R1 R2 đủ nhỏ tham số T ≥ Chúng sử dụng độ đo Sensitivity (Recall), Specificity, G-mean tính từ ma trận nhầm lẫn sau: Bảng Ma trận nhầm lẫn Dự đoán Positive Dự đoán Negative Thực tế Positive TP FN Thực tế Negative FP TN Trong hàng ma trận nhãn lớp thực tế, cột nhãn lớp dự đốn và: • TN: số lượng phần tử lớp đa số phân loại xác • FN: số lượng phần tử lớp thiểu số bị phân loại nhầm phần tử lớp đa số • TP: số lượng phần tử lớp thiểu số phân loại xác • FP: số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp thiểu số • • Với phần tử đa số X, T*n > m, số phần tử đa số, số phần tử thiểu số có khoảng cách tới X nhỏ R1 đổi nhãn X thành nhãn lớp thiểu số 𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 : tỷ lệ phát phần tử thiểu số thực 𝑇𝑇𝑇𝑇 • 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹 : tỷ lệ phát phần tử đa số thực • • Với phần tử thiểu số thực P, sinh thêm ngẫu nhiên k phần tử thiểu số nhân tạo có khoảng cách tới P nhỏ R2 Để minh chứng tính hiệu phương pháp đề xuất, tiến hành thực nghiệm liệu Customer Churn Kaggle so sánh kết với phương pháp xử lý liệu cân khác, bao gồm: SMOTE, Boderline SMOTE (BLS), Safe-level SMOTE (SLS) Bộ liệu có kích thước gồm 4250 ghi, tỷ lệ cân liệu : 6,1 Các 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐺𝐺 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = �𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 ∗ 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 Kết thực nghiệm thống kê sau: Bảng Tổng hợp kết thực nghiệm Phương pháp RF Sen SVM KNN Spe G-mean Sen Spe G-mean Sen Spe G-mean Dữ liệu gốc 25.0 98.0 49.5 9.3 98.1 30.2 29.0 97.6 53.2 SMOTE 35.3 97.5 58.7 35.3 97.7 58.7 41.2 89.1 60.6 BLS 32.8 98.1 56.7 26.1 98.4 50.6 37.0 94.8 59.2 SLS 33.6 97.9 57.3 34.5 97.8 58.1 37.8 93.9 59.6 Cải tiến 53.1 91.2 69.6 59.2 81.1 69.3 60.0 75.3 67.2 62 Tạp chí nghiên cứu Tài kế toán Số 02 (223) - 2022 NGHIÊN CỨU TRAO ĐỔI Hình Biểu đồ so sánh giá trị G-mean nhiều thách thức cần giải quyết, thời gian tới nhóm tác giả tiếp tục nghiên cứu thêm chiến lược sinh thêm phần tử nhân tạo tối ưu hơnnhằm nâng cao hiệu dự đoán Tài liệu tham khảo: Từ Bảng Biểu đồ Hình nhận thấy áp dụng phương pháp xử lý liệu cân hiệu phân lớp tốt so với thực liệu gốc ban đầu, độ đo Specificity có giảm nhẹ hai độ đo quan trọng Sensitivity G-mean tăng, điều có ý nghĩa với mơ hình phân lớp liệu cân Đặc biệt phương pháp cải tiến chúng tơi có hiệu cao với phương pháp SMOTE, BLS, SLS lần thực nghiệm với thuật toán RF, SVM, KNN Ngoài ra, theo Biểu đồ so sánh giá trị G-mean nhận thấy phương pháp BLS SLS biến thể SMOTE hiệu phân lớp toán dự đoán khách hàng rời bỏ dịch vụ lại không cao so với SMOTE Kết luận Dự đoán khách hàng rời bỏ dịch vụ toán phân lớp liệu cân nên sử dụng phương pháp xử lý liệu cân SMOTE hay biến thể SMOTE nói chung cho hiệu phân lớp tốt so với liệu gốc ban đầu Trong báo đề xuất phương pháp giảm phân bố cân liệu dựa kết hợp đổi nhãn phần tử đa số bị nhiễu sinh thêm phần tử nhân tạothiểu số vùng lân cận phần tử thiểu số ban đầu Kết thực nghiệm cho thấy phương pháp đề xuất chúng tơi có hiệu phân lớp tốt so với phương pháp xử lý liệu cân phổ biến Bài toán dự đoán khách hàng rời bỏ dịch vụ Aamer Hanif and Noor Azhar (2017), Resolving class imbalanced and feature selection in customer churn dataset, 2017 International Conference on Frontiers of Information Technology, pp 82-86 Annisa Aditsania, Adiwijaya and Aldo Lionel Saonard (2017), Handling Imbalanced Data in Churn Prediction using ADASYN and Backpropagation Algorithm, 2017 3rd International Conference on Science in Information Technology (ICSITech), pp 533-536 Duyen Do, Phuc Huynh, Phuong Vo and Tu Vu (2017), Customer Churn Prediction in an Internet Service Provider, 2017 IEEE International Conference on Big Data (BIGDATA), pp 3928-3933 Kien Vu (2018), Dự đoán khách hàng rời bỏ ngành viễn thông, truy cập ngày 27/10/2018 từ H Ali, M N M Salleh, R Saedudin, K Hussain and M F Mushtaq (2019), “Imbalance class problems in data mining: a review,” Indonesian Journal of Electrical Engineering and Computer Science, vol 14, no 3, pp 1560-1571 Nguyễn Ngọc Tuân (2016), Áp dụng kỹ thuật khai phá liệu dự báo thuê bao rời mạng di động, Luận văn thạc sĩ - Đại học Công nghệ, ĐHQGHN Nghiêm Thị Toàn, Nghiêm Thị Lịch, Bùi Dương Hương, Đặng Xuân Thọ, “Mask: phương pháp nâng cao hiệu phát gian lận tài chính”, Tạp chí Khoa học Kỹ thuật - Học viện KTQS, số 184 (06-2017), pp 5-17 Uma R Salunkhe and Suresh N Mali (2018), A Hybrid Approach for Class Imbalance Problem in Customer Churn Prediction: A Novel Extension to Under-sampling, I.J Intelligent Systems and Applications,5, pp 71-81 Yanmin Sun, Andrew K.C Wong and Mohamed S Kamel (2009), “Classification of imbalanced data: a review,” International Journal of Pattern Recognition and Artificial Intelligence, vol 23, p 687-719 Tạp chí nghiên cứu Tài kế toán 63 ... thuộc tính để giải toán dự đoán khách hàng rời bỏ dịch vụ Internet tổ chức Phương pháp đề xuất nâng cao hiệu dự đoán khách hàng rời bỏ dịch vụ Mặc dù phương pháp phân lớp liệu cân phổ biến SMOTE biến... toán khách hàng rời bỏ dịch vụ hiệu khơng cao? ?? Do đó, chúng tơi đề xuất phương pháp để nâng cao hiệu cho mơ hình dự đoán khách hàng rời bỏ dịch vụ Phương pháp giống SMOTE xử lý liệu cân trước huấn... nhận thấy phương pháp BLS SLS biến thể SMOTE hiệu phân lớp toán dự đốn khách hàng rời bỏ dịch vụ lại khơng cao so với SMOTE Kết luận Dự đoán khách hàng rời bỏ dịch vụ toán phân lớp liệu cân nên

Định dạng
Số trang	5
Dung lượng	727,4 KB