4.3.1. Đánh giá kết quả thực nghiệm
Tỉ lệ dự đốn được đánh giá bằng tỉ lệ rời mạng đúng (True churn rate - TP) và tỉ lệ rời mạng sai (false churn – FP). Mục tiêu của phương pháp là đạt tỉ lệ TP cao và tỉ lệ FP thấp. Bảng 3 định nghĩa ma trận về tỉ lệ TP và FP, trong đĩ, a11 là số churner được dự đốn đúng, a12 là số churner được dự đốn sai, a21 là số non-churn được dự đốn đúng và a22 là số non-churn dự đốn sai. Theo ma trận, tỉ lệ TP được định nghĩa là tỉ lệ các churner được phân lớp đúng, tính theo cơng thức:
11 11 12 a TP a a
Và FP được định nghĩa là tỉ lệ các churner được phân lớp sai, tính theo cơng thức:
21 21 22 a FP a a
33
Confusion matrix
Kết quả thực tế Kết quả dự đốn
Churn Non-churn
Churn a11 a12
Non-churn a22 a21
Bảng 10: Ma trận Confusion
Trong bài tốn phân lớp nhị phân, độ chính xác được tính theo cơng thức:
_ _ _
_ _ _
Number of correct predictions Accuracy
Total number of predictions
Ngồi ra, luận văn cũng sử dụng độ đo f1 để đánh tỉ lệ dự đốn đúng cho lớp gán nhãn “churn” Độ hồi tưởng: TP TP FP Độ chính xác: TP TP FN
Độ đo f1 được tính bằng cơng thức:
1 2 f
Với trọng số Weight2, kết quả thực nghiệm như sau:
Bảng 11: Kết quả thực nghiệm với trọng số weight2
Với trọng số Weight1, kết quả thực nghiệm:
Số thuê bao mẫu nhãn churn
Số thuê bao mẫu nhãn nonchurn
Số thuê bao test
Số thuê bao test được gán nhãn
churn
Số thuê bao test được gán nhãn
non-churn
Số thuê bao test gán nhãn churn thực tế churn
Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 124 376 36 312 32.14% 69.6% Self-training 447 1000 500 122 378 38 317 34.39% 71% Mơ hình lai 447 1000 500 56 444 41 429 73.21% 93.8%
34
Bảng 12: Kết quả thực nghiệm với trọng số weight1 4.4. Đánh giá kết quả và hƣớng nghiên cứu tiếp theo
Kết quả thực nghiệm cho thấy mơ hình lai cho độ chính xác cao hơn so với mơ
hình đơn (K-NN và Self-training). Kết quả cũng cho thấy, với trọng số weight2, độ chính xác cũng cao hơn (trọng số weight2 đánh giá cao các thuộc tính về nợ, cước của khách hàng hơn so với trọng số weight1).
Trong thời gian tới, luận văn thử nghiệm thêm mơ hình với các hệ số weight khác
nhau, để tìm ra hệ số weight cho kết quả tối ưu hơn.
Luận văn cũng nghiên cứu, thử thay đổi mơ hình để áp dụng với hiện trạng thực tế
của mạng Vinaphone.
4.5. Tĩm tắt chƣơng 4
Trong chương 4, luận văn đã trình bày quá trình thực nghiệm mơ hình, các bước thực hiện, kết quả khi áp dụng mơ hình. Đồng thời, sử dụng các độ đo chính xác, độ đo hồi tưởng, độ đo f1 để đánh giá hiệu quả của mơ hình.
Số thuê bao mẫu nhãn churn
Số thuê bao mẫu nhãn nonchurn
Số thuê bao test
Số thuê bao test được gán nhãn
churn
Số thuê bao test được gán nhãn
non-churn
Số thuê bao test gán nhãn churn thực tế churn
Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 128 372 36 312 32.14% 69.60% Self-training 447 1000 500 118 382 37 317 33.64% 71% Mơ hình lai 447 1000 500 58 442 39 428 70.27% 93.40%
35
Tài liệu tham khảo
[Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M.. Aliannejadi, Iman Ahmadian, Mahdieh Mozaffari, and Uldoz Abbasi. Improved churn prediction in telecommunication industry using data mining techniques. Applied Soft Computing Journal 24, no. 4 (2014).
[Au-03] Au, W., Chan, C., & Yao, X. (2003). A novel evolutionary data mining algorithm with applications to churn prediction. IEEE Transactions on Evolutionary Computation, 7, 532–545.
[Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley. Customer churn prediction in telecommunications. Expert Systems with Applications 39 (2012) 1414–1425.
[Bradley-97] Bradley, A. P. (1997). The use of the area under the roc curve in the evaluation of machine learning algorithms. Pattern Recognition, 30, 1145–1159.
[Burges-98] Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2), 121–167.
[Langley-92] Langley, P., Iba, W., & Thompson, K. (1992). An analysis of Bayesian classifiers. In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp. 223–228). MIT Press.
[Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model. Proceedings of the second international conference on advanced data mining and applications, Xi’an, China, August 14-16. Berlin, heidelgerg: Springer-verlag.
[Lejeune-01] Lejeune, M. (2001). Measuring the impact of data mining on churn management. Internet Research: Electronic Network Applications and Policy, 11(5), 375–387.
[Ngai-08] Eric W. T. Ngai, Li Xiu, Dorothy C. K. Chau. Application of data mining techniques in customer relationship management A literature review and classification.
[Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009). Application of dataa mining techniques in customer relatonship management: A literature review and classification Journal of expert System with Applications, 36, 2592-2602.
[Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations by error propagation (Vol. 1). MA: MIT Press.
[SAS-2000] SAS Institute, (2000). Best Price in Churn Prediction, SAS Institute White Paper.
[Shin-06] Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang. Applying data mining to telecom churn management. Expert Syst. Appl. 31(3).
[Xia-08] Xia, G, E &dong Jin, W.D (2008). Model of customer churn prediction on support vector maching. Journal of Systems Enginerring – Theory and Practice.
[Yeshwanth-11] Yeshwanth, V., Raj, V.V. & Saravana, M. (2011). Evolutionary churn prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth internatinoal Floriad artificial intelligence research society conference. Palm Beach, Florida, USA, May 18-20. AAAI Press.
[Ying-13] Ying Huang, M. Tahar Kechadi, An effective hybrid learning system for telecommunication churn prediction. Expert Systems with Applications 40 (2013) 5635–5647.
36
[Ying-11] Ying Huang, Bing Quan Huang, M. Tahar Kechadi. A Rule-Based Method for Customer Churn Prediction in Telecommunication Services. Springer-Verlag Berlin Heidelberg 2011.
[Vapnik-98] Vapnik, V.N. (1998). The nature of statistical learning theory (2nd ed., pp. 23– 57)
[Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier and its application in customer churn prediction. In proceeding of the IEEE international confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october. IEEE.
Website tham khảo:
https://cgi.csc.liv.ac.uk/~frans/KDD/Software/FOIL_PRM_CPAR/foilPrmCpar.html
http://www.saedsayad.com/k_nearest_neighbors.htm
http://www.analyticbridge.com/forum/topics/how-to-develop-churn-prediction-model-for- telecom-company