Kết quả thực nghiệm

Một phần của tài liệu Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone (Trang 40)

4.3.1. Đánh giá kết quả thực nghiệm

Tỉ lệ dự đốn được đánh giá bằng tỉ lệ rời mạng đúng (True churn rate - TP) và tỉ lệ rời mạng sai (false churn – FP). Mục tiêu của phương pháp là đạt tỉ lệ TP cao và tỉ lệ FP thấp. Bảng 3 định nghĩa ma trận về tỉ lệ TP và FP, trong đĩ, a11 là số churner được dự đốn đúng, a12 là số churner được dự đốn sai, a21 là số non-churn được dự đốn đúng và a22 là số non-churn dự đốn sai. Theo ma trận, tỉ lệ TP được định nghĩa là tỉ lệ các churner được phân lớp đúng, tính theo cơng thức:

11 11 12 a TP a a  

Và FP được định nghĩa là tỉ lệ các churner được phân lớp sai, tính theo cơng thức:

21 21 22 a FP a a  

33

Confusion matrix

Kết quả thực tế Kết quả dự đốn

Churn Non-churn

Churn a11 a12

Non-churn a22 a21

Bảng 10: Ma trận Confusion

Trong bài tốn phân lớp nhị phân, độ chính xác được tính theo cơng thức:

_ _ _

_ _ _

Number of correct predictions Accuracy

Total number of predictions

Ngồi ra, luận văn cũng sử dụng độ đo f1 để đánh tỉ lệ dự đốn đúng cho lớp gán nhãn “churn” Độ hồi tưởng: TP TP FP   Độ chính xác: TP TP FN   

Độ đo f1 được tính bằng cơng thức:

1 2 f     

Với trọng số Weight2, kết quả thực nghiệm như sau:

Bảng 11: Kết quả thực nghiệm với trọng số weight2

Với trọng số Weight1, kết quả thực nghiệm:

Số thuê bao mẫu nhãn churn

Số thuê bao mẫu nhãn nonchurn

Số thuê bao test

Số thuê bao test được gán nhãn

churn

Số thuê bao test được gán nhãn

non-churn (adsbygoogle = window.adsbygoogle || []).push({});

Số thuê bao test gán nhãn churn thực tế churn

Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 124 376 36 312 32.14% 69.6% Self-training 447 1000 500 122 378 38 317 34.39% 71% Mơ hình lai 447 1000 500 56 444 41 429 73.21% 93.8%

34

Bảng 12: Kết quả thực nghiệm với trọng số weight1 4.4. Đánh giá kết quả và hƣớng nghiên cứu tiếp theo

 Kết quả thực nghiệm cho thấy mơ hình lai cho độ chính xác cao hơn so với mơ

hình đơn (K-NN và Self-training). Kết quả cũng cho thấy, với trọng số weight2, độ chính xác cũng cao hơn (trọng số weight2 đánh giá cao các thuộc tính về nợ, cước của khách hàng hơn so với trọng số weight1).

 Trong thời gian tới, luận văn thử nghiệm thêm mơ hình với các hệ số weight khác

nhau, để tìm ra hệ số weight cho kết quả tối ưu hơn.

 Luận văn cũng nghiên cứu, thử thay đổi mơ hình để áp dụng với hiện trạng thực tế

của mạng Vinaphone.

4.5. Tĩm tắt chƣơng 4

Trong chương 4, luận văn đã trình bày quá trình thực nghiệm mơ hình, các bước thực hiện, kết quả khi áp dụng mơ hình. Đồng thời, sử dụng các độ đo chính xác, độ đo hồi tưởng, độ đo f1 để đánh giá hiệu quả của mơ hình.

Số thuê bao mẫu nhãn churn

Số thuê bao mẫu nhãn nonchurn

Số thuê bao test

Số thuê bao test được gán nhãn

churn

Số thuê bao test được gán nhãn

non-churn

Số thuê bao test gán nhãn churn thực tế churn

Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 128 372 36 312 32.14% 69.60% Self-training 447 1000 500 118 382 37 317 33.64% 71% Mơ hình lai 447 1000 500 58 442 39 428 70.27% 93.40%

35

Tài liệu tham khảo

[Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M.. Aliannejadi, Iman Ahmadian, Mahdieh Mozaffari, and Uldoz Abbasi. Improved churn prediction in telecommunication industry using data mining techniques. Applied Soft Computing Journal 24, no. 4 (2014).

[Au-03] Au, W., Chan, C., & Yao, X. (2003). A novel evolutionary data mining algorithm with applications to churn prediction. IEEE Transactions on Evolutionary Computation, 7, 532–545.

[Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley. Customer churn prediction in telecommunications. Expert Systems with Applications 39 (2012) 1414–1425.

[Bradley-97] Bradley, A. P. (1997). The use of the area under the roc curve in the evaluation of machine learning algorithms. Pattern Recognition, 30, 1145–1159.

[Burges-98] Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2), 121–167.

[Langley-92] Langley, P., Iba, W., & Thompson, K. (1992). An analysis of Bayesian classifiers. In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp. 223–228). MIT Press.

[Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model. Proceedings of the second international conference on advanced data mining and applications, Xi’an, China, August 14-16. Berlin, heidelgerg: Springer-verlag. (adsbygoogle = window.adsbygoogle || []).push({});

[Lejeune-01] Lejeune, M. (2001). Measuring the impact of data mining on churn management. Internet Research: Electronic Network Applications and Policy, 11(5), 375–387.

[Ngai-08] Eric W. T. Ngai, Li Xiu, Dorothy C. K. Chau. Application of data mining techniques in customer relationship management A literature review and classification.

[Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009). Application of dataa mining techniques in customer relatonship management: A literature review and classification Journal of expert System with Applications, 36, 2592-2602.

[Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations by error propagation (Vol. 1). MA: MIT Press.

[SAS-2000] SAS Institute, (2000). Best Price in Churn Prediction, SAS Institute White Paper.

[Shin-06] Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang. Applying data mining to telecom churn management. Expert Syst. Appl. 31(3).

[Xia-08] Xia, G, E &dong Jin, W.D (2008). Model of customer churn prediction on support vector maching. Journal of Systems Enginerring – Theory and Practice.

[Yeshwanth-11] Yeshwanth, V., Raj, V.V. & Saravana, M. (2011). Evolutionary churn prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth internatinoal Floriad artificial intelligence research society conference. Palm Beach, Florida, USA, May 18-20. AAAI Press.

[Ying-13] Ying Huang, M. Tahar Kechadi, An effective hybrid learning system for telecommunication churn prediction. Expert Systems with Applications 40 (2013) 5635–5647.

36

[Ying-11] Ying Huang, Bing Quan Huang, M. Tahar Kechadi. A Rule-Based Method for Customer Churn Prediction in Telecommunication Services. Springer-Verlag Berlin Heidelberg 2011.

[Vapnik-98] Vapnik, V.N. (1998). The nature of statistical learning theory (2nd ed., pp. 23– 57)

[Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier and its application in customer churn prediction. In proceeding of the IEEE international confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october. IEEE.

Website tham khảo:

https://cgi.csc.liv.ac.uk/~frans/KDD/Software/FOIL_PRM_CPAR/foilPrmCpar.html

http://www.saedsayad.com/k_nearest_neighbors.htm

http://www.analyticbridge.com/forum/topics/how-to-develop-churn-prediction-model-for- telecom-company

Một phần của tài liệu Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone (Trang 40)