Mơ hình học giám sát dựa trên hệ thống luật:

Một phần của tài liệu Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone (Trang 35)

Những hệ thống phân lớp đầu tiên là những hệ sử dụng luật phân lớp bằng cách sử dụng người dùng định nghĩa các luật này. Một trong những hệ nổi tiếng nhất là CONSTRUE được P.J.Hayes và cộng sự (một nhĩm nghiên cứu tại đại học Carnegie Mallon University) phát triển vào những năm 1980 để phân lớp các bản tin cho hãng tin Reauter. Hệ thống này sử dụng luật dưới dạng chuẩn rời nhau.

Hệ thống phân lớp dựa trên luật thường cho kết quả tương đối cao trong những trường hợp người dùng cĩ thể tạo đầy đủ các luật, bao gồm tất cả các trường hợp cĩ thể xảy ra cho bộ phân lớp. Tuy nhiên, phương pháp này cĩ điểm hạn chế là cĩ thể cĩ những luật mâu thuẫn nhau, hoặc cĩ những trường hợp mà luật bỏ sĩt. Ngồi ra, khi dữ liệu thay đổi thì cĩ thể phải cập nhật hoặc sửa đổi lại hệ thống luật phân lớp.

Trong mơ hình của luận văn, sử dụng thuật tốn FOIL để sinh tập các luật. FOIL được đề xuất và phát triển bởi Quinlan [Quinlan, 1990]. Giả mã của FOIL được giới thiệu trong hình 6 và 7. FOIL học các tập dữ liệu chỉ bao gồm hai lớp, trong đĩ một lớp được gọi là “tích cực”. FOIL học mơ tả lớp đối với lớp “tích cực”

Giải thuật FOIL: FOIL (Examples) 11.Pos ← Positive Examples;

12.Neg ← Negative Examples;

13.Learned_rules ← ;

14.While Pos is not empty then

15.Rule ← Learn-A-Rule (Examples, Neg);

16.learned_rules ← learned_rules Rule;

28

18.Examples ← Examples – {any examples covered by Rule};

19.End while

20.return learned_rules;

Hình 14: Giả mã học luật FOIL

Giải thuật học 1 luật: Learn-A-Rule (Examples, Neg) 9. Rule ← the most general positive rule;

10.repeat

11.Candidate_cond ← generate candidate conditions for Rule;

12.Best_cond ← max(Foil_Gain);

13.Add Best_cond to the antecedent of Rule;

14.Covered_Neg ← negative examples that are covered by Rule;

15.Until there is no negative examples can be covered;.

16.Return Rule;

Hình 15: Giả mã học 1 luật FOIL

Trong mơ hình lai này, mỗi lớp mẫu “tích cực” sinh ra một tập các luật tương ứng theo FOIL. Các luật này sẽ được sử dụng để phân lớp cho pha sau.

3.6. Phân lớp

Để phân lớp cho các dữ liệu test, mơ hình dựa trên nhãn của các lớp mẫu.

Dữ liệu test được phân lớp dựa trên nguyên tắc sau:

 Các dữ liệu test mà cĩ độ chính xác cao nhất bổ sung vào tập dữ liệu mẫu trong pha

phân lớp self-training sẽ được giữ nguyên nhãn.

 Tập dữ liệu mẫu được mang ra để sinh các luật trong pha 2.

 Các dữ liệu test gán nhãn “churn” cịn lại trong pha 1 sẽ được phân lớp lại lần 2 theo

luật sinh ra trong pha 2 theo các bước sau:

o Nếu dữ liệu test mà thỏa mãn được hết các luật của lớp mẫu thì dữ liệu test

được gán nhãn “churn”

29

Tổng kết chƣơng 3

Trong chương 3, luận văn đã mơ tả mơ hình bài tốn kết hợp giữa bán giám sát self-training và học giám sát dựa trên luật, cũng như quá trình thực hiện các pha của mơ hình. Trong chương tiếp theo, luận văn trình bày chi tiết quá trình thực nghiệm của mơ hình bài tốn.

30

Chƣơng 4: Thực nghiệm và đánh giá kết quả

Dựa vào cơ sở lý thuyết và mơ hình đề xuất trong chương 3, luận văn tiến hành thực nghiệm việc phân lớp cho các dữ liệu test là các thuê bao trả sau Vinaphone để tìm ra các thuê bao cĩ nguy cơ rời mạng.

 Đầu vào của hệ thống:

o Tập dữ liệu mẫu: 1000 thuê bao trả sau Vinaphone mẫu được gán nhãn nonchurn và 447 thuê bao trả sau được gán nhãn “churn”.

o Tập dữ liệu test: 500 thuê bao trả sau Vinaphone

 Đầu ra của hệ thống: Các thuê bao test được gán nhãn “churn”.

4.1. Mơi trƣờng thực nghiệm:

Quá trình thực nghiệm của luận văn được thực hiện trên máy tính cĩ cấu hình:  Chip: Core-i5 , 2.27GHZ

 Ram: 4GB

 Hệ điều hành: Windows 7 - 32 bit

 Cơng cụ lập trình: Eclipse, java 7, Oracle 11g, Sql Navigator 7.0. Các cơng cụ phần mềm và mã nguơn mở được liệt kê trong bảng dưới đây:

Bảng 7: Phần mềm sử dụng trong luận văn 4.2. Quá trình thực nghiệm

4.2.1. Mơ tả dữ liệu

 1000 thuê bao Vinaphone gán nhãn “nonchurn”, 447 thuê bao Vinaphone gán nhãn “churn”. Các thuê bao mẫu được gán nhãn dựa theo dữ liệu thực tế cĩ rời mạng hay khơng trong tháng 09/2015.

 500 thuê bao Vinaphone dùng để test.

 Dữ liệu của các thuê bao bao gồm: 20 trường thơng tin

o Dữ liệu cước trong tháng 06, 07, 08/2015.

o Dữ liệu nợ trong tháng 06, 07, 08/2015

STT Tên phần mềm Tác giả Mơ tả

1 FOIL Cargen

Frans Coenen

https://cgi.csc.liv.ac.uk/~frans/K DD/Software/FOIL_PRM_CPAR /foilPrmCpar.html

Phần mềm sinh luật FOIL

2 Giải thuật KNN

http://www.codeproject.com/Arti cles/32970/K-Nearest-Neighbor- Algorithm-Implementation-and- Ov

31

o Dữ liệu số cuộc gọi đi trong tháng 07, 08/2015

o Dữ liệu số phút cuộc gọi đi trong tháng 07, 08/2015

o Dữ liệu số lần thanh tốn trong tháng 08/2015

o Dữ liệu số cuộc nhắn tin trong tháng 07, 08/2015

o Dữ liệu số cuộc sử dụng data trong tháng 08/2015

o Dữ liệu số dịch vụ giá trị gia tăng trong tháng 08/2015

o Dữ liệu lưu lượng data thực tế sử dụng trong tháng 08/2015

o Dữ liệu loại khách hàng: Khách hàng cá nhân, khách hàng doanh nghiệp

o Dữ liệu khuyến mại, gĩi cước tháng 08/2015

o Dữ liệu số ngày thuê bao hoạt động trong tháng 08/2015

o Dữ liệu kiểu thanh tốn của thuê bao: Ezpay, in hĩa đơn

 Dữ liệu của thuê bao sẽ được dùng để dự đốn cho các thuê bao test cĩ nguy cơ rời mạng trong tháng 09/2015.

 Ví dụ một số trường dữ liệu của thuê bao

Bảng 8: Bảng mơ tả dữ liệu mẫu

Trọng số các thuộc tính:

WEIGHT1 WEIGHT2 WEIGHT3 DATA

0.1 0.05 cuoc08 0.1 0.1 cuoc07 0.1 0.1 cuoc06 0.15 0.05 no 0.1 0.05 num_moc 0.1 0.1 num_sms 0.05 0.15 num_gtgt 0.05 0.05 dur_moc 0.1 0.15 num_acdate 0.05 0.15 loai_kh 0.1 0.05 promotion Bảng 9: Trọng số một số thuộc tính dữ liệu

MA_TB LABLE CUOC08 CUOC07 CUOC06 NO NUM_MOCNUM_GTGTNUM_SMSDUR_MOC DUR_GTGT VOL_DATANUM_ACDATA TYPE_ NUM_ACDATE PROMOTION --- --- --- --- --- -- --- --- --- --- --- --- --- --- --- --- 84913248981 nonchurn 445.63 375.126 674.816 0 170 23 134 474 33 0 0 31 0 84913248986 nonchurn 69.883 63.855 90.078 0 13 16 11 15 25 0 0 31 0 84913249197 nonchurn 124.105 168.144 186.926 0 46 20 92 65 34 0 0 31 0 84913306981 churn 139.056 180.445 192.641 0 115 2 12 194 1 0 0 31 90 84913513939 nonchurn 108.857 187.116 247.849 0 24 15 41 39 8 0 0 31 0 84913528338 nonchurn 565.968 741.746 579.701 0 210 95 222 453 136 0 0 31 0 84913568188 nonchurn 126.124 119.878 195.572 0 120 9 60 386 13 0 0 31 40.909 84913923981 churn 181.684 180.737 178.231 0 135 4 0 224 3 0 0 31 40.909 84914045386 churn 125.04 127.648 517.704 0 35 11 75 54 12 0 1 31 40.909

32 4.2.2 . Quá trình thực nghiệm

Chuẩn hĩa dữ liệu:

 Các dữ liệu dạng chữ được biểu diễn thành dạng số, cụ thể:

o Khách hàng cá nhân: 1, khách hàng doanh nghiệp: 0

o Cĩ gĩi cước khuyến mại: 1, khơng cĩ gĩi cước khuyến mại: 0

o Kiểu thanh tốn: Ezpay: 1, hĩa đơn: 0

o Các dữ liệu về cước, nợ, khuyến mại chuẩn hĩa chia cho 100000. (do khoảng cách với các dữ liệu cịn lại quá lớn).

Phân lớp bán giám sát.

 Lấy 1/3 thuê bao mẫu cĩ độ tương đồng cao nhất với dữ liệu test để xem xét và gán nhãn cho thuê bao test khi phân lớp KNN

 Tại mỗi vịng lặp Self-training: lấy 5% dữ liệu test cĩ độ chính xác cao nhất để bổ sung vào tập dữ liệu mẫu.

 Dữ liệu mẫu cĩ độ chính xác cao nhất là dữ liệu cĩ độ chênh lệch giữa thuê bao gán nhãn mẫu cao nhất. Ví dụ, trong 500 thuê bao cĩ độ tương đồng cao nhất với thuê bao test, cĩ 100 thuê bao gán nhãn “churn” và 400 thuê bao gán nhãn “nonchurn”, thì thuê bao test được gán nhãn “nonchurn”, độ chênh lệch giữa thuê bao gán nhãn mẫu là |100 - 400| = 300.

Sinh tập luật:

Tập luật sinh ra cĩ dạng: “IF(điều_kiện) THEN” Ví dụ luật:

IF(cuoc08<49000&&no<10000&&accDate < 25) THEN LABLE=’CHURN’

4.3. Kết quả thực nghiệm

4.3.1. Đánh giá kết quả thực nghiệm

Tỉ lệ dự đốn được đánh giá bằng tỉ lệ rời mạng đúng (True churn rate - TP) và tỉ lệ rời mạng sai (false churn – FP). Mục tiêu của phương pháp là đạt tỉ lệ TP cao và tỉ lệ FP thấp. Bảng 3 định nghĩa ma trận về tỉ lệ TP và FP, trong đĩ, a11 là số churner được dự đốn đúng, a12 là số churner được dự đốn sai, a21 là số non-churn được dự đốn đúng và a22 là số non-churn dự đốn sai. Theo ma trận, tỉ lệ TP được định nghĩa là tỉ lệ các churner được phân lớp đúng, tính theo cơng thức:

11 11 12 a TP a a  

Và FP được định nghĩa là tỉ lệ các churner được phân lớp sai, tính theo cơng thức:

21 21 22 a FP a a  

33

Confusion matrix

Kết quả thực tế Kết quả dự đốn

Churn Non-churn

Churn a11 a12

Non-churn a22 a21

Bảng 10: Ma trận Confusion

Trong bài tốn phân lớp nhị phân, độ chính xác được tính theo cơng thức:

_ _ _

_ _ _

Number of correct predictions Accuracy

Total number of predictions

Ngồi ra, luận văn cũng sử dụng độ đo f1 để đánh tỉ lệ dự đốn đúng cho lớp gán nhãn “churn” Độ hồi tưởng: TP TP FP   Độ chính xác: TP TP FN   

Độ đo f1 được tính bằng cơng thức:

1 2 f     

Với trọng số Weight2, kết quả thực nghiệm như sau:

Bảng 11: Kết quả thực nghiệm với trọng số weight2

Với trọng số Weight1, kết quả thực nghiệm:

Số thuê bao mẫu nhãn churn

Số thuê bao mẫu nhãn nonchurn

Số thuê bao test

Số thuê bao test được gán nhãn

churn

Số thuê bao test được gán nhãn

non-churn

Số thuê bao test gán nhãn churn thực tế churn

Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 124 376 36 312 32.14% 69.6% Self-training 447 1000 500 122 378 38 317 34.39% 71% Mơ hình lai 447 1000 500 56 444 41 429 73.21% 93.8%

34

Bảng 12: Kết quả thực nghiệm với trọng số weight1 4.4. Đánh giá kết quả và hƣớng nghiên cứu tiếp theo

 Kết quả thực nghiệm cho thấy mơ hình lai cho độ chính xác cao hơn so với mơ

hình đơn (K-NN và Self-training). Kết quả cũng cho thấy, với trọng số weight2, độ chính xác cũng cao hơn (trọng số weight2 đánh giá cao các thuộc tính về nợ, cước của khách hàng hơn so với trọng số weight1).

 Trong thời gian tới, luận văn thử nghiệm thêm mơ hình với các hệ số weight khác

nhau, để tìm ra hệ số weight cho kết quả tối ưu hơn.

 Luận văn cũng nghiên cứu, thử thay đổi mơ hình để áp dụng với hiện trạng thực tế

của mạng Vinaphone.

4.5. Tĩm tắt chƣơng 4

Trong chương 4, luận văn đã trình bày quá trình thực nghiệm mơ hình, các bước thực hiện, kết quả khi áp dụng mơ hình. Đồng thời, sử dụng các độ đo chính xác, độ đo hồi tưởng, độ đo f1 để đánh giá hiệu quả của mơ hình.

Số thuê bao mẫu nhãn churn

Số thuê bao mẫu nhãn nonchurn

Số thuê bao test

Số thuê bao test được gán nhãn

churn

Số thuê bao test được gán nhãn

non-churn

Số thuê bao test gán nhãn churn thực tế churn

Số thuê bao test gán nhãn nonchurn thực tế nonchurn Độ đo f1 Độ chính xác KNN 447 1000 500 128 372 36 312 32.14% 69.60% Self-training 447 1000 500 118 382 37 317 33.64% 71% Mơ hình lai 447 1000 500 58 442 39 428 70.27% 93.40%

35

Tài liệu tham khảo

[Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M.. Aliannejadi, Iman Ahmadian, Mahdieh Mozaffari, and Uldoz Abbasi. Improved churn prediction in telecommunication industry using data mining techniques. Applied Soft Computing Journal 24, no. 4 (2014).

[Au-03] Au, W., Chan, C., & Yao, X. (2003). A novel evolutionary data mining algorithm with applications to churn prediction. IEEE Transactions on Evolutionary Computation, 7, 532–545.

[Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley. Customer churn prediction in telecommunications. Expert Systems with Applications 39 (2012) 1414–1425.

[Bradley-97] Bradley, A. P. (1997). The use of the area under the roc curve in the evaluation of machine learning algorithms. Pattern Recognition, 30, 1145–1159.

[Burges-98] Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2), 121–167.

[Langley-92] Langley, P., Iba, W., & Thompson, K. (1992). An analysis of Bayesian classifiers. In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp. 223–228). MIT Press.

[Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model. Proceedings of the second international conference on advanced data mining and applications, Xi’an, China, August 14-16. Berlin, heidelgerg: Springer-verlag.

[Lejeune-01] Lejeune, M. (2001). Measuring the impact of data mining on churn management. Internet Research: Electronic Network Applications and Policy, 11(5), 375–387.

[Ngai-08] Eric W. T. Ngai, Li Xiu, Dorothy C. K. Chau. Application of data mining techniques in customer relationship management A literature review and classification.

[Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009). Application of dataa mining techniques in customer relatonship management: A literature review and classification Journal of expert System with Applications, 36, 2592-2602.

[Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations by error propagation (Vol. 1). MA: MIT Press.

[SAS-2000] SAS Institute, (2000). Best Price in Churn Prediction, SAS Institute White Paper.

[Shin-06] Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang. Applying data mining to telecom churn management. Expert Syst. Appl. 31(3).

[Xia-08] Xia, G, E &dong Jin, W.D (2008). Model of customer churn prediction on support vector maching. Journal of Systems Enginerring – Theory and Practice.

[Yeshwanth-11] Yeshwanth, V., Raj, V.V. & Saravana, M. (2011). Evolutionary churn prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth internatinoal Floriad artificial intelligence research society conference. Palm Beach, Florida, USA, May 18-20. AAAI Press.

[Ying-13] Ying Huang, M. Tahar Kechadi, An effective hybrid learning system for telecommunication churn prediction. Expert Systems with Applications 40 (2013) 5635–5647.

36

[Ying-11] Ying Huang, Bing Quan Huang, M. Tahar Kechadi. A Rule-Based Method for Customer Churn Prediction in Telecommunication Services. Springer-Verlag Berlin Heidelberg 2011.

[Vapnik-98] Vapnik, V.N. (1998). The nature of statistical learning theory (2nd ed., pp. 23– 57)

[Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier and its application in customer churn prediction. In proceeding of the IEEE international confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october. IEEE.

Website tham khảo:

https://cgi.csc.liv.ac.uk/~frans/KDD/Software/FOIL_PRM_CPAR/foilPrmCpar.html

http://www.saedsayad.com/k_nearest_neighbors.htm

http://www.analyticbridge.com/forum/topics/how-to-develop-churn-prediction-model-for- telecom-company

Một phần của tài liệu Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone (Trang 35)

Tải bản đầy đủ (PDF)

(44 trang)