Mơ hình học giám sát dựa trên hệ thống luật:- 123docz.net

Những hệ thống phân lớp đầu tiên là những hệ sử dụng luật phân lớp bằng cách sử dụng người dùng định nghĩa các luật này. Một trong những hệ nổi tiếng nhất là CONSTRUE được P.J.Hayes và cộng sự (một nhĩm nghiên cứu tại đại học Carnegie Mallon University) phát triển vào những năm 1980 để phân lớp các bản tin cho hãng tin Reauter. Hệ thống này sử dụng luật dưới dạng chuẩn rời nhau.

Hệ thống phân lớp dựa trên luật thường cho kết quả tương đối cao trong những trường hợp người dùng cĩ thể tạo đầy đủ các luật, bao gồm tất cả các trường hợp cĩ thể xảy ra cho bộ phân lớp. Tuy nhiên, phương pháp này cĩ điểm hạn chế là cĩ thể cĩ những luật mâu thuẫn nhau, hoặc cĩ những trường hợp mà luật bỏ sĩt. Ngồi ra, khi dữ liệu thay đổi thì cĩ thể phải cập nhật hoặc sửa đổi lại hệ thống luật phân lớp.

Trong mơ hình của luận văn, sử dụng thuật tốn FOIL để sinh tập các luật. FOIL được đề xuất và phát triển bởi Quinlan [Quinlan, 1990]. Giả mã của FOIL được giới thiệu trong hình 6 và 7. FOIL học các tập dữ liệu chỉ bao gồm hai lớp, trong đĩ một lớp được gọi là “tích cực”. FOIL học mơ tả lớp đối với lớp “tích cực”

Giải thuật FOIL: FOIL (Examples)

11. Pos ← Positive Examples; 12. Neg ← Negative Examples; 13. Learned_rules ← φ ;

14. While Pos is not empty then

15. Rule ← Learn-A-Rule (Examples, Neg);

16. learned_rules ← learned_rules Rule;

17.Pos ← Pos – {Positive examples covered by Rule}; 27

18. Examples ← Examples – {any examples covered by Rule}; 19. End while

20. return learned_rules;

Hình 14: Giả mã học luật FOIL

Giải thuật học 1 luật: Learn-A-Rule (Examples, Neg)

9. Rule ← the most general positive rule; 10. repeat

11. Candidate_cond ← generate candidate conditions for Rule; 12. Best_cond ← max(Foil_Gain);

13. Add Best_cond to the antecedent of Rule;

14. Covered_Neg ← negative examples that are covered by Rule; 15. Until there is no negative examples can be covered;.

16. Return Rule;

Hình 15: Giả mã học 1 luật FOIL

Trong mơ hình lai này, mỗi lớp mẫu “tích cực” sinh ra một tập các luật tương ứng theo FOIL. Các luật này sẽ được sử dụng để phân lớp cho pha sau.

3.6. Phân lớp

Để phân lớp cho các dữ liệu test, mơ hình dựa trên nhãn của các lớp mẫu. Dữ liệu test được phân lớp dựa trên nguyên tắc sau:

 Các dữ liệu test mà cĩ độ chính xác cao nhất bổ sung vào tập dữ liệu mẫu trong pha phân lớp self-training sẽ được giữ nguyên nhãn.

 Tập dữ liệu mẫu được mang ra để sinh các luật trong pha 2.

 Các dữ liệu test gán nhãn “churn” cịn lại trong pha 1 sẽ được phân lớp lại lần 2 theo luật sinh ra trong pha 2 theo các bước sau:

o Nếu dữ liệu test mà thỏa mãn được hết các luật của lớp mẫu thì dữ liệu test được gán nhãn “churn”

o Ngược lại, dữ liệu gán nhãn nonchurn.

Tổng kết chƣơng 3

Trong chương 3, luận văn đã mơ tả mơ hình bài tốn kết hợp giữa bán giám sát self-training và học giám sát dựa trên luật, cũng như quá trình thực hiện các pha của mơ hình. Trong chương tiếp theo, luận văn trình bày chi tiết quá trình thực nghiệm của mơ hình bài tốn.

Chƣơng 4: Thực nghiệm và đánh giá kết quả

Dựa vào cơ sở lý thuyết và mơ hình đề xuất trong chương 3, luận văn tiến hành thực nghiệm việc phân lớp cho các dữ liệu test là các thuê bao trả sau Vinaphone để tìm ra các thuê bao cĩ nguy cơ rời mạng.

 Đầu vào của hệ thống:

o Tập dữ liệu mẫu: 1000 thuê bao trả sau Vinaphone mẫu được gán nhãn nonchurn và 447 thuê bao trả sau được gán nhãn “churn”. o Tập dữ liệu test: 500 thuê bao trả sau Vinaphone

 Đầu ra của hệ thống: Các thuê bao test được gán nhãn “churn”.

4.1. Mơi trƣờng thực nghiệm:

Quá trình thực nghiệm của luận văn được thực hiện trên máy tính cĩ cấu hình:  Chip: Core-i5 , 2.27GHZ

 Ram: 4GB

 Hệ điều hành: Windows 7 - 32 bit

 Cơng cụ lập trình: Eclipse, java 7, Oracle 11g, Sql Navigator 7.0. Các cơng cụ phần mềm và mã nguơn mở được liệt kê trong bảng dưới đây:

STT Tên phần mềm

1 FOIL Cargen

2 Giải thuật KNN

Bảng 7: Phần mềm sử dụng trong luận văn 4.2. Quá trình thực nghiệm

4.2.1. Mơ tả dữ liệu

 1000 thuê bao Vinaphone gán nhãn “nonchurn”, 447 thuê bao Vinaphone gán nhãn “churn”. Các thuê bao mẫu được gán nhãn dựa theo dữ liệu thực tế cĩ rời mạng hay khơng trong tháng 09/2015.

 500 thuê bao Vinaphone dùng để test.

 Dữ liệu của các thuê bao bao gồm: 20 trường thơng tin o Dữ liệu cước trong tháng 06, 07, 08/2015.

o Dữ liệu nợ trong tháng 06, 07, 08/2015 30

o Dữ liệu số cuộc gọi đi trong tháng 07, 08/2015 o Dữ liệu số phút cuộc gọi đi trong tháng 07, 08/2015

o Dữ liệu số lần thanh tốn trong tháng 08/2015

o Dữ liệu số cuộc nhắn tin trong tháng 07, 08/2015 o

Dữ liệu số cuộc sử dụng data trong tháng 08/2015

o Dữ liệu số dịch vụ giá trị gia tăng trong tháng 08/2015

o Dữ liệu lưu lượng data thực tế sử dụng trong tháng 08/2015

o Dữ liệu loại khách hàng: Khách hàng cá nhân, khách hàng doanh nghiệp

o Dữ liệu khuyến mại, gĩi cước tháng 08/2015

o Dữ liệu số ngày thuê bao hoạt động trong tháng 08/2015

o Dữ liệu kiểu thanh tốn của thuê bao: Ezpay, in hĩa đơn

 Dữ liệu của thuê bao sẽ được dùng để dự đốn cho các thuê bao test cĩ nguy cơ rời mạng trong tháng 09/2015.

 Ví dụ một số trường dữ liệu của thuê bao

MA_TB LABLE --- --- 84913248981nonchurn 84913248986nonchurn 84913249197nonchurn 84913306981churn 84913513939nonchurn 84913528338nonchurn 84913568188nonchurn 84913923981churn 84914045386churn

Bảng 8: Bảng mơ tả dữ liệu mẫu

Trọng số các thuộc tính:

Bảng 9: Trọng số một số thuộc tính dữ liệu

4.2.2 . Quá trình thực nghiệm Chuẩn hĩa dữ liệu:

 Các dữ liệu dạng chữ được biểu diễn thành dạng số, cụ thể: o Khách hàng cá nhân: 1, khách hàng doanh nghiệp: 0

o Cĩ gĩi cước khuyến mại: 1, khơng cĩ gĩi cước khuyến mại: 0 o Kiểu thanh tốn: Ezpay: 1, hĩa đơn: 0

o Các dữ liệu về cước, nợ, khuyến mại chuẩn hĩa chia cho 100000. (do khoảng cách với các dữ liệu cịn lại quá lớn).

 Lấy 1/3 thuê bao mẫu cĩ độ tương đồng cao nhất với dữ liệu test để xem xét và gán nhãn cho thuê bao test khi phân lớp KNN

 Tại mỗi vịng lặp Self-training: lấy 5% dữ liệu test cĩ độ chính xác cao nhất để bổ sung vào tập dữ liệu mẫu.

 Dữ liệu mẫu cĩ độ chính xác cao nhất là dữ liệu cĩ độ chênh lệch giữa thuê bao gán nhãn mẫu cao nhất. Ví dụ, trong 500 thuê bao cĩ độ tương đồng cao nhất với thuê bao test, cĩ 100 thuê bao gán nhãn “churn” và 400 thuê bao gán nhãn “nonchurn”, thì thuê bao test được gán nhãn “nonchurn”, độ chênh lệch giữa thuê bao gán nhãn mẫu là |100 - 400| = 300.

Sinh tập luật:

Tập luật sinh ra cĩ dạng: “IF(điều_kiện) THEN” Ví dụ luật:

IF(cuoc08<49000&&no<10000&&accDate < 25) THEN LABLE=’CHURN’

4.3. Kết quả thực nghiệm

4.3.1. Đánh giá kết quả thực nghiệm

Tỉ lệ dự đốn được đánh giá bằng tỉ lệ rời mạng đúng (True churn rate - TP) và tỉ lệ rời mạng sai (false churn – FP). Mục tiêu của phương pháp là đạt tỉ lệ TP cao và tỉ lệ FP thấp. Bảng 3 định nghĩa ma trận về tỉ lệ TP và FP, trong đĩ, a11 là số churner được dự đốn đúng, a12 là số churner được dự đốn sai, a21 là số non-churn được dự đốn đúng và a22 là số non-churn dự đốn sai. Theo ma trận, tỉ lệ TP được định nghĩa là tỉ lệ các churner được phân lớp đúng, tính theo cơng thức:

TP =

Và FP được định nghĩa là tỉ lệ các churner được phân lớp sai, tính theo cơng thức:

FP =

21 32

Confusion matrix

Bảng 10: Ma trận Confusion

Trong bài tốn phân lớp nhị phân, độ chính xác được tính theo cơng thức:

Accuracy= Number _ of _ correct _ predictions Total _ number _ of _ predictions

Ngồi ra, luận văn cũng sử dụng độ đo f1 để đánh tỉ lệ dự đốn đúng cho lớp gán nhãn “churn” Độ hồi tưởng: = TP TP+FP Độ chính xác: = TP TP+FN

Độ đo f1 được tính bằng cơng thức:

Với trọng số Weight2, kết quả thực nghiệm như sau:

KNN

Self-training

Mơ hình lai

Bảng 11: Kết quả thực nghiệm với trọng số weight2

KNN

Self-training

Mơ hình lai

Bảng 12: Kết quả thực nghiệm với trọng số weight1 4.4. Đánh giá kết quả và hƣớng nghiên cứu tiếp theo

 Kết quả thực nghiệm cho thấy mơ hình lai cho độ chính xác cao hơn so với mơ hình đơn (K-NN và Self-training). Kết quả cũng cho thấy, với trọng số weight2, độ chính xác cũng cao hơn (trọng số weight2 đánh giá cao các thuộc tính về nợ, cước của khách hàng hơn so với trọng số weight1).

 Trong thời gian tới, luận văn thử nghiệm thêm mơ hình với các hệ số weight khác nhau, để tìm ra hệ số weight cho kết quả tối ưu hơn.

 Luận văn cũng nghiên cứu, thử thay đổi mơ hình để áp dụng với hiện trạng thực tế của mạng Vinaphone.

4.5. Tĩm tắt chƣơng 4

Trong chương 4, luận văn đã trình bày quá trình thực nghiệm mơ hình, các bước thực hiện, kết quả khi áp dụng mơ hình. Đồng thời, sử dụng các độ đo chính xác, độ đo hồi tưởng, độ đo f1 để đánh giá hiệu quả của mơ hình.

Tài liệu tham khảo

[Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M.. Aliannejadi, Iman Ahmadian,

Mahdieh Mozaffari, and Uldoz Abbasi. Improved churn prediction in telecommunication industry using data mining techniques. Applied Soft Computing Journal 24, no. 4 (2014).

[Au-03] Au, W., Chan, C., & Yao, X. (2003). A novel evolutionary data mining algorithm

with applications to churn prediction. IEEE Transactions on Evolutionary Computation, 7, 532–545.

[Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley. Customer churn

prediction in telecommunications. Expert Systems with Applications 39 (2012) 1414–1425.

[Bradley-97] Bradley, A. P. (1997). The use of the area under the roc curve in the evaluation of machine learning algorithms. Pattern Recognition, 30, 1145–1159.

[Burges-98] Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2), 121–167.

[Langley-92] Langley, P., Iba, W., & Thompson, K. (1992). An analysis of Bayesian classifiers. In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp. 223–228). MIT Press.

[Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model. Proceedings of the second international conference on advanced data mining and applications, Xi’an, China, August 14-16. Berlin, heidelgerg: Springer-verlag.

[Lejeune-01] Lejeune, M. (2001). Measuring the impact of data mining on churn management. Internet Research: Electronic Network Applications and Policy, 11(5), 375–387.

[Ngai-08] Eric W. T. Ngai, Li Xiu, Dorothy C. K. Chau. Application of data mining techniques in customer relationship management A literature review and classification.

[Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009). Application of dataa mining techniques in customer relatonship management: A literature review and classification Journal of expert System with Applications, 36, 2592-2602.

[Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations by error propagation (Vol. 1). MA: MIT Press.

[SAS-2000] SAS Institute, (2000). Best Price in Churn Prediction, SAS Institute White Paper.

[Shin-06] Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang. Applying data mining to telecom

churn management. Expert Syst. Appl. 31(3).

[Xia-08] Xia, G, E &dong Jin, W.D (2008). Model of customer churn prediction on support

vector maching. Journal of Systems Enginerring – Theory and Practice.

[Yeshwanth-11] Yeshwanth, V., Raj, V.V. & Saravana, M. (2011). Evolutionary churn prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth internatinoal Floriad artificial intelligence research society conference. Palm Beach, Florida, USA, May 18-20. AAAI Press.

[Ying-13] Ying Huang, M. Tahar Kechadi, An effective hybrid learning system for telecommunication churn prediction. Expert Systems with Applications 40 (2013) 5635–5647.

[Ying-11] Ying Huang, Bing Quan Huang, M. Tahar Kechadi. A Rule-Based Method for Customer Churn Prediction in Telecommunication Services. Springer-Verlag Berlin Heidelberg 2011.

[Vapnik-98] Vapnik, V.N. (1998). The nature of statistical learning theory (2nd ed., pp. 23– 57)

[Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier and

its application in customer churn prediction. In proceeding of the IEEE international confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october. IEEE.

Website tham khảo:

https://cgi.csc.liv.ac.uk/~frans/KDD/Software/FOIL_PRM_CPAR/foilPrmCpar.html http://www.saedsayad.com/k_nearest_neighbors.htm

http://www.analyticbridge.com/forum/topics/how-to-develop-churn-prediction-model-for- telecom-company