Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
1 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒN MỘT MƠ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG CÓ NGUY CƠ RỜI MẠNG VINAPHONE LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ HỒN MỘT MƠ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT CHO BÀI TỐN DỰ BÁO KHÁCH HÀNG CĨ NGUY CƠ RỜI MẠNG VINAPHONE Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số:60.48.01.04 LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2015 iii Lời cảm ơn Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, người Thầy bảo hướng dẫn tận tình cho tơi suốt q trình từ sinh viên, tới học thạc sĩ suốt trình nghiên cứu thực luận văn Tôi xin chân thành cảm ơn dậy bảo, giúp đỡ, tạo điều kiện Thầy, Cô trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội suốt q trình tơi học tập Trường Tơi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi q trình nghiên cứu Thầy, Cơ, anh chị phịng thí nghiệm Khoa học liệu Công nghệ tri thức (DS&KTLAB) Đề tài ĐHQGHN QG.14.13 Cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người bên lúc khó khăn, động viên, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Tác giả Nguyễn Thị Hồn i Lời cam đoan Tơi xin cam đoan luận văn hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu toán dự báo khách hàng rời mạng nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu đưa không chép nguyên từ nguồn tài liệu khác ii Mục lục Lời cảm ơn i Danh mục hình vẽ bảng biểu v Danh mục từ viết tắt vi Mở đầu Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng 1.1.Bài toán dự đoán khách hàng rời mạng 1.2.Vai trò khai phá liệu quản lý khách hàng rời mạng 1.3 Một số nghiên cứu cho toán dự đoán khách hàng rời mạng 1.3.1 Đánh giá hiệu mơ hình 1.3.2 Một số mơ hình nghiên cứu dự đốn khách hàng rời mạng 1.4.Tóm tắt chương Chƣơng 2: Một số mô hình điển hình cho tốn dự đốn khách hàng rời mạng9 2.1 Mơ hình dựa luật cho toán dự đoán khách hàng rời mạng dịch vụ viễn thông 2.1.1 Giới thiệu mơ hình phân lớp dựa luật 2.1.2 Mơ hình sinh luật 2.1.3 Phân lớp 12 2.1.4 Kết đánh giá mơ hình 13 2.2 Mơ hình học lai cho tốn dự đốn khách hàng rời mạng 15 2.3 Tóm tắt chương 21 Chƣơng 3: Mơ hình kết hợp giám sát bán giám sát cho toán dự đoán khách hàng rời mạng 22 3.1 Tiếp cận mơ hình toán 22 3.2 Tiền xử lý liệu 24 3.3 Mơ hình học giám sát dựa thuật toán K-NN 24 3.4 Mơ hình học bán giám sát dựa thuật toán self-training 25 3.5 Mơ hình học giám sát dựa hệ thống luật: 27 3.6 Phân lớp 28 Tổng kết chương 29 iii Chƣơng 4: Thực nghiệm đánh giá kết 30 4.1 Môi trường thực nghiệm: 30 4.2 Quá trình thực nghiệm 30 4.3 Kết thực nghiệm 32 4.4 Đánh giá kết hướng nghiên cứu 34 4.5.Tóm tắt chương 34 Tài liệu tham khảo 35 iv Danh mục hình vẽ bảng biểu Hình 1: So sánh độ AUC mơ hình 14 Hình 2: So sánh AUC mơ hình CRL DMEL cho tỉ lệ churn rate khác 15 Hình 3: So sánh AUC cho mơ hình CRL DMEL với tập liệu UCI 15 Hình 4: Giải thuật sinh luật FOIL 17 Hình 5: Giải thuật sinh luật FOIL 18 Hình 6: Mơ hình dự đoán lai cua Ying Hwuang cộng 18 Hình 7: So sánh đường cong ROC, AUC với kỹ thuật phân lớp khác 21 Hình 8: So sánh hiệu mơ hình lai đề xuất mơ hình lai khác dựa ROC 21 Hình 9: Mơ hình kết hợp học giám sát bán giám sát 23 Hình 10: Một ví dụ phân lớp KNN 25 Hình 11: Mơ hình học bán giám sát Self-training 26 Hình 12: Sơ đồ thuật toán Self-training 27 Hình 13: Giả mã học luật FOIL 28 Hình 14: Giả mã học luật FOIL 28 Bảng 1: Tỉ lệ rời mạng mạng Hàn Quốc năm 2007-2008 Bảng 2: Chức năng, kỹ thuật khai phá liệu ứng dụng Bảng 3: Ma trận Confusion Bảng 4: Tập liệu cho mơ hình dự đoán dựa luật 13 Bảng 5: Tập liệu mơ hình Ying Hwuang cộng 20 Bảng 6: Kết mơ hình Ying Hwuang cộng sử dụng độ đo AUC 20 Bảng 7: So sánh mơ hình Ying Hwuang cộng với số mơ hình khác 20 Bảng 8: Phần mềm sử dụng luận văn 30 Bảng 9: Bảng mô tả liệu mẫu 31 Bảng 10: Trọng số số thuộc tính liệu 31 Bảng 11: Ma trận Confusion 33 Bảng 12: Kết thực nghiệm với trọng số weight2 33 Bảng 13: Kết thực nghiệm với trọng số weight1 34 v Danh mục từ viết tắt STT Từ/cụm từ Tên viết tắt K Nearest Neigbours KNN Area Under ROC AUC Support Vector Machines SVM Classification by Rules Learning CRL Data Mining by Evolutionary Learning DMEL True Prediction/False Prediction TP/FP First Order Inductive Learning FOIL vi Mở đầu Sự phát triển mạnh mẽ công nghệ viễn thông năm gần mở nhiều hội cho nhà cung cấp dịch vụ mạng di động Song song với việc mở rộng phát triển khách hàng mới, việc quản lý khách hàng cũ nhiệm vụ quan trọng Dự báo khách hàng có nguy rời mạng phần trọng yếu quản lý khách hàng rời mạng Xác định khách hàng có nguy rời mạng giúp nhà cung cấp dịch vụ kịp thời đưa biện pháp, phương thức để quản lý, chăm sóc khách hàng, tránh để khách hàng rời bỏ dịch vụ Nhiều mơ hình cho tốn dự báo khách hàng rời mạng nghiên cứu phát triển Các cơng trình nghiên cứu dự báo khách hàng rời mạng công bố hội nghị tiếng Elsevier1 áp dụng thực tế nhà mạng lớn Taiwan Mobile Đài Loan, China Mobile, Trung Quốc, T&T Mỹ Nội dung luận văn thạc sĩ “Một mơ hình kết hợp học giám sát bán giám sát cho toán dự báo khách hàng có nguy rời mạng Vinaphone” tập trung vào nghiên cứu, khảo sát, đánh giá đề xuất mơ hình dự đốn khách hàng rời mạng, bên cạnh đó, áp dụng mơ hình cho dự đốn khách hàng có nguy rời bỏ mạng viễn thơng VinaPhone Ngồi phần mở đầu kết luận, luận văn đƣợc tổ chức thành chƣơng nhƣ sau: Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng giới thiệu khái quát dự đoán khách hàng rời mạng viễn thơng, khái niệm liên quan Trình bày vai trò khai phá liệu dự đoán khách hàng rời mạng Một số nghiên cứu toán dự đoán khách hàng rời mạng Chƣơng 2: Một số mơ hình điển hình cho tốn dự báo khách hàng rời mạng giới thiệu số mô hình điển hình cho tốn dự bao khách hàng rời mạng Chƣơng 3: Kết hợp học giám sát bán giám sát cho toán dự đoán khách hàng rời mạng phân tích, đề xuất, trình bày mơ hình kết hợp học bán giám sát self-training học giám sát dựa luật cho toán dự đoán khách hàng có nguy rời mạng Chƣơng 4: Thực nghiệm đánh giá kết trình bày trình thực nghiệm luận văn, đưa số đánh giá hiệu mơ hình, nhận xét kết đạt Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng Bài toán dự đoán khách hàng rời mạng Trong năm gần đây, có nhiều thay đổi lớn cơng nghiệp viễn thông mở rộng thị trường, dịch vụ công nghệ dẫn đến cạnh tranh khốc liệt thị trường viễn thông Việc rời bỏ mạng khách hàng làm sụt 1.1 giảm lượng lớn dịch vụ viễn thơng khiến trở thành vấn đề nghiêm trọng nhà cung cấp dịch vụ Khách hàng rời mạng (customer churn) xem khách hàng có giá trị rời bỏ sử dụng dịch nhà mạng sang sử dụng dịch vụ nhà mạng khác Quản lý khách hàng rời mạng (churn management) sách xử lý nhà mạng nhằm giữ chân khách hàng có nguy rời mạng Một thách thức “churn management” dự đoán “churner” Bài toán dự đoán khách hàng rời mạng (churn prediction) tìm “churner” dựa thuộc tính khách hàng như: liệu hợp đồng, thông tin khách hàng, log sử dụng dịch vụ, chi tiết gọi, liệu khiếu nại, thơng tin hóa đơn tốn Theo nghiên cứu thị trường Berson, Smitch cộng năm 2000 [C1_06], tỉ lệ khách hàng ngưng sử dụng dịch vụ nhà mạng di động lên tới 2% tháng Điều có nghĩa nhà mạng gần ¼ lượng khách hàng năm, nữa, nhà mạng Châu Á phải đối mặt với nhiều thách thức rời mạng nhà mạng khác giới Hình 1: Tỉ lệ rời mạng số mạng Châu Âu năm 2010-2011(1) Trên thực tế, nhà mạng phân đoạn khách hàng họ dựa lợi ích mà khách hàng mang lại quản lý khách hàng dựa phân đoạn khách hàng có lợi ích Tuy nhiên, công nghiệp dịch vụ viễn thông tiêu Tài liệu tham khảo [Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M Aliannejadi, Iman Ahmadian, Mahdieh Mozaffari, and Uldoz Abbasi Improved churn prediction in telecommunication industry using data mining techniques Applied Soft Computing Journal 24, no (2014) [Au-03] Au, W., Chan, C., & Yao, X (2003) A novel evolutionary data mining algorithm with applications to churn prediction IEEE Transactions on Evolutionary Computation, 7, 532–545 [Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley Customer churn prediction in telecommunications Expert Systems with Applications 39 (2012) 1414–1425 [Bradley-97] Bradley, A P (1997) The use of the area under the roc curve in the evaluation of machine learning algorithms Pattern Recognition, 30, 1145–1159 [Burges-98] Burges, C J C (1998) A tutorial on support vector machines for pattern recognition Data Mining and Knowledge Discovery, 2(2), 121–167 [Langley-92] Langley, P., Iba, W., & Thompson, K (1992) An analysis of Bayesian classifiers In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp 223–228) MIT Press [Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model Proceedings of the second international conference on advanced data mining and applications, Xi’an, China, August 14-16 Berlin, heidelgerg: Springer-verlag [Lejeune-01] Lejeune, M (2001) Measuring the impact of data mining on churn management Internet Research: Electronic Network Applications and Policy, 11(5), 375–387 [Ngai-08] Eric W T Ngai, Li Xiu, Dorothy C K Chau Application of data mining techniques in customer relationship management A literature review and classification [Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009) Application of dataa mining techniques in customer relatonship management: A literature review and classification Journal of expert System with Applications, 36, 2592-2602 [Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R (1986) Learning internal representations by error propagation (Vol 1) MA: MIT Press [SAS-2000] SAS Institute, (2000) Best Price in Churn Prediction, SAS Institute White Paper [Shin-06] Shin-Yuan Hung, David C Yen, Hsiu-Yu Wang Applying data mining to telecom churn management Expert Syst Appl 31(3) [Xia-08] Xia, G, E &dong Jin, W.D (2008) Model of customer churn prediction on support vector maching Journal of Systems Enginerring – Theory and Practice [Yeshwanth-11] Yeshwanth, V., Raj, V.V & Saravana, M (2011) Evolutionary churn prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth internatinoal Floriad artificial intelligence research society conference Palm Beach, Florida, USA, May 18-20 AAAI Press [Ying-13] Ying Huang, M Tahar Kechadi, An effective hybrid learning system for telecommunication churn prediction Expert Systems with Applications 40 (2013) 5635–5647 35 [Ying-11] Ying Huang, Bing Quan Huang, M Tahar Kechadi A Rule-Based Method for Customer Churn Prediction in Telecommunication Services Springer-Verlag Berlin Heidelberg 2011 [Vapnik-98] Vapnik, V.N (1998) The nature of statistical learning theory (2nd ed., pp 23– 57) [Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier and its application in customer churn prediction In proceeding of the IEEE international confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october IEEE Website tham khảo: https://cgi.csc.liv.ac.uk/~frans/KDD/Software/FOIL_PRM_CPAR/foilPrmCpar.html http://www.saedsayad.com/k_nearest_neighbors.htm http://www.analyticbridge.com/forum/topics/how-to-develop-churn-prediction-model-fortelecom-company 36 ... điển hình cho tốn dự báo khách hàng rời mạng giới thiệu số mơ hình điển hình cho tốn dự bao khách hàng rời mạng Chƣơng 3: Kết hợp học giám sát bán giám sát cho toán dự đoán khách hàng rời mạng. .. sĩ ? ?Một mơ hình kết hợp học giám sát bán giám sát cho toán dự báo khách hàng có nguy rời mạng Vinaphone? ?? tập trung vào nghiên cứu, khảo sát, đánh giá đề xuất mơ hình dự đốn khách hàng rời mạng, ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUY? ??N THỊ HỒN MỘT MƠ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG CÓ NGUY CƠ RỜI MẠNG VINAPHONE Ngành: