1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động

50 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,54 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒN VĂN TÂM XÂY DỰNG MƠ HÌNH DỰ ĐỐN KHÁCH HÀNG TIỀM NĂNG CHO CÁC GÓI CƯỚC TRONG MẠNG DI ĐỘNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN TRỌNG HIẾU Hà nội – 12/2019 MỤC LỤC LỜI CẢM ƠN ii LỜI CAM ĐOAN iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG vi Chương 1: Giới thiệu khai phá liệu lĩnh vực viễn thông 1.1 1.2 1.3 1.4 Giới thiệu Khai phá liệu lĩnh vực viễn thông Nhóm tốn quản lý trải nghiệm khách hàng Lựa chọn toán 11 Chương 2: Bài toán dự đoán khách hàng tiềm 12 2.1 2.2 2.3 2.4 2.5 2.6 Phát biểu toán dự đoán khách hàng tiềm 12 Phương pháp định 13 Phương pháp SVM 15 Phương pháp kNN (k người láng giếng gần nhất) 17 Phương pháp ghép nối mơ hình học máy 17 Phương pháp đánh giá 18 Chương 3: Mơ hình đề xuất 20 3.1 Mơ hình đề xuất 20 3.2 Tập liệu tiền xử lý liệu 21 3.3 Tiền xử lý trích xuất đặc trưng 27 Chương 4: Thực nghiệm đánh giá 33 4.1 Môi trường công cụ thực nghiệm 33 4.2 Kịch thực nghiệm 34 4.3 Kết thực nghiệm đánh giá 34 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 i LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo TS Trần Trọng Hiếu – người hướng dẫn, khuyến khích, bảo tạo cho tơi điều kiện tốt từ bắt đầu hoàn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho tơi kiến thức vô quý giá cho điều kiện tốt suốt trình học tập, nghiên cứu trường Cuối cùng, xin cảm ơn tất người thân u gia đình tồn thể bạn bè, đồng nghiệp người giúp đỡ, động viên học tập nghiên cứu chương trình thạc sĩ Đại học Cơng nghệ, ĐHQGHN Luận văn tài trợ đề tài cấp ĐHQGHN mã số QG19.23 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ Công nghệ thông tin “Xây dựng mơ hình dự đốn khách hàng tiềm cho gói cước mạng di động” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng 12 năm 2019 iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KPDL Khai phá liệu CSDL Cơ sở liệu VLR Tập đồn Cơng nghiệp – Viễn thông Quân đội Viettel Tổng đài ghi nhận đăng nhập mạng thuê bao di động (Visitor Location Register) GSM Mạng thông tin di động (Global System for Mobile Communications) CDR Lịch sử gọi (Call Data Record) ARPU Doanh thu trung bình khách hàng (Average revenue per user) SMS Tin nhắn ngắn (Short Message Services) Viettel Telesale CEM Bán hàng qua điện thoại Quản lý trải nghiệm khách hàng iv DANH MỤC HÌNH VẼ Hình 1: Số liệu thuê bao di động theo nhà mạng tháng 01-04/2019 Hình 2: Thị phần di động nhà mạng Hình 3: Ví dụ mơ tả định 13 Hình 4: Siêu phẳng H chia liệu huấn luyện thành lớp với khoảng cách biên lớn (Các điểm gần H nằm H1 H2 vector hỗ trợ) 16 Hình 5: Quy tắc k-NN không gian đặc trưng 2-chiều với k=5 17 Hình 6: Mơ hình dự đốn khách hàng tiềm cho gói cước 20 Hình 7: Phân bố gói cước tập liệu 23 Hình 8: Lược đồ xử lý liệu trích xuất đặc trưng 30 Hình 6: Giao diện cơng cụ khai phá liệu Knime 33 v DANH MỤC BẢNG Bảng 1: Thuật toán xây dựng định 14 Bảng 2: Mô tả trường tập liệu thuê bao 21 Bảng 3: Mô tả gói cước nhãn dự báo 23 Bảng 4: Bảng danh sách trường thông tin tổng hợp kết 27 Bảng 5: Bảng danh sách nhóm đặc trưng trích xuất 31 Bảng 6: Các công cụ thực nghiệm 33 Bảng 7: Môi trường thực nghiệm 34 Bảng 8: Kết thực nghiệm sử dụng thuật toán kNN 34 Bảng 9: Kết thực nghiệm sử dụng thuật toán SVM 35 Bảng 10: Kết thực nghiệm sử dụng thuật toán định 37 Bảng 11: Kết thực nghiệm sử dụng kết hợp mơ hình 38 vi Chương 1: Giới thiệu khai phá liệu lĩnh vực viễn thông 1.1 Giới thiệu Hiện nay, thị trường dịch vụ viễn thông di động Việt Nam đạt mức bão hòa cạnh tranh nhà mạng bước qua giai đoạn mới: cạnh tranh chất lượng chương trình khuyến mại, chất lượng dịch vụ chăm sóc khách hàng, chất lượng mạng vùng pht thực nghiệm sử dụng SVM với macro-F 0.54 micro-F 0.57 cho thấy hiệu so với thuật toán kNN 0.14 với độ đo micro-F Lớp TOM11 đạt kết F tốt 0.71 độ hồi tưởng tốt 0.78, lớp POBAS đạt kết độ xác tốt 0.74 Hầu hết lớp cho kết tốt so với việc sử dụng thuật toán kNN ngoại trừ hai lớp TOMCD (0.37 so với 0.4) ECD50 (0.3 so với 0.52), hai lớp có số lượng liệu thấp c) Thực nghiệm đánh giá kết phân loại sử dụng thuật toán định Thực nghiệm sử dụng thuật toán định sử dụng tham số liên quan đến thuật toán đánh giá tối ưu cây, cụ thể: - Độ đo đánh giá: Gini index Gain ratio - Tỉa cây: khơng tỉa có tỉa 36 - Số lượng nút nhỏ cây: chạy khoảng đến Kết thực nghiệm cho thấy kết tốt độ đo đánh giá Gini, không tỉa số lượng nút nhỏ Bên cạnh thuật tốn khơng sử dụng kỹ thuật chuẩn hóa khoảng biên độ liệu khoảng 0-1 thuật toán Min-Max mà giữ nguyên giá trị dạng số Bảng 10: Kết thực nghiệm sử dụng thuật toán định TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM50 7513 4618 7914 0.58 0.61 0.60 TOM11 4429 3607 5210 0.69 0.81 0.75 POBAS 4409 3217 3487 0.92 0.73 0.81 EXSTUDENT 3367 1964 3574 0.55 0.58 0.57 ECO50 3365 2349 2741 0.86 0.70 0.77 TOM690 2840 2144 3119 0.69 0.75 0.72 TOMA1 2185 1546 2267 0.68 0.71 0.69 TOMCD 1528 1018 1684 0.60 0.67 0.63 ECD50 768 451 512 0.88 0.59 0.70 ECOM1 718 398 614 0.65 0.55 0.60 0.71 0.67 0.69 MACRO-F 0.68 MICRO-F Kết thực nghiệm cho thấy việc sử dụng thuật toán định cho kết tốt SVM 0.11 với độ đo micro-F 0.68 macro-F 0.69 Tất lớp cho kết tốt lớp thuật toán kNN SVM, lớp POBAS cho kết tốt với độ đo F 0.81 độ xác tốt 0.92, lớp TOM11 cho kết độ hồi tưởng tốt 0.81 Tuy nhiên có số lớp kết chưa tốt EXSTUDENT, TOMCD, TOM50 ECOM1 37 d) Thực nghiệm đánh giá kết phân loại sử dụng kết hợp mơ hình Qua thực nghiệm trên, kết thuật toán định cho kết vượt trội so với thực nghiệm sử dụng kỹ thuật khác Tuy nhiên số lớp kết chưa đạt hiệu cao Trong thực nghiệm sử dụng kết hợp mơ hình (ensemble models), luận văn tiến hành ghép nối mơ hình theo tiêu chí sau: - Kết mơ hình sử dụng kNN đầu có giá trị - Kết mơ hình sử dụng SVM đầu có giá trị 1.5 - Kết mơ hình sử dụng định đầu có giá trị Việc đưa giá trị phân lớp thành phần dựa mức độ hiệu thực nghiệm (cây định tốt SVM kNN) Kết từ phân lớp kết hợp tương ứng với nhãn lớp có tổng giá trị cao Ví dụ 1: - Nhãn lớp đầu phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu phân lớp SVM là: ECOM1 (giá trị 1.5) - Nhãn lớp đầu phân lớp định: ECD50 (giá trị 2)  Nhãn lớp đầu mơ hình kết hợp ECD50 (giá trị 2) Ví dụ 2: - Nhãn lớp đầu phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu phân lớp SVM là: TOM11 (giá trị 1.5) - Nhãn lớp đầu phân lớp định: ECD50 (giá trị 2)  Nhãn lớp đầu mơ hình kết hợp TOM11 (giá trị 2.5) Bảng 11: Kết thực nghiệm sử dụng kết hợp mơ hình TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM50 7513 4251 6049 0.70 0.57 0.63 TOM11 4429 3709 5007 0.74 0.84 0.79 POBAS 4409 3547 4158 0.85 0.80 0.83 EXSTUDENT 3367 2143 3689 0.58 0.64 0.61 38 ... trình thạc sĩ Đại học Cơng nghệ, ĐHQGHN Luận văn tài trợ đề tài cấp ĐHQGHN mã số QG19.23 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ Công nghệ thơng tin ? ?Xây dựng mơ hình dự đốn khách hàng tiềm. .. với k=5 17 Hình 6: Mơ hình dự đốn khách hàng tiềm cho gói cước 20 Hình 7: Phân bố gói cước tập liệu 23 Hình 8: Lược đồ xử lý liệu trích xuất đặc trưng 30 Hình 6: Giao di? ??n công cụ... Telesale CEM Bán hàng qua điện thoại Quản lý trải nghiệm khách hàng iv DANH MỤC HÌNH VẼ Hình 1: Số liệu th bao di động theo nhà mạng tháng 01-04/2019 Hình 2: Thị phần di động nhà mạng Hình 3: Ví

Ngày đăng: 06/06/2021, 16:46

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A. Mirza. "Spammer classification using ensemble methods over structural social network features." Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014 Sách, tạp chí
Tiêu đề: Spammer classification using ensemble methods over structural social network features
19. van Wezel, Michiel, and Rob Potharst. "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1 (2007): 436-452 Sách, tạp chí
Tiêu đề: Improved customer choice predictions using ensemble methods
Tác giả: van Wezel, Michiel, and Rob Potharst. "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1
Năm: 2007
1. Hoàng Xuân Huấn, Giáo trình nhận dạng mẫu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.145-178 Khác
2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.249-286Tiếng Anh Khác
1. Almana, A. M., Aksoy, M. S., & Alzahrani, R. (2014). A survey on data mining techniques in customer churn analysis for telecom industry.International Journal of Engineering Research and Applications, 45, 165- 171 Khác
3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297 Khác
4. Giacinto and F. Roli. Design of effective neural network ensembles for image classification purposes. Image and Vision Computing, 19(9-10):699–707, 2001 Khác
5. Giacinto, F. Roli, and G. Fumera. Design of effective multiple classifier systems by clustering of classifiers. In Proceedings of the 15th International Conference on Pattern Recognition, pages 160–163, Barcelona, Spain, 2000 Khác
6. Giacinto, F. Roli, and L. Didaci. Fusion of multiple classifiers for intrusion detection in computer networks. Pattern Recognition Letters, 24(12): 1795–1803, 2003so cu5so moi6 Khác
7. Giacinto, R. Perdisci, M. D. Rio, and F. Roli. Intrusion detection in computer networks by a modular ensemble of one-class classifiers.Information Fusion, 9(1):69–82, 2008 Khác
8. Hilas, C. S., & Mastorocostas, P. A. (2008). An application of supervised and unsupervised learning approaches to telecommunications fraud detection. Knowledge-Based Systems, 21(7), 721-726 Khác
10. Hilas, C. S., Mastorocostas, P. A., & Rekanos, I. T. (2015). Clustering of telecommunications user profiles for fraud detection and security enhancement in large corporate networks: a case study. Applied Mathematics & Information Sciences, 9(4), 1709 Khác
11. Insani, R., & Soemitro, H. L. (2016, May). Data mining for marketing in telecommunication industry. In 2016 IEEE Region 10 Symposium (TENSYMP) (pp. 179-183). IEEE Khác
12. Jansen, S. M. H. (2007). Customer segmentation and customer profiling for a mobile telecommunications company based on usage behavior. A Vodafone Case Study, 66 Khác
13. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015, December). Big data use case domains for telecom operators. In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity) (pp. 850-855). IEEE Khác
14. Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer segmentation and strategy development based on customer lifetime value:A case study. Expert systems with applications, 31(1), 101-107 Khác
15. Li, Q. (2009, April). An algorithm of quantitative association rule on fuzzy clustering with application to cross-selling in telecom industry. In 2009 International Joint Conference on Computational Sciences and Optimization (Vol. 1, pp. 759-762). IEEE Khác
16. Masoud, R., & Ahmed, T. M. (2016). Using data mining in telecommunication industry: Customer's churn prediction model. Journal of Theoretical and Applied Information Technology, 91(2), 322 Khác
17. Russell, S., & Lodwick, W. (1999, June). Fuzzy clustering in data mining for telco database marketing campaigns. In 18th International Khác
18. Tianyuan, Z. (2018). Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w