1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông 04

62 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 557,53 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội -2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐỐN TH BAO RỜI MẠNG VIỄN THƠNG Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU Hà Nội -2014 LỜI CẢM ƠN Trước hết, xin gửi lời cảm ơn sâu sắc đến TS Phan Xuân Hiếu - Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội, người tận tình hướng dẫn, bảo định hướng cho tơi suốt q trình thực luận văn tốt nghiệp Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội thầy cô giáo giảng dạy suốt thời gian học tập trường, tạo điều kiện giúp đỡ tơi hồn thiện luận văn Xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên giúp đỡ thời gian học tập hồn thành luận văn Trong q trình nghiên cứu, thực hiện, cố gắng, nỗ lực để hồn thiện, luận văn tơi khơng tránh khỏi thiếu sót hạn chế Kính mong nhận đóng góp thầy bạn Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thị Như Ngọc LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Tôi xin chịu tồn trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, tháng 10 năm 2014 Tác giả Nguyễn Thị Như Ngọc MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG 1.1.Thị trường thông tin di động Việt Nam 1.2.Khái niệm “churn” 1.3.Phân loại “churn” 1.4.Các nghiên cứu liên quan 1.5.Mục tiêu phạm vi đề tài Chương KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG 2.1 Lý thuyết khai phá liệu 2.1.1 Tại cần khai phá liệu 2.1.2 Khái niệm khai phá liệu 2.1.3 Các toán khai phá liệu điển hình 2.2.Mơ hình kho liệu di động 2.2.1 Tầng 2.2.2 Tầng 2.2.3 Tầng 2.3.Một số ứng dụng khai phá liệu di động 2.3.1 Phân tích dự đốn nhu cầu sử dụng sản phẩm, dịch vụ 2.3.2 Nhận dạng dự đoán biểu gian lận 2.3.3 Phân tích dự đốn th bao rời mạng 2.3.4 Dự đoán nhu cầu tăng dung lượng đường truyền Chương BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG 3.1.Phát biểu toán 3.2.Phân lớp liệu thuê bao rời mạng 3.2.1 Dữ liệu 3.2.2 Lựa chọn thuộc tính 3.2.3 Cây định C4.5 3.2.4 Naïve Bayes 3.2.5 Support Vector Machines 3.2.6 Neural Networks 3.2.7 Mơ hình đánh giá hiệu Chương THỰC NGHIỆ 4.1 Dữ liệu thực nghiệm 4.2 Thực nghiệm 4.2.1 Phân lớp liệ 4.2.2 Phân lớp sử dụ 4.2.3 Phân lớp sử dụ 4.2.4 Phân lớp sử dụ 4.3 Đánh giá hiệu KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC PHỤ LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ Bộ TT&TT ITU USD KPDL KDD DWH OLAP VAS NB SVM NN DANH MỤC HÌNH ẢNH Hình - Tình hình phát triển thuê bao di động Việt Nam tính đến năm 2012 Hình - Doanh thu dịch vụ di động Việt Nam tính đến năm 2012 Hình - Thị phần nhà cung cấp dịch vụ di động Việt Nam Hình - Quá trình phát tri thức CSDL Hình - Mơ hình kho liệu di động Hình - Tiến trình phân lớp liệu Hình - Mơ hình quan hệ bảng liệu Hình - Các giai đoạn mơ hình dự đốn th bao rời mạng Hình - Lựa chọn thuộc tính phân lớp liệu Hình 10 - Số lượng thuộc tính thu thập Hình 11 - Ví dụ định Hình 12 - Nhiều mặt phẳng phân tách liệu Hình 13 - Siêu mặt phẳng phân tách Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp Hình 15 - Mạng nơ- ron hồi quy Hình 16 - Dữ liệu thực nghiệm Hình 17 - Dữ liệu rời rạc Hình 18 - Thực phân lớp với thuật tốn Nạve Bayes Hình 19 - Thực phân lớp với thuật toán SVM Hình 20 - Thực phân lớp với thuật tốn Neural Networks Hình 21 - Hiệu thuật toán với lớp thuê bao rời mạng DANH MỤC BẢNG BIỂU Bảng - Ma trận nhầm lẫn Bảng - Kết mơ hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/10 Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/2 Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/1 Bảng - Kết mơ hình phân lớp sử dụng NB với tỷ lệ mẫu khác Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/10 Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/2 Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/1 Bảng 10 - Kết mơ hình phân lớp sử dụng SVM với tỉ lệ mẫu khác Bảng 11 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/10 Bảng 12 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 Bảng 13 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 Bảng 14 - Kết mơ hình phân lớp sử dụng NN với tỉ lệ mẫu khác Bảng 15 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/10 Bảng 16 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/2 Bảng 17 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/1 Bảng 18 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp C4.5 Bảng 19 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp Naïve Bayes Bảng 20 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp SVM Bảng 21 - Bảng đánh giá hiệu với liệu test mô hình phân lớp NN MỞ ĐẦU Dịch vụ thông tin di động ngày phát triển mạnh mẽ, trở thành phần tất yếu sống người dân Việt Nam Với đời hàng loạt nhà cung cấp dịch vụ mạng điện thoại di động Quản lý thông tin thuê bao di động nhằm nâng cao khả chăm sóc khách hàng, đưa chiến lược kinh doanh việc thiếu nhà cung cấp dịch vụ mạng di động Ngày “kho liệu” trở thành khái niệm quen thuộc doanh nghiệp, “kho liệu” hỗ trợ doanh nghiệp định cho hoạt động tăng tập trung vào khách hàng phân tích mơ hình khách hàng, so sánh hiệu suất doanh số bán hàng theo quý, theo năm, theo vùng địa lý để điều chỉnh chiến lược sản xuất, phân tích hoạt động tìm kiếm nguồn lợi nhuận, quản lý mối quan hệ khách hàng, điều chỉnh môi trường quản lý chi phí tài sản cơng ty Xây dựng kho liệu thuê bao di động hướng đắn nhằm nâng cao lực cạnh tranh chăm sóc khách hàng nhà mạng di động Trong bối cảnh thị trường viễn thông vào giai đoạn bão hòa, khách hàng ngày đòi hỏi cao chất lượng dịch vụ Hơn khách hàng có nhiều lựa chọn có quyền chuyển đổi nhà cung cấp dịch vụ, kết khách hàng rời mạng tăng lên cách nhanh chóng Đối mặt với thách thức này, nhà cung cấp dịch vụ viễn thông cần phải đưa hoạch định chiến lược để giữ chân khách hàng Các yếu tố quan trọng để giữ chân khách hàng dự đoán khách hàng rời mạng chiến lược phòng chống khách hàng rời mạng hiệu Hướng nghiên cứu từ kho liệu di động thực khai thác, phân tích nhằm phát hành vi rời mạng thuê bao dự đoán thuê bao rời mạng cho đề tài luận văn Luận văn xây dựng dựa theo lý thuyết khai phá liệu nhà khoa học nghiên cứu đồng thời xin trình bày quan điểm riêng việc áp dụng khai phá liệu phát hành vi dự đoán thuê bao rời mạng Dữ liệu sử dụng luận văn liệu “anonymous”, mang tính chất nghiên cứu khơng tiết lộ thông tin tổ chức hay cá nhân Luận văn chia thành chương sau: Chương 1: Trình bày tổng quan thuê bao rời mạng viễn thông, khái niệm thuê bao rời mạng, phân biệt hình thức rời mạng thuê bao cần thiết việc dự đoán thuê bao rời mạng Chương 2: Trình bày lý thuyết khai phá liệu di động Các ứng dụng khai phá liệu di động như: Dự đoán xu hướng phát triển sản phẩm dịch vụ, nhận dạng dự đoán gian lận, dự đoán nhu cầu tăng dung lượng đường truyền Chương 3: Trình bày tốn phân lớp liệu thuê bao rời mạng, đầu vào dầu tốn Đưa mơ hình kho liệu di động mơ hình phân lớp liệu thuê bao rời mạng Dữ liệu trích xuất từ kho liệu di động thuật toán 42 Mơ hình định C4.5 TP Rate 0.678 0.669 0.669 Bảng 18 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp C4.5 Mơ hình Nạve Bayes TP Rate 0.684 0.687 0.687 Bảng 19 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp Nạve Bayes Mơ hình Support vector machine TP Rate 0.617 0.727 0.726 Bảng 20 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp SVM Mơ hình Neural Networks TP Rate 0.606 0.662 0.662 Bảng 21 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp NN Từ kết xác nhận mơ hình với liệu test, ta thấy tỷ lệ phân lớp thuê bao rời mạng vào khoảng 60% 43 KẾT LUẬN Trong giai đoạn thị trường viễn thơng vào giai đoạn bão hịa nay, việc thuê bao rời mạng ảnh hưởng đến doanh thu nhà mạng mà kéo theo hàng loạt hiệu ứng khác kèm theo Bởi dự đoán thuê bao rời mạng để đưa chiến lược kinh doanh hợp lý nhằm ngăn khách hàng rời mạng điều vô cần thiết nhà mạng Trong luận văn nghiên cứu, tìm hiểu phân tích liệu th bao di động đạt kết sau Nội dung đạt đƣợc Đưa nhìn tổng quan thuê bao rời mạng, khái niệm thuê bao rời mạng, hình thức rời mạng thuê bao Trình bày lý thuyết khai phá liệu, ứng dụng khai phá liệu di động dự đoán xu hướng phát triển sản phẩm dịch vụ, dự đoán biểu gian lận dự đoán tăng dung lượng đường truyền Đưa mơ hình phân lớp liệu thuê bao trả sau rời mạng, sử dụng thuật toán định C4.5, NB, SVM Neural Networks Sau tìm hiểu nghiên cứu lý thuyết phân lớp liệu thuê bao di động rời mạng, thực nghiệm phân lớp liệu di động với liệu cụ thể đánh giá hiệu thuật toán Hƣớng tiếp cận tƣơng lai Do thời gian có hạn với thuê bao trả trước thuê bao trả sau có nhiều điểm khác biệt hình thức tốn, giá cước sử dụng hay thuê bao trả trước rời mạng thời gian dài trước nhà mạng nhận ra… nên luận văn, toán phân lớp liệu thuê bao rời mạng thực phân tích liệu thuê bao trả sau mà chưa thể áp dụng cho thuê bao trả trước Vì xây dựng toán phân lớp thuê bao rời mạng cho thuê bao trả trước hướng nghiên cứu tương lai 44 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Ðoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Khai phá liệu Web, NXB Giáo Dục [2] TS Phan Xuân Hiếu, Bài giảng khai phá liệu – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội [3] TS Nguyễn Văn Vinh, Bài giảng trí tuệ nhân tạo – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội [4] Bộ Thông Tin Truyền Thông (2013), Sách Trắng Công nghệ thông tin Truyền thông 2013, NXB Thông Tin Truyền Thông [5] Phạm Văn Thùy, Luận văn “Khai thác phân tích liệu ngân hàng nhằm phát rủi ro hỗ trợ định quản trị”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K18 [6] Lê Thị Thùy Linh, Khóa luận tốt nghiệp “Nghiên cứu thuật toán phân lớp liệu dựa định” - Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K46 [7] Đỗ Thi Cẩm Vân (2004), Luận văn“Học mạng nơron theo mơ hình SOM ứng dụng bàitoán quản lý khách hàng vay vốn Ngân hàng”, Đại học Công Nghệ Đại Học Quốc gia Hà Nội [8] 20 năm di động Việt Nam: Đòn bẩy nằm đâu?Ictnews, http://ictnews.vn/vienthong/20-nam-di-dong-viet-nam-don-bay-nam-o-dau-111420.ict Tiếng Anh [9] Jiawei Han University of Illinois at Urbana–Champaign, Micheline Kamber, Jian Pei Simon Fraser University(2012) , Data Mining: Concepts and Techniques - Third Edition [10] K H Liao and H E Chueh (2011), Applying fuzzy data mining to telecom churn management - Intelligent Computing and Information Science 45 [11] Pushpa and G.Shobha (2012), Social Network Analysis for Churn Prediction in Telecom data [12] J O Daramola, O O Oladipupo, and G A Musa, A data mining process framework for churn management in mobile telecommunication industry [13] E Shaaban, Y Helmy, A Khedr, and M Nasr, A proposed churn prediction model - International Journal of Engineering Research and Applications [14] Georges D Olle Olle and Shuqin Cai (2014), A Hybrid Churn Prediction Model in Mobile Telecommunication Industry [15] Jiliang Tang, Salem Alelyani and Huan Liu (2013), Feature Selection for Classification: A Review [16] Huong Xuan Nguyen (2011), Customer Churn Prediction for the Icelandic Mobile Telephony Market [17] Clement Kirui, Li Hong, Wilson Cheruiyot and Hillary Kirui (2013), Predicting Customer Churn in Mobile Telephony IndustryUsing Probabilistic Classifiers in Data Mining [18] Vladislav Lazarov, Marius Capota, Churn Prediction [19] Ali Daud, Muhammad Akram Shaikh, and Faqir Muhammad, Pattern Mining in Telecom Data [20] Sen Wu, Naidong Kang, Liu Yang, Fraudulent Behavior Forecast in Telecom IndustryBased on Data Mining Technology [21] J Burez, D Van den Poel (2009), Handling class imbalance in customer churn prediction [22] http://www.cs.waikato.ac.nz/ml/weka 46 PHỤ LỤC Danh sách thuộc tính thu thập STT THUỘC TÍNH AGE TYPE_ID GENDER NUM_DATEACTIVE USE_SERVICE_MAX USE_SERVICE_MIN_MONTH USE_SERVICE_MAX_MONTH USE_SERVICE_RATIO1 USE_SERVICE_RATIO2 10 11 USE_SERVICE_RATIO3 VOI_INNET_RA1 12 13 VOI_INNET_RATIO2 VOI_OUTNET_RA3 14 15 16 POSTCODE VOI_OUTNET_RATIO1 VOI_ABROAD_RA2 17 VOI_ABROAD_RATIO1 VOI_INNET_FREQ_RA1 18 19 VOI_INNET_FREQ_RATIO1 20 VOI_OUTNET_FREQ_RA1 21 VOI_OUTNET_FREQ_RATIO1 22 VOI_ABROAD_FREQ_RA1 23 VOI_ABROAD_FREQ_RATIO1 24 SMS_RA1 25 VOI_INNET_RA2 26 VOI_INNET_RATIO2 27 VOI_OUTNET_RA2 28 VOI_OUTNET_RATIO2 29 VOI_ABROAD_RA2 30 VOI_ABROAD_RATIO2 31 VOI_INNET_FREQ_RA2 32 VOI_INNET_FREQ_RATIO2 33 VOI_OUTNET_FREQ_RA2 34 VOI_OUTNET_FREQ_RATIO2 35 VOI_ABROAD_FREQ_RA2 36 VOI_ABROAD_FREQ_RATIO2 48 37 SMS_RA2 38 VOI_INNET_RA3 39 VOI_INNET_RATIO3 40 VOI_OUTNET_RA3 41 VOI_OUTNET_RATIO3 42 VOI_ABROAD_RA3 43 VOI_ABROAD_RATIO3 44 VOI_INNET_FREQ_RA3 45 VOI_INNET_FREQ_RATIO3 46 VOI_OUTNET_FREQ_RA3 47 VOI_OUTNET_FREQ_RATIO3 48 VOI_ABROAD_FREQ_RA3 49 VOI_ABROAD_FREQ_RATIO3 50 SMS_RA3 51 VOI_INNET_MAXM 52 VOI_INNET_FREQ_MAXM 53 VOI_OUTNET_MAXM 54 VOI_OUTET_FREQ_MAXM 55 56 VOI_ABROAD_MAXM VOI_ABROAD_FREQ_MAXM 57 58 VOI_INNET_MINM VOI_INNET_FREQ_MINM 59 VOI_OUTNET_MINM 60 VOI_OUTET_FREQ_MINM 61 62 VOI_ABROAD_MINM VOI_ABROAD_FREQ_MINM 63 64 SMS_MAXM SMS_MINM 65 66 DATA_MAXM DATA_MINM 67 68 VOI_MAXM VOI_FREQ_MAXM 69 70 VOI_MINM VOI_FREQ_MINM 71 TCHARGE_INNET_RATIO1 72 TCHARGE_OUTNET_RATIO1 73 TCHARGE_ABROAD_RATIO1 74 TCHARGE_SMS_RATIO1 75 TCHARGE_DATA_RATIO1 76 TCHARGE_INNET_RATIO2 77 TCHARGE_OUTNET_RATIO2 78 TCHARGE_ABROAD_RATIO2 79 TCHARGE_SMS_RATIO2 80 TCHARGE_DATA_RATIO2 81 TCHARGE_INNET_RATIO3 82 TCHARGE_OUTNET_RATIO3 50 83 TCHARGE_ABROAD_RATIO3 TCHARGE_SMS_RATIO3 84 85 TCHARGE_DATA_RATIO3 TCHARGE_INNET_MAXM 86 87 TCHARGE_OUTNET_MAXM TCHARGE_ABROAD_MAXM 88 89 TCHARGE_SMS_MAXM TCHARGE_DATA_MAXM 91 TCHARGE_INNET_MINM 90 TCHARGE_OUTNET_MINM 92 93 TCHARGE_ABROAD_MINM TCHARGE_SMS_MINM 94 95 TCHARGE_DATA_MINM TCHARGE_MAXM 97 TCHARGE_MINM PROMO_MAXM 99 PROMO_MINM BILL_MAXM 101 BILL_MINM 96 98 100 51 PHỤ LỤC Danh sách thuộc tính lựa chọn STT THUỘC TÍNH VOI_OUTNET_RATIO1 NUM_DATEACTIVE SMS_RA2 TYPE_ID SMS_RA1 TCHARGE_DATA_RATIO3 VOI_ABROAD_RATIO1 TCHARGE_DATA_RATIO2 VOI_INNET_RA1 VOI_INNET_FREQ_RA1 10 11 VOI_OUTNET_RA3 TCHARGE_DATA_RATIO1 12 13 TCHARGE_ABROAD_RATIO2 TCHARGE_RATIO1 14 15 TCHARGE_SMS_RATIO1 TCHARGE_DATA_MINM 16 17 PROMO_MINM ... quan thuê bao rời mạng viễn thông, khái niệm thuê bao rời mạng, phân biệt hình thức rời mạng thuê bao cần thiết việc dự đoán thuê bao rời mạng Chương 2: Trình bày lý thuyết khai phá liệu di động. .. kho liệu di động xác định thuê bao rời mạng, thực phân tích hoạt động, hành vi trước rời mạng thuê bao phương pháp khai phá liệu nhằm phát yếu tố liên quan đến việc rời mạng thuê bao Từ thực phân. .. TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG 3.1 Phát biểu toán Đầu vào: -Dữ liệu quản lý khách hàng khách hàng thuê bao -Dữ liệu chi tiết sử dụng dịch vụ thuê bao -Dữ liệu hóa đơn thuê bao -Dữ liệu

Ngày đăng: 11/11/2020, 22:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w