1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông 04

55 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội -2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐỐN TH BAO RỜI MẠNG VIỄN THƠNG Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU Hà Nội -2014 LỜI CẢM ƠN Trước hết, xin gửi lời cảm ơn sâu sắc đến TS Phan Xuân Hiếu - Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội, người tận tình hướng dẫn, bảo định hướng cho tơi suốt q trình thực luận văn tốt nghiệp Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội thầy cô giáo giảng dạy suốt thời gian học tập trường, tạo điều kiện giúp đỡ tơi hồn thiện luận văn Xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên giúp đỡ thời gian học tập hồn thành luận văn Trong q trình nghiên cứu, thực hiện, cố gắng, nỗ lực để hồn thiện, luận văn tơi khơng tránh khỏi thiếu sót hạn chế Kính mong nhận đóng góp thầy bạn Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thị Như Ngọc LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Tôi xin chịu tồn trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, tháng 10 năm 2014 Tác giả Nguyễn Thị Như Ngọc MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU MỞ ĐẦU Chương TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG 1.1 Thị trường thông tin di động Việt Nam 1.2 Khái niệm “churn” 10 1.3 Phân loại “churn” 11 1.4 Các nghiên cứu liên quan 12 1.5 Mục tiêu phạm vi đề tài 12 Chương KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG 14 2.1 Lý thuyết khai phá liệu 14 2.1.1 Tại cần khai phá liệu 14 2.1.2 Khái niệm khai phá liệu 14 2.1.3 Các toán khai phá liệu điển hình 15 2.2 Mơ hình kho liệu di động 16 2.2.1 Tầng 17 2.2.2 Tầng 18 2.2.3 Tầng 18 2.3 Một số ứng dụng khai phá liệu di động 18 2.3.1 Phân tích dự đốn nhu cầu sử dụng sản phẩm, dịch vụ 18 2.3.2 Nhận dạng dự đoán biểu gian lận 19 2.3.3 Phân tích dự đốn th bao rời mạng 19 2.3.4 Dự đoán nhu cầu tăng dung lượng đường truyền 20 Chương BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG 21 3.1 Phát biểu toán 21 3.2 Phân lớp liệu thuê bao rời mạng 21 3.2.1 Dữ liệu 22 3.2.2 Lựa chọn thuộc tính 24 3.2.3 Cây định C4.5 26 3.2.4 Naïve Bayes 28 3.2.5 Support Vector Machines 29 3.2.6 Neural Networks 30 3.2.7 Mô hình đánh giá hiệu 32 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 34 4.1 Dữ liệu thực nghiệm 34 4.2 Thực nghiệm 36 4.2.1 Phân lớp liệu sử dụng định C4.5 36 4.2.2 Phân lớp sử dụng thuật tốn Nạve Bayes 37 4.2.3 Phân lớp sử dụng thuật toán SVM 38 4.2.4 Phân lớp sử dụng thuật toán Neural Networks 39 4.3 Đánh giá hiệu 41 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC 46 PHỤ LỤC 51 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Định nghĩa Thuật ngữ Bộ TT&TT Bộ Thông tin truyền thông ITU International Telecommunication Union - Tổ chức viễn thông quốc tế thuộc Liên hiệp quốc USD United States dollar – Đồng đô la Mỹ KPDL Khai phá liệu KDD Knowledge Discovery and Data Mining DWH DataWarehouse OLAP Online Analytical Processing VAS Dịch vụ giá trị gia tăng NB Naïve Bayes SVM Support vector machine NN Neural Networks DANH MỤC HÌNH ẢNH Hình - Tình hình phát triển thuê bao di động Việt Nam tính đến năm 2012 Hình - Doanh thu dịch vụ di động Việt Nam tính đến năm 2012 Hình - Thị phần nhà cung cấp dịch vụ di động Việt Nam 10 Hình - Quá trình phát tri thức CSDL 15 Hình - Mơ hình kho liệu di động 17 Hình - Tiến trình phân lớp liệu 22 Hình - Mơ hình quan hệ bảng liệu 23 Hình - Các giai đoạn mơ hình dự đốn th bao rời mạng 24 Hình - Lựa chọn thuộc tính phân lớp liệu 25 Hình 10 - Số lượng thuộc tính thu thập 26 Hình 11 - Ví dụ định 26 Hình 12 - Nhiều mặt phẳng phân tách liệu 29 Hình 13 - Siêu mặt phẳng phân tách 30 Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp 31 Hình 15 - Mạng nơ- ron hồi quy 31 Hình 16 - Dữ liệu thực nghiệm 35 Hình 17 - Dữ liệu rời rạc 35 Hình 18 - Thực phân lớp với thuật tốn Nạve Bayes 37 Hình 19 - Thực phân lớp với thuật toán SVM 38 Hình 20 - Thực phân lớp với thuật toán Neural Networks 40 Hình 21 - Hiệu thuật toán với lớp thuê bao rời mạng 41 DANH MỤC BẢNG BIỂU Bảng - Ma trận nhầm lẫn 33 Bảng - Kết mơ hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác 36 Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/10 36 Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/2 36 Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/1 37 Bảng - Kết mơ hình phân lớp sử dụng NB với tỷ lệ mẫu khác 37 Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/10 38 Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/2 38 Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/1 38 Bảng 10 - Kết mơ hình phân lớp sử dụng SVM với tỉ lệ mẫu khác 39 Bảng 11 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/10 39 Bảng 12 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 39 Bảng 13 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 39 Bảng 14 - Kết mơ hình phân lớp sử dụng NN với tỉ lệ mẫu khác 40 Bảng 15 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/10 40 Bảng 16 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/2 40 Bảng 17 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/1 41 Bảng 18 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp C4.5 42 Bảng 19 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp Nạve Bayes 42 Bảng 20 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp SVM 42 Bảng 21 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp NN 42 MỞ ĐẦU Dịch vụ thông tin di động ngày phát triển mạnh mẽ, trở thành phần tất yếu sống người dân Việt Nam Với đời hàng loạt nhà cung cấp dịch vụ mạng điện thoại di động Quản lý thông tin thuê bao di động nhằm nâng cao khả chăm sóc khách hàng, đưa chiến lược kinh doanh việc thiếu nhà cung cấp dịch vụ mạng di động Ngày “kho liệu” trở thành khái niệm quen thuộc doanh nghiệp, “kho liệu” hỗ trợ doanh nghiệp định cho hoạt động tăng tập trung vào khách hàng phân tích mơ hình khách hàng, so sánh hiệu suất doanh số bán hàng theo quý, theo năm, theo vùng địa lý để điều chỉnh chiến lược sản xuất, phân tích hoạt động tìm kiếm nguồn lợi nhuận, quản lý mối quan hệ khách hàng, điều chỉnh mơi trường quản lý chi phí tài sản công ty Xây dựng kho liệu thuê bao di động hướng đắn nhằm nâng cao lực cạnh tranh chăm sóc khách hàng nhà mạng di động Trong bối cảnh thị trường viễn thông vào giai đoạn bão hòa, khách hàng ngày đòi hỏi cao chất lượng dịch vụ Hơn khách hàng có nhiều lựa chọn có quyền chuyển đổi nhà cung cấp dịch vụ, kết khách hàng rời mạng tăng lên cách nhanh chóng Đối mặt với thách thức này, nhà cung cấp dịch vụ viễn thông cần phải đưa hoạch định chiến lược để giữ chân khách hàng Các yếu tố quan trọng để giữ chân khách hàng dự đoán khách hàng rời mạng chiến lược phòng chống khách hàng rời mạng hiệu Hướng nghiên cứu từ kho liệu di động thực khai thác, phân tích nhằm phát hành vi rời mạng thuê bao dự đoán thuê bao rời mạng cho đề tài luận văn Luận văn xây dựng dựa theo lý thuyết khai phá liệu nhà khoa học nghiên cứu đồng thời tơi xin trình bày quan điểm riêng việc áp dụng khai phá liệu phát hành vi dự đoán thuê bao rời mạng Dữ liệu sử dụng luận văn liệu “anonymous”, mang tính chất nghiên cứu không tiết lộ thông tin tổ chức hay cá nhân Luận văn chia thành chương sau: Chương 1: Trình bày tổng quan thuê bao rời mạng viễn thông, khái niệm thuê bao rời mạng, phân biệt hình thức rời mạng thuê bao cần thiết việc dự đốn th bao rời mạng Chương 2: Trình bày lý thuyết khai phá liệu di động Các ứng dụng khai phá liệu di động như: Dự đoán xu hướng phát triển sản phẩm dịch vụ, nhận dạng dự đoán gian lận, dự đoán nhu cầu tăng dung lượng đường truyền Chương 3: Trình bày tốn phân lớp liệu thuê bao rời mạng, đầu vào dầu tốn Đưa mơ hình kho liệu di động mơ hình phân lớp liệu th bao rời mạng Dữ liệu trích xuất từ kho liệu di động thuật toán 37 Bảng đánh giá hiệu với tỷ lệ mẫu 1/1: TP Rate FP Rate Precision Recall Class 0.664 0.248 0.728 0.664 CHURN 0.752 0.336 0.691 0.752 NON-CHURN 0.708 0.292 0.710 0.708 Weighted Avg Bảng - Bảng đánh giá hiệu C4.5 với tỷ lệ mẫu 1/1 4.2.2 Phân lớp sử dụng thuật tốn Nạve Bayes Tại Tab Classify, lựa chọn thuật tốn Nạve Bayes Sau thực lựa chọn thuật toán sử dụng Cross Validation với Folds =10 cho liệu đào tạo Hình 18 - Thực phân lớp với thuật tốn Nạve Bayes Thực thực nghiệm với tỷ lệ (churn /non-churn) 1/10, 1/2 1/1 Kết xây dựng mô hình phân lớp sử dụng thuật tốn Nạve Bayes sau: Algorithms Tỉ lệ phân lớp Tỉ lệ phân lớp sai NB - 1/10 80.6271% 19.3729% NB - 1/2 72.5175% 27.4825% NB - 1/1 68.6728% 31.3272% Bảng - Kết mơ hình phân lớp sử dụng NB với tỷ lệ mẫu khác 38 Bảng đánh giá hiệu với tỷ lệ mẫu 1/10: TP Rate FP Rate Precision Recall Class 0.297 0.137 0.195 0.297 CHURN 0.863 0.703 0.917 0.863 NON-CHURN 0.806 0.646 0.844 0.806 Weighted Avg Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu với tỷ lệ mẫu 1/2: TP Rate FP Rate Precision Recall Class 0.645 0.235 0.579 0.645 CHURN 0.765 0.355 0.812 0.765 NON-CHURN 0.725 0.315 0.734 0.725 Weighted Avg Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/2 Bảng đánh giá hiệu với tỷ lệ mẫu 1/1: TP Rate FP Rate Precision Recall Class 0.657 0.261 0.715 0.657 CHURN 0.739 0.343 0.683 0.739 NON-CHURN 0.698 0.302 0.699 0.698 Weighted Avg Bảng - Bảng đánh giá hiệu NB với tỷ lệ mẫu 1/1 4.2.3 Phân lớp sử dụng thuật toán SVM Tại Tab Classify, lựa chọn thuật tốn LibSVM Hình 19 - Thực phân lớp với thuật toán SVM Thực thực nghiệm với tỷ lệ (churn /non-churn) 1/10, 1/2 1/1 Kết xây dựng mô hình phân lớp sử dụng thuật tốn SVM sau: 39 Algorithms SVM - 1/10 SVM - 1/2 SVM - 1/1 Tỉ lệ phân lớp Tỉ lệ phân lớp sai 90.9091% 75.3350% 69.6489% 9.0909% 24.6650% 30.3511% Bảng 10 - Kết mơ hình phân lớp sử dụng SVM với tỉ lệ mẫu khác Bảng đánh giá hiệu với tỷ lệ mẫu 1/10: TP Rate FP Rate Precision Recall Class 0.000 0.000 0.000 0.000 CHURN 1.000 0.999 0.909 1.000 NON-CHURN 0.909 0.909 0.826 0.909 Weighted Avg Bảng 11 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu với tỷ lệ mẫu 1/2: TP Rate FP Rate Precision Recall Class 0.413 0.077 0.729 0.413 CHURN 0.923 0.587 0.759 0.923 NON-CHURN 0.753 0.417 0.749 0.753 Weighted Avg Bảng 12 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 Bảng đánh giá hiệu với tỷ lệ mẫu 1/1: TP Rate FP Rate Precision Recall Class 0.622 0.229 0.731 0.622 CHURN 0.771 0.378 0.671 0.771 NON-CHURN 0.696 0.304 0.701 0.696 Weighted Avg Bảng 13 - Bảng đánh giá hiệu SVM với tỷ lệ mẫu 1/2 4.2.4 Phân lớp sử dụng thuật toán Neural Networks Tại Tab Classify, lựa chọn thuật toán MutilayerPerceptron MutilayerPerceptron Weka xây dựng cho thuật toán Neural Networks, mạng truyền thẳng kiểu học không giám sát 40 Hình 20 - Thực phân lớp với thuật tốn Neural Networks Thực thực nghiệm với tỷ lệ (churn /non-churn) 1/10, 1/2 1/1 Kết xây dựng mơ hình phân lớp sử dụng thuật toán NN sau: Algorithms NN - 1/10 NN - 1/2 NN - 1/1 Tỉ lệ phân lớp Tỉ lệ phân lớp sai 90.620% 73.4719% 67.3251% 64.6381% 38.0281% 32.6749% Bảng 14 - Kết mơ hình phân lớp sử dụng NN với tỉ lệ mẫu khác Bảng đánh giá hiệu với tỷ lệ mẫu 1/10 TP Rate FP Rate Precision Recall Class 0.293 0.032 0.475 0.293 CHURN 0.968 0.707 0.932 0.968 NON-CHURN 0.906 0.646 0.890 0.906 Weighted Avg Bảng 15 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu với tỷ lệ mẫu 1/2 TP Rate FP Rate Precision Recall Class 0.504 0.150 0.627 0.504 CHURN 0.850 0.496 0.774 0.850 NON-CHURN 0.735 0.380 0.725 0.735 Weighted Avg Bảng 16 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/2 41 Bảng đánh giá hiệu với tỷ lệ mẫu 1/1 TP Rate FP Rate Precision Recall Class 0.660 0.313 0.678 0.660 CHURN 0.687 0.340 0.669 0.687 NON-CHURN 0.673 0.327 0.673 0.673 Weighted Avg Bảng 17 - Bảng đánh giá hiệu NN với tỷ lệ mẫu 1/1 4.3.Đánh giá hiệu Do toán phân lớp liệu thuê bao di động cần tìm lớp thuê bao rời mạng, xem xét mơ hình cần ưu tiên xem mức độ tin cậy lớp CHURN Hiệu thuật toán lớp thuê bao rời mạng thể sau: 0.7 0.6 0.5 C4.5 0.4 NB 0.3 SVM 0.2 NN 0.1 Churn 1/10 Churn 1/2 Churn 1/1 Hình 21 - Hiệu thuật tốn với lớp thuê bao rời mạng Từ kết thực nghiệm, ta thấy với tỷ lệ mẫu 1/1 mức độ xác lớp “CHURN” cao nhất, độ lệnh mẫu lớn độ xác thiên lớp có tỉ lệ mẫu lớn Trong mơ hình xây dựng từ thuật tốn định C4.5 cho kết phân lớp tốt Về thời gian xây dựng mơ hình, thuật tốn NB có thời gian xây dựng nhanh 0.01s, tiếp thuật tốn định C4.5 có thời gian xây dựng mơ hình 0.19s, thuật tốn SVM có thời gian xây dựng mơ hình 28.24s, cuối thuật tốn N có thời gian xây dựng mơ hình dài 951.09s Từ mơ hình xây dựng từ thuật toán(với tie lệ mẫu 1/1), thực xác nhận mơ hình với liệu test Kết thực sau: 42 Mơ hình định C4.5 TP Rate FP Rate Precision Recall Class 0.678 0.331 0.018 0.678 CHURN 0.669 0.322 0.996 0.669 NON-CHURN 0.669 0.322 0.987 0.669 Weighted Avg Bảng 18 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp C4.5 Mơ hình Nạve Bayes TP Rate FP Rate Precision Recall Class 0.684 0.313 0.019 0.684 CHURN 0.687 0.316 0.996 0.687 NON-CHURN 0.687 0.316 0.987 0.687 Weighted Avg Bảng 19 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp Nạve Bayes Mơ hình Support vector machine TP Rate FP Rate Precision Recall Class 0.617 0.273 0.020 0.617 CHURN 0.727 0.383 0.995 0.727 NON-CHURN 0.726 0.382 0.987 0.726 Weighted Avg Bảng 20 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp SVM Mơ hình Neural Networks TP Rate FP Rate Precision Recall Class 0.606 0.338 0.016 0.606 CHURN 0.662 0.394 0.995 0.662 NON-CHURN 0.662 0.393 0.986 0.662 Weighted Avg Bảng 21 - Bảng đánh giá hiệu với liệu test mơ hình phân lớp NN Từ kết xác nhận mơ hình với liệu test, ta thấy tỷ lệ phân lớp thuê bao rời mạng vào khoảng 60% 43 KẾT LUẬN Trong giai đoạn thị trường viễn thông vào giai đoạn bão hòa nay, việc thuê bao rời mạng ảnh hưởng đến doanh thu nhà mạng mà kéo theo hàng loạt hiệu ứng khác kèm theo Bởi dự đoán thuê bao rời mạng để đưa chiến lược kinh doanh hợp lý nhằm ngăn khách hàng rời mạng điều vô cần thiết nhà mạng Trong luận văn tơi nghiên cứu, tìm hiểu phân tích liệu thuê bao di động đạt kết sau Nội dung đạt đƣợc Đưa nhìn tổng quan thuê bao rời mạng, khái niệm thuê bao rời mạng, hình thức rời mạng thuê bao Trình bày lý thuyết khai phá liệu, ứng dụng khai phá liệu di động dự đoán xu hướng phát triển sản phẩm dịch vụ, dự đoán biểu gian lận dự đoán tăng dung lượng đường truyền Đưa mơ hình phân lớp liệu th bao trả sau rời mạng, sử dụng thuật toán định C4.5, NB, SVM Neural Networks Sau tìm hiểu nghiên cứu lý thuyết phân lớp liệu thuê bao di động rời mạng, thực nghiệm phân lớp liệu di động với liệu cụ thể đánh giá hiệu thuật toán Hƣớng tiếp cận tƣơng lai Do thời gian có hạn với thuê bao trả trước thuê bao trả sau có nhiều điểm khác biệt hình thức toán, giá cước sử dụng hay thuê bao trả trước rời mạng thời gian dài trước nhà mạng nhận ra… nên luận văn, toán phân lớp liệu thuê bao rời mạng thực phân tích liệu thuê bao trả sau mà chưa thể áp dụng cho thuê bao trả trước Vì xây dựng tốn phân lớp th bao rời mạng cho thuê bao trả trước hướng nghiên cứu tương lai 44 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy, Phan Xn Hiếu, Ðồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Khai phá liệu Web, NXB Giáo Dục [2] TS Phan Xuân Hiếu, Bài giảng khai phá liệu – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội [3] TS Nguyễn Văn Vinh, Bài giảng trí tuệ nhân tạo – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội [4] Bộ Thông Tin Truyền Thông (2013), Sách Trắng Công nghệ thông tin Truyền thông 2013, NXB Thông Tin Truyền Thông [5] Phạm Văn Thùy, Luận văn “Khai thác phân tích liệu ngân hàng nhằm phát rủi ro hỗ trợ định quản trị”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K18 [6] Lê Thị Thùy Linh, Khóa luận tốt nghiệp “Nghiên cứu thuật tốn phân lớp liệu dựa định” - Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K46 [7] Đỗ Thi Cẩm Vân (2004), Luận văn“Học mạng nơron theo mơ hình SOM ứng dụng bàitoán quản lý khách hàng vay vốn Ngân hàng”, Đại học Công Nghệ Đại Học Quốc gia Hà Nội [8] 20 năm di động Việt Nam: Đòn bẩy nằm đâu?Ictnews, http://ictnews.vn/vienthong/20-nam-di-dong-viet-nam-don-bay-nam-o-dau-111420.ict Tiếng Anh [9] Jiawei Han University of Illinois at Urbana–Champaign, Micheline Kamber, Jian Pei Simon Fraser University(2012) , Data Mining: Concepts and Techniques - Third Edition [10] K H Liao and H E Chueh (2011), Applying fuzzy data mining to telecom churn management - Intelligent Computing and Information Science 45 [11] Pushpa and G.Shobha (2012), Social Network Analysis for Churn Prediction in Telecom data [12] J O Daramola, O O Oladipupo, and G A Musa, A data mining process framework for churn management in mobile telecommunication industry [13] E Shaaban, Y Helmy, A Khedr, and M Nasr, A proposed churn prediction model - International Journal of Engineering Research and Applications [14] Georges D Olle Olle and Shuqin Cai (2014), A Hybrid Churn Prediction Model in Mobile Telecommunication Industry [15] Jiliang Tang, Salem Alelyani and Huan Liu (2013), Feature Selection for Classification: A Review [16] Huong Xuan Nguyen (2011), Customer Churn Prediction for the Icelandic Mobile Telephony Market [17] Clement Kirui, Li Hong, Wilson Cheruiyot and Hillary Kirui (2013), Predicting Customer Churn in Mobile Telephony IndustryUsing Probabilistic Classifiers in Data Mining [18] Vladislav Lazarov, Marius Capota, Churn Prediction [19] Ali Daud, Muhammad Akram Shaikh, and Faqir Muhammad, Pattern Mining in Telecom Data [20] Sen Wu, Naidong Kang, Liu Yang, Fraudulent Behavior Forecast in Telecom IndustryBased on Data Mining Technology [21] J Burez, D Van den Poel (2009), Handling class imbalance in customer churn prediction [22] http://www.cs.waikato.ac.nz/ml/weka 46 PHỤ LỤC Danh sách thuộc tính thu thập STT THUỘC TÍNH MƠ TẢ Thơng tin số tuổi khách hàng Loại thuê bao Giới tính Số ngày hoạt động thuê bao kể từ bắt đầu Bưu cục thu thuê bao Số loại dịch vụ sử dụng lớn tháng quan sát Tháng sử dụng dịch vụ nhỏ tháng quan sát Tháng sử dụng dịch vụ lớn tháng quan sát Tỉ lệ sử dụng dịch vụ tháng quan sát so với tổng số lượng dịch vụ tháng AGE TYPE_ID GENDER NUM_DATEACTIVE POSTCODE USE_SERVICE_MAX USE_SERVICE_MIN_MONTH USE_SERVICE_MAX_MONTH USE_SERVICE_RATIO1 10 USE_SERVICE_RATIO2 Tỉ lệ sử dụng dịch vụ tháng quan sát thứ so với tổng số lượng dịch vụ tháng 11 USE_SERVICE_RATIO3 Tỉ lệ sử dụng dịch vụ tháng quan sát thứ so với tổng số lượng dịch vụ tháng 12 VOI_INNET_RA1 13 VOI_INNET_RATIO2 14 VOI_OUTNET_RA3 15 VOI_OUTNET_RATIO1 16 VOI_ABROAD_RA2 17 VOI_ABROAD_RATIO1 18 VOI_INNET_FREQ_RA1 19 VOI_INNET_FREQ_RATIO1 Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi ngoại mạng tháng quan sát thuê bao so với tổng số giây gọi tháng Tỷ lệ số giây gọi nước thuê bao tháng quan sát thứ so với tổng số giây gọi nước tháng quan sát Tỷ lệ số giây gọi ngước thuê bao tháng quan sát so với tổng số giây gọi tháng Tỷ lệ số gọi nội mạng thuê bao tháng quan sát so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi nội mạng thuê bao so với tổng số gọi tháng quan sát 47 Tỷ lệ số gọi ngoại mạng thuê bao so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi ngoại mạng thuê bao tháng quan sát so với tổng số gọi tháng Tỷ lệ số gọi nước thuê bao tháng quan sát so với tổng số gọi nước tháng quan sát 20 VOI_OUTNET_FREQ_RA1 21 VOI_OUTNET_FREQ_RATIO1 22 VOI_ABROAD_FREQ_RA1 23 VOI_ABROAD_FREQ_RATIO1 Tỷ lệ số gọi ngước thuê bao so với tổng số gọi tháng 24 SMS_RA1 Tỷ lệ số tin nhắn thuê bao tháng quan sát so với tổng số tin nhắn tháng 25 VOI_INNET_RA2 26 VOI_INNET_RATIO2 27 VOI_OUTNET_RA2 28 VOI_OUTNET_RATIO2 29 VOI_ABROAD_RA2 30 VOI_ABROAD_RATIO2 31 VOI_INNET_FREQ_RA2 32 VOI_INNET_FREQ_RATIO2 33 VOI_OUTNET_FREQ_RA2 34 VOI_OUTNET_FREQ_RATIO2 35 VOI_ABROAD_FREQ_RA2 36 VOI_ABROAD_FREQ_RATIO2 Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số giây gọi nước thuê bao tháng quan sát thứ so với tổng số giây gọi nước tháng quan sát Tỷ lệ số giây gọi ngước thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số gọi nội mạng thuê bao tháng quan sát thứ so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi nội mạng thuê bao tháng quan sát thứ so với tổng số gọi tháng Tỷ lệ số gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số gọi tháng Tỷ lệ số gọi nước thuê bao tháng quan sát thứ so với tổng số gọi nước tháng quan sát Tỷ lệ số gọi ngước thuê bao tháng quan sát thứ so với tổng số 48 gọi tháng 37 SMS_RA2 38 VOI_INNET_RA3 39 VOI_INNET_RATIO3 40 VOI_OUTNET_RA3 41 VOI_OUTNET_RATIO3 42 VOI_ABROAD_RA3 43 VOI_ABROAD_RATIO3 44 VOI_INNET_FREQ_RA3 45 VOI_INNET_FREQ_RATIO3 46 VOI_OUTNET_FREQ_RA3 47 VOI_OUTNET_FREQ_RATIO3 48 VOI_ABROAD_FREQ_RA3 49 VOI_ABROAD_FREQ_RATIO3 50 SMS_RA3 51 52 VOI_INNET_MAXM VOI_INNET_FREQ_MAXM 53 VOI_OUTNET_MAXM 54 VOI_OUTET_FREQ_MAXM Tỷ lệ số tin nhắn thuê bao tháng quan sát thứ so với tổng số tin nhắn tháng Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số giây gọi nước thuê bao tháng quan sát thứ so với tổng số giây gọi nước tháng quan sát Tỷ lệ số giây gọi ngước thuê bao tháng quan sát thứ so với tổng số giây gọi tháng Tỷ lệ số gọi nội mạng thuê bao tháng quan sát thứ so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi nội mạng thuê bao tháng quan sát thứ so với tổng số gọi tháng Tỷ lệ số gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số gọi ngoại mạng tháng quan sát Tỷ lệ số gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số gọi tháng Tỷ lệ số gọi nước thuê bao tháng quan sát thứ so với tổng số gọi nước tháng quan sát Tỷ lệ số gọi ngước thuê bao tháng quan sát thứ so với tổng số gọi tháng quan sát thứ Tỷ lệ số tin nhắn thuê bao tháng quan sát thứ so với tổng số tin nhắn tháng Tháng có số lượng giây gọi nội mạng lớn Tháng có số lượng gọi nội mạng lớn Tháng có số lượng giây gọi ngoại mạng lớn Tháng có số lượng gọi ngoại mạng lớn 49 Tháng có số lượng giây gọi quốc tế lớn Tháng có số lượng gọi quốc tế lớn Tháng có số lượng giây gọi nội mạng nhỏ Tháng có số lượng gọi nội mạng nhỏ Tháng có số lượng giây gọi ngoại mạng nhỏ Tháng có số lượng gọi ngoại mạng nhỏ Tháng có số lượng giây gọi quốc tế nhỏ Tháng có số lượng gọi quốc tế nhỏ Tháng có số lượng SMS lớn Tháng có số lượng SMS bé Tháng có dung lượng data lớn Tháng có dung lượng data nhỏ Tháng có số giây (tất gọi) tối đa Tháng có số gọi lớn Tháng có số giây (tất gọi) nhỏ Tháng có số gọi nhỏ Tỷ lệ mức tiền trả gọi nội mạng so với mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả gọi ngoại mạng so với mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả gọi quốc tế so với mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả SMS so với mức cước phát sinh tháng quan sát 55 56 57 58 VOI_ABROAD_MAXM VOI_ABROAD_FREQ_MAXM VOI_INNET_MINM VOI_INNET_FREQ_MINM 59 VOI_OUTNET_MINM 60 VOI_OUTET_FREQ_MINM 61 62 63 64 65 66 67 68 69 70 VOI_ABROAD_MINM VOI_ABROAD_FREQ_MINM SMS_MAXM SMS_MINM DATA_MAXM DATA_MINM VOI_MAXM VOI_FREQ_MAXM VOI_MINM VOI_FREQ_MINM 71 TCHARGE_INNET_RATIO1 72 TCHARGE_OUTNET_RATIO1 73 TCHARGE_ABROAD_RATIO1 74 TCHARGE_SMS_RATIO1 75 TCHARGE_DATA_RATIO1 76 TCHARGE_INNET_RATIO2 77 TCHARGE_OUTNET_RATIO2 78 TCHARGE_ABROAD_RATIO2 79 TCHARGE_SMS_RATIO2 Tỷ lệ mức tiền trả SMS so với mức cước phát sinh tháng quan sát thứ 80 TCHARGE_DATA_RATIO2 Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát thứ 81 TCHARGE_INNET_RATIO3 Tỷ lệ mức tiền trả gọi nội mạng so với mức cước phát sinh tháng quan sát thứ 82 TCHARGE_OUTNET_RATIO3 Tỷ lệ mức tiền trả gọi ngoại mạng so với mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả gọi nội mạng so với mức cước phát sinh tháng quan sát thứ Tỷ lệ mức tiền trả gọi ngoại mạng so với mức cước phát sinh tháng quan sát thứ Tỷ lệ mức tiền trả gọi quốc tế so với mức cước phát sinh tháng quan sát thứ 50 thứ 83 TCHARGE_ABROAD_RATIO3 Tỷ lệ mức tiền trả gọi quốc tế so với mức cước phát sinh tháng quan sát thứ 84 TCHARGE_SMS_RATIO3 Tỷ lệ mức tiền trả SMS so với mức cước phát sinh tháng quan sát thứ 85 TCHARGE_DATA_RATIO3 86 TCHARGE_INNET_MAXM 87 TCHARGE_OUTNET_MAXM 88 TCHARGE_ABROAD_MAXM 89 90 TCHARGE_SMS_MAXM TCHARGE_DATA_MAXM 91 TCHARGE_INNET_MINM 92 TCHARGE_OUTNET_MINM 93 TCHARGE_ABROAD_MINM 94 95 96 97 98 99 100 101 TCHARGE_SMS_MINM TCHARGE_DATA_MINM TCHARGE_MAXM TCHARGE_MINM PROMO_MAXM PROMO_MINM BILL_MAXM BILL_MINM Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát thứ Tháng có mức cước phát sinh gọi nội mạng cao Tháng có mức cước phát sinh gọi ngoại mạng cao Tháng có mức cước phát sinh gọi quốc tế cao Tháng có mức cước phát sinh SMS cao Tháng có mức cước phát sinh Data cao Tháng có mức cước phát sinh gọi nội mạng thấp Tháng có mức cước phát sinh gọi ngoại mạng thấp Tháng có mức cước phát sinh gọi quốc tế thấp Tháng có mức cước phát sinh SMS thấp Tháng có mức cước phát sinh Data thấp Tháng có mức cước phát sinh cao Tháng có mức cước phát sinh thấp Tháng có tiền khuyến mại cao Tháng có tiền cước khuyến mại thấp Tháng có hóa đơn tốn cao Tháng có hóa đơn toán thấp 51 PHỤ LỤC Danh sách thuộc tính lựa chọn STT THUỘC TÍNH MƠ TẢ Tỷ lệ số giây gọi ngoại mạng tháng quan sát thuê bao so với tổng số giây gọi tháng Số ngày hoạt động thuê bao kể từ bắt đầu Tỷ lệ số tin nhắn thuê bao tháng quan sát thứ so với tổng số tin nhắn tháng Loại thuê bao VOI_OUTNET_RATIO1 NUM_DATEACTIVE SMS_RA2 TYPE_ID SMS_RA1 TCHARGE_DATA_RATIO3 VOI_ABROAD_RATIO1 TCHARGE_DATA_RATIO2 Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát thứ VOI_INNET_RA1 Tỷ lệ số giây gọi nội mạng thuê bao tháng quan sát so với tổng số giây gọi ngoại mạng tháng quan sát 10 VOI_INNET_FREQ_RA1 Tỷ lệ số gọi nội mạng thuê bao tháng quan sát so với tổng số gọi ngoại mạng tháng quan sát 11 VOI_OUTNET_RA3 Tỷ lệ số giây gọi ngoại mạng thuê bao tháng quan sát thứ so với tổng số giây gọi ngoại mạng tháng quan sát 12 TCHARGE_DATA_RATIO1 Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát 13 TCHARGE_ABROAD_RATIO2 14 TCHARGE_RATIO1 15 TCHARGE_SMS_RATIO1 16 TCHARGE_DATA_MINM Tháng có mức cước phát sinh Data thấp 17 PROMO_MINM Tháng có tiền cước khuyến mại thấp Tỷ lệ số tin nhắn thuê bao tháng quan sát so với tổng số tin nhắn tháng Tỷ lệ mức tiền trả Data so với mức cước phát sinh tháng quan sát thứ Tỷ lệ số giây gọi ngước thuê bao tháng quan sát so với tổng số giây gọi tháng Tỷ lệ mức tiền trả gọi quốc tế so với mức cước phát sinh tháng quan sát thứ Tỷ lệ mức cước phát sinh tháng quan sát so với tổng mức cước phát sinh tháng quan sát Tỷ lệ mức tiền trả SMS so với mức cước phát sinh tháng quan sát ... quan thuê bao rời mạng viễn thông, khái niệm thuê bao rời mạng, phân biệt hình thức rời mạng thuê bao cần thiết việc dự đoán thuê bao rời mạng Chương 2: Trình bày lý thuyết khai phá liệu di động. .. NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THƠNG Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số: 6048 0 104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG... kho liệu di động xác định thuê bao rời mạng, thực phân tích hoạt động, hành vi trước rời mạng thuê bao phương pháp khai phá liệu nhằm phát yếu tố liên quan đến việc rời mạng thuê bao Từ thực phân

Ngày đăng: 05/12/2020, 11:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w