Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,69 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2016 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy dành nhiều thời gian tận tình bảo, hướng dẫn, giúp đỡ suốt trình tìm hiểu, nghiên cứu Thầy người định hướng đưa nhiều góp ý quý báu trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN cung cấp cho kiến thức tạo cho điều kiện thuận lợi suốt trình học tập trường Tôi bày tỏ lòng biết ơn sự giúp đỡ lãnh đạo quan, đồng nghiệp cung cấp liệu, tài liệu cho lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè thành viên nhóm nghiên cứu động viên tạo điều kiện tốt cho Tôi xin chân thành cảm ơn! Hà Nội, tháng năm 2016 Họ tên Nguyễn Ngọc Tuân LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, thực sự hướng dẫn PGS.TS Nguyễn Hà Nam Các kết nêu luận văn trung thực chưa công bố công trình khác Hà Nội, tháng năm 2016 Họ tên Nguyễn Ngọc Tuân MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ LỜI MỞ ĐẦU Chương Giới thiệu tổng quan mạng di động kiến thức sở liên quan 1.1 Giới thiệu mạng di động 1.2 Sơ lược tình hình nghiên cứu giới 1.3 Phát biểu toán 11 1.3.1 Chu trình thuê bao di động 11 1.3.2 Phát biểu toán 13 1.4 Kết luận chương 13 Chương 2.1 Khai phá liệu kỹ thuật phân tích dự báo 14 Khai phá liệu 14 2.1.1 Khái niệm KPDL 14 2.1.2 Những nhóm toán KPDL 15 2.1.3 Các bước xây dựng giải pháp KPDL 16 2.1.4 Ứng dụng KPDL viễn thông 17 2.2 Một số kỹ thuật KPDL phân lớp, dự báo 18 2.2.1 Cây định 18 2.2.2 Phân lớp Naïve Bayes 22 2.2.3 Mạng nơ ron nhân tạo 23 2.2.4 Luật kết hợp 24 2.2.5 Đánh giá độ xác thuật toán 27 2.3 Giới thiệu công cụ weka 28 2.4 Kết luận chương 28 Chương Giải pháp phát thuê bao di động có khả rời mạng 29 3.1 Giải pháp chung: 29 3.2 Giải pháp mạng MobiFone 29 3.3 Giải pháp đề xuất 30 3.3.1 Giải pháp đề xuất dùng kỹ thuật khai phá liệu 30 3.3.2 Giải pháp đề xuất sau cải tiến 30 3.4 Mô hình đề xuất áp dụng thực tế 31 Chương Thực nghiệm đánh giá kết 33 4.1 Chuẩn bị liệu 33 4.2 Mô tả liệu thực nghiệm 34 4.3 Kết thực nghiệm theo phương pháp 35 4.4 Kết thực nghiệm dựa khai phá liệu 37 4.4.1 Kết thực nghiệm dựa giải pháp khai phá liệu 37 4.4.2 Kết thực nghiệm dựa khai phá liệu cải tiến 41 4.5 So sánh đánh giá kết 47 4.6 Kết luận chương 49 KẾT LUẬN 50 Phụ lục THÔNG TIN BỘ DỮ LIỆU 52 PHỤ LỤC PHÂN TÍCH ĐĂC TRƯNG BỘ DỮ LIỆU THỰC NGHIỆM 55 Nhóm 55 Nhóm 55 Nhóm 56 Nhóm 57 Nhóm 58 Phụ lục Đặc trưng phân lớp giải pháp MobiFone áp dụng 59 Nhóm 59 Nhóm 2: 59 Nhóm 3: 59 Nhóm 4: 59 Nhóm 5: 60 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KPDL Khai phá liệu CSDL Cơ sở liệu OLAP Online analytical processing MobiFone Tổng công ty Viễn thông MobiFone VLR Visitor Location Register Tổng đài ghi nhận đăng nhập mạng thuê bao di động 3K3D_VLR Chỉ tiêu xác định thuê bao tháng có > ngày nhập mạng VLR phát sinh doanh thu >3000 GSM Global System for Mobile Communications Mạng thông tin di động CDR Call Data Record CLV Giá trị vòng đời khách hàng (custommer lifecycle value) DANH MỤC CÁC BẢNG Bảng 2-1 Các độ đo xác 27 Bảng 4-1 Nhóm thuê bao theo đặc trưng 34 Bảng 4-2 Các nhóm liệu mẫu 35 Bảng 4-3 Tổng hợp kết phương pháp 37 Bảng 4-4 Bảng tổng hợp kết theo giải pháp khai phá liệu 41 Bảng 4-5 Tổng hợp độ xác giải pháp đề xuất 47 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Biểu đồ 4-1 So sánh độ đo Accuracy ba giải pháp 48 Biểu đồ 4-2 So sánh thời gian xây dựng mô hình giải pháp đề xuất đề xuất cải tiến 48 Biểu đồ 4-3 So sánh thời gian dự báo 49 Hình 1-1 Thị phần thuê bao di động tính đến 2013 [2] Hình 1-2 Vòng đời thuê bao 12 Hình 2-1 Các bước xây dựng hệ thống KPDL [1] 14 Hình 2-2 Biểu diễn định 18 Hình 2-3 Cây định cho việc chơi Tennis 19 Hình 2-4 Mô hình mạng nơron nhiều lớp 23 Hình 2-5 Tiến trình học 24 Hình 3-1 Giải pháp chung cho toán dự báo thuê bao rời mạng 29 Hình 3-2 Giải pháp MobiFone áp dụng 30 Hình 3-3 Giải pháp đề xuất dùng kỹ thuật khai phá liệu 30 Hình 3-4 Giải pháp đề xuất cải tiến .30 Hình 3-5 Mô hình đề xuất áp dụng thực tế 31 Hình 4-1 Kết nhóm giải pháp đề xuất 38 Hình 4-2 Kết nhóm giải pháp đề xuất 39 Hình 4-3 Kết nhóm giải pháp đề xuất 39 Hình 4-4 Kết nhóm giải pháp đề xuất 40 Hình 4-5 Kết nhóm giải pháp đề xuất 40 Hình 4-6 Kết nhóm giải pháp đề xuất cải tiến thử nghiệm 42 Hình 4-7 Kết nhóm giải pháp đề xuất cải tiến sau tối ưu 43 Hình 4-8 Kết nhóm giải pháp đề xuất cải tiến 44 Hình 4-9 Kết nhóm giải pháp đề xuất cải tiến 45 Hình 4-10 Kết nhóm giải pháp đề xuất sau cải tiến 46 Hình 4-11 Kết nhóm giải pháp đề xuất cải tiến 47 LỜI MỞ ĐẦU Thuê bao rời mạng vấn đề “đau đầu” nhà mạng nước giới lẽ khách hàng (thuê bao) người mang lại doanh thu trì hoạt động nhà mạng Để trì phát triển hoạt động kinh doanh mình, nhà mạng phải tìm cách để phát triển thuê bao đồng thời phải tìm cách để trì hoạt động thuê bao hữu Theo nghiên cứu thực tế triển khai nhà mạng cho thấy, tổng chi phí để phát triển thuê bao cao nhiều so với việc trì thuê bao hữu Trong đó, doanh thu từ thuê bao hữu (đặc biệt thuê năm) cao nhiều so với doanh thu thuê bao (theo thống kê MobiFone thuê năm có doanh thu trung bình cao 48% so thuê bao mới) Chính lý trên, nhà mạng giới không ngừng tìm kiếm giải pháp nghiên cứu phát triển ứng dụng để xác định, dự đoán sớm thuê bao có khả rời mạng để có biện pháp kịp thời tác động nhằm trì thuê bao hoạt động Xuất phát từ yêu cầu đặt đơn vị mình, thực đề tài luận văn “ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG” Luận văn sâu vào việc áp dụng kỹ thuật khai phá liệu từ hành vi sử dụng thuê bao di động từ dự báo thuê bao có khả rời mạng Luận văn gồm có phần mở đầu, kết luận 04 chương, cụ thể sau: Chương 1: Giới thiệu tổng quan mạng di động vấn đề liên quan Chương trình bày tổng quan mạng di động, thuê bao rời mạng Phát biểu toán nghiên cứu liên quan Chương 2: Khai phá liệu kỹ thuật phân tích dự báo Nghiên cứu sở lý thuyết KPDL, vấn đề liên quan đến KPDL toán dự báo thuê bao rời mạng Tìm hiểu kỹ thuật khai phá liệu sử dụng toán phân lớp, dự báo (chuẩn bị liệu, lựa chọn thuộc tính, phân tích đặc trưng, định, …) áp dụng kỹ thuật KPDL ứng dụng WEKA Chương 3: Giải pháp phát thuê bao di động có khả rời mạng Các phương pháp để phát thuê bao di động có khả rời mạng bao gồm kỹ thuật dựa vào đặc trưng thuê bao, phương pháp ứng dụng kỹ thuật khai phá liệu Chương 4: Thực nghiệm đánh giá kết Nội dung chủ yếu áp dụng mô hình tìm hiểu vào việc dự báo thuê bao rời mạng Trước tiên áp dụng kỹ thuật toàn liệu chuẩn bị với mô hình phân tích đặc trưng, định đánh giá Tiếp theo sử dụng kỹ thuật lựa chọn thuộc tính để cải tiến tốc độ xử lý đánh giá độ xác mô hình dự báo Cuối tiến hành đánh giá kết dự báo mô hình đưa mô hình dự báo khuyến nghị để áp dụng vào toán thực tế Hình 4-10 Kết nhóm giải pháp đề xuất sau cải tiến 4.4.2.5 Nhóm 5: Tập liệu: 156.000 TB, đó: 20.000 TB rời mạng, 136.000 TB không rời mạng Kết với trích chọn thuộc tính 46 Hình 4-11 Kết nhóm giải pháp đề xuất cải tiến 4.4.2.6 Đánh giá mô hình Từ kết kiểm nghiệm mục 3.3, ta tính toán độ xác dự đoán nhóm thuê bao dựa vào công thức đưa sau: Tên độ đo Accuracy Error_Rate Recall Precision Thời gian xây dựng mô hình (giây) Thời gian dự báo (giây) Nhóm 99.2% 0.8% 96.5% 97.1% Nhóm 98.8% 1.2% 98.8% 94.1% Nhóm 98.8% 1.2% 99.3% 99.4% Nhóm 99.3% 0.7% 99.4% 99.8% Nhóm 98.9% 1.1% 96.6% 95.3% 16 7 0.13 0.07 0.05 0.24 0.05 Bảng 4-5 Tổng hợp độ xác giải pháp đề xuất cải tiến 4.5 So sánh đánh giá kết Để đánh giá kết thực nghiệm ta so sánh độ xác (độ đo Accuracy) giải pháp thực sau: 47 So sánh độ xác 100% 080% 060% 040% 020% 000% nhóm nhóm Phương pháp Nhóm Giải pháp đề xuất Nhóm Nhóm Giải pháp đề xuất cải tiến Biểu đồ 4-1 So sánh độ đo Accuracy ba giải pháp Nhận xét: giải pháp MobiFone sử dụng có độ xác thấp nhất, nhóm độ xác nhỏ gần tương đương với độ xác giải pháp dùng thuật toán khai phá liệu, nhóm 1,2 độ xác thấp đáng kể so với giải pháp dùng khai phá liệu đặc biệt nhóm thấp nhiều (78,4% so với 98,8%) Qua việc so sánh độ xác giải pháp ta nhận thấy đặc trưng nhóm thuê bao nhóm 3,4 nhóm nhận định thuê bao rời mạng, nhóm nhận định nhóm mục tiêu để dự báo kết giải pháp MobiFone chưa cao giải pháp đề xuất cho kết cao Độ xác giải pháp đề xuất giải pháp đề xuất sau cải tiến tương đương Để đánh giá tiếp giải pháp trước sau cải tiến ta tiếp tục đánh giá thời gian xây dựng mô hình thời gian dự báo hai giải pháp kết biểu đồ dưới: So sánh thời gian xây dựng mô hình (giây) 120 100 96 86 80 68 60 44 40 20 16 16 7 nhóm nhóm Giải pháp đề xuất Nhóm Nhóm Nhóm Giải pháp đề xuất cải tiến Biểu đồ 4-2 So sánh thời gian xây dựng mô hình giải pháp đề xuất đề xuất cải tiến 48 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 nhóm nhóm Giải pháp đề xuất Nhóm Nhóm Nhóm Giải pháp đề xuất cải tiến Biểu đồ 4-3 So sánh thời gian dự báo Qua biểu đồ ta thấy rõ thời gian xây dựng mô hình thời gian dự báo giải pháp sau cải tiến nhiều so với giải pháp trước cải tiến Do giải pháp đề xuất cải tiến đạt mục tiêu đề ban đầu đưa giải pháp với độ gần tương đương (có thể giảm) nhiên thời gian xây dựng mô hình thời gian dự báo nhanh 4.6 Kết luận chương Chương trình bày kết thực nghiệm dựa phương pháp thực chương Qua thực nghiệm ta có nhận xét sau: Kết dùng thuật toán khai phá liệu cao so với phương pháp thực 49 KẾT LUẬN Từ việc nghiên cứu yêu cầu cấp thiết đặt công tác trì phát triển thuê bao mạng di động, luận văn đạt số kết sau đây: - Xây dựng mô hình dự báo áp dụng kỹ thuật khai phá liệu để phát nhanh xác thuê bao di động có khả rời mạng từ áp dụng giải pháp để trì thuê bao - Triển khai mô hình đề xuất, áp dụng liệu thực tế, so sánh với giải pháp sử dụng áp dụng Các kết đạt cho thấy tiềm áp dụng phương pháp đề xuất vào thực tiễn Trong thời gian tới nghiên cứu tích hợp kỹ thuật vào chương trình hỗ trợ kinh doanh MobiFone đồng thời cải tiến thời gian dự báo kết dự báo Trong thời gian tới tiếp tục cập nhật mô hình với liệu MobiFone để kết dự đoán cải thiện 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] [2] [3] Phan Xuân Hiếu (2013),Bài giảng môn học KPDL kho liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Bộ Thông tin Truyền thông (2014),Sách Trắng Công nghệ thông tin Truyền thông (CNTT-TT) Việt Nam 2014, Nhà xuất Thông tin Truyền thông, Hà nội Hà Quang Thụy (2010),Bài giảng môn học Kho liệu KPDL, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tiếng Anh [4] [5] [6] [7] [8] [9] [10] [11] Leo Breiman, Jerome Friedmen, and Charles J Stone (1984),Classification and Regression Trees, Wadsworth International Group M Chandar, Laha, A., & Krishna, P (2006),Modeling churn behavior of bank customers using predictive data mining techniques, National conference on soft computing techniques for engineering applications Jiawei Han and Micheline Kamber (2012),Data Mining Concepts and Techniques, Third Edition ed Elsevier Inc John Ross Quinlan (1993),C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers John Ross Quinlan, Induction of decision trees, in Machine Learning 1986 p 81-106 J Burez, & Van den Poel, D (2009), Handling class imbalance in customer churn prediction, Expert System with Applications,36, 4626-4636 S Olafsson, Li, X., & Wu, S (2008), Operations research and data mining, European Journal of Operational Research,187, 2592-1448 Weka - Data Mining with Open Source Machine Learning Software in Java Available from: http://www.cs.waikato.ac.nz/ml/weka/ 51 Phụ lục THÔNG TIN BỘ DỮ LIỆU Thông tin trường liệu STT Tên trường GRAND_PACKAGE_ID STA_DATETIME CUS_TYPE STATUS_ID IS_MEMBER RANK_ID AREA_SK_PSC_N AREA_SK_PSC_N1 AREA_SK_PSC_N2 Ý nghĩa Mã gói cước thuê bao sử dụng Ngày bắt đầu sử dụng thuê bao Loại khách hàng (cá nhân /doanh nghiêp) Trạng thái thuê bao Mã thể có tham gia chương trình kết nối dài lâu Hạng thuê bao chương trình kết nối dài lâu Khu vực phát sinh cước tháng n-1 Khu vực phát sinh cước tháng n-2 Khu vực phát sinh cước tháng n-3 Doanh thu tài khoản dịch vụ thoại nội 10 DTKC_THOAI_NOI_N mạng tháng n-1 Doanh thu tài khoản khuyến mại dịch vụ thoại 11 TKKM_THOAI_NOI_N nội mạng tháng n-1 Doanh thu tài khoản dịch vụ thoại liên 12 DTTKC_THOAI_LIEN_MANG_N mạng tháng n-1 Doanh thu tài khoản khuyến mại dịch vụ thoại 13 DTTKM_THOAI_LIEN_MANG_N liên mạng tháng n-1 Doanh thu tài khoản dịch vụ sms nội mạng 14 DTTKC_SMS_NOI_N tháng n-1 Doanh thu tài khoản khuyến mại dịch vụ sms nội 15 DTTKM_SMS_NOI_N mạng tháng n-1 Doanh thu tài khoản dịch vụ sms liên 16 DTTKC_SMS_LIEN_MANG_N mạng tháng n-1 Doanh thu tài khoản khuyến mại dịch vụ sms 17 DTTKM_SMS_LIEN_MANG_N liên mạng tháng n-1 Doanh thu tài khoản dịch vụ data tháng n18 DTTKC_DATA_N Doanh thu tài khoản khuyến mại dịch vụ data 19 DTTKM_DATA_N tháng n-1 Doanh thu tài khoản dịch vụ khác tháng n20 DTTKC_KHAC_N Doanh thu tài khoản khuyến mại dịch vụ khác 21 DTTKM_KHAC_N tháng n-1 Doanh thu tài khoản dịch vụ thoại nội 22 DTKC_THOAI_NOI_N1 mạng tháng n-2 Doanh thu tài khoản khuyến mại dịch vụ thoại 23 TKKM_THOAI_NOI_N1 nội mạng tháng n-2 Doanh thu tài khoản dịch vụ thoại liên 24 DTTKC_THOAI_LIEN_MANG_N1 mạng tháng n-2 Doanh thu tài khoản khuyến mại dịch vụ thoại 25 DTTKM_THOAI_LIEN_MANG_N1 liên mạng tháng n-2 Doanh thu tài khoản dịch vụ sms nội mạng 26 DTTKC_SMS_NOI_N1 tháng n-2 Doanh thu tài khoản khuyến mại dịch vụ sms nội 27 DTTKM_SMS_NOI_N1 mạng tháng n-2 28 DTTKC_SMS_LIEN_MANG_N1 Doanh thu tài khoản dịch vụ sms liên 52 mạng tháng n-2 Doanh thu tài khoản khuyến mại dịch vụ sms 29 DTTKM_SMS_LIEN_MANG_N1 liên mạng tháng n-2 Doanh thu tài khoản dịch vụ data tháng n30 DTTKC_DATA_N1 Doanh thu tài khoản khuyến mại dịch vụ data 31 DTTKM_DATA_N1 tháng n-2 Doanh thu tài khoản dịch vụ khác tháng n32 DTTKC_KHAC_N1 Doanh thu tài khoản khuyến mại dịch vụ khác 33 DTTKM_KHAC_N1 tháng n-2 Doanh thu tài khoản dịch vụ thoại nội 34 DTKC_THOAI_NOI_N2 mạng tháng n-3 Doanh thu tài khoản khuyến mại dịch vụ thoại 35 TKKM_THOAI_NOI_N2 nội mạng tháng n-3 Doanh thu tài khoản dịch vụ thoại liên 36 DTTKC_THOAI_LIEN_MANG_N2 mạng tháng n-3 Doanh thu tài khoản khuyến mại dịch vụ thoại 37 DTTKM_THOAI_LIEN_MANG_N2 liên mạng tháng n-3 Doanh thu tài khoản dịch vụ sms nội mạng 38 DTTKC_SMS_NOI_N2 tháng n-3 Doanh thu tài khoản khuyến mại dịch vụ sms nội 39 DTTKM_SMS_NOI_N2 mạng tháng n-3 Doanh thu tài khoản dịch vụ sms liên 40 DTTKC_SMS_LIEN_MANG_N2 mạng tháng n-3 Doanh thu tài khoản khuyến mại dịch vụ sms 41 DTTKM_SMS_LIEN_MANG_N2 liên mạng tháng n-3 Doanh thu tài khoản dịch vụ data tháng n42 DTTKC_DATA_N2 Doanh thu tài khoản khuyến mại dịch vụ data 43 DTTKM_DATA_N2 tháng n-3 Doanh thu tài khoản dịch vụ khác tháng n44 DTTKC_KHAC_N2 Doanh thu tài khoản khuyến mại dịch vụ khác 45 DTTKM_KHAC_N2 tháng n-3 46 REMAIN_CREDIT Số tiền lại tài khoản tháng trước 47 REMAIN_BONUS Số tiền lại tài khoản thưởng tháng trước 48 MONTH_3K3D_NEAREST Tháng đạt tiêu 3k3d gần 49 NUM_OG_CALLS Số lượng gọi thoại chiều tháng n-1 50 SUM_DURATION_OG Số lượng lưu lượng thoại chiều tháng n-1 51 SUM_DURATION_IC số lượng lưu lượng thoại đến tháng n-1 52 NUM_SMO Số lượng sms chiều tháng n-1 53 NUM_SMT Số lượng sms chiều đến tháng n-1 54 NUM_OG_CALLS_N1 Số lượng gọi thoại chiều tháng n-2 55 SUM_DURATION_OG_N1 Số lượng lưu lượng thoại chiều tháng n-2 56 SUM_DURATION_IC_N1 số lượng lưu lượng thoại đến tháng n-2 57 NUM_SMO_N1 Số lượng sms chiều tháng n-2 58 NUM_SMT_N1 Số lượng sms chiều đến tháng n-2 59 NUM_OG_CALLS_N2 Số lượng gọi thoại chiều tháng n-3 60 SUM_DURATION_OG_N2 Số lượng lưu lượng thoại chiều tháng n-3 53 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 SUM_DURATION_IC_N2 NUM_SMO_N2 NUM_SMT_N2 SCR_AMOUNT_N SCR_COUNT_N SCR_AMOUNT_N1 SCR_COUNT_N1 SCR_AMOUNT_N2 SCR_COUNT_N2 DEBIT_N MONTH_DEBIT_N DEBIT_N1 MONTH_DEBIT_N1 DEBIT_N2 MONTH_DEBIT_N2 NUM_VLR_N NUM_VLR_N1 NUM_VLR_N2 NUM_PSC_N NUM_PSC_N1 NUM_PSC_N2 PHONE_MODEL PROM_CODE_N PROM_CODE_N1 PROM_CODE_N2 RM số lượng lưu lượng thoại đến tháng n-3 Số lượng sms chiều tháng n-3 Số lượng sms chiều đến tháng n-3 Số tiền nạp thẻ tháng n-1 Số lượng thẻ nạp tháng n-1 Số tiền nạp thẻ tháng n-2 Số lượng thẻ nạp tháng n-2 Số tiền nạp thẻ tháng n-3 Số lượng thẻ nạp tháng n-3 Nợ tiền nợ cước tháng n-1 Số tháng nợ cước tính đến tháng n-1 Nợ tiền nợ cước tháng n-2 Số tháng nợ cước tính đến tháng n-2 Nợ tiền nợ cước tháng n-3 Số tháng nợ cước tính đến tháng n-3 Số ngày cập nhật VLR tháng n-1 Số ngày cập nhật VLR tháng n-2 Số ngày cập nhật VLR tháng n-3 Số ngày phát sinh cước tháng n-1 Số ngày phát sinh cước tháng n-2 Số ngày phát sinh cước tháng n-3 Nhãn hiệu máy khách hàng dùng Số chương trình khuyến mại tham gia tháng n-1 Số chương trình khuyến mại tham gia tháng n-2 Số chương trình khuyến mại tham gia tháng n-3 Trường đánh dấu rời mạng 54 PHỤ LỤC PHÂN TÍCH ĐĂC TRƯNG BỘ DỮ LIỆU THỰC NGHIỆM Nhóm MobiFone đưa tiêu chí thuê bao 3k3d_vlr để nhằm thống kê thuê bao sử dụng thật thuê bao ảo (thuê bao nằm kênh phân phối, thuê bao khách hàng mua dùng để nhắn tin rác, …) Theo đó, thuê bao đạt chuẩn 3k3d_vlr thuê bao thỏa mãn đồng thời tiêu chí sau: (1) tiêu dùng tối thiểu 3.000đ từ tài khoản (2) cập nhật vlr (mở máy) tối thiểu ngày Do vậy, mốc tiêu dùng 3.000đ từ tài khoản mốc cập nhật vlr ngày mốc quan trọng để đánh giá thuê bao Trong phần này, nhóm chuyên gia thực phân tích nhóm thuê bao không phát sinh cước tháng 8/2015 có tiêu dùng tài khoản không đạt 3k3d_vlr tháng trước (tháng 7/2015) Nhóm gồm thuê bao thỏa mãn điều kiện sau: - Tiêu dùng tài khoản 3.000đ tháng 7/2015 Hoặc: - Tiêu dùng tài khoản từ 3.000đ trở lên cập nhật VLR ngày tháng 7/2015 Sau phân tích nhóm rút đặc điểm đặc trưng tập thuê bao trước rời mạng (không phát sinh cước) sau: - Tiêu dùng tài khoản 3.000đ tháng trước - Chỉ đạt 3k3d_vlr đến lần tháng liên tục - Không phát sinh giao dịch phát sinh đến giao dịch thoại chiều tháng trước - Không phát sinh giao dịch thoại chiều đến tháng trước - Có xu hướng giảm dần số lượng giao dịch thoại chiều đến tháng liên tục giảm sản lượng thoại chiều đến tháng liên tục - Hầu không phát sinh giao dịch nạp thẻ tháng liền trước - Có xu hướng giảm tần suất nạp thẻ tháng liên tiếp Nhóm Nhóm có 67.565 thuê bao, chiếm tỷ trọng cao MobiQ (51,07%), MobiCard (26,84%), Zone+ (9,55%) Trong cấu thuê bao MobiFone tại, MobiQ chiếm khoảng 49%, MobiCard chiếm khoảng 12%, Zone+ chiếm khoảng 12% 55 Như vậy, rõ ràng nhóm thuê bao MobiCard có tỉ lệ rời mạng cao nhóm khác Sau phân tích nhóm chuyên gia rút đặc điểm đặc trưng tập thuê bao trước rời mạng (không phát sinh cước) sau: - Tiêu dùng TKC ≥ 3.000đ tiêu dùng TKKM < 3.000đ tháng trước - Có mức tiêu dùng TKKM giảm dần tháng liên tục - Không phát sinh giao dịch phát sinh đến giao dịch thoại chiều tháng trước - Không phát sinh giao dịch phát sinh đến giao dịch sms chiều tháng trước - Không phát sinh giao dịch thoại chiều đến tháng trước - Có xu hướng giảm dần số lượng giao dịch thoại chiều tháng liên tục - Có xu hướng giảm dần số lượng giao dịch sms chiều tháng liên tục - Có xu hướng giảm dần số lượng giao dịch thoại chiều đến tháng liên tục - Hầu không phát sinh giao dịch nạp thẻ tháng liền trước có tần suất nạp thẻ giảm dần tháng liên tục - Có xu hướng giảm dần số ngày cập nhật VLR tháng liên tục Nhóm Nhóm gồm 219.993 thuê bao, MobiQ chiếm tỷ trọng cao với 82,16% MobiQ loại thuê bao có ngày sử dụng linh hoạt, dễ dàng cho khách hàng trì số thuê bao mà không cần tiêu dùng đến TKC Sau phân tích nhóm chuyên gia rút phần lớn thuê bao thuộc nhóm nằm kênh nằm ngăn kéo (KH mua không sử dụng nữa) Đặc điểm nhóm sau: - Chủ yếu loại hình thuê bao MobiQ - Hầu không đạt 3k3d_vlr nhiều tháng liên tục (chỉ có 7,5% thuê bao thuộc nhóm có đạt 3k3d_vlr lần tháng liên tiếp) - Hầu không tiêu dùng tài khoản tháng liên tục (tỉ lệ đạt 90%) 56 - Có mức tiêu dùng TKKM thấp < 3.000đ/tháng tháng liên tục (tỉ lệ đạt 90%) - Hầu không phát sinh giao dịch thoại chiều phát sinh giao dịch (chiếm 95% tháng liên tiếp) - Hầu không phát sinh giao dịch sms chiều phát sinh giao dịch (chiếm 94% tháng liên tiếp) - Hầu không phát sinh giao dịch thoại chiều đến (chiếm 96% tháng liên tiếp) - Hầu không phát sinh phát sinh sms chiều đến (chiếm 91% tháng liên tiếp) - Theo xu hướng giảm sản lượng thoại đến tháng liên tiếp (khoảng 97%) - Chỉ mở máy ngày (chiếm 91% tháng liên tiếp) - Hầu không nạp thẻ tháng trước rời mạng (chỉ có 0,44% nạp thẻ) - Theo xu hướng giảm tần suất nạp thẻ tháng liên tiếp (khoảng 98% thuê bao thể xu hướng này) Nhóm Bản chất nhóm rời mạng (không phát sinh cước) từ tháng 7/2015 Nhóm gồm có 1.067.414 thuê bao, chiếm tỉ trọng cao MobiCard (37,69%), MobiQ (27,30%) Mobi365 (21,02%) Trong đó, xét tỉ trọng thuê bao PSC tháng 8/2015 toàn mạng, MobiCard chiếm 12,23%, Mobi365 chiếm 2,64% MobiQ chiếm tới 48,81% Sau phân tích nhóm chuyên gia có nhận xét đặc điểm nhận dạng nhóm thuê bao sau: - Tiêu dùng TKC (dưới 3000đ) tháng liên tiếp - Tiêu dùng TKKM (dưới 3000đ) tháng liên tiếp - Có xu hướng tiêu dùng TKC TKKM giảm dần tháng liên tiếp (95% thuê bao thể rõ xu hướng này) - Không phát sinh phát sinh giao dịch thoại chiều tháng liên tiếp - Không phát sinh phát sinh giao dịch sms chiều tháng liên tiếp 57 - Có xu hướng giảm dần số lượng giao dịch thoại chiều tháng liên tiếp (93,26% thuê bao thể xu hướng này) - Có xu hướng giảm dần số lượng giao dịch sms chiều tháng liên tiếp (93,9% thể xu hướng này) - Có xu hướng giảm dần số lượng giao dịch sms chiều đến tháng liên tiếp (91,41% thuê bao thể xu hướng này) - Có xu hướng giảm dần số lượng giao dịch thoại chiều đến tháng liên tiếp (91,41% thuê bao thể xu hướng này) - Có xu hướng giảm dần số ngày cập nhật VLR tháng liên tiếp (88,94% thể xu hướng này) - Hầu không nạp thẻ vào tháng liền trước có xu hướng giảm tần suất nạp thẻ tháng liên tiếp Nhóm Nhóm gồm 105.703 thuê bao, chiếm tỷ trọng cao MobiQ (56,68%), MobiCard (15,32%) Zone+ (10,87%) Trong số này, 10,17% thuê bao hội viên chương trình Kết nối dài lâu Sau phân tích nhóm chuyên gia có nhận xét đặc điểm nhận dạng nhóm thuê bao sau: - Nhóm thuê bao hoạt động bình thường mạng: Vẫn nạp thẻ, phát sinh giao dịch thoại đi/đến với tỉ lệ cao, số ngày cập nhật VLR nhiều (≥3 ngày) - Số tiền lại TKC thấp (trên 60% thuê bao có số tiền TKC 3.000đ) - Doanh thu TKC từ dịch vụ sms (nội mạng liên mạng) thấp (dưới 3.000đ/tháng) - Doanh thu TKKM từ dịch vụ sms (nội mạng liên mạng) thấp (dưới 3.000đ/tháng) 58 Phụ lục Đặc trưng phân lớp giải pháp MobiFone áp dụng Nhóm - Tiêu chí phân lớp: Thuê bao trả trước thỏa mãn đồng thời tiêu chí sau: o Tiêu dùng tài khoản 3.000đ tháng trước o Phát sinh giao dịch thoại chiều tháng trước o Giảm dần số lượng giao dịch thoại chiều đến tháng liên tục liền trước (số giao dịch tháng sau nhỏ số giao dịch tháng trước) o Giảm dần số lượng giao dịch thoại chiều đến tháng liên tục liền trước Nhóm 2: - Tiêu chí phân lớp: o Tiêu dùng TKC ≥ 3.000đ tháng trước o Cập nhật VLR < ngày tháng trước o Phát sinh giao dịch thoại chiều tháng trước o Không phát sinh giao dịch thoại chiều đến tháng trước Nhóm 3: - Tiêu chí phân lớp: o Không tiêu dùng TKC tháng trước (Tiêu dùng TKC= 0) o Tiêu dùng TKKM > tháng trước o Không nạp thẻ tháng trước o Có tần suất nạp thẻ giảm dần tháng liên tục liền trước (số lần nạp thẻ tháng sau nhỏ số lần nạp thẻ tháng trước) o Có xu hướng giảm dần số lượng giao dịch thoại chiều đến (hoặc giảm dần sản lượng gọi chiều đến) tháng liên tục liền trước Nhóm 4: - Tiêu chí phân lớp: o Không tiêu dùng TKC tháng trước (Tiêu dùng TKC= 0) 59 o Không tiêu dùng TKKM tháng trước (Tiêu dùng TKKM= 0) o Có số ngày cập nhật VLR giảm dần tháng liên tiếp liền trước (số ngày cập nhật VLR tháng sau nhỏ số ngày cập nhật tháng trước) o Không nạp thẻ tháng trước o Có tần suất nạp thẻ giảm dần tháng liên tục liền trước (số lần nạp thẻ tháng sau nhỏ số lần nạp thẻ tháng trước) Nhóm 5: - Tiêu chí phân lớp: o Tiêu dùng TKC ≥ 3.000đ tháng trước o Cập nhật VLR ≥ ngày tháng trước o Có số tiền lại TKC thời điểm cuối tháng trước < 5.000đ o Tiêu dùng TKC < 3.000đ cho dịch vụ sms (nội mạng liên mạng) tháng trước o Tiêu dùng TKKM < 3.000đ cho dịch vụ sms (nội mạng liên mạng) tháng trước 60 [...]... xuất dữ liệu Trích chọn đặc trưng Thuật toán Khai phá dữ liệu Đánh giá Hình 3-4 Giải pháp đề xuất cải tiến Giải pháp này là cải tiến của giải pháp dùng thuật toán khai phá dữ liệu Để làm giảm thời gian xử lý dữ liệu đối thì trước khi đưa số liệu vào xử lý bằng thuật toán khai phá dữ liệu ta sẽ sử dụng các thuật toán trích chọn đặc trưng để tìm ra những thuộc tính 30 phù hợp nhất với các thuật toán Áp dụng. .. lại dữ liệu nên sẽ tốn rất nhiều thời gian để đưa ra được tập luật chính xác Hơn nữa, đối với những loại dữ liệu phức tạp thì phương pháp này cho độ chính xác không cao 3.3 Giải pháp đề xuất 3.3.1 Giải pháp đề xuất dùng kỹ thuật khai phá dữ liệu Mô hình phân tích Thu thập dữ liệu Xử lý và trích xuất dữ liệu Kỹ thuật KPDL (phân lớp) Đánh giá Hình 3-3 Giải pháp đề xuất dùng kỹ thuật khai phá dữ liệu. .. hướng nghiên cứu về thuê bao rời mạng trong mạng di động, hướng tiếp cận của luận văn 13 Chương 2 Khai phá dữ liệu và các kỹ thuật phân tích dự báo 2.1 Khai phá dữ liệu 2.1.1 Khái niệm KPDL KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong Do nhu cầu nghiệp... rời mạng, hoặc xây dựng mô hình cho việc dự đoán khách hàng rời mạng 1.3 Phát biểu bài toán 1.3.1 Chu trình của thuê bao di động Rời mạng thường được phân thành 2 loại: rời mạng chủ động và rời mạng bị động Rời mạng chủ động là trường hợp những khách hàng chọn để rời mạng, việc rời mạng là do lựa chọn của khách hàng Ví dụ, khách hàng chuyển sang mạng đối thủ hoặc chuyển đổi sang hợp đồng thuê bao. .. phương pháp đã nêu 4.1 Chuẩn bị dữ liệu Yêu cầu thu thập dữ liệu: Dữ liệu được sử dụng trong luận văn này là dữ liệu thực tế của mạng di động MobiFone đã được biến đổi khi công bố trong luận văn nhằm đảm bảo tính bảo mật của dữ liệu Đối tượng: Thuê bao MobiFone lâu năm (kích hoạt/hòa mạng từ 2 năm trở lên) không phát sinh cước trong tháng 8/2015 Khoảng thời gian thu thập dữ liệu: thu thập dữ liệu lịch... liên quan về các thuật toán thường được áp dụng trong KPDL ở dạng phân lớp, dự báo đó là: cây quyết định, mạng nơron nhân tạo, phân lớp Naïve Bayes và luật kết hợp 28 Chương 3 Giải pháp phát hiện thuê bao di động có khả năng rời mạng 3.1 Giải pháp chung: Đối với các bài toán về dự đoán thuê bao rời mạng nói chung thì đều sử dụng mô hình như sau: Thu thập dữ liệu Xử lý và trích xuất dữ liệu Mô hình phân... dữ liệu Giải pháp này đề xuất sử dụng để giải quyết bài toán Trong bước mô hình hóa sẽ sử dụng các thuật toán KPDL cụ thể các thuật toán phân lớp để ứng dụng dự báo thuê bao rời mạng Phương pháp này có ưu điểm là có thể tự động hóa được tuy nhiên thời gian xử lý dữ liệu thường chậm hơn phương pháp dựa vào đặc trưng 3.3.2 Giải pháp đề xuất sau khi cải tiến Mô hình phân tích Thu thập dữ liệu Xử lý và... hàng đã sử dụng phương pháp phân tích đặc trưng dữ liệu từ đó tìm ra đặc trưng của các thuê bao có khả năng rời mạng để áp dụng dự báo Phương pháp này sẽ sử dụng các tập luật để phân lớp dữ liệu Phương pháp này có ưu điểm là đơn giản, rất dễ thực hiện để phân lớp, tuy nhiên để xác định chính xác các tập luật đòi hỏi phải rất hiểu được dữ liệu nên không thể tự động hóa được một khi dữ liệu thay đổi... giải pháp trên là quá trình cải tiến liên tục sau khi đánh giá thì lấy kết quả phân tích nhằm cải tiến giải pháp nếu cần 3.2 Giải pháp hiện tại của mạng MobiFone Giải pháp hiện tại của mạng MobiFone như sau: 29 Xử lý và trích xuất dữ liệu Thu thập dữ liệu Phân tích đặc trưng dữ liệu và tập luật Đánh giá Hình 3-2 Giải pháp hiện tại MobiFone đang áp dụng Trong giải pháp này thì các chuyên gia MobiFone trong. .. nào được coi là rời mạng sẽ rất quan trọng trong việc dự đoán rời mạng và thực hiện các tác động để duy trì, ngăn chặn thuê bao rời mạng Trong phạm vi đề tài này, khái niệm rời mạng được xác định là trường hợp khách hàng không phát sinh cước (không phát sinh bất cứ giao di ch nào hoặc không có biến động về tài khoản trong vòng một tháng) Tức là, thuê bao được xác định là rời mạng khi có thể thực