1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Kết hợp k MEANS và SVM dự báo khách hàng chuyển mạng tại VNPT bình định

67 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,78 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN TRẦN THANH LIÊM KẾT HỢP K-MEANS VÀ SVM DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG TẠI VNPT BÌNH ĐỊNH Chuyên ngành: Khoa học máy tính Mã số : 8480101 Ngƣời hƣớng dẫn: TS Lê Xuân Vinh LỜI CẢM ƠN Trƣớc tiên xin gửi đến lời cảm ơn chân thành sâu sắc đến thầy TS Lê Xuân Vinh – nhiệt tình hƣớng dẫn, bảo suốt thời gian bắt đầu thực hoàn thành luận văn Tơi xin cảm ơn thầy cô khoa CNTT – Trƣờng Đại học Quy Nhơn truyền đạt cho kiến thức chuyên sâu chun ngành để tơi có đƣợc tảng kiến thức giúp tơi hồn thành luận văn thạc sĩ Cuối cùng, xin cảm ơn đến ngƣời thân yêu gia đình tồn thể bạn bè, đồng nghiệp ngƣời ln hỗ trợ giúp đỡ, khuyến khích, động viên thời gian học tập nghiên cứu Trƣờng Đại Học Quy Nhơn Xin chân thành cảm ơn! LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ Khoa học máy tính “KẾT HỢP K-MEANS VÀ SVM DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG TẠI VNPT BÌNH ĐỊNH” cơng trình nghiên cứu riêng tơi với giúp đỡ tận tình giáo viên hƣớng dẫn TS Lê Xuân Vinh Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân tơi đƣợc tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Bình Định, ngày … tháng năm 2020 MỤC LỤC MỞ ĐẦU 1 LÝ DO CHỌN ĐỀ TÀI MỤC ĐÍCH VÀ NHIỆM VỤ NGHIÊN CỨU 2.1.Mục đích nghiên cứu 2.2.Nhiệm vụ nghiên cứu 3 ĐỐI TƢỢNG NGHIÊN CỨU PHƢƠNG PHÁP NGHIÊN CỨU CHƢƠNG I: TỔNG QUAN VỀ HỌC MÁY VÀ BÀI TỐN DỰ BÁO KHÁCH HÀNG VIỄN THƠNG CHUYỂN MẠNG 1.1.GIỚI THIỆU HỌC MÁY 1.1.1 Khái niệm 1.1.2 Một số toán học máy 1.2 PHÂN LỚP DỮ LIỆU - MỘT SỐ BÀI TỐN CHÍNH TRONG HỌC MÁY 1.2.1 Phân cụm liệu 1.2.2 Phân lớp liệu 11 1.2.2.1 Bài toán phân lớp 11 1.2.2.2 Quá trình phân lớp liệu 14 1.2.3 Một số thuật toán phân lớp tiêu biểu 15 1.3 BÀI TOÁN DỰ BÁO KHÁCH HÀNG VIỄN THÔNG CHUYỂN MẠNG 17 1.3.1 Thị trƣờng viễn thông Việt Nam 17 1.3.2 Phát biểu toán 21 1.3.2.1 Chu trình thuê bao viễn thông 21 1.3.2.2 Phát biểu toán 23 1.4.TIẾP CẬN HỌC MÁY CHO BÀI TỐN DỰ BÁO KHÁCH HÀNG VIỄN THƠNG CHUYỂN MẠNG 24 1.5.KẾT LUẬN CHƢƠNG 27 CHƢƠNG II: KẾT HỢP THUẬT TOÁN K-MEANS VÀ SVM GIẢI BÀI TOÁN PHÂN LỚP 28 2.1.THUẬT TOÁN PHÂN CỤM K-MEANS 28 2.1.1 Phân cụm liệu 28 2.1.2.Thuật toán Kmeans 29 2.1.3.Nhận xét, đánh giá thuật toán K-mean 33 2.2.THUẬT TOÁN SVM (SUPPORT VECTOR MACHINE) 34 2.2.1.Cơ sở lý thuyết 34 2.2.2.Thuật toán SVM phân lớp 38 2.3.KẾT HỢP THUẬT TOÁN KMEAN VÀ SVM DỰ BÁO CHUYỂN MẠNG 42 2.4.KẾT LUẬN CHƢƠNG 43 CHƢƠNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG VIỄN THÔNG 44 3.1.GIỚI THIỆU BÀI TOÁN 44 3.2.MƠ TẢ DỮ LIỆU BÀI TỐN 44 3.3.SƠ ĐỒ CÁC BƢỚC CỦA MƠ HÌNH KẾT HỢP KMEAN VÀ SVM 46 3.4.THỬ NGHIỆM VÀ ĐÁNH GIÁ 47 3.5.ĐÁNH GIÁ VÀ KẾT LUẬN CHƢƠNG 53 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 55 NHỮNG KẾT QUẢ MÀ LUẬN VĂN ĐÃ ĐẠT ĐƢỢC 55 HƢỚNG PHÁT TRIỂN TIẾP THEO 55 TÀI LIỆU THAM KHẢO 57 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT AI Trí tuệ nhân tạo (Artificial Intelligence) SVM Máy vector hỗ trợ (Support Vector Machine) VNPT Tập đồn Bƣu Viễn thơng Việt Nam ARPU Doanh thu trung bình khách hàng (Average Revenue Per User) DANH MỤC BẢNG BIỂU Bảng 1.1 Tình hình phát triển di động Việt Nam đến năm 2017 [1] 18 Bảng 3.1 Bảng mô tả trƣờng liệu theo báo cáo thống kê hàng tháng VNPT Bình Định 44 Bảng 3.2 Bảng mô tả trƣờng liệu đƣợc lựa chọn để đƣa vào mẫu học 47 DANH MỤC HÌNH ẢNH Hình 1.1 Sơ đồ q trình phân cụm liệu Hình 1.2 Ví dụ phân cụm Hình 1.3 Phân lớp nhị phân phân lớp đa lớp 12 Hình 1.4 Bài toán phân lớp xác định email spam 13 Hình 1.5 Doanh thu di động Việt Nam đến năm 2017 [1] 19 Hình 1.6 Thị phần thuê bao di động Việt Nam đến năm 2017 [1] 20 Hình 1.7 Thị phần doanh thu di động Việt Nam đến năm 2017 [1] 21 Hình 1.8 Vòng đời thuê bao di động 23 Hình 2.1 Xác lập ranh giới cụm ban đầu 29 Hình 2.2 Tính tốn trọng tâm cụm 30 Hình 2.3 Một số dạng cụm liệu áp dụng thuật tốn K-means 32 Hình 2.4 Phân lớp tuyến tính 34 Hình 2.5 Lề SVM 36 Hình 2.6 Minh họa xác định lề 36 Hình 2.7 Ví dụ hai nhóm mẫu đƣợc phân tách nhiều đƣờng khác 39 Hình 2.8 Đƣờng thẳng phân tách hai nhóm mẫu với biên độ phân tách lớn 40 Hình 2.9 Phân nhiều lớp với SVM 42 Hình 3.1 Lƣu đồ mơ hình kết hợp Kmeans-SVM 46 Hình 3.2 Dữ liệu đầu vào 48 Hình 3.3 Danh sách tâm cụm sau phân cụm K-mean 49 Hình 3.4 Các mẫu đƣợc chọn gần tâm cụm 50 Hình 3.5 Mơ tả kết sau thực thử nghiệm SVM học 51 Hình 3.6 Minh họa thử nghiệm mơ hình SVM học với mẫu nhập vào 52 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Hiện ngành viễn thơng khơng cịn độc quyền nhƣ năm 90 kỷ 20 Có nhiều nhà cung cấp dịch vụ viễn thông nhƣ MobiFone, FPT, Viettel, CMC làm cho thị trƣờng trở nên sôi động hơn, cạnh tranh chất lƣợng dịch vụ nhà mạng Khách hàng có nhiều lựa chọn, họ có quyền lựa chọn nhà cung cấp dịch vụ tốt hơn, dẫn đến khách hàng rời mạng để chuyển sang mạng khác Đây thách thức doanh nghiệp viễn thông Các doanh nghiệp phải đƣa hoạch định chiến lƣợc để giữ chân khách hàng, nhằm tăng doanh thu [1] Song song với việc thay đổi công nghệ để đáp ứng đòi hỏi nhu cầu thực tế khách hàng, doanh nghiệp viễn thơng khai thác nguồn liệu, thông tin khách hàng để định hƣớng chiến lƣợc phát triển doanh nghiệp Trong liệu thơng tin khách hàng có thuộc tính có giá trị nhƣ độ tuổi, hành vi, thời gian, tần suất sử dụng dịch vụ Từ liệu biết khai thác nhận biết đƣợc khách hàng trung thành khách hàng có nguy rời mạng để chuyển sang mạng khác Từ doanh nghiệp đƣa sách để chăm sóc, giữ chân khách hàng VNPT Bình Định doanh nghiệp viễn thông cung cấp dịch vụ cho khách hàng nên gặp trạng nói Những thách thức nhƣ thúc đẩy nhà mạng cần phải có thay đổi cơng nghệ để đáp ứng đòi hỏi nhu cầu thực tế khách hàng Với VNPT, lợi lớn đơn vị kinh doanh ngành viễn thơng lâu năm có kho liệu khách hàng tƣơng đối lớn, đầy đủ thông tin để phân loại khách hàng nhằm phục vụ cho cơng tác chăm sóc khách hàng Với liệu khách hàng có tƣơng đối lớn đa dạng chất lƣợng sở quan trọng để áp dụng kỹ thuật học máy nhằm khai thác thơng tin quan trọng sách phát triển cơng ty Trong có liệu quan trọng việc phân tích đánh giá khách hàng nhƣ độ tuổi, hành vi, quan tâm , giá trị thứ khác Đây sở quan trọng để cung cấp sản phẩm, dịch vụ phù hợp mơ hình tiếp thị đến khách hàng, cho phép doanh nghiệp hiểu đƣợc khách hàng có giá trị cao Từ phân tích trên, toán đƣợc đặt luận văn dự báo khả chuyển mạng khách hàng sở phân tích sở liệu khách hàng quản lý từ trƣớc đến Công cụ học thuật đƣợc sử dụng để giải toán thuật toán K-means kết hợp thuật toán SVM, thuật toán kinh điển lĩnh vực học máy SVM thuật toán tiếng giải tốn phân lớp Tuy nhiên với tính chất liệu khách hàng viễn thông nhƣ khối lƣợng liệu lớn nên sử dụng thuật toán SVM khả hiệu không cao Từ giải pháp đƣợc đề xuất gợi ý cho dùng thuật tốn K-Means để phân lớp khách hàng theo nhóm thuộc tính đặc trƣng, sau chọn lọc số đối tƣợng đại diện tốt cho nhóm dùng SVM để phân lớp Kết thu đƣợc mơ hình phân lớp sử dụng mơ hình dự báo khả chuyển mạng khách hàng Với nguồn liệu có VNPT số kiến thức đƣợc trang bị, đặc biệt khai phá liệu học máy để phân tích, phát hành vi khách hàng dự đoán khách hàng chuyển mạng cho đề tài luận văn Vì vậy, chúng tơi chọn “KẾT HỢP THUẬT TOÁN K-MEANS VÀ THUẬT TOÁN SVM DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG TẠI 45 Tiền Tài khoản gọi Tiền tài khoản khuyến mại gọi (KM, KM1 ) Tiền tài khoản nhắn tin Tiền tài khoản khuyến mại nhắn tin 10 Tiền tài khoản đăng k sử dụng data (số tiền gói, lƣu lƣơng) 11 Dịch vụ GTGT cộng thêm 12 Tiền tài khoản ứng tiền trƣớc (trƣờng hợp Tiền tài khoản hết tiền) 13 Tổng tiền thực gọi từ tài khoản tháng 14 Tổng tiền thực gọi từ tài khoản khuyến mại tháng 15 Ngày cuối tháng tổng kết Trên sở liệu cung cấp chƣơng trình thực phân tích kỹ thuật gom cụm K-means giải thuật phân lớp SVM mơ hình kết hợp nhƣ đƣợc trình bày chƣơng Về mặt ngữ nghĩa có nhiều trƣờng liệu khơng thực liên quan đến khả chuyển mạng khách hàng, ví dụ nhƣ số thuê bao Do thực nghiệm ta thực lựa chọn số trƣờng liệu cụ thể để tạo tập mẫu học Các trƣờng hợp chuyển mạng đƣợc đƣa vào xử lý K-means để chọn mẫu positive đƣa vào tập liệu học Trên sở ta chọn thêm mẫu negative trƣờng hợp khách hàng không chuyển mạng để hoàn 46 thành tập liệu học cho bƣớc phân lớp kỹ thuật SVM 3.3 SƠ ĐỒ CÁC BƢỚC CỦA MƠ HÌNH KẾT HỢP KMEAN VÀ SVM Dữ liệu đầu vào Dữ liệu huấn luyện Sử dụng K-means để phân cụm liệu Cụm Cụm N1 Cụm N Lựa chọn mẫu gần tâm cụm đƣa vào SVM Phân lớp SVM Kết Hình 3.1 Lƣu đồ mơ hình kết hợp Kmeans-SVM 47 THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.4 Chƣơng trình thử nghiệm đƣợc xây dựng dựa sơ đồ hệ thống nêu Chƣơng trình đƣợc phát triển tảng Visual C++ 2015 Trong ứng dụng liệu để dự báo khách hàng chuyển mạng, trƣờng liệu sau đƣợc lựa chọn để xây dựng mẫu vector đặc trƣng: Bảng 3.2 Bảng mô tả trƣờng liệu đƣợc lựa chọn để đƣa vào mẫu học STT Mô tả Số tiền nạp thẻ tháng Tiền Tài khoản gọi Tiền tài khoản nhắn tin Tiền tài khoản đăng k sử dụng data (số tiền gói, lƣu lƣơng) Dịch vụ GTGT cộng thêm Tiền tài khoản ứng tiền trƣớc (trƣờng hợp Tiền tài khoản hết tiền) Tổng tiền thực gọi từ tài khoản tháng Nội dung minh họa bƣớc thuật toán chạy Trong ứng dụng liệu để dự báo khách hàng chuyển mạng, liệu đầu vào đƣợc lƣu file dulieu.csv Đây liệu đƣợc sử dụng để áp dụng thuật toán xây dựng Bƣớc trình xử lý đọc liệu vào Dữ liệu gồm có tập X vector đặc trƣng tập Y nhãn Tổng cộng có 9999 mẫu liệu, vector đặc trƣng sử dụng có chiều Nhãn đầu giá trị thể có chuyển mạng không, tất liệu đƣợc lƣu lại file data_set.xml Mô tả liệu đầu vào nhƣ hình 3.2 48 : [-0.19170277, -0.35009393, -0.12929061, -0.26945978, -0.15044123, -0.0642571, -0.48645794] : [1.3558571, 1.8052853, -0.19759834, -0.24754605, 1.2362143, 0.051024366, 1.4366261] : [-0.49846467, 0.80014199, -0.12342063, -0.2364248, -0.26190692, -0.013992598, 0.31283316] : [0.24314782, 1.0080332, -0.12478585, -0.33030242, 0.18334469, -0.027776439, 0.57126653] : [1.8901013, 0.99696404, 0.50650811, -0.052840155, 2.7941835, 0.023451542, 1.5988919] : [0.069444008, -0.25870541, -0.1344759, -0.2537168, 0.95580518, 0.012656128, -0.023856308] : [-0.33539703, -0.38122967, -0.10564708, -0.20112036, -0.15733775, 0.0152601, -0.40422615] : [0.26198438, -0.23523167, -0.099986121, 0.27564487, -0.23673007, -0.00061628467, -0.093881443] : [-0.60419798, -0.044987071, -0.16589673, -0.28809085, -0.25346598, -0.077544093, -0.21626611] : [-0.13917738, -0.47216657, -0.058666017, 0.62616265, -0.13645701, -0.029109744, -0.12444366] …… Hình 3.2 Dữ liệu đầu vào Hình ảnh mơ tả nội dung thử nghiệm thuật toán K-means Cụ thể thử với tham số với k=100 với cụm sau thực chọn mẫu để đƣa vào tập học Các kết gom cụm đƣợc lƣu vào file kmeans_results.xml : [-0.52638948, -0.48298684, -0.20895794, -0.26007015, -0.15677929, -0.061989285, -0.59604526] : [-0.6125198, -0.56405115, -0.13251062, -0.29204363, -0.17809097, 0.0015660599, -0.64117265] : [-0.5931567, -0.58908248, -0.15233889, -0.32482085, -0.153805, 0.013452592, -0.52695405] : [-0.51319015, -0.62011766, -0.16599777, -0.26289061, -0.15757038, -0.093360327, -0.61495399] : [-0.48212546, -0.55578709, -0.19324458, -0.30798694, -0.18418698, 0.043764368, -0.571859] : [-0.55046362, -0.58052528, -0.23631309, -0.23359895, -0.17234324, 0.0032041406, -0.60646802] : [-0.60871923, -0.50921404, -0.21088941, -0.27767256, -0.16250411, -0.076142795, -0.52759266] : [-0.58358467, -0.51064909, -0.11955085, -0.20150067, -0.2138638, -0.094242349, -0.54163849] : [-0.52901226, -0.56397808, -0.099803612, -0.24980389, -0.23499884, 0.044894785, -0.5136171] 49 : [-0.57199168, -0.58837819, -0.2350778, -0.31119308, -0.21526019, -0.070860729, -0.5259558] … Hình 3.3 Danh sách tâm cụm sau phân cụm K-means Hình 3.3 mô tả liệu tâm cụm sau thực thuật toán phân cụm K-means Tập liệu học cho phân lớp SVM đƣợc chọn từ mẫu gần tâm cụm, tức mẫu có chuyển mạng, với số mẫu không chuyển mạng khác Mơ hình SVM học đƣợc dự báo mẫu có chuyển mạng hay khơng : [-0.52304304, -0.47385642, -0.19357233, -0.2633439, -0.15596397, -0.075695299, -0.60645187] : [-0.52973592, -0.49211726, -0.22434357, -0.25679642, -0.15759461, -0.048283275, -0.58563858] : [-0.6245721, -0.56077212, -0.14213389, -0.3074154, -0.18712576, -0.012344099, -0.65187871] : [-0.6004675, -0.56733012, -0.12288735, -0.27667186, -0.16905619, 0.015476218, -0.63046652] : [-0.60771203, -0.58326983, -0.13816591, -0.32632411, -0.15830769, -0.013505792, -0.52122712] : [-0.57860136, -0.59489506, -0.16651189, -0.32331759, -0.14930232, 0.040410977, -0.53268105] : [-0.51319015, -0.62011766, -0.16599777, -0.26289061, -0.15757038, -0.093360327, -0.61495399] : [-0.5341177, -0.57999885, -0.13547614, -0.23803335, -0.16553901, -0.070143171, -0.59951377] : [-0.47927272, -0.55460864, -0.19365571, -0.30622217, -0.18994203, 0.040407147, -0.56002319] : [-0.49194086, -0.57954502, -0.20087388, -0.30374616, -0.17887419, 0.046941575, -0.58837301] : [-0.56184793, -0.58678699, -0.2554042, -0.24155945, -0.16717756, -0.00082750194, -0.60632795] : [-0.538073, -0.56195736, -0.24981965, -0.22380318, -0.18407612, 0.0022820332, -0.63300657] : [-0.60871923, -0.50921404, -0.21088941, -0.27767256, -0.16250411, -0.076142795, -0.52759266] : [-0.62571973, -0.53942937, -0.24009278, -0.31029943, -0.15208176, -0.06046034, -0.49995703] : [-0.57323796, -0.50285059, -0.11057215, -0.20587648, -0.22091645, -0.084365211, -0.56852186] : [-0.59393138, -0.51844758, -0.12852955, -0.19712485, -0.20681116, -0.10411949, -0.51475513] : [-0.52901226, -0.56397808, -0.099803612, -0.24980389, -0.23499884, 0.044894785, -0.5136171] 50 : [-0.53121722, -0.57872903, -0.12041318, -0.29420832, -0.23846821, 0.044602409, -0.54152912] : [-0.58477139, -0.57698816, -0.22571516, -0.32296017, -0.20043445, -0.076264992, -0.52906215] : [-0.55921191, -0.59976828, -0.24444042, -0.29942599, -0.23008594, -0.065456457, -0.52284938] … Hình 3.4 Các mẫu đƣợc chọn gần tâm cụm Hình 3.4 danh sách mẫu có chuyển mạng đƣợc lựa chọn gần tâm cụm kết bƣớc Kmeans Các mẫu đƣợc đƣa vào làm liệu học cho mơ hình SVM Mơ hình SVM sau học thực thử nghiệm đánh giá tập liệu thử nghiệm [-0.57217056, -0.53045845, -0.1141606, -0.22524199, -0.15738, 0.032481421, -0.54330343] 0 [-0.44866675, -0.24352737, -0.19081706, -0.23312235, -0.21982783, 0.047099955, -0.39624563] 0 [-0.3262943, -0.36515391, -0.089092836, -0.32158563, -0.13042541, -0.054207962, -0.52022427] 0 [-0.41243458, -0.066192016, -0.25508851, -0.21633242, 0.36580116, 0.045399539, 0.017136235] 0 [-0.28459746, 0.076395191, -0.12605309, -0.31341648, -0.20730877, 0.0093154823, 0.25872222] 0 [-0.066345811, -0.27092418, -0.10440114, -0.26998729, 0.9267804, -0.062659316, 0.018469704] 0 [0.12966631, -0.089522816, 1.5812522, -0.31374913, -0.14335276, -0.062957481, -0.06986963] 0 [-0.11783089, -0.55353618, -0.098295525, -0.31016079, 0.85015696, 0.0055895355, 0.19225009] 0 [1.8690808, 1.1501327, 0.11020772, -0.28468046, -0.20647055, -0.09283375, 0.53371769] 0 [0.28726649, 0.37614727, -0.024494817, -0.22547044, 0.41431662, 0.03166797, 0.20738585] 0 [-0.17381954, 0.63343984, -0.1930488, -0.2315349, -0.15793872, 0.044941455, 0.18886542] 0 [-0.47264379, 1.1090844, -0.19410992, -0.33761626, -0.22224064, -0.063435286, 0.56015748] 0 [0.26763186, -0.26293516, -0.18612781, -0.33482417, 1.9295489, -0.02602526, 0.40084249] 0 [2.282057, 2.1851077, 0.74119657, 1.0310143, -0.27418882, -0.10173611, 1.9247345] 0 [-0.11553898, -0.28049341, -0.22501077, -0.28201744, -0.26378953, -0.056387864, -0.46702677] 51 0 [0.30604145, 0.67633247, 0.36953226, -0.33789328, -0.19217218, -0.081432968, 0.31268224] 0 [-0.49847776, -0.29176086, -0.14108621, -0.22921434, -0.14639658, 0.037721511, -0.46372172] 0 [1.7578646, 0.63195503, 0.89568847, 2.8267696, 0.051760189, -0.082639225, 1.8298432] [-0.50064278, -0.49918774, -0.15629569, -0.27532053, -0.1300202, -0.018556112, -0.49067929] 0 [-0.46071786, -0.21017317, -0.13523732, -0.26474616, -0.19093639, -0.00027645883, 0.48368219] 0 [0.014781713, -0.60207492, -0.18878806, -0.15890741, 1.1060684, 0.0054056644, -0.035147749] 0 [-0.30870008, 0.082668401, -0.054508898, -0.24069695, -0.16504879, -0.054043122, 0.13333404] … Hình 3.5 Mơ tả kết sau thực thử nghiệm SVM học Hình 3.5 mơ tả kết thực nghiệm mơ hình SVM học Cột giá trị SVM tính ra, cột liệu đánh dấu tập ban đầu, “1” kí hiệu cho chuyển mạng, “0” kí hiệu cho khơng chuyển mạng” Ngồi ta thử nghiệm xem mẫu có chuyển mạng hay không dựa kết dự báo SVM Kết đƣợc minh họa hình 3.6 -Nhap index mau thu (0-9998):10 Ket qua: Khong chuyen mang -Nhap index mau thu (0-9998):23 Ket qua: Khong chuyen mang -Nhap index mau thu (0-9998):46 Ket qua: Khong chuyen mang -Nhap index mau thu (0-9998):78 Ket qua: Co chuyen mang 52 Nhap index mau thu (0-9998):2999 Ket qua: Co chuyen mang -Nhap index mau thu (0-9998):299 Ket qua: Khong chuyen mang -Nhap index mau thu (0-9998):-1 mau nhap ko hop le Hình 3.6 Minh họa thử nghiệm mơ hình SVM học với mẫu nhập vào Luận văn thực thử nghiệm với quy trình nhƣ sơ đồ với liệu đánh giá 9799 mẫu, kết 7967 mẫu cho kết 1832 mẫu cho kết sai, độ xác xấp xỉ 81,31 Nhƣ độ xác mơ hình thuật tốn Kmean SVM phân lớp dự báo khách hàng chuyển mạng viễn thông đƣợc thực nghiệm liệu gần 10.000 mẫu cho độ xác dự báo 80% Lý Kmean phân cụm liệu kết hợp cách hiệu xử lý thuộc tính liệu số thuộc tính liệu phân loại cách khác Bên cạnh đó, phƣơng pháp chiến lƣợc tính tốn khác đƣợc áp dụng để thực tính tốn hợp lý thuộc tính khác Do đó, hiệu ứng cụm tốt thu đƣợc độ xác thuật tốn mơ hình kết hợp đƣợc cải thiện Tuy nhiên, thuật toán cụm K-means thuật tốn cụm SVM khơng đƣợc coi khác biệt thuộc tính liệu Kết thực nghiệm cho thấy, mơ hình kết hợp thuật toán Kmean SVM phân lớp dự báo khách hàng chuyển mạng viễn thông đƣợc thực nghiệm liệu gần 10.000 mẫu cho độ xác dự báo 80% Lý Kmean phân cụm liệu kết hợp cách hiệu xử lý thuộc tính liệu số thuộc tính 53 liệu phân loại cách khác Bên cạnh đó, phƣơng pháp chiến lƣợc tính tốn khác đƣợc áp dụng để thực tính tốn hợp lý thuộc tính khác Do đó, hiệu ứng cụm tốt thu đƣợc độ xác thuật tốn mơ hình kết hợp đƣợc cải thiện Tuy nhiên, thuật tốn cụm K-means thuật tốn cụm SVM khơng đƣợc coi khác biệt thuộc tính liệu 3.5 ĐÁNH GIÁ VÀ KẾT LUẬN CHƢƠNG Theo nguyên tắc Pareto, tác động ngƣời dùng giá trị cao cao nhiều so với ngƣời dùng bình thƣờng ảnh hƣởng sách giữ chân ngƣời dùng giá trị cao việc ngăn chặn ngƣời dùng chuyển mạng rõ ràng Do đó, nghiên cứu chủ yếu tập trung vào chuyển mạng ngƣời dùng di động có giá trị cao Dựa vấn đề dự đoán thuộc tính hỗn hợp tồn liệu tiêu thụ ngƣời dùng, mơ hình kết hợp thuật tốn Kmean thuật toán SVM đƣợc thiết kế để dự đoán ngƣời dùng chuyển mạng giải vấn đề dự đốn liệu quy mơ lớn kết hợp Trong mơ hình này, thuật tốn Kmean đƣợc sử dụng để phân cụm thuộc tính hỗn hợp cách hiệu thông qua việc thực phép tính khác thuộc tính số thuộc tính phân loại Trong kết cụm, mẫu gần trung tâm cụm đƣợc chọn làm đầu vào SVM Bằng cách này, vấn đề độ xác phân loại SVM mẫu quy mơ lớn đƣợc giải để có đƣợc kết phân loại tốt Theo ứng dụng dự đốn chuyển mạng, thuộc tính tập liệu gốc đƣợc mở rộng để phản ánh rõ ràng thay đổi hành vi tiêu dùng ngƣời dùng Ngoài ra, nhiều số đánh giá đƣợc sử dụng để đánh giá hiệu suất 54 mô hình kết hợp thuật tốn Kmean thuật tốn SVM So sánh mơ hình kết hợp đƣợc đề xuất với mơ hình khác từ khía cạnh độ xác Kmean-SVM có hiệu tốt việc xử lý liệu quy mơ lớn kết hợp dự đốn xác xu hƣớng ngƣời dùng 55 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN NHỮNG KẾT QUẢ MÀ LUẬN VĂN ĐÃ ĐẠT ĐƢỢC Về mặt lý thuyết Tìm hiểu thành phần kiểu kiến trúc học máy toán phân lớp, phân biệt đƣợc số phƣơng pháp học máy số toán phân lớp Nắm đƣợc nghĩa việc học hay tích luỹ, có vai trị to lớn quy tắc học, mơ hình học thuật tốn học nhiều khả ứng dụng khác Phƣơng pháp Kmean SVM, cách thức kết hợp thuật toán Kmean SVM, để giải toán ứng dụng thực tế Nắm đƣợc quy trình chung xây dựng hệ thống phân lớp dự báo Về mặt thực tiễn Đƣa mơ hình kết hợp thuật tốn Kmean thuật toán SVM hiệu toán phân lớp dự báo khách hàng chuyển mạng viễn thông, thực liệu thực tế VNPT Bình Định Xây dựng đƣợc chƣơng trình minh họa Tuy biết điều thu nhận đƣợc phần nhỏ ngành nghiên cứu lớn, tự nhận thấy gặt hái đƣợc thành công định giai đoạn nghiên cứu HƢỚNG PHÁT TRIỂN TIẾP THEO Bên cạnh kết đạt đƣợc, cịn có vấn đề chƣa đƣợc luận văn giải hay đề cập tới Trong thời gian tới tơi tiếp tục nghiên cứu hồn thiện đề tài với mục tiêu đƣợc đặt nhƣ sau: - Nâng cao hiệu độ xác hệ thống dự báo khách hàng 56 chuyển mạng để áp dụng hiệu công tác - Nghiên cứu mơ hình kết hợp khác nhằm nâng cao hiệu phân lớp dự báo cho toán dự báo khách hàng viễn thơng VNPT Bình Định 57 TÀI LIỆU THAM KHẢO [1] Bộ Thông tin Truyền thông (2018), Sách Trắng Công nghệ thông tin Tr yền thông (CNTT-TT) Việt Nam 2018 Hà Nội: Nhà xuất Thông tin Truyền thông, tr.31-33 [2] Hồng Xn Huấn (2015), Giáo trình Học Máy, Nhà xuất Đại học Quốc gia Hà Nội [3] S Wu et al (2008), “Operations Research and Data Mining,” in European Journal of Operational Research Vol 187, pp 2592-1448 [4] J Burez and D.Van den Poel (2009), “Handling Class Imbalance in Customer Churn Prediction,” in Expert System with Applications Vol 36, pp 4626-4636 [5] V D‟Orazio et al (2014), “Separating the wheat from the chaff: applications of automated document classification using Support Vector Machines,” in Political Analysis Vol 22, pp 224-242 [6] E Pasolli et al (2014), “SVM active learning approach for image classification using spatial information,” in IEEE Transactions on Geoscience and Remote Sensing Vol 52, pp 2217–2233 [7] Craft, Ralph C., and C Leake "The Pareto principle in organizational decision making." Management Decision volume 40.8(2002):729-733 [8] Hadden, John, et al (2008) "Churn prediction using complaints data."Enformatika [9] Ying, Wei Yun, et al (2007) "Support Vector Machine and Its 58 Application in Customer Churn Prediction." Systems EngineeringTheory & Practice27.7:105-110 [10] Xia, Guo En, and W D Jin "Model of Customer Churn Prediction on Support Vector Machine." Systems Engineering - Theory & Practice28.1(2008):71-77 [11] Sato T, Huang B Q, Huang Y, et al (2010) Using PCA to Predict Customer Churn in Telecommunication Dataset[C]// Advanced Data Mining and Applications -, International Conference, Adma 2010, Chongqing, China, November 19-21, Proceedings DBLP, 2010:326335 [12] Owczarczuk, Marcin (2010), "Churn models for prepaid customers in the cellular telecommunication industry using large data marts." Expert Systems with Applications 37.6(2010):4710-4712 [13] Hồng Xn Huấn (2012), “Giáo trình nhận dạng mẫu”, NXB Đại học Quốc gia Hà Nội [14] Huang, Bingquan, M T Kechadi, and B Buckley (2012), "Customer churn prediction in telecommunications." Expert Systems with Applications 39.1:1414-1425 [15] Tsai, Chih Fong, and Y H Lu (2009), "Customer churn prediction by hybrid neural networks." Expert Systems with Applications 36.10:12547-12553 [16] Pendharkar, Parag C (2009) "Genetic algorithm based neural network approaches for predicting churn in cellular wireless network services 59 ☆." Expert Systems with Applications 36.3:6714-6720 [17] Wojewnik, Piotr, et al (2011) "Social-Network Influence on Telecommunication Customer Attrition." Kes International Conference on Agent and Multi-Agent Systems: Technologies and Applications Springer-Verlag, 2011:64-73 [18] Yue, H E., H E Zheng-Lin, and X Y Zhou (2012), "Combined Early Warning of Major Customer Lose in Wireline Telecom Based on Data Mining." Soft Science (2012) [19] Lu, Ning, et al "A Customer Churn Prediction Model in Telecom Industry Using Boosting." IEEE Transactions on Industrial Informatics 10.2(2014):1659-1665 [20] Idris, Adnan, and A Khan "Churn Pdiction System for Telecom using Filter–Wrapper and Ensemble Classification." Computer Journal (2016):bxv123 [21] Fa-Gui LIU, Zhi-Jie ZHANG*, Xin YANG, “Using Combined Model Approach for Churn Prediction in Telecommunication”, Advances in Engineering Research (AER), volume 131 3rd Annual International Conference on Electronics, Electrical Engineering and Information Science (EEEIS 2017) [22] Vũ Thị Thu Huyền (2013), “Kỹ th ật SVM nhận diện phiế điểm”, Luận văn cao học ... phát hành vi khách hàng dự đoán khách hàng chuyển mạng cho đề tài luận văn Vì vậy, chúng tơi chọn ? ?K? ??T HỢP THUẬT TỐN K- MEANS VÀ THUẬT TỐN SVM DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG TẠI VNPT BÌNH ĐỊNH” làm... xây dựng việc phân K- lớp dựa việc k? ??t hợp số đƣờng phân lớp nhƣ (hình 2.9) Hình 2.9 Phân nhiều lớp với SVM 2.3 K? ??T HỢP THUẬT TOÁN KMEAN VÀ SVM DỰ BÁO CHUYỂN MẠNG Để giải vấn đề dự báo liệu k? ??t hợp. .. 2.2.2.Thuật toán SVM phân lớp 38 2.3 .K? ??T HỢP THUẬT TOÁN KMEAN VÀ SVM DỰ BÁO CHUYỂN MẠNG 42 2.4 .K? ??T LUẬN CHƢƠNG 43 CHƢƠNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG VIỄN THÔNG

Ngày đăng: 11/08/2021, 15:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bộ Thông tin và Truyền thông (2018), Sách Trắng về Công nghệ thông tin và Tr yền thông (CNTT-TT) Việt Nam 2018. Hà Nội: Nhà xuất bản Thông tin và Truyền thông, tr.31-33 Sách, tạp chí
Tiêu đề: Sách Trắng về Công nghệ thông tin và Tr yền thông (CNTT-TT) Việt Nam 2018
Tác giả: Bộ Thông tin và Truyền thông
Nhà XB: Nhà xuất bản Thông tin và Truyền thông
Năm: 2018
[2] Hoàng Xuân Huấn (2015), Giáo trình Học Máy, Nhà xuất bản Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình Học Máy
Tác giả: Hoàng Xuân Huấn
Nhà XB: Nhà xuất bản Đại học Quốc gia Hà Nội
Năm: 2015
[3] S. Wu et al (2008), “Operations Research and Data Mining,” in European Journal of Operational Research. Vol. 187, pp. 2592-1448 Sách, tạp chí
Tiêu đề: et al "(2008), “Operations Research and Data Mining,” in "European Journal of Operational Research
Tác giả: S. Wu et al
Năm: 2008
[4] J. Burez and D.Van den Poel (2009), “Handling Class Imbalance in Customer Churn Prediction,” in Expert System with Applications. Vol.36, pp. 4626-4636 Sách, tạp chí
Tiêu đề: Handling Class Imbalance in Customer Churn Prediction,” in "Expert System with Applications
Tác giả: J. Burez and D.Van den Poel
Năm: 2009
[5] V. D‟Orazio et al (2014), “Separating the wheat from the chaff: applications of automated document classification using Support Vector Machines,” in Political Analysis. Vol. 22, pp. 224-242 Sách, tạp chí
Tiêu đề: et al " (2014), “Separating the wheat from the chaff: applications of automated document classification using Support Vector Machines,” in "Political Analysis
Tác giả: V. D‟Orazio et al
Năm: 2014
[6] E. Pasolli et al (2014), “SVM active learning approach for image classification using spatial information,” in IEEE Transactions on Geoscience and Remote Sensing. Vol. 52, pp. 2217–2233 Sách, tạp chí
Tiêu đề: et al "(2014), “SVM active learning approach for image classification using spatial information,” in "IEEE Transactions on Geoscience and Remote Sensing
Tác giả: E. Pasolli et al
Năm: 2014
[7] Craft, Ralph C., and C. Leake. "The Pareto principle in organizational decision making." Management Decision volume 40.8(2002):729-733 Sách, tạp chí
Tiêu đề: The Pareto principle in organizational decision making
Tác giả: Craft, Ralph C., and C. Leake. "The Pareto principle in organizational decision making." Management Decision volume 40.8
Năm: 2002
[8] Hadden, John, et al (2008) "Churn prediction using complaints data."Enformatika Sách, tạp chí
Tiêu đề: Churn prediction using complaints data
[10] Xia, Guo En, and W. D. Jin. "Model of Customer Churn Prediction on Support Vector Machine." Systems Engineering - Theory &Practice28.1(2008):71-77 Sách, tạp chí
Tiêu đề: Model of Customer Churn Prediction on Support Vector Machine
Tác giả: Xia, Guo En, and W. D. Jin. "Model of Customer Churn Prediction on Support Vector Machine." Systems Engineering - Theory &Practice28.1
Năm: 2008
[12] Owczarczuk, Marcin (2010), "Churn models for prepaid customers in the cellular telecommunication industry using large data marts." Expert Systems with Applications 37.6(2010):4710-4712 Sách, tạp chí
Tiêu đề: Churn models for prepaid customers in the cellular telecommunication industry using large data marts
Tác giả: Owczarczuk, Marcin (2010), "Churn models for prepaid customers in the cellular telecommunication industry using large data marts." Expert Systems with Applications 37.6
Năm: 2010
[13] Hoàng Xuân Huấn (2012), “Giáo trình nhận dạng mẫu”, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình nhận dạng mẫu
Tác giả: Hoàng Xuân Huấn
Nhà XB: NXB Đại học Quốc gia Hà Nội
Năm: 2012
[14] Huang, Bingquan, M. T. Kechadi, and B. Buckley (2012), "Customer churn prediction in telecommunications." Expert Systems with Applications 39.1:1414-1425 Sách, tạp chí
Tiêu đề: Customer churn prediction in telecommunications
Tác giả: Huang, Bingquan, M. T. Kechadi, and B. Buckley
Năm: 2012
[15] Tsai, Chih Fong, and Y. H. Lu (2009), "Customer churn prediction by hybrid neural networks." Expert Systems with Applications 36.10:12547-12553 Sách, tạp chí
Tiêu đề: Customer churn prediction by hybrid neural networks
Tác giả: Tsai, Chih Fong, and Y. H. Lu
Năm: 2009
[17] Wojewnik, Piotr, et al (2011). "Social-Network Influence on Telecommunication Customer Attrition." Kes International Conference on Agent and Multi-Agent Systems: Technologies and Applications Springer-Verlag, 2011:64-73 Sách, tạp chí
Tiêu đề: Social-Network Influence on Telecommunication Customer Attrition
Tác giả: Wojewnik, Piotr, et al
Năm: 2011
[18] Yue, H. E., H. E. Zheng-Lin, and X. Y. Zhou (2012), "Combined Early Warning of Major Customer Lose in Wireline Telecom Based on Data Mining." Soft Science (2012) Sách, tạp chí
Tiêu đề: Combined Early Warning of Major Customer Lose in Wireline Telecom Based on Data Mining
Tác giả: Yue, H. E., H. E. Zheng-Lin, and X. Y. Zhou
Năm: 2012
[19] Lu, Ning, et al. "A Customer Churn Prediction Model in Telecom Industry Using Boosting." IEEE Transactions on Industrial Informatics 10.2(2014):1659-1665 Sách, tạp chí
Tiêu đề: A Customer Churn Prediction Model in Telecom Industry Using Boosting
Tác giả: Lu, Ning, et al. "A Customer Churn Prediction Model in Telecom Industry Using Boosting." IEEE Transactions on Industrial Informatics 10.2
Năm: 2014
[20] Idris, Adnan, and A. Khan. "Churn Pdiction System for Telecom using Filter–Wrapper and Ensemble Classification." Computer Journal (2016):bxv123 Sách, tạp chí
Tiêu đề: Churn Pdiction System for Telecom using Filter–Wrapper and Ensemble Classification
Tác giả: Idris, Adnan, and A. Khan. "Churn Pdiction System for Telecom using Filter–Wrapper and Ensemble Classification." Computer Journal
Năm: 2016
[21] Fa-Gui LIU, Zhi-Jie ZHANG*, Xin YANG, “Using Combined Model Approach for Churn Prediction in Telecommunication”, Advances in Engineering Research (AER), volume 131 3rd Annual International Conference on Electronics, Electrical Engineering and Information Science (EEEIS 2017) Sách, tạp chí
Tiêu đề: Using Combined Model Approach for Churn Prediction in Telecommunication
[22] Vũ Thị Thu Huyền (2013), “Kỹ th ật SVM trong nhận diện phiế điểm”, Luận văn cao học Sách, tạp chí
Tiêu đề: Kỹ th ật SVM trong nhận diện phiế điểm
Tác giả: Vũ Thị Thu Huyền
Năm: 2013
[11] Sato T, Huang B Q, Huang Y, et al (2010). Using PCA to Predict Customer Churn in Telecommunication Dataset[C]// Advanced Data Mining and Applications -, International Conference, Adma 2010, Chongqing, China, November 19-21, Proceedings. DBLP, 2010:326- 335 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w