Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,51 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN XUÂN SANG CẢI TIẾN THUẬT TOÁN SVM VỚI SVM SONG SONG, ỨNG DỤNG VÀO PHÂN LỚP VÀ DỰ BÁO SỐ KHÁCH HÀNG SỬ DỤNG DI ĐỘNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN ĐÌNH THN THÀNH PHỐ HỒ CHÍ MINH – NĂM 2022 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới hƣớng dẫn trực tiếp Thầy PGS TS Nguyễn Đình Thuân Mọi tham khảo luận văn đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm Tp Hồ Chí Minh, ngày 25 tháng 01 năm 2022 Học viên thực luận văn Nguyễn Xuân Sang LỜI CÁM ƠN Em xin dành lời cảm ơn chân thành sâu sắc đến Thầy PGS TS Nguyễn Đình Thuân ngƣời truyền cảm hứng mảng khai phá liệu, khuyến khích dẫn tận tình cho em bƣớc từ bắt đầu hoàn thành luận văn Em xin dành lời cảm ơn chân thành đến Thầy Cô Học viện Bƣu Chính Viễn Thơng truyền đạt kiến thức vơ quý giá tạo điều kiện thuận lợi cho em suốt thời gian học tập nghiên cứu trƣờng Cũng xin gửi lời cám ơn đến Viễn Thông Tây Ninh tạo điều kiện để em hoàn thành đề tài luận văn Đặc biệt em xin gửi lời cám ơn đến anh Nguyễn Văn Đời, Phó giám đốc Trung Tâm Công Nghệ Thông Tin – Viễn Thông Tây Ninh, cám ơn anh hỗ trợ tạo điều kiện để em thực tốt đề tài Cuối em xin gửi lời cám ơn đến Cha Mẹ, gia đình, ngƣời thân, bạn bè đồng nghiệp quan tâm, ủng hộ suốt trình học tập cao học Tp Hồ Chí Minh, ngày 25 tháng 01 năm 2022 Học viên thực luận văn Nguyễn Xuân Sang MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN iii MỤC LỤC iv DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT vi DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU .1 Chƣơng TỔNG QUAN 1.1 Khách hàng rời mạng dự báo khách hàng rời mạng 1.1.1 Khách hàng rời mạng 1.1.2 Dự báo khách hàng rời mạng 1.2 Tình hình dự báo khách hàng rời mạng 1.3 Những vấn đề tồn .6 1.4 Mục tiêu, nội dung, phƣơng pháp nghiên cứu .6 Chƣơng MƠ HÌNH KẾT HỢP LOGISTIC REGRESSION VÀ SUPPORT VECTOR MACHINE 2.1 Mơ hình Logistic Regression .9 2.1.1 Giới thiệu .9 2.1.2 Mơ hình Logistic .10 2.1.3 Hàm Sigmoid .11 2.1.4 Hàm mát phƣơng pháp tối ƣu 11 2.2 Support Vector Machine 13 2.2.1 Giới thiệu 13 2.2.2 Độ rộng margin 15 2.2.4 Phƣơng pháp Lagrange multipliers 19 2.2.5 Soft Margin Kernel .20 2.2.6 SVM song song công cụ ThunderSVM 24 2.3 Mơ hình kết hợp Logistic Regression Support Vector Machine 27 2.3.1 Giới thiệu 27 2.3.2 Nội dung 28 2.3.3 Một số kết tham khảo đánh giá 29 Chƣơng DỰ BÁO KHÁCH HÀNG RỜI MẠNG 31 TẠI VIỄN THÔNG TÂY NINH 31 3.1 Giới thiệu công ty toán dự báo 31 3.2 Chuẩn bị tiền xử lý liệu 34 3.3 Dự báo 38 3.3.1 Dự báo thành phần tuyến tính mơ hình LR 38 3.3.2 Dự báo thành phần phi tuyến SVM 39 3.3.3 Kết hợp kết dự báo .39 3.4 Kết dự báo đánh giá .39 3.4.1 Độ xác thuật toán 39 3.4.2 Kết dự báo đánh giá .41 Chƣơng KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 44 4.1 Kết luận 44 4.2 Hƣớng phát triển 44 DANH MỤC TÀI LIỆU THAM KHẢO 46 PHỤ LỤC 49 DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT Acc Accurary FP False Positive FN False Negative LR Logistic Regression MA Moving Average MAE Mean Absolute Error MAPE Mean Absolute Percentage Error NB Naive Bayes RMSE Root Mean Square Error RF Random Forest SVM Support Vector Machine TP True Positive TN True Negative DANH SÁCH BẢNG Bảng 2.1: Dự báo chẩn đoán ung thƣ vú 27 Bảng 2.2: Dự báo rƣợu vang 28 Bảng 3.1: Tình hình phát triển di động Việt Nam đến năm 2017 32 Bảng 3.2: Mô tả trƣờng liệu 35 Bảng 3.3: Bảng liệu mã hoá liệu 37 Bảng 3.4: Bảng ma trận sai số 42 Bảng 3.5: Cách tính độ xác 43 Bảng 3.6: Kết dự báo mơ hình 44 DANH SÁCH HÌNH VẼ Hình 2.1: Đồ thị hàm logistic khoảng t(-6,6) 19 Hình 2.2 Các mặt phân cách hai lớp .22 Hình 2.3: Margin hai lớp 22 Hình 2.4: Phân tích toán tối ƣu SVM 23 Hình 2.5: Các điểm gần mặt phân cách hai lớp 25 Hình 2.6 Ví dụ Soft Margin 28 Hình 2.7: Ví dụ Kernel SVM 29 Hình 2.9: Ví dụ minh họa kết hợp LR SVM 34 Hình 3.1: Dữ liệu thực tế SQL VNPT Tây Ninh .35 Hình 3.2: Dữ liệu đầu vào mã hóa 38 Hình 3.3: Biểu đồ so sánh độ xác thuật tốn phân lớp .44 Hình 3.4: Biểu đồ so sánh thời gian huấn luyện thuật toán phân lớp 45 MỞ ĐẦU Dịch vụ thông tin di động ngày phát triển mạnh mẽ, trở thành phần tất yếu sống ngƣời dân Việt Nam Quản lý khách hàng ngày nhận đƣợc quan tâm việc giữ chân khách hàng mang lại lợi nhuận quan trọng cơng ty viễn thơng Chi phí để tìm khách hàng lớn nhiều so với chi phí để giữ chân khách hàng kinh doanh, đặc biệt thị trƣờng viễn thông bão hịa Hơn nữa, khách hàng dài hạn biến động thị trƣờng cạnh tranh, ví dụ: khách hàng lâu năm có xu hƣớng chuyển sang cơng ty khác đƣợc khuyến góp nhiều lợi nhuận cho cơng ty Vì nhu cầu đặt ra, công ty viễn thông trọng đầu tƣ nhiều vào việc phát triển mơ hình dự báo khách hàng rời mạng Nhiều phƣơng pháp tiếp cận máy học đƣợc nhà nghiên cứu đề xuất để dự báo khách hàng rời mạng, đặc biệt lĩnh vực kinh doanh viễn thông Các phƣơng pháp tiếp cận máy học nhƣ bao gồm phƣơng pháp phân lớp truyền thống nhƣ thuật toán Random Forest (RF), Naive Bayes (NB), Logistic Regression (LR) Support Vector Machine (SVM) [2],[3],[ 4] Tuy nhiên, với mơ hình dự báo có hạn chế riêng, ví dụ NB cần lƣợng liệu lớn để đạt độ xác cao hay SVM có thời gian thực thi cao độ phức tạp lớn [5] Để giải hạn chế đó, năm gần nhiều nhà khoa học bắt đầu nghiên cứu phƣơng pháp khai phá liệu dựa kết hợp hai hay nhiều phƣơng pháp khai phá liệu có Sự kết hợp bƣớc đầu mang lại kết tích cực phƣơng pháp khai phá liệu kết hợp phát huy đƣợc phần ƣu điểm nhƣ khắc phục đƣợc số hạn chế phƣơng pháp khai phá liệu đơn lẻ Nhằm mục đích tìm hiểu hƣớng tiếp cận lĩnh vực khai phá liệu, nhƣ khả ứng dụng vào thực tế, luận văn xin trình bày phƣơng pháp dự báo liệu khách hàng rời mạng kết hợp mơ hình Logistic Regression (LR) Support Vector Machine (SVM), ứng dụng mô hình kết hợp vào dự báo khách hàng rời mạng Viễn Thông Tây Ninh Đối tƣợng nghiên cứu đề tài tập trung vào mơ hình dự báo liệu khách hàng rời mạng, đặc biệt mơ hình LR, thuật giải SVM phƣơng pháp kết hợp mơ hình LR SVM dự báo liệu khách hàng rời mạng Bên cạnh đề tài cịn trình bày kết áp dụng mơ hình dự báo liệu khách hàng rời mạng vào thực tế dựa liệu đƣợc thu thập Viễn Thông Tây Ninh Phạm vi nghiên cứu đề tài giới hạn việc tìm hiểu ứng dụng mơ hình dự báo liệu khách hàng rời mạng, mơ hình LR, thuật giải SVM mơ hình kết hợp LR SVM Tuy phạm vi nghiên cứu đề tài giới hạn việc tìm hiểu ứng dụng mơ hình dự báo liệu khách hàng rời mạng nhƣng đề tài mang lại số ý nghĩa khoa học thực tiễn Về khoa học, kết thực nghiệm đề tài cố thêm tính đắn hƣớng tiếp cận kết hợp mơ hình dự báo liệu khách hàng rời mạng nói chung mơ hình dự báo khách hàng rời mạng kết hợp LR SVM nói riêng Về thực tiễn, kết dự báo mơ hình kết hợp LR SVM giúp ích cho Viễn Thông Tây Ninh dự báo đƣợc khách hàng rời mạng để lên kế hoạch tiếp cận khuyến hợp lý nhằm giữ chân khách hàng Luận văn đƣợc trình bày thành chƣơng: Chương Tổng quan: Giới thiệu khách hàng rời mạng dự báo khách hàng rời mạng Trình bày tình hình nghiên cứu nƣớc, xác định vấn đề cịn tồn mơ hình dự khách hàng rời mạng Xác định mục tiêu, nội dung phƣơng pháp nghiên cứu đề tài Chương 2: Mô hình kết hợp Logistic Regression Support Vector Machine: Giới thiệu mơ hình kết hợp Logistic Regression Support Vector Machine dự báo khách hàng rời mạng Chương 3: Dự báo Viễn Thông Tây Ninh: Giới thiệu vấn để cần dự báo ứng dụng mô hình kết hợp Logistic Regression Support Vector Machine vào dự báo Viễn Thông Tây Ninh model_lr