BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN VĂN ĐỜI NGHIÊN CỨU SVM SONG SONG ỨNG DỤNG VÀO PHÂN LỚP KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG Chuyên ngành KHOA HỌC MÁY TÍNH Mã chuyê[.]
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN VĂN ĐỜI NGHIÊN CỨU SVM SONG SONG ỨNG DỤNG VÀO PHÂN LỚP KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: TS Trương Khắc Tùng Người phản biện 1: Người phản biện 2: Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày … tháng … năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: - Chủ tịch Hội đồng - Phản biện - Phản biện - Ủy viên - Thư ký CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Văn Đời MSHV: 15118711 Ngày, tháng, năm sinh: 09/09/1986 Nơi sinh: Tây Ninh Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Nghiên cứu SVM song song áp dụng vào phân lớp khách hàng sử dụng dịch vụ di động NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu kiến thức tảng toán phân lớp, toán phân lớp tiêu biểu Nghiên cứu lý thuyết giải thuật SVM, SVM GPU, so sánh tốc độ xử lý chạy toán phân lớp tiêu biểu CPU so với GPU Áp dụng vào toán phân lớp khách hàng sử dụng dịch vụ di động đơn vị II NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 3441/QĐ-ĐHCN 26/12/2017 III NGÀY HOÀN THÀNH NHIỆM VỤ: 15/10/2019 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trương Khắc Tùng Tp Hồ Chí Minh, ngày … tháng … năm 20 … NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA CÔNG NGHỆ THƠNG TIN LỜI CẢM ƠN Tơi xin gửi lời cảm ơn sâu sắc tới TS Trương Khắc Tùng, Trường Đại học Cơng nghiệp TP Hồ Chí Minh, người thầy dành nhiều thời gian tận tình bảo, hướng dẫn, giúp đỡ tơi suốt q trình tìm hiểu, nghiên cứu Thầy người định hướng đưa nhiều góp ý q báu q trình tơi thực luận văn Tơi bày tỏ lịng biết ơn giúp đỡ lãnh đạo quan, đồng nghiệp cung cấp liệu, tài liệu cho lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè tạo điều kiện tốt cho Đặc biệt cảm ơn bạn lớp CHKHMT5B bên cạnh động viên Và cuối xin cảm ơn Thầy Vũ Hữu Tiệp mang đến cho cộng đồng sách hay nói Machine Learning bản, nhờ mà tơi có thêm nhiều điều thú vị lĩnh vực này, cung cấp nhiều kiến thức hay cho người bắt đầu tơi, giúp tơi có thêm nhiều kiến thức để tiếp tục việc nghiên cứu ứng dụng vào công việc thực tế Tuy nhiên, điều kiện lực thân hạn chế, thời gian dành cho công việc đơn vị nhiều, chuyên đề nghiên cứu khoa học chắn không tránh khỏi thiếu sót Kính mong nhận đóng góp ý kiến quý thầy cô, bạn bè đồng nghiệp đề tài nghiên cứu tơi hồn thiện Đây mơ hình mà đơn vị cần, hi vọng đóng góp góp ý q báu thầy cơ, bạn bè để sản phẩm áp dụng vào thực tế góp phần vào kho cơng cụ đơn vị giúp đơn vị lãnh đạo đơn vị có sách phù hợp hơn, định đột phá trình điều hành sản xuất kinh doanh đơn vị Tôi xin chân thành cảm ơn! i TÓM TẮT LUẬN VĂN THẠC SĨ Hiện mà doanh nghiệp mạng di động vào bão hồ việc phát triển th bao việc giữ chân khách hàng với sách phù hợp vấn đề quan trọng để giữ vững thị phần doanh thu cho doanh nghiệp Trước việc giữ chân khách hàng thường doanh nghiệp thống kê truyền thống biểu thuê bao rời mạng, thuê bao phát sinh lưu lượng thấp, …từ đưa sách chăm sóc khách hàng khơng mang lại hiệu cao nhất, khách hàng rời mạng việc thu hút khách hàng quay lại khó Gần mà có nhiều phương pháp khai phá liệu phát triển, từ đưa dự đốn thuê bao di động dựa vào hành vi thuê bao cách phân lớp thuê bao di động Từ phát này, tập trung nghiên cứu SVM song song để phân lớp khách hàng từ đưa dự báo khách hàng rời mạng, điều giúp cho lãnh đạo đơn vị kịp thời đưa định sách để giữ chân khách hàng góp phần giữ vững doanh thu đơn vị ii ABSTRACT Nowadays, when mobile network enterprises have saturated in developing new subscribers, retaining customers with appropriate policies is a very important issue to maintain market share and revenue for enterprise In the past, customer retention was often a traditional statistic enterprise with off-line subscribers, low-traffic subscribers, from which customer care policies were not created and were not effective most, because once customers have left the network, it is difficult to attract customers back Recently, when a variety of data mining methods have been developed, it has made predictions about any mobile subscriber based on that subscriber's behavior by classifying mobile subscribers From these new findings, we focus on SVM research in parallel to classify customers and from that can make a prediction of a customer leaving the network, which helps the leadership of the unit to promptly issue policy decisions to be able to retain customers and contribute to maintaining unit revenue iii LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, thực hướng dẫn TS Trương Khắc Tùng Các kết nêu luận văn trung thực chưa công bố cơng trình khác Học viên Nguyễn Văn Đời iv MỤC LỤC MỤC LỤC v DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU viii DANH MỤC TỪ VIẾT TẮT ix MỞ ĐẦU 1 Đặt vấn đề .1 Mục tiêu nghiên cứu .2 Đối tượng phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu .2 Ý nghĩa thực tiễn đề tài CHƯƠNG TỔNG QUAN .3 1.1 Thị trường di động Việt Nam .3 1.2 Sơ lược tình hình nghiên cứu giới .7 1.3 Phát biểu toán 1.3.1 Chu trình thuê bao di động 1.3.2 Phát biểu toán 10 CHƯƠNG CƠ SỞ LÝ THUYẾT .12 2.1 Giới thiệu toán phân lớp 12 2.2 Quá trình phân lớp liệu 13 2.3 Một số thuật toán phân lớp tiêu biểu 15 2.3.1 Cây định .15 2.3.1.1 Giới thiệu định 15 2.3.1.2 Thuật toán ID3 16 2.3.2 Thuật tốn Nạve Bayes 22 2.3.2.1 Định lý Bayes .22 2.3.2.2 Phân lớp Naive Bayes 23 2.3.3 Mạng nơron nhân tạo .25 2.4 Phân lớp SVM 27 2.4.1 SVM tốn phân lớp tuyến tính 27 2.4.1.1 Khoảng cách từ điểm đến siêu phẳng 27 2.4.1.2 Bài toán phân chia hai lớp 28 2.4.1.3 Xây dựng toán tối ưu cho SVM 30 2.4.2 SVM cho phân lớp phi tuyến 37 2.4.3 Ví dụ minh hoạ cho giải thuật SVM 40 2.4.3.1 Tìm nghiệm theo công thức .40 2.4.3.2 Tìm nghiệm theo thư viện 43 v 2.5 Đánh giá độ xác thuật tốn 44 2.5.1 Accuracy .44 2.5.2 True/False Positive/Negative 45 CHƯƠNG SVM SONG SONG VÀ BÀI TOÁN PHÂN LỚP THUÊ BAO DI ĐỘNG 46 3.1 SVM song song 46 3.1.1 Giới thiệu chung .46 3.1.2 Tổng quan thiết kế ThunderSVM .47 3.1.3 Thuật toán huấn luyện SVM song song 48 3.1.4 Thuật toán dự báo SVM song song 50 3.2 Bài toán phân lớp thuê bao di động 50 3.2.1 Phát biểu toán 50 3.2.2 Phân lớp liệu thuê bao rời mạng .51 3.2.3 Dữ liệu 51 3.2.4 Lựa chọn thuộc tính 52 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 55 4.1 Thực nghiệm đánh giá SVM song song liệu UCI .55 4.2 Thực nghiệm đánh giá SVM song song vào toán phân lớp di động 58 4.2.1 Chuẩn bị liệu .58 4.2.2 Mô tả thực nghiệm 58 4.2.2.1 Thu thập, tiền xử lý liệu 58 4.2.2.2 Chạy chương trình thực nghiệm 62 KẾT LUẬN VÀ KIẾN NGHỊ 67 TÀI LIỆU THAM KHẢO 68 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 70 vi DANH MỤC HÌNH ẢNH Hình 1.1 Doanh thu di động Việt Nam đến năm 2017 [1] Hình 1.2 Thị phần thuê bao di động Việt Nam đến năm 2017 [1] Hình 1.3 Thị phần doanh thu di động Việt Nam đến năm 2017 [1] Hình 1.4 Vòng đời thuê bao di động 11 Hình 2.1 Phân lớp nhị phân phân lớp đa lớp 12 Hình 2.2 Bài toán phân lớp xác định email spam 13 Hình 2.3 Ví dụ việc định dựa câu hỏi 15 Hình 2.4 Đồ thị hàm entropy với 𝑛 = 17 Hình 2.5 Cây định cho tốn ví dụ sử dụng ID3 22 Hình 2.6 Mơ hình mạng nơron nhiều lớp 25 Hình 2.7 Tiến trình học mạng nơron 27 Hình 2.8 Các mặt phân cách hai lớp 29 Hình 2.9 Margin hai lớp lớn 29 Hình 2.10 Phân tích tốn SVM 31 Hình 2.11 Các điểm gần mặt phân cách hai lớp khoanh trịn 32 Hình 2.12 Soft margin SVM Khi a) có nhiễu b) liệu gần linearly separable 34 Hình 2.13 Giới thiệu biến slack 𝜉𝑛 35 Hình 2.14 Mức độ tác động kernel đa thức 37 Hình 2.15 Ảnh hưởng số chiều Gaussian kernel (σ) lên ranh giới định 40 Hình 2.16 Dữ liệu khởi tạo cho ví dụ tìm nghiệm giải thuật SVM 41 Hình 2.17 Mã code tìm giá trị 𝜆 với cơng cụ CVXOPT tốn QP 41 Hình 2.18 Kết giá trị 𝜆 với cơng cụ CVXOPT tốn QP 42 Hình 2.19 Nghiệm w, b giải thuật SVM theo công thức Lagrange 42 Hình 2.20 Hình ảnh minh hoạ cho việc tìm nghiệm w, b giải thuật SVM 43 Hình 2.21 Nghiệm w, b giải thuật SVM theo thư việc sklearn 43 Hình 2.22 Đánh giá độ xác accuracy cơng thức 44 Hình 2.23 Đánh giá độ xác accuracy thư viện 44 Hình 3.1 Tổng quan huấn luyện dự báo 46 Hình 3.2 Lựa chọn thuộc tính phân lớp liệu 53 Hình 4.1 Tốc độ huấn luyện ThunderSVM/LibSVM (có/khơng GPU) 56 Hình 4.2 Tốc độ dự báo ThunderSVM/LibSVM (có/khơng GPU) 56 Hình 4.3 Dữ liệu đầu vào dạng chữ 60 Hình 4.4 Dữ liệu đầu vào mã hoá 62 Hình 4.5 Dữ liệu đầu vào cấu trúc huấn luyện 62 Hình 4.6 Huấn luyện liệu 63 Hình 4.7 Kết huấn luyện 64 Hình 4.8 Kết phân loại liệu 65 Hình 4.9 Kết đánh giá độ xác 65 vii ... ? ?Nghiên cứu SVM song song ứng dụng vào phân lớp khách hàng sử dụng dịch vụ di động? ?? Luận văn tìm hiểu tốn phân lớp, giải thuật phân lớp, đặc biệt sâu vào giải thuật SVM SVM song song từ áp dụng. .. dụng vào phân lớp khách hàng sử dụng dịch vụ di động Mục tiêu nghiên cứu Nghiên cứu toán phân lớp, giải thuật tiêu biểu toán phân lớp, nghiên cứu SVM, SVM song song liệu UCI từ áp dụng vào toán phân. .. ĐỀ TÀI: Nghiên cứu SVM song song áp dụng vào phân lớp khách hàng sử dụng dịch vụ di động NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu kiến thức tảng toán phân lớp, toán phân lớp tiêu biểu Nghiên cứu lý thuyết