Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,18 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒN VĂN TÂM XÂY DỰNG MƠ HÌNH DỰ ĐỐN KHÁCH HÀNG TIỀM NĂNG CHO CÁC GÓI CƯỚC TRONG MẠNG DI ĐỘNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN TRỌNG HIẾU Hà nội – 12/2019 MỤC LỤC LỜI CẢM ƠN ii LỜI CAM ĐOAN iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG vi Chương 1: Giới thiệu khai phá liệu lĩnh vực viễn thông 1.1 1.2 1.3 1.4 Giới thiệu Khai phá liệu lĩnh vực viễn thông Nhóm tốn quản lý trải nghiệm khách hàng Lựa chọn toán 11 Chương 2: Bài toán dự đoán khách hàng tiềm 12 2.1 2.2 2.3 2.4 2.5 2.6 Phát biểu toán dự đoán khách hàng tiềm 12 Phương pháp định 13 Phương pháp SVM 15 Phương pháp kNN (k người láng giếng gần nhất) 17 Phương pháp ghép nối mơ hình học máy 17 Phương pháp đánh giá 18 Chương 3: Mơ hình đề xuất 20 3.1 Mơ hình đề xuất 20 3.2 Tập liệu tiền xử lý liệu 21 3.3 Tiền xử lý trích xuất đặc trưng 27 Chương 4: Thực nghiệm đánh giá 33 4.1 Môi trường công cụ thực nghiệm 33 4.2 Kịch thực nghiệm 34 4.3 Kết thực nghiệm đánh giá 34 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 i LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo TS Trần Trọng Hiếu – người hướng dẫn, khuyến khích, bảo tạo cho tơi điều kiện tốt từ bắt đầu hoàn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho tơi kiến thức vô quý giá cho điều kiện tốt suốt trình học tập, nghiên cứu trường Cuối cùng, xin cảm ơn tất người thân u gia đình tồn thể bạn bè, đồng nghiệp người giúp đỡ, động viên học tập nghiên cứu chương trình thạc sĩ Đại học Cơng nghệ, ĐHQGHN Luận văn tài trợ đề tài cấp ĐHQGHN mã số QG19.23 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ Công nghệ thông tin “Xây dựng mơ hình dự đốn khách hàng tiềm cho gói cước mạng di động” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng 12 năm 2019 iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KPDL Khai phá liệu CSDL Cơ sở liệu VLR Tập đồn Cơng nghiệp – Viễn thông Quân đội Viettel Tổng đài ghi nhận đăng nhập mạng thuê bao di động (Visitor Location Register) GSM Mạng thông tin di động (Global System for Mobile Communications) CDR Lịch sử gọi (Call Data Record) ARPU Doanh thu trung bình khách hàng (Average revenue per user) SMS Tin nhắn ngắn (Short Message Services) Viettel Telesale CEM Bán hàng qua điện thoại Quản lý trải nghiệm khách hàng iv DANH MỤC HÌNH VẼ Hình 1: Số liệu thuê bao di động theo nhà mạng tháng 01-04/2019 Hình 2: Thị phần di động nhà mạng Hình 3: Ví dụ mơ tả định 13 Hình 4: Siêu phẳng H chia liệu huấn luyện thành lớp với khoảng cách biên lớn (Các điểm gần H nằm H1 H2 vector hỗ trợ) 16 Hình 5: Quy tắc k-NN không gian đặc trưng 2-chiều với k=5 17 Hình 6: Mơ hình dự đốn khách hàng tiềm cho gói cước 20 Hình 7: Phân bố gói cước tập liệu 23 Hình 8: Lược đồ xử lý liệu trích xuất đặc trưng 30 Hình 6: Giao diện cơng cụ khai phá liệu Knime 33 v DANH MỤC BẢNG Bảng 1: Thuật toán xây dựng định 14 Bảng 2: Mô tả trường tập liệu thuê bao 21 Bảng 3: Mô tả gói cước nhãn dự báo 23 Bảng 4: Bảng danh sách trường thông tin tổng hợp kết 27 Bảng 5: Bảng danh sách nhóm đặc trưng trích xuất 31 Bảng 6: Các công cụ thực nghiệm 33 Bảng 7: Môi trường thực nghiệm 34 Bảng 8: Kết thực nghiệm sử dụng thuật toán kNN 34 Bảng 9: Kết thực nghiệm sử dụng thuật toán SVM 35 Bảng 10: Kết thực nghiệm sử dụng thuật toán định 37 Bảng 11: Kết thực nghiệm sử dụng kết hợp mơ hình 38 vi Chương 1: Giới thiệu khai phá liệu lĩnh vực viễn thông 1.1 Giới thiệu Hiện nay, thị trường dịch vụ viễn thông di động Việt Nam đạt mức bão hòa cạnh tranh nhà mạng bước qua giai đoạn mới: cạnh tranh chất lượng chương trình khuyến mại, chất lượng dịch vụ chăm sóc khách hàng, chất lượng mạng vùng phủ sóng Do đó, yếu tố quan trọng cạnh tranh giai đoạn này, nhà mạng việc tập trung giữ chân thuê bao cũ, giảm lượng khách hàng rời mạng khuyến khích khách hàng tăng lượng sử dụng dịch vụ, phát triển chất lượng dịch vụ, cải tiến cung cấp thêm nhiều dịch vụ giá trị gia tăng đáp ứng nhu cầu ngày lớn khách hàng, cần phải phân tích so sánh với đối thủ cạnh tranh để tung thị trường sản phẩm/dịch vụ theo nhu cầu Một chiến lược hàng đầu nhà mạng ứng dụng kỹ thuật khai phá liệu tảng liệu lớn vào hoạt động sản xuất kinh doanh Hình 1: Số liệu thuê bao di động theo nhà mạng tháng 01-04/2019 (nguồn: Nội bộ) Hình 2: Thị phần di động nhà mạng (nguồn: Nội bộ) Tại Việt Nam, nhà mạng lớn Viettel, MobiFone, VinaPhone ứng dụng khai phá liệu vào hoạt động kinh doanh phân tích liệu thuê bao, cụ thể giải pháp Viettel Customer 3601, vRTAP2, DataMon, Viettel BI nhà mạng Viettel giúp phân tích hành vi chân dung khách hàng phục vụ công tác điều hành kinh doanh liệu; giải pháp IVRS3 nhà mạng MobiFone sử dụng công nghệ khai phá liệu tảng liệu lớn phục vụ truyền thông trúng mục tiêu Hầu hết giải pháp http://kenh14.vn/muc-tieu-cung-nam-2020-va-tuong-lai-nam-2025-cua-viettel-telecom-ra-sao20191023171327738.chn https://vietteldanang.com.vn/viettel-va-qualcomm-ky-thoa-thuan-su-dung-ban-quyen-cong-nghe-3g4g/ http://www.vinasa.org.vn/Default.aspx?sname=vinasa&sid=4&pageid=3076&catid=4213&id=11676 ứng dụng mang lại hiệu mặt kinh tế tối ưu chi phí vận hành nhà mạng Việt Nam 1.2 Khai phá liệu lĩnh vực viễn thông Các nhà mạng viễn thông sở hữu lượng liệu vô lớn thông tin người dùng (thuê bao) từ thông tin nhân học đến thông tin hành vi sử dụng dịch vụ viễn thông, tất liệu lữu trữ cách chi tiết phục vụ hoạt động kinh doanh vận hành hàng ngày Lượng liệu lưu trữ tiềm ẩn tri thức quí báu thị trường, khách hàng, sản phẩm… Sử dụng kỹ thuật phân tích, khai phá liệu các thuật tốn mơ hình toán học máy cho phép nhà mạng đưa định hiệu kịp thời Có nhiều tốn phân tích (use case) lĩnh vực viễn thông phục vụ cho hoạt động điều hành kinh doanh [16,24] Qua khảo sát tài liệu liên quan, luận văn đưa nhóm tốn khai phá lĩnh vực viễn thơng: - Quản lý trải nghiệm khách hàng (CEM): Quản lý trải nghiệm khách hàng trình quản lý tất điểm tiếp xúc với khách hàng nhằm đảm bảo mối quan hệ tích cực khách hàng với thương hiệu CEM hiểu việc “chủ động thiết kế quản trị tất trải nghiệm khách hàng từ trải nghiệm thương hiệu, trải nghiệm mua sản phẩm dịch vụ, trải nghiệm sử dụng sản phẩm dịch vụ đến trải nghiệm dịch vụ sau bán hàng tất kênh, điểm tiếp xúc để đáp ứng kỳ vọng khách hàng nhằm gia tăng hài lòng, trung thành ủng hộ khách hàng” - Tối ưu mạng lưới (Network optimization): Các phương pháp tiếp cận phân tích liệu lớn bắt đầu xuất lĩnh vực mạng viễn thông để giải thách thức ảo hóa (NFV Network Function Visualization) điện tốn đám mây (Cloud Computing) Sự phức tạp gia tăng ứng dụng mạng viễn thông thúc đẩy nhu cầu tự động hóa mạng lưới Các tảng tự động hóa mạng lưới dựa phân tích liệu lớn kết hợp kỹ thuật khai phá liệu để hỗ trợ hoạt động quản lý hiệu quả, kịp thời đáng tin cậy Ví dụ ứng dụng tập trung vào mạng lưới bao gồm: STT Thông tin Mô tả 23 arpu_tdg_sms_t5 Tiêu dùng cước sms tháng 9/2018 24 arpu_tdg_sms_t6 Tiêu dùng cước sms tháng 10/2018 25 arpu_tdg_vas_t1 Tiêu dùng cước VAS tháng 5/2018 26 arpu_tdg_vas_t2 Tiêu dùng cước VAS tháng 6/2018 27 arpu_tdg_vas_t3 Tiêu dùng cước VAS tháng 7/2018 28 arpu_tdg_vas_t4 Tiêu dùng cước VAS tháng 8/2018 29 arpu_tdg_vas_t5 Tiêu dùng cước VAS tháng 9/2018 30 arpu_tdg_vas_t6 Tiêu dùng cước VAS tháng 10/2018 31 arpu_tdg_data_t1 Tiêu dùng cước liệu tháng 5/2018 32 arpu_tdg_data_t2 Tiêu dùng cước liệu tháng 6/2018 33 arpu_tdg_data_t3 Tiêu dùng cước liệu tháng 7/2018 34 arpu_tdg_data_t4 Tiêu dùng cước liệu tháng 8/2018 35 arpu_tdg_data_t5 Tiêu dùng cước liệu tháng 9/2018 36 arpu_tdg_data_t6 Tiêu dùng cước liệu tháng 29 STT Thông tin Mô tả 10/2018 37 product_code Mã gói cước đăng ký thuê bao Dữ liệu sau tổng hợp sẽ xử lý qua hai bước chính: - Tiền xử lý liệu: o Thực việc tổng hợp liệu o Loại bỏ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hóa trường thời gian thành giá trị theo tháng o Chuẩn hóa danh sách địa điểm mã tỉnh thành, quận huyện o Biến đổi liệu qua xử lý thành định dạng chuẩn - Trích xuất đặc trưng: o Trích xuất nhóm đặc trưng vị trí th bao, qua phát hành vi thuê bao nơi làm việc, nơi sinh sống, có cơng việc ổn định hay khơng,… o Trích xuất nhóm đặc trưng theo mức liệu (binning) thấp, trung bình, cao o Chuẩn hóa dải giá trị biên độ 0-1 thuật toán MinMax o Sinh vector đặc trưng Hình 8: Lược đồ xử lý liệu trích xuất đặc trưng 30 Từ dừ liệu tổng hợp, học viên tiến hành trích xuất đặc trưng đại diện cho thuê bao, số lượng đặc trưng trích xuất 381 đặc trưng chia vào nhóm đặc trưng sau: Bảng 5: Bảng danh sách nhóm đặc trưng trích xuất STT Mơ tả Thời điểm bắt đầu sử dụng SIM Đầu số 10 số hay đầu số 11 số Loại thuê bao trả trước hay trả sau Tuổi thuê bao theo tháng Số tháng phát sinh cước Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số tháng Các đặc trưng tổng tiêu dùng tháng t1 đến t6 Các đặc trưng tổng tiêu dùng thoại tháng t1 đến t6 Các đặc trưng tổng tiêu dùng sms tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data tháng t1 đến t6 12 Các đặc trưng tọa độ thuê bao hoạt động nhiều sau khung hành tháng t1 đến t6 mức quận 13 Các đặc trưng tọa độ thuê bao hoạt động nhiều trước khung hành tháng t1 đến t6 mức quận 14 Các đặc trưng tọa độ thuê bao hoạt động nhiều khung hành tháng t1 đến t6 mức quận 15 Các đặc trưng tọa độ thuê bao hoạt động nhiều buổi sáng tháng t1 đến t6 mức quận 16 Các đặc trưng tọa độ thuê bao hoạt động nhiều buổi chiều tháng t1 đến t6 mức quận 17 Các đặc trưng tọa độ thuê bao hoạt động nhiều khung nghỉ 31 STT Mô tả ngày làm việc tháng t1 đến t6 mức quận 18 Các đặc trưng tọa độ thuê bao hoạt động nhiều sau khung hành tháng t1 đến t6 mức tỉnh thành 19 Các đặc trưng tọa độ thuê bao hoạt động nhiều trước khung hành tháng t1 đến t6 mức tỉnh thành 20 Các đặc trưng tọa độ thuê bao hoạt động nhiều khung hành tháng t1 đến t6 mức tỉnh thành 21 Các đặc trưng tọa độ thuê bao hoạt động nhiều buổi sáng tháng t1 đến t6 mức tỉnh thành 22 Các đặc trưng tọa độ thuê bao hoạt động nhiều buổi chiều tháng t1 đến t6 mức tỉnh thành 23 Các đặc trưng tọa độ thuê bao hoạt động nhiều khung nghỉ ngày làm việc tháng t1 đến t6 mức tỉnh thành 24 Các đặc trưng tổng tiêu dùng tháng 25 Các đặc trưng tổng tiêu dùng tháng phân theo mức 26 Các đặc trưng mức tăng giảm tháng t so với t-1 32 Chương 4: Thực nghiệm đánh giá 4.1 Môi trường công cụ thực nghiệm Để xây dựng mơ hình đề xuất chương 3, học viên sử dụng công cụ khai phá liệu Knime Đây công cụ khai phá liệu viết ngơn ngữ lập trình Java có giao diện trực quan, hỗ trợ nhiều kỹ thuật xử lý liệu khai phá liệu tích hợp sẵn Các bước xử lý quy trình khai phá liệu sẽ biểu diễn đồ thị có hướng, người dùng sẽ kéo thả thành phần xử lý liệu cấu hình tham số cho thành phần qua giao diện tùy biến Hình 9: Giao diện công cụ khai phá liệu Knime Các bảng mô tả phiên phần mềm sử dụng môi trường thực nghiệm Bảng 6: Các công cụ thực nghiệm STT Phần mềm Ý nghĩa Phiên Nguồn Knime Môi trường thử nghiệm 4.1.0 https://www.knime.com/ Java Ngơn ngữ lập trình 1.8.231 https://www.java.com/ 33 Bảng 7: Mơi trường thực nghiệm STT Phần cứng Nguồn CPU Intel Core i5-8250U 1.60GHz RAM 4GB Ổ cứng 1TB HDD Hệ điều hành Windows 10 64bit 4.2 Kịch thực nghiệm Luận văn thực kịch thực nghiệm: thực nghiệm đánh giá kết phân loại dựa định, thực nghiệm đánh giá kết phân loại dựa kNN, thực nghiệm đánh giá dựa thuật toán SVM thực nghiệm kết hợp mơ hình Các thực nghiệm đánh giá tập liệu với phương pháp kiểm thử chéo 10-folds phương pháp đánh giá độ xác, độ hồi tưởng độ đo F Các tham số thực nghiệm lựa chọn thông qua nhiều thực nghiệm thay đổi tham số, kết đưa mục 4.3 tham số đạt kết tốt 4.3 Kết thực nghiệm đánh giá a) Thực nghiệm đánh giá kết phân loại sử dụng thuật toán kNN Thực nghiệm sử dụng thuật tốn kNN đánh giá thơng qua kỹ thuật kiểm thử chéo 10 folds, với tham số k thử từ đến 20, độ đo đánh giá tương tự độ đo Cosine độ đo Euclidean Qua kết thực nghiệm thay đổi tham số, thực nghiệm với k=11 độ đo tương tự Cosine cho kết tốt với độ micro-F 0.43 Bảng 8: Kết thực nghiệm sử dụng thuật toán kNN TẬP MẪU TOM50 7513 SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC 3456 9095 34 0.38 0.46 0.42 TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM11 4429 1506 3673 0.41 0.34 0.37 POBAS 4409 1984 2961 0.67 0.45 0.54 EXSTUDENT 3367 1044 1933 0.54 0.31 0.39 ECO50 3365 1750 2612 0.67 0.52 0.59 TOM690 2840 1278 5325 0.24 0.45 0.31 TOMA1 2185 1093 2023 0.54 0.50 0.52 TOMCD 1528 779 2361 0.33 0.51 0.40 ECD50 768 361 612 0.59 0.47 0.52 ECOM1 718 230 527 0.44 0.32 0.37 0.48 0.43 0.46 MACRO-F 0.43 MICRO-F Kết thực nghiệm đạt macro-F 0.46 micro-F1 0.43 cho thấy chênh lệch không lớn cho thấy liệu có cân lớp lớn (lớp thấp ECOM1 với 718 liệu với lớp cao TOM50 với 7513 liệu, tỷ lệ 1/10) không gây ảnh hưởng cao Kết tốt đạt lớp ECO50 với F 0.59, độ xác tốt lớp ECO50 POBAS 0.67, độ hồi tưởng tốt lớp ECO50 Hầu hết độ xác thường tốt độ hồi tưởng lớp b) Thực nghiệm đánh giá kết phân loại sử dụng thuật toán SVM Trong thực nghiệm này, luận văn tiến hành thực nghiệm với thuật SVM với tham số thay đổi C ngưỡng 0.1 đến 10, gamma ngưỡng 0.1 đến 10, nhân thử nghiệm RBF Qua kết thực nghiệm cho thấy với C=1 gamma=0.8 cho kết tốt với micro-F 0.57 Bảng 9: Kết thực nghiệm sử dụng thuật toán SVM 35 TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM50 7513 4376 8549 0.51 0.58 0.54 TOM11 4429 3452 5347 0.65 0.78 0.71 POBAS 4409 2316 3124 0.74 0.53 0.61 EXSTUDENT 3367 1594 2971 0.54 0.47 0.50 ECO50 3365 1864 2547 0.73 0.55 0.63 TOM690 2840 1755 3209 0.55 0.62 0.58 TOMA1 2185 1296 2047 0.63 0.59 0.61 TOMCD 1528 647 1968 0.33 0.42 0.37 ECD50 768 219 712 0.31 0.29 0.30 ECOM1 718 347 648 0.54 0.48 0.51 0.55 0.53 0.54 MACRO-F 0.57 MICRO-F Kết thực nghiệm sử dụng SVM với macro-F 0.54 micro-F 0.57 cho thấy hiệu so với thuật toán kNN 0.14 với độ đo micro-F Lớp TOM11 đạt kết F tốt 0.71 độ hồi tưởng tốt 0.78, lớp POBAS đạt kết độ xác tốt 0.74 Hầu hết lớp cho kết tốt so với việc sử dụng thuật toán kNN ngoại trừ hai lớp TOMCD (0.37 so với 0.4) ECD50 (0.3 so với 0.52), hai lớp có số lượng liệu thấp c) Thực nghiệm đánh giá kết phân loại sử dụng thuật toán định Thực nghiệm sử dụng thuật toán định sử dụng tham số liên quan đến thuật toán đánh giá tối ưu cây, cụ thể: - Độ đo đánh giá: Gini index Gain ratio - Tỉa cây: không tỉa có tỉa 36 - Số lượng nút nhỏ cây: chạy khoảng đến Kết thực nghiệm cho thấy kết tốt độ đo đánh giá Gini, không tỉa số lượng nút nhỏ Bên cạnh thuật tốn khơng sử dụng kỹ thuật chuẩn hóa khoảng biên độ liệu khoảng 0-1 thuật toán Min-Max mà giữ nguyên giá trị dạng số Bảng 10: Kết thực nghiệm sử dụng thuật toán định TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM50 7513 4618 7914 0.58 0.61 0.60 TOM11 4429 3607 5210 0.69 0.81 0.75 POBAS 4409 3217 3487 0.92 0.73 0.81 EXSTUDENT 3367 1964 3574 0.55 0.58 0.57 ECO50 3365 2349 2741 0.86 0.70 0.77 TOM690 2840 2144 3119 0.69 0.75 0.72 TOMA1 2185 1546 2267 0.68 0.71 0.69 TOMCD 1528 1018 1684 0.60 0.67 0.63 ECD50 768 451 512 0.88 0.59 0.70 ECOM1 718 398 614 0.65 0.55 0.60 0.71 0.67 0.69 MACRO-F 0.68 MICRO-F Kết thực nghiệm cho thấy việc sử dụng thuật toán định cho kết tốt SVM 0.11 với độ đo micro-F 0.68 macro-F 0.69 Tất lớp cho kết tốt lớp thuật toán kNN SVM, lớp POBAS cho kết tốt với độ đo F 0.81 độ xác tốt 0.92, lớp TOM11 cho kết độ hồi tưởng tốt 0.81 Tuy nhiên có số lớp kết chưa tốt EXSTUDENT, TOMCD, TOM50 ECOM1 37 d) Thực nghiệm đánh giá kết phân loại sử dụng kết hợp mơ hình Qua thực nghiệm trên, kết thuật toán định cho kết vượt trội so với thực nghiệm sử dụng kỹ thuật khác Tuy nhiên số lớp kết chưa đạt hiệu cao Trong thực nghiệm sử dụng kết hợp mơ hình (ensemble models), luận văn tiến hành ghép nối mơ hình theo tiêu chí sau: - Kết mơ hình sử dụng kNN đầu có giá trị - Kết mơ hình sử dụng SVM đầu có giá trị 1.5 - Kết mơ hình sử dụng định đầu có giá trị Việc đưa giá trị phân lớp thành phần dựa mức độ hiệu thực nghiệm (cây định tốt SVM kNN) Kết từ phân lớp kết hợp tương ứng với nhãn lớp có tổng giá trị cao Ví dụ 1: - Nhãn lớp đầu phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu phân lớp SVM là: ECOM1 (giá trị 1.5) - Nhãn lớp đầu phân lớp định: ECD50 (giá trị 2) Nhãn lớp đầu mơ hình kết hợp ECD50 (giá trị 2) Ví dụ 2: - Nhãn lớp đầu phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu phân lớp SVM là: TOM11 (giá trị 1.5) - Nhãn lớp đầu phân lớp định: ECD50 (giá trị 2) Nhãn lớp đầu mơ hình kết hợp TOM11 (giá trị 2.5) Bảng 11: Kết thực nghiệm sử dụng kết hợp mơ hình TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC TOM50 7513 4251 6049 0.70 0.57 0.63 TOM11 4429 3709 5007 0.74 0.84 0.79 POBAS 4409 3547 4158 0.85 0.80 0.83 EXSTUDENT 3367 2143 3689 0.58 0.64 0.61 38 TẬP MẪU SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT LIỆU ĐỐN CHÍNH TƯỞNG QUẢ ĐÚNG ĐƯỢC XÁC ECO50 3365 2309 2947 0.78 0.69 0.73 TOM690 2840 2218 3642 0.61 0.78 0.68 TOMA1 2185 1688 2674 0.63 0.77 0.69 TOMCD 1528 986 1557 0.63 0.65 0.64 ECD50 768 579 694 0.83 0.75 0.79 ECOM1 718 538 705 0.76 0.75 0.76 0.71 0.72 0.72 MACRO-F MICRO-F 0.71 Kết chung thực nghiệm cho kết tốt so với thực nghiệm lại với độ đo micro-F 0.71 kết định 0.68 0.03, SVM 0.57 0.14, kNN 0.43 0.28 Thực nghiệm ưu tiên kết định có giá trị cao nên hầu hết kết tương quan với mơ hình sử dụng thuật toán định, bên cạnh số kết mơ hình lại bổ sung thêm cho mơ hình kết hợp giúp mơ hình mang lại hiệu tốt Tương tự thực nghiệm định, lớp POBAS đạt kết tốt độ đo F 0.83 (hơn so với thuật toán định 0.81 0.02) tốt độ đo xác 0.85, lớp TOM11 đạt độ hồi tưởng tốt 0.84 Các lớp có lượng liệu thấp ECD50 ECOM1 tăng đáng kể hiệu từ 0.70 lên 0.79 0.6 lên 0.76 39 KẾT LUẬN Nội dung đạt Nghiên cứu tìm hiểu toán dự đoán khách hàng tiềm cho gói cước viễn thơng hướng tiếp cận giải tốn Phân tích, tìm hiểu xử lý đặc trưng, đặc tính liệu thuê bao, đưa đặc trưng phù hợp với tốn Đưa mơ hình phân lớp liệu thuê bao sử dụng thuật toán định, SVM, kNN kỹ thuật kết hợp mơ hình phân loại Sau tìm hiểu nghiên cứu lý thuyết phân lớp liệu thuê bao, thực nghiệm phân lớp liệu với liệu cụ thể đánh giá hiệu thuật toán Kết mơ hình kết hợp đạt kết khả quan với độ đo micro-F 0.71 Hướng tiếp cận tương lai Do liệu lấy mẫu chưa nhiều nên số lượng gói cước đảm bảo tính phổ biến để vào mơ hình phân loại 10 gói cước tương ứng với 10 nhãn, lại 153 gói cước chưa đưa vào mơ hình Vì hướng nghiên cứu học viên mở rộng tập liệu cho gói cước khác đánh giá quy mô tập nhãn lớn 40 TÀI LIỆU THAM KHẢO Tiếng Việt Hồng Xn Huấn, Giáo trình nhận dạng mẫu, Nhà xuất Đại học Quốc gia Hà Nội, 2012, tr.145-178 Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá liệu, Nhà xuất Đại học Quốc gia Hà Nội, 2012, tr.249-286 Tiếng Anh Almana, A M., Aksoy, M S., & Alzahrani, R (2014) A survey on data mining techniques in customer churn analysis for telecom industry International Journal of Engineering Research and Applications, 45, 165171 Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A Mirza "Spammer classification using ensemble methods over structural social network features." Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 02 IEEE Computer Society, 2014 Cortes, C., & Vapnik, V (1995) Support-vector networks Machine learning, 20(3), 273-297 Giacinto and F Roli Design of effective neural network ensembles for image classification purposes Image and Vision Computing, 19(9-10): 699–707, 2001 Giacinto, F Roli, and G Fumera Design of effective multiple classifier systems by clustering of classifiers In Proceedings of the 15th International Conference on Pattern Recognition, pages 160–163, Barcelona, Spain, 2000 Giacinto, F Roli, and L Didaci Fusion of multiple classifiers for intrusion detection in computer networks Pattern Recognition Letters, 24(12): 1795–1803, 2003so cu5so moi6 Giacinto, R Perdisci, M D Rio, and F Roli Intrusion detection in computer networks by a modular ensemble of one-class classifiers Information Fusion, 9(1):69–82, 2008 41 Hilas, C S., & Mastorocostas, P A (2008) An application of supervised and unsupervised learning approaches to telecommunications fraud detection Knowledge-Based Systems, 21(7), 721-726 Hilas, C S., Kazarlis, S A., Rekanos, I T., & Mastorocostas, P A (2014) A genetic programming approach to telecommunications fraud detection and classification In Proc 2014 Int Conf Circuits, Syst Signal Process Commun Comput (pp 77-83) 10 Hilas, C S., Mastorocostas, P A., & Rekanos, I T (2015) Clustering of telecommunications user profiles for fraud detection and security enhancement in large corporate networks: a case study Applied Mathematics & Information Sciences, 9(4), 1709 11 Insani, R., & Soemitro, H L (2016, May) Data mining for marketing in telecommunication industry In 2016 IEEE Region 10 Symposium (TENSYMP) (pp 179-183) IEEE 12 Jansen, S M H (2007) Customer segmentation and customer profiling for a mobile telecommunications company based on usage behavior A Vodafone Case Study, 66 13 Jony, R I., Habib, A., Mohammed, N., & Rony, R I (2015, December) Big data use case domains for telecom operators In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity) (pp 850-855) IEEE 14 Kim, S Y., Jung, T S., Suh, E H., & Hwang, H S (2006) Customer segmentation and strategy development based on customer lifetime value: A case study Expert systems with applications, 31(1), 101-107 15 Li, Q (2009, April) An algorithm of quantitative association rule on fuzzy clustering with application to cross-selling in telecom industry In 2009 International Joint Conference on Computational Sciences and Optimization (Vol 1, pp 759-762) IEEE 16 Masoud, R., & Ahmed, T M (2016) Using data mining in telecommunication industry: Customer's churn prediction model Journal of Theoretical and Applied Information Technology, 91(2), 322 17 Russell, S., & Lodwick, W (1999, June) Fuzzy clustering in data mining for telco database marketing campaigns In 18th International 42 Conference of the North American Fuzzy Information Processing SocietyNAFIPS (Cat No 99TH8397) (pp 720-726) IEEE 18 Tianyuan, Z (2018) Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation) 19 van Wezel, Michiel, and Rob Potharst "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1 (2007): 436-452 20 Wang, Y., Sanguansintukul, S., & Lursinsap, C (2008, September) The customer lifetime value prediction in mobile telecommunications In 2008 4th IEEE International Conference on Management of Innovation and Technology (pp 565-569) IEEE 21 Weiss, G M (2005) Data mining in telecommunications In Data Mining and Knowledge Discovery Handbook (pp 1189-1201) Springer, Boston, MA 22 Wu, W., Liu, Z., & He, Y (2015) Classification of defects with ensemble methods in the automated visual inspection of sewer pipes Pattern Analysis and Applications, 18(2), 263-276 23 Ye, L., Qiu-ru, C., Hai-xu, X., Yi-jun, L., & Zhi-min, Y (2012, July) Telecom customer segmentation with K-means clustering In 2012 7th International Conference on Computer Science & Education (ICCSE) (pp 648-651) IEEE 24 Zhang, Z., Lin, H., Liu, K., Wu, D., Zhang, G., & Lu, J (2013) A hybrid fuzzy-based personalized recommender system for telecom products/services Information Sciences, 235, 117-129 43 ... nhóm khách hàng Ví dụ: Những khách hàng sử dụng tổng tiêu dùng tháng 200.000đ, sử dụng 100 phút gọi nội mạng, 50 phút gọi ngoại mạng 1GB data, xây dựng đề xuất cho khách hàng gói cước di động. .. với k=5 17 Hình 6: Mơ hình dự đốn khách hàng tiềm cho gói cước 20 Hình 7: Phân bố gói cước tập liệu 23 Hình 8: Lược đồ xử lý liệu trích xuất đặc trưng 30 Hình 6: Giao di n công cụ... văn thạc sĩ Công nghệ thơng tin Xây dựng mơ hình dự đốn khách hàng tiềm cho gói cước mạng di động cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều