1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng chương trình dự báo thuê bao hiện hữu sử dụng thêm dịch vụ

73 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2,25 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG - XÂY DỰNG CHƯƠNG TRÌNH DỰ BÁO THUÊ BAO HIỆN HỮU SỬ DỤNG THÊM DỊCH VỤ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG - XÂY DỰNG CHƯƠNG TRÌNH DỰ BÁO THUÊ BAO HIỆN HỮU SỬ DỤNG THÊM DỊCH VỤ Chuyên ngành: Công Nghệ Thơng Tin Mã sớ: 8480201 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Đồng Nai, năm 2022 LỜI CẢM ƠN Trong thời gian thực luận văn, hướng dẫn tận tình giảng viên, thầy trường Đại học, tơi hồn thành luận văn thạc sĩ với thời gian dự kiến Có kết xin chân thành gửi lời cám ơn đến - PGS.TS – Giảng viên khoa Công Nghệ Thông Tin, trường Đại Học tận tình hướng dẫn, giúp đỡ tơi suốt q trình làm luận văn Sự giúp đỡ hướng dẫn nhiệt tình thầy giúp chúng tơi củng cố kiến thức hồn thành tốt luận văn tốt nghiệp Tôi xin chân thành cám ơn thầy - Quý thầy cô khoa Công Nghệ Thông Tin, trường Đại học nói riêng thầy trường Đại Học nói chung tận tình giảng dạy bảo, giúp trang bị kiến thức quý báu suốt thời gian học tập nghiên cứu Dù cố gắng liên tục nâng cao kiến thức, luận văn tránh thiếu sót hạn chế Do tơi mong nhận dẫn quý thầy cô bạn để tơi hồn thiện sai sót mà mắc phải Đồng Nai, ngày tháng Năm 2022 Tác giả luận văn LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Đồng Nai, ngày tháng Năm 2022 Tác giả luận văn TĨM TẮT LUẬN VĂN Trong ngành Cơng nghệ thông tin, Mạng Nơron nhân tạo (Artificial Neural Networks gọi tắt Neural Networks) hệ thống mơ hình hóa cách đặc biệt cách tế bào thần kinh hoạt động não người Mạng Nơron nhân tạo ứng dụng nhiều ngành nghề, lĩnh vực khác y học, công nghiệp, viễn thơng, thời tiết tài Việc sử dụng,bổ sung Mạng Nơron nhân tạo đóng vai trị quan trọng thời đại kỷ nguyên số nay, ứng dụng thương mại của Mạng Nơron nhân tạo thường tập trung vào việc giải vấn đề xử lý tín hiệu phức tạp nhận dạng mẫu Qua ta phân tích, dự đốn kiện trước, dự báo hành động xảy dựa liệu gốc đưa định tốt phục vụ đời sống người Trong năm gần đây, toán dự báo thuê bao hữu sử dụng thêm dịch vụ hấp dẫn ý nhiều nhà nghiên cứu, nhiều giải thuật đề xuất kết hợp nhằm cải tiến hiệu suất độc xác phải xử lý toán phức tạp Luận văn tập trung cải tiến thời gian thực thi đánh giá độ xác sử dụng kỹ thuật khai phá liệu hỗn hợp (Hybrid Data Mining Techniques) cách sử dụng mơ hình Cây định (Decision Tree) Phương pháp mơ hình Cây định thể sau: Cây làm nhiệm vụ dự báo Kết dự đốn dựa tồn nhóm đưa dự đốn có độ xác cao Giảng viên hướng dẫn Học viên MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN TÓM TẮT LUẬN VĂN MỤC LỤC DANH BẢNG DANH MỤC HÌNH CHƯƠNG 1: TỔNG QUÁT 1 Tổng quan sơ vấn đề cần nghiên cứu nước .1 1.1 Thế giới: 1.2 Việt nam: 1.3 Tại VNPT Đồng Nai Chương 2: Cơ sở lý thuyết 2.1 Khai phá liệu: 2.1.1 Đặt vấn đề: 2.1.2 Các bước khám phá trí thức phương pháp khai phá liệu 2.1.2.1 Các bước khám phá trí thức 2.1.2.2 Các phương pháp khai phá liệu 10 Chương 3: Phương pháp tiếp cận .34 3.1 Tổng quát giải thuật Cây định 34 3.2 Sơ đồ tổng quát hệ thống 37 3.3 Giải thích sơ đồ trình tự hệ thống 38 Chương 4: Thực nghiệm đánh giá kết 39 4.1 Môi trường thực nghiệm 39 4.2 Phương pháp thực nghiệm: 39 4.3 Các bước xây dựng thực nghiệm mơ hình dự báo khách hàng phát triển dịch vụ 40 4.3.1 Phương pháp 40 4.3.2 Phương pháp 49 4.4 Đánh giá kết mơ hình sau áp hai phương pháp thực nghiệm 58 Chương 5: kết luận hướng phát triển 61 5.1 Kết đạt luận văn 61 5.2 Hướng phát triển 61 TÀI LIỆU THAM KHẢO DANH MỤC BẢNG Bảng 4.1: Bảng tỉ lệ số khách hàng dán nhãn (0:1) chưa thực tiền xử lý 41 Bảng 4.2: Bảng tỉ lệ khách hàng dán nhãn (0:1) sau cập nhật thay đổi thời gian 50 Bảng 4.3: Bảng so sánh kết AUC phương pháp 59 Bảng 4.4: Bảng đánh giá kết so với số liệu thực tế 60 DANH MỤC HÌNH Hình 2.1 Phân tích thuật tốn khai phá tập mục thường xuyên 11 Hình 2.2 Ideal Clustering…………………………………………………………… 17 Hình 2.3: Mơ hình định 35 Hình 2.4: Decision Tree for PlayTennis 36 Hình 3.1 Sơ đồ tổng qt mơ hình huấn luyện 38 Hình 4.1 Bảng tập liệu chưa chuẩn hóa 41 Hình 4.2 Vùng chứa Dataset (mau1.csv) 41 Hình 4.3 Designer thiết kế mơ hình 42 Hình 4.4 Tạo kết nối dataset chọn thuộc tính 43 Hình 4.5 Form chọn thuộc tính 43 Hình 4.6 Kết nối module thuộc tính EditMetadata 44 Hình 4.7 Form chọn thuộc tính dùng để gán nhãn 44 Hình 4.8 Form phân chia tập liệu dùng để huấn luyện test 45 Hình 4.9 Tạo kết nối giải thuật tập liệu với module huấn luyện 46 Hình 4.10 Form chọn thuộc tính gán nhãn cho module huấn luyện 47 Hình 4.11 Thực thiết lập module kết dự đoán .47 Hình 4.12 Các nút lệnh để lưu kết 48 Hình 4.13 kết phương pháp .49 Hình 4.14 Bảng liệu sau chuẩn hóa 50 Hình 4.15 Mơ hình thiết lập sau thực cài đặt 51 Hình 4.16 Kết dự đốn mơ hình phương pháp .52 Hình 4.17 Cài đặt Web Service 53 Hình 4.18 Mơ hình WebService 53 Hình 4.19 Phát triển WebService 54 Hình 4.20 Form test kết dự báo .55 Hình 4.21 Chương trình test kết dự báo 57 Hình 4.22 kết dự báo 58 CHƯƠNG TỔNG QUÁT Tổng quan sơ vấn đề cần nghiên cứu ngồi nước 1.1 Thế giới: Ngành viễn thơng giới triển khai phủ sóng 5G theo báo cáo di động Ericsson ước tính, đến cuối năm 2020, tỷ người chiếm 15% dân số giới phủ sóng 5G Đến cuối năm 2020 dự kiến toàn giới có 220 triệu th bao 5G 10 cơng ty viễn thơng có giá trị giới mơ tả ngắn gọn doanh nghiệp Hãng viễn thông lớn thứ 10: America Movil Công ty viễn thông lớn Mexico phục vụ 280,6 triệu thuê bao di động tồn giới Cơng ty có giá trị thị trường 49.385 tỷ USD Thứ 9: Telefonica SA Một cơng ty Tây Ban Nha có trụ sở Madrid, với hầu hết sở kinh doanh tập trung Mỹ Latinh, phục vụ 21 quốc gia khác Cơng ty có giá trị thị trường 52,84 tỷ USD doanh thu thúc đẩy ba thương hiệu Movistar, O2 Vivo Thứ 8: Vodafone Group plc Cơng ty có trụ sở London, có hoạt động 26 quốc gia phục vụ khoảng 444 triệu khách hàng Cơng ty có giá trị thị trường 68,41 tỷ USD cung cấp sản phẩm dịch vụ điện thoại cố định, di động, internet truyền hình kỹ thuật số Thứ 7: Deutsche Telekom AG Giá trị thị trường công ty 76,11 tỷ USD, gã khổng lồ viễn thông Đức có 100 triệu khách hàng di động 50 quốc gia toàn cầu Thứ 6: Softbank Group Corp Cơng ty Nhật Bản có trụ sở Tokyo, sở hữu 80% cổ phần Sprint, công ty viễn thơng Mỹ Cơng ty có giá trị thị trường 82,26 tỷ USD cung cấp dịch vụ thông tin liên lạc di động cố định, Softbank cung cấp dịch vụ thương mại điện tử, Internet, dịch vụ cơng nghệ, tài chính, truyền thông tiếp thị Thứ 5: Nippon Telegraph & Telephone Corp Họ tự hào với giá trị thị trường 86,13 tỷ USD Doanh thu công ty chủ yếu kết nối cáp quang dịch vụ điện tốn đám mây thay gói cước viễn thông Thứ 4: Verizon Communications Inc Công ty viễn thơng tồn cầu có giá trị thị trường 191,72 tỷ USD, hoạt động 150 quốc gia toàn giới, 50 cao Chúng thực lấy số liệu ngày sử dụng từ 31/12/2016 đến 31/12/2021 Thay cho 01/12/2020 đến 31/12/2021 Bảng 4.2 Bảng tỉ lệ khách hàng dán nhãn (0:1) sau cập nhật thay đổi thời gian Tổng số Tổng số gán record nhãn (0) 293.736 132.236 Tỉ lệ Tổng số gán Tỉ lệ nhãn (1) 45% 161.490 Hình 4.14 Bảng liệu sau chuẩn hóa 55% 51 Bước 4: Thực xây dựng lại mơ hình huấn luyện bước phương pháp 1, sau hoàn tất bước ta Hình 4.19: Hình 4.15 Mơ hình thiết lập sau thực cài đặt Sau thực lưu trữ huấn luyện mơ hình cho kết dự đốn sau: 52 Hình 4.16 Kết dự đốn mơ hình phương pháp Hiện mơ hình cho accuracy 0.934 precision of 0.991 Tuy nhiên, khơng phải kết chắn Và AUC 0.982, có nghĩa dự đốn xác khoảng 98.82% theo thời gian Bước 5: Cài đặt Web service Đây bước thực xây dựng mơ hình Web service để thực tạo API với tham biến truyền vào xuất kết dự báo cho thuê bao, bước thực sau: 53 - Tại toolbar phía Create inference pipeline > Real-time inference pipeline Hình 4.20 Hình 4.17 Cài đặt Web Service Sau đó, hệ thống thực xây dựng mơ hình Web Service hình bên gồm biến đầu vào đầu kết Hình 4.21: Hình 4.18 Mơ hình WebService - Tại toolbar click chọn button “Deploy WebService” để phát triển Webservice Hình 4.23 54 Hình 4.19 Phát triển WebService Chọn Deploy details Sau thực phát triển WebService phần mềm tạo API Form để thực nhập biến giá trị đầu vào xuất kết Hình 4.24 55 Hình 4.20 Form test kết dự báo Kết trả có hai giá trị cần quan tâm là: Scored Labels: - Thuê bao có phát triển thêm mới; – Thuê bao khơng có phát triển thêm Scored Probabilities: 0.8680764384870133- Tỉ lệ xác suất thuê bao phát triển thêm 56 Sử dụng chương trình python chạy huấn luyện dự báo kết khách hàng hữu phát triển thêm dịch vụ 57 Hình 4.21 Chương trình test kết dự báo 58 Sau bảng liệu mô tả kết danh sách thuê bao dự báo Hình Hình 4.22 kết dự báo 4.4 Đánh giá kết mơ hình sau áp hai phương pháp thực nghiệm Để đánh giá kết mơ hình có độ dự đốn tốt hay xấu phải dựa váo số sau: Do yếu tố phát triển quan trọng dự báo, nên Positive khả phát triển • Precision: để đo độ xác (tỷ lệ phần trăm) việc dự đoán tất dự đoán khách hàng phát triển (bao gồm dự đoán – true positive dự đoán sai false positive) Precision = TP TP+FP + TP (True Positive): Số thuê bao phát triển mơ hình dự đốn + FP (False Positive): Số th bao phát triển mơ hình dự đốn sai • Recall: nhằm xác định tỷ lệ phần trăm việc dự đoán trong tất trường hợp thực tế khách hàng phát triển (bao gồm dự đoán - true positive dự đoán sai - false negative) Recall = TP TP+FN + TP (True Positive): Số thuê bao phát triển mơ hình dự đốn + FN (False Negative): Số th bao sử dụng mơ hình dự đốn sai 59 • Accuracy: tỉ lệ phần trăm mơ hình dự đốn trong tất trường hợp khách hàng sử dụng rời mạng tập liệu kiểm thử Accuracy cao mơ hình dự đốn xác Accuracy= TP + TN TP + TN + FP + FN + TP (True Positive): Số thuê bao phát triển mơ hình dự đốn + FP (False Positive): Số th bao phát triển mơ hình dự đốn sai + FN (False Negative): Số thuê bao sử dụng mơ hình dự đốn sai + TN (False Negative): Số th bao sử dụng mơ hình dự đốn • AUC (Area Under The Curve): tỉ lệ phần trăm mơ hình dự đốn tất trường hợp khách hàng phát triển khách hàng sử dụng Bảng đánh giá kết sau sử dụng hai phương pháp Bảng 4.4: Bảng 4.3 Bảng so sánh kết AUC phương pháp Phương pháp Accuracy Precision Recall AUC Phương pháp 1: sử dụng tập liệu thô chưa thực cân liệu tập khách hàng gán nhãn (0:1) bị lệch lớn theo tỉ lệ (67% : 33%) 0.901 0.988 0.706 0.95 Phương pháp 2: tập liệu thực cân liệu tập khách hàng gán nhãn (0:1) theo tỉ lệ (45% : 55%) 0.934 0.991 0.887 0.982 Tỉ lệ chênh lệch kết dự báo phương pháp 0.033 0.003 0.181 0.032 60 Qua bảng kết đánh giá sau sử dụng hai phương pháp thực mơ hình cho ta thấy việc tiền xử lý liệu quan trọng việc xây dựng mơ hình máy học Nó mang lại kết mơ hình dự đốn có độ xác cao Với kết khả quan mơ hình dự đốn theo phương pháp Mơ hình đề xuất triển khai áp dụng tập liệu thuê bao sử dụng tháng VNPT Đồng Nai năm 2022 Kết thống kê theo dõi so sánh với liệu thực tế, kết mơ hình cho thấy độ xác khả quan, cụ thể Bảng 4.4: Bảng 4.4 Bảng đánh giá kết so với số liệu thực tế Tháng 2022 Mơ hình Phát triển Dự đoán dự đoán 7784 8564 6878 Tỉ lệ 80% Tại đại lượng accuracy, precision, recall cao (>95%), tỷ lệ dự đoán so với thực tế Bảng 4.4 lại thấp nguyên nhân sau: 61 Chương 5: Kết luận hướng phát triển Chương trình bày kết đạt luận văn, rút sau tiến hành thực nghiệm hướng phát triển luận văn 5.1 Kết đạt luận văn Quá trình tìm hiểu cơng trình nghiên cứu liên quan việc xây dựng toán dự báo khách hàng phát triển thêm dịch vụ (số lớp, số lượng tập huấn luyện, số lượng tập thử, độ xác…) chúng tơi đạt kết sau: Xây dựng Database lưu trữ thông tin khách hàng (KHACHHANG_ID, FIBER, MYTV, DTCD, DIDONGTRASAU, CONLAI, NAMNAM, BANAM, HAI NAM, CUOC…) Xây tập liệu thuộc tính nguyên nhân xác định khách hàng phát triển thêm dịch vụ làm tập liệu huấn luyện cho mơ hình dự báo khách hàng phát triển thêm dịch vụ Tập hợp chuẩn hóa phương pháp mẫu huấn luyện, đặc thù tập liệu liên tục, liệu lệch nhãn nhiều nhãn nên cần xử lý phương pháp chuẩn hóa chọn lựa đặc trưng để có tỉ lệ tập train, test tốt, tránh tình trạng q khớp mơ hình Cây định Xây dựng mơ hình dự báo với thuật tốn Cây định tăng cường hai lớp với có độc xác cao (99.7%) 5.2 Hướng phát triển Hồn thiện công cụ triển khai thực tế hệ thống phân tích dự báo thuê bao phát triển dịch vụ, sử dụng có hiệu việc chăm sóc khách hàng nhằm khuyến khích khách hàng sử dụng thêm dịch vụ Tích hợp cơng cụ vào hệ thống ĐHSXKD VNPT Đồng Nai, xem cơng cụ hệ thống chăm sóc khách hàng chủ động (CEM) Ngồi ra, thường xun tối ưu mơ hình dự báo để cơng cụ dự báo hoạt động vớ tỷ lệ ngày xác TÀI LIỆU THAM KHẢO [1] Giáo trình khai phá liệu" thầy Hà Quang Thụy - Nguyễn Hà Nam Nguyễn Trí Thành Giáo trình khai phá liệu" thầy Hà Quang Thụy - Nguyễn Hà Nam - Nguyễn Trí Thành [2] (Theo thông tin từ Cổng thông tin điện tử Bộ Thông tin Truyền thông (TT&TT), Bộ TT&TT vừa tổ chức Hội nghị tổng kết tra diện rộng quản lý thông tin thuê bao di động trả trước Ơng Đỗ Hữu Trí - Phó Chánh Thanh tra phụ trách Thanh tra Bộ, ông Lê Văn Tuấn - Phó Cục trưởng Cục Viễn thơng ơng Nguyễn Khắc Lịch - Phó Cục trưởng Cục An tồn thơng tin đồng chủ trì Hội nghị Hội nghị tổ chức theo hình thức trực tuyến với 63 điểm cầu nước vào ngày 04/06/2020) [3] Vũ Đức Thi (1997), Cơ sở liệu-Kiến thức thực hành, Nhà xuất Thống kê, Hà Nội [4] Vũ Đức Thi (1999), Thuật toán tin học Nhà xuất Khoa học kỹ thuật, Hà Nội [5] Cơng trình Adebanjo and Tickle (2018) đề xuất sử dụng nhiều mô hình học máy khác để dự báo khách hàng chuyển mạng [6] Cơng trình Demir and Rahimli (2019) sử dụng mơ hình phân tích hồi quy logistic để dự báo khách hàng đăng ký dịch vụ internet tốc độ cao hay khơng [7] Cơng trình Haddadpour and Jahromi (2019) đề xuất sử dụng mơ hình học máy kết hợp với phương pháp trích xuất đặc trưng để dự báo khách hàng chuyển mạng [8] Cơng trình Aksu and Koc (2018) đề xuất sử dụng mơ hình học máy để dự báo nhu cầu khách hàng dịch vụ [9] Cơng trình Yu and Kim (2019) sử dụng mơ hình học máy để dự báo khách hàng chuyển mạng [10] Cơng trình Trần Thị Hồng Hạnh cộng (2019) sử dụng mơ hình mạng nơ-ron nhân tạo để dự báo khách hàng có mua thêm dịch vụ nhà mạng hay khơng [11] Cơng trình Đỗ Thị Minh Trang cộng (2019) sử dụng mô hình phân tích hồi quy để dự báo khách hàng có mua thêm dịch vụ nhà mạng hay khơng [12] Cơng trình Nguyễn Đức Thành cộng (2018) đề xuất sử dụng phương pháp định để dự báo khách hàng sử dụng thêm dịch vụ nhà mạng [13] Cơng trình Nguyễn Thị Phương Thảo cộng (2018) đề xuất sử dụng phương pháp hồi quy logistic để dự báo khách hàng sử dụng thêm dịch vụ nhà mạng Kết thực nghiệm cho thấy phương pháp cho kết dự báo xác áp dụng [14].https://www.kaggle.com/pankaj1234/azure-machine-learningintroduction [15] S.Y Hung, H.Y.Wang (2004), “Applying Data Mining to Telecom Churn Management” [16] https://machinelearningmastery.com/tactics-to-combat-imbalancedclasses-in-your-machine-learning-dataset/

Ngày đăng: 14/05/2023, 10:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w