Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
1,02 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUÂN ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2016 MỤC LỤC LỜI MỞ ĐẦU Chương Giới thiệu tổng quan mạng di động kiến thức sở liên quan 1.1 Giới thiệu mạng di động 1.2 Sơ lược tình hình nghiên cứu giới 1.3 Phát biểu toán 1.4 Kết luận chương Chương Các kiến thức sở liên quan 2.1 Khai phá liệu 2.1.1 Khái niệm KPDL 2.1.2 Những nhóm toán KPDL 2.1.3 Các bước xây dựng giải pháp KPDL 2.1.4 Ứng dụng KPDL viễn thông 2.2 Một số kỹ thuật KPDL phân lớp, dự báo 2.2.1 Cây định 2.2.2 Phân lớp Naïve Bayes 2.2.3 Mạng nơ ron nhân tạo 2.2.4 Luật kết hợp 2.3 Giới thiệu công cụ weka 2.4 Kết luận chương Chương Giải pháp phát thuê bao di động có khả rời mạng 3.1 Giải pháp chung: 3.2 Giải pháp mạng MobiFone 3.3 Giải pháp đề xuất 3.3.1 Giải pháp đề xuất dùng kỹ thuật khai phá liệu 3.3.2 Giải pháp đề xuất sau cải tiến 3.4 Mô hình đề xuất áp dụng thực tế Chương Thực nghiệm đánh giá kết 4.2 Mô tả liệu thực nghiệm Trong số liệu không rời mạng nhóm thuê bao có phát sinh cước tháng 10 4.3 Kết thực nghiệm theo phương pháp 10 4.4 Kết thực nghiệm dựa khai phá liệu 12 4.4.1 Kết thực nghiệm dựa giải pháp khai phá liệu 12 4.4.2 Kết thực nghiệm dựa khai phá liệu cải tiến 15 4.5 So sánh đánh giá kết 19 4.6 Kết luận chương 20 KẾT LUẬN 23 LỜI MỞ ĐẦU Thuê bao rời mạng vấn đề “đau đầu” nhà mạng nước giới lẽ khách hàng (thuê bao) người mang lại doanh thu trì hoạt động nhà mạng Để trì phát triển hoạt động kinh doanh mình, nhà mạng phải tìm cách để phát triển thuê bao đồng thời phải tìm cách để trì hoạt động thuê bao hữu Theo nghiên cứu thực tế triển khai nhà mạng cho thấy, tổng chi phí để phát triển thuê bao cao nhiều so với việc trì thuê bao hữu Trong đó, doanh thu từ thuê bao hữu (đặc biệt thuê năm) cao nhiều so với doanh thu thuê bao (theo thống kê MobiFone thuê năm có doanh thu trung bình cao 48% so thuê bao mới) Chính lý trên, nhà mạng giới không ngừng tìm kiếm giải pháp nghiên cứu phát triển ứng dụng để xác định, dự đoán sớm thuê bao có khả rời mạng để có biện pháp kịp thời tác động nhằm trì thuê bao hoạt động Xuất phát từ yêu cầu đặt đơn vị mình, thực đề tài luận văn “ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO THUÊ BAO RỜI MẠNG TRONG MẠNG DI ĐỘNG” Luận văn sâu vào việc áp dụng kỹ thuật khai phá liệu từ hành vi sử dụng thuê bao di động từ dự báo thuê bao có khả rời mạng Luận văn gồm có phần mở đầu, kết luận 04 chương, cụ thể sau: Chương 1: Giới thiệu tổng quan mạng di động vấn đề liên quan Chương trình bày tổng quan mạng di động, thuê bao rời mạng Phát biểu toán nghiên cứu liên quan Chương 2: Khai phá liệu kỹ thuật phân tích dự báo Nghiên cứu sở lý thuyết KPDL, vấn đề liên quan đến KPDL toán dự báo thuê bao rời mạng Tìm hiểu kỹ thuật khai phá liệu sử dụng toán phân lớp, dự báo (chuẩn bị liệu, lựa chọn thuộc tính, phân tích đặc trưng, định, …) áp dụng kỹ thuật KPDL ứng dụng WEKA Chương 3: Giải pháp phát thuê bao di động có khả rời mạng Các phương pháp để phát thuê bao di động có khả rời mạng bao gồm kỹ thuật dựa vào đặc trưng thuê bao, phương pháp ứng dụng kỹ thuật khai phá liệu Chương 4: Thực nghiệm đánh giá kết Nội dung chủ yếu áp dụng mô hình tìm hiểu vào việc dự báo thuê bao rời mạng Trước tiên áp dụng kỹ thuật toàn liệu chuẩn bị với mô hình phân tích đặc trưng, quyêt định đánh giá Tiếp theo sử dụng kỹ thuật lựa chọn thuộc tính để cải tiến tốc độ xử lý đánh giá độ xác mô hình dự báo Cuối tiến hành đánh giá kết dự báo mô hình đưa mô hình dự báo khuyến nghị để áp dụng vào toán thực tế Chương Giới thiệu tổng quan mạng di động kiến thức sở liên quan Giới thiệu mạng di động Hai mươi năm qua ghi nhận thời gian dài phát triển sôi động, vượt bậc ngành công nghiệp viễn thông nói chung thông tin di động nói riêng Được thành lập từ năm 1993, sau 22 năm phát triển, Tổng Công ty Viễn thông MobiFone (tiền thân Công ty Thông tin di động), từ doanh nghiệp cỡ vừa nhỏ, phát triển trở thành doanh nghiệp lớn, hàng đầu Việt Nam, có doanh thu lên tới 40.000 tỷ, lợi nhuận 6.000 tỷ VNĐ hàng năm cung cấp dịch vụ viễn thông di động cho 20 triệu khách hàng sử dụng thường xuyên Thương hiệu MobiFone trở thành thương hiệu có uy tín hàng đầu Bước sang năm đầu thập kỷ mới, với bão hòa số lượng thuê bao toàn thị trường, thách thức dần trở nên thực tế hơn, đòi hỏi MobiFone phải có theo dõi sát với tính hình kinh doanh Trong giai đoạn bùng nổ thập niên đầu kỷ 21, việc phát triển thuê bao dễ dàng gần bổ sung thêm trạm có thêm thuê bao, đến năm đầu thập kỷ thứ hai, số lượng thuê bao toàn thị trường trở nên bão hòa, mạng lưới phủ sóng gần khắp quốc gia, khách hàng tiềm có hay nhiều thuê bao, việc phát triển thuê bao trở nên khó khăn hết Các nhà cung cấp dịch vụ viễn thông cạnh tranh với găy gắt, liệt, giành giật thuê bao, bao gồm thuê bao sử dụng dịch vụ mạng đối thủ Chính vậy, không việc phát triển thuê bao mà việc giữ thuê bao trở nên cấp bách 1.1 1.2 Sơ lược tình hình nghiên cứu giới 1.3 Phát biểu toán Nêu vòng đời phát triển thuê bao trả trước mốc thời gian để P/s giao dịch Không p/s giao dịch TB TB TBhoạt hoạtđộng động TB TBkhóa khóa11chiều chiều P/sinh giao dịch Không p/s giao dịch P/sinh giao dịch TB TBkhóa khóa22chiều chiều Xóa khỏi HT Không p/s giao dịch Mục đích nghiên cứu: Phát thuê bao trả trước lâu năm có khả rời mạng để tác động trì thuê bao Mục tiêu nghiên cứu: Dự báo thuê bao trả trước lâu năm có khả rời mạng giai đoạn vòng đời thuê bao tức không phát sinh cước khoảng thời gian tháng 1.4 Kết luận chương Chương giới thiệu toán, yêu cầu đặt cần giải toán đồng thời trình bày số hướng nghiên cứu thuê bao rời mạng mạng di động, hướng tiếp cận luận văn Chương 2.1 2.1.1 Các kiến thức sở liên quan Khai phá liệu Khái niệm KPDL KPDL trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu…để từ trích xuất thông tin quan trọng, có giá trị tiềm ẩn bên Do nhu cầu nghiệp vụ cần có cách nhìn thông tin quy mô toàn đơn vị 2.1.2 Những nhóm toán KPDL 2.1.3 Các bước xây dựng giải pháp KPDL Có nhiều tác giả đưa bước hệ thống KPDL, phân chia mang tính chất tương đối tư tưởng chủ đạo sau: - Bước 1: Xác định mục tiêu toán - Bước 2: Thu thập liệu - Bước 3: Làm liệu chuyển đổi liệu - Bước 4: Xây dựng mô hình - Bước 5: Đánh giá mô hình hay đánh giá mẫu - Bước 6: Báo cáo - Bước 7: Dự đoán - Bước 8: Tích hợp vào ứng dụng - Bước 9: Quản lý mô hình 2.1.4 2.2 2.2.1 Ứng dụng KPDL viễn thông Một số kỹ thuật KPDL phân lớp, dự báo Cây định Cây định cấu trúc biễu diễn dạng Trong đó, nút (internal node) biễu diễn thuộc tính, nhánh (branch) biễu diễn giá trị có thuộc tính, (leaf node) biểu diễn lớp định đỉnh gọi gốc (root) 2.2.2 Phân lớp Naïve Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện rút từ giá trị cho B phụ thuộc vào giá trị Phương pháp Naive Bayes phù hợp toán có yêu cầu chi phí xuất giá trị thuộc tính - Thiết kế hệ thống phân lớp thường dễ dàng so với phương pháp khác - Các thuộc tính tập mẫu học phải độc lập với điều kiện - Độ xác thuật toán phân lớp phụ thuộc nhiều vào tập liệu học ban đầu 2.2.3 Mạng nơ ron nhân tạo Neural nhân tạo mô đơn giản neural sinh học Mỗi neural nhân tạo thực hai chức năng: chức tổng hợp đầu vào chức tạo đầu Mỗi neural có giá trị ngưỡng, chức đầu vào tổng có trọng số tín hiệu vào kết hợp với ngưỡng để tạo tín hiều đầu vào Chức tạo đầu thực hàm truyền đạt Hàm nhận tín hiệu đầu vào tạo tín hiệu đầu neural Có ba loại neural mạng Neural tạo với thuật toán Microsoft Neural Network: Neural đầu vào: Neural đầu vào cung cấp giá trị thuộc tính đầu vào cho mô hình khai thác liệu Đối với thuộc tính đầu vào rời rạc, neural đầu vào thường đại diện cho trạng thái đơn từ thuộc tính đầu vào Một thuộc tính đầu vào liên tục tạo hai neural đầu vào: neural cho trạng thái bị thiếu, neural cho giá trị thuộc tính liên tục Neural đầu vào cung cấp đầu vào cho nhiều neural ẩn Neural ẩn: neural ẩn nhận đầu vào từ neural đầu vào cung cấp đầu cho neural đầu Neural đầu ra: Neural đầu đại diện cho giá trị thuộc tính dự đoán mô hình KPDL Đối với thuộc tính đầu rời rạc, neural đầu đại diện cho trạng thái dự đoán thuộc tính dự đoán, bao gồm giá trị thiếu Nếu thuộc tính dự đoán liên tục tạo hai neural đầu ra: neural cho trạng thái bị thiếu, neural cho giá trị thuộc tính liên tục Mỗi đầu vào có giá trị gán cho có trọng số w, mô tả liên quan đầu vào đến neural ẩn neural đầu 2.2.4 Luật kết hợp Khai phá luật kết hợp: Là tìm mẫu phổ biến, kết hợp, tương quan, hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ, kho thông tin khác Các ứng dụng: Luật kết hợp có ứng dụng nhiều lĩnh vực khác đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài đầu tư, 2.3 Giới thiệu công cụ weka Kết luận chương Chương trình bày số khái niệm kiến thức có liên quan thuật toán thường áp dụng KPDL dạng phân lớp, dự báo là: định, mạng nơron nhân tạo, phân lớp Naïve Bayes luật kết hợp 2.4 Chương Giải pháp phát thuê bao di động có khả rời mạng 3.1 Giải pháp chung: Đối với toán thuê bao rời mạng nói chung sử dụng mô sau: Hình 3-1 Mô hình xử lý liệu chung Trong tất giải pháp trình bày sử dụng chung mô hình khác khối mô hình phân tích Giải thích chức khối sau: Thu thập liệu: Có nhiệm vụ thu thập liệu từ nguồn liên quan đến toán, toán liệu thu thập từ nguồn sẵn có MobiFone liệu CDR từ tổng đài, liệu thông tin khách hàng, liệu lịch sử mua hàng khuyến mại, liệu lịch sử khiếu nại … Các liệu hệ thống tác nghiệp MobiFone xử lý lưu trữ CSDL - Xử lý trích xuất liệu: Bước thực tiền xử lý trích xuất liệu để đưa vào mô hình phân tích Trong khối liệu khổng lồ mạng di động dựa vào kinh nghiệm làm việc gần 10 năm mạng di động MobiFone công việc liên quan đến xử lý, quản lý liệu khách hàng tham khảo chuyên gia lĩnh vực chăm sóc khách hàng để chọn lọc liệu có liên quan với toán - Mô hình phân tích: Bước thực mô hình hóa liệu xử lý từ bước trước để xây dựng mô hình liệu - Đánh giá: Đánh giá kết thực 3.2 Giải pháp mạng MobiFone - Giải pháp mạng MobiFone sau: Hình 3-2 Mô hình xử lý Trong giải pháp chuyên gia MobiFone lĩnh vực chăm sóc khác hàng sử dụng phương pháp phân tích đặc trưng liệu từ tìm đặc trưng thuê bao có khả rời mạng để áp dụng dự báo Phương pháp sử dụng tập luật để phân lớp liệu Phương pháp có ưu điểm đơn giản dễ thực để phân lớp nhiên để xác định xác tập luật đòi hỏi phải hiểu liệu nên tự động hóa liệu thay đổi đòi hỏi phải có chuyên gia phân tích lại liệu nên tốn nhiều thời gian để đưa tập luật xác Hơn loại liệu phức tạp phương pháp cho độ xác không cao 3.3 Giải pháp đề xuất 3.3.1 Giải pháp đề xuất dùng kỹ thuật khai phá liệu Mô hình phân tích Giải pháp đề xuất sử dụng để giải toán Trong bước mô hình hóa sử dụng thuật toán KPDL cụ thể thuật toán phân lớp để ứng dụng dự báo thuê bao rời mạng Phương pháp có ưu điểm tự động hóa nhiên thời gian xử lý liệu thường chậm phương pháp dựa vào đặc trưng 3.3.2 Giải pháp đề xuất sau cải tiến Mô hình phân tích Giải pháp cải tiến giải pháp dùng thuật toán khai phá liệu Để làm giảm thời gian xử lý liệu đối trước đưa số liệu vào xử lý thuật toán khai phá liệu ta sử dụng thuật toán trích chọn đặc trưng để tìm thuộc tính phù hợp với thuật toán Phương pháp thời gian xử lý liệu nhanh giải pháp đề cập mục 3.4 nhiên kết dự đoán không xác Do liệu mạng di động thời lớn mà toán đòi hỏi thời gian xử lý nhanh ưu tiên thời gian xử lý Các thuật toán trích chọn thuộc tính: - Trích chọn theo Correlation-based: Đánh giá giá trị tập hợp thuộc tính cách xem xét khả tiên đoán riêng rẽ thuộc tính với mức độ dư thừa chúng (M A Hall (1998) Correlation-based Feature Subset Selection for Machine Learning.) (Trích chọn dựa vào tương quan) - Trích chọn theo độ đo GainRatio: Đánh giá giá trị thuộc tính cách đo GainRatio thuộc tính trình phân lớp: GainR(Class, Attribute) = (H(Class) - H(Class | Attribute)) / H(Attribute) - Trích chọn theo độ đo InfoGain: Đánh giá giá trị thuộc tính cách đo InfoGain liên quan đến phân lớp InfoGain(Class,Attribute) = H(Class) - H(Class | Attribute) Trích chọn theo phương pháp PCA (principal components analysis – Phân tích thành phần chính) 3.4 Mô hình đề xuất áp dụng thực tế Trong Hệ thống thu thập liệu hệ thống có chức lấy liệu CDR, thông tin khách hàng, log khiếu nại khách hàng Hệ thống xử lý lưu trữ liệu: Đây hệ thống Kho liệu MobiFone có chức xử lý liệu thu thập lưu trữ dạng database Mô hình phân tích: Sử dụng kết nối từ WEKA đến DB hệ thống Kho liệu để lấy thông tin phân tích đầu kết dự báo thuê bao rời mạng Đánh giá sử dụng: Đánh giá kết dự đoán đưa số liệu dự đoán để sử dụng thực tế Qua việc phản hồi kết đánh giá tác động ngược lại trình thực ban đầu để tối ưu mô hình dự đoán Do đặc thù kinh doanh thay đổi ảnh hưởng hành vi sử dụng khách hàng mô hình dự đoán Trong trình thực đánh giá nhằm cải tiến mô hình để phù hợp với tình hình số liệu thực tế Chương Thực nghiệm đánh giá kết Theo phương pháp dự báo trình bày chương 3, áp dụng vào số liệu thực tế toán: dự báo thuê bao di động rời mạng, luận văn trình bày kết thực nghiệm đạt phương pháp nêu 4.1 Chuẩn bị liệu Yêu cầu thu thập liệu: Dữ liệu sử dụng luận văn liệu thực tế mạng di động MobiFone biến đổi công bố luận văn nhằm đảm bảo tính bảo mật liệu Đối tượng: Thuê bao MobiFone lâu năm (kích hoạt/hòa mạng từ năm trở lên) không phát sinh cước tháng 8/2015 Khoảng thời gian thu thập liệu: thu thập liệu lịch sử thuê bao vòng tháng, từ tháng đến tháng 7/2015 Chi tiết liệu cần thu thập: 86 trường liệu chi tiết, gồm: (chi tiết Phụ lục đính kèm): Gói cước Thời gian kích hoạt Loại khách hàng (cá nhân/doanh nghiệp) Trạng thái thuê bao thời điểm xuất liệu Doanh thu tài khoản tài khoản khuyến mại (có chia dịch vụ thoại, sms, data, khác) tháng gần (tháng 5, 7) Số lượng, sản lượng gọi đến/đi, sms đến/đi tháng gần (tháng 5, 7) Số ngày cập nhật VLR, số ngày phát sinh cước tháng gần (tháng 5, 7) Số tiền nạp/số lần nạp thẻ tháng gần Số chương trình khuyến mại tham gia tháng gần Và số trường thông tin khác Dữ liệu sau làm lấy mẫu gồm gần triệu ghi với 86 trường liệu chi tiết Tiền xử lý liệu: Dữ liệu xử lý hệ thống MobiFone chuẩn hóa thông tin chi tiết sau: Loại bỏ ghi có thông tin thiếu Loại bỏ gọi bất thường Chuẩn hóa trường liệu theo định dạng quy định 4.2 Mô tả liệu thực nghiệm Bộ liệu tháng 8/2015, toàn mạng MobiFone có 1.622.229 thuê bao kích hoạt từ năm trở lên không phát sinh cước Trong đó, thuê bao khách hàng cá nhân chiếm đa số với 98% (tương đương 1.610.136 thuê bao) thuê bao khách hàng doanh nghiệp chiến 2% (12.093 thuê bao) Nhằm phân tích sâu tìm đặc điểm đặc trưng thuê bao trước rời mạng, nhóm chuyên gia MobiFone thực phân tập thuê bao không phát sinh cước tháng 8/2015 thành nhóm để phân tích, cụ thể: - Nhóm I: Thuê bao trả sau - Nhóm II: Thuê bao trả trước có tiêu dùng tài khoản (TKC) không đạt 3k3d_vlr tháng 7/2015 - Nhóm III: Thuê bao trả trước tiêu dùng tài khoản khuyến mại (TKKM) tháng 7/2015 - Nhóm IV: Thuê bao trả trước không phát sinh cước tháng 7/2015 - Nhóm V: Thuê bao trả trước có đạt chuẩn 3k3d_vlr tháng 7/2015 Thuê bao trả trước Loại TB Nhóm Thuê bao Fastconnect Thuê bao thường Số lượng TB Tỷ lệ Thuê bao trả sau Nhóm I Nhóm II Nhóm III Nhóm IV Đạt 3k3d_vlr tháng trước Nhóm V 17.244 3.096 2.690 14.578 2.154 39.762 34.821 161.527 219.993 1.067.414 105.703 1.589.458 52.065 3.20% 164,623 222.683 1.081.992 10.10% 13.67% 66.41% Bảng 4-1 Nhóm tiêu dùng 107.857 6.62% 1.629.220 100.00% Không đạt 3k3d_vlr tháng trước Tổng Tuy nhiên mục đích nghiên cứu ta tập trung vào thuê bao trả trước đồng thời qua phân tích liệu nhóm gồm nhóm có đặc trưng khác ta chia tiếp nhóm II thành nhóm nhỏ (nhóm – tiêu dùng TKC 3.000đ nhóm – tiêu dùng TKC từ 3.000đ trở lên) Từ liệu thực tế để ta lấy mẫu liệu để xử lý sau: Rời mạng Không rời mạng Lấy mẫu Số liệu có chạy Nhóm 20,000 93,962 136,000 Nhóm 10,000 67,565 68,000 Nhóm (nhóm III) 20,002 19,993 136,000 Nhóm (nhóm IV) 25,001 1,061,729 170,000 Nhóm (nhóm V) 20,000 105,703 136,000 95,003 1,548,952 646,000 Tổng Trong số liệu không rời mạng nhóm thuê bao có phát sinh cước tháng 4.3 Kết thực nghiệm theo phương pháp Nhóm Tổng 156,000 78,000 156,002 195,001 156,000 741,003 Kết phân tích nhóm liệu chuyên gia MobiFone tìm đặc điểm thuê bao trước rời mạng Sau áp dụng đặc trưng vào liệu kiểm nghiệm để đánh giá kết sau Như đề cập chương 1, phạm vi đề tài tập trung vào nhóm thuê bao trả trước mà không tập trung vào nhóm thuê bao trả sau Do vậy, phần này, tập trung vào việc sử dụng đặc điểm phân tích để dự báo cho thuê bao trả trước Cách thức thực sau: 10 - Bước 1: Sử dụng tập liệu thuê bao rời mạng tháng để thực phân tích đặc trưng thuê bao rời mạng theo nhóm thuê bao mô tả mục 4.2 - Bước 2: Dự báo thuê bao rời mạng tập liệu lấy mẫu để đánh giá kết dự báo - Bước 3: Đánh giá kết theo phương pháp đánh giá nêu chương 2, để lựa chọn đặc trưng tối ưu Sau đánh giá quay lại bước phân tích chưa kết tối ưu Việc thực bước nhiều lần với kiến thức chuyên gia lĩnh vực CSKH mạng MobiFone đưa kết tối ưu sau (chi tiết đặc trưng nêu lục lục 3): Nhóm 1: Kết phân lớp - Thực tế Rời mạng Không rời mạng Tổng Kết dự đoán Rời mạng Không rời mạng 16.706 3.294 8.461 127.539 25.167 130.833 Tổng 20.000 136.000 156.000 Nhóm 2: - Kết phân lớp (dự báo): Thực tế Rời mạng Không rời mạng Tổng Kết dự đoán Rời mạng Không rời mạng 9.530 470 2.375 65.625 11.905 66.095 Tổng 10.000 68.000 78.000 Nhóm 3: - Kết phân lớp (dự báo): Thực tế Rời mạng Không rời mạng Tổng Kết dự đoán Rời mạng Không rời mạng 19,047 955 913 135,087 19,960 136,042 Tổng 20,002 136,000 156,002 Nhóm 4: - Kết phân lớp (dự báo): Thực tế Rời mạng Không rời mạng Tổng Kết dự đoán Rời mạng Không rời mạng 22.724 3.953 2.218 167.782 24.942 171.735 Tổng 26.677 170.000 196.677 Nhóm 5: - Kết phân lớp (dự báo): Thực tế Rời mạng Không rời mạng Tổng Kết dự đoán Rời mạng Không rời mạng 9.861 10.139 23.559 112.441 33.420 122.580 11 Tổng 20.000 136.000 156.000 Tổng hợp kết dự báo liệu thực dựa vào đặc điểm đặc trưng thuê bao trước rời mạng sau: Tên độ đo Accuracy Error_Rate Recall Precision Nhóm 92,5% 7,5% 83,5% 66,4% Nhóm 96,4% 3,6% 80,1% 95,3% Nhóm 98,7% 1,3% 95,1% 95,1% Nhóm 96,9% 3,1% 91,1% 85,2% Nhóm 78,4% 21,6% 49,3% 29,5% Bảng 4-2 Tổng hợp kết phương pháp 4.4 Kết thực nghiệm dựa khai phá liệu 4.4.1 Kết thực nghiệm dựa giải pháp khai phá liệu Trong phần này, ta sử dụng tập liệu thuê bao chưa phân lớp (chưa xác định rời mạng hay không) làm đầu vào cho mô hình Sử dụng ứng dụng WEKA thuật toán định để thực nghiệm Lý sử dụng thuật toán định thuật toán có thời gian chạy liệu nhanh liệu cho kết cao so với phương pháp thực MobiFone nên phù hợp với yêu cầu MobiFone Tập liệu chạy trích xuất từ liệu thực tế mô tả mục 4.1 Trong tập liệu ta chia tập train (luyện tập) tập test (kiểm chứng) theo nguyên tắc sau: Tập luyện tập: Là tập chứa 66% số liệu liệu đầu vào Tập kiểm chứng: Là tập chứa 34% số liệu liệu đầu vào lại Thuật toán phân lớp: Cây định theo thuật toán C4.5 chương trình hóa mục phân lớp công cụ Weka J48 Kết chi tiết sau: a Nhóm Tập liệu chạy bao gồm 156.000 TB, đó: 20.000 TB rời mạng, 136.000 TB không rời mạng 12 b Nhóm 2: Tập liệu chạy bao gồm 156.000 TB, đó: 20.000 TB rời mạng, 136.000 TB không rời mạng c Nhóm 3: TB trả trước tiêu dùng TKKM tháng trước d Nhóm 13 e Nhóm 5: 14 f Tổng hợp kết đánh giá: Bảng tổng hợp đánh giá Tên độ đo Accuracy Error_Rate Recall Precision Thời gian xây dựng mô hình (giây) Nhóm 99.2% 0.8% 97.1% 96.4% Nhóm 99.6% 0.4% 98.9% 97.8% Nhóm 99.5% 0.5% 99.7% 99.7% Nhóm 99.6% 0.4% 99.6% 99.9% Nhóm 98.8% 1.2% 96.2% 94.9% 86 16 96 44 68 Bảng 4-3 Bảng tổng hợp kết theo giải pháp khai phá liệu 4.4.2 Kết thực nghiệm dựa khai phá liệu cải tiến Trong phần này, ta sử dụng tập liệu thuê bao chọn mẫu mục 4.1 để thực nghiệm Các bước trình thực nghiệm sau: Begin Trích chọn thuộc tính Áp dụng thuật toán quết định Đánh giá kết End Bước 1: o Chạy thuật toán để trích chọn đặc trưng thuộc tính Các thuật toán thực nghiệm gồm thuật toán nêu chương Qua thực nghiệm số liệu thực tế thuật toán GainRatioAttributeEval phù hợp với số liệu thực nghiệm Sau thực nghiệm theo thuật toán danh sách đánh theo thứ tự quan trọng thuộc tính ta tiếp tục phải tìm số lượng thuộc tính tối ưu 15 o Lựa chọn số thuộc tính trích chọn: Lựa chọn nhiều thuộc tính kết xác nhiên thời gian xây dựng mô hình lại lâu Để đảm bảo phù hợp với yêu cầu MobiFone xử lý liệu nhanh với độ xác chấp nhận nên ta phải lựa chọn số lượng thuộc tính vừa phải không làm giảm độ xác nhiều thời gian xây dựng mô hình nhanh Bước 2: Chạy kỹ thuật Cây định (Kỹ thuật J48 mô hình WEKA) để xây dựng mô hình phân lớp tập liệu sau trích chọn dự báo đánh giá mô hình xây dựng Nhóm 1: Tập Training: 156.000 TB, đó: 20.000 TB rời mạng, 136.000 TB không rời mạng Kết sau sếp lại trường liệu theo xếp hạng thuật toán GainRatioAttributeEval Kết cho thấy độ xác thuật toán tăng so với trước xếp Thời gian xây dựng mô hình giảm 3s so với liệu chưa xếp hạng Như có nhận xét thuật toán định bị ảnh hưởng thứ tự trường liệu đầu vào Lựa chọn số thuộc tính từ xếp hạng với 15 thuộc tính xếp hạng cao kết thuật toán C4.5 sau: 16 Đánh giá lựa chọn kết độ xác thuật toán tương đương so với liệu xếp hạng Thời gian chạy số liệu giảm từ 83s xuống 16s Nhóm 2: Tập liệu: 78.000 TB, đó: 10.000 TB rời mạng, 68.000 TB không rời mạng Kết sau thực nghiệm áp dụng thuật toán GainRatioAttributeEval trích chọn 10 trường liệu tối ưu sau: Hình 4-1 Kết nhóm weka 17 Thời gian dựng mô hình giảm độ xác giảm không đáng kể Nhóm 3: Tập liệu chạy: 156.000 TB, đó: 20.002 TB rời mạng, 136.000 TB không rời mạng Kết sau thực nghiệm áp dụng thuật toán trích chọn 12 thuộc tính: Nhóm 4: Tập Training: 195.000 TB, đó: 25.001 TB rời mạng, 170.000 TB không rời mạng Kết với 20 thuộc tính lựa chọn Hình Kết nhóm weka 18 Nhóm 5: Tập liệu: 156.000 TB, đó: 20.000 TB rời mạng, 136.000 TB không rời mạng Kết với trích chọn thuộc tính Hình Kết nhóm weka Đánh giá mô hình Từ kết kiểm nghiệm mục 3.3, ta tính toán độ xác dự đoán nhóm thuê bao dựa vào công thức đưa sau: Tên độ đo Accuracy Error_Rate Recall Precision Thời gian xây dựng mô hình (giây) Nhóm 99.2% 0.8% 96.5% 97.1% Nhóm 98.8% 1.2% 98.8% 94.1% Nhóm 98.8% 1.2% 99.3% 99.4% Nhóm 99.3% 0.7% 99.4% 99.8% Nhóm 98.9% 1.1% 96.6% 95.3% 16 7 Bảng 4-4 Tổng hợp độ xác giải pháp đề xuất 4.5 So sánh đánh giá kết Để đánh giá kết thực nghiệm ta so sánh độ xác (độ đo Accuracy) giải pháp thực sau: 19 Nhận xét: giải pháp MobiFone sử dụng có độ xác thấp nhất, nhóm độ xác nhỏ gần tương đương với độ xác giải pháp dùng thuật toán khai phá liệu, nhóm 1,2 độ xác thấp đáng kể so với giải pháp dùng khai phá liệu đặc biệt nhóm thấp nhiều (78,4% so với 98,8%) Qua việc so sánh độ xác giải pháp ta nhận thấy đặc trưng nhóm thuê bao nhóm 3,4 nhóm nhận định thuê bao rời mạng, nhóm nhận định nhóm mục tiêu để dự báo kết giải pháp MobiFone chưa cao giải pháp đề xuất cho kết cao Độ xác giải pháp đề xuất giải pháp đề xuất sau cải tiến tương đương Để đánh giá tiếp giải pháp trước sau cải tiến ta tiếp tục đánh giá thời gian xây dựng mô hình hai giải pháp kết biểu đồ dưới: Qua biểu đồ ta thấy rõ thời gian xây dựng mô hình giải pháp sau cải tiến nhiều so với giải pháp trước cải tiến Do giải pháp đề xuất cải tiến đạt mục tiêu đề ban đầu đưa giải pháp với độ gần tương đương (có thể giảm) nhiên thời gian xây dựng mô hình nhanh 4.6 Kết luận chương Chương trình bày kết thực nghiệm dựa phương pháp thực chương Qua thực nghiệm ta có nhận xét sau: Kết dùng thuật toán khai phá liệu cao so với phương pháp thực 20 KẾT LUẬN Từ việc nghiên cứu yêu cầu cấp thiết đặt công tác trì phát triển thuê bao mạng di động, luận văn đạt số kết sau đây: - Xây dựng mô hình dự báo áp dụng kỹ thuật khai phá liệu để phát nhanh xác thuê bao di động có khả rời mạng từ áp dụng giải pháp để trì thuê bao - Triển khai mô hình đề xuất, áp dụng liệu thực tế, so sánh với giải pháp sử dụng áp dụng Các kết đạt cho thấy tiềm áp dụng phương pháp đề xuất vào thực tiễn Trong thời gian tới nghiên cứu tích hợp kỹ thuật vào chương trình hỗ trợ kinh doanh MobiFone đồng thời cải tiến thời gian dự báo kết dự báo Trong thời gian tới tiếp tục cập nhật mô hình với liệu MobiFone để kết dự đoán cải thiện 21 TÀI LIỆU THAM KHẢO Tiếng Việt [1] [2] [3] Phan Xuân Hiếu (2013),Bài giảng môn học KPDL kho liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Bộ Thông tin Truyền thông (2014),Sách Trắng Công nghệ thông tin Truyền thông (CNTT-TT) Việt Nam 2014, Nhà xuất Thông tin Truyền thông, Hà nội Hà Quang Thụy (2010),Bài giảng môn học Kho liệu KPDL, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tiếng Anh [4] [5] [6] [7] [8] [9] [10] [11] Leo Breiman, Jerome Friedmen, and Charles J Stone (1984),Classification and Regression Trees, Wadsworth International Group M Chandar, Laha, A., & Krishna, P (2006),Modeling churn behavior of bank customers using predictive data mining techniques, National conference on soft computing techniques for engineering applications Jiawei Han and Micheline Kamber (2012),Data Mining Concepts and Techniques, Third Edition ed Elsevier Inc John Ross Quinlan (1993),C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers John Ross Quinlan, Induction of decision trees, in Machine Learning 1986 p 81-106 J Burez, & Van den Poel, D (2009), Handling class imbalance in customer churn prediction, Expert System with Applications,36, 4626-4636 S Olafsson, Li, X., & Wu, S (2008), Operations research and data mining, European Journal of Operational Research,187, 2592-1448 Weka - Data Mining with Open Source Machine Learning Software in Java Available from: http://www.cs.waikato.ac.nz/ml/weka/ 22 [...]... ra trong công tác duy trì và phát triển thuê bao của mạng di động, luận văn đã đạt được một số kết quả chính sau đây: - Xây dựng mô hình dự báo áp dụng kỹ thuật khai phá dữ liệu để phát hiện nhanh chính xác các thuê bao di động có khả năng rời mạng từ đó áp dụng các giải pháp để duy trì thuê bao - Triển khai mô hình đề xuất, áp dụng trên dữ liệu thực tế, so sánh với các giải pháp đã sử dụng được áp dụng. .. phương pháp dự báo đã trình bày trong chương 3, áp dụng vào số liệu thực tế bài toán: dự báo thuê bao di động rời mạng, luận văn trình bày các kết quả thực nghiệm đạt được trên các phương pháp đã nêu 4.1 Chuẩn bị dữ liệu Yêu cầu thu thập dữ liệu: Dữ liệu được sử dụng trong luận văn này là dữ liệu thực tế của mạng di động MobiFone đã được biến đổi khi công bố trong luận văn nhằm đảm bảo tính bảo mật của dữ. .. điểm đã phân tích để dự báo cho các thuê bao trả trước Cách thức thực hiện như sau: 10 - Bước 1: Sử dụng tập dữ liệu thuê bao rời mạng trong tháng 8 để thực hiện phân tích đặc trưng của các thuê bao rời mạng theo từng nhóm thuê bao đã mô tả tại mục 4.2 - Bước 2: Dự báo thuê bao rời mạng trên 1 tập dữ liệu lấy mẫu để đánh giá kết quả dự báo - Bước 3: Đánh giá kết quả theo phương pháp đánh giá đã nêu tại... quả của phương pháp hiện tại 4.4 Kết quả thực nghiệm dựa trên khai phá dữ liệu 4.4.1 Kết quả thực nghiệm dựa trên giải pháp khai phá dữ liệu Trong phần này, ta sẽ sử dụng tập dữ liệu thuê bao chưa được phân lớp (chưa được xác định là rời mạng hay không) làm đầu vào cho mô hình Sử dụng ứng dụng WEKA và thuật toán cây quyết định để thực nghiệm Lý do sử dụng thuật toán cây quyết định vì đây thuật toán có... (dự báo) : Thực tế Rời mạng Không rời mạng Tổng Kết quả dự đoán Rời mạng Không rời mạng 19,047 955 913 135,087 19,960 136,042 Tổng 20,002 136,000 156,002 Nhóm 4: - Kết quả phân lớp (dự báo) : Thực tế Rời mạng Không rời mạng Tổng Kết quả dự đoán Rời mạng Không rời mạng 22.724 3.953 2.218 167.782 24.942 171.735 Tổng 26.677 170.000 196.677 Nhóm 5: - Kết quả phân lớp (dự báo) : Thực tế Rời mạng Không rời mạng. .. các giải pháp dùng khai phá dữ liệu đặc biệt nhóm 5 thấp hơn rất nhiều (78,4% so với 98,8%) Qua việc so sánh độ chính xác của các giải pháp ta nhận thấy được các đặc trưng của các nhóm thuê bao trong đó các nhóm 3,4 là các nhóm đã được nhận định là các thuê bao rời mạng, nhóm 5 nhận định là nhóm mục tiêu chính để dự báo thì kết quả giải pháp hiện tại của MobiFone chưa cao trong khi đó giải pháp đề xuất... 34% số liệu của bộ dữ liệu đầu vào còn lại Thuật toán phân lớp: Cây quyết định theo thuật toán C4.5 được chương trình hóa trong mục phân lớp trên công cụ Weka là J48 Kết quả chi tiết như sau: a Nhóm 1 Tập dữ liệu chạy bao gồm 156.000 TB, trong đó: 20.000 TB rời mạng, 136.000 TB không rời mạng 12 b Nhóm 2: Tập dữ liệu chạy bao gồm 156.000 TB, trong đó: 20.000 TB rời mạng, 136.000 TB không rời mạng c... vực CSKH của mạng MobiFone đã đưa ra kết quả tối ưu như sau (chi tiết các đặc trưng được nêu tại lục lục 3): Nhóm 1: Kết quả phân lớp - Thực tế Rời mạng Không rời mạng Tổng Kết quả dự đoán Rời mạng Không rời mạng 16.706 3.294 8.461 127.539 25.167 130.833 Tổng 20.000 136.000 156.000 Nhóm 2: - Kết quả phân lớp (dự báo) : Thực tế Rời mạng Không rời mạng Tổng Kết quả dự đoán Rời mạng Không rời mạng 9.530... định 4.2 Mô tả dữ liệu thực nghiệm Bộ dữ liệu tháng 8/2015, toàn mạng MobiFone có 1.622.229 thuê bao kích hoạt từ 2 năm trở lên và không phát sinh cước Trong đó, thuê bao khách hàng cá nhân chiếm đa số với 98% (tương đương 1.610.136 thuê bao) và thuê bao khách hàng doanh nghiệp chiến 2% (12.093 thuê bao) Nhằm phân tích sâu hơn và tìm ra những đặc điểm đặc trưng của thuê bao trước khi rời mạng, nhóm chuyên... tập thuê bao không phát sinh cước trong tháng 8/2015 thành 5 nhóm để phân tích, cụ thể: - Nhóm I: Thuê bao trả sau - Nhóm II: Thuê bao trả trước có tiêu dùng tài khoản chính (TKC) nhưng không đạt 3k3d_vlr trong tháng 7/2015 - Nhóm III: Thuê bao trả trước chỉ tiêu dùng tài khoản khuyến mại (TKKM) trong tháng 7/2015 - Nhóm IV: Thuê bao trả trước không phát sinh cước trong tháng 7/2015 - Nhóm V: Thuê bao