Nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​

97 9 0
Nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGĐẠIHỌCNGHỆTHÁITHÔNGNGUYÊNTI VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO VÀ ỨNG DỤNG TRONG BÀI TỐNDỰ BÁOTH BAO RỜI MẠNG VIỄN THƠNG RỜI MẠNG VIỄN THƠNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên -2016 Thái Nguyên - 2016 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGĐẠIHỌCNGHỆTHÁITHÔNGNGUYÊNTI VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊNCỨUCÁCPHƢƠNGPHÁPPHÂNLỚPDỮLIỆU VÀVÀỨNGỨNGDỤNGDỤNGTRONGTRONGBÀIBÀITỐNTỐNDỰBÁOBÁOTHBAO RỜIMẠNGVIỄNTHƠNG Chun ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC:TS.NGUYỄN LONG GIANG NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN LONG GIANG Thái Nguyên -2016 Thái Nguyên - 2016 i LỜI CAM ĐOAN Tên là: Nguyễn Nhƣ Thế Sinh ngày: 12/12/1989 Học viên lớp cao học: CHK13E - Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Hiện công tác tại: Sở Thông tin Truyền thông tỉnh Phú Thọ Xin cam đoan: Đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng toán dự báo thuê bao rời mạng viễn thông” Thầy giáo TS Nguyễn Long Giang hƣớng dẫn cơng trình nghiên cứu riêng tơi Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nhƣ nội dung đề cƣơng yêu cầu thầy giáo hƣớng dẫn Nếu sai tơi hồn tồn chịu trách nhiệm trƣớc hội đồng khoa học trƣớc pháp luật Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, đƣợc động viên, giúp đỡ hƣớng dẫn tận tình Thầy giáo hƣớng dẫn TS Nguyễn Long Giang, luận văn với đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng toán dự báo thuê bao rời mạng viễn thơng”đã hồn thành Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hƣớng dẫn TS Nguyễn Long Giang tận tình dẫn, giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến thầy Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên giúp đỡ trình học tập nhƣ thực luận văn Tơi xin cảm ơn Chi nhánh Mobifone Phú Thọ nhiệt tình giúp đỡ, cung cấp thơng tin q trình nghiên cứu, thực nghiệm chƣơng trình luận văn Tơi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai phá liệu 1.1.1 Tại cần khai phá liệu 1.1.2 Các khái niệm 1.1.3 Quy trình khai phá liệu 1.1.4 Các toán khai phá liệu .6 1.1.5 Các ứng dụng khai phá liệu 1.1.6 Quy trình xây dựng mơ hình khai phá liệu 1.2.Bài toán phân lớp dự báo 10 1.2.1 Giới thiệu toán 10 1.2.2 Các bƣớc giải toán 11 Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 12 2.1 Phân lớp phƣơng pháp quy nạp định 12 2.2 Phân lớp phƣơng pháp Bayesian 15 2.3 Support Vector Machine (SVM) 16 2.3.1 Phân tách tuyến tính với lề cực đại 16 2.3.1.1 Tìm kiếm siêu phẳng với lề cực đại 21 2.3.1.2 Hàm phân loại tuyến tính với lề mềm cực đại 22 2.3.1.3 Lý thuyết tối ƣu Lagrangian 23 2.3.1.4 Tìm kiếm siêu phẳng với lề cực đại 25 2.3.2 Phƣơng pháp hàm nhân (kernel methods) 28 2.3.2.1 Chiều VC khả phân tách hàm tuyến tính 29 2.3.2.2 Hàm nhân SVM phi tuyến (Kernel function and nonlinear SVMs) 30 iv 2.4 Phân lớp mạng lan truyền ngƣợc (mạng Nơron) 33 Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG VIỄN THÔNG 37 3.1 Bài toán phân lớp liệu thuê bao rời mạng 37 3.1.1 Phát biểu toán 37 3.1.2 Khái niệm thuê bao rời mạng “churn” 38 3.1.3 Thu thập, chuẩn hóa liệu 39 3.1.4 Lựa chọn thuộc tính 42 3.2 Lựa chọn phƣơng pháp, công cụ 45 3.2.1 Ngôn ngữ R 45 3.2.2 Phƣơng pháp phân lớp 47 3.2.3 Đánh giá hiệu 48 3.3 Thực nghiệm phân lớp ngôn ngữ R 50 3.3.1 Phân lớp liệu sử dụng định C4.5 51 3.3.2 Phân lớp liệu sử dụng phƣơng pháp Naive Bayes 53 3.3.3 Phân lớp liệu Support Vector Machines 55 3.3 Đánh giá kết 56 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 60 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Thuật ngữ KPDL KDD NB SVM NN vi DANH MỤC HÌNH ẢNH Hình 1.1- Các bƣớc khai phá liệu .6 Hình 1.2 - Quy trình xây dựng mơ hình khai phá liệu Hình 2.1 - Ví dụ định 12 Hình 2.2 - Về mặt trực quan hàm tuyến tính siêu phẳng với lề lớn trơng hợp lý 19 Hình 2.3 - Ví dụ tốn phân loại không gian hai chiều 19 Hình 2.4 - Ba điểm mặt phẳng bị chia tách đƣờng thẳng có hƣớng 28 Hình 2.5 - Mạng nơ-ron truyền thẳng nhiều lớp 34 Hình 3.1 - Mơ hình quan hệ bảng liệu 40 Hình 3.2 - Các giai đoạn mơ hình dự đốn th bao rời mạng 42 Hình 3.3 - Lựa chọn thuộc tính phân lớp liệu 44 Hình 3.4 - Số lƣợng thuộc tính đƣợc thu thập 44 Hình 3.5 – Giao diện làm việc ngôn ngữ R 47 Hình 3.6 – Quy trình thực nghiệm tốn phân lớp liệu thuê bao rời mạng 50 Hình 3.7- mơ hình phân lớp định 52 Hình 3.8 - Chi tiết nút nhánh thứ 15 phân lớp định 52 Hình 3.9 - Kết phân lớp liệu SVM 55 Hình 3.10 – Hiệu thuật toán với lớp thuê bao rời mạng 57 vii DANH MỤC BẢNG BIỂU Bảng - Ma trận nhầm lẫn 49 Bảng – Kết mơ hình phân lớp sử dụng C 4.5 53 Bảng – Độ đo hiệu thuật toán Cây định 53 Bảng – Kết mơ hình phân lớp sử dụng NB 54 Bảng – Độ đo hiệu thuật toán NB 54 Bảng – Kết mơ hình phân lớp sử dụng SVM 55 Bảng – Độ đo hiệu thuật toán SVM 56 Bảng – Tổng hợp đánh giá hiệu phƣơng pháp phân lớp 56 MỞ ĐẦU Sự bùng nổ phát triển ngành công nghệ thông tin làm lƣợng liệu đƣợc thu thập lƣu trữ hệ thống thông tin tăng lên cách nhanh chóng Trƣớc tình hình đó, việc khai thác chọn lọc liệu có ích, tiền ẩn từ lƣợng liệu khổng lồ cần thiết Các tri thức trích lọc từ liệu giúp quan, tổ chức đƣa dự báo điều hành hiệu Khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) lĩnh vực quan trọng ngành Cơng nghệ thơng tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chƣa đƣợc biết trƣớc sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Phân lớp (classification) toán khai phá liệu với mục tiêu phân loại đối tƣợng vào lớp cho trƣớc Theo tiếp cận học máy, phân lớp phƣơng pháp học có giám sát với hai giai đoạn: Giai đoạn xây dựng mơ hình phân lớp dựa tập liệu huấn luyện có đầu vào đầu mong muốn (gọi nhãn lớp); Giai đoạn sử dụng mô hình phân lớp để phân loại tập liệu chƣa có nhãn lớp vào lớp cho có ứng dụng nhiều tốn dự báo thực tế Phân lớp đƣợc sử dụng rộng rãi toán thực tiễn nhƣ y tế, ngân hàng, viễn thơng, kinh tế, tài Ngày nay, với phát triển mạnh mẽ thị trƣờng viễn thông đời nhiều nhà cung cấp kinh doanh dịch vụ mạng viễn thông Thị trƣờng viễn thơng vào giai đoạn bão hịa, khách hàng có nhiều lựa chọn, dẫn đến họ thay đổi sử dụng dịch vụ nào, kết số 53 VOI_OUTNET_MAXM 69 54 55 56 57 58 59 60 61 62 63 64 VOI_OUTET_FREQ_MAXM VOI_ABROAD_MAXM VOI_ABROAD_FREQ_MAXM VOI_INNET_MINM VOI_INNET_FREQ_MINM VOI_OUTNET_MINM VOI_OUTET_FREQ_MINM VOI_ABROAD_MINM VOI_ABROAD_FREQ_MINM SMS_MAXM SMS_MINM 65 66 67 DATA_MAXM DATA_MINM VOI_MAXM 70 68 69 70 71 72 73 74 75 VOI_FREQ_MAXM VOI_MINM VOI_FREQ_MINM TCHARGE_INNET_RATIO1 TCHARGE_OUTNET_RATIO1 TCHARGE_ABROAD_RATIO1 TCHARGE_SMS_RATIO1 TCHARGE_DATA_RATIO1 76 TCHARGE_INNET_RATIO2 71 77 78 79 80 81 82 83 84 TCHARGE_OUTNET_RATIO2 TCHARGE_ABROAD_RATIO2 TCHARGE_SMS_RATIO2 TCHARGE_DATA_RATIO2 TCHARGE_INNET_RATIO3 TCHARGE_OUTNET_RATIO3 TCHARGE_ABROAD_RATIO3 TCHARGE_SMS_RATIO3 72 85 86 87 88 89 90 91 92 93 94 TCHARGE_DATA_RATIO3 TCHARGE_INNET_MAXM TCHARGE_OUTNET_MAXM TCHARGE_ABROAD_MAXM TCHARGE_SMS_MAXM TCHARGE_DATA_MAXM TCHARGE_INNET_MINM TCHARGE_OUTNET_MINM TCHARGE_ABROAD_MINM TCHARGE_SMS_MINM 95 96 97 TCHARGE_DATA_MINM TCHARGE_MAXM TCHARGE_MINM 73 98 99 PROMO_MAXM PROMO_MINM 100 BILL_MAXM 101 BILL_MINM 74 PHỤ LỤC Danh sách thuộc tính đƣợc lựa chọn TT Thuộc tính VOI_OUTNET_RATIO1 NUM_DATEACTIVE SMS_RA2 TYPE_ID SMS_RA1 TCHARGE_DATA_RATIO3 VOI_ABROAD_RATIO1 TCHARGE_DATA_RATIO2 75 10 11 12 13 14 15 VOI_INNET_RA1 VOI_INNET_FREQ_RA1 VOI_OUTNET_RA3 TCHARGE_DATA_RATIO1 TCHARGE_ABROAD_RATIO2 TCHARGE_RATIO1 DATA_MINM 16 TCHARGE_INNET_RATIO2 76 17 18 19 20 TCHARGE_INNET_MINM TCHARGE_SMS_RATIO1 TCHARGE_DATA_MINM PROMO_MINM ... tin từ liệu vào 37 Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG Chƣơng giới thiệu toán phân lớp liệu thuê bao rời mạng Quy trình thực nghiệm phân lớp liệu thuê bao rời mạng với... VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊNCỨUCÁCPHƢƠNGPHÁPPHÂNLỚPDỮLIỆU VÀV? ?ỨNG? ??NGDỤNGDỤNGTRONGTRONGBÀIBÀITỐNTỐNDỰBÁOBÁOTHBAO RỜIMẠNGVIỄNTHƠNG... phân lớp liệu thuê bao rời mạng 3.1.1 Phát biểu toán Đầu vào: - Dữ liệu quản lý khách hàng khách hàng thuê bao - Dữ liệu chi tiết sử dụng dịch vụ thuê bao - Dữ liệu hóa đơn thuê bao - Dữ liệu

Ngày đăng: 08/06/2021, 12:51

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan