ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGĐẠIHỌCNGHỆTHÁITHÔNGNGUYÊNTI VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP[.]
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGĐẠIHỌCNGHỆTHÁITHÔNGNGUYÊNTI VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO VÀ ỨNG DỤNG TRONG BÀI TỐNDỰ BÁOTH BAO RỜI MẠNG VIỄN THƠNG RỜI MẠNG VIỄN THƠNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên -2016 Thái Nguyên - 2016 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGĐẠIHỌCNGHỆTHÁITHÔNGNGUYÊNTI VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊNCỨUCÁCPHƢƠNGPHÁPPHÂNLỚPDỮLIỆU VÀVÀỨNGỨNGDỤNGDỤNGTRONGTRONGBÀIBÀITỐNTỐNDỰBÁOBÁOTHBAO RỜIMẠNGVIỄNTHƠNG Chun ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC:TS.NGUYỄN LONG GIANG NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN LONG GIANG Thái Nguyên -2016 Thái Nguyên - 2016 i LỜI CAM ĐOAN Tên là: Nguyễn Nhƣ Thế Sinh ngày: 12/12/1989 Học viên lớp cao học: CHK13E - Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Hiện công tác tại: Sở Thông tin Truyền thông tỉnh Phú Thọ Xin cam đoan: Đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng toán dự báo thuê bao rời mạng viễn thông” Thầy giáo TS Nguyễn Long Giang hƣớng dẫn cơng trình nghiên cứu riêng tơi Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nhƣ nội dung đề cƣơng yêu cầu thầy giáo hƣớng dẫn Nếu sai tơi hồn tồn chịu trách nhiệm trƣớc hội đồng khoa học trƣớc pháp luật Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, đƣợc động viên, giúp đỡ hƣớng dẫn tận tình Thầy giáo hƣớng dẫn TS Nguyễn Long Giang, luận văn với đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng toán dự báo thuê bao rời mạng viễn thơng”đã hồn thành Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hƣớng dẫn TS Nguyễn Long Giang tận tình dẫn, giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến thầy Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên giúp đỡ trình học tập nhƣ thực luận văn Tơi xin cảm ơn Chi nhánh Mobifone Phú Thọ nhiệt tình giúp đỡ, cung cấp thơng tin q trình nghiên cứu, thực nghiệm chƣơng trình luận văn Tơi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai phá liệu .3 1.1.1 Tại cần khai phá liệu .3 1.1.2 Các khái niệm .3 1.1.3 Quy trình khai phá liệu .5 1.1.4 Các toán khai phá liệu 1.1.5 Các ứng dụng khai phá liệu 1.1.6 Quy trình xây dựng mơ hình khai phá liệu 1.2.Bài toán phân lớp dự báo 10 1.2.1 Giới thiệu toán 10 1.2.2 Các bƣớc giải toán 11 Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 12 2.1 Phân lớp phƣơng pháp quy nạp định 12 2.2 Phân lớp phƣơng pháp Bayesian 15 2.3 Support Vector Machine (SVM) 16 2.3.1 Phân tách tuyến tính với lề cực đại 16 2.3.1.1 Tìm kiếm siêu phẳng với lề cực đại 21 2.3.1.2 Hàm phân loại tuyến tính với lề mềm cực đại 22 2.3.1.3 Lý thuyết tối ƣu Lagrangian 23 2.3.1.4 Tìm kiếm siêu phẳng với lề cực đại 25 2.3.2 Phƣơng pháp hàm nhân (kernel methods) 28 2.3.2.1 Chiều VC khả phân tách hàm tuyến tính 29 2.3.2.2 Hàm nhân SVM phi tuyến (Kernel function and nonlinear SVMs) 30 iv 2.4 Phân lớp mạng lan truyền ngƣợc (mạng Nơron) 33 Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG VIỄN THÔNG 37 3.1 Bài toán phân lớp liệu thuê bao rời mạng 37 3.1.1 Phát biểu toán 37 3.1.2 Khái niệm thuê bao rời mạng “churn” 38 3.1.3 Thu thập, chuẩn hóa liệu 39 3.1.4 Lựa chọn thuộc tính 42 3.2 Lựa chọn phƣơng pháp, công cụ 45 3.2.1 Ngôn ngữ R 45 3.2.2 Phƣơng pháp phân lớp 47 3.2.3 Đánh giá hiệu 48 3.3 Thực nghiệm phân lớp ngôn ngữ R 50 3.3.1 Phân lớp liệu sử dụng định C4.5 51 3.3.2 Phân lớp liệu sử dụng phƣơng pháp Naive Bayes 53 3.3.3 Phân lớp liệu Support Vector Machines 55 3.3 Đánh giá kết 56 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 60 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Thuật ngữ Định nghĩa KPDL Khai phá liệu KDD Knowledge Discovery and Data Mining NB Naïve Bayes SVM Support vector machine NN Neural Networks vi DANH MỤC HÌNH ẢNH Hình 1.1- Các bƣớc khai phá liệu Hình 1.2 - Quy trình xây dựng mơ hình khai phá liệu Hình 2.1 - Ví dụ định 12 Hình 2.2 - Về mặt trực quan hàm tuyến tính siêu phẳng với lề lớn trơng hợp lý 19 Hình 2.3 - Ví dụ tốn phân loại khơng gian hai chiều 19 Hình 2.4 - Ba điểm mặt phẳng bị chia tách đƣờng thẳng có hƣớng 28 Hình 2.5 - Mạng nơ-ron truyền thẳng nhiều lớp 34 Hình 3.1 - Mơ hình quan hệ bảng liệu 40 Hình 3.2 - Các giai đoạn mơ hình dự đốn th bao rời mạng 42 Hình 3.3 - Lựa chọn thuộc tính phân lớp liệu 44 Hình 3.4 - Số lƣợng thuộc tính đƣợc thu thập 44 Hình 3.5 – Giao diện làm việc ngôn ngữ R 47 Hình 3.6 – Quy trình thực nghiệm tốn phân lớp liệu th bao rời mạng 50 Hình 3.7- mơ hình phân lớp định 52 Hình 3.8 - Chi tiết nút nhánh thứ 15 phân lớp định 52 Hình 3.9 - Kết phân lớp liệu SVM 55 Hình 3.10 – Hiệu thuật tốn với lớp thuê bao rời mạng 57 vii DANH MỤC BẢNG BIỂU Bảng - Ma trận nhầm lẫn 49 Bảng – Kết mơ hình phân lớp sử dụng C 4.5 53 Bảng – Độ đo hiệu thuật toán Cây định 53 Bảng – Kết mơ hình phân lớp sử dụng NB 54 Bảng – Độ đo hiệu thuật toán NB 54 Bảng – Kết mơ hình phân lớp sử dụng SVM 55 Bảng – Độ đo hiệu thuật toán SVM 56 Bảng – Tổng hợp đánh giá hiệu phƣơng pháp phân lớp 56 MỞ ĐẦU Sự bùng nổ phát triển ngành công nghệ thông tin làm lƣợng liệu đƣợc thu thập lƣu trữ hệ thống thông tin tăng lên cách nhanh chóng Trƣớc tình hình đó, việc khai thác chọn lọc liệu có ích, tiền ẩn từ lƣợng liệu khổng lồ cần thiết Các tri thức trích lọc từ liệu giúp quan, tổ chức đƣa dự báo điều hành hiệu Khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) lĩnh vực quan trọng ngành Cơng nghệ thơng tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chƣa đƣợc biết trƣớc sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Phân lớp (classification) toán khai phá liệu với mục tiêu phân loại đối tƣợng vào lớp cho trƣớc Theo tiếp cận học máy, phân lớp phƣơng pháp học có giám sát với hai giai đoạn: Giai đoạn xây dựng mô hình phân lớp dựa tập liệu huấn luyện có đầu vào đầu mong muốn (gọi nhãn lớp); Giai đoạn sử dụng mơ hình phân lớp để phân loại tập liệu chƣa có nhãn lớp vào lớp cho có ứng dụng nhiều toán dự báo thực tế Phân lớp đƣợc sử dụng rộng rãi toán thực tiễn nhƣ y tế, ngân hàng, viễn thơng, kinh tế, tài Ngày nay, với phát triển mạnh mẽ thị trƣờng viễn thông đời nhiều nhà cung cấp kinh doanh dịch vụ mạng viễn thông Thị trƣờng viễn thơng vào giai đoạn bão hịa, khách hàng có nhiều lựa chọn, dẫn đến họ thay đổi sử dụng dịch vụ nào, kết số