Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
906,42 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN NGUYỄN NHƯ TOÀN NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KHÁCH HÀNG TIỀM NĂNG TRONG TẬP KHÁCH HÀNG HIỆN HỮU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG – 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN NGUYỄN NHƯ TOÀN NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KHÁCH HÀNG TIỀM NĂNG TRONG TẬP KHÁCH HÀNG HIỆN HỮU Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Lê Nguyên Bảo PGS TS Nguyễn Gia Như ĐÀ NẴNG – 2022 i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Lê Nguyên Bảo, Hiệu trưởng Đại học Duy Tân, PGS.TS Nguyễn Gia Như, Hiệu trưởng Trường Đại học Khoa Học Máy Tính - Đại học Duy Tân, những người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu Hai thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn Tôi xin chân thành cảm ơn các thầy, cô ở Trường Khoa Học Máy Tính - Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi Tôi xin chân thành cảm ơn! Đà Nẵng, ngày tháng năm 2022 Học viên Nguyễn Như Toàn ii LỜI CAM ĐOAN Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS Lê Nguyên Bảo và PGS.TS Nguyễn Gia Như, Đại học Duy Tân Các kết quả nêu trong luận văn là trung thực và chưa được ai công bố trong bất cứ công trình nào khác Đà Nẵng, ngày tháng năm 2022 Học viên Nguyễn Như Toàn iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC .iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU 1 Chương I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4 1.1 Khai phá dữ liệu 4 1.1.1 Khái niệm khai phá dữ liệu 4 1.1.2 Những nhóm bài toán của khai phá dữ liệu 6 1.1.3 Các bước xây dựng một giải pháp về KPDL 8 1.1.4 Kiến trúc của một hệ thống khai phá dữ liệu 8 1.2 Ứng dụng khai phá dữ liệu trong viễn thông 9 1.3 Kết luận chương 1 11 Chương 2 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÂN LỚP, DỰ BÁO .12 2.1 Cây quyết định 12 2.1.1 Thuật toán ID3 14 2.1.2 Thuật toán C4.5 15 2.2 Phân lớp Naïve Bayes 17 2.3 Mạng nơ ron nhân tạo 18 2.4 Luật kết hợp 20 2.5 Kết luận chương 2 23 Chương 3: GIẢI PHÁP PHÁT HIỆN KHÁCH HÀNG TIỀM NĂNG TRONG TẬP KHÁCH HÀNG HIỆN HỮU .24 3.1 Giới thiệu về VNPT Quảng Trị 24 iv 3.2 Giới thiệu khái niệm khách hàng, thuê bao, dịch vụ 25 3.3 Phát biểu bài toán .27 3.4 Giải pháp đề xuất 28 3.4.1 Hiện trạng 28 3.4.2 Giải pháp đề xuất dùng kỹ thuật khai phá dữ liệu .29 3.4.3 Giới thiệu về công cụ Weka 33 3.5 Thực nghiệm và xây dựng tập luật dự đoán .34 3.5.1 Tập hợp dữ liệu đầu vào 34 3.5.2 Trích chọn thuộc tính 38 3.5.3 Khai phá dữ liệu 42 3.6 Xây dựng ứng dụng Tìm kiếm khách hàng tiềm năng .45 3.6.1 Mục tiêu thực hiện .45 3.6.2 Xây dựng chương trình 45 3.6.3 Đánh giá kết quả 55 3.7 Kết luận chương 3 55 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KPDL Khai phá dữ liệu CSDL Cơ sở dữ liệu OLAP Online analytical processing VNPT Vietnam Posts and Telecommunications Group vi DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 - Số liệu khách hàng từ chối dịch vụ Bảng 3.2 - Số lượng bản ghi dữ liệu sau khi làm sạch Bảng 3.3 - Cấu trúc dữ liệu khách hàng Bảng 3.4 - Các trường dữ liệu sau khi trích chọn Bảng 3.5 - Số lượng bản ghi tập dữ liệu Bảng 3.6 - Cấu trúc dữ liệu bảng khách hàng Bảng 3.7 - Cấu trúc dữ liệu bảng thuê bao vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 - Quá trình khai phá dữ liệu Hình 1.2 - Kiến trúc một hệ thống khai phá dữ liệu Hình 2.1 - Biểu diễn cây quyết định cơ bản Hình 2.2 - Cây quyết định cho việc chơi thể thao Hình 2.3 - Mô hình mạng nơ ron nhiều lớp Hình 2.4 - Tiến trình học Hình 3.1 - Mô hình khai thác dữ liệu thô sơ Hình 3.2 - Mô hình khai phá dữ liệu cải tiến Hình 3.3 - Giao diện công cụ Weka Hình 3.4 - Giao diện chức năng Tra cứu thông tin khách hàng Hình 3.5 - Giao diện chức năng Thông tin chi tiết khách hàng Hình 3.6 - Giao diện chức năng Xuất danh sách khách hàng tiềm năng 1 MỞ ĐẦU 1 Lý do chọn đề tài Đối với doanh nghiệp, có thể nói khách hàng là yếu tố sống - còn, doanh nghiệp muốn tồn tại và phát triển bền vững cần phải có khách hàng, cần duy trì, phát triển khách hàng VNPT Quảng Trị cũng không nằm ngoài quy luật đó, là doanh nghiệp cung cấp các sản phẩm dịch vụ về viễn thông, công nghệ thông tin, VNPT Quảng Trị luôn phải tìm mọi cách để phát triển các khách hàng mới, đồng thời, phải tận dụng tối đa các khách hàng hiện hữu để bán thêm nhiều sản phẩm, dịch vụ cho khách hàng Với kho dữ liệu khách hàng rất lớn của VNPT Quảng Trị, yêu cầu đặt ra là cần phải khai thác có hiệu quả tập dữ liệu khách hàng này để phục vụ tối đa cho công tác bán hàng của VNPT Quảng Trị Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tôi đã thực hiện đề tài luận văn “Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng xây dựng hệ thống đánh giá khách hàng tiềm năng trong tập khách hàng hiện hữu” 2 Mục tiêu và nhiệm vụ nghiên cứu Mục tiêu của đề tài là đi sâu vào nghiên cứu các kỹ thuật khai phá dữ liệu, áp dụng các kỹ thuật đó để khai phá dữ liệu hành vi sử dụng của các khách hàng hiện hữu từ đó dự báo các khách hàng tiềm năng có thể sử dụng thêm nhiều dịch vụ của doanh nghiệp 3 Đối tượng và phạm vi đề tài Đối tượng nghiên cứu của đề tài là: Các nội dung tổng quan về khai phá dữ liệu, các kỹ thuật khai phá dữ liệu, đặc trưng của bài toán tìm kiếm các khách hàng tiềm năng trong tập khách hàng hiện hữu của VNPT Quảng Trị Do số lượng các dịch vụ của VNPT Quảng Trị hiện đang cung cấp là rất nhiều, mỗi dịch vụ lại có các đặc điểm, yêu cầu khác nhau, dẫn đến quy mô