Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
390,5 KB
Nội dung
Header Page of 126 -1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN MINH TÂN ỨNG DỤNG KHAI PHÁ DỮ LIỆU DỰ ĐOÁN KHÁCH HÀNG RỜI MẠNG VIỄN THÔNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 Footer Page of 126 Header Page of 126 -2- Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Phản biện 1: Phản biện 2: Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày tháng năm 2011 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 -3- MỞ ĐẦU Lý chọn ñề tài Với bùng nổ phát triển công nghệ thông tin ñã mang lại nhiều hiệu ñối với khoa học hoạt ñộng thực tế, ñó khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu ñã giúp người sử dụng thu ñược tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Cơ sở liệu ñơn vị, tổ chức kinh doanh, quản lý khoa học chứa ñựng nhiều thông tin tiềm ẩn, phong phú ña dạng, ñòi hỏi phải có phương pháp nhanh, phù hợp, xác, hiệu ñể lấy ñược thông tin bổ ích Những “ tri thức ” chiết suất từ nguồn sở liệu nguồn thông tin hỗ trợ cho lãnh ñạo việc lên kế hoạch hoạt ñộng việc ñịnh sản xuất kinh doanh Tiến hành công việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database) mà ñó kỹ thuật khai phá liệu (Data Mining) cho phép phát tri thức tiềm ẩn Để lấy ñược thông tin mang tính tri thức khối liệu khổng lồ, cần thiết phải phát triển kỹ thuật có khả tích hợp liệu từ hệ thống giao dịch khác nhau, chuyển chúng thành tập hợp sở liệu ổn ñịnh có chất lượng Một nội dung khai phá liệu phổ biến kỹ thuật gom cụm Phương pháp nhằm tìm tập thuộc tính thường xuất ñồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn ñến xuất (hoặc tập) thuộc tính khác nào.Ứng dụng Footer Page of 126 Header Page of 126 -4- khai phá liệu ñã mang lại lợi ích to lớn việc tổng hợp cung cấp thông tin nguồn sở liệu lớn EVNTelecom nhà cung cấp dịch vụ viễn thông thị trường Việt Nam Chính thức cung cấp dịch vụ viễn thông công cộng từ cuối năm 2005, ñến cuối năm 2007 ñã phát triển ñược hai triệu khách hàng Đến tháng năm 2008, số lượng khách hàng phát ñược số bốn triệu Tuy nhiên tình hình trở nên xấu ñi nhà cung cấp ạt khuyến có nhiều ñợt ñại hạ giá Kết có nhiều khách hàng rời mạng chuyển sang sử dụng dịch vụ nhà cung cấp khác, doanh thu ngày giảm, khó thu hồi vốn ñầu tư Để phát triển ñược khách hàng, EVNTelecom phải ñầu tư gần ba triệu ñồng bao gồm chi phí phát triển khách hàng, ñầu tư hệ thống thiết bị ñầu cuối Trong ñó ARPU 80.000 ñồng vòng ñời trung bình khách hành 20 tháng Như khách hàng rời mạng ñi 1.4 triệu ñồng Con số thiệt hại lớn có hàng trăm ngàn khách hàng rời mạng năm Trong bối cảnh ñó ñồng thời ñược ñồng ý Thầy PGS.TS Võ Trung Hùng, tác giả chọn ñề tài “Ứng dụng khai phá liệu dự ñoán khách hàng rời mạng viễn thông” cho luận văn tốt nghiệp Bài toán tập trung tìm phương pháp sử dụng công cụ khai phá liệu ñể dự ñoán ñược khách hàng nguy rời mạng cao ñể có biện pháp giữ khách hàng lại Việc triển khai toán có ý nghĩa thời cao, ñối với EVNTelecom hoàn cảnh Mục tiêu ñề tài Mục tiêu ñề tài nghiên cứu ứng dụng kỹ thuật khai phá liệu công tác dự báo khách hàng rời mạng Dựa kho liệu tích luỹ năm gần ñây ñể làm liệu huấn Footer Page of 126 Header Page of 126 -5- luyện, tính toán dự báo khách hàng rời mạng Thực ñánh giá kết dự ñoán sở mẫu liệu trích từ liệu thu thập Nội dung triển khai Để giải toán dự báo khách hàng rời mạng, luận văn tiến hành nghiên cứu kỹ thuật khai phá liệu, lựa chọn mô hình ứng dụng cho toán, tìm hiểu công cụ triển khai ứng dụng khai phá liệu Bước tổ chức thu thập liệu từ phận: quản lý khách hàng, phận tính cước, phận quản lý nợ chăm sóc khách hàng Thực xây dựng sở liệu hệ quản trị sở liệu SQL Server 2005 Tiến hành lọc, phân tích nạp liệu chuẩn bị khai khoáng Bước thực nghiên cứu xây dựng mô hình giải toán Trước hết tiến hành xây dựng mô hình gom cụm ñể phân khách hàng thành cụm dựa theo tiêu chí danh sách dịch vụ ñang sử dụng, mức ñộ trung thành, doanh thu hàng tháng, trình toán cước dịch vụ trình chăm sóc khách hàng Sau ñó xây dựng ñịnh dự ñoán khách hàng rời mạng cho cụm Thực kiểm tra mô hình 15% lượng khách hàng rời mạng Đây trình lặp ñể lựa chọn mô hình hữu ích Bước cuối thực dự ñoán khả khách hàng rời mạng cho lượng khách hàng ñang hoạt ñộng Trong trình triển khai luận văn, tiến hành tìm hiểu sở lý thuyết thuật toán ñịnh thuật toán gom cụm – hai thuật toán ñược sử dụng mô hình ứng dụng dự ñoán Đồng thời tiến hành nghiên cứu công cụ khai phá liệu Microsoft SQL Server 2005 ñể làm công cụ triển khai mô hình Footer Page of 126 Header Page of 126 -6- Bố cục luận văn Ngoài phần mở ñầu kết luận, luận văn ñề cập ñến nội dung sau: Chương 1: Nghiên cứu tổng quan kho liệu, mô hình tổng quát kỹ thuật khai phá liệu kỹ thuật dự báo khai phá liệu Chương 2: Phân tích thiết kế hệ thống, chương nội dung ñề cập ñến ñó là: Mô tả ứng dụng, ñề xuất giải pháp ứng dụng kỹ thuật khai phá liệu cuối phân tích thiết kế hệ thống Chương 3: Phát triển Demo ứng dụng, chương ñề cập ñến xây dựng mô hình, kiểm tra ñánh giá mô hình dự ñoán Footer Page of 126 Header Page of 126 -7- CHƯƠNG NGHIÊN CỨU TỔNG QUAN Trong chương này, trình bày số khái niệm kho liệu, khai phá liệu ứng dụng KHO DỮ LIỆU 1.1 1.1.1 Khái niệm Ngày ñịnh nghĩa cho kho liệu bao gồm công cụ thông minh dùng ñể trích rút, biến ñổi nạp liệu vào kho, ñể quản lý lưu trữ siêu liệu (metadata), chức khác lọc, thu nạp, phân tích, trích rút, biến ñổi (ETL) quản lý liệu ñược coi thành phần cốt yếu kho liệu 1.1.2 Kiến trúc kho liệu Hình 1-1: Kiến trúc kho liệu 1.1.3 Qui trình xây dựng Trong trình xây dựng kho liệu cần ý số vấn ñề sau: - Cần ước lượng kích thước cần thiết kho liệu - Tối thiểu hoá kích thước bảng kiện (fact table) Footer Page of 126 -8- Header Page of 126 1.1.4 Ứng dụng kho liệu - Chiết xuất, tổng hợp chuyển ñổi từ liệu thô sang dạng liệu chất lượng cao có tính ổn ñịnh, giúp cho việc nâng cao kỹ thuật biểu diễn thông tin truyền thống - Các kho liệu ñược sử dụng ñể hỗ trợ cho phân tích trực tuyến (OLAP), xác ñịnh xem giả thuyết ñúng hay sai - Hỗ trợ cho công nghệ khai phá liệu (data mining) 1.2 KHAI PHÁ DỮ LIỆU 1.2.1 Khái niệm Khai phá liệu trình tìm kiếm mẫu mới, thông tin tiềm ẩn mang tính dự ñoán khối liệu lớn 1.2.2 Mô hình tổng quát Hình 1-2: Sơ ñồ mô tả trình khai phá liệu 1.2.3 Các công cụ khai phá liệu Có hai nhóm công cụ khai phá liệu: Các công cụ mã nguồn mở (open-source tools) nhóm công cụ thương mại Các công cụ mã nguồn mở (open-source): R (www.rproject.org); Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/ ); Weka (www.cs.waikato.ac.nz/ml/weka); YALE (rapid-i.com); KNIME (www.knime.org); Orange (www.ailab.si/orange) Footer Page of 126 Header Page of 126 -9- Các công cụ thương mại: Intelligent Miner (IBM); Microsoft data mining tools (MS SQL Server 2000/2005/2008); Oracle Data Mining; Enterprise Miner (SAS Institute) DỰ BÁO 1.3 1.3.1 Khái niệm: Dự báo khoa học nghệ thuật tiên ñoán việc xảy tương lai, sở phân tích khoa học liệu ñó thu thập ñược Khi tiến hành dự báo cần vào việc thu thập, xử lý số liệu khứ ñể xác ñịnh xu hướng vận ñộng tượng tương lai nhờ vào số mô hình toán học (ñịnh lượng) Dự báo dự ñoán chủ quan trực giác tương lai (ñịnh tính) ñể dự báo ñịnh tính ñược xác hơn, người ta cố loại trừ tính chủ quan người dự báo 1.3.2 Các phương pháp dự báo: Bảng 1-1: Tổng hợp số phương pháp dự báo Tiên ñoán (Genius forecasting) Ngoại suy xu hướng (Trend Extrapolation) Phương pháp chuyên gia (Consensus method) Phương pháp mô (Stimulation) Phương pháp ma trận tác ñộng qua lại Phương pháp kịch (Scenario) Phương pháp ñịnh (Decision Tree) Phương pháp dự báo tổng hợp Footer Page of 126 Header Page 10 of 126 1.3.3 - 10 - Kỹ thuật dự báo dựa vào khai phá liệu Có nhiều kỹ thuật dự báo vào khai phá liệu, ñây xin trình bày kỹ thuật gom cụm: Gom cụm việc nhóm tập liệu lớn thành số nhóm nhỏ, mục ñích gom cụm tìm mẫu chung gom mẫu liệu tương tự thành nhóm theo tiêu chuẩn ñó Các mẫu liệu nhóm tương tự mẫu liệu nhóm khác Gom cụm ñược ứng dụng nhiều toán thống kê phân tích, phân loại ñối tượng Là công cụ ñộc lập ñể xem xét phân bố liệu bước tiền xử lý cho thuật toán Để giải toán gom cụm, trước hết phải chọn ñược phép ño khoảng cách phương pháp gom cụm Trong ñó việc lựa chọn phép ño có ý nghĩa ñịnh chất lượng gom cụm Một số nghiên cứu khai phá liệu viễn thông 1.4 Đối với doanh nghiệp viễn thông, trình sản xuất kinh doanh ñã thu thập ñược khối lượng khổng lồ loại liệu: + Dữ liệu chi tiết gọi + Thông tin khách hàng mức cước sử dụng, nghề nghiệp, giới tính khách hàng, dịch vụ gia tăng ñã sử dụng… + Dữ liệu liên quan ñến vận hành hệ thống Ứng dụng khai phá liệu viễn thông áp dụng ba lĩnh vực chủ yếu: Ứng dụng marketing Ứng dụng phát gian lận Ứng dụng quản lý vận hành hệ thống Footer Page 10 of 126 Header Page 12 of 126 - 12 - 2.1.2.2 Phạm vi toán Dữ liệu toán liệu kinh doanh EVNTelecom ñịa bàn Quảng Nam từ triển khai kinh doanh từ năm 2005 ñến năm 2009 Mô hình ñược xây dựng lượng thông tin khách hàng tích luỹ từ 2005 ñến 2009 Các liệu phát sinh theo chu kỳ tháng lấy từ tháng năm 2008 ñến tháng năm 2009 2.1.2.3 Yêu cầu hệ thống Bộ xử lý Intel Xeon 2GHz, 4GB nhớ RAM, ñĩa cứng 320GB Raid mức Hệ ñiều hành sử dụng hệ ñiều hành Microsoft Windows Server 2003 Service Pack Dữ liệu ñược tổ chức hệ quản trị sở liệu Microsoft SQL Server 2005 Công cụ khai phá liệu sử dụng công cụ Analysis Services tích hợp Microsoft SQL Server 2005 Công cụ lập trình sử dụng Business Intelligence Development Studio 2.2 THIẾT KẾ HỆ THỐNG 2.2.1 Mô hình tổng quát Mô hình tổng quát trình xây dựng hệ thống sau: Footer Page 12 of 126 Header Page 13 of 126 2.2.2 - 13 - Phân tích thiết kế hệ thống: 2.2.2.1 Danh sách actor: Danh sách actor: STT Diễn giải Tên actor Chuyên viên Là cán bộ, chuyên viên sử dụng khai thác hệ phần mềm ñể phân tích liệu dự thống báo khả rời mạng khách hàng Quản trị hệ Quản trị liệu thống Danh sách use case: STT Tên use case Tạo CSDL Diễn giải Mở kết nối ñến CSDL server, tạo ñối tượng datasource, dataview Tạo cấu trúc mô hình khai phá Tạo cấu trúc liệu dựa thuộc tính ñầu vào (input) ñược lựa chọn ñầu ñể dự ñoán (predict) Áp dụng thuật toán khai phá Tạo mô hình liệu ñịnh, gom cụm, ñiều chỉnh tham số thuật toán ñể hoàn chỉnh mô hình Huấn luyện mô Sử dụng liệu từ CSDL ñã kết nối hình ñưa vào huấn luyện mô hình ñược tạo Hiển thị mô Hiển thị kết huấn luyện mô hình hình (xem cây, xem kết gom cụm) Truy vấn mô Đưa liệu ñầu vào hiển thị kết hình (dự ñoán) dự ñoán Footer Page 13 of 126 Header Page 14 of 126 - 14 - 2.2.2.2 Sơ ñồ use case: Sơ ñồ use case hệ thống sau: 2.2.3 Các bước xây dựng hệ thống 2.2.3.1 Thu thập liệu Tiến hành khảo sát các phận tác nghiệp ñể thu thập liệu như: + Bộ phận quản lý khách hàng + Bộ phận cước + Bộ phận quản lý nợ + Bộ phận sóc khách hàng 2.2.3.2 Mô tả liệu Dữ liệu khách hàng phát sinh có hợp ñồng ñược ký kết với khách hàng Bảng sau mô tả tên, kiểu giá trị ý nghĩa trường: Số thứ tự 01 02 03 Tên trường Ma_KH Ten_KH Gioitinh Footer Page 14 of 126 Kiểu liệu Varchar Varchar Bit Ý nghĩa Dùng làm khoá Tên khách hàng Giới tính khách hàng Header Page 15 of 126 - 15 - 04 05 06 07 08 09 10 11 12 Diachi CMND So_HD Ngay_HD So_thuebao Ngayhoamang Loai_KH Hinhthuc_tt Trangthai Varchar Varchar Varchar Datetime Varchar Datetime Varchar Varchar Varchar 13 Thietbi Varchar 14 Nhanvien_BH Varchar Địa khách hàng Số CMND khách hàng Số hợp ñồng Ngày ký hợp ñồng Số thuê bao Ngày hoà mạng Phân loại khách hàng Hình thức toán Trạng thái hoạt ñộng thuê bao Loại thiết bị ñầu cuối cung cấp cho khách hàng Nhân viên bán hàng + Bảng mô tả liệu cước dịch vụ + Bảng mô tả liệu khách hàng rời mạng + Bảng mô tả liệu nợ cước dịch vụ + Bảng mô tả liệu chăm sóc khách hàng 2.2.3.3 Chọn liệu Dữ liệu cước phát sinh theo chu kỳ tháng thu thập từ tháng 8/2008 ñến tháng 10/2009 + Dữ liệu khách hàng + Dữ liệu cước sử dụng dịch vụ + Dữ liệu khách hàng rời mạng + Dữ liệu chăm sóc khách hàng 2.2.3.4 Đánh giá chất lượng liệu làm liệu Đánh giá chất lượng liệu - Dữ liệu cần xử lý liệu thu thập từ phận quản lý tác nghiệp Vì liệu có tính trung thực cao, hầu hết ñều phản ánh ñúng ngữ nghĩa Footer Page 15 of 126 Header Page 16 of 126 - 16 - - Dữ liệu có bị thiếu vài trường việc cập nhập ban ñầu không ñầy ñủ chưa ñược nhập liệu Phần liệu bị thiếu nằm thông tin khách hàng, số thông tin bổ sung nghiệp vụ Tuy nhiên liệu bị thiếu không ảnh hưởng nhiều ñến chất lượng mô hình 2.2.3.5 Nạp liệu Tạo sở liệu Hình 2-1: Lược ñồ quan hệ sở liệu khai khoáng Nạp liệu Thực thu thập liệu tác nghiệp từ sở liệu Oracle, SQL Server công cụ import export Để ñảm bảo tính quán liệu, sử dụng câu lệnh transact SQL ñể nạp liệu từ sở liệu tạm vào sở liệu khai khoáng 2.3 KHAI PHÁ DỮ LIỆU VỚI Microsoft SQL Server 2005 2.3.1 Microsoft SQL server 2005 Analysis Services 2.3.1.1 Môi trường phát triển ứng dụng Microsoft cung cấp công cụ ñể phát triển ứng dụng khai phá liệu: Footer Page 16 of 126 - 17 - Header Page 17 of 126 - Business Intelligence Development Studio (BI Dev Studio) môi trường phát triển ứng dụng SSAS - Giao diện lập trình ứng dụng API giúp lập trình viên dễ dàng phát triển ứng dụng 2.3.1.2 Các thuật toán data mining Microsoft SQL Server 2005 Danh sách ứng dụng thuật toán tích hợp với Microsoft SQL Server 2005: Bảng 2-1: Ứng dụng thuật toán Nhiệm vụ Thuật toán Microsoft sử dụng Microsoft Decision Trees Algorithm Dự ñoán thuộc tính rời Microsoft Naive Bayes Algorithm rạc Microsoft Clustering Algorithm Microsoft Neural Network Algorithm Dự ñoán thuôc tính liên Microsoft Decision Trees Algorithm tục Microsoft Time Series Algorithm Dự ñoán trình tự Microsoft Sequence Clustering Algorithm Luật kết hợp Gom cụm 2.3.2 Microsoft Association Algorithm Microsoft Decision Trees Algorithm Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm OLE DB for Data Mining 2.3.2.1 Giới thiệu OLE DB for Data Mining 2.3.2.2 Các khái niệm OLE DB for DM + Case + Case key + Nested key Footer Page 17 of 126 Header Page 18 of 126 - 18 - + Mô hình data mining DMX Việc xây dựng mô hình trải qua ba bước bản: tạo mô hình, huấn luyện mô hình dự ñoán Ngoài câu lệnh truy vấn trên, DMX ñịnh nghĩa thêm nhiều hàm sử dụng kết hợp với câu truy vấn ñể cho kết mong muốn MỘT SỐ THUẬT TOÁN ĐẶC BIỆT 2.4 Trong phần luận văn trình bày chi tiết thuật toán ñược sử dụng cho mô hình ứng dụng luận văn 2.4.1 Thuật toán gom cụm Thuật toán Microsoft Clustering cho phép sử dụng hai phương pháp ño khoảng cách cụm : K-Means Expectation Maximization (EM) Thuật toán K-Means xác ñịnh ñối tượng trở thành thành viên cụm có khoảng cách từ ñối tượng ñến tâm cụm nhỏ nhất, sử dụng phép ño khoảng cách Ơ Clit Kết thúc thuật toán, ñối tượng thuộc cụm Thuật toán EM sử dụng phép ño xác suất ñể xác ñịnh tư cách thành viên cách xem xét ñường cong cho chiều với ñiểm trung tâm ñộ lệch chuẩn Nếu ñiểm nằm bên ñường cong, thuộc cụm với xác suất chắn Microsoft Decision Trees Thuật toán ñịnh Microsoft (Microsoft Decision Trees) thuật toán ñịnh lai, hỗ trợ phân lớp hồi quy Tuỳ thuộc tham số, ñịnh có phân nhánh hình dạng khác Một mô hình có nhiều cây, có liên kết với Footer Page 18 of 126 Header Page 19 of 126 - 19 - Microsoft Decision Trees sử dụng phân lớp theo xác suất, mặc ñịnh dùng Bayesian score làm tiêu chuẩn rẽ nhánh thay Entropy Không thực bước tỉa cây, giới hạn biến nhập có 100 trạng thái Khi làm việc với số liệu liên tục, thường liệu kiểu số, ñều ñược rời rạc hoá Footer Page 19 of 126 Header Page 20 of 126 - 20 - CHƯƠNG PHÁT TRIỂN HỆ THỐNG Chương trình bày bước phát triển thử nghiệm Mô hình khai phá liệu phục vụ cho việc dự ñoán khách hàng rời mạng viễn thông 3.1 XÂY DỰNG CƠ SỞ DỮ LIỆU Cơ sở liệu ñược xây dựng môi trường SQL Server 2005 Sau xử lý làm liệu, liệu ñược nạp vào CSDL theo ñúng lược ñồ ñã thiết kế trên, với thông tin thông tin thuê bao, cước, thông tin chăm sóc khách hàng 3.2 XÂY DỰNG MODULE KHAI PHÁ DỮ LIỆU 3.2.1 Xây dựng mô hình 3.2.1.1 Khảo sát liệu 3.2.1.2 Chuẩn bị liệu 3.2.1.3 Xây dựng mô hình Mô hình gom cụm Thực gom khách hàng theo tiêu chí : mức ñộ trung thành, khu vực tiềm năng, mức cước trung bình, tình hình trả nợ cước ñể phân loại khách hàng Mô hình ñược thực thi thuật toán Expectation Maximization (EM) họ thuật toán Microsoft Clustering ñã trình bày chương Để số lượng thành viên cụm không lớn số lượng cụm ñủ ñể nhận thấy ñược khác biệt, dự kiến phân thành ñến cụm Sau thử lần lược trường hợp lựa chọn mô hình có cụm cho kết tốt Hình sau thể phân bố cụm Footer Page 20 of 126 Header Page 21 of 126 - 21 - Hình 3-1: Biểu ñồ phân bố cụm Các vòng tròn biểu ñồ biểu diễn cụm theo hai chiều số tháng sử dụng trung bình thành viên cụm tỉ lệ rời mạng cụm Số liệu bên vòng tròn ARPU bình quân cụm tỉ lệ phần trăm số thành viên cụm với toàn mô hình Mô hình dự ñoán khách hàng rời mạng Qua ñánh giá công cụ thống kê, khảo sát nhà quản lý, ñể dự ñoán khách hàng rời mạng hay không xem xét yếu tố : + Thông tin cá nhân khách hàng + Doanh thu phát sinh + Tình hình trả nợ cước + Chất lượng dịch vụ + Chất lượng thiết bị ñầu cuối (máy ñiện thoại) + Quá trình phản hồi, giải khiếu nại Luận văn lựa chọn mô hình dự ñoán phân loại cho thuộc tính trạng thái thuê bao sử dụng thuật toán Micrsoft Decision Trees Nếu giá trị dự ñoán thuộc tính trạng thái thuê bao “1” thuê bao ñó ñược dự ñoán rời mạng Trường hợp ngược lại thuê bao không rời mạng Footer Page 21 of 126 Header Page 22 of 126 - 22 - Ngoài việc dự ñoán khách hàng thuộc lớp “rời mạng” “ñang hoạt ñộng” theo luật ñịnh phải xác ñịnh thêm xác suất khách hàng thuộc lớp Thuật toán Microsoft Decision Tree hỗ trợ tính toán giá trị công thức xác suất Bayesian 3.2.2 Kiểm tra ñánh giá mô hình Để kiểm tra tính xác mô hình dự ñoán, cần thực truy vấn tri thức mô hình liệu kiểm tra Sử dụng 15% liệu ñã trích từ bước huấn luyện mô hình ñể kiểm tra mô hình 3.2.3 Triển khai mô hình Việc triển khai mô hình luận văn thực hai cách: - Sử dụng câu lệnh truy vấn DMX môi trường BI Dev Studio - Sử dụng chương trình demo ñược xây dựng từ nguôn ngữ C# môi trường Visual Stuido 2005 3.2.3.1 Sử dụng môi trường BI Dev Studio Một số kết thu thập ñược môi trường BI Dev Studio sau: Mô hình gom cụm: Đặc trưng chung cụm (Cluster Characteristics): Footer Page 22 of 126 Header Page 23 of 126 - 23 - So sánh cụm (cluster Discrimination): Hình sau so sánh cụm (tỉ lệ rời mạng cao nhất) khác biệt với cụm thuộc tính sau: Mô hình ñịnh (dự ñoán): Mô hình phụ thuộc thuộc tính (Dependency Network): Sơ ñồ ñịnh: Footer Page 23 of 126 Header Page 24 of 126 - 24 - Từ sơ ñồ cây, rút quy luật dẫn ñến node cây, tính mức ñộ phân bố trường hợp node 3.2.3.2 Sử dụng chương trình demo Chương trình demo minh họa cho khả triển khai ứng dụng ñến người dùng cuối Thực huấn luyện mô hình sở liệu thu thập Cuối thực dự ñoán trả lại kết cho người dùng Chương trình demo ñược xây dựng ngôn ngữ C# môi trường dựa hai công cụ AMO ADOMD.NET 3.2.4 3.3 Bảo trì mô hình ĐÁNH GIÁ KẾT QUẢ Hai mô hình dự ñoán ñược xây dựng dựa thuật toán ñịnh gom cụm cho kết phân tích dự ñoán tương ñối ổn ñịnh, phù hợp với kết nhận ñịnh ban ñầu, tỉ lệ lỗi chấp nhận ñược (tỉ lệ lỗi chung < 10%) Với liệu huấn luyện ban ñầu, mô hình cho phép phân tích yếu tố ảnh hưởng ñến việc rời mạng khách hàng, mức ñộ tác ñộng yếu tố, từ ñó dự ñoán khả (xác suất) rời mạng khách hàng Footer Page 24 of 126 - 25 - Header Page 25 of 126 KẾT LUẬN Đánh giá kết ñề tài Về lý thuyết, luận văn ñã trình bày ñược sở lý thuyết liên quan ñến hai thuật toán gom cụm thuật toán ñịnh Sau ñó ñi sâu trình bày phương pháp tính khoảng cách cụm phương pháp lựa chọn thuộc tính rẽ nhánh Nghiên cứu quy trình triển khai ứng dụng khai phá liệu Ngoài luận văn tìm hiểu vấn ñề công cụ Microsoft SQL Server 2005 Analysis Services công cụ liên quan Đối với toán dự ñoán khách hàng rời mạng, luận văn ñề xuất xây dựng hai mô hình dự ñoán: mô hình gom cụm mô hình dự ñoán theo ñịnh Mô hình gom cụm thực gom nhóm khách hàng dựa tương tự ñộ ño Kết gom cụm ñối tượng nghiên cứu phận chuyên môn, ñồng thời ñầu vào thuật toán ñịnh nhằm có kết dự ñoán tin cậy Mô hình dự ñoán ñã cho kết tương ñối ổn ñịnh mẫu kiểm tra khác nhau, tỉ lệ lỗi mức chấp nhận ñược triển khai thực tế Kết dự ñoán mô hình ñược sử dụng phận nghiên cứu thị trường, chăm sóc khách hàng nhằm tìm giải pháp giảm thiểu khách hàng rời mạng Ngoài luận văn ñã xây dựng chương trình demo minh họa khả triển khai lập trình ứng dụng khai phá liệu ñến người dùng cuối Nhìn chung, luận văn ñã hoàn thành mục tiêu ñề Để ñưa mô hình dự ñoán vào ứng dụng cần tiếp tục ñầu tư thu thập vài liệu cá nhân khách hàng mà ñề tài chưa có ñiều kiện thu thập, tổ chức lưu trữ thu thập liệu phận chăm sóc khách Footer Page 25 of 126 Header Page 26 of 126 - 26 - hàng Triển khai dự ñoán, kiểm chứng thực tế ñánh giá kết cách thường xuyên Bản thân nhận thấy ñây hướng tiếp cận ñúng ñắn có tính thực tiễn cao Hạn chế Đề tài thực dự ñoán khách hàng rời mạng chưa dự ñoán ñược thời ñiểm rời mạng Phạm vi áp dụng ñề tài Với việc triển khai hệ thống thử nghiệm cho thấy khả ứng dụng kết việc dự ñoán khách hàng rời mạng Viễn thông ñiện lực Quảng Nam, từ ñó giúp cho ñơn vị tìm hiểu nguyên nhân khách hàng rời mạng, có sách chăm sóc, hỗ trợ khách hàng tốt Qua nghiên cứu hy vọng ñược ñóng góp phần nhỏ công tác chăm sóc khách hàng, giảm thiểu thuê bao rời mạng Không riêng khách hàng EVNTelecom, ñơn vị cung cấp dịch vụ khác xem ñây tư liệu tham khảo trình triển khai ứng dụng Hướng phát triển Hướng phát triển thời gian tới ñề tài nghiên cứu tác ñộng yếu tố bên sách ñiều tiết vĩ mô, tác ñộng ñối thủ cạnh tranh thị trường, tâm lý tiêu dùng… lên kết mô hình Các yếu tố ñược xem xét tham số ñiều chỉnh mô hình ñể có kết dự ñoán xác hơn, tiến ñến thực mô hình dự ñoán thời ñiểm rời mạng Footer Page 26 of 126 ... bày yêu cầu Hệ thống khai phá liệu ứng dụng cho việc dự báo khách hàng rời mạng viễn thông, tiến hành bước phân tích thiết kế Hệ thống dự báo khách hàng rời mạng MÔ TẢ ỨNG DỤNG 2.1 2.1.1 Giới... liệu cước phát sinh theo chu kỳ tháng thu thập từ tháng 8/2008 ñến tháng 10/2009 + Dữ liệu khách hàng + Dữ liệu cước sử dụng dịch vụ + Dữ liệu khách hàng rời mạng + Dữ liệu chăm sóc khách hàng 2.2.3.4... hàng trăm ngàn khách hàng rời mạng năm Trong bối cảnh ñó ñồng thời ñược ñồng ý Thầy PGS.TS Võ Trung Hùng, tác giả chọn ñề tài Ứng dụng khai phá liệu dự ñoán khách hàng rời mạng viễn thông cho luận