Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Vi Quyết Thắng ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN LOẠI THUÊ BAO DI ĐỘNG VINAPHONE Chun ngành: Hệ thống thơng tin Mã số: 8480104 TĨM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) HÀ NỘI – 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Phản biện 2: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: .giờ .ngày .tháng .năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Trong lĩnh vực viễn thông, khách hàng (các thuê bao di động) người mang lại doanh thu trì hoạt động cho nhà cung cấp dịch vụ, việc nghiên cứu, phân loại đánh giá họ để đưa sách phù hợp cần thiết Ngoài ra, lý quan trọng việc phân loại giúp nhà cung cấp tiết kiệm chi phí cơng giữ chân th bao hoạt động, tác động trì thuê bao định rời mạng kịp thời phát triển thuê bao Xuất phát từ tình hình thực tế quan dẫn dắt PGS.TS Trần Đình Quế, tơi đề xuất ý tưởng thực đề tài luận văn: “Ứng dụng kỹ thuật phân lớp liệu cho phân loại thuê bao di động Vinaphone” Luận văn sâu vào áp dụng phương pháp phân lớp liệu dựa định, từ đánh giá, phân loại dự đoán hành vi thuê bao di động hoạt động Luận văn có ba chương: Chương 1: Tổng quan phân lớp liệu Chương trình bày sở lý thuyết khái niệm, trình bày số phương pháp phân lớp liệu phổ biến Tìm hiểu điểm mạnh điểm yếu phương pháp, qua cho thấy ưu điểm phương pháp phân lớp liệu dựa định phù hợp để giải vấn đề phân loại thuê bao di động Chương 2: Cây định vấn đề phân loại thuê bao di động Chương tập trung vào khảo sát tình hình thực tế TTVT5 Móng Cái, trình bày cần thiết việc phân loại thuê bao di động Chương trình bày ứng dụng định viễn thông phương pháp thiết kế xây dựng định để giải vấn đề phân loại Chương 3: Thử nghiệm đánh giá Với sở lý luận thực trạng trình bày chương 2, với mẫu thử liệu thuê bao di động thu thập từ TTVT5 Móng Cái – VNPT Quảng Ninh, áp dụng thử nghiệm chương trình, xuất kết phân loại dự đốn Từ kết đưa nhận xét, đánh giá phương hướng phát triển chương trình tương lai 2 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.1 Giới thiệu Khoa học công nghệ ngày phát triển đồng nghĩa với việc lượng thông tin, liệu ngày nhiều Để phát trích xuất tri thức, thơng tin đáng giá từ kho liệu khổng để đưa vào phục vụ người biết tới khái niệm “Khai phá liệu”, biết đến giải pháp có khả giải tình trạng thơng tin thừa, tri thức thiếu Muốn tìm tri thức, phải “đào” “mỏ” thông tin Về mặt kỹ thuật, phân lớp liệu phương pháp khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực khác Trong chương trình bày tổng quan phân lớp liệu số kỹ thuật phân lớp phổ biến 1.2 Phân lớp liệu 1.2.1 Khái niệm quy trình phân lớp liệu Phân lớp liệu hướng nghiên cứu quan trọng khai phá liệu Nó dạng phân tích liệu nhằm chọn lọc, trích rút, mơ tả phân loại cách có hệ thống thơng tin hữu ích để phục vụ mục đích cụ thể khảo sát, phân tích, đánh giá, dự đoán Về mặt kỹ thuật, phân lớp liệu trình gồm hai bước: - Bước học (giai đoạn huấn luyện): Xây dựng nên mô hình phân lớp nói cách khác phân loại việc phân tích/ học tập huấn luyện - Bước phân lớp: Từ mơ hình vừa xây dựng bước học sử dụng để dự đoán nhãn lớp cho liệu Nếu độ xác phân loại đánh giá chấp nhận bước tiến hành phân loại liệu/ đối tượng 1.2.2 Các vấn đề phân lớp liệu Tiền xử lý liệu o Làm liệu o Phân tích cần thiết liệu o Chuyển đổi liệu So sánh mơ hình phân lớp o Độ xác dự đốn o Tốc độ o Sức mạnh o Khả mở rộng o Tính hiểu o Tính đơn giản Đánh giá độ xác mơ hình phân lớp 1.3 Một số kỹ thuật phân lớp liệu 1.3.1 Phân lớp liệu Neural Network Học mạng nơ-rôn nhân tạo (ANN) giới thiệu năm 1943 nhà thần kinh học Warren McCulloch nhà logic học Walter Pits Nhưng với kỹ thuật thời gian chưa cho phép họ nghiên cứu nhiều Những năm gần việc mô ANN xuất phát triển Một mạng nơ-rôn nhân tạo, hay gọi tắt mạng nơ-rôn tập hợp nút xuất/ nhập nối kết với nhau, đường nối kết có trọng số liên kết với Ưu điểm: - Chịu liệu nhiễu cao - Thích hợp với liệu nhập xuất có giá trị liên tục Nhược điểm: - Thời gian huấn luyện dài - Khó hiểu 1.3.2 Phân lớp liệu mạng Naïve Bayes Các mơ hình phân lớp dựa theo Bayes (Bayesian classifier) loại mơ hình phân lớp theo lý thuyết thống kê Chúng dự đốn xác suất thành viên lớp, chẳng hạn xác suất để ghi định thuộc lớp cụ thể Phân lớp dựa theo Bayes vào tảng lý thuyết Định lý Bayes (đặt tên theo Thomas Bayes, nhà toán học người Anh sống kỷ 18) 4 Thuật tốn phân lớp Nạve Bayes giả định ảnh hưởng giá trị thuộc tính lớp định độc lập với giá trị thuộc tính khác Giả định gọi độc lập theo điều kiện lớp (class-conditional independence) Người ta giả định để đơn giản hóa khối lượng tính tốn cần thiết, lý này, gọi “ngây thơ” (nạve) Ưu điểm: - Thời gian học - Hiệu cao với sở liệu lớn - Dễ hiểu thực Nhược điểm: - Các thuộc tính phụ thuộc - Khơng sinh mơ hình phân lớp dễ hiểu 1.3.3 Phân lớp liệu giải thuật học ILA Thuật giải học quy nạp ILA (Inductive Learning Algorithm) dùng để xác định luật phân loại cho tập hợp mẫu học Giải thuật thực theo chế lặp, để tìm luật riêng đại diện cho tập mẫu lớp Sau xác định luật, thuật giải loại bỏ mẫu mà luật bao hàm, đồng thời thêm luật vào tập luật Kết có danh sách có thứ tự luật Quá trình học ILA xuất phát từ thuộc tính định ILA chia tập liệu huấn luyện thành tập rời nhau, tập phân lớp dựa thuộc tính định Tiếp đến ILA xem xét phân lớp xem có thuộc tính (hoặc tổ hợp thuộc tính nào) có giá trị xuất lớp mà khơng xuất lớp khác hay khơng Nếu có (tổ hợp) thuộc tính giá trị chọn làm đặc trưng cho phân lớp Ưu điểm: - Được đánh giá mạnh mẽ Nhược điểm: - Chi phí đào tạo cao 1.3.4 Phân lớp liệu định Cây định cấu trúc biểu diễn dạng Mỗi định cấu trúc kiểu lưu đồ, nút biểu thị kiểm tra thuộc tính đó, nhánh biểu diễn kết kiểm tra đó, nút chứa nhãn lớp Một số thuật toán định sinh nhị phân (trong nút rẽ nhánh đến hai nút khác), số thuật toán định khác lại sinh khơng phải nhị phân Quy nạp định việc tìm kiếm định từ ghi huấn luyện có nhãn lớp Ưu điểm: - Khả sinh quy tắc hiểu - Xử lý thuộc tính liên tục rời rạc - Thể rõ ràng thuộc tính tốt - Dễ dàng tính tốn phân lớp Nhược điểm: - Chi phí đào tạo cao - Có khả xảy lỗi có nhiều lớp 1.4 Kết luận Chương trình bày nhìn khái quát phân lớp liệu, giới thiệu số kỹ thuật dùng cho phân lớp liệu nhìn nhận ưu điểm nhược điểm phương pháp Từ lựa chọn phương pháp phân lớp liệu dựa định để giải toán phân lớp đặt Chương vào tìm hiểu kỹ phương pháp 6 CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN LOẠI THUÊ BAO DI ĐỘNG 2.1 Giới thiệu Đối với kinh doanh dịch vụ viễn thông, biết song song với tăng cường, nâng cấp sở hạ tầng với tăng chất lượng dịch vụ cần quan tâm đến việc đánh giá phân loại khách hàng, tức quản lý thuê bao di động hoạt động cách chia họ thành nhóm khác với nhu cầu sử dụng khác Bởi lẽ nắm thông tin với hành vi khách hàng trình sử dụng dịch vụ đồng nghĩa đánh giá xu hướng, dự đoán hành vi họ tương lai gần, từ đưa đối sách phù hợp để thỏa mãn họ thúc đẩy hoạt động kinh doanh cách hiệu Đối với vấn đề phân loại, có nhiều phương pháp để thực điều này, đơn cử hai phương pháp phân cụm liệu phân lớp liệu Trong luận văn nghiên cứu xoay quanh phương pháp phân lớp Với ưu điểm phân tích chương 1, tơi sử dụng định để giải vấn đề phân lớp liệu để phân loại thuê bao di động viễn thông 2.2 Vấn đề phân loại thuê bao di động Vinaphone 2.2.1 Thực trạng TTVT5 Móng Cái – VNPT Quảng Ninh Dựa báo cáo Sở Thông tin Truyền thông Quảng Ninh, năm 2016 tỉnh Quảng Ninh có tổng số 2.584.060 thuê bao di động, đạt tỷ lệ 185 thuê bao/100 dân, thuê bao trả sau có 144.817 Tại thành phố Móng Cái có 3969 thuê bao trả sau Việc thống kê số lượng thuê bao ngừng sử dụng dịch vụ làm hàng tháng Thực tế Trung tâm viễn thơng Móng Cái – VNPT Quảng Ninh việc phân loại thuê bao di động chưa trọng chủ yếu thực thủ công yêu cầu Do chưa nắm rõ loại thuê bao hưởng quyền lợi nên chưa khai thác hiệu nguồn khách hàng sẵn có tìm kiếm nguồn khách hàng mới, việc gây khó khăn khơng nhỏ cạnh tranh với nhà mạng khác “hiểu rõ khách hàng” Tương tự nhà mạng khác, Vinaphone phân thành thuê bao di động trả trước trả sau Với thuê bao trả trước: Thuê bao trả trước phân loại tương đối chi tiết phục vụ đối tượng khách hàng riêng biệt với ưu đãi riêng: - Nhóm dành cho khách hàng phổ thơng - Nhóm theo vị trí địa lý có mức cước phí ưu đãi riêng cho khu vực - Nhóm theo đối tượng (gia đình, cán Đồn, học sinh sinh viên, cặp đôi) Với thuê bao trả sau: Thuê bao trả sau thường khách hàng gắn bó xác định sử dụng dịch vụ lâu dài Nếu việc phân loại thuê bao trả trước khoa học, giá cước minh bạch hợp lý thái độ phục vụ sở hạ tầng tốt khả khách hàng chuyển từ trả trước sang trả sau cao Đây coi khách hàng “trung thành” Họ phân loại để quản lý: - Nhóm dành cho thuê bao có lưu lượng gọi nhiều, với giá cước thấp 40% so với thuê bao trả trước, số tiện ích miễn phí, quan tâm hoạt động quà tặng, mừng sinh nhật… - Nhóm cho dịch vụ kinh doanh: Dành cho thương gia (cá nhân) doanh nghiệp (tổ chức) tối ưu cước phí - Nhóm gia đình nhóm đồng nghiệp: Dành cho khách hàng đăng ký gia đình quan/ tổ chức 2.2.2 Các vấn đề tồn Ngoài chủ trương phân loại khách hàng theo mục đích sử dụng dịch vụ đề cập bên chúng tơi đề xuất chia nhóm khách hàng theo giá trị khách hàng Tức xác định đâu khách hàng “trung thành”, khách hàng thân thiết, khách hàng có khả rời mạng để đưa chiến lược nhằm tiếp tục phục vụ với nhiều ưu đãi kịp thời đánh giá, khắc phục thiếu xót trình phục vụ để thỏa mãn khách hàng có khả rời mạng Điều khơng giữ nguồn khách hàng có cách ổn định mà có tác dụng phát triển nguồn khách hàng tiềm Vấn đề đặt thực chia phương pháp độ tin cậy sao? Ngồi vấn đề quản lý khách hàng việc kiểm soát việc khách hàng rời mạng, cắt hủy số điện thoại việc quan trọng cần quan tâm Hàng ngày ghi nhận trường hợp cắt hủy khách hàng sau tổng hợp theo tháng để đánh giá Trên thực tế, hàng tháng lên đến hàng vài trăm trường hợp rời mạng bình thường Nhiệm vụ đặt để giảm thiểu số lượng thuê bao rời mạng cách kịp thời xác Điều đồng nghĩa với việc phải dự đoán khách hàng rời mạng, hiểu họ cần gì, hài lòng hay khơng hài lòng với dịch vụ cung cấp 2.3 Ứng dụng định phân loại thuê bao di động 2.3.1 Xác định giá trị khách hàng Từ quan điểm kinh doanh, giá trị khách hàng xem dòng tiền ròng khách hàng lợi nhuận tiềm năng, xác định từ yếu tố sau: Giá trị tại, giá trị lịch sử, dự đốn giá trị dài hạn, tín dụng lòng trung thành Qua đó, đóng góp khách hàng đánh giá định lượng để hỗ trợ cho định nhà cung cấp với mục đích phục vụ khách hàng cách tốt – điều kéo theo với việc phát triển thị trường doanh nghiệp, tức ngầm hiểu tăng ngân sách cho nhà mạng Theo tình hình thực tế sở, hệ thống đánh giá khách hàng dựa giá trị khách hàng ý chưa thiết kế hệ thống thẩm định giá trị khách hàng xem xét Hiện nay, Vinaphone dự đốn vòng đời thuê bao mạng dựa liệu đặc tính, sau tính tốn giá trị dài hạn thuê bao Việc theo quan điểm cá nhân người viết luận văn hướng đến thuê bao riêng lẻ khoanh vùng để phân loại thuê bao Việc xác định giá trị khách hàng để phân họ thành nhóm có đặc tính khơng phản ảnh thứ tự ưu tiên nhóm mà giải vấn đề họ gặp phải Bởi nhà cung cấp dịch vụ “hiểu” khách hàng hơn, biết họ có nhu cầu sử dụng nào, mong đợi điều gì, điều làm họ khơng hài lòng 2.3.2 Khả dự đốn th bao rời mạng 2.3.2.1 Khái nhiệm rời mạng tỷ lệ rời mạng Trong tình hình tại, khách hàng rời mạng trở thành vấn đề quan tâm nhà cung cấp dịch vụ di động Đây ngành có tỉ lệ khách hàng hủy dịch vụ cao với tỉ lệ trung bình hàng năm từ 20% đến 40% Với kỷ nguyên công nghệ thông tin nay, việc cá nhân/ tổ chức không sử dụng dịch vụ di động điều thấy Nhu cầu trao đổi tin tức, cập nhật thông tin người với người điều thiếu sống cơng việc Vì vậy, khái niệm rời mạng lĩnh vực viễn thơng ngồi ý nghĩa cắt hủy dịch vụ hiểu khách hàng chuyển từ nhà cung cấp sang nhà cung cấp khác Tỷ lệ rời mạng tính sau: 𝑇ỷ 𝑙ệ 𝑟ờ𝑖 𝑚ạ𝑛𝑔 = Số khách hàng rời mạng tháng 100 Tổng số khách hàng đầu tháng Việc xác định tỷ lệ rời mạng quan trọng tỷ lệ cao đồng nghĩa với việc tồn nhiều vấn đề yếu kinh doanh, sở hạ tầng xuống cấp, thái độ phục vụ tồi… dấu hiệu cho thấy tăng trưởng thị phần đối thủ cạnh tranh 2.3.2.2 Kỹ thuật dự đốn rời mạng viễn thơng Do tìm kiếm khách hàng tiềm biện pháp truyền thống truyền thơng, tun truyền, quảng cáo… có chi phí cao, tốn thời gian cơng sức nên việc dự đoán hành vi khách hàng trở thành phần tách rời trình định hoạch định chiến lược kinh doanh ngành viễn thơng Song song với tìm kiếm khách hàng mới, tìm cách giữ chân khách hàng cũ Không Việt Nam mà hãng viễn thông lớn giới nghiên cứu phát triển mơ hình nhằm dự đốn hành vi khách hàng để có biện pháp giữ chân khách hàng rời mạng đưa lời khuyên kịp thời trước hành vi xảy Từ tránh nguy khách hàng 10 cũ nhà mạng Trong phần trình bày số kỹ thuật phổ biến để giải vấn đề dự đốn, có định Các giai đoạn thực hiện: Thu thập liệu Chuẩn bị liệu Biến suy diễn Trích xuất biến Dựa thơng tin thu thập từ cá nhân nhà cung cấp dịch vụ viễn thông, lựa chọn biến dùng cho việc mơ hình định Các biến lựa chọn nhóm lại thành loại mơ tả đây: Nhóm 1: Thơng tin khách hàng Nhóm 2: Hóa đơn tốn Nhóm 3: Chi tiết gọi Nhóm 4: Dịch vụ chăm sóc khách hàng Xây dựng mơ hình: - Ban đầu thuộc tính, giá trị DỮ LIỆU KHO CHỨA DỮ LIỆU TIỀN XỬ LÝ DỮ LIỆU TRÍCH XUẤT ĐẶC TÍNH / BIẾN DỮ LIỆU ĐÃ PHÂN TÍCH DỮ LIỆU THỬ NGHIỆM ngưỡng gán - Các giá trị thuộc tính tập liệu huấn luyện so sánh với ngưỡng thuộc tính để kết luận khách hàng quay lại hay không Các luật đơn giản "if then else" áp dụng trình - Một mơ hình sau xây dựng cho tập liệu đào tạo - Mơ hình áp dụng tập liệu thử nghiệm liệt kê kết - Các bước lặp lại cách thay đổi giá trị ngưỡng thuộc tính chọn Hình 2.3: Tạo dựng mơ hình khai phá liệu Viễn thơng TẠO MƠ HÌNH DỰ ĐỐN (Cây định) 11 Kỹ thuật khai phá liệu áp dụng sở liệu ngành viễn thơng cho mục đích khác Mỗi loại sử dụng loại liệu viễn thông khác tùy thuộc vào mục đích muốn làm Dữ liệu ngành viễn thông chia thành loại Đó là: Dữ liệu khách hàng (Nhân học); Dữ liệu mạng; Dữ liệu hoá đơn Sau liệu xử lý áp dụng kỹ thuật dùng khai phá liệu như: Cây định, mạng nơ – rôn nhân tạo, hồi quy logistic… để xây dựng mơ hình dự đốn 2.3.2.3 So sánh số mơ hình dự đoán rời mạng Phần so sánh hai kỹ thuật: Dự đoán rời mạng định hồi quy logistic So sánh làm rõ tốt kỹ thuật định nhấn mạnh nhu cầu phương pháp tiên tiến để mô hình hóa vấn đề dự đốn rời mạng viễn thông lượng liệu ngành lớn đòi hỏi phương pháp mạnh mẽ đủ để giải vấn đề Kỹ thuật sử dụng định Mục đích định sử dụng để phân loại dự đoán lớp đối tượng chưa biết Với ưu điểm dễ dàng tính toán phân lớp định: Mặc dù định chứa nhiều định dạng, thực tế, thuật toán sử dụng để tạo định thường tạo với số phân nhánh thấp test đơn giản nút Những test điển hình là: So sánh số, xem xét phần tử tập hợp, phép nối đơn giản Mặc dù nhược điểm định chi phí cao có q nhiều nút nhiều lớp, lĩnh vực viễn thông, nút không nhiều số lớp không nhiều khách hàng khơng nhiều thuộc tính Mơ hình hồi quy logistic Hồi quy logistic kỹ thuật khai phá liệu có khả áp dụng để dự đoán khách hàng rời mạng ngành Viễn thông Hồi quy logistic dựa phương pháp tốn học theo định hướng để phân tích ảnh hưởng biến 12 biến khác Nó mơ hình định lượng biến phụ thuộc biến giả, nhận giá trị Biến Ký hiệu Loại Phụ thuộc y Nhị phân Độc lập xi Liên tục rời rạc Dự đoán thực cách tạo tập hợp phương trình liên kết giá trị đầu vào (ví dụ ảnh hưởng đến khách hàng) với trường đầu (khách hàng rời mạng) Các phương trình (2.2), (2.3), (2.4) đưa cơng thức tốn học cho mơ hình hồi quy logistic: 𝑝(𝑦 = |𝑥1 , … , 𝑥𝑛 ) = 𝑓(𝑦) 𝑓(𝑦) = 1+𝑒 −𝑦 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑛 𝑥𝑛 (2.2) (2.3) (2.4) Trong đó: o y biến mục tiêu (biến phụ thuộc) cho cá thể j (khách hàng mơ hình churn), y lớp nhị phân có nhãn (0 1) o 𝛽0 số o 𝛽1 trọng số cho biến cụ thể liên kết với khách hàng j (j =1,…,m) o 𝑥1 , … , 𝑥𝑛 biến dự đoán (biến độc lập) cho khách hàng j, từ y dự đốn Bộ liệu khách hàng phân tích để tạo thành phương trình hồi quy Một quy trình đánh giá cho khách hàng tập liệu tiếp thực Một khách hàng có nguy bị dự đốn rời mạng (churn) giá trị p cho khách hàng lớn giá trị xác định trước (ví dụ: 0.5) Nhận xét: Có nhiều kỹ thuật để xây dựng nên mơ hình dự đoán rời mạng số kỹ thuật trình bày Nhưng với ưu độ dễ hiểu, có khả sinh quy tắc hiểu được, xử lý liệu nhanh chóng sử dụng định để giải vấn đề phân loại thuê bao di động lựa chọn đắn 13 2.4 Thiết kế xây dựng định 2.4.1 Tư tưởng thuật tốn xây dựng định Có nhiều thuật toán khác để xây dựng định CLS, ID3, C4.5 nhìn chung trình xây dựng định chia giai đoạn bản: Giai đoạn 1: Xây dựng Giai đoạn 2: Cắt tỉa Giai đoạn 3: Đánh giá 2.4.2 Xây dựng định Vấn đề xây dựng định giải nhiều phương án, sau số thuật toán phổ biến ứng dụng rộng rãi: 2.4.2.1 Thuật toán CLS 2.4.2.2 Thuật toán ID3 2.4.2.3 Thuật toán C4.5 2.4.2.4 Thuật toán SLIQ 2.4.3 Cắt tỉa định Việc cắt tỉa nhằm tối ưu hóa kết quả: tối ưu kích cỡ độ xác việc phân lớp cách cắt bỏ nhánh không phủ hợp Tiền cắt tỉa: Phương pháp dừng việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hồn thành Nghĩa q trình xây dựng cây, nút khơng tách thêm bước kết phép tách rơi vào ngưỡng khơng phép, nút trở thành nút gán nhãn nhãn lớp phổ biến tập mẫu nút xét Hậu cắt tỉa: Phương pháp ngược với phương pháp trên, cho phép phát triển đầy đủ sau cắt tỉa Nghĩa xây dựng sau thực cắt bỏ nhánh khơng hợp lý Điều có nghĩa q trình xây dựng cho phép tình 14 trạng Over fitting xảy Nếu nút mà bị cắt trở thành nút nhãn nút là nhãn lớp phổ biến 2.6 Kết luận Chương tập trung nghiên cứu tư tưởng thuật toán, quy trình xây dựng định, ứng dụng định viễn thông phân lớp liệu để xác định giá trị khách hàng dự đoán thuê bao rời mạng So sánh hai phương pháp dự đoán kỹ thuật sử dụng định hồi quy logistic Trong chương trình bày thực trạng vấn đề phân loại thuê bao di động TTVT5 Móng Cái – VNPT Quảng Ninh Nhận thấy phân loại khoa học hiệu quả, áp dụng toàn quốc Tuy nhiên đề xuất thêm số hướng phân loại thuê bao khác tiến hành song song với cách phân loại Cụ thể trình bày chương 15 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu Như trình bày phần 2.2 chương 2, sau khảo sát thực trạng nắm vấn đề tồn phân loại thuê bao di động TTVT5 Móng Cái – VNPT Quảng Ninh, chương tơi xin đề xuất số giải pháp để giải vấn đề phân loại thuê bao di động Vinaphone Dựa vào ta đánh giá giá trị khách hàng dự đoán hành vi khách hàng tương lai gần, mục đích dự đốn th bao có khả rời mạng để đưa đối sách trước điều xảy Việc hỗ trợ trực tiếp hoạt động kinh doanh, giảm thiểu chi phí trì tìm kiếm khách hàng Hoặc sử dụng liệu lưu trữ ghi lại lịch sử hành vi khách hàng nhằm hoạch định chiến lược kinh doanh tương lai 3.2 Thu thập liệu Từ hệ thống Viễn thông Quảng Ninh xuất file liệu chứa thông tin khách hàng theo tháng, file có định dạng *.mht, mở trình duyệt Internet Explorer Windows mở Microsoft Word Đây liệu chứa nhiều thông tin khách hàng họ tên, mã số, số điện thoại, số tiền phải toán hàng tháng, số tiền phát sinh, lịch sử gọi… chưa thể dùng liệu để phân loại được, mà phải tinh chỉnh, chọn lọc thông tin cần thiết phục vụ việc phân loại Trước mắt, việc tạo danh mục khách hàng loại bỏ liệu thừa thực Microsoft Excel Việc xây dựng ứng dụng để tự động lọc thông tin cần thiết từ liệu thô xuất từ hệ thống vấn đề khác, ứng dụng xây dựng tương lai Trong luận văn xoay quanh vấn đề phân loại khách hàng mà thơi 3.3 Tình hình phát rời mạng ứng dụng nước Hiện để phát rời mạng Vinaphone số nhà mạng khác áp dụng quy trình sau: - Thu thập liệu - Xử lý trích xuất liệu 16 - Phân tích đặc trưng liệu - Xác định luật - Thực nghiệm đánh giá Về bản, phương pháp phổ biến, phương pháp dựa thông tin chăm sóc khách hàng, nhà mạng trích chọn đặc trưng cần thiết thuê bao có khả rời mạng để áp dụng dự đốn Sau xây dựng luật để phân lớp liệu khách hàng Sau phân lớp việc phát rời mạng thực dựa đặc tính riêng biệt lớp 3.4 Phân loại khách hàng dự đoán rời mạng dựa số tiền tốn Việc phân loại nhằm mục đích đánh giá giá trị dự đốn hành vi khách hàng thực nhiều phương thức khác Chẳng hạn phân loại khách hàng dựa tuổi tác, vị trí địa lý, vị trí xã hội, nghề nghiệp… hồn tồn với đặc tính rút thói quen, hành vi thường xuyên, từ suy luật phục vụ việc phân loại dự đoán Các phương thức phổ biến áp dụng rộng rãi vấn đề phân loại thuê bao di động lĩnh vực khác Tuy nhiên với tiêu chí “sử dụng tất có” nhằm tiết kiệm chi phí, thời gian, tơi xin đề xuất phân loại khách hàng dựa theo số tiền khách hàng tốn hàng tháng Cụ thể, tơi xin đề xuất chia năm làm ba đợt đánh giá, đợt bốn tháng chia khách hàng thành ba lớp khác Tơi thực sau: Nhóm thứ nhất: Các khách hàng “Có khả rời mạng” Nhóm gồm khách hàng có hai đặc điểm sau: - Các khách hàng nợ cước tháng - Vì phân lớp theo số tiền khách hàng phải trả hàng tháng, mà tháng số tiền tăng giảm nhiều hay ít, ta gặp vấn đề số tiền giảm có phải khách hàng muốn rời mạng hay không? Để giải vấn đề tơi tính giá trị trung bình cộng số tiền khách hàng phải trả bốn tháng xét Sau lấy giá trị trung bình so sánh với giá trị tháng đầu kỳ Nếu thuê bao có số tiền 17 trung bình xét bốn tháng có giá trị 70% trở xuống so với số tiền tháng đầu kỳ xét xếp vào lớp “Có khả rời mạng” Nhóm thứ hai: Các khách hàng “Ưu tiên 1” Lớp gồm khách hàng có số tiền trung bình bốn tháng xét 110% so với tháng đầu kỳ Nhóm thứ ba: Các khách hàng “Ưu tiên 2” Lớp gồm khách hàng có số tiền trung bình bốn tháng cho: 70% < X < 110% 3.5 Cài đặt Từ file chứa thông tin cụ thể khách hàng hình 3.1, lựa chọn thuộc tính cần thiết cho việc phân loại khách hàng, tránh đụng chạm đến thông tin riêng tư họ lịch sử gọi Các thuộc tính lựa chọn bao gồm: Số thứ tự; Mã khách hàng; Họ, tên đệm; Tên; Địa chỉ; Số thuê bao; Số tiền toán tháng xét (dữ liệu mẫu ghi lại tháng 5, 6, 7, 8); Nợ cước; Số tháng nợ cước; Số tiền nợ Những thuộc tính nhập dạng file Excel có định dạng *.xlsx Hình 3.1: File đầu vào sau chọn lọc thuộc tính Sau có liệu đầu vào với định dạng trên, chương trình viết Python phân tích file liệu đầu vào Từ định dùng để dự đốn hình 3.2, rút luật để phân loại thuê bao di động Đoạn code thể việc phân loại thuê bao di động dựa số tiền tốn hàng tháng khách hàng trình bày cụ thể phần 3.3: Giao diện chương trình: 18 Hình 3.2: Giao diện chương trình phân loại khách hàng 3.6 Thử nghiệm đánh giá 3.6.1 Thử nghiệm Như đề cập phần 3.2, khách hàng chia thành nhóm khác nhau: Nhóm “Ưu tiên 1”; Nhóm “Ưu tiên 2”; cuối nhóm xếp vào thuê bao rời mạng Từ giao diện lựa chọn file liệu đầu vào nút “Browse” Tiếp theo chọn “Phân tích”, chương trình tiến hành đọc hiển thị giao diện chương trình thơng tin file đầu vào với số liệu “Tổng số thuê bao”, “Số thuê bao ưu tiên 1”, “Số thuê bao ưu tiên 2”, “Số thuê bao dự đoán rời mạng” hình 3.4 19 Cũng giao diện này, muốn xem nhóm thuê bao hiển thị theo danh sách riêng biệt chọn nút tương ứng với nhóm Ví dụ muốn biết th bao rời mạng chọn chức “Dự đoán rời mạng” giao diện chương trình Thể hình 3.5 bên Hình 3.3: Chức “Dự đốn rời mạng” Nếu muốn xuất liệu dạng file Excel, ta chọn chức “Export”, lựa chọn vị trí lưu máy tính bấm “Save” để lưu lại Chương trình hỗ trợ vẽ biểu đồ dựa số liệu đầu vào, giúp có nhìn trực quan khái qt 20 Hình 3.4: Biểu đồ thể tỷ lệ thuê bao di động Các chức lại đưa thông tin tương tự, ứng với nhóm thuê bao di động xét Về bản, chương trình giải tốn phân loại khách hàng, đánh giá giá trị dự đoán rời mạng Tuy nhiên việc dự đoán rời mạng phải nói “dự đốn” để đưa biện pháp phòng ngừa kịp thời chưa thể khẳng định khách hàng nhóm “Có thể rời mạng” chắn rời mạng Nhưng, với số liệu dao động bất thường theo tháng, thuê bao ý kiểm chứng điều kiện thực tế 3.6.2 Đánh giá Theo đánh giá khách quan chương trình thơ sơ tập trung vào vấn đề phân loại thuê bao di động, từ đánh giá giá trị dự đoán hành vi thuê bao mà thơi Tuy kết đưa thỏa mãn tốn phân loại, 21 thực tế nhiều vấn đề như: Dữ liệu đa dạng hơn, vấn đề liên kết chương trình với sở liệu khách hàng VNPT Quảng Ninh để trích xuất liệu cần thiết cần thu thập thông tin tất dịch vụ di động hoạt động địa bàn, chức đọc, ghi, in, tra cứu, xử lý liệu tự động… cần bổ sung 3.7 Kết luận Qua cài đặt, thử nghiệm đánh giá chương 3, luận văn giải vấn đề phân loại thuê bao di động phương pháp phân lớp liệu Với ý tưởng so sánh giá tiền trung bình xét theo bốn tháng lần với giá tiền tháng xét bốn tháng giải toán Từ liệu thử nghiệm đầu vào cho kết phù hợp, với mong đợi người viết Tuy nhiên liệu thử nghiệm, số lượng thuê bao chưa nhiều, dịch vụ chưa đa dạng nên chương trình cần phải tiếp tục kiểm tra liệu lớn để đánh giá cách xác 22 KẾT LUẬN Luận văn đạt kết sau: - Nghiên cứu, tìm hiểu phân lớp liệu số phương pháp phân lớp liệu phổ biến Rút ưu điểm, nhược điểm phương pháp Từ chọn phương pháp phân lớp liệu dựa định để giải vấn đề phân loại thuê bao di động Trình bày quy tắc số thuật toán xây dựng định - Ứng dụng định viễn thông xác định giá trị khách hàng dự đoán rời mạng Nghiên cứu so sánh hai thuật toán dự đoán rời mạng kỹ thuật sử dụng định hồi quy logistic để làm rõ ưu định - Đánh giá thực trạng vấn đề tồn tại TTVT5 Móng Cái Thu thập/ xử lý liệu đề xuất giải pháp phân loại thuê bao di động dựa số tiền khách hàng toán hàng tháng, thực thiện song song với phương pháp phân loại cũ triển khai - Chia năm làm ba đợt đánh giá, đợt xét bốn tháng Việc đánh giá giá trị khách hàng dự đốn th bao rời mạng tương lai sau: o Các khách hàng nợ cước tháng bị xếp vào nhóm “Có thể rời mạng” o Tính giá trị trung bình số tiền mà khách hàng phải toán bốn tháng xét Nếu giá trị 70% trở xuống so với tháng đầu kỳ xét thuê bao thuộc nhóm “Có thể rời mạng” o Nếu giá trị trung bình số tiền mà khách hàng phải toán bốn tháng xét lớn 110% so với tháng đầu kỳ xếp thuê bao vào “Nhóm Ưu tiên 1” o Các th bao lại, tức th bao có số tiền trung bình bốn tháng thỏa mãn: 70% < X < 110% xếp vào “Nhóm Ưu tiên 2” 23 - Từ liệu thử nghiệm, chương trình cho kết thỏa mãn yêu cầu đặt Trong số 50 khách hàng liệu mẫu, chương trình xác định được: o Số thuê bao Ưu tiên 1: Có (chiếm 12.00%) o Số thuê bao Ưu tiên 2: Có 36 (chiếm 72.00%) o Số thuê bao dự đốn rời mạng: Có (chiếm 16.00%) Những hạn chế: - Do dừng lại liệu thử nghiệm, việc thu thập thông tin thuê bao di động khó khăn nên số lượng liệu chưa đa dạng tập trung thuê bao sử dụng dịch vụ trả sau Vì chưa mơ hết tình có khả xảy thực tế - Việc xử lý liệu thơ để trích chọn thuộc tính cần thiết để tinh chế thành liệu đầu vào cho ứng dụng phân loại phải thực thủ cơng, chưa có tiện ích xử lý tự động Ngoài chưa xây dựng hệ thống lưu trữ liệu dành riêng cho ứng dụng - Giao diện chương trình thơ sơ, hướng đến mục tiêu đề phân loại thuê bao di động dự đốn rời mạng chính, chưa có thêm tiện ích - Tỷ lệ chưa tính xác, dừng mức độ tương đối Phương hướng phát triển: - Ứng dụng phân loại, đánh giá dự đoán với tập liệu đa dạng hơn, khơng gói gọn liệu th bao trả sau - Vấn đề lưu trữ liệu hồn thiện, khơng file rời rạc mà lưu trữ tập trung khoa học để quản lý dễ dàng - Nghiên cứu biện pháp xử lý liệu thô thành liệu tinh chế để tích hợp vào chương trình, khơng cần thao tác thủ công qua Microsoft Excel - Thiết kế lại giao diện thân thiện với người dùng hơn; Biểu diễn số liệu đầu khoa học để dễ dàng theo dõi tình hình rời mạng phát triển theo tháng; Thêm số tiện ích tra cứu, tìm kiếm, in ấn… ... văn: Ứng dụng kỹ thuật phân lớp liệu cho phân loại thuê bao di động Vinaphone Luận văn sâu vào áp dụng phương pháp phân lớp liệu dựa định, từ đánh giá, phân loại dự đoán hành vi thuê bao di động. .. phương pháp phân lớp Với ưu điểm phân tích chương 1, tơi sử dụng định để giải vấn đề phân lớp liệu để phân loại thuê bao di động viễn thông 2.2 Vấn đề phân loại thuê bao di động Vinaphone 2.2.1... tổng quan phân lớp liệu số kỹ thuật phân lớp phổ biến 1.2 Phân lớp liệu 1.2.1 Khái niệm quy trình phân lớp liệu Phân lớp liệu hướng nghiên cứu quan trọng khai phá liệu Nó dạng phân tích liệu nhằm