Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - VI QUYẾT THẮNG Vi Quyết Thắng ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN LOẠI THUÊ BAO DI ĐỘNG HỆ THỐNG THÔNG TIN VINAPHONE LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) 2016 - 2018 HÀ NỘI 2018 HÀ NỘI, NĂM 2018 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Vi Quyết Thắng ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN LOẠI THUÊ BAO DI ĐỘNG VINAPHONE Chuyên ngành: Hệ thống thông tin Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ HÀ NỘI, NĂM 2018 i LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, thực hướng dẫn PGS.TS Trần Đình Quế Các kết nêu luận văn trung thực, dựa số liệu thực tế khảo sát thu thập Trung tâm viễn thơng Móng Cái – VNPT Quảng Ninh Kết luận văn chưa công bố cơng trình khác Hà Nội, ngày 10 tháng 11 năm 2017 Họ tên Vi Quyết Thắng ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Quế, Học viện Cơng nghệ Bưu Viễn thơng Người Thầy dành nhiều thời gian tận tình bảo, hướng dẫn tơi suốt q trình tìm hiểu, nghiên cứu Thầy đưa nhiều góp ý quý báu suốt q trình thực để tơi hồn thành luận văn Tôi xin chân thành cảm ơn thầy, cô thuộc khoa Công nghệ thông tin, khoa Điện tử viễn thông Học viện Công nghệ Bưu Viễn thơng trang bị cho tơi kiến thức cần thiết thời gian học tập trường Tơi bày tỏ lịng biết ơn sư giúp đỡ nhiệt tình lãnh đạo quan, đồng nghiệp Trung tâm viễn thơng Móng Cái – VNPT Quảng Ninh cung cấp thông tin, liệu, tài liệu cần thiết cho lời khuyên quý báu thực khảo sát Tơi xin cảm ơn gia đình, người thân bạn bè quan tâm, động viên tạo điều kiện tốt cho tơi suốt q trình thực luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 10 tháng 11 năm 2017 Họ tên Vi Quyết Thắng iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.1 Giới thiệu .3 1.2 Phân lớp liệu 1.2.1 Khái niệm quy trình phân lớp liệu 1.2.2 Các vấn đề phân lớp liệu 1.2.2.1 Tiền xử lý liệu 1.2.2.2 So sánh mô hình phân lớp .6 1.3 Một số kỹ thuật phân lớp liệu 1.3.1 Phân lớp liệu Neural Network 1.3.2 Phân lớp liệu mạng Naïve Bayes 10 1.3.3 Phân lớp liệu giải thuật học ILA 13 1.3.4 Phân lớp liệu định 14 1.4 Kết luận .17 CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN LOẠI THUÊ BAO DI ĐỘNG .18 iv 2.1 Giới thiệu 18 2.2 Vấn đề phân loại thuê bao di động Vinaphone 18 2.2.1 Thực trạng TTVT5 Móng Cái – VNPT Quảng Ninh 18 2.2.2 Các vấn đề tồn 20 2.3 Ứng dụng định phân loại thuê bao di động .24 2.3.1 Xác định giá trị khách hàng 24 2.3.2 Khả dự đoán thuê bao rời mạng 25 2.3.2.1 Khái niệm rời mạng tỷ lệ rời mạng 25 2.3.2.2 Kỹ thuật dự đốn rời mạng Viễn thơng .27 2.3.2.3 So sánh số kỹ thuật dự đoán rời mạng 33 2.4 Thiết kế xây dựng định 36 2.4.1 Tư tưởng thuật toán xây dựng định .36 2.4.2 Xây dựng định .37 2.4.2.1 Thuật toán CLS .38 2.4.2.2 Thuật toán ID3 39 2.4.2.3 Thuật toán C4.5 .40 2.4.2.4 Thuật toán SLIQ 42 2.4.3 Cắt tỉa định 42 2.5 Kết luận .43 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ .44 3.1 Giới thiệu 44 3.2 Thu thập xử lý liệu 44 3.3 Tình hình phát rời mạng ứng dụng nước 46 3.4 Phân loại khách hàng dự đoán rời mạng dựa số tiền toán 47 v 3.5 Cài đặt 51 3.6 Thử nghiệm đánh giá 54 3.6.1 Thử nghiệm 54 3.6.2 Đánh giá .57 3.7 Kết luận .58 KẾT LUẬN .59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 61 vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt ANN NN ILA TTVT5 Tiếng Anh Artificial Neural Network Neural Network Inductive Learning Algorithm Tiếng Việt Mạng Nơ – rôn nhân tạo Mạng Nơ – rôn Giải thuật học quy nạp Trung tâm viễn thông vii DANH MỤC CÁC BẢNG Bảng 1.1: Giả thuyết cho mạng Bayes 11 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bước học (phân tích/ học tập huấn luyện) Hình 1.2: Bước phân lớp trình phân lớp liệu Hình 1.3: Minh họa mạng nơ-rơn nhân tạo Hình 1.4: Cấu trúc nơ-rơn Hình 1.5: Tiến trình học mạng nơ-rơn Hình 1.6: Ví dụ định 15 Hình 2.1: Thơng tin th bao ngừng sử dụng dịch vụ 22 Hình 2.2: Số lượng thuê bao rời mạng phát triển TTVT5 Móng Cái - 2017 23 Hình 2.3: Tạo dựng mơ hình khai phá liệu viễn thơng .32 Hình 2.4: Khả dự đốn định 33 Hình 3.1: Dữ liệu mẫu mơ tả thơng tin khách hàng 45 Hình 3.2: Cây định phân loại thuê bao di động dựa số tiền tốn 52 Hình 3.3: File đầu vào sau chọn lọc thuộc tính .52 Hình 3.4: Giao diện chương trình phân loại khách hàng 54 Hình 3.5: Chức “Dự đốn rời mạng” .55 Hình 3.6: Biểu đồ thể tỷ lệ thuê bao di động 56 MỞ ĐẦU Đầu tiên, mục đích luận văn nghiên cứu thói quen, hành vi khách hàng viễn thơng phương pháp khai phá liệu để tìm quy luật xu hướng họ nhằm hỗ trợ phát triển hoạt động kinh doanh Trong hoạt động kinh doanh ngành nghề hay lĩnh vực vấn đề quản lý khách hàng dựa khảo sát, đánh giá phân loại khách hàng quan trọng Điều nhằm mục đích hiểu họ ai, thuộc đối tượng phục vụ nào, có xu hướng tương lai Điều giúp ích nhiều cho chiến lược phát triển kinh doanh doanh nghiệp Chúng ta thường nghe “Biết người biết ta, trăm trận trăm thắng” “Chia để trị”, câu nói khơng chiến trường mà cịn xác kinh doanh thương trường chiến trường, cạnh tranh khốc liệt, nắm rõ thất bại không hiểu rõ đối thủ khách hàng Chẳng hạn, không nên tư vấn cho khách hàng có kinh tế eo hẹp cho dịch vụ đắt đỏ – có ngoại lệ Hoặc phải có phương án phục vụ khách hàng trung thành khác với khách hàng có nguy rời bỏ Những điều cho thấy việc phân loại khách hàng ảnh hưởng đến chiến lược kinh doanh quan, tổ chức Trong lĩnh vực viễn thông, khách hàng (các thuê bao di động) người mang lại doanh thu trì hoạt động cho nhà cung cấp dịch vụ, việc nghiên cứu, phân loại đánh giá họ để đưa sách phù hợp cần thiết Ngoài ra, lý quan trọng việc phân loại giúp nhà cung cấp tiết kiệm chi phí cơng “giữ chân” thuê bao hoạt động, tác động kịp thời để trì th bao có ý định rời mạng phát triển thuê bao Nhận thấy tầm quan trọng việc đánh giá phân loại khách hàng, tơi xin trình bày luận văn với đề tài “Ứng dụng kỹ thuật phân lớp liệu cho phân loại thuê bao di động Vinaphone” Luận văn sâu vào áp dụng phương pháp phân lớp liệu dựa định, từ đánh giá, phân loại dự đoán hành vi thuê bao di động hoạt động 48 Lý tơi lại chọn tiêu chí “số tiền tốn” mà khơng chọn “thời lượng gọi”? Bởi thời đại mà điện thoại thông minh phổ biến tới người dân, tín hiệu 3G, 4G phủ sóng nước việc đánh giá qua thời lượng gọi không phản ánh hết tần suất sử dụng khách hàng Bởi gọi điện/nhắn tin theo dịch vụ thoại truyền thống, họ cịn gọi thoại/gọi video nhắn tin ứng dụng OTT (Over the top) thông qua mạng internet dùng điện thoại để giải trí, kết nối mạng xã hội Vì tồn khách hàng có số gọi sử dụng để truy cập internet nhiều ngược lại, số tiền toán tỷ lệ thuận với tần suất sử dụng Ngoài ra, chất, lựa chọn yếu tố thời lượng gọi hay số tiền khách hàng phải toán nhau, gọi nhiều – tiền toán nhiều Vì tơi định dựa số tiền toán hàng tháng khách hàng để phân loại, đánh giá dự đoán hành vi họ Cụ thể, xin đề xuất chia năm làm ba đợt đánh giá, bốn tháng xét lần chia thuê bao di động thành ba nhóm khác nhau, cụ thể thực sau: Nhóm thứ nhất: Các thuê bao “Có khả rời mạng” Nhóm gồm thuê bao có hai đặc điểm sau: - Các thuê bao nợ cước hai tháng Thông tin việc nợ cước khách hàng cung cấp phận Kinh doanh TTVT5 Dựa tình hình thực tế kinh nghiệm phận thu hồi nợ cước trung tâm cho thấy người nợ cước hai tháng khách hàng khơng cịn muốn sử dụng dịch vụ nữa, khả rời mạng họ cao Nên lưu ý tới khách hàng họ đối tượng khó để “giữ chân” - Tiếp theo, phân loại theo số tiền khách hàng phải trả hàng tháng, mà tháng số tiền tăng giảm nhiều hay ít, ta gặp vấn đề để xác định số tiền giảm có phải khách hàng chủ động giảm thời gian sử dụng dịch vụ muốn rời mạng hay không? Để giải vấn đề tính 49 giá trị trung bình cộng số tiền khách hàng phải trả bốn tháng xét Sau lấy giá trị trung bình so sánh với tháng đầu kỳ Ví dụ: Xét kỳ thứ gồm bốn tháng 1, 2, 3, 4; Khách hàng Nguyễn Văn A phải toán số tiền theo tháng sau: + Tháng 1: 370,534 VNĐ + Tháng 2: 405,472 VNĐ + Tháng 3: 341,643 VNĐ + Tháng 4: 355,476 VNĐ Như vậy, số tiền trung bình bốn tháng 368,281 VNĐ Số tiền 99.392% so với tháng Điều chứng tỏ hàng tháng số tiền phải trả bốn tháng có tháng tăng, có tháng giảm, tức có tháng khách hàng sử dụng dịch vụ nhiều nhìn chung tần suất sử dụng khách hàng ổn định, không biến động nhiều Lý lấy tháng đầu kỳ làm mốc hoạt động kinh doanh, để đánh giá hiệu lấy mốc thời gian đầu năm/đầu kỳ/đầu quý… làm mốc so sánh với thời điểm xét Rõ ràng giá trị trung bình doanh thu cao hẳn so với tháng chứng minh trình kinh doanh dù doanh thu có tăng có giảm điều cho thấy hoạt động kinh doanh hiệu Việc xác định tần suất sử dụng dịch vụ viễn thơng nhiều hay tương tự Bởi vậy, tiêu chí thứ hai để xếp khách hàng vào nhóm “Có khả rời mạng”, tức dự đốn khách hàng rời mạng tương lai gần người có số tiền trung bình xét bốn tháng có giá trị 70% trở xuống so với số tiền tháng đầu kỳ xét Nhóm thứ hai: Các khách hàng “Ưu tiên 1” Nhóm gồm khách hàng có số tiền trung bình bốn tháng xét từ 110% trở lên so với tháng đầu kỳ 50 Nhóm thứ ba: Các khách hàng “Ưu tiên 2” Nhóm gồm khách hàng có số tiền trung bình bốn tháng cho: 70% < X < 110% Đây nhóm khách hàng chiếm đa số Bởi thực tế, người ta sử dụng điện thoại theo nhu cầu cá nhân, sở thích, mối quan hệ xã hội yêu cầu cơng việc Vì tần suất sử dụng họ tăng/ giảm khơng đáng kể theo tháng, kéo theo số tiền toán tăng/ giảm theo coi ổn định Vì thế, có biến động giảm khoảng 30% góc nhìn kinh doanh, phải đặt câu hỏi sao, nhiều khả họ dùng thêm dịch vụ khác khơng hài lịng với dịch vụ Việc lựa chọn giảm 30% số tiền toán trung bình làm điều kiện để xếp thuê bao vào nhóm “Có khả rời mạng” có lý Một mục đích phân loại thuê bao di động kịp thời đoán trước khả rời mạng số thuê bao để có đủ thời gian đưa biện pháp nghiệp vụ nhằm “giữ chân” họ Việc họ giảm tần suất sử dụng xuống gần 1/3 vòng bốn tháng đủ để cảnh báo nhà mạng, điều cho thấy họ gặp vấn đề khơng hài lịng dịch vụ Nếu họ giảm 1/2 có lẽ muộn, khó để thay đổi định kiến họ nhà cung cấp, việc họ rời mạng sớm hay muộn Khi biện pháp đưa vơ ích, gây tốn cơng sức, thời gian chi phí Tuy có trường hợp cá biệt, chẳng hạn tồn khách hàng có tần suất sử dụng tăng giảm bất thường: Tháng dùng ổn định, tháng dùng ít, tháng dùng nhiều, tháng dùng bình thường Tuy nhiên khách hàng thiểu số giải thích trên, khách hàng dùng điện thoại dựa mục đích họ Hơn dù tăng hay giảm bất thường giá trị trung bình phản ánh tần suất sử dụng điện thoại họ Ngoài ra, việc dựa giá trị trung bình số tiền để đánh giá giá trị khách hàng dự đoán rời mạng cịn giải vấn đề Đó khách hàng dùng gói cước khác có số tiền tốn khác tùy theo nhu cầu họ Giả sử người hàng tháng dùng hết khoảng triệu tiền điện thoại, 2-3 tháng 51 sau họ dùng hết 800-900 nghìn đồng coi bình thường Nhưng người hàng tháng dùng hết khoảng 300 nghìn, 2-3 tháng sau họ giữ mức 100-200 nghìn lại vấn đề cần lưu ý Như ta thấy, mức tiền giảm (100-200 nghìn đồng) với đối tượng mức tiền giảm coi bình thường bất thường Ranh giới việc xác định rõ giảm tiền bình thường, giảm tiền la bất thường mập mờ Việc dựa vào giá trị trung bình giải vấn đề Chúng ta khơng cần quan tâm họ sử dụng dịch vụ nhiều thêm hay tiền tháng, cần quan tâm giá trị tiền tốn trung bình tháng xét phần trăm so với số tiền họ toán tháng đầu kỳ, điều đủ để phản ánh tần suất sử dụng họ có ổn định hay khơng 3.5 Cài đặt Tại mục sử dụng liệu thông tin khách hàng có làm đầu vào cho mơ hình Sử dụng ứng dụng WEKA thuật toán định để thực nghiệm, với ưu điểm phân tích, thời gian chạy liệu nhanh, định hồn tồn phù hợp với mơ hình dự đốn Tập liệu ban đầu chia thành tập huấn luyện (training) tập kiểm chứng (test) theo nguyên tắc sau: - Tập huấn luyện: Chứa 65% số liệu đầu vào - Tập kiểm chứng: Chứa 35% số liệu đầu vào - Thuật toán phân lớp: Cây định theo thuật tốn C.45 chương trình hóa dựa cơng cụ Weka J48 Trước mắt với lượng liệu khách hàng chưa nhiều, với mục đích thử nghiệm, tác giả luận văn bước đầu phân chia làm ba nhóm xác định luật phân lớp trích rút sau bước học sau: - IF “Nợ cước” > tháng AND “Trung bình tháng > 70% so với tháng đầu” THEN “Sẽ rời mạng” - IF “Trung bình tháng ≥ 110% so với tháng đầu” THEN “Ưu tiên 1” - IF “Trung bình tháng < 110% so với tháng đầu” THEN “Ưu tiên 2” 52 Nợ cước >1 tháng? Đúng Sai Trung bình tháng > 70% so với tháng đầu? Sẽ rời mạng Đúng Sai Trung bình tháng ≥ 110% so với tháng đầu? Đúng Ưu tiên Sai Sẽ rời mạng Ưu tiên Hình 3.2: Cây định phân loại thuê bao di động dựa số tiền toán Từ file chứa thông tin cụ thể khách hàng hình 3.1, lựa chọn thuộc tính cần thiết cho việc phân loại khách hàng, tránh đụng chạm đến thông tin riêng tư họ lịch sử gọi Các thuộc tính lựa chọn bao gồm: Số thứ tự; Mã khách hàng; Họ, tên đệm; Tên; Địa chỉ; Số thuê bao; Số tiền toán tháng xét (dữ liệu mẫu ghi lại tháng 5, 6, 7, 8); Nợ cước; Số tháng nợ cước; Số tiền nợ Những thuộc tính nhập dạng file Excel có định dạng *.xlsx Hình 3.3: File đầu vào sau chọn lọc thuộc tính 53 Sau có liệu đầu vào với định dạng trên, chương trình viết Python phân tích file liệu đầu vào Từ định dùng để dự đốn hình 3.2, rút luật để phân loại thuê bao di động Đoạn code thể việc phân loại thuê bao di động dựa số tiền tốn hàng tháng khách hàng trình bày cụ thể phần 3.3: def classify(data): total, prior_1, prior_2, leave = [data[0][:]], [data[0][:]], [data[0][:]], [data[0][:]] total[0].extend(['Nhóm khách hàng']) for row in range(1, len(data)): cols = data[row][:] if int(cols[10]) and int(cols[11]) > 1: tmp = data[row][:] tmp[0] = len(leave) leave.append(tmp) cols.append('Dự đoán rời mạng') else: means_postage = (cols[6] + cols[7] + cols[8] + cols[9]) / postage_rate = means_postage / cols[6] if postage_rate >= 1.1: tmp = data[row][:] tmp[0] = len(prior_1) prior_1.append(tmp) cols.append('Nhóm Ưu tiên 1') elif postage_rate > 0.7: tmp = data[row][:] tmp[0] = len(prior_2) prior_2.append(tmp) cols.append('Nhóm Ưu tiên 2') else: tmp = data[row][:] tmp[0] = len(leave) leave.append(tmp) cols.append('Dự đoán rời mạng') total.append(cols) return total, prior_1, prior_2, leave Giao diện chương trình: 54 Hình 3.4: Giao diện chương trình phân loại khách hàng 3.6 Thử nghiệm đánh giá 3.6.1 Thử nghiệm Như đề cập phần 3.2, khách hàng chia thành nhóm khác nhau: Nhóm “Ưu tiên 1”; Nhóm “Ưu tiên 2”; cuối nhóm xếp vào thuê bao rời mạng Từ giao diện lựa chọn file liệu đầu vào nút “Browse” Tiếp theo chọn “Phân tích”, chương trình tiến hành đọc hiển thị giao diện chương trình thơng tin file đầu vào với số liệu “Tổng số thuê bao”, “Số thuê bao ưu tiên 1”, “Số thuê bao ưu tiên 2”, “Số thuê bao dự đốn rời mạng” hình 3.4 55 Cũng giao diện này, muốn xem nhóm thuê bao hiển thị theo danh sách riêng biệt chọn nút tương ứng với nhóm Ví dụ muốn biết thuê bao rời mạng chọn chức “Dự đốn rời mạng” giao diện chương trình Thể hình 3.5 bên Hình 3.5: Chức “Dự đốn rời mạng” Nếu muốn xuất liệu dạng file Excel, ta chọn chức “Export”, lựa chọn vị trí lưu máy tính bấm “Save” để lưu lại Chương trình hỗ trợ vẽ biểu đồ dựa số liệu đầu vào, giúp có nhìn trực quan khái quát 56 Hình 3.6: Biểu đồ thể tỷ lệ thuê bao di động Biểu đồ cho thấy tỷ lệ nhóm thuê bao nào, từ đánh giá tình hình kinh doanh khả rời mạng thuê bao Cụ thể: Sau xét bốn tháng gồm tháng 5, tháng 6, tháng 7, tháng theo liệu mẫu đầu vào, thuê bao di động phân loại sau: - Số lượng thuê bao thuộc nhóm Ưu tiên chiếm 12% - Số lượng thuê bao thuộc nhóm Ưu tiên chiếm 72% - Số lượng thuê bao dự đoán rời mạng chiếm 16% Như vậy, phân tích phần 3.3, dựa biểu đồ hình 3.6 số lượng người dùng thuộc nhóm “Ưu tiên 2” chiếm đa số, họ người dùng phổ thông, sử dụng theo nhu cầu hàng ngày Vì kết luận thuê bao 57 có tần suất sử dụng dịch vụ viễn thông ổn định, theo liệu đầu vào có tăng giảm số tiền tốn qua tháng nhìn chung chấp nhận Nhóm họ có khả rời mạng Nhóm “Ưu tiên 1” coi thuê bao có tần suất sử dụng tăng dần theo tháng Nhóm thuê bao chiếm thiểu số ( chiếm 12%) Khả rời mạng nhóm thấp Nhóm “Dự đốn rời mạng” chiếm 16%, người thuộc nhóm có số người nợ cước tháng, người có đặc điểm có khả rời mạng Tỷ lệ nhóm nhiều chút so với nhóm “Ưu tiên 1”, dấu hiệu không tốt, phận kinh doanh cần tìm hiểu nguyên nhân để giảm thiểu tối đa tỷ lệ Độ xác dự đốn: Về bản, chương trình giải toán phân loại khách hàng, đánh giá giá trị dự đốn rời mạng Dựa vào tình hình thực tế, thuê bao nợ cước thường thuộc nhóm có khả rời mạng cao nhất, ngược lại thuê bao có tần suất sử dụng tăng dần có ý định rời mạng Tuy nhiên việc dự đốn rời mạng phải nói “dự đốn” để đưa biện pháp phịng ngừa kịp thời chưa thể khẳng định khách hàng nhóm “Có thể rời mạng” chắn rời mạng Nhưng, với số liệu dao động bất thường theo tháng, thuê bao ý kiểm chứng điều kiện thực tế 3.6.2 Đánh giá Theo đánh giá khách quan chương trình cịn thô sơ tập trung vào vấn đề phân loại thuê bao di động, từ đánh giá giá trị dự đoán hành vi thuê bao mà Tuy kết đưa thỏa mãn toán phân loại, thực tế nhiều vấn đề như: Dữ liệu đa dạng nhiều thành phần, vấn đề liên kết chương trình với sở liệu khách hàng VNPT Quảng Ninh để trích xuất liệu cần thiết cần thu thập thông tin tất dịch vụ di động 58 hoạt động địa bàn, chức đọc, ghi, in, tra cứu, xử lý liệu tự động… cần bổ sung Ngoài ra, bước đầu biểu đồ chương trình thể tỷ lệ nhóm thuê bao, dựa vào nhận xét hoạt động kinh doanh bốn tháng lần Tuy nhiên muốn so sánh đợt đánh giá năm phải so sánh biểu đồ rời rạc, chưa có biểu đồ đánh giá chung cho năm Thêm nữa, số lượng thuê bao rời mạng thường chiếm tỷ lệ nhỏ so với tổng số thuê bao, điều ảnh hưởng đến độ xác so sánh thống kê đợt đánh giá khác Để giải vấn đề này, tác giả nghiên cứu hồn thiện chương trình tương lai với liệu lớn hơn, đa dạng muốn ứng dụng vào thực tế, điều kiện thực luận văn chưa cho phép làm điều 3.7 Kết luận Qua cài đặt, thử nghiệm đánh giá chương 3, luận văn giải vấn đề phân loại thuê bao di động phương pháp phân lớp liệu Với ý tưởng so sánh giá tiền trung bình xét theo bốn tháng lần với giá tiền tháng xét bốn tháng giải toán Từ liệu thử nghiệm đầu vào cho kết phù hợp, với mong đợi người viết Tuy nhiên liệu thử nghiệm, số lượng thuê bao chưa nhiều, dịch vụ chưa đa dạng nên chương trình cần phải tiếp tục kiểm tra liệu lớn để đánh giá cách xác 59 KẾT LUẬN Luận văn đạt kết sau: - Nghiên cứu, tìm hiểu phân lớp liệu số phương pháp phân lớp liệu phổ biến Rút ưu điểm, nhược điểm phương pháp Từ chọn phương pháp phân lớp liệu dựa định để giải vấn đề phân loại thuê bao di động Trình bày quy tắc số thuật toán xây dựng định - Ứng dụng định viễn thông xác định giá trị khách hàng dự đoán rời mạng Nghiên cứu so sánh hai thuật toán dự đoán rời mạng kỹ thuật sử dụng định hồi quy logistic để làm rõ ưu định - Đánh giá thực trạng vấn đề tồn tại TTVT5 Móng Cái Thu thập/ xử lý liệu đề xuất giải pháp phân loại thuê bao di động dựa số tiền khách hàng toán hàng tháng, thực thiện song song với phương pháp phân loại cũ triển khai - Chia năm làm ba đợt đánh giá, đợt xét bốn tháng Việc đánh giá giá trị khách hàng dự đốn th bao rời mạng tương lai sau: o Các khách hàng nợ cước tháng bị xếp vào nhóm “Có thể rời mạng” o Tính giá trị trung bình số tiền mà khách hàng phải toán bốn tháng xét Nếu giá trị 70% trở xuống so với tháng đầu kỳ xét thuê bao thuộc nhóm “Có thể rời mạng” o Nếu giá trị trung bình số tiền mà khách hàng phải toán bốn tháng xét lớn 110% so với tháng đầu kỳ xếp thuê bao vào “Nhóm Ưu tiên 1” o Các thuê bao lại, tức thuê bao có số tiền trung bình bốn tháng thỏa mãn: 70% < X < 110% xếp vào “Nhóm Ưu tiên 2” 60 Từ liệu thử nghiệm, chương trình cho kết thỏa mãn yêu cầu đặt - Trong số 50 khách hàng liệu mẫu, chương trình xác định được: o Số thuê bao Ưu tiên 1: Có (chiếm 12.00%) o Số thuê bao Ưu tiên 2: Có 36 (chiếm 72.00%) o Số thuê bao dự đốn rời mạng: Có (chiếm 16.00%) - Biểu đồ thể tỷ lệ nhóm thuê bao với cách trực quan dễ hiểu Những hạn chế: - Do dừng lại liệu thử nghiệm, việc thu thập thông tin thuê bao di động khó khăn nên số lượng liệu cịn chưa đa dạng tập trung thuê bao sử dụng dịch vụ trả sau Vì chưa mơ hết tình có khả xảy thực tế - Việc xử lý liệu thô để trích chọn thuộc tính cần thiết để tinh chế thành liệu đầu vào cho ứng dụng phân loại cịn phải thực thủ cơng, chưa có tiện ích xử lý tự động Ngoài chưa xây dựng hệ thống lưu trữ liệu dành riêng cho ứng dụng - Giao diện chương trình cịn thơ sơ, hướng đến mục tiêu đề phân loại thuê bao di động dự đốn rời mạng chính, chưa có thêm tiện ích - Chưa đưa biểu đồ chung để so sánh, đánh giá đợt năm Phương hướng phát triển: - Ứng dụng phân loại, đánh giá dự đốn với tập liệu đa dạng hơn, khơng cịn gói gọn liệu thuê bao trả sau - Vấn đề lưu trữ liệu hoàn thiện, khơng cịn file rời rạc mà lưu trữ tập trung khoa học để quản lý dễ dàng - Nghiên cứu biện pháp xử lý liệu thơ thành liệu tinh chế để tích hợp vào chương trình, khơng cần thao tác thủ cơng qua Microsoft Excel - Thiết kế lại giao diện thân thiện với người dùng hơn; Biểu diễn số liệu đầu khoa học để dễ dàng theo dõi tình hình rời mạng phát triển theo tháng; Thêm số tiện ích tra cứu, tìm kiếm, in ấn… 61 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Dương Hùng (2013) Luận văn Ứng dụng định để phân loại khách hàng vay vốn ngân hàng thương mại Học viện công nghệ bưu viễn thơng, Hà Nội [2] Nguyễn Thị Thùy Linh (2005) Luận văn Nghiên cứu thuật toán phân lớp liệu dựa định, Đại học Công nghệ, Hà Nội [3] Nguyễn Đặng Thế Vinh (2014) Luận văn Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT, Đại học quốc tế Hồng Bàng, TP.Hồ Chí Minh Tài liệu tiếng Anh [4] Anurag Srivastava, Eui-Hong Han, Vipin Kumar, Vieet Singh (1999) Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, Dordrecht, Netherlands [5] Ho Tu Bao (1999) Chapter 3: Data mining with Decision tree Institute of Information Technology National Center of Natural Science and Technology [6] Jim Gray (2000) Data mining – Concepts and Techniques, Chapter – Classification and Prediction, Morgan Kaufmann Publishers, Massachusetts, US [7] Jiawei, Micheline Kamber, Jian Pei (2011) Data mining – Concepts and Techniques 3rd edition, Morgan Kaufmann Publishers, Massachusetts, US [8] M Balasubramanian, M Selvarani (2014) “Churn prediction in mobile telecom system using data mining tecniques”, International Journal of Scientific and Research Publications, 4(4), pp.2-4 [9] Mohammed Hassouna, Ali Tarhini, Tariq Elyas, Mohammed Saeed AbouTrab (2015) “Customer churn in Mobile Markets: A comparison of Techniques”, International Business Research, 8(6), pp.225-233 62 [10] Kiran Dahiya, Kanika Tawar (2015) “Customer churn prediction in Telecommunication industries using Data mining techniques – A review”, International Journal of Advanced Research in Computer Science and Software Engineering, 5(4), pp.419-425 [11] Witten, I.H and E Frank (2011) Data Mining: Practical Machine Learning Tools and Techniques 3rd edition, Morgan Kaufmann Publishers, Massachusetts, US ... tài ? ?Ứng dụng kỹ thuật phân lớp liệu cho phân loại thuê bao di động Vinaphone? ?? Luận văn sâu vào áp dụng phương pháp phân lớp liệu dựa định, từ đánh giá, phân loại dự đoán hành vi thuê bao di động. .. Quyết Thắng ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN LOẠI THUÊ BAO DI ĐỘNG VINAPHONE Chuyên ngành: Hệ thống thông tin Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI... dụng định phân loại thuê bao di động Để giải vấn đề phân loại thuê bao di động phân lớp liệu chương trình bày số phương pháp có định Câu hỏi đặt ngành viễn thông, phân loại thuê bao di động để