1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone

44 214 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,21 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒN MỘT HÌNH KẾT HỢP HỌC GIÁM SÁT BÁN GIÁM SÁT CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG NGUY RỜI MẠNG VINAPHONE LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ HỒN MỘT HÌNH KẾT HỢP HỌC GIÁM SÁT BÁN GIÁM SÁT CHO BÀI TỐN DỰ BÁO KHÁCH HÀNGNGUY RỜI MẠNG VINAPHONE Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số:60.48.01.04 LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2015 iii Lời cảm ơn Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, người Thầy bảo hướng dẫn tận tình cho tơi suốt q trình từ sinh viên, tới học thạc sĩ suốt trình nghiên cứu thực luận văn Tôi xin chân thành cảm ơn dậy bảo, giúp đỡ, tạo điều kiện Thầy, trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội suốt q trình tơi học tập Trường Tơi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi q trình nghiên cứu Thầy, Cơ, anh chị phòng thí nghiệm Khoa học liệu Công nghệ tri thức (DS&KTLAB) Đề tài ĐHQGHN QG.14.13 Cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người bên lúc khó khăn, động viên, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Tác giả Nguyễn Thị Hồn i Lời cam đoan Tơi xin cam đoan luận văn hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu toán dự báo khách hàng rời mạng nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu đưa không chép nguyên từ nguồn tài liệu khác ii Mục lục Lời cảm ơn i Danh mục hình vẽ bảng biểu v Danh mục từ viết tắt vi Mở đầu Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng 1.1.Bài toán dự đoán khách hàng rời mạng 1.2.Vai trò khai phá liệu quản lý khách hàng rời mạng 1.3 Một số nghiên cứu cho toán dự đoán khách hàng rời mạng 1.3.1 Đánh giá hiệu hình 1.3.2 Một số hình nghiên cứu dự đốn khách hàng rời mạng 1.4.Tóm tắt chương Chƣơng 2: Một số hình điển hình cho tốn dự đốn khách hàng rời mạng9 2.1 hình dựa luật cho toán dự đoán khách hàng rời mạng dịch vụ viễn thông 2.1.1 Giới thiệu hình phân lớp dựa luật 2.1.2 hình sinh luật 2.1.3 Phân lớp 12 2.1.4 Kết đánh giá hình 13 2.2 hình học lai cho tốn dự đốn khách hàng rời mạng 15 2.3 Tóm tắt chương 21 Chƣơng 3: hình kết hợp giám sát bán giám sát cho toán dự đoán khách hàng rời mạng 22 3.1 Tiếp cận hình toán 22 3.2 Tiền xử lý liệu 24 3.3 hình học giám sát dựa thuật toán K-NN 24 3.4 hình học bán giám sát dựa thuật toán self-training 25 3.5 hình học giám sát dựa hệ thống luật: 27 3.6 Phân lớp 28 Tổng kết chương 29 iii Chƣơng 4: Thực nghiệm đánh giá kết 30 4.1 Môi trường thực nghiệm: 30 4.2 Quá trình thực nghiệm 30 4.3 Kết thực nghiệm 32 4.4 Đánh giá kết hướng nghiên cứu 34 4.5.Tóm tắt chương 34 Tài liệu tham khảo 35 iv Danh mục hình vẽ bảng biểu Hình 1: So sánh độ AUC hình 14 Hình 2: So sánh AUC hình CRL DMEL cho tỉ lệ churn rate khác 15 Hình 3: So sánh AUC cho hình CRL DMEL với tập liệu UCI 15 Hình 4: Giải thuật sinh luật FOIL 17 Hình 5: Giải thuật sinh luật FOIL 18 Hình 6: hình dự đoán lai cua Ying Hwuang cộng 18 Hình 7: So sánh đường cong ROC, AUC với kỹ thuật phân lớp khác 21 Hình 8: So sánh hiệu hình lai đề xuất hình lai khác dựa ROC 21 Hình 9: hình kết hợp học giám sát bán giám sát 23 Hình 10: Mộtdụ phân lớp KNN 25 Hình 11: hình học bán giám sát Self-training 26 Hình 12: Sơ đồ thuật toán Self-training 27 Hình 13: Giả mã học luật FOIL 28 Hình 14: Giả mã học luật FOIL 28 Bảng 1: Tỉ lệ rời mạng mạng Hàn Quốc năm 2007-2008 Bảng 2: Chức năng, kỹ thuật khai phá liệu ứng dụng Bảng 3: Ma trận Confusion Bảng 4: Tập liệu cho hình dự đoán dựa luật 13 Bảng 5: Tập liệu hình Ying Hwuang cộng 20 Bảng 6: Kết hình Ying Hwuang cộng sử dụng độ đo AUC 20 Bảng 7: So sánh hình Ying Hwuang cộng với số hình khác 20 Bảng 8: Phần mềm sử dụng luận văn 30 Bảng 9: Bảng tả liệu mẫu 31 Bảng 10: Trọng số số thuộc tính liệu 31 Bảng 11: Ma trận Confusion 33 Bảng 12: Kết thực nghiệm với trọng số weight2 33 Bảng 13: Kết thực nghiệm với trọng số weight1 34 v Danh mục từ viết tắt STT Từ/cụm từ Tên viết tắt K Nearest Neigbours KNN Area Under ROC AUC Support Vector Machines SVM Classification by Rules Learning CRL Data Mining by Evolutionary Learning DMEL True Prediction/False Prediction TP/FP First Order Inductive Learning FOIL vi Mở đầu Sự phát triển mạnh mẽ công nghệ viễn thông năm gần mở nhiều hội cho nhà cung cấp dịch vụ mạng di động Song song với việc mở rộng phát triển khách hàng mới, việc quản lý khách hàng cũ nhiệm vụ quan trọng Dự báo khách hàng nguy rời mạng phần trọng yếu quản lý khách hàng rời mạng Xác định khách hàng nguy rời mạng giúp nhà cung cấp dịch vụ kịp thời đưa biện pháp, phương thức để quản lý, chăm sóc khách hàng, tránh để khách hàng rời bỏ dịch vụ Nhiều hình cho tốn dự báo khách hàng rời mạng nghiên cứu phát triển Các cơng trình nghiên cứu dự báo khách hàng rời mạng công bố hội nghị tiếng Elsevier1 áp dụng thực tế nhà mạng lớn Taiwan Mobile Đài Loan, China Mobile, Trung Quốc, T&T Mỹ Nội dung luận văn thạc sĩ “Một hình kết hợp học giám sát bán giám sát cho toán dự báo khách hàng nguy rời mạng Vinaphone” tập trung vào nghiên cứu, khảo sát, đánh giá đề xuất hình dự đốn khách hàng rời mạng, bên cạnh đó, áp dụng hình cho dự đốn khách hàng nguy rời bỏ mạng viễn thơng VinaPhone Ngồi phần mở đầu kết luận, luận văn đƣợc tổ chức thành chƣơng nhƣ sau: Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng giới thiệu khái quát dự đoán khách hàng rời mạng viễn thơng, khái niệm liên quan Trình bày vai trò khai phá liệu dự đoán khách hàng rời mạng Một số nghiên cứu toán dự đoán khách hàng rời mạng Chƣơng 2: Một số hình điển hình cho tốn dự báo khách hàng rời mạng giới thiệu số hình điển hình cho tốn dự bao khách hàng rời mạng Chƣơng 3: Kết hợp học giám sát bán giám sát cho toán dự đoán khách hàng rời mạng phân tích, đề xuất, trình bày hình kết hợp học bán giám sát self-training học giám sát dựa luật cho toán dự đoán khách hàng nguy rời mạng Chƣơng 4: Thực nghiệm đánh giá kết trình bày trình thực nghiệm luận văn, đưa số đánh giá hiệu hình, nhận xét kết đạt Chƣơng 1: Khái quát toán dự đoán khách hàng rời mạng Bài toán dự đoán khách hàng rời mạng Trong năm gần đây, nhiều thay đổi lớn cơng nghiệp viễn thông mở rộng thị trường, dịch vụ công nghệ dẫn đến cạnh tranh khốc liệt thị trường viễn thông Việc rời bỏ mạng khách hàng làm sụt 1.1 giảm lượng lớn dịch vụ viễn thơng khiến trở thành vấn đề nghiêm trọng nhà cung cấp dịch vụ Khách hàng rời mạng (customer churn) xem khách hàng giá trị rời bỏ sử dụng dịch nhà mạng sang sử dụng dịch vụ nhà mạng khác Quản lý khách hàng rời mạng (churn management) sách xử lý nhà mạng nhằm giữ chân khách hàng nguy rời mạng Một thách thức “churn management” dự đoán “churner” Bài toán dự đoán khách hàng rời mạng (churn prediction) tìm “churner” dựa thuộc tính khách hàng như: liệu hợp đồng, thông tin khách hàng, log sử dụng dịch vụ, chi tiết gọi, liệu khiếu nại, thơng tin hóa đơn tốn Theo nghiên cứu thị trường Berson, Smitch cộng năm 2000 [C1_06], tỉ lệ khách hàng ngưng sử dụng dịch vụ nhà mạng di động lên tới 2% tháng Điều nghĩa nhà mạng gần ¼ lượng khách hàng năm, nữa, nhà mạng Châu Á phải đối mặt với nhiều thách thức rời mạng nhà mạng khác giới Hình 1: Tỉ lệ rời mạng số mạng Châu Âu năm 2010-2011(1) Trên thực tế, nhà mạng phân đoạn khách hàng họ dựa lợi ích mà khách hàng mang lại quản lý khách hàng dựa phân đoạn khách hàng lợi ích Tuy nhiên, công nghiệp dịch vụ viễn thông tiêu Chƣơng 3: hình kết hợp giám sát bán giám sát cho toán dự đoán khách hàng rời mạng 3.1 Tiếp cận hình tốn Trong chương hai, luận văn trình bày hình dự đốn dựa học luật hình dự đốn lai Ying Hwuang cộng sự, so sánh kết thử nghiệm hình so với số hình đơn khác Nhận thấy rằng, hình lai đem lại kết khả quan hình khác với tập liệu, độ đo đánh giá kết Khác với hình lai, hình học dựa luật lại hay xử dụng tính đơn giản rõ ràng Tuy nhiên, tập liệu mẫu vấn đề cần xem xét Dữ liệu gán nhãn thường ít, liệu chưa gán nhãn lại nhiều Vì vậy, hình kết hợp đề xuất sử dụng học bán giám sát để giải vấn đề tập liệu mẫu Bên cạnh đó, lĩnh vực dự đốn khách hàng rời mạng viễn thông, liệu chứa trường thông tin: bao gồm thông tin dạng chữ thơng tin dạng số Vì vậy, hình đề xuất bước tiền xử lý liệu trước đưa vào hình học hình kết hợp học giám sát bán giám luận văn đề xuất gồm pha sau: Pha 1: Tiền xử lý liệu: Loại bỏ trường liệu gây nhiễu, biểu diễn liệu thành dạng liệu rời rạc, đánh trọng số cho trường liệu Pha 2: Đào tạo hình học lai: Kết hợp hình học bán giám sát Self-training học giám sát dựa luật Pha 3: Phân lớp (gán nhãn) liệu: Phân lớp cho tập liệu test dựa hình học lai Trong phần tiếp theo, luận văn làm rõ pha hình 22 hình tốn: Hình 10: hình kết hợp học giám sát bán giám sát 23 3.2 Tiền xử lý liệu Quá trình tiền xử lý liệu áp dụng rộng rãi khai phái liệu vấn đề phân tích thơng kê Dữ liệu nghiên cứu thường chứa tập ký tự thuộc tính liên tục, liệu khơng phù hợp với phương pháp học quy nạp Mục đích q trình chuẩn hóa liệu chia các thuộc tính liên tục thành thuộc tính khơng liên tục (rời rạc) trình thường sử dụng bước hàm tuyến tính học quy nạp Kết trình rời rạc hóa liệu biểu diễn liệu thành liệu mà thuật tốn hiểu Ví dụ: Khách hàng thuộc tính loại khách hàng bao gồm: Khách hàng cá nhân khách hàng doanh nghiệp Với liệu này, đưa vào hệ thống không hiểu được, phải biểu diễn lại dạng số với giá trị number Trong hình tốn, q trình rời rạc hóa liệu gồm bước:    Làm liệu: Lựa chọn thuộc tính ảnh hưởng tới hành vi khách hàng, loại bỏ thuộc tính không cần thiết, gây nhiễu tới kết Dữ liệu hữu ích bao gồm: o Dữ liệu loại khách hàng: Khách hàng cá nhân, khách hàng doanh nghiệp o Dữ liệu cước phát sinh: Cước phát sinh tháng gần o Dữ liệu thuộc tính gọi: Số gọi đi, số gọi đến, số nhắn tin, số lưu lượng data sử dụng, lượng gọi đi, thời lượng gọi đến o Dữ liệu tốn: loại hình tốn, tiền nợ o Dữ liệu sử dụng dịch vụ: số ngày hoạt động tháng, tình trạng th bao (khóa chiều, khóa chiều, mở chiều) o Dữ liệu gói cước, khuyến mại: Số gói cước sử dụng, số tiền khuyến mại Biểu diễn thuộc tính liên tục thành thuộc tính rời rạc, phù hợp với q trình học Cụ thể thuộc tính khơng phải số biểu diễn dạng số Đánh trọng số cho thuộc tính khách hàng: Thuộc tính quan trọng đánh trọng số cao so với thuộc tính khơng quan trọng Trong hình tốn, dựa vào q trình phân tích tốn, miền ứng dụng mà đánh giá thuộc tính quan trọng Cụ thể, miền liệu viễn thơng, thuộc tính gọi liệu cước phát sinh quan trọng nhất, tiếp thuộc tính nợ, liệu sử dụng dịch vụ, liệu tốn, liệu gói cước, khuyến mại, liệu khách hàng 3.3 hình học giám sát dựa thuật toán K-NN K-Nearest Neighbors algorithm (KNN) sử dụng phổ biến lĩnh vực Data Mining KNN phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần xếp lớp với tất đối tượng Training Data Một đối tượng phân lớp dựa vào k láng giềng K số nguyên dương xác định trước thực thuật toán Người ta thường dùng khoảng cách Euclidean, Cosine để tính khoảng cách đối tượng 24 Thuật toán KNN dùng phân lớp tả sau:  Xác định giá trị tham số K (số láng giềng gần nhất)  Tính khoảng cách đối tượng cần phân lớp với tất đối tượng training data (thường sử dụng khoảng cách Euclidean, Cosine…)  Sắp xếp khoảng cách theo thứ tự tăng dần xác định k láng giềng gần với đối tượng cần phần lớp  Lấy tất lớp k láng giềng gần xác định  Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho đối tượng Trong khuông khổ luận văn này, tác giả lấy k = 1/3 số mẫu độ đo tương đồng lớn với liệu test làm liệu so sánh gán nhãn cho liệu test Hình 11: Mộtdụ phân lớp KNN Mộtdụ đơn giản phân lớp K-NN minh họa hình Trong đó, nút tròn màu đỏ thể lớp A, nút tròn màu xanh thể lớp B, nút tròn màu trắng dấu hỏi liệu chưa gán nhãn Với tham số k=9, thuật tốn KNN tìm nút khoảng cách gần nút màu trắng Nút màu trắng khoảng cách gần tới nút màu đỏ nút màu xanh, dễ dàng nhận thấy hình, nút màu trắng thuộc lớp A (lớp chứa nút màu đỏ) Để chọn tham số k tốt cho hình phân lớp, thuật tốn cần thực nghiệm nhiều giá trị k khác nhau, với k lớn độ xác cao 3.4 hình học bán giám sát dựa thuật tốn self-training Trong hình học giám sát liệu mẫu gán nhãn Trong với hình học khơng giám sát, liệu mẫu chưa gán nhãn Học bán giám sát kết hợp hình học giám sát hình học khơng giám sát Như học bán giám sát xem là: + Học giám sát cộng thêm liệu chưa gán nhãn 25 + Học không giám sát cộng thêm liệu gán nhãn Học bán giám sát cách học sử dụng thơng tin chứa liệu chưa gán nhãn tập liệu huấn luyện.Các thuật tốn học bán giám sát nhiệm vụ mở rộng tập liệu gán nhãn ban đầu Hiệu thuật toán phụ thuộc vào chất lượng mẫu gán nhãn thêm vào vòng lặp đánh giá dựa hai tiêu chí:  Các mẫu thêm vào phải gán nhãn cách xác  Các mẫu thêm vào phải mang lại thông tin hữu ích cho phân lớp (hoặc liệu huấn luyện) Thuật tốn Self-Training thể nói rằng, ý tưởng sử dụng liệu chưa gán nhãn phân lớp thiết lập self-training Ý tưởng self-training xuất từ năm 1960 Đó thuật tốn bọc (wrapper-algorithm) sử dụng lặp nhiều lần phương pháp học giám sát Hình vẽ biểu diễn nhìn trực quan thiết lập self-training Hình 12: hình học bán giám sát Self-training Self-training kỹ thuật học bán giám sát sử dụng phổ biến, với phân lớp (classifier) ban đầu huấn luyện số lượng nhỏ liệu gán nhãn Sau đó, sử dụng phân lớp để gán nhãn liệu chưa gán nhãn Các liệu gán nhãn độ tin cậy cao (vượt ngưỡng đó) nhãn tương ứng chúng đưa vào tập huấn luyện (train set) Tiếp đó, phân lớp học lại tập huấn luyện thủ tục lặp tiếp tục Ở vòng lặp, học chuyển vài mẫu độ tin cậy cao sang tập liệu huấn luyện với dự đoán phân lớp chúng Tên gọi self-training xuất phát từ việc sử dụng dự đốn để dạy Sơ đồ thuật tốn self-training tả hình 4: 26 Đặt: L : Tập liệu gán nhãn U : Tập liệu chưa gán nhãn Lặp - Huấn luyện phân lớp h tập liệu huấn luyện L Sử dụng h để phân lớp liệu tập U Tìm tập U’ U độ tin cậy cao L ← L + U’ U ← U – U’ Hình 13: Sơ đồ thuật tốn Self-training Trong hình tốn, luận văn sử dụng hình phân lớp KNN làm gán nhãn nhân Tại vòng lặp Self-training, lấy 5% liệu độ xác cao để bổ sung vào tập mẫu 3.5 hình học giám sát dựa hệ thống luật: Những hệ thống phân lớp hệ sử dụng luật phân lớp cách sử dụng người dùng định nghĩa luật Một hệ tiếng CONSTRUE P.J.Hayes cộng (một nhóm nghiên cứu đại học Carnegie Mallon University) phát triển vào năm 1980 để phân lớp tin cho hãng tin Reauter Hệ thống sử dụng luật dạng chuẩn rời Hệ thống phân lớp dựa luật thường cho kết tương đối cao trường hợp người dùng tạo đầy đủ luật, bao gồm tất trường hợp xảy cho phân lớp Tuy nhiên, phương pháp điểm hạn chế luật mâu thuẫn nhau, trường hợp mà luật bỏ sót Ngồi ra, liệu thay đổi phải cập nhật sửa đổi lại hệ thống luật phân lớp Trong hình luận văn, sử dụng thuật toán FOIL để sinh tập luật FOIL đề xuất phát triển Quinlan [Quinlan, 1990] Giả mã FOIL giới thiệu hình FOIL học tập liệu bao gồm hai lớp, lớp gọi “tích cực” FOIL học tả lớp lớp “tích cực” Giải thuật FOIL: FOIL (Examples) 11 Pos ← Positive Examples; 12 Neg ← Negative Examples; 13 Learned_rules ←  ; 14 While Pos is not empty then 15 Rule ← Learn-A-Rule (Examples, Neg); 16 learned_rules ← learned_rules Rule; 17 Pos ← Pos – {Positive examples covered by Rule}; 27 18 Examples ← Examples – {any examples covered by Rule}; 19 End while 20 return learned_rules; Hình 14: Giả mã học luật FOIL Giải thuật học luật: Learn-A-Rule (Examples, Neg) Rule ← the most general positive rule; 10 repeat 11 Candidate_cond ← generate candidate conditions for Rule; 12 Best_cond ← max(Foil_Gain); 13 Add Best_cond to the antecedent of Rule; 14 Covered_Neg ← negative examples that are covered by Rule; 15 Until there is no negative examples can be covered; 16 Return Rule; Hình 15: Giả mã học luật FOIL Trong hình lai này, lớp mẫu “tích cực” sinh tập luật tương ứng theo FOIL Các luật sử dụng để phân lớp cho pha sau 3.6 Phân lớp Để phân lớp cho liệu test, hình dựa nhãn lớp mẫu Dữ liệu test phân lớp dựa nguyên tắc sau:  Các liệu test mà độ xác cao bổ sung vào tập liệu mẫu pha phân lớp self-training giữ nguyên nhãn  Tập liệu mẫu mang để sinh luật pha  Các liệu test gán nhãn “churn” lại pha phân lớp lại lần theo luật sinh pha theo bước sau: o Nếu liệu test mà thỏa mãn hết luật lớp mẫu liệu test gán nhãn “churn” o Ngược lại, liệu gán nhãn nonchurn 28 Tổng kết chƣơng Trong chương 3, luận văn tả hình tốn kết hợp bán giám sát self-training học giám sát dựa luật, q trình thực pha hình Trong chương tiếp theo, luận văn trình bày chi tiết trình thực nghiệm hình tốn 29 Chƣơng 4: Thực nghiệm đánh giá kết Dựa vào sở lý thuyết hình đề xuất chương 3, luận văn tiến hành thực nghiệm việc phân lớp cho liệu test thuê bao trả sau Vinaphone để tìm th bao nguy rời mạng  Đầu vào hệ thống: o Tập liệu mẫu: 1000 thuê bao trả sau Vinaphone mẫu gán nhãn nonchurn 447 thuê bao trả sau gán nhãn “churn” o Tập liệu test: 500 thuê bao trả sau Vinaphone  Đầu hệ thống: Các thuê bao test gán nhãn “churn” 4.1 Mơi trƣờng thực nghiệm: Q trình thực nghiệm luận văn thực máy tính cấu hình:  Chip: Core-i5 , 2.27GHZ  Ram: 4GB  Hệ điều hành: Windows - 32 bit  Cơng cụ lập trình: Eclipse, java 7, Oracle 11g, Sql Navigator 7.0 Các công cụ phần mềm mã nguôn mở liệt kê bảng đây: STT Tên phần mềm FOIL Cargen Giải thuật KNN Tác giả Frans Coenen https://cgi.csc.liv.ac.uk/~frans/K DD/Software/FOIL_PRM_CPAR /foilPrmCpar.html http://www.codeproject.com/Arti cles/32970/K-Nearest-NeighborAlgorithm-Implementation-andOv tả Phần mềm sinh luật FOIL Giải thuật phân lớp KNN Bảng 7: Phần mềm sử dụng luận văn 4.2 Q trình thực nghiệm 4.2.1 tả liệu  1000 thuê bao Vinaphone gán nhãn “nonchurn”, 447 thuê bao Vinaphone gán nhãn “churn” Các thuê bao mẫu gán nhãn dựa theo liệu thực tế rời mạng hay không tháng 09/2015  500 thuê bao Vinaphone dùng để test  Dữ liệu thuê bao bao gồm: 20 trường thông tin o Dữ liệu cước tháng 06, 07, 08/2015 o Dữ liệu nợ tháng 06, 07, 08/2015 30 o Dữ liệu số gọi tháng 07, 08/2015 o Dữ liệu số phút gọi tháng 07, 08/2015 o Dữ liệu số lần toán tháng 08/2015 o Dữ liệu số nhắn tin tháng 07, 08/2015 o Dữ liệu số sử dụng data tháng 08/2015 o Dữ liệu số dịch vụ giá trị gia tăng tháng 08/2015 o Dữ liệu lưu lượng data thực tế sử dụng tháng 08/2015 o Dữ liệu loại khách hàng: Khách hàng cá nhân, khách hàng doanh nghiệp o Dữ liệu khuyến mại, gói cước tháng 08/2015 o Dữ liệu số ngày thuê bao hoạt động tháng 08/2015 o Dữ liệu kiểu toán thuê bao: Ezpay, in hóa đơn  Dữ liệu thuê bao dùng để dự đoán cho thuê bao test nguy rời mạng tháng 09/2015  Ví dụ số trường liệu thuê bao MA_TB LABLE CUOC08 CUOC07 CUOC06 NO NUM_MOCNUM_GTGTNUM_SMSDUR_MOC DUR_GTGT VOL_DATA NUM_ACDATA TYPE_ NUM_ACDATE PROMOTION - -84913248981 nonchurn 445.63 375.126 674.816 170 23 134 474 33 0 31 84913248986 nonchurn 69.883 63.855 90.078 13 16 11 15 25 0 31 84913249197 nonchurn 124.105 168.144 186.926 46 20 92 65 34 0 31 84913306981 churn 139.056 180.445 192.641 115 12 194 0 31 90 84913513939 nonchurn 108.857 187.116 247.849 24 15 41 39 0 31 84913528338 nonchurn 565.968 741.746 579.701 210 95 222 453 136 0 31 84913568188 nonchurn 126.124 119.878 195.572 120 60 386 13 0 31 40.909 84913923981 churn 181.684 180.737 178.231 135 224 0 31 40.909 84914045386 churn 125.04 127.648 517.704 35 11 75 54 12 31 40.909 Bảng 8: Bảng tả liệu mẫu Trọng số thuộc tính: WEIGHT1 0.1 0.1 0.1 0.15 0.1 0.1 0.05 0.05 0.1 0.05 0.1 WEIGHT2 WEIGHT3 0.05 0.1 0.1 0.05 0.05 0.1 0.15 0.05 0.15 0.15 0.05 DATA cuoc08 cuoc07 cuoc06 no num_moc num_sms num_gtgt dur_moc num_acdate loai_kh promotion Bảng 9: Trọng số số thuộc tính liệu 31 4.2.2 Q trình thực nghiệm Chuẩn hóa liệu:  Các liệu dạng chữ biểu diễn thành dạng số, cụ thể: o Khách hàng cá nhân: 1, khách hàng doanh nghiệp: o gói cước khuyến mại: 1, khơng gói cước khuyến mại: o Kiểu tốn: Ezpay: 1, hóa đơn: o Các liệu cước, nợ, khuyến mại chuẩn hóa chia cho 100000 (do khoảng cách với liệu lại lớn) Phân lớp bán giám sát  Lấy 1/3 thuê bao mẫu độ tương đồng cao với liệu test để xem xét gán nhãn cho thuê bao test phân lớp KNN  Tại vòng lặp Self-training: lấy 5% liệu test độ xác cao để bổ sung vào tập liệu mẫu  Dữ liệu mẫu độ xác cao liệu độ chênh lệch thuê bao gán nhãn mẫu cao Ví dụ, 500 th bao độ tương đồng cao với thuê bao test, 100 thuê bao gán nhãn “churn” 400 thuê bao gán nhãn “nonchurn”, thuê bao test gán nhãn “nonchurn”, độ chênh lệch thuê bao gán nhãn mẫu |100 - 400| = 300 Sinh tập luật: Tập luật sinh dạng: “IF(điều_kiện) THEN” Ví dụ luật: IF(cuoc08

Ngày đăng: 07/12/2017, 16:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w