Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
1,21 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒN MỘTMƠHÌNHKẾTHỢPHỌCGIÁMSÁTVÀBÁNGIÁMSÁTCHOBÀITOÁNDỰBÁOKHÁCHHÀNGCÓNGUYCƠRỜIMẠNGVINAPHONE LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ HỒN MỘTMƠHÌNHKẾTHỢPHỌCGIÁMSÁTVÀBÁNGIÁMSÁTCHOBÀI TỐN DỰBÁOKHÁCHHÀNG CĨ NGUYCƠRỜIMẠNGVINAPHONE Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số:60.48.01.04 LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2015 iii Lời cảm ơn Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, người Thầy bảo hướng dẫn tận tình cho tơi suốt q trình từ sinh viên, tới học thạc sĩ suốt trình nghiên cứu thực luận văn Tôi xin chân thành cảm ơn dậy bảo, giúp đỡ, tạo điều kiện Thầy, Cô trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội suốt q trình tơi học tập Trường Tơi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi q trình nghiên cứu Thầy, Cơ, anh chị phòng thí nghiệm Khoa học liệu Công nghệ tri thức (DS&KTLAB) Đề tài ĐHQGHN QG.14.13 Cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người bên lúc khó khăn, động viên, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Tác giả Nguyễn Thị Hồn i Lời cam đoan Tơi xin cam đoan luận văn hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu toándựbáokháchhàngrờimạng nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu đưa không chép nguyên từ nguồn tài liệu khác ii Mục lục Lời cảm ơn i Danh mục hình vẽ bảng biểu v Danh mục từ viết tắt vi Mở đầu Chƣơng 1: Khái quát toándự đoán kháchhàngrờimạng 1.1.Bài toándự đoán kháchhàngrờimạng 1.2.Vai trò khai phá liệu quản lý kháchhàngrờimạng 1.3 Một số nghiên cứu chotoándự đoán kháchhàngrờimạng 1.3.1 Đánh giá hiệu mơhình 1.3.2 Một số mơhình nghiên cứu dự đốn kháchhàngrờimạng 1.4.Tóm tắt chương Chƣơng 2: Một số môhình điển hìnhcho tốn dự đốn kháchhàngrời mạng9 2.1 Mơhình dựa luật chotoándự đoán kháchhàngrờimạng dịch vụ viễn thông 2.1.1 Giới thiệu mơhình phân lớp dựa luật 2.1.2 Mơhình sinh luật 2.1.3 Phân lớp 12 2.1.4 Kết đánh giá mơhình 13 2.2 Mơhìnhhọc lai cho tốn dự đốn kháchhàngrờimạng 15 2.3 Tóm tắt chương 21 Chƣơng 3: Mơhìnhkếthợpgiámsátbángiámsátchotoándự đoán kháchhàngrờimạng 22 3.1 Tiếp cận mơhìnhtoán 22 3.2 Tiền xử lý liệu 24 3.3 Mơhìnhhọcgiámsát dựa thuật toán K-NN 24 3.4 Mơhìnhhọcbángiámsát dựa thuật toán self-training 25 3.5 Mơhìnhhọcgiámsát dựa hệ thống luật: 27 3.6 Phân lớp 28 Tổng kết chương 29 iii Chƣơng 4: Thực nghiệm đánh giá kết 30 4.1 Môi trường thực nghiệm: 30 4.2 Quá trình thực nghiệm 30 4.3 Kết thực nghiệm 32 4.4 Đánh giá kết hướng nghiên cứu 34 4.5.Tóm tắt chương 34 Tài liệu tham khảo 35 iv Danh mục hình vẽ bảng biểu Hình 1: So sánh độ AUC mơhình 14 Hình 2: So sánh AUC mơhình CRL DMEL cho tỉ lệ churn rate khác 15 Hình 3: So sánh AUC chomơhình CRL DMEL với tập liệu UCI 15 Hình 4: Giải thuật sinh luật FOIL 17 Hình 5: Giải thuật sinh luật FOIL 18 Hình 6: Mơhìnhdự đoán lai cua Ying Hwuang cộng 18 Hình 7: So sánh đường cong ROC, AUC với kỹ thuật phân lớp khác 21 Hình 8: So sánh hiệu mơhình lai đề xuất mơhình lai khác dựa ROC 21 Hình 9: Mơhìnhkếthợphọcgiámsátbángiámsát 23 Hình 10: Một ví dụ phân lớp KNN 25 Hình 11: Mơhìnhhọcbángiámsát Self-training 26 Hình 12: Sơ đồ thuật toán Self-training 27 Hình 13: Giả mã học luật FOIL 28 Hình 14: Giả mã học luật FOIL 28 Bảng 1: Tỉ lệ rờimạngmạng Hàn Quốc năm 2007-2008 Bảng 2: Chức năng, kỹ thuật khai phá liệu ứng dụng Bảng 3: Ma trận Confusion Bảng 4: Tập liệu chomơhìnhdự đoán dựa luật 13 Bảng 5: Tập liệu mơhình Ying Hwuang cộng 20 Bảng 6: Kếtmơhình Ying Hwuang cộng sử dụng độ đo AUC 20 Bảng 7: So sánh mơhình Ying Hwuang cộng với số mơhình khác 20 Bảng 8: Phần mềm sử dụng luận văn 30 Bảng 9: Bảng mô tả liệu mẫu 31 Bảng 10: Trọng số số thuộc tính liệu 31 Bảng 11: Ma trận Confusion 33 Bảng 12: Kết thực nghiệm với trọng số weight2 33 Bảng 13: Kết thực nghiệm với trọng số weight1 34 v Danh mục từ viết tắt STT Từ/cụm từ Tên viết tắt K Nearest Neigbours KNN Area Under ROC AUC Support Vector Machines SVM Classification by Rules Learning CRL Data Mining by Evolutionary Learning DMEL True Prediction/False Prediction TP/FP First Order Inductive Learning FOIL vi Mở đầu Sự phát triển mạnh mẽ công nghệ viễn thông năm gần mở nhiều hội cho nhà cung cấp dịch vụ mạng di động Song song với việc mở rộng phát triển kháchhàng mới, việc quản lý kháchhàng cũ nhiệm vụ quan trọng Dựbáokháchhàngcónguyrờimạng phần trọng yếu quản lý kháchhàngrờimạng Xác định kháchhàngcónguyrờimạng giúp nhà cung cấp dịch vụ kịp thời đưa biện pháp, phương thức để quản lý, chăm sóc khách hàng, tránh để kháchhàngrời bỏ dịch vụ Nhiều mơhìnhcho tốn dựbáokháchhàngrờimạng nghiên cứu phát triển Các cơng trình nghiên cứu dựbáokháchhàngrờimạng công bố hội nghị tiếng Elsevier1 áp dụng thực tế nhà mạng lớn Taiwan Mobile Đài Loan, China Mobile, Trung Quốc, T&T Mỹ Nội dung luận văn thạc sĩ “Một mơhìnhkếthợphọcgiámsátbángiámsátchotoándựbáokháchhàngcónguyrờimạng Vinaphone” tập trung vào nghiên cứu, khảo sát, đánh giá đề xuất mơhìnhdự đốn kháchhàngrời mạng, bên cạnh đó, áp dụng mơhìnhchodự đốn kháchhàngcónguyrời bỏ mạng viễn thơng VinaPhone Ngồi phần mở đầu kết luận, luận văn đƣợc tổ chức thành chƣơng nhƣ sau: Chƣơng 1: Khái quát toándự đoán kháchhàngrờimạng giới thiệu khái quát dự đoán kháchhàngrờimạng viễn thơng, khái niệm liên quan Trình bày vai trò khai phá liệu dự đoán kháchhàngrờimạngMột số nghiên cứu toándự đoán kháchhàngrờimạng Chƣơng 2: Một số mơhình điển hìnhcho tốn dựbáokháchhàngrờimạng giới thiệu số môhình điển hìnhcho tốn dựbaokháchhàngrờimạng Chƣơng 3: Kếthợphọcgiámsátbángiámsátchotoándự đoán kháchhàngrờimạng phân tích, đề xuất, trình bày mơhìnhkếthợphọcbángiámsát self-training họcgiámsát dựa luật chotoándự đoán kháchhàngcónguyrờimạng Chƣơng 4: Thực nghiệm đánh giá kết trình bày trình thực nghiệm luận văn, đưa số đánh giá hiệu mơ hình, nhận xét kết đạt Chƣơng 1: Khái quát toándự đoán kháchhàngrờimạngBàitoándự đoán kháchhàngrờimạng Trong năm gần đây, có nhiều thay đổi lớn cơng nghiệp viễn thông mở rộng thị trường, dịch vụ công nghệ dẫn đến cạnh tranh khốc liệt thị trường viễn thông Việc rời bỏ mạngkháchhàng làm sụt 1.1 giảm lượng lớn dịch vụ viễn thơng khiến trở thành vấn đề nghiêm trọng nhà cung cấp dịch vụ Kháchhàngrờimạng (customer churn) xem kháchhàngcó giá trị rời bỏ sử dụng dịch nhà mạng sang sử dụng dịch vụ nhà mạng khác Quản lý kháchhàngrờimạng (churn management) sách xử lý nhà mạng nhằm giữ chân kháchhàngcónguyrờimạngMột thách thức “churn management” dự đoán “churner” Bàitoándự đoán kháchhàngrờimạng (churn prediction) tìm “churner” dựa thuộc tính kháchhàng như: liệu hợp đồng, thông tin khách hàng, log sử dụng dịch vụ, chi tiết gọi, liệu khiếu nại, thơng tin hóa đơn tốn Theo nghiên cứu thị trường Berson, Smitch cộng năm 2000 [C1_06], tỉ lệ kháchhàng ngưng sử dụng dịch vụ nhà mạng di động lên tới 2% tháng Điều có nghĩa nhà mạng gần ¼ lượng kháchhàng năm, nữa, nhà mạng Châu Á phải đối mặt với nhiều thách thức rờimạng nhà mạng khác giới Hình 1: Tỉ lệ rờimạng số mạng Châu Âu năm 2010-2011(1) Trên thực tế, nhà mạng phân đoạn kháchhàng họ dựa lợi ích mà kháchhàngmang lại quản lý kháchhàng dựa phân đoạn kháchhàngcó lợi ích Tuy nhiên, công nghiệp dịch vụ viễn thông tiêu Chƣơng 3: Mơhìnhkếthợpgiámsátbángiámsátchotoándự đoán kháchhàngrờimạng 3.1 Tiếp cận mơhình tốn Trong chương hai, luận văn trình bày mơhìnhdự đốn dựa học luật mơhìnhdự đốn lai Ying Hwuang cộng sự, so sánh kết thử nghiệm mơhình so với số mơhình đơn khác Nhận thấy rằng, mơhình lai đem lại kết khả quan mơhình khác với tập liệu, độ đo đánh giá kết Khác với mơhình lai, mơhìnhhọc dựa luật lại hay xử dụng tính đơn giản rõ ràng Tuy nhiên, tập liệu mẫu vấn đề cần xem xét Dữ liệu gán nhãn thường ít, liệu chưa gán nhãn lại nhiều Vì vậy, mơhìnhkếthợp đề xuất sử dụng họcbángiámsát để giải vấn đề tập liệu mẫu Bên cạnh đó, lĩnh vực dự đốn kháchhàngrờimạng viễn thông, liệu chứa trường thông tin: bao gồm thông tin dạng chữ thơng tin dạng số Vì vậy, mơhình đề xuất bước tiền xử lý liệu trước đưa vào mơhìnhhọcMơhìnhkếthợphọcgiámsátbángiám luận văn đề xuất gồm pha sau: Pha 1: Tiền xử lý liệu: Loại bỏ trường liệu gây nhiễu, biểu diễn liệu thành dạng liệu rời rạc, đánh trọng số cho trường liệu Pha 2: Đào tạo mơhìnhhọc lai: Kếthợpmơhìnhhọcbángiámsát Self-training họcgiámsát dựa luật Pha 3: Phân lớp (gán nhãn) liệu: Phân lớp cho tập liệu test dựa mơhìnhhọc lai Trong phần tiếp theo, luận văn làm rõ pha mơhình 22 Mơhình tốn: Hình 10: Mơhìnhkếthợphọcgiámsátbángiámsát 23 3.2 Tiền xử lý liệu Quá trình tiền xử lý liệu áp dụng rộng rãi khai phái liệu vấn đề phân tích thơng kê Dữ liệu nghiên cứu thường chứa tập ký tự thuộc tính liên tục, liệu khơng phù hợp với phương pháp học quy nạp Mục đích q trình chuẩn hóa liệu chia các thuộc tính liên tục thành thuộc tính khơng liên tục (rời rạc) trình thường sử dụng bước hàm tuyến tính học quy nạp Kết trình rời rạc hóa liệu biểu diễn liệu thành liệu mà thuật tốn hiểu Ví dụ: Kháchhàngcó thuộc tính loại kháchhàngbao gồm: Kháchhàng cá nhân kháchhàng doanh nghiệp Với liệu này, đưa vào hệ thống không hiểu được, phải biểu diễn lại dạng số với giá trị number Trong môhình tốn, q trình rời rạc hóa liệu gồm bước: Làm liệu: Lựa chọn thuộc tính có ảnh hưởng tới hành vi khách hàng, loại bỏ thuộc tính không cần thiết, gây nhiễu tới kếtDữ liệu hữu ích bao gồm: o Dữ liệu loại khách hàng: Kháchhàng cá nhân, kháchhàng doanh nghiệp o Dữ liệu cước phát sinh: Cước phát sinh tháng gần o Dữ liệu thuộc tính gọi: Số gọi đi, số gọi đến, số nhắn tin, số lưu lượng data sử dụng, lượng gọi đi, thời lượng gọi đến o Dữ liệu tốn: loại hình tốn, tiền nợ o Dữ liệu sử dụng dịch vụ: số ngày hoạt động tháng, tình trạng th bao (khóa chiều, khóa chiều, mở chiều) o Dữ liệu gói cước, khuyến mại: Số gói cước sử dụng, số tiền khuyến mại Biểu diễn thuộc tính liên tục thành thuộc tính rời rạc, phù hợp với q trình học Cụ thể thuộc tính khơng phải số biểu diễn dạng số Đánh trọng số cho thuộc tính khách hàng: Thuộc tính quan trọng đánh trọng số cao so với thuộc tính khơng quan trọng Trong mơhình tốn, dựa vào q trình phân tích tốn, miền ứng dụng mà đánh giá thuộc tính quan trọng Cụ thể, miền liệu viễn thơng, thuộc tính gọi liệu cước phát sinh quan trọng nhất, tiếp thuộc tính nợ, liệu sử dụng dịch vụ, liệu tốn, liệu gói cước, khuyến mại, liệu kháchhàng 3.3 Mơhìnhhọcgiámsát dựa thuật toán K-NN K-Nearest Neighbors algorithm (KNN) sử dụng phổ biến lĩnh vực Data Mining KNN phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần xếp lớp với tất đối tượng Training Data Một đối tượng phân lớp dựa vào k láng giềng K số nguyên dương xác định trước thực thuật toán Người ta thường dùng khoảng cách Euclidean, Cosine để tính khoảng cách đối tượng 24 Thuật toán KNN dùng phân lớp mô tả sau: Xác định giá trị tham số K (số láng giềng gần nhất) Tính khoảng cách đối tượng cần phân lớp với tất đối tượng training data (thường sử dụng khoảng cách Euclidean, Cosine…) Sắp xếp khoảng cách theo thứ tự tăng dần xác định k láng giềng gần với đối tượng cần phần lớp Lấy tất lớp k láng giềng gần xác định Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho đối tượng Trong khuông khổ luận văn này, tác giả lấy k = 1/3 số mẫu có độ đo tương đồng lớn với liệu test làm liệu so sánh gán nhãn cho liệu test Hình 11: Một ví dụ phân lớp KNN Một ví dụ đơn giản phân lớp K-NN minh họa hình Trong đó, nút tròn màu đỏ thể lớp A, nút tròn màu xanh thể lớp B, nút tròn màu trắng có dấu hỏi liệu chưa gán nhãn Với tham số k=9, thuật tốn KNN tìm nút có khoảng cách gần nút màu trắng Nút màu trắng có khoảng cách gần tới nút màu đỏ nút màu xanh, dễ dàng nhận thấy hình, nút màu trắng có thuộc lớp A (lớp chứa nút màu đỏ) Để chọn tham số k tốt chomơhình phân lớp, thuật tốn cần thực nghiệm nhiều giá trị k khác nhau, với k lớn độ xác cao 3.4 Mơhìnhhọcbángiámsát dựa thuật tốn self-training Trong mơhìnhhọccógiámsát liệu mẫu gán nhãn Trong với mơhìnhhọc khơng giám sát, liệu mẫu chưa gán nhãn Họcbángiámsátkếthợpmơhìnhhọcgiámsátmơhìnhhọc khơng giámsát Như họcbángiámsát xem là: + Họcgiámsát cộng thêm liệu chưa gán nhãn 25 + Học không giámsát cộng thêm liệu gán nhãn Họcbángiámsát cách học sử dụng thơng tin chứa liệu chưa gán nhãn tập liệu huấn luyện.Các thuật tốn họcbángiámsátcó nhiệm vụ mở rộng tập liệu gán nhãn ban đầu Hiệu thuật toán phụ thuộc vào chất lượng mẫu gán nhãn thêm vào vòng lặp đánh giá dựa hai tiêu chí: Các mẫu thêm vào phải gán nhãn cách xác Các mẫu thêm vào phải mang lại thông tin hữu ích cho phân lớp (hoặc liệu huấn luyện) Thuật tốn Self-Training Có thể nói rằng, ý tưởng sử dụng liệu chưa gán nhãn phân lớp thiết lập self-training Ý tưởng self-training xuất từ năm 1960 Đó thuật tốn bọc (wrapper-algorithm) sử dụng lặp nhiều lần phương pháp họcgiámsátHình vẽ biểu diễn nhìn trực quan thiết lập self-training Hình 12: Mơhìnhhọcbángiámsát Self-training Self-training kỹ thuật họcbángiámsát sử dụng phổ biến, với phân lớp (classifier) ban đầu huấn luyện số lượng nhỏ liệu gán nhãn Sau đó, sử dụng phân lớp để gán nhãn liệu chưa gán nhãn Các liệu gán nhãn có độ tin cậy cao (vượt ngưỡng đó) nhãn tương ứng chúng đưa vào tập huấn luyện (train set) Tiếp đó, phân lớp học lại tập huấn luyện thủ tục lặp tiếp tục Ở vòng lặp, học chuyển vài mẫu có độ tin cậy cao sang tập liệu huấn luyện với dự đoán phân lớp chúng Tên gọi self-training xuất phát từ việc sử dụng dự đốn để dạy Sơ đồ thuật tốn self-training mơ tả hình 4: 26 Đặt: L : Tập liệu gán nhãn U : Tập liệu chưa gán nhãn Lặp - Huấn luyện phân lớp h tập liệu huấn luyện L Sử dụng h để phân lớp liệu tập U Tìm tập U’ U có độ tin cậy cao L ← L + U’ U ← U – U’ Hình 13: Sơ đồ thuật tốn Self-training Trong mơhình tốn, luận văn sử dụng mơhình phân lớp KNN làm gán nhãn nhân Tại vòng lặp Self-training, lấy 5% liệu có độ xác cao để bổ sung vào tập mẫu 3.5 Môhìnhhọcgiámsát dựa hệ thống luật: Những hệ thống phân lớp hệ sử dụng luật phân lớp cách sử dụng người dùng định nghĩa luật Một hệ tiếng CONSTRUE P.J.Hayes cộng (một nhóm nghiên cứu đại học Carnegie Mallon University) phát triển vào năm 1980 để phân lớp tin chohãng tin Reauter Hệ thống sử dụng luật dạng chuẩn rời Hệ thống phân lớp dựa luật thường chokết tương đối cao trường hợp người dùng tạo đầy đủ luật, bao gồm tất trường hợp xảy cho phân lớp Tuy nhiên, phương pháp có điểm hạn chế có luật mâu thuẫn nhau, có trường hợp mà luật bỏ sót Ngồi ra, liệu thay đổi phải cập nhật sửa đổi lại hệ thống luật phân lớp Trong mơhình luận văn, sử dụng thuật toán FOIL để sinh tập luật FOIL đề xuất phát triển Quinlan [Quinlan, 1990] Giả mã FOIL giới thiệu hình FOIL học tập liệu bao gồm hai lớp, lớp gọi “tích cực” FOIL họcmơ tả lớp lớp “tích cực” Giải thuật FOIL: FOIL (Examples) 11 Pos ← Positive Examples; 12 Neg ← Negative Examples; 13 Learned_rules ← ; 14 While Pos is not empty then 15 Rule ← Learn-A-Rule (Examples, Neg); 16 learned_rules ← learned_rules Rule; 17 Pos ← Pos – {Positive examples covered by Rule}; 27 18 Examples ← Examples – {any examples covered by Rule}; 19 End while 20 return learned_rules; Hình 14: Giả mã học luật FOIL Giải thuật học luật: Learn-A-Rule (Examples, Neg) Rule ← the most general positive rule; 10 repeat 11 Candidate_cond ← generate candidate conditions for Rule; 12 Best_cond ← max(Foil_Gain); 13 Add Best_cond to the antecedent of Rule; 14 Covered_Neg ← negative examples that are covered by Rule; 15 Until there is no negative examples can be covered; 16 Return Rule; Hình 15: Giả mã học luật FOIL Trong mơhình lai này, lớp mẫu “tích cực” sinh tập luật tương ứng theo FOIL Các luật sử dụng để phân lớp cho pha sau 3.6 Phân lớp Để phân lớp cho liệu test, mơhình dựa nhãn lớp mẫu Dữ liệu test phân lớp dựa nguyên tắc sau: Các liệu test mà có độ xác cao bổ sung vào tập liệu mẫu pha phân lớp self-training giữ nguyên nhãn Tập liệu mẫu mang để sinh luật pha Các liệu test gán nhãn “churn” lại pha phân lớp lại lần theo luật sinh pha theo bước sau: o Nếu liệu test mà thỏa mãn hết luật lớp mẫu liệu test gán nhãn “churn” o Ngược lại, liệu gán nhãn nonchurn 28 Tổng kết chƣơng Trong chương 3, luận văn mô tả mơhình tốn kếthợpbángiámsát self-training họcgiámsát dựa luật, q trình thực pha mơhình Trong chương tiếp theo, luận văn trình bày chi tiết trình thực nghiệm mơhình tốn 29 Chƣơng 4: Thực nghiệm đánh giá kết Dựa vào sở lý thuyết mơhình đề xuất chương 3, luận văn tiến hành thực nghiệm việc phân lớp cho liệu test thuê bao trả sau Vinaphone để tìm th baocónguyrờimạng Đầu vào hệ thống: o Tập liệu mẫu: 1000 thuê bao trả sau Vinaphone mẫu gán nhãn nonchurn 447 thuê bao trả sau gán nhãn “churn” o Tập liệu test: 500 thuê bao trả sau Vinaphone Đầu hệ thống: Các thuê bao test gán nhãn “churn” 4.1 Mơi trƣờng thực nghiệm: Q trình thực nghiệm luận văn thực máy tính có cấu hình: Chip: Core-i5 , 2.27GHZ Ram: 4GB Hệ điều hành: Windows - 32 bit Cơng cụ lập trình: Eclipse, java 7, Oracle 11g, Sql Navigator 7.0 Các công cụ phần mềm mã nguôn mở liệt kê bảng đây: STT Tên phần mềm FOIL Cargen Giải thuật KNN Tác giả Frans Coenen https://cgi.csc.liv.ac.uk/~frans/K DD/Software/FOIL_PRM_CPAR /foilPrmCpar.html http://www.codeproject.com/Arti cles/32970/K-Nearest-NeighborAlgorithm-Implementation-andOv Mô tả Phần mềm sinh luật FOIL Giải thuật phân lớp KNN Bảng 7: Phần mềm sử dụng luận văn 4.2 Q trình thực nghiệm 4.2.1 Mơ tả liệu 1000 thuê baoVinaphone gán nhãn “nonchurn”, 447 thuê baoVinaphone gán nhãn “churn” Các thuê bao mẫu gán nhãn dựa theo liệu thực tế córờimạng hay không tháng 09/2015 500 thuê baoVinaphone dùng để test Dữ liệu thuê baobao gồm: 20 trường thông tin o Dữ liệu cước tháng 06, 07, 08/2015 o Dữ liệu nợ tháng 06, 07, 08/2015 30 o Dữ liệu số gọi tháng 07, 08/2015 o Dữ liệu số phút gọi tháng 07, 08/2015 o Dữ liệu số lần toán tháng 08/2015 o Dữ liệu số nhắn tin tháng 07, 08/2015 o Dữ liệu số sử dụng data tháng 08/2015 o Dữ liệu số dịch vụ giá trị gia tăng tháng 08/2015 o Dữ liệu lưu lượng data thực tế sử dụng tháng 08/2015 o Dữ liệu loại khách hàng: Kháchhàng cá nhân, kháchhàng doanh nghiệp o Dữ liệu khuyến mại, gói cước tháng 08/2015 o Dữ liệu số ngày thuê bao hoạt động tháng 08/2015 o Dữ liệu kiểu toán thuê bao: Ezpay, in hóa đơn Dữ liệu thuê bao dùng để dự đoán cho thuê bao test cónguyrờimạng tháng 09/2015 Ví dụ số trường liệu thuê bao MA_TB LABLE CUOC08 CUOC07 CUOC06 NO NUM_MOCNUM_GTGTNUM_SMSDUR_MOC DUR_GTGT VOL_DATA NUM_ACDATA TYPE_ NUM_ACDATE PROMOTION - -84913248981 nonchurn 445.63 375.126 674.816 170 23 134 474 33 0 31 84913248986 nonchurn 69.883 63.855 90.078 13 16 11 15 25 0 31 84913249197 nonchurn 124.105 168.144 186.926 46 20 92 65 34 0 31 84913306981 churn 139.056 180.445 192.641 115 12 194 0 31 90 84913513939 nonchurn 108.857 187.116 247.849 24 15 41 39 0 31 84913528338 nonchurn 565.968 741.746 579.701 210 95 222 453 136 0 31 84913568188 nonchurn 126.124 119.878 195.572 120 60 386 13 0 31 40.909 84913923981 churn 181.684 180.737 178.231 135 224 0 31 40.909 84914045386 churn 125.04 127.648 517.704 35 11 75 54 12 31 40.909 Bảng 8: Bảng mô tả liệu mẫu Trọng số thuộc tính: WEIGHT1 0.1 0.1 0.1 0.15 0.1 0.1 0.05 0.05 0.1 0.05 0.1 WEIGHT2 WEIGHT3 0.05 0.1 0.1 0.05 0.05 0.1 0.15 0.05 0.15 0.15 0.05 DATA cuoc08 cuoc07 cuoc06 no num_moc num_sms num_gtgt dur_moc num_acdate loai_kh promotion Bảng 9: Trọng số số thuộc tính liệu 31 4.2.2 Q trình thực nghiệm Chuẩn hóa liệu: Các liệu dạng chữ biểu diễn thành dạng số, cụ thể: o Kháchhàng cá nhân: 1, kháchhàng doanh nghiệp: o Có gói cước khuyến mại: 1, khơng có gói cước khuyến mại: o Kiểu tốn: Ezpay: 1, hóa đơn: o Các liệu cước, nợ, khuyến mại chuẩn hóa chia cho 100000 (do khoảng cách với liệu lại lớn) Phân lớp bángiámsát Lấy 1/3 thuê bao mẫu có độ tương đồng cao với liệu test để xem xét gán nhãn cho thuê bao test phân lớp KNN Tại vòng lặp Self-training: lấy 5% liệu test có độ xác cao để bổ sung vào tập liệu mẫu Dữ liệu mẫu có độ xác cao liệu có độ chênh lệch thuê bao gán nhãn mẫu cao Ví dụ, 500 th baocó độ tương đồng cao với thuê bao test, có 100 thuê bao gán nhãn “churn” 400 thuê bao gán nhãn “nonchurn”, thuê bao test gán nhãn “nonchurn”, độ chênh lệch thuê bao gán nhãn mẫu |100 - 400| = 300 Sinh tập luật: Tập luật sinh có dạng: “IF(điều_kiện) THEN” Ví dụ luật: IF(cuoc08