Tại Tab Classify, lựa chọn thuật toán MutilayerPerceptron. MutilayerPerceptron trên Weka xây dựng cho thuật toán Neural Networks, là một mạng truyền thẳng và là kiểu học không giám sát.
Hình 20 - Thực hiện phân lớp với thuật toán Neural Networks
Thực hiện thực nghiệm lần lượt với tỷ lệ (churn /non-churn) lần lượt là 1/10, 1/2 và 1/1. Kết quả xây dựng mô hình phân lớp sử dụng thuật toán NN như sau:
Algorithms Tỉ lệ phân lớp đúng Tỉ lệ phân lớp sai
NN - 1/10 90.620% 64.6381%
NN - 1/2 73.4719% 38.0281%
NN - 1/1 67.3251% 32.6749%
Bảng 14 - Kết quả mô hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/10
TP Rate FP Rate Precision Recall Class
0.293 0.032 0.475 0.293 CHURN
0.968 0.707 0.932 0.968 NON-CHURN
0.906 0.646 0.890 0.906 Weighted Avg. Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/2
TP Rate FP Rate Precision Recall Class
0.504 0.150 0.627 0.504 CHURN
0.850 0.496 0.774 0.850 NON-CHURN
0.735 0.380 0.725 0.735 Weighted Avg. Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2
Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/1
TP Rate FP Rate Precision Recall Class
0.660 0.313 0.678 0.660 CHURN
0.687 0.340 0.669 0.687 NON-CHURN
0.673 0.327 0.673 0.673 Weighted Avg. Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1
4.3.Đánh giá hiệu năng
Do bài toán phân lớp dữ liệu thuê bao di động cần tìm ra lớp thuê bao rời mạng, bởi vậy khi xem xét các mô hình cần ưu tiên xem mức độ tin cậy của lớp CHURN. Hiệu năng của các thuật toán đối với lớp thuê bao rời mạng được thể hiện như sau:
Hình 21 - Hiệu năng các thuật toán với lớp thuê bao rời mạng
Từ kết quả thực nghiệm, ta thấy với tỷ lệ mẫu 1/1 thì mức độ chính xác ở lớp “CHURN” là cao nhất, khi độ lệnh mẫu càng lớn thì độ chính xác càng thiên về lớp có tỉ lệ mẫu lớn hơn. Trong đó mô hình xây dựng từ thuật toán cây quyết định C4.5 cho kết quả phân lớp tốt nhất.
Về thời gian xây dựng mô hình, thuật toán NB có thời gian xây dựng nhanh nhất 0.01s, tiếp đó là thuật toán cây quyết định C4.5 có thời gian xây dựng mô hình là 0.19s, thuật toán SVM có thời gian xây dựng mô hình là 28.24s, cuối cùng thuật toán N có thời gian xây dựng mô hình dài nhất 951.09s.
Từ những mô hình xây dựng được từ các thuật toán(với tie lệ mẫu 1/1), thực hiện xác nhận mô hình với dữ liệu test. Kết quả thực hiện như sau:
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Churn 1/10 Churn 1/2 Churn 1/1
C4.5 NB SVM NN
Mô hình cây quyết định C4.5
TP Rate FP Rate Precision Recall Class
0.678 0.331 0.018 0.678 CHURN
0.669 0.322 0.996 0.669 NON-CHURN
0.669 0.322 0.987 0.669 Weighted Avg. Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp C4.5
Mô hình Naïve Bayes
TP Rate FP Rate Precision Recall Class
0.684 0.313 0.019 0.684 CHURN
0.687 0.316 0.996 0.687 NON-CHURN
0.687 0.316 0.987 0.687 Weighted Avg.
Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp Naïve Bayes
Mô hình Support vector machine
TP Rate FP Rate Precision Recall Class
0.617 0.273 0.020 0.617 CHURN
0.727 0.383 0.995 0.727 NON-CHURN
0.726 0.382 0.987 0.726 Weighted Avg. Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp SVM
Mô hình Neural Networks
TP Rate FP Rate Precision Recall Class
0.606 0.338 0.016 0.606 CHURN
0.662 0.394 0.995 0.662 NON-CHURN
0.662 0.393 0.986 0.662 Weighted Avg. Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp NN
Từ kết quả xác nhận mô hình với dữ liệu test, ta thấy tỷ lệ phân lớp thuê bao rời mạng đúng đều vào khoảng hơn 60%.
KẾT LUẬN
Trong giai đoạn thị trường viễn thông đã đi vào giai đoạn bão hòa như hiện nay, việc thuê bao rời mạng không những ảnh hưởng đến doanh thu của nhà mạng mà còn kéo theo hàng loạt hiệu ứng khác kèm theo. Bởi vậy dự đoán thuê bao rời mạng để đưa ra một chiến lược kinh doanh hợp lý nhằm ngăn khách hàng rời mạng là điều vô cùng cần thiết đối với các nhà mạng. Trong luận văn này tôi đã nghiên cứu, tìm hiểu và phân tích dữ liệu thuê bao di động và đạt được kết quả sau đây.
Nội dung đã đạt đƣợc
Đưa ra cái nhìn tổng quan về thuê bao rời mạng, khái niệm thuê bao rời mạng, các hình thức rời mạng của thuê bao.
Trình bày được lý thuyết khai phá dữ liệu, các ứng dụng khai phá dữ liệu di động như dự đoán xu hướng phát triển của sản phẩm và dịch vụ, dự đoán các biểu hiện gian lận và dự đoán tăng dung lượng đường truyền.
Đưa ra được mô hình phân lớp dữ liệu thuê bao trả sau rời mạng, sử dụng các thuật toán cây quyết định C4.5, NB, SVM và Neural Networks.
Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu thuê bao di động rời mạng, thực nghiệm phân lớp dữ liệu di động với dữ liệu cụ thể và đánh giá hiệu năng của các thuật toán.
Hƣớng tiếp cận trong tƣơng lai
Do thời gian có hạn cùng với thuê bao trả trước và thuê bao trả sau có nhiều điểm khác biệt như hình thức thanh toán, giá cước sử dụng hay các thuê bao trả trước có thể rời mạng một thời gian dài trước khi nhà mạng nhận ra… nên trong luận văn, bài toán phân lớp dữ liệu thuê bao rời mạng mới thực hiện phân tích trên dữ liệu thuê bao trả sau mà chưa thể áp dụng cho thuê bao trả trước. Vì vậy xây dựng bài toán phân lớp thuê bao rời mạng cho thuê bao trả trước là hướng nghiên cứu tiếp theo trong tương lai của tôi.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Hà Quang Thụy, Phan Xuân Hiếu, Ðoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Khai phá dữ liệu Web, NXB Giáo Dục
[2]. TS. Phan Xuân Hiếu, Bài giảng khai phá dữ liệu – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội
[3]. TS. Nguyễn Văn Vinh, Bài giảng trí tuệ nhân tạo – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội
[4]. Bộ Thông Tin và Truyền Thông (2013), Sách Trắng về Công nghệ thông tin và Truyền thông 2013, NXB Thông Tin và Truyền Thông
[5] Phạm Văn Thùy, Luận văn “Khai thác và phân tích dữ liệu ngân hàng nhằm phát hiện rủi ro và hỗ trợ ra quyết định trong quản trị”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K18
[6] Lê Thị Thùy Linh, Khóa luận tốt nghiệp “Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định” - Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K46 [7] Đỗ Thi Cẩm Vân (2004), Luận văn“Học mạng nơron theo mô hình SOM và ứng dụng trong bàitoán quản lý khách hàng vay vốn Ngân hàng”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội
[8] 20 năm di động Việt Nam: Đòn bẩy nằm ở đâu?Ictnews, http://ictnews.vn/vien- thong/20-nam-di-dong-viet-nam-don-bay-nam-o-dau-111420.ict
Tiếng Anh
[9]. Jiawei Han University of Illinois at Urbana–Champaign, Micheline Kamber, Jian Pei Simon Fraser University(2012) , Data Mining: Concepts and Techniques - Third Edition
[10]. K. H. Liao and H. E. Chueh (2011), Applying fuzzy data mining to telecom churn management - Intelligent Computing and Information Science.
[11]. Pushpa and G.Shobha (2012), Social Network Analysis for Churn Prediction in Telecom data.
[12]. J. O. Daramola, O. O Oladipupo, and G. A. Musa, A data mining process framework for churn management in mobile telecommunication industry
[13]. E. Shaaban, Y. Helmy, A. Khedr, and M. Nasr, A proposed churn prediction model - International Journal of Engineering Research and Applications
[14]. Georges D. Olle Olle and Shuqin Cai (2014), A Hybrid Churn Prediction Model in Mobile Telecommunication Industry
[15] Jiliang Tang, Salem Alelyani and Huan Liu (2013), Feature Selection for Classification: A Review
[16] Huong Xuan Nguyen (2011), Customer Churn Prediction for the Icelandic Mobile Telephony Market
[17]Clement Kirui, Li Hong, Wilson Cheruiyot and Hillary Kirui (2013), Predicting Customer Churn in Mobile Telephony IndustryUsing Probabilistic Classifiers in Data Mining.
[18] Vladislav Lazarov, Marius Capota,Churn Prediction.
[19] Ali Daud, Muhammad Akram Shaikh, and Faqir Muhammad, Pattern Mining in Telecom Data.
[20] Sen Wu, Naidong Kang, Liu Yang, Fraudulent Behavior Forecast in Telecom IndustryBased on Data Mining Technology.
[21] J. Burez, D. Van den Poel (2009), Handling class imbalance in customer churn prediction.
PHỤ LỤC 1
Danh sách các thuộc tính thu thập được
STT THUỘC TÍNH MÔ TẢ
1 AGE Thông tin số tuổi của khách hàng
2 TYPE_ID Loại thuê bao
3 GENDER Giới tính
4 NUM_DATEACTIVE Số ngày hoạt động của thuê bao kể từ khi bắt đầu
5 POSTCODE Bưu cục thu của thuê bao
6 USE_SERVICE_MAX Số loại dịch vụ sử dụng lớn nhất trong 3 tháng quan sát
7 USE_SERVICE_MIN_MONTH Tháng sử dụng dịch vụ nhỏ nhất trong 3 tháng quan sát
8 USE_SERVICE_MAX_MONTH Tháng sử dụng dịch vụ lớn nhất trong 3 tháng quan sát
9 USE_SERVICE_RATIO1 Tỉ lệ sử dụng dịch vụ trong tháng quan sát đầu tiên so với tổng số lượng dịch vụ trong 3 tháng
10 USE_SERVICE_RATIO2 Tỉ lệ sử dụng dịch vụ trong tháng quan sát thứ 2 so với tổng số lượng dịch vụ trong 3 tháng
11 USE_SERVICE_RATIO3 Tỉ lệ sử dụng dịch vụ trong tháng quan sát thứ 3 so với tổng số lượng dịch vụ trong 3 tháng
12 VOI_INNET_RA1
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
13 VOI_INNET_RATIO2
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng
14 VOI_OUTNET_RA3
Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
15 VOI_OUTNET_RATIO1
Tỷ lệ số giây gọi ngoại mạng trong tháng quan sát đầu tiên của thuê bao so với tổng số giây gọi trong tháng
16 VOI_ABROAD_RA2
Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi nước ngoài của 3 tháng quan sát
17 VOI_ABROAD_RATIO1
Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát đầu tiên so với tổng số giây gọi trong tháng
18 VOI_INNET_FREQ_RA1
Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
19 VOI_INNET_FREQ_RATIO1 Tỷ lệ số cuộc gọi nội mạng của thuê bao so với tổng số cuộc gọi trong tháng quan sát đầu tiên
20 VOI_OUTNET_FREQ_RA1
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
21 VOI_OUTNET_FREQ_RATIO1
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi trong tháng
22 VOI_ABROAD_FREQ_RA1
Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát
23 VOI_ABROAD_FREQ_RATIO1 Tỷ lệ số cuộc gọi ngước ngoài của thuê bao so với tổng số cuộc gọi trong tháng
24 SMS_RA1 Tỷ lệ số tin nhắn của thuê bao tháng quan sát
đầu tiên so với tổng số tin nhắn trong 3 tháng
25 VOI_INNET_RA2
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
26 VOI_INNET_RATIO2
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng
27 VOI_OUTNET_RA2
Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
28 VOI_OUTNET_RATIO2
Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng
29 VOI_ABROAD_RA2
Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi nước ngoài của 3 tháng quan sát
30 VOI_ABROAD_RATIO2
Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng
31 VOI_INNET_FREQ_RA2
Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
32 VOI_INNET_FREQ_RATIO2
Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi trong tháng
33 VOI_OUTNET_FREQ_RA2
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
34 VOI_OUTNET_FREQ_RATIO2
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi trong tháng
35 VOI_ABROAD_FREQ_RA2
Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát
36 VOI_ABROAD_FREQ_RATIO2 Tỷ lệ số cuộc gọi ngước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc
gọi trong tháng
37 SMS_RA2 Tỷ lệ số tin nhắn của thuê bao tháng quan sát
thứ 2 so với tổng số tin nhắn trong 3 tháng
38 VOI_INNET_RA3
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
39 VOI_INNET_RATIO3
Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng
40 VOI_OUTNET_RA3
Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát
41 VOI_OUTNET_RATIO3
Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng
42 VOI_ABROAD_RA3
Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi nước ngoài của 3 tháng quan sát
43 VOI_ABROAD_RATIO3
Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng
44 VOI_INNET_FREQ_RA3
Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
45 VOI_INNET_FREQ_RATIO3
Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng
46 VOI_OUTNET_FREQ_RA3
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát
47 VOI_OUTNET_FREQ_RATIO3
Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng
48 VOI_ABROAD_FREQ_RA3
Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát
49 VOI_ABROAD_FREQ_RATIO3
Tỷ lệ số cuộc gọi ngước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng quan sát thứ 3
50 SMS_RA3 Tỷ lệ số tin nhắn của thuê bao trong tháng quan
sát thứ 3 so với tổng số tin nhắn trong 3 tháng
51 VOI_INNET_MAXM Tháng có số lượng giây gọi nội mạng lớn nhất
52 VOI_INNET_FREQ_MAXM Tháng có số lượng cuộc gọi nội mạng lớn nhất
53 VOI_OUTNET_MAXM Tháng có số lượng giây gọi ngoại mạng lớn nhất
nhất
55 VOI_ABROAD_MAXM Tháng có số lượng giây gọi quốc tế lớn nhất
56 VOI_ABROAD_FREQ_MAXM Tháng có số lượng cuộc gọi quốc tế lớn nhất
57 VOI_INNET_MINM Tháng có số lượng giây gọi nội mạng nhỏ nhất
58 VOI_INNET_FREQ_MINM Tháng có số lượng cuộc gọi nội mạng nhỏ nhất
59 VOI_OUTNET_MINM Tháng có số lượng giây gọi ngoại mạng nhỏ nhất
60 VOI_OUTET_FREQ_MINM Tháng có số lượng cuộc gọi ngoại mạng nhỏ nhất
61 VOI_ABROAD_MINM Tháng có số lượng giây gọi quốc tế nhỏ nhất
62 VOI_ABROAD_FREQ_MINM Tháng có số lượng cuộc gọi quốc tế nhỏ nhất
63 SMS_MAXM Tháng có số lượng SMS lớn nhất
64 SMS_MINM Tháng có số lượng SMS bé nhất
65 DATA_MAXM Tháng có dung lượng data lớn nhất
66 DATA_MINM Tháng có dung lượng data nhỏ nhất
67 VOI_MAXM Tháng có số giây (tất cả các cuộc gọi) tối đa
68 VOI_FREQ_MAXM Tháng có số cuộc gọi lớn nhất