Phân lớp sử dụng thuật toán Neural Networks

Một phần của tài liệu Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông (Trang 43)

Tại Tab Classify, lựa chọn thuật toán MutilayerPerceptron. MutilayerPerceptron trên Weka xây dựng cho thuật toán Neural Networks, là một mạng truyền thẳng và là kiểu học không giám sát.

Hình 20 - Thực hiện phân lớp với thuật toán Neural Networks

Thực hiện thực nghiệm lần lượt với tỷ lệ (churn /non-churn) lần lượt là 1/10, 1/2 và 1/1. Kết quả xây dựng mô hình phân lớp sử dụng thuật toán NN như sau:

Algorithms Tỉ lệ phân lớp đúng Tỉ lệ phân lớp sai

NN - 1/10 90.620% 64.6381%

NN - 1/2 73.4719% 38.0281%

NN - 1/1 67.3251% 32.6749%

Bảng 14 - Kết quả mô hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/10

TP Rate FP Rate Precision Recall Class

0.293 0.032 0.475 0.293 CHURN

0.968 0.707 0.932 0.968 NON-CHURN

0.906 0.646 0.890 0.906 Weighted Avg. Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/2

TP Rate FP Rate Precision Recall Class

0.504 0.150 0.627 0.504 CHURN

0.850 0.496 0.774 0.850 NON-CHURN

0.735 0.380 0.725 0.735 Weighted Avg. Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2

Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/1

TP Rate FP Rate Precision Recall Class

0.660 0.313 0.678 0.660 CHURN

0.687 0.340 0.669 0.687 NON-CHURN

0.673 0.327 0.673 0.673 Weighted Avg. Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1

4.3.Đánh giá hiệu năng

Do bài toán phân lớp dữ liệu thuê bao di động cần tìm ra lớp thuê bao rời mạng, bởi vậy khi xem xét các mô hình cần ưu tiên xem mức độ tin cậy của lớp CHURN. Hiệu năng của các thuật toán đối với lớp thuê bao rời mạng được thể hiện như sau:

Hình 21 - Hiệu năng các thuật toán với lớp thuê bao rời mạng

Từ kết quả thực nghiệm, ta thấy với tỷ lệ mẫu 1/1 thì mức độ chính xác ở lớp “CHURN” là cao nhất, khi độ lệnh mẫu càng lớn thì độ chính xác càng thiên về lớp có tỉ lệ mẫu lớn hơn. Trong đó mô hình xây dựng từ thuật toán cây quyết định C4.5 cho kết quả phân lớp tốt nhất.

Về thời gian xây dựng mô hình, thuật toán NB có thời gian xây dựng nhanh nhất 0.01s, tiếp đó là thuật toán cây quyết định C4.5 có thời gian xây dựng mô hình là 0.19s, thuật toán SVM có thời gian xây dựng mô hình là 28.24s, cuối cùng thuật toán N có thời gian xây dựng mô hình dài nhất 951.09s.

Từ những mô hình xây dựng được từ các thuật toán(với tie lệ mẫu 1/1), thực hiện xác nhận mô hình với dữ liệu test. Kết quả thực hiện như sau:

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Churn 1/10 Churn 1/2 Churn 1/1

C4.5 NB SVM NN

Mô hình cây quyết định C4.5

TP Rate FP Rate Precision Recall Class

0.678 0.331 0.018 0.678 CHURN

0.669 0.322 0.996 0.669 NON-CHURN

0.669 0.322 0.987 0.669 Weighted Avg. Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp C4.5

Mô hình Naïve Bayes

TP Rate FP Rate Precision Recall Class

0.684 0.313 0.019 0.684 CHURN

0.687 0.316 0.996 0.687 NON-CHURN

0.687 0.316 0.987 0.687 Weighted Avg.

Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp Naïve Bayes

Mô hình Support vector machine

TP Rate FP Rate Precision Recall Class

0.617 0.273 0.020 0.617 CHURN

0.727 0.383 0.995 0.727 NON-CHURN

0.726 0.382 0.987 0.726 Weighted Avg. Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp SVM

Mô hình Neural Networks

TP Rate FP Rate Precision Recall Class

0.606 0.338 0.016 0.606 CHURN

0.662 0.394 0.995 0.662 NON-CHURN

0.662 0.393 0.986 0.662 Weighted Avg. Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp NN

Từ kết quả xác nhận mô hình với dữ liệu test, ta thấy tỷ lệ phân lớp thuê bao rời mạng đúng đều vào khoảng hơn 60%.

KẾT LUẬN

Trong giai đoạn thị trường viễn thông đã đi vào giai đoạn bão hòa như hiện nay, việc thuê bao rời mạng không những ảnh hưởng đến doanh thu của nhà mạng mà còn kéo theo hàng loạt hiệu ứng khác kèm theo. Bởi vậy dự đoán thuê bao rời mạng để đưa ra một chiến lược kinh doanh hợp lý nhằm ngăn khách hàng rời mạng là điều vô cùng cần thiết đối với các nhà mạng. Trong luận văn này tôi đã nghiên cứu, tìm hiểu và phân tích dữ liệu thuê bao di động và đạt được kết quả sau đây.

Nội dung đã đạt đƣợc

Đưa ra cái nhìn tổng quan về thuê bao rời mạng, khái niệm thuê bao rời mạng, các hình thức rời mạng của thuê bao.

Trình bày được lý thuyết khai phá dữ liệu, các ứng dụng khai phá dữ liệu di động như dự đoán xu hướng phát triển của sản phẩm và dịch vụ, dự đoán các biểu hiện gian lận và dự đoán tăng dung lượng đường truyền.

Đưa ra được mô hình phân lớp dữ liệu thuê bao trả sau rời mạng, sử dụng các thuật toán cây quyết định C4.5, NB, SVM và Neural Networks.

Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu thuê bao di động rời mạng, thực nghiệm phân lớp dữ liệu di động với dữ liệu cụ thể và đánh giá hiệu năng của các thuật toán.

Hƣớng tiếp cận trong tƣơng lai

Do thời gian có hạn cùng với thuê bao trả trước và thuê bao trả sau có nhiều điểm khác biệt như hình thức thanh toán, giá cước sử dụng hay các thuê bao trả trước có thể rời mạng một thời gian dài trước khi nhà mạng nhận ra… nên trong luận văn, bài toán phân lớp dữ liệu thuê bao rời mạng mới thực hiện phân tích trên dữ liệu thuê bao trả sau mà chưa thể áp dụng cho thuê bao trả trước. Vì vậy xây dựng bài toán phân lớp thuê bao rời mạng cho thuê bao trả trước là hướng nghiên cứu tiếp theo trong tương lai của tôi.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Hà Quang Thụy, Phan Xuân Hiếu, Ðoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Khai phá dữ liệu Web, NXB Giáo Dục

[2]. TS. Phan Xuân Hiếu, Bài giảng khai phá dữ liệu – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội

[3]. TS. Nguyễn Văn Vinh, Bài giảng trí tuệ nhân tạo – Đại học Công Nghệ - Đại Học Quốc gia Hà Nội

[4]. Bộ Thông Tin và Truyền Thông (2013), Sách Trắng về Công nghệ thông tin và Truyền thông 2013, NXB Thông Tin và Truyền Thông

[5] Phạm Văn Thùy, Luận văn “Khai thác và phân tích dữ liệu ngân hàng nhằm phát hiện rủi ro và hỗ trợ ra quyết định trong quản trị”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K18

[6] Lê Thị Thùy Linh, Khóa luận tốt nghiệp “Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định” - Đại học Công Nghệ - Đại Học Quốc gia Hà Nội, K46 [7] Đỗ Thi Cẩm Vân (2004), Luận văn“Học mạng nơron theo mô hình SOM và ứng dụng trong bàitoán quản lý khách hàng vay vốn Ngân hàng”, Đại học Công Nghệ - Đại Học Quốc gia Hà Nội

[8] 20 năm di động Việt Nam: Đòn bẩy nằm ở đâu?Ictnews, http://ictnews.vn/vien- thong/20-nam-di-dong-viet-nam-don-bay-nam-o-dau-111420.ict

Tiếng Anh

[9]. Jiawei Han University of Illinois at Urbana–Champaign, Micheline Kamber, Jian Pei Simon Fraser University(2012) , Data Mining: Concepts and Techniques - Third Edition

[10]. K. H. Liao and H. E. Chueh (2011), Applying fuzzy data mining to telecom churn management - Intelligent Computing and Information Science.

[11]. Pushpa and G.Shobha (2012), Social Network Analysis for Churn Prediction in Telecom data.

[12]. J. O. Daramola, O. O Oladipupo, and G. A. Musa, A data mining process framework for churn management in mobile telecommunication industry

[13]. E. Shaaban, Y. Helmy, A. Khedr, and M. Nasr, A proposed churn prediction model - International Journal of Engineering Research and Applications

[14]. Georges D. Olle Olle and Shuqin Cai (2014), A Hybrid Churn Prediction Model in Mobile Telecommunication Industry

[15] Jiliang Tang, Salem Alelyani and Huan Liu (2013), Feature Selection for Classification: A Review

[16] Huong Xuan Nguyen (2011), Customer Churn Prediction for the Icelandic Mobile Telephony Market

[17]Clement Kirui, Li Hong, Wilson Cheruiyot and Hillary Kirui (2013), Predicting Customer Churn in Mobile Telephony IndustryUsing Probabilistic Classifiers in Data Mining.

[18] Vladislav Lazarov, Marius Capota,Churn Prediction.

[19] Ali Daud, Muhammad Akram Shaikh, and Faqir Muhammad, Pattern Mining in Telecom Data.

[20] Sen Wu, Naidong Kang, Liu Yang, Fraudulent Behavior Forecast in Telecom IndustryBased on Data Mining Technology.

[21] J. Burez, D. Van den Poel (2009), Handling class imbalance in customer churn prediction.

PHỤ LỤC 1

Danh sách các thuộc tính thu thập được

STT THUỘC TÍNH MÔ TẢ

1 AGE Thông tin số tuổi của khách hàng

2 TYPE_ID Loại thuê bao

3 GENDER Giới tính

4 NUM_DATEACTIVE Số ngày hoạt động của thuê bao kể từ khi bắt đầu

5 POSTCODE Bưu cục thu của thuê bao

6 USE_SERVICE_MAX Số loại dịch vụ sử dụng lớn nhất trong 3 tháng quan sát

7 USE_SERVICE_MIN_MONTH Tháng sử dụng dịch vụ nhỏ nhất trong 3 tháng quan sát

8 USE_SERVICE_MAX_MONTH Tháng sử dụng dịch vụ lớn nhất trong 3 tháng quan sát

9 USE_SERVICE_RATIO1 Tỉ lệ sử dụng dịch vụ trong tháng quan sát đầu tiên so với tổng số lượng dịch vụ trong 3 tháng

10 USE_SERVICE_RATIO2 Tỉ lệ sử dụng dịch vụ trong tháng quan sát thứ 2 so với tổng số lượng dịch vụ trong 3 tháng

11 USE_SERVICE_RATIO3 Tỉ lệ sử dụng dịch vụ trong tháng quan sát thứ 3 so với tổng số lượng dịch vụ trong 3 tháng

12 VOI_INNET_RA1

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

13 VOI_INNET_RATIO2

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng

14 VOI_OUTNET_RA3

Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

15 VOI_OUTNET_RATIO1

Tỷ lệ số giây gọi ngoại mạng trong tháng quan sát đầu tiên của thuê bao so với tổng số giây gọi trong tháng

16 VOI_ABROAD_RA2

Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi nước ngoài của 3 tháng quan sát

17 VOI_ABROAD_RATIO1

Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát đầu tiên so với tổng số giây gọi trong tháng

18 VOI_INNET_FREQ_RA1

Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

19 VOI_INNET_FREQ_RATIO1 Tỷ lệ số cuộc gọi nội mạng của thuê bao so với tổng số cuộc gọi trong tháng quan sát đầu tiên

20 VOI_OUTNET_FREQ_RA1

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

21 VOI_OUTNET_FREQ_RATIO1

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi trong tháng

22 VOI_ABROAD_FREQ_RA1

Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát đầu tiên so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát

23 VOI_ABROAD_FREQ_RATIO1 Tỷ lệ số cuộc gọi ngước ngoài của thuê bao so với tổng số cuộc gọi trong tháng

24 SMS_RA1 Tỷ lệ số tin nhắn của thuê bao tháng quan sát

đầu tiên so với tổng số tin nhắn trong 3 tháng

25 VOI_INNET_RA2

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

26 VOI_INNET_RATIO2

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng

27 VOI_OUTNET_RA2

Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

28 VOI_OUTNET_RATIO2

Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng

29 VOI_ABROAD_RA2

Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi nước ngoài của 3 tháng quan sát

30 VOI_ABROAD_RATIO2

Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số giây gọi trong tháng

31 VOI_INNET_FREQ_RA2

Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

32 VOI_INNET_FREQ_RATIO2

Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi trong tháng

33 VOI_OUTNET_FREQ_RA2

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

34 VOI_OUTNET_FREQ_RATIO2

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi trong tháng

35 VOI_ABROAD_FREQ_RA2

Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát

36 VOI_ABROAD_FREQ_RATIO2 Tỷ lệ số cuộc gọi ngước ngoài của thuê bao trong tháng quan sát thứ 2 so với tổng số cuộc

gọi trong tháng

37 SMS_RA2 Tỷ lệ số tin nhắn của thuê bao tháng quan sát

thứ 2 so với tổng số tin nhắn trong 3 tháng

38 VOI_INNET_RA3

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

39 VOI_INNET_RATIO3

Tỷ lệ số giây gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng

40 VOI_OUTNET_RA3

Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi ngoại mạng của 3 tháng quan sát

41 VOI_OUTNET_RATIO3

Tỷ lệ số giây gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng

42 VOI_ABROAD_RA3

Tỷ lệ số giây gọi nước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi nước ngoài của 3 tháng quan sát

43 VOI_ABROAD_RATIO3

Tỷ lệ số giây gọi ngước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số giây gọi trong tháng

44 VOI_INNET_FREQ_RA3

Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

45 VOI_INNET_FREQ_RATIO3

Tỷ lệ số cuộc gọi nội mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng

46 VOI_OUTNET_FREQ_RA3

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi ngoại mạng của 3 tháng quan sát

47 VOI_OUTNET_FREQ_RATIO3

Tỷ lệ số cuộc gọi ngoại mạng của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng

48 VOI_ABROAD_FREQ_RA3

Tỷ lệ số cuộc gọi nước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi nước ngoài của 3 tháng quan sát

49 VOI_ABROAD_FREQ_RATIO3

Tỷ lệ số cuộc gọi ngước ngoài của thuê bao trong tháng quan sát thứ 3 so với tổng số cuộc gọi trong tháng quan sát thứ 3

50 SMS_RA3 Tỷ lệ số tin nhắn của thuê bao trong tháng quan

sát thứ 3 so với tổng số tin nhắn trong 3 tháng

51 VOI_INNET_MAXM Tháng có số lượng giây gọi nội mạng lớn nhất

52 VOI_INNET_FREQ_MAXM Tháng có số lượng cuộc gọi nội mạng lớn nhất

53 VOI_OUTNET_MAXM Tháng có số lượng giây gọi ngoại mạng lớn nhất

nhất

55 VOI_ABROAD_MAXM Tháng có số lượng giây gọi quốc tế lớn nhất

56 VOI_ABROAD_FREQ_MAXM Tháng có số lượng cuộc gọi quốc tế lớn nhất

57 VOI_INNET_MINM Tháng có số lượng giây gọi nội mạng nhỏ nhất

58 VOI_INNET_FREQ_MINM Tháng có số lượng cuộc gọi nội mạng nhỏ nhất

59 VOI_OUTNET_MINM Tháng có số lượng giây gọi ngoại mạng nhỏ nhất

60 VOI_OUTET_FREQ_MINM Tháng có số lượng cuộc gọi ngoại mạng nhỏ nhất

61 VOI_ABROAD_MINM Tháng có số lượng giây gọi quốc tế nhỏ nhất

62 VOI_ABROAD_FREQ_MINM Tháng có số lượng cuộc gọi quốc tế nhỏ nhất

63 SMS_MAXM Tháng có số lượng SMS lớn nhất

64 SMS_MINM Tháng có số lượng SMS bé nhất

65 DATA_MAXM Tháng có dung lượng data lớn nhất

66 DATA_MINM Tháng có dung lượng data nhỏ nhất

67 VOI_MAXM Tháng có số giây (tất cả các cuộc gọi) tối đa

68 VOI_FREQ_MAXM Tháng có số cuộc gọi lớn nhất

Một phần của tài liệu Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông (Trang 43)

Tải bản đầy đủ (PDF)

(55 trang)