a) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn kNN
Thực nghiệm sử dụng thuật tốn kNN được đánh giá thơng qua kỹ thuật kiểm thử chéo 10 folds, với tham số k được thử từ 1 đến 20, các độ đo đánh giá sự tương tự là độ đo Cosine và độ đo Euclidean. Qua các kết quả thực nghiệm thay đổi tham số, thực nghiệm với k=11 và độ đo sự tương tự là Cosine cho kết quả tốt nhất với độ micro-F là 0.43.
Bảng 8: Kết quả thực nghiệm sử dụng thuật tốn kNN
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC
TOM50 7513 3456 9095 0.38 0.46 0.42
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC TOM11 4429 1506 3673 0.41 0.34 0.37 POBAS 4409 1984 2961 0.67 0.45 0.54 EXSTUDENT 3367 1044 1933 0.54 0.31 0.39 ECO50 3365 1750 2612 0.67 0.52 0.59 TOM690 2840 1278 5325 0.24 0.45 0.31 TOMA1 2185 1093 2023 0.54 0.50 0.52 TOMCD 1528 779 2361 0.33 0.51 0.40 ECD50 768 361 612 0.59 0.47 0.52 ECOM1 718 230 527 0.44 0.32 0.37 MACRO-F 0.48 0.43 0.46 MICRO-F 0.43
Kết quả thực nghiệm đạt macro-F là 0.46 và micro-F1 là 0.43 cho thấy sự chênh lệch là khơng lớn cho thấy dữ liệu mặc dù cĩ sự mất cân bằng giữa các lớp là khá lớn (lớp thấp nhất là ECOM1 với 718 dữ liệu với lớp cao nhất là TOM50 với 7513 dữ liệu, tỷ lệ 1/10) nhưng khơng gây ra ảnh hưởng cao. Kết quả tốt nhất đạt ở lớp ECO50 với F là 0.59, độ chính xác tốt nhất là lớp ECO50 và POBAS 0.67, độ hồi tưởng tốt nhất là lớp ECO50. Hầu hết độ chính xác thường tốt hơn độ hồi tưởng đối với từng lớp.
b) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn SVM
Trong thực nghiệm này, luận văn tiến hành thực nghiệm với thuật SVM với các tham số thay đổi là C trong ngưỡng 0.1 đến 10, gamma trong ngưỡng 0.1 đến 10, nhân thử nghiệm là RBF. Qua các kết quả thực nghiệm cho thấy với C=1 và gamma=0.8 cho kết quả tốt nhất với micro-F là 0.57.
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC TOM50 7513 4376 8549 0.51 0.58 0.54 TOM11 4429 3452 5347 0.65 0.78 0.71 POBAS 4409 2316 3124 0.74 0.53 0.61 EXSTUDENT 3367 1594 2971 0.54 0.47 0.50 ECO50 3365 1864 2547 0.73 0.55 0.63 TOM690 2840 1755 3209 0.55 0.62 0.58 TOMA1 2185 1296 2047 0.63 0.59 0.61 TOMCD 1528 647 1968 0.33 0.42 0.37 ECD50 768 219 712 0.31 0.29 0.30 ECOM1 718 347 648 0.54 0.48 0.51 MACRO-F 0.55 0.53 0.54 MICRO-F 0.57
Kết quả thực nghiệm sử dụng SVM với macro-F là 0.54 và micro-F là 0.57 cho thấy hiệu quả hơn so với thuật tốn kNN là 0.14 với độ đo micro-F. Lớp TOM11 đạt kết quả F tốt nhất là 0.71 và độ hồi tưởng tốt nhất là 0.78, lớp POBAS đạt kết quả độ chính xác tốt nhất 0.74. Hầu hết các lớp đều cho kết quả tốt hơn so với việc sử dụng thuật tốn kNN ngoại trừ hai lớp TOMCD (0.37 so với 0.4) và ECD50 (0.3 so với 0.52), đây là hai lớp cĩ số lượng dữ liệu thấp.
c) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật tốn cây quyết định
Thực nghiệm sử dụng thuật tốn cây quyết định sử dụng các tham số liên quan đến các thuật tốn đánh giá và tối ưu trên cây, cụ thể:
- Độ đo đánh giá: Gini index và Gain ratio - Tỉa cây: khơng tỉa cây và cĩ tỉa cây
- Số lượng nút nhỏ nhất trên cây: chạy trong khoảng 2 đến 5
Kết quả thực nghiệm cho thấy kết quả tốt nhất tại độ đo đánh giá là Gini, khơng tỉa cây và số lượng nút nhỏ nhất là 3. Bên cạnh đấy thuật tốn này khơng sử dụng kỹ thuật chuẩn hĩa khoảng biên độ dữ liệu về khoảng 0-1 bằng thuật tốn Min-Max mà giữ nguyên các giá trị dạng số.
Bảng 10: Kết quả thực nghiệm sử dụng thuật tốn cây quyết định
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC TOM50 7513 4618 7914 0.58 0.61 0.60 TOM11 4429 3607 5210 0.69 0.81 0.75 POBAS 4409 3217 3487 0.92 0.73 0.81 EXSTUDENT 3367 1964 3574 0.55 0.58 0.57 ECO50 3365 2349 2741 0.86 0.70 0.77 TOM690 2840 2144 3119 0.69 0.75 0.72 TOMA1 2185 1546 2267 0.68 0.71 0.69 TOMCD 1528 1018 1684 0.60 0.67 0.63 ECD50 768 451 512 0.88 0.59 0.70 ECOM1 718 398 614 0.65 0.55 0.60 MACRO-F 0.71 0.67 0.69 MICRO-F 0.68
Kết quả thực nghiệm cho thấy việc sử dụng thuật tốn cây quyết định cho kết quả tốt hơn SVM là 0.11 với độ đo micro-F là 0.68 và macro-F là 0.69. Tất cả các lớp đều cho kết quả tốt hơn các lớp trong 2 thuật tốn kNN và SVM, lớp POBAS cho kết quả tốt nhất với độ đo F là 0.81 và độ chính xác tốt nhất là 0.92, lớp TOM11 cho kết quả độ hồi tưởng tốt nhất là 0.81. Tuy nhiên cĩ một số lớp kết quả vẫn chưa tốt như EXSTUDENT, TOMCD, TOM50 và ECOM1.
d) Thực nghiệm đánh giá kết quả phân loại sử dụng kết hợp các mơ hình
Qua 3 thực nghiệm ở trên, kết quả của thuật tốn cây quyết định cho kết quả vượt trội hơn so với các thực nghiệm sử dụng các kỹ thuật khác. Tuy nhiên một số lớp kết quả vẫn chưa đạt được hiệu quả cao. Trong thực nghiệm sử dụng kết hợp các mơ hình (ensemble models), luận văn tiến hành ghép nối các mơ hình theo tiêu chí sau:
- Kết quả mơ hình sử dụng kNN đầu ra cĩ giá trị là 1 - Kết quả mơ hình sử dụng SVM đầu ra cĩ giá trị là 1.5
- Kết quả mơ hình sử dụng cây quyết định đầu ra cĩ giá trị là 2
Việc đưa ra các giá trị của bộ phân lớp thành phần dựa trên mức độ hiệu quả của các thực nghiệm ở trên (cây quyết định tốt hơn SVM và kNN). Kết quả từ bộ phân lớp kết hợp tương ứng với nhãn lớp cĩ tổng giá trị cao nhất.
Ví dụ 1:
- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu ra của bộ phân lớp SVM là: ECOM1 (giá trị 1.5) - Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)
Nhãn lớp đầu ra của mơ hình kết hợp là ECD50 (giá trị 2) Ví dụ 2:
- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1) - Nhãn lớp đầu ra của bộ phân lớp SVM là: TOM11 (giá trị 1.5) - Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)
Nhãn lớp đầu ra của mơ hình kết hợp là TOM11 (giá trị 2.5)
Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mơ hình
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC
TOM50 7513 4251 6049 0.70 0.57 0.63
TOM11 4429 3709 5007 0.74 0.84 0.79
POBAS 4409 3547 4158 0.85 0.80 0.83
TẬP SỐ MÁY DỰ ĐỘ ĐỘ HỒI KẾT
MẪU LIỆU ĐỐN CHÍNH TƯỞNG QUẢ
ĐÚNG ĐƯỢC XÁC ECO50 3365 2309 2947 0.78 0.69 0.73 TOM690 2840 2218 3642 0.61 0.78 0.68 TOMA1 2185 1688 2674 0.63 0.77 0.69 TOMCD 1528 986 1557 0.63 0.65 0.64 ECD50 768 579 694 0.83 0.75 0.79 ECOM1 718 538 705 0.76 0.75 0.76 MACRO-F 0.71 0.72 0.72 MICRO-F 0.71
Kết quả chung của thực nghiệm cho kết quả tốt nhất so với 3 thực nghiệm cịn lại với độ đo micro-F là 0.71 hơn kết quả của cây quyết định 0.68 là 0.03, SVM 0.57 là 0.14, kNN 0.43 là 0.28. Thực nghiệm ưu tiên kết quả cây quyết định cĩ giá trị cao hơn nên hầu hết các kết quả tương quan với mơ hình sử dụng thuật tốn cây quyết định, bên cạnh đấy một số kết quả của các mơ hình cịn lại cũng bổ sung thêm cho mơ hình kết hợp giúp mơ hình này mang lại hiệu quả tốt hơn. Tương tự như trong thực nghiệm cây quyết định, lớp POBAS cũng đạt kết quả tốt nhất tại độ đo F là 0.83 (hơn so với thuật tốn cây quyết định 0.81 là 0.02) và tốt nhất độ đo chính xác là 0.85, lớp TOM11 cũng đạt độ hồi tưởng tốt nhất là 0.84. Các lớp cĩ lượng dữ liệu thấp như ECD50 và ECOM1 cũng tăng đáng kể hiệu quả từ 0.70 lên 0.79 và 0.6 lên 0.76.
KẾT LUẬN Nội dung đã đạt được
Nghiên cứu tìm hiểu bài tốn dự đốn khách hàng tiềm năng cho các gĩi cước viễn thơng và các hướng tiếp cận giải quyết bài tốn.
Phân tích, tìm hiểu và xử lý các đặc trưng, đặc tính của dữ liệu thuê bao, đưa ra các đặc trưng phù hợp nhất với bài tốn.
Đưa ra được mơ hình phân lớp dữ liệu thuê bao sử dụng các thuật tốn cây quyết định, SVM, kNN và kỹ thuật kết hợp các mơ hình phân loại.
Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu thuê bao, thực nghiệm phân lớp dữ liệu với dữ liệu cụ thể và đánh giá hiệu năng của các thuật tốn. Kết quả của mơ hình kết hợp đạt kết quả khả quan với độ đo micro-F là 0.71.
Hướng tiếp cận trong tương lai
Do dữ liệu lấy mẫu chưa nhiều nên số lượng gĩi cước đảm bảo tính phổ biến để vào mơ hình phân loại chỉ là 10 gĩi cước tương ứng với 10 nhãn, cịn lại 153 gĩi cước chưa được đưa vào mơ hình. Vì vậy hướng nghiên cứu tiếp theo của học viên là mở rộng tập dữ liệu cho các gĩi cước khác và đánh giá trên một quy mơ tập nhãn lớn hơn.
TÀI LIỆU THAM KHẢO Tiếng Việt
1. Hồng Xuân Huấn, Giáo trình nhận dạng mẫu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.145-178.
2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.249-286
Tiếng Anh
1. Almana, A. M., Aksoy, M. S., & Alzahrani, R. (2014). A survey on data mining techniques in customer churn analysis for telecom industry. International Journal of Engineering Research and Applications, 45, 165- 171.
2. Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A. Mirza. "Spammer classification using ensemble methods over structural social network features." Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014. 3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
4. Giacinto and F. Roli. Design of effective neural network ensembles for image classification purposes. Image and Vision Computing, 19(9-10): 699–707, 2001.
5. Giacinto, F. Roli, and G. Fumera. Design of effective multiple classifier systems by clustering of classifiers. In Proceedings of the 15th International Conference on Pattern Recognition, pages 160–163, Barcelona, Spain, 2000.
6. Giacinto, F. Roli, and L. Didaci. Fusion of multiple classifiers for intrusion detection in computer networks. Pattern Recognition Letters, 24(12): 1795–1803, 2003so cu5so moi6
7. Giacinto, R. Perdisci, M. D. Rio, and F. Roli. Intrusion detection in computer networks by a modular ensemble of one-class classifiers. Information Fusion, 9(1):69–82, 2008.
8. Hilas, C. S., & Mastorocostas, P. A. (2008). An application of supervised and unsupervised learning approaches to telecommunications fraud detection. Knowledge-Based Systems, 21(7), 721-726.
9. Hilas, C. S., Kazarlis, S. A., Rekanos, I. T., & Mastorocostas, P. A. (2014). A genetic programming approach to telecommunications fraud detection and classification. In Proc. 2014 Int. Conf. Circuits, Syst. Signal Process. Commun. Comput (pp. 77-83).
10. Hilas, C. S., Mastorocostas, P. A., & Rekanos, I. T. (2015). Clustering of telecommunications user profiles for fraud detection and security enhancement in large corporate networks: a case study. Applied Mathematics & Information Sciences, 9(4), 1709.
11. Insani, R., & Soemitro, H. L. (2016, May). Data mining for marketing in telecommunication industry. In 2016 IEEE Region 10 Symposium (TENSYMP) (pp. 179-183). IEEE.
12. Jansen, S. M. H. (2007). Customer segmentation and customer profiling for a mobile telecommunications company based on usage behavior. A Vodafone Case Study, 66.
13. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015, December). Big data use case domains for telecom operators. In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity) (pp. 850-855). IEEE.
14. Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer segmentation and strategy development based on customer lifetime value: A case study. Expert systems with applications, 31(1), 101-107.
15. Li, Q. (2009, April). An algorithm of quantitative association rule on fuzzy clustering with application to cross-selling in telecom industry. In 2009 International Joint Conference on Computational Sciences and Optimization (Vol. 1, pp. 759-762). IEEE.
16. Masoud, R., & Ahmed, T. M. (2016). Using data mining in telecommunication industry: Customer's churn prediction model. Journal of Theoretical and Applied Information Technology, 91(2), 322.
17. Russell, S., & Lodwick, W. (1999, June). Fuzzy clustering in data mining for telco database marketing campaigns. In 18th International
Conference of the North American Fuzzy Information Processing Society- NAFIPS (Cat. No. 99TH8397) (pp. 720-726). IEEE.
18. Tianyuan, Z. (2018). Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation).
19. van Wezel, Michiel, and Rob Potharst. "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1 (2007): 436-452.
20. Wang, Y., Sanguansintukul, S., & Lursinsap, C. (2008, September). The customer lifetime value prediction in mobile telecommunications. In 2008 4th IEEE International Conference on Management of Innovation and Technology (pp. 565-569). IEEE.
21. Weiss, G. M. (2005). Data mining in telecommunications. In Data Mining and Knowledge Discovery Handbook (pp. 1189-1201). Springer, Boston, MA.
22. Wu, W., Liu, Z., & He, Y. (2015). Classification of defects with ensemble methods in the automated visual inspection of sewer pipes. Pattern Analysis and Applications, 18(2), 263-276.
23. Ye, L., Qiu-ru, C., Hai-xu, X., Yi-jun, L., & Zhi-min, Y. (2012, July). Telecom customer segmentation with K-means clustering. In 2012 7th International Conference on Computer Science & Education (ICCSE) (pp. 648-651). IEEE.
24. Zhang, Z., Lin, H., Liu, K., Wu, D., Zhang, G., & Lu, J. (2013). A hybrid fuzzy-based personalized recommender system for telecom products/services. Information Sciences, 235, 117-129.