Giải quyết vấn đề mất cân bằng dữ liệu trong bài toán dự báo thuê bao rời bỏ nhà mạng

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN NHẬT NAM GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO THUÊ BAO RỜI BỎ NHÀ MẠNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH: 60.48.01.01 LUẬN VĂN THẠC SĨ PGS.TS DƯƠNG TUẤN ANH TP.HCM – Tháng Năm 2020 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: TS Võ Thị Ngọc Châu Cán chấm nhận xét 2: PGS TS Nguyễn Thanh Hiên Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: PGS TS Quản Thành Thơ Thư ký hội đồng: TS Nguyễn Tiến Thịnh Phản biện 1: TS Võ Thị Ngọc Châu Phản biện 2: PGS TS Nguyễn Thanh Hiên Ủy viên hội đồng: TS Phạm Văn Chung Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KHMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NHẬT NAM MSHV: 1770658 Ngày, tháng, năm sinh: 05-09-1992 Nơi sinh: Tiền Giang Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO THUÊ BAO RỜI BỎ NHÀ MẠNG II NHIỆM VỤ VÀ NỘI DUNG: NGHIÊN CỨU VÀ ÁP DỤNG CÁC KĨ THUẬT ĐỂ GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN THUÊ BAO RỜI BỎ NHÀ MẠNG III NGÀY GIAO NHIỆM VỤ : 19-08-2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ : 31-7-2020 V CÁN BỘ HƯỚNG DẪN : PGS.TS DƯƠNG TUẤN ANH Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA (Họ tên chữ ký) Lời Cám Ơn Lời đầu tiên, muốn gửi lời cảm ơn chân thành đến thầy PGS.TS Dương Tuấn Anh, thời gian qua, hướng dẫn giúp đỡ tơi q trình thực luận văn tốt nghiệp Những lời nhận xét, góp ý hướng dẫn Thầy giúp tơi có định hướng q trình thực đề tài, giúp thấy ưu khuyết điểm phương pháp tiếp cận bước khắc phục để ngày tốt Cám ơn Lê Anh Vũ trường Đại học Fulbright Việt Nam đóng góp sửa chữa cách trình bày, văn phong q trình hồn thành báo khoa học Đồng thời muốn gửi lời cảm ơn sâu sắc đến gia đình bạn bè động viên, cổ vũ tinh thần góp ý suốt q trình học tập thực đề tài, đặc biệt gia đình chăm lo hy sinh nhiều để tơi chun tâm học tập Sau cùng, tơi xin kính chúc q Thầy Cơ khoa Khoa Học Kĩ Thuật Máy Tính thật dồi sức khỏe, niềm tin để tiếp tục thực sứ mệnh cao đẹp truyền đạt kiến thức cho hệ mai sau Thành phố Hồ Chí Minh, 9/2020 Nguyễn Nhật Nam i Tóm Tắt Dự báo thuê bao rời bỏ nhà mạng vấn đề quan tâm rộng rãi công nghiệp ngân hàng, công ty dịch vụ viễn thơng ảnh hưởng quan trọng đến lợi nhuận công ty Tuy nhiên, giải thuật truyền thống áp dụng cho toán dự báo thuê bao rời bỏ nhà mạng có số hạn chế liệu thường cân Những kĩ thuật phổ biến để giải liệu cân toán thuê bao rời bỏ nhà mạng thuộc hai nhóm sau: kĩ thuật lấy mẫu để làm cân tập liệu trước huấn luyện mơ hình học kĩ thuật tác động đến hàm mát, mà kĩ thuật điều chỉnh chi phí phân lớp sai huấn luyện mơ hình Trong đề tài, chúng tơi so sánh hiệu phân lớp hai phương pháp lấy mẫu là: SMOTE Deep Belief Network (DBN) hai phương pháp liên quan đến hàm mát là: hàm mát Focal hàm mát Entropy theo trọng số Kết thực nghiệm cho thấy toán thuê bao rời bỏ nhà mạng, hiệu dự đoán tổng thể phương pháp hàm mát Focal hàm mát Entropy theo trọng số đạt hiệu tốt so với hai phương pháp SMOTE DBN Thêm vào chúng tơi nhận thấy vấn đề độ lệch phân bố liệu thay đổi theo thời gian vấn đề quan trọng triển khai mô hình dự đốn thực tế Trong đề tài chúng tơi tìm hiểu kĩ thuật tìm kiếm đối kháng nhằm giúp mơ hình có khả tự phát thích ứng với thay đổi phân bố liệu theo thời gian Qua kết thực nghiệm cho thấy việc áp dụng kĩ thuật đối kháng mang lại hiệu phân lớp tốt so với phương pháp truyền thống ii Abstract Customer churn is a major problem in several service industries such as banks and telecommunication companies for its profound impact on the company’s revenue However, the existing algorithms for churn prediction still have some limitations because the data is usually imbalanced The commonly-used techniques for handling imbalanced data in churn prediction belong to two categories: resampling methods that balance the data before model training, and cost-sensitive learning methods that adjust the relative costs of the errors during model training In this work, we compare the performance of two data resampling methods: SMOTE and deep belief network (DBN) against the two cost-sensitive learning methods: focal loss and weighted loss in churn prediction problem The empirical results show that as for churn prediction problem, the overall predictive performance of focal loss and weighted loss methods is better than that of SMOTE and DBN In addition, we recognize that the problem of data distribution shift over time is an important problem when implementing predictive models in practice In this topic, we explore adversarial search technique to help the model self-detect and adapt to changes in data distribution over time Experimental results show that the application of adversarial search technique brings better classification effect compare with using traditional methods iii Lời Cam Đoan Tôi Nguyễn Nhật Nam học viên cao học khoa Khoa Học Kĩ Thuật Máy Tính, Đại học Bách Khoa TP HCM, MSHV 1770658 Tôi xin cam đoan luận văn thạc sĩ "Giải Quyết Vấn Đề Mất Cân Bằng Dữ Liệu Trong Bài Toán Dự Báo Thuê Bao Rời Bỏ Nhà Mạng" kết tìm hiểu, nghiên cứu độc lập thân Tơi xin cam đoan: • Luận văn thực cho mục đích tìm hiểu nghiên cứu bậc cao học • Các cơng trình, báo tham khảo để xây dựng nên luận văn trích dẫn, tham khảo Tất tài liệu trích dẫn có tính kế thừa từ tạp chí cơng trình nghiên cứu cơng bố • Những cơng cụ, phần mềm cho q trình thực luận văn phần mềm mã nguồn mở • Hình ảnh số liệu trích dẫn nguồn tham khảo rõ ràng • Kết nghiên cứu trình bày trung thực dựa số liệu thực tế chạy chương trình Thành phố Hồ Chí Minh, 9/2020 Nguyễn Nhật Nam iv Mục Lục LỜI CÁM ƠN I TÓM TẮT II ABSTRACT III LỜI CAM ĐOAN .IV DANH MỤC HÌNH VIII DANH MỤC BẢNG IX CHƯƠNG GIỚI THIỆU .IX 1.1 TỔNG QUAN VỀ ĐỀ TÀI 1.2 MỤC ĐÍCH NGHIÊN CỨU 1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1.4 KẾT QUẢ ĐẠT ĐƯỢC 1.5 CẤU TRÚC LUẬN VĂN CHƯƠNG CÁC CƠNG TRÌNH LIÊN QUAN 2.1 MƠ HÌNH ÁP DỤNG CÁC GIẢI THUẬT HỌC MÁY CĂN BẢN VÀ MẠNG NƠRON HỌC SÂU 2.2 MƠ HÌNH ÁP DỤNG CÁC KĨ THUẬT HỌC CHUYỂN GIAO (TRANSFER LEARNING) 2.3 MƠ HÌNH GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG 2.3.1 Xử lí liệu cân với tiếp cận phương diện liệu 10 2.3.2 Xử lí liệu cân với tiếp cận phương diện giải thuật 10 2.4 MƠ HÌNH GIẢI QUYẾT VẤN ĐỀ ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THAY ĐỔI THEO THỜI GIAN 11 2.5 KẾT LUẬN 11 CHƯƠNG CƠ SỞ LÍ THUYẾT 12 3.1 GIẢI THUẬT PHÂN LỚP HỒI QUY LOGISTICS VÀ XGBOOST 12 3.1.1 Giải thuật phân lớp Hồi quy Logistics 12 3.1.2 Giải thuật phân lớp XGBoost 13 3.2 VẤN ĐỀ DỮ LIỆU MẤT CÂN BẰNG 14 v 3.3 CÁCH TIẾP CẬN CƠ BẢN ĐỂ GIẢI QUYẾT DỮ LIỆU MẤT CÂN BẰNG 15 3.3.1 Sử dụng độ đo, tiêu chí để đánh giá phù hợp 15 3.3.2 Lấy mẫu tập huấn luyện 16 3.3.3 Sử dụng K-fold kiểm tra chéo (K-fold Validation) cách 17 3.4 SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE (SMOTE) 18 3.5 DEEP BELIEF NETWORK (DBN) 20 3.6 HÀM MẤT MÁT FOCAL (FOCAL LOSS) 21 3.7 HÀM MẤT MÁT ENTROPY THEO TRỌNG SỐ (WEIGHTED CROSS ENTROPY LOSS) 21 3.8 ĐỘ LỆCH PHÂN BỐ DỮ LIỆU (DISTRIBUTION SHIFT) 22 3.8.1 Covariate shift 24 3.8.2 Prior probability shift 25 3.8.3 Concept shift 25 3.8.4 Phương pháp giải vấn đề độ lệch phân bố liệu 26 3.9 TÌM KIẾM ĐỐI KHÁNG (ADVERSARIAL SEARCH) 27 3.10 HỆ SỐ XU HƯỚNG (PROPENSITY SCORE) 28 3.11 PHƯƠNG PHÁP NGHỊCH ĐẢO TRỌNG SỐ CỦA HỆ SỐ XU HƯỚNG 28 3.12 KẾT LUẬN 29 CHƯƠNG PHƯƠNG PHÁP TIẾP CẬN 30 4.1 CÁC BƯỚC THỰC HIỆN 30 4.1 QUÁ TRÌNH TẠO CÂN BẰNG DỮ LIỆU HUẤN LUYỆN 32 4.2 QUÁ TRÌNH THIẾT KẾ KĨ THUẬT HỌC THÍCH ỨNG VỚI ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THEO THỜI GIAN 33 4.3 KẾT LUẬN 34 CHƯƠNG HIỆN THỰC VÀ THỰC NGHIỆM 35 5.1 THỰC NGHIỆM GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU 35 5.1.1 Tiêu chí đánh giá 35 5.1.2 Thực Nghiệm 36 5.1.3 Kết Quả Thực Nghiệm 38 5.1.4 Kết Luận 52 5.2 THỰC NGHIỆM GIẢI QUYẾT VẤN ĐỀ ĐỘ LỆCH PHÂN BỐ DỮ LIỆU THEO THỜI GIAN 52 5.2.1 Thực Nghiệm 52 vi 5.2.2 Kết Quả Thực Nghiệm 54 5.2.3 Kết Luận 58 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 BÀI BÁO KHOA HỌC CÔNG BỐ 61 TÀI LIỆU THAM KHẢO 62 vii thuật học máy nhận biết, trường hợp trọng số mẫu liệu huấn luyện tương quan với khả mẫu giống với mẫu tập liệu kiểm thử Ví dụ, mẫu có trọng số cao mẫu có khả cao giống với liệu tập huấn luyện Phương pháp ngầm định đánh trọng số cho mẫu, trọng số liên quan đến tương đồng với liệu kiểm thử giúp cho mơ hình học máy ưu tiên mẫu có trọng số cao 5.2.2 Kết Quả Thực Nghiệm Thực trình phân chia liệu huấn luyện kiểm thử dùng phương pháp độ đo khoảng cách Euclid Sau phân chia liệu, đánh giá lại độ lệch phân bố hệ số xu hướng trình phân chia độ đo Euclid so với phương pháp ngẫu nhiên để kiểm định lại phương pháp dùng độ đo khoảng cách Euclid tạo tập liệu kiểm thử lệch phân bố có ý nghĩa thống kê so với tập liệu huấn luyện Biểu diễn độ lệch phân bố tập huấn luyện tập kiểm thử dùng phương pháp độ đo khoảng cách Euclid biểu diễn hình 19 so với phương pháp ngẫu nhiên biễu diễn hình 20 54 Hình 19 Phân bố hệ số xu hướng phân chia tập huấn luyện (tập control) tập kiểm thử (tập test) dựa khoảng cách Euclid Hình 20 Phân bố hệ số xu hướng phân chia ngẫu nhiên tập huấn luyện (tập control) tập kiểm thử (tập test) 55 Qua hình 19 hình 20, ta thấy dùng phương pháp độ đo khoảng cách Euclid để phân chia tập liệu huấn luyện tập liệu kiểm thử, có tách biệt phân bố hệ số xu hướng hai nhóm Trong so với phương pháp phân chia ngẫu nhiên, phân bố hệ số xu hướng hai nhóm gần chồng khít lên Điều khẳng định, việc dùng phương pháp độ đo khoảng cách Euclid để phân chia tập liệu huấn luyện tập liệu kiểm thử nhằm mục đích tạo tập kiểm thử có độ lệch phân bố có ý nghĩa thống kê, phù hợp ngữ cảnh thực nghiệm Sau chúng tơi đánh giá phương pháp nghịch đảo trọng số hệ số xu hướng lên tập liệu có thay đổi phân bố tập liệu tập kiểm thử so với tập huấn luyện để đánh giá hiệu cách tiếp cận Áp dụng phương pháp nghịch đảo trọng số hệ số xu hướng, ta thực so sánh hiệu giải thuật phân lớp đối kháng so với phương pháp truyền thống Sử dụng hai giải thuật Hồi Logistics XGBoost làm phân lớp đối kháng Sau dùng phương pháp nghịch đảo trọng số hệ số xu hướng để tìm trọng số mẫu tập liệu huấn luyện Các mẫu liệu huấn luyện ứng với trọng số đưa vào giải thuật phân lớp để dự đốn mẫu có khả rời bỏ nhà mạng hay không, giải thuật chọn XGBoost theo đánh giá bên giải thuật có hiệu phân lớp tốt Kết giá trị AUC dùng kĩ thuật tìm kiếm đối kháng ghi nhận Bảng 56 Bảng 10 Kết tập liệu mơ q trình lệch phân bố Train/Test Split Algorithm AUC Accuracy Precision Recall F1 Stratified Shuffle Split XGBoost 0.8780 0.94 0.88 0.77 0.82 Simulation with Euclid Distance XGBoost 0.8518 0.94 0.93 0.72 0.81 Bảng 11 Kết áp dụng kĩ thuật tìm kiếm đối kháng Adversarial Classifier Algorithm AUC Accuracy Precision Recall F1 None XGBoost 0.8518 0.93 0.93 0.72 0.81 Logistics Regression XGBoost 0.8645 0.94 0.96 0.74 0.83 XGBoost XGBoost 0.8712 0.94 0.94 0.76 0.84 Bảng cho thấy áp dụng kĩ thuật tìm kiếm đối kháng cho kết tốt hơn, cụ thể với phân lớp đối kháng dùng Hồi quy Logistics giá trị AUC tăng gần 1.5%, với giải thuật XGBoost tăng gần 2% Kết chứng tỏ cách tiếp cận tìm kiếm đối kháng mang lại 57 tiềm to lớn giúp mơ hình học thích ứng với thay đổi phân bố liệu theo thời gian 5.2.3 Kết Luận Qua thực nghiệm chứng tỏ khả ứng dụng kĩ thuật tìm kiếm đối kháng để giải vấn đề phân bố liệu thay đổi theo thời gian Trong thực tế với kĩ thuật tìm kiếm đối kháng giúp phát sớm thay đổi phân bố, thay đổi lớn ngưỡng đặt trước, chứng ta áp dụng kĩ thuật nghịch đảo trọng số hệ số xu hướng để giúp mơ hình học thích ứng thay đổi theo thời gian Q trình thiết lập tự động theo thời gian, phù hợp với ngữ cảnh thực tế liệu liên tục thay đổi, mơ hình học cần thích ứng nhanh thay đổi kịp thời Giải vấn đề thay đổi mơ hình học thích ứng với thay đổi phân bố liệu khía cạnh quan trọng tốn tự động q trình học máy (Auto Machine Learning) quan tâm nhiều gần 58 Chương Kết Luận Hướng Phát Triển 6.1 Những Kết Quả Đạt Được Của Luận Văn Qua trình tìm hiểu thực đề tài, chúng tơi thấy vấn đề liệu cân vấn đề thường gặp ảnh hưởng nghiêm trọng đến hiệu dự đoán toán dự báo thuê bao rời bỏ nhà mạng nói riêng tốn phân lớp nói chung Việc so sánh kĩ thuật giải vấn đề liệu cân mang lại cải thiện đáng kể so với phương pháp truyền thống Đặc biệt phương pháp tác động đến hàm mát qua hai kĩ thuật hàm mát Focal hàm mát Entropy theo trọng số đem lại tiềm đáng kể hiệu đạt với thời gian xử lí tương đối ngắn, cải thiện thể rõ tập liệu cân tỉ lệ nhóm rời bỏ từ 1% đến 5%, điều đem đến khả ứng dụng cao thực tế Một vấn đề khác ảnh hưởng đến khả áp dụng thực tế mô hình dự đốn th bao rời bỏ nhà mạng vấn đề hành vi người dùng liên tục thay đổi theo thời gian, thể rõ phân bố liệu tập kiểm thử bị lệch so với tập huấn luyện, mơ hình dự đốn khơng dự đoán tốt tập liệu kiểm thử Việc áp dụng kĩ thuật tìm kiếm đối kháng giúp có khả tự động phát giúp mơ hình học có khả thích ứng với thay đổi thơng qua q trình cân phân bố liệu hai tập huấn luyện kiểm thử Kĩ thuật tìm kiếm đối kháng triển khai tự động toán thực tế, điều giúp q trình học có khả tự thích ứng với thay đổi liên tục từ liệu học theo thời gian Điều đánh giá có tiềm quan trọng triển khai giải thuật học máy toán thực tế 59 6.2 Hướng Phát Triển Với vấn đề giải liệu cân tích hợp hàm mát Focal hàm mất Entropy theo trọng số cho giải thuật học máy khác như: SVM, Random Forest… Quá trình sinh liệu cân chọn lọc để thể tính đắn cho nhóm liệu sinh Với vấn đề giải phân bố liệu thay đổi theo thời gian, việc dùng kĩ thuật nghịch đảo trọng số hệ số xu hướng nghiên cứu thêm kĩ thuật lựa chọn đặc trưng lựa chọn mẫu liệu, cho trình lựa chọn thể tính cân phân bố liệu nhóm kiểm thử nhóm huấn luyện Khi triển khai trình tự động để mơ hình thích ứng theo thời gian cần quan tâm đến lựa chọn giá trị ngưỡng để vượt qua giá trị ngưỡng hệ thống tự động q trình huấn luyện lại mơ hình có khả thích ứng với tình trạng liệu Khía cạnh hiệu thời gian tính tốn tính phức tạp q trình tự động khía cạnh quan trọng cân nhắc áp dụng thực tế 60 Bài Báo Khoa Học Công Bố Nguyen Nhat Nam, Duong Tuan Anh, “Comparison of Two Main Approaches for Handling Imbalanced Data in Churn Prediction Problem”, International Conference on Software and Computing Technologies, 4-6 April, 2020 Hội nghị tổ chức online (do dịch Covid-19) Bài báo xuất vào khoảng 10/2020 tạp chí sau đây: Journal of Advances in Information Technology (JAIT, http://www.jait.us/) 61 Tài liệu tham khảo [1] Y Zhang, J Qui, H Shu, J Cao, “A hybrid KNN-LR classifier and its application in customer churn prediction,” Proc of IEEE International Conference on Systems, Man and Cybernetics, 7-12 Oct, pp 3265-3269, 2007 [2] P Datta, B Massand, D Mani, B Li, “Automated cellular modeling and prediction on a large scale,” Artificial Intelligence Review, vol 14, pp 485-502, 2000 [3] Y Wang, Z Chen, “The application of classification algorithm combined with kmeans in Customer churning of telecom”, Journal of Jiamusi University [4] G Li, X Deng, “Customer churn prediction of China Telecom based on cluster analysis and decision tree algorithm,” Proc of AICI 2012, CCIS 315, pp 319-327, 2012 [5] E Lima, C Mues, B Baesens,”Domain knowledge integration in data mining using decision tables: Case studies in churn prediction,” Journal of the Operational Research Society, vol 60, no 8, pp 1096-1106, 2009 [6] S Hung, D Yen, H Wang, “Applying data mining to telecom churn management”, Expert Systems with Applications, vol 31, pp.515-524, 2006 [7] C.F Tsai, Y H Lu, “Customer churn prediction by hybrid neural networks”, Expert Systems with Applications, vol.36, pp 12547-12553, 2009 [8] Y Zhao, B Li, X Li, W Liu, and S Ren, “Customer churn prediction with improved one-class support vector machine,” Proc of ADMA 2005, LNAI 3584, pp.300-306, 2005 [9] B Lariviere and D Van, “Predicting customer retention and profitability by using random forests and regression forests techniques,” Expert Systems with Applications, vol 29, pp 277-285, 2005 [10] Y Xie, X Li, E W T Ngai, W Ying, “Customer churn prediction using improved balanced random forests,” Expert Systems with Applications, vol 36, pp.5445-5449, 2009 [11] P Spanoudes, T Nguyen, “Deep Learning in Customer Churn Prediction: Unsupervised Feature Learning on Abstract Company Independent Feature Vectors,” 2017 62 [12] Wangperawong, C Brun, O Olav, P Rujikorn, “Churn analysis using deep convolutional neural networks and autoencoders,” arXiv:1604.05377, 2016 [13] A Uzair, A K Hussain, S H Khan, A Basit, I U Haq, Y S Lee, Y Soo, “Transfer Learning and Meta Classification Based Deep Churn Prediction System for Telecom Industry,” arXiv:1901.06091, 2019 [14] Y.Xiao, J Xiao, Y Huang, A Liu, D Wang, “Feature-selection-based dynamic transfer ensemble model for customer churn prediction,” Knowledge and Information Systems 1(43):pp.29-51, 2014 [15] W Bi, Y Shi, Z Lan, “Transferred feature selection, ” Proceedings of IEEE international conference on data mining workshops, pp.416–421, 2009 [16] T Kamishima, M Hamasaki, S Akaho, “TrBagg: a simple transfer learning method and its application to personalization in collaborative tagging,” Proceedings of ninth IEEE international conference on data mining, Miami, FL, USA, pp.219–228, 2009 [17] W Dai , Q Yang, G R Xue, Y Yu, “Boosting for transfer learning,” Proceedings of the 24th international conference on machine learning, pp.193–200, 2007 [18] Z H Zhou and X Y Liu, “Training cost-sensitive neural networks with methods addressing the class imbalance problem,” IEEE Trans Knowledge and Data Engineering 18(1):pp.63–77, 2006 [19] N V Chawla, K W Bowyer, L O Hall and W P Kegelmeyer, "SMOTE: Synthetic Minority Over-sampling Technique," Journal of Artificial Intelligence Research, vol 16, pp 321-357, 2002 [20] He, Haibo, Yang Bai, Edwardo A Garcia, and Shutao Li “ADASYN: Adaptive synthetic sampling approach for imbalanced learning,” In IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), pp 1322–1328, 2008 [21] H Han, W Wen-Yuan, M Bing-Huan, “Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning,” Advances in intelligent computing, 878– 887, 2005 [22] J C Deville and Y Tillle, “Efficient balanced sampling: the cube method”, Biometrika, vol 91, pp 893-912, 2004 63 [23] N V Chawla, K W Bowyer, L O Hall, W P Kegelmeyer, “Smote: synthetic minority over-sampling technique,” Journal of Artificial Intelligence Research 16:pp.321–357, 2002 [24] R Batuwita and V Palade, “Class imbalance learning methods for support vector machines,” IEEE Foundations, Algorithms and Applications, 2003 [25] N Glady , B Baesens, C Croux, “Modeling churn using customer lifetime value,” Eur J Oper Res197(1):402–411, 2009 [26] S Wang and X Yao, "Diversity analysis on imbalanced data sets by using ensemble models," 2009 IEEE Symposium on Computational Intelligence and Data Mining, Nashville, TN, 2009, pp 324-331.doi: 10.1109/CIDM.2009.4938667 [27] J Xiao, Y Xiao, H Anqiang, L Dunhu and W Shouyang, “Feature-selection-based dynamic transfer ensemble model for customer churn prediction,” Knowledge and Information Systems, vol 43, pp 29-51 10.1007/s10115-013-0722-y, 2014 [28] J.G Moreno-Torres, T Raeder, R Alaiz-Rodríguez, N.V Chawla, F Herrera, “A Unifiying view of Data Shift in Classification,” Pattern Recognition, vol 45, pp 521-530, 2012 [29] Sugiyama, M Krauledat, M., and K R Müller, “Covariate shift adaptation by importance weighted cross validation,” Journal of Machine Learning Research (JMLR), vol 8, pp 985-1005, 2007 [30] H Shimodaira, “Improving predictive inference under covariate shift by weighting the log-likelihood function,” Journal of Statistical Planning and Inference 90 227244 10.1016/S0378-3758(00)00115-4, 2000 [31] G Amir, H T Choon, S Alex, R Sam, “An Adversarial View of Covariate Shift and a Minimax Approach, ” 179-198 10.7551/mitpress/9780262170055.003.0010, 2008 [32] S Chapaneri, D Jayaswal, “Covariate Shift Adaptation for Structured Regression with Frank-Wolfe Algorithms,” IEEE Access, vol 7, pp 1-1 10.1109/ACCESS.2019.2920486, 2019 [33] J Wen, R Greiner, D Schuurmans, “Correcting covariate shift with the FrankWolfe algorithm,” In Proceedings of the 24th International Conference on Artificial Intelligence (IJCAI’15) AAAI Press, 1010–1016, 2015 64 [34] N V Chawla, K W Bowye, L O Hall, W P Kegelmeyer, “SMOTE: Synthetic minority over-sampling technique,” Journal of Artificial Intelligence Research, vol 16, 321–357, 2002 [35] G E Hinton, S Osindero, Y W Teh, "A fast learning algorithm for deep belief nets", Neural computation, vol 18, no 7, 2006 [36] G E Hinton and R R Salakhutdinov,“Reducing the dimensionality of data with neural networks,” Science, vol 313, no 5786, pp 504– 507, 2006 [37] A.R Mohamed, G Dahl, and G Hinton, “Deep belief networks for phone recognition,” in NIPS Workshop on Deep Learning for Speech Recognition and Related Applications, vol 1, p 39, Vancouver, Canada, 2009 [38] T Y Lin, P Goyal, R Girshick, K He, P Dollar, “Focal loss for dense object selection,” Proc of IEEE Int Conf on Computer Vision and Applications, pp 12431248, 2018 [39] C Wang, C Deng, S Wang, “Imbalance-XGBoost: Leveraging Weighted and Focal Losses for Binary Label-Imbalanced Classification with XGBoost,” ArXiv:1908.01672v1 [cs.LG] Aug 2019 [40] Z Zając, “Adversarial validation, part one,” http://fastml.com/ adversarial-validation-part-one, 2016 [41] P C Austin, “An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies,” Multivariate behavioral research 46, (2011), 399–424, 2011 [42] P R Rosenbaum, D B Rubin, “The central role of the propensity score in observational studies for causal effects, ” Biometrika 70, (1983), 41–55, 1983 [43] C.L Blake and C J Merz, Churn Data Set, UCI Repository of Machine Learning Databases, University of California, Department of Information and Computer Science, Irvine, CA, 2019 http://www.ics.uci.edu/~mlearn/MLRepository.html [44] CRM data in Teradata Center of Duke University http://www.fuqua.duke.edu/centers/ccrm/index.html [45] T Chen, and C Guestrin, “Xgboost: A scalable tree boosting system,” Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, pp 785-794 ACM, 2016 65 [46] J Q Candela, M Sugiyama, A Schwaighofer, and N D Lawrence, “Dataset Shift in Machine Learning,” The MIT Press 2009 The MIT Press, 2009 66 PHỤ LỤC A BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Classification Classifier k-Nearest Neighbor Deep Neural Network Decision Tree Training Set Testing Set Prediction Support Vector Machine Imbalanced Data Resampling Ensemble Distribution Shift Loss Function Accuracy Thuật ngữ tiếng Việt Phân lớp Bộ phân lớp k-lân cận gần Viết tắt k-NN Mạng nơron học sâu Cây định Tập huấn luyện Tập kiểm thử Dự báo Máy véc-tơ hỗ trợ SVM Tập liệu cân Lấy mẫu Kết hợp nhiều phân lớp Độ lệch phân bố Hàm mát Độ xác Logistic Regression Hồi qui Logistics Convolutional Neural Network Mạng nơron tích chập CNN Transfer learning Học chuyển giao Adversarial Search Tìm kiếm đối kháng Propensity Score Hệ số xu hướng Weighted Cross-Entropy Loss Hàm mát Entropy theo trọng số Feature Đặc trưng Adversarial Classifier Bộ phân lớp đối kháng Inverse Propensity Weighted Nghịch đảo trọng số hệ số xu hướng Auto Machine Learning Học máy tự động Grid Search Tìm kiếm lưới Importance Reweighted Điều chỉnh trọng số mẫu quan trọng Feature Selection Lựa chọn đặc trưng Data Selection Lựa chọn mẫu Lý Lịch Trích Ngang Họ tên: Nguyễn Nhật Nam Ngày sinh: 05/09/1992 Nơi sinh: Tiền Giang Địa liên lạc: 630/7 Đường Thống Nhất, phường 15, quận Gị Vấp, TP.HCM Q Trình Đào Tạo Thời gian 2010-2015 2017-2020 Trường đào tạo Chuyên ngành Đại Học Bách Khoa Tp Hồ Chí Kĩ Thuật Máy Tính Minh Đại Học Bách Khoa Tp Hồ Chí Khoa Học Máy Tính Trình độ đào tạo Kĩ Sư Thạc Sĩ Minh Quá Trình Cơng Tác Thời gian 6/2015 – 6/2016 6/2016 – 1/2018 1/2018 – 6-2019 6-2019 – Nay 1-2010 – Nay Đơn vị công tác Đại Học Bách Khoa, TP.HCM Vị trí Trợ giảng Cơng ty TNHH Glandore Cơng ty Trusting Social Trung tâm Nordic Coder Công ty cổ phần TIKI Chuyên gia phân tích liệu Chuyên gia phân tích liệu Giảng Viên Chuyên gia phân tích liệu ... TÊN ĐỀ TÀI: GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO THUÊ BAO RỜI BỎ NHÀ MẠNG II NHIỆM VỤ VÀ NỘI DUNG: NGHIÊN CỨU VÀ ÁP DỤNG CÁC KĨ THUẬT ĐỂ GIẢI QUYẾT VẤN ĐỀ MẤT CÂN BẰNG DỮ... toán dự báo thuê bao rời bỏ nhà mạng có số hạn chế liệu thường cân Những kĩ thuật phổ biến để giải liệu cân toán thuê bao rời bỏ nhà mạng thuộc hai nhóm sau: kĩ thuật lấy mẫu để làm cân tập liệu. .. TP HCM, MSHV 1770658 Tôi xin cam đoan luận văn thạc sĩ "Giải Quyết Vấn Đề Mất Cân Bằng Dữ Liệu Trong Bài Toán Dự Báo Thuê Bao Rời Bỏ Nhà Mạng" kết tìm hiểu, nghiên cứu độc lập thân Tơi xin cam

Định dạng
Số trang	80
Dung lượng	2,4 MB