Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
2,08 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ THỊ CHUNG NGHIÊN CỨU ỨNG DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU NHẰM DỰ ĐOÁN KHẢ NĂNG RỜI BỎ CỦA KHÁCH HÀNG TRONG MỘT SỐ LĨNH VỰC NGÂN HÀNG LUẬN VĂN THẠC SĨ MÁY TÍNH THANH HĨA, NĂM 2022 i ii BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ THỊ CHUNG NGHIÊN CỨU ỨNG DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU NHẰM DỰ ĐOÁN KHẢ NĂNG RỜI BỎ CỦA KHÁCH HÀNG TRONG MỘT SỐ LĨNH VỰC NGÂN HÀNG LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn khoa học: TS Nguyễn Thế Cường THANH HÓA, NĂM 2022 i v Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học (Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022 Hiệu trưởng Trường Đại học Hồng Đức) Học hàm, học vị Cơ quan Chức danh Họ tên Công tác Hội đồng Chủ tịch HĐ UV, Phản biện UV, Phản biện Uỷ viên Uỷ viên, Thư ký Xác nhận Người hướng dẫn Học viên chỉnh sửa theo ý kiến Hội đồng Ngày tháng năm 2022 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng kỹ thuật khai phá liệu nhằm dự đoán khả rời bỏ khách hàng số lĩnh vực ngân hàng” cơng trình nghiên cứu cá nhân hướng dẫn TS Nguyễn Thế Cường, trung thực không chép Tơi khác Trong tồn nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tơi xin chịu trách nhiệm cho lời cam đoan Thanh Hoá, ngày 12 tháng năm 2022 Tác giả luận văn Lê Thị Chung i i i LỜI CẢM ƠN Luận văn “Nghiên cứu ứng dụng kỹ thuật khai phá liệu nhằm dự đoán khả rời bỏ khách hàng số lĩnh vực ngân hàng” hồn thành khơng nhờ nỗ lực cá nhân tơi mà cịn có trợ giúp, giúp đỡ từ nhiều tập thể cá nhân Trước hết, xin chân thành cảm ơn tất thầy giáo, cô giáo Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Hồng Đức nhiệt tình giảng dạy, bảo, tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu, hồn thành chương trình học tập khóa học Đặc biệt, tơi bày tỏ lịng biết ơn sâu sắc đến thầy TS Nguyễn Thế Cường, thầy hướng dẫn trực tiếp luận văn dành thời gian bảo tận tình giúp tơi hồn thành luận văn Xin cám ơn anh/chị, kỹ sư công ty cổ phần Thinklabs hỗ trợ tơi q trình hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè, đồng nghiệp, động viên tiếp thêm nghị lực để tơi hồn thành khóa học luận văn Mặc dù có nhiều cố gắng, song luận văn khó tránh khỏi thiếu sót Tơi mong bảo, góp ý nhà khoa học, thầy giáo đồng nghiệp Xin trân trọng cảm ơn! Thanh Hoá, ngày 12 tháng năm 2022 Tác giả luận văn Lê Thị Chung ii i ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH v MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết đạt Ý nghĩa khoa học thực tiễn Bố cục luận văn Chương TỔNG QUAN VỀ BÀI TOÁN CHURN 1.1 Khái niệm churn dự báo churn hoạt động ngân hàng 1.2 Tình hình nghiên cứu toán khách hàng churn 1.3 Phát biểu toán dự đoán khách hàng rời bỏ hoạt động ngân hàng VIB Kết luận chương 13 Chương KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN TÍCH DỰ BÁO 14 2.1 Khai phá liệu 14 2.1.1 Khái niệm khai phá liệu 14 2.1.2 Quá trình khai phá liệu 14 2.1.3 Các kỹ thuật khai phá liệu 18 2.2 Một số kỹ thuật khai phá liệu sử dụng toán 20 2.2.1 Decision Tree - Cây định 20 2.2.2 Random Forest 24 iii i v 2.2.3 Gradient Boosting 26 2.3 Công cụ khai phá liệu 27 2.3.1 Mơi trường lập trình Google Colaboratory 27 2.3.2 Môi trường thực thi Python Google Colab 28 2.3.3 Ngôn ngữ lập trình Python với khai phá liệu 30 2.3.4 Ưu điểm nhược điểm Python 31 Kết luận chương 32 Chương MÔ HÌNH DỰ ĐỐN KHÁCH HÀNG RỜI BỎ DỊCH VỤ NGÂN HÀNG VIB 33 3.1 Giải pháp đề xuất 33 3.1.1 Định nghĩa cho khách hàng rời bỏ MyVIB 33 3.1.2 Chiến lược Phân tích liệu 35 3.2 Lựa chọn đặc trưng 49 3.3 Lựa chọn mơ hình thực nghiệm 53 3.3.1 Độ đo mơ hình học máy 54 3.3.2 Thực nghiệm mơ hình 58 3.4 Kết luận chương 62 KẾT LUẬN 63 Kết đạt 63 Hạn chế 63 Hướng phát triển 63 TÀI LIỆU THAM KHẢO 65 iv v DANH MỤC CÁC HÌNH Hình 1: Biểu đồ hoạt động hệ thống đề xuất Hình 2: Các giai đoạn khai phá liệu [9] 18 Hình 3: Mơ hình kết hợp (nguồn: https://phamdinhkhanh.github.io/deepaibook/ch_ml/RandomForest.html) 25 Hình 4: Các bước thực xây dựng mơ hình rừng ngẫu nhiên (nguồn: https://phamdinhkhanh.github.io/deepai-book/ch_ml/RandomForest.html) .25 Hình 5: Ví dụ đường cong ROC (Nguồn: https://viblo.asia/) 57 Hình 6: Ví dụ đường cong AUC (Nguồn: https://viblo.asia/) 58 v MỞ ĐẦU Lý chọn đề tài Thị trường ngày động có tính cạnh tranh cao Đó sẵn có số lượng lớn nhà cung cấp dịch vụ Những thách thức nhà cung cấp dịch vụ tìm thấy hành vi thay đổi khách hàng gia tăng họ kỳ vọng Khát vọng lớn lên hệ người tiêu dùng nhu cầu đa dạng họ kết nối phương pháp tiếp cận sáng tạo, cá nhân hóa khác biệt với hệ người tiêu dùng trước Họ giáo dục tốt cung cấp thông tin tốt phương pháp tiếp cận Những tri thức tiên tiến thay đổi hành vi mua hàng họ, dẫn đến xu hướng phân tích mức việc bán kịch mua hàng, cuối giúp họ cải thiện định mua hàng họ Do đó, thách thức lớn nhà cung cấp dịch vụ hệ để suy nghĩ sáng tạo để đáp ứng gia tăng giá trị cho khách hàng Các tập đoàn cần nhận người tiêu dùng họ Liu Shih củng cố lập luận cách ngụ ý ngày tăng áp lực cạnh tranh tổ chức để phát triển phương pháp tiếp thị sáng tạo, đáp ứng kỳ vọng người tiêu dùng nâng cao lịng trung thành trì Canning lập luận cung cấp nhiều cho tất người khơng cịn chiến lược bán hàng khả thi nữa, môi trường thị trường tiếp tục trở nên cạnh tranh cần chương trình làm việc nhấn mạnh vào sử dụng hiệu nguồn vốn marketing Công nghệ sử dụng để giúp doanh nghiệp trì lợi cạnh tranh Khai thác liệu kỹ thuật công nghệ thông tin sử dụng phổ biến để khai thác kiến thức chuyên môn tiếp thị hướng dẫn thêm cho định kinh doanh Khách hàng dễ dàng chuyển đổi từ ngân hàng sang ngân hàng khác để có chất lượng dịch vụ giá tốt Các ngân hàng tin tìm kiếm khách hàng đắt khó nhiều so với việc giữ khách hàng Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_CA_ACCT_dev AVG_CA_BALANCE_dev COUNT_TD_ACCT_dev AVG_TD_BALANCE_dev CUSTOMER_NUMBER Analyze_Date 18256776.98 0 1/1/2020 -175996.2024 0 1/1/2020 2136330.096 0 1/1/2020 2074054.038 0 15 1/1/2020 3310144.688 0 32 1/1/2020 -9805.67488 0 37 1/1/2020 504551.5846 0 44 1/1/2020 0 0 51 1/1/2020 5301141.634 0 68 1/1/2020 6374261.708 0 88 1/1/2020 411.584448 0 107 1/1/2020 -107358.0823 0 118 1/1/2020 -87153.26084 0 135 1/1/2020 5309317.933 0 141 1/1/2020 Đối với thuộc tính bảng Data_Lending Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_OF_LOAN_dev AVG_LOAN_AMOUNT_dev CUSTOMER_NUMBER Analyze_Date -8266560 1/1/2020 -7149981.696 44 1/1/2020 0.16 -5805762.492 248 1/1/2020 686357.1766 317 1/1/2020 -2962946.234 331 1/1/2020 0 468 1/1/2020 -49396878.62 471 11/1/2019 6.14E-05 -49705830.4 654 1/1/2020 0.8 3786400 707 1/1/2020 -1888700.109 749 1/1/2020 Đối với thuộc tính bảng Data_Card Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_CREDITCARD_dev COUNT_DEBITCARD_dev CUSTOMER_NUMBER Analyze_Date 0 1/1/2020 0 1/1/2020 0 1/1/2020 0 13 1/1/2020 0 15 1/1/2020 0 32 1/1/2020 0 37 1/1/2020 0.8 44 1/1/2020 0.8 68 1/1/2020 0 88 1/1/2020 0.16 107 1/1/2020 52 Từ bước phân tích khám phá liệu, tơi sử dụng đặc trưng sau (độ lệch đặc trưng động sử dụng mà không liệt kê đây): Giới tính, Có phải nhân viên VIB, Kênh đăng ký Ebank, Có sử dụng SMS, phương thức xác thực, tuổi khách hàng, tuổi tài khoản Số lần giao dịch, Giá trị giao dịch trung bình, Số lần chuyển tiền, Số lần toán, Số lần nạp tiền, Số lần giao dịch VIB, Số lần giao dịch VIB Số lần Login, Khoảng thời gian trung bình lần Login, Số lần hoạt động, Số lần xem lãi suất, Số lần xem thông tin tài khoản, Số lần xem giao dịch Số lượng tài khoản tại, Số dư trung bình hàng tháng tài khoản tại, Số lượng tài khoản gửi tiền có kỳ hạn, Số dư trung bình hàng tháng tiền gửi kỳ hạn Số lượng tài khoản vay, Khoản vay trung bình hàng tháng Số lượng thẻ tín dụng, Số lượng thẻ ghi nợ Những liệu thuộc dạng danh sách sau đưa dạng số thực cách sử dụng phương pháp one-hot Đối với toán đánh giá khả rời bỏ khách hàng VIB, chưa thực đánh giá mức độ quan trọng thuộc tính liệu việc áp dụng mơ hình khai phá liệu Tất thuộc tính liệu thuộc tính xây dựng đánh giá có trọng số tương tự q trình khai phá liệu 3.3 Lựa chọn mơ hình thực nghiệm Với định nghĩa phía trên, tơi coi tốn supervised, cụ thể toán phân loại hai lớp với mục tiêu dự đốn khách hàng có rời bỏ MyVIB hay khơng (cụ thể khách hàng không giao dịch 60 ngày tiếp hay không) Tôi thử nghiệm số mơ hình dựa định (Tree-based Model): Dữ liệu trích chọn nằm dạng số thực nên mơ hình dạng mặt lý thuyết cho hiệu cao cung cấp khả diễn 53 giải đặc trưng Vì vậy, tơi thử nghiệm mơ hình: Decision Tree, Random Forest Gradient Boosting 3.3.1 Độ đo mơ hình học máy Trong q trình xây dựng mơ hình Machine Learning, phần khơng thể thiếu để xét xem mơ hình có chất lượng tốt hay khơng đánh giá mơ hình Đánh giá mơ hình giúp chọn lựa mơ hình phù hợp với tốn cụ thể Để áp dụng thước đo đánh giá mơ hình phù hợp, cần hiểu chất, ý nghĩa trường hợp sử dụng độ đo 3.3.1.1 Confusion Matrix Chúng ta tìm hiểu thuật ngữ sử dụng toán phân loại – Confusion matrix (AKA error matrix) Ma trận thể có điểm liệu thực thuộc vào lớp dự đoán rơi vào lớp Xét ví dụ tốn phân loại ảnh mèo hay khơng, liệu dự đốn có 100 ảnh mèo, 1000 ảnh khơng phải mèo Ở đây, kết dự đoán sau: Trong 100 ảnh mèo dự đoán 90 ảnh, cịn 10 ảnh dự đốn khơng phải Nếu ta coi cat “positive” non-cat “negative”, 90 ảnh dự đốn cat, gọi True Positive, cịn 10 ảnh dự đốn non-cat gọi False Negative Trong 1000 ảnh non-cat, dự đoán 940 ảnh non-cat, gọi True Negative, cịn 60 ảnh bị dự đốn nhầm sang cat gọi False Positive 3.3.1.2 Classification Accuracy Đây độ đo toán phân loại mà đơn giản nhất, tính tốn cách lấy số dự đốn chia cho tồn dự đốn Ví dụ với tốn Cat/Non-cat trên, độ xác tính sau: Classification Accuracy = (90 + 940)/(1000 + 100) = 93.6% Nhược điểm cách đánh giá cho ta biết phần trăm lượng liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều hay liệu lớp thường bị phân loại nhầm vào lớp khác 54 5 3.3.1.3 Precision Như nói phía trên, có nhiều trường hợp thước đo Accuracy không phản ánh hiệu mơ hình Giả sử mơ hình dự đốn tất 1100 ảnh Non-cat, Accuracy đạt tới 1000/1100 = 90.9%, cao thực chất mơ hình tồi Vì cần độ đo khắc phục yếu điểm Precision metrics khắc phục được, công thức sau: 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑓𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 Áp dụng vào tốn Cat/Non-cat, Precision tính sau: Precision(cat) = 90/(90 + 60) = 60% Precision(non-cat) = 940/(940 + 10) = 98.9% Có thể thấy việc dự đốn Cat chưa thực tốt nhờ phép đo Precision Precision cho biết thực có dự đoán Positive thật True 3.3.1.4 Recall Recall độ đo quan trọng, đo lường tỷ lệ dự báo xác trường hợp positive tồn mẫu thuộc nhóm positive Cơng thức Recall sau: 𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑓𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 Áp dụng vào toán Cat/Non-cat, Precision tính sau: Recall(cat) = 90/(90 + 10) = 90% Recall(non-cat) = 940/(940 + 60) = 94% Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỷ lệ bỏ sót điểm thực positive thấp 55 3.3.1.5 F1-score Tùy thuộc vào toán mà người dùng muốn ưu tiên sử dụng Recall hay Precision Nhưng có nhiều toán mà Precision hay Recall quan trọng Một metric phổ biến kết hợp Recall Precision lại gọi F1-score F1-score tính theo cơng thức sau: 𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 3.3.1.6 AUC AUC (Area Under the Curve) phép đo tổng hợp hiệu suất phân loại nhị phân tất giá trị ngưỡng có Để hiểu rõ metric này, tìm hiểu khai niệm sở trước, ROC Curve ROC Curve (The receiver operating characteristic curve) đường cong biểu diễn hiệu suất phân loại mơ hình phân loại ngưỡng threshold Về bản, hiển thị True Positive Rate (TPR) so với False Positive Rate (FPR) giá trị ngưỡng khác Các giá trị TPR, FPR tính sau: 𝑇𝑃𝑅 = 𝐹𝑃𝑅 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑓𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑓𝑎𝑠𝑙𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑡𝑟𝑢𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 + 𝑓𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 Có nhiều mơ hình phân loại mang tính xác suất, ví dụ dự dốn xác suất mẫu Cat Chúng so sánh xác suất đầu với số ngưỡng giới hạn lớn ngưỡng đó, mơ hình dự đốn nhãn Cat, cịn khơng Noncat Ví dụ mơ hình người dùng dự đoán giá trị xác suất cho mẫu [0.45, 0.6, 0.7, 0.3] Tùy vào giá trị ngưỡng mà có nhãn đầu dự đốn khác nhau: 56 Ngưỡng 0.5: Sample 2,3 Cat Ngưỡng 0.25: Tất samples Cat Ngưỡng 0.8: Tất sample Non-cat Có thể thấy với ngưỡng khác nhau, có kết dự đốn nhãn khác nhau, kéo theo giá trị precision hay recall khác ROC tìm TPR FPR ứng với giá tị ngưỡng khác vẽ biểu đồ để dễ dàng quan sát TPR so với FPR Ví dụ đường cong ROC Hình 5: Ví dụ đường cong ROC (Nguồn: https://viblo.asia/) AUC số tính tốn dựa đường cong ROC nhằm đánh giá khả phân loại mơ hình tốt thê Phần diện tích nằm đường cong ROC trục hồnh AUC, có giá trị nằm khoảng [0, 1] 57 Hình 6: Ví dụ đường cong AUC (Nguồn: https://viblo.asia/) Khi diện tích lớn, đường cong dần tiệm cận với đường thẳng y = tương đương với khả phân loại mô hình tốt Cịn đường cong ROC nằm sát với đường chéo qua hai điểm (0, 0) (1, 1), mơ hình tương đương với phân loại ngẫu nhiên 3.3.2 Thực nghiệm mơ hình 3.3.2.1 Scale liệu học máy Trong thuật toán machine learning nói chung, deep learning nói riêng, mơ hình học cách dự đốn đầu từ đầu vào thơng qua ví dụ tập liệu huấn luyện Các điểm liệu đo đạc với đơn vị khác nhau, m feet chẳng hạn Hoặc có hai thành phần (của vector liệu) chênh lệch lớn, thành phần có khoảng giá trị từ đến 1000, thành phần có khoảng giá trị từ đến chẳng hạn Lúc này, cần chuẩn hóa liệu trước thực bước tiếp theo2 Các trọng số mơ hình khởi tạo từ giá trị ngẫu nhiên nhỏ cập nhật thuật tốn tối ưu q trình backward, việc cập nhật dựa lỗi dự đốn (loss) q trình huấn luyện https://machinelearningcoban.com/general/2017/02/06/featureengineering 58 Vì trọng số nhỏ mơ hình nhỏ cập nhật dựa vào lỗi dự đoán nên việc scale giá trị đầu vào X đầu Y tập liệu huấn luyện yếu tố quan trọng Nếu đầu vào khơng scaling dẫn đến q trình huấn luyện khơng ổn định Ngồi đầu Y khơng scale tốn regression dẫn đến exploding gradient khiến thuật tốn khơng chạy Scaling tạo khác biệt mơ hình mơ hình tốt Bước tiền xử lý liệu liên quan đến kỹ thuật normalization standardization để rescale lại input output trước huấn luyện mơ hình Scale biến đầu vào Các biến đầu vào biến đưa vào mạng neuron để dự đoán Một nguyên tắc chung biến đầu vào phải có giá trị nhỏ, nằm khoảng 0-1 chuẩn hóa với giá trị trung bình độ lệch chuẩn (standard deviation) Các biến đầu vào có cần phải scaling hay không phụ thuộc vào toán cụ thể biến cụ thể Nếu phân bố giá trị biến phân bố chuẩn biến nên standardization, khơng liệu nên normalization Điều áp dụng phạm vi giá trị lớn (10, 100…) nhỏ (0.01, 0.0001) Nếu giá trị biến nhỏ (gần khoảng 0-1) phân phối bị giới hạn (ví dụ độ lệch chuẩn gần với 1) khơng cần phải scale liệu Các tốn phức tạp khơng rõ ràng nên ta không xác định việc sử dụng kỹ thuật để scale liệu tốt Vì nên thường hay thử nghiệm scale liệu khơng scale có khác biệt việc cho mơ hình chạy tiến hành đánh giá Scale biến đầu Biến đầu Y biến dự đốn mơ hình Chúng ta cần đảm bảo giá trị Y phải khớp với phạm vi biểu diễn hàm kích hoạt (activation function) lớp output mơ hình mạng nơ-ron 59 Nếu đầu activation function thuộc vào miền [0, 1] giá trị biến đầu Y phải nằm miền giá trị Tuy nhiên nên chọn hàm kích hoạt phù hợp với phân bố đầu Y đưa Y miền giá trị hàm kích hoạt Ví dụ tốn người dùng regression đầu giá trị số thực Mơ hình tốt cho tốn lựa chọn hàm kích hoạt tuyến tính (linear activation) Nếu đầu có phân bố chuẩn standardize biến đầu Nếu khơng đầu Y normalize 3.3.2.2 Các phương pháp scale liệu Có cách để scale liệu normalization standardization tạm dịch Bình thường hóa liệu Chuẩn hóa liệu Data Normalization Normalization phương pháp scale liệu từ miền giá trị sang miền giá trị nằm khoảng đến Phương pháp yêu cầu cần xác định giá trị lớn (max) giá trị nhỏ (min) liệu Giá trị normalize theo công thức sau: y = (x - min) / (max - min) y biến sau normalize, x biến trước normalize Để normalize liệu, ta cần normalize thuộc tính (feature) liệu Cơng thức áp dụng feature Trong x giá trị cần normalize, maximum minium giá trị lớn nhỏ tất quan sát feature tập liệu Data Standardization Chuẩn hóa liệu việc scale liệu phân bố giá trị trung bình quan sát độ lệch chuẩn = Kỹ thuật gọi “whitening.” Nhờ việc chuẩn hóa, thuật tốn linear regression, logistic regression cải thiện Công thức chuẩn hóa sau: 60 𝑥 − 𝑥̅ 𝑥′ = 𝜎 với 𝑥̅ 𝜎 kỳ vọng phương sai (standard deviation) thành phần tồn training data Giống normalization, standardization có hiệu chí bắt buộc giá trị liệu đầu vào thuộc vào miền giá trị khác Standardization giả định quan sát có phân phối Gaussian (dạng hình chng) Nếu phân phối liệu khơng có dạng phân phối chuẩn việc áp dụng standardize không hiệu Để thực standardize liệu, cần tính giá trị trung bình độ lệch chuẩn dựa quan sát Cơng thức chuẩn hóa: y = (x - mean) / standard_deviation Trong mean tính sau: mean = sum(x) / count(x) Để tính độ lệch chuẩn (standard_deviation): standard_deviation = sqrt( sum( (x - mean)^2 ) / count(x)) Giả sử giá trị trung bình 10, độ lệch chuẩn 5, Với giá trị 20.7 chuẩn hóa sau: y = (x - mean) / standard_deviation y = (20.7 - 10) / y = (10.7) / y = 2.14 3.3.2.3 Kết thực nghiệm mơ hình Sau chuẩn hóa liệu, xác định độ lệch cho đặc trưng, sử dụng mơ hình dự đốn để kiểm thử cho tập liệu bao gồm 58 thuộc tính đó: Số mẫu có nhãn “Rời bỏ” là: 19878 Số mẫu có nhãn “Hoạt động” là: 74507 Tơi sử dụng mơ hình xây dựng thư viện sklearn from sklearn.model_selection import train_test_split 61 from sklearn.tree import DecisionTreeClassifier from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import roc_auc_score, f1_score Không sử dụng scale liệu TT Sử dụng scale liệu Tên mơ hình roc_auc_score f1_score roc_auc_score f1_score Decision Tree 81,09 69,97 81,11 70,07 Random Forest 88,83 79,41 88,81 79,41 Gradient Boosting 90,08 80,37 90,09 80,39 Bảng 1: Kết thử nghiệm với mơ hình dự đốn Kết thử nghiệm cho thấy, mơ hình đánh giá theo độ đo roc_auc_score có kết cao giá trị f1_score, cho thấy việc sử dụng ROC phù hợp việc đánh giá độ phù hợp mơ hình việc dự đoán khả rời bỏ dịch vụ khách hàng Theo kết thử nghiệm, mơ hình Gradient Boosting cho kết cao đối trường hợp: có sử dụng scale liệu không scale liệu Kết luận chương Trong chương này, tơi trình bày q trình xây dựng mơ hình liệu phục vụ dự đốn khả rời bỏ khách hàng Tôi thực lựa chọn mơ hình dự đốn thử nghiệm mơ hình liệu xây dựng Kết cho thấy, mơ hình Gradient Boosting phù hợp để dự đoán khách hàng rời bỏ dịch vụ VIB 62 KẾT LUẬN Kết đạt * Về mặt khoa học, luận văn thực công việc sau: Nghiên cứu tổng quan nghiên cứu lĩnh vực dự đoán khách hàng rời bỏ dịch vụ ngân hàng thực nghiên cứu liên quan Nghiên cứu tổng quan trình bày mơ hình dự đốn thơng dụng sử dụng tốn dự đoán khách hàng rời bỏ dịch vụ ngân hàng Xây dựng mơ hình liệu cho toán dự đoán khách hàng sử dụng dịch vụ MyVIB ngân hàng VIB * Về mặt thực tiễn Luận văn xây dựng sở liệu huấn luyện cho mơ hình dự đốn khách hàng rời bỏ dịch vụ ngân hàng VIB Thực thực nghiệm mơ hình dự đốn, phân lớp đánh giá kết ứng dụng mô hình dự đốn Hạn chế Tuy nhiên, hạn chế kết chưa đánh giá mức độ đóng góp đặc trưng việc xây dựng mơ hình dự đốn; sở liệu cịn chưa cân lớp liệu Hướng phát triển Tiếp tục đánh giá lựa chọn đặc trưng phù hợp, có tính đóng góp cao cho mơ hình dự đốn khách hàng rời bỏ dịch vụ ngân hàng 63 TÀI LIỆU THAM KHẢO [1] A Bilal Zoric (2016), “Predicting Customer Churn in Banking Industry using Neural Networks,” Interdiscip Descr Complex Syst., vol 14, no 2, pp 116–124, , doi: 10.7906/indecs.14.2.1 [2] A K Ahmad, A Jafar, and K Aljoumaa (2019), “Customer churn prediction in telecom using machine learning in big data platform,” J Big Data, vol 6, no.1, doi: 10.1186/s40537-019-0191-6 [3] B He, Y Shi, Q Wan, and X Zhao(2014), “Prediction of customer attrition of commercial banks based on SVM model” , Procedia Computer Science, vol 31, pp 423–430 doi: 10.1016/j.procs.2014.05.286 [4] H C Leung and W Chung(2020), A dynamic classification approach to churn prediction in banking industry [5] K Chitra and B Subashini (2011), “Customer Retention in Banking Sector using Predictive Data Mining Technique,”, The 5th International Conference on Information Technology, p [6] K G M Karvana, S Yazid, A Syalim, and P Mursanto (2019), “Customer Churn Analysis and Prediction Using Data Mining Models in Banking Industry,” Int Work Big Data Inf Secur IWBIS, pp 33–38, doi: 10.1109/IWBIS.2019.8935884 [7] K Chitra and B Subashini (2011), “Customer Retention in Banking Sector using Predictive Data Mining Technique,” 5th Int Conf Inf Technol., p 4, [8] K Adhikary, S Bhushan, S Kumar, and K Dutta (2020), “Decision Tree and Neural Network Based Hybrid Algorithm for Detecting,” Int J Innov Technol Explor Eng., vol 9, no.5 [9] L Kaufman and P J Rousseeuw (2005), Finding Groups in Data: An Introduction to Cluster Analysisps in Data 64 [10] Ö Gür Ali and U Arıtürk (2014), “Dynamic churn prediction framework with more effective use of rare event data: The case of private banking,” Expert Syst Appl., vol 41, no.17, pp 7889–7903, , doi: https://doi.org/10.1016/j.eswa.2014.06.018 [11] T Hendrickx, B Cule, P Meysman, S Naulaerts, K Laukens, and B Goethals (2015), “Mining association rules in graphs based on frequent cohesive itemsets,” Lect Notes Comput Sci (including Subser Lect Notes) 65