Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
1,02 MB
Nội dung
lOMoARcPSD|18034504 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH KHOA KẾ TỐN ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH KHẢ NĂNG RỜI BỎ NGÂN HÀNG CỦA KHÁCH HÀNG DỰA TRÊN BỘ DỮ LIỆU BANK CUSTOMER CHURN DATASET BẰNG PHẦN MỀM ORANGE Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: Trần Thị Thúy An Lê Thị Hương Giang Nguyễn Thị Lệ Giang Chun Ngành: Kế tốn doanh nghiệp Khóa: K47 Giảng Viên: TS Đặng Ngọc Hoàng Thành TP Hồ Chí Minh, Ngày 28 tháng 10 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 ĐÁNH GIÁ ĐÓNG GÓP THÀNH VIÊN THAM GIA DỰ ÁN Họ tên sinh viên MSSV Tỷ lệ đóng góp Trần Thị Thúy An 31211026696 100% Lê Thị Hương Giang 31211021761 100% Nguyễn Thị Lệ Giang 31211024909 100% Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC DANH MỤC HÌNH ẢNH CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề Tài CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mô Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.1.1 Định nghĩa 2.1.1.2 Ưu điểm 2.1.1.3 Nhược điểm 2.1.2 Mơ Hình Decision Tree 2.1.2.1 Định nghĩa 2.1.2.2 Ưu điểm 2.1.2.3 Nhược điểm 2.1.3 Mơ Hình Support Vector Machine 2.1.3.1 Định nghĩa 2.1.3.2 Ưu điểm 2.1.3.3 Nhược điểm 2.1.4 Mơ Hình Neural Network 2.1.4.1 Định nghĩa 2.1.4.2 Ưu điểm 2.1.4.3 Nhược điểm 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu 2.2.1.1 Phương pháp Hold-out 2.2.1.2 Phương pháp K-fold cross validation 2.2.2 Phân Lớp Dữ Liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.2.2.1 Định nghĩa 2.2.2.2 Quy trình phân lớp liệu 2.2.3 Đánh Giá Tính Hiệu Quả 2.2.3.1 Ma trận nhầm lẫn (Confusion matrix) 2.2.3.2 ROC (Receiver Operating Characteristic) 2.2.3.3 Accuracy, Precision, Recall, F1-score CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu 3.2 Các Kết Quả Thực Nghiệm 11 3.2.1 Training set 13 3.2.2 Forecast 17 3.3 Phân Tích Đánh Giá 18 CHƯƠNG KẾT LUẬN 19 4.1 Các Kết Quả Đạt Được 19 4.2 Những Hạn Chế Hướng Phát Triển 19 4.2.1 Hạn chế 19 4.2.2 Hướng phát triển 19 TÀI LIỆU THAM KHẢO 20 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC HÌNH ẢNH Hình : Khai báo thuộc tính cho biến 11 Hình : Quan sát liệu Data Table 11 Hình : Cơng cụ Data Sampler 12 Hình : liệu Training set Forecast 12 Hình : Màn hình thể bài toán phân lớp liệu Orange 12 Hình : Cơng cụ Distributions 13 Hình : Giao diện phương pháp Logistic Regression, Tree, Neural Network SVM 14 Hình : Bảng đánh giá Test and Score 15 Hình : Kết Confusion Matrix phương pháp Logistic Regression .15 Hình 10 : Kết Confusion Matrix phương pháp Decision Tree 16 Hình 11 : Kết Confusion Matrix phương pháp Neural Network 16 Hình 12 : Kết Confusion Matrix phương pháp SVM 16 Hình 13 : Kết ROC Analysis 17 Hình 14 : Cơng cụ Select Columns .17 Hình 15 : Mơ hình dự báo Predictions 18 Hình 16 : Kết dự báo thuật toán Logistic Regression, Tree, Neural Network SVM 18 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu - Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập gán nhãn trước (thuộc lớp nào) - Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu - Các ứng dụng phân lớp liệu kinh tế + Tài ngân hàng Dự báo giá chứng khốn Xếp hạng tín dụng cá nhân tổ chức Đánh giá rủi ro tài + Sale Marketing Dự báo doanh thu Dự báo khách hàng trung thành + Kinh tế học Dự báo khủng hoảng kinh tế Dự báo cung cầu 1.2 Giới Thiệu Về Python Phần Mềm Orange - Python: Python ngôn ngữ lập trình bậc cao cho mục đích lập trình đa Guido van Rossum tạo mắt lần đầu năm 1991 Python thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ Python ngơn ngữ có hình thức sáng sủa, cấu trúc rõ ràng, thuận tiện cho người học lập trình ngơn ngữ lập trình dễ học; dùng rộng rãi phát triển trí tuệ nhân tạo Cấu trúc Python cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu - Phần mềm Orange: + Orange phần mềm đời giúp cho người dùng dễ dàng nghiên cứu tốn lĩnh vực khai phá liệu (Data Mining) học máy (Machine Learning) + Phần mềm Orange tích hợp công cụ khai phá liệu mã nguồn mở học máy thơng minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Orange phân tích liệu từ đơn giản đến phức tạp, giúp cho người dùng tạo đồ họa đẹp mắt, thú vị hỗ trợ khai thác liệu, học máy trở nên dễ dàng + Orange phần mềm khai phá liệu tiện dụng, dễ dàng với công cụ cung cấp chức bao gồm đọc liệu, hiển thị liệu dạng bảng, trực quan hóa phần tử liệu, Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 1.3 Lý Do Chọn Lựa Đề Tài - Như biết, việc đăng nhập khách hàng đắt nhiều so với việc giữ khách hàng có Điều thuận lợi ngân hàng biết điều khiến khách hàng đến định rời bỏ công ty Mọi ngân hàng muốn giữ khách hàng để trì hoạt động kinh doanh họ Dưới liệu khách hàng chủ tài khoản Ngân hàng đa quốc gia ABC mục đích liệu dự đoán chuyển đổi khách hàng ngân hàng - Với liệu này, chúng tơi mong muốn hồn thành mục đích nghiên cứu bao gồm: xác định hình dung yếu tố góp phần vào việc rời bỏ khách hàng; xây dựng mơ hình dự đốn thực phân loại xem khách hàng có rời bỏ hay khơng, dựa hiệu suất mơ hình chọn mơ hình gắn xác suất vào thời gian chờ để giúp dịch vụ khách hàng dễ dàng nhắm mục tiêu đến loại treo thấp nỗ lực ngăn chặn tình trạng lộn xộn CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.1.1 Định nghĩa - Hồi quy Logistic mơ hình xác suất dự đoán giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) 2.1.1.2 Ưu điểm - Đơn giản, dễ hiểu, có gía trị cho định kinh doanh - Nhanh chóng để mơ hình hóa đặc biệt hữu ích mối quan hệ mơ hình hóa khơng q phức tạp bạn khơng có nhiều liệu 2.1.1.3 Nhược điểm - Không hiệu liệu phức tạp 2.1.2 Mơ Hình Decision Tree 2.1.2.1 Định nghĩa - Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định - Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước 2.1.2.2 Ưu điểm - Dễ hiểu - Khơng địi hỏi việc chuẩn hóa liệu - Có thể xử lý nhiều kiểu liệu khác - Xử lý tốt lượng liệu lớn thời gian ngắn 2.1.2.3 Nhược điểm - Khó giải tình liệu phụ thuộc thời gian - Chi phí xây dựng mơ hình cao 2.1.3 Mơ Hình Support Vector Machine 2.1.3.1 Định nghĩa Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Support Vector Machine (SVM) thuật toán có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu - Để tối ưu kết phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa - SVM có nhiều biến thể để phù hợp với nhiều toán phân loại khác 2.1.3.2 Ưu điểm - Tiết kiệm nhớ - Linh hoạt: vừa phân lớp tuyến tính phi tuyến - Xử lý không gian nhiều chiều 2.1.3.3 Nhược điểm - Chưa thể tính xác suất phân lớp - Kết không tốt trường hợp số chiều liệu lớn số dịng liệu 2.1.4 Mơ Hình Neural Network 2.1.4.1 Định nghĩa - Neural network hay gọi Mạng nơ-ron nhân tạo mạng sử dụng mơ hình tốn học phức tạp để xử lý thơng tin Chúng dựa mơ hình hoạt động tế bào thần kinh khớp thần kinh não người Tương tự não người, mạng nơ-ron nhân tạo kết nối nút đơn giản, gọi tế bào thần kinh Và tập hợp nút tạo thành mạng lưới nút, có tên mạng nơ-ron nhân tạo Tương tự não người, mạng nơ-ron nhân tạo, loạt thuật toán sử dụng để xác định nhận mối quan hệ tập liệu 2.1.4.2 Ưu điểm - Thích ứng với nhiều loại thơng số yêu cầu liệu, thực tế chúng dễ sử dụng, yêu cầu số liệu thống kê tối thiểu đào tạo - Có khả học hỏi (ở khía cạnh hạn chế), khiến chúng trở thành mơ hình gần với người vận hành - Đủ nâng cao để phát mối quan hệ phức tạp đầu vào đầu 2.1.4.3 Nhược điểm Do tính chất phức tạp cao cấp mơ hình, chúng khó thiết kế Địi hỏi lượng lớn tài ngun máy tính, khiến trở nên đắt đỏ khơng thực tế số công ty ứng dụng Phản ứng với thay đổi liệu dù nhỏ nhất, nên thường khó để lập mơ hình phân tích 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu 2.2.1.1 Phương pháp Hold-out Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Phương pháp Hold-out phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30% - Phương pháp Hold-out thường cho hiệu tốt tập liệu lớn Tuy nhiên, tập liệu nhỏ vừa phải, hiệu mơ hình sử dụng phương pháp phụ thuộc nhiều vào cách chia tỷ lệ chia liệu 2.2.1.2 Phương pháp K-fold cross validation - Phương pháp phân chia liệu thành k tập có kích thước (gọi fold) - Một fold sử dụng làm tập liệu đánh giá phần lại sử dụng làm tập huấn luyện - Quá trình lặp lại tất fold dùng làm tập liệu đánh giá 2.2.2 Phân Lớp Dữ Liệu 2.2.2.1 Định nghĩa - Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp - Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) - Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu - Phân loại toán phân lớp: Nhiệm vụ toán phân lớp phân đối tượng liệu vào n lớp cho trước Nếu: + n = 2: Phân lớp nhị phân + n > 2: Phân lớp đa lớp + Mỗi đối tượng liệu thuộc vào lớp nhất: Phân lớp đơn nhãn + Mỗi đối tượng liệu lúc thuộc nhiều lớp khác nhau: Phân lớp đa nhãn 2.2.2.2 Quy trình phân lớp liệu Quá trình phân lớp liệu: gồm bước Bước 1: Xây dựng mơ hình phân lớp (hay cịn gọi giai đoạn “học” “huấn luyện”) + Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý + Các thuật toán phân lớp: định, hàm số toán học, tập luật, + Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) Bước 2: Sử dụng mơ hình chia thành bước nhỏ - Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) + Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 + Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình - Bước 2.2: Phân lớp liệu + Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp “nhãn” + Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.3 Đánh Giá Tính Hiệu Quả - Khái niệm: Phương pháp đánh giá mơ hình phân lớp phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng - Một mơ hình lý tưởng mơ hình khơng q đơn giản, khơng phức tạp không nhạy cảm với nhiễu (tránh underfitting overfitting) 2.2.3.1 Ma trận nhầm lẫn (Confusion matrix) - Là ma trận có điểm liệu thực thuộc vào lớp cụ thể, dự đoán rơi vào lớp - Confusion matrix có kích thước k x k với k số lượng lớp liệu - Một mơ hình tốt cho confusion matrix có phần tử đường chéo có giá trị lớn, phần tử cịn lại có giá trị nhỏ 2.2.3.2 ROC (Receiver Operating Characteristic) - Là đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác - Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu 2.2.3.3 Accuracy, Precision, Recall, F1-score - Accuracy tỷ lệ số mẫu phân lớp toàn tập liệu Accuracy cho biết tỷ lệ liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác - Precision (độ xác): cho biết số m mẫu phân vào lớp i có tỷ lệ mẫu có (tránh nhầm lẫn với tính xác accuracy) - Recall (độ phủ) gọi độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate) - F1-score: giá trị trung bình điều hòa (harmonic mean) hai độ đo Precision Recall CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu - Chọn liệu: Dữ liệu “ Bank Customer Churn Dataset “ liên quan đến liệu khách hàng Ngân hàng đa quốc gia ABC Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Mô tả liệu: Tên cột Miêu tả thuộc tính customer_id Xác định số tài khoản khách hàng credit_score Xác định điểm tín dụng khách hàng country Xác định quốc gia khách hàng Trong đó: - France: Pháp - Germany: Đức - Spain: Tây Ban Nha gender Xác định giới tính khách hàng Trong đó: - Male: Nam - Female: Nữ age Xác định độ tuổi khách hàng tenure Xác định khách hàng có tài khoản ngân hàng ABC năm? balance Xác định số dư tài khoản khách hàng product_number Xác định số lượng sản phẩm từ ngân hàng credit_card Khách hàng có thẻ tín dụng khơng? - 0: Khơng - 1: Có 10 active_member Khách hàng có phải thành viên hoạt động ngân hàng không? - 0: Không - 1: Có 11 estimated_salary Xác định lương ước tính 12 churn Sự chuyển đổi khách hàng ngân hàng: - 0: họ chưa rời ngân hàng - 1: khách hàng rời khỏi ngân hàng thời gian - Vì ta thực xử lý liệu nhằm mục đích dự báo cho biến đầu Churn, ta chuyển “Role” thuộc tính Churn từ Feature => Target - Thuộc tính customer_id khơng có yếu tố ảnh hưởng đến việc dự báo kết đầu Churn, thuộc tính ta chuyển “Role” từ Feature => Skip 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Dưới kết thu sau thực trình xử lý cách điều chỉnh thuộc tính sang “Role” cho hợp lý 3.2 Các Kết Quả Thực Nghiệm Hình 1: Khai báo thuộc tính cho biến - Sau khai báo thuộc tính cho biến, ta bắt đầu tiến hành trích xuất liệu định dạng excel bảng Data Table để tiến hành phân lớp: Hình 2: Quan sát liệu Data Table - Thông qua công cụ Data Sampler để phục vụ phân lớp, chia liệu với 10000 khách hàng thành hai tập liệu liệu Training set (huấn luyện) liệu Forecast (dự báo) với tỷ lệ 70% Training set 30% Forecast: 11 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3: Cơng cụ Data Sampler Hình 4: liệu Training set Forecast Hình 5: Màn hình thể bài toán phân lớp liệu Orange 12 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 3.2.1 Training set Hình 6: Cơng cụ Distributions - Chúng ta chọn thuật tốn cho q trình huấn luyện mơ hình bao gồm: Logistic Regression, Tree, Neural Network SVM, sau có kết dùng số đánh giá so sánh với để tìm mơ hình phù hợp với nghiên cứu 13 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 7: Giao diện phương pháp Logistic Regression, Tree, Neural Network SVM 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 8: Bảng đánh giá Test and Score - Để biết thêm mơ hình mơ hình xác tốt nhất: + Thông qua phương pháp đánh giá Confusion Matrix (ma trận nhầm lẫn) thu kết sau: Hình 9: Kết Confusion Matrix phương pháp Logistic Regression 15 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 10: Kết Confusion Matrix phương pháp Decision Tree Hình 11: Kết Confusion Matrix phương pháp Neural Network Hình 12: Kết Confusion Matrix phương pháp SVM + Thông qua phương pháp đánh giá ROC Analysis 16 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 13: Kết ROC Analysis 3.2.2 Forecast Hình 14: Cơng cụ Select Columns - Sau sử dụng phương pháp đánh giá mơ hình phân lớp, ta đến việc dự báo 17 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 15: Mơ hình dự báo Predictions Hình 16: Kết dự báo thuật toán Logistic Regression, Tree, Neural Network SVM 3.3 Phân Tích Đánh Giá - Test and Score: Bài nghiên cứu sử dụng phương pháp K-fold Cross validation với k = để đánh giá mơ hình Tại mục Evalution Result cho biết kết định lượng mơ hình Logistic Regression, Tree, Neural Network SVM, giá trị giá trị cao Khi xem xét số từ trường hợp trên, ta thấy mơ hình Neural Network mang lại giá trị cao mơ hình với số liệu sau (Hình 8): CA (tính xác): 85.5% F1 (giá trị trung bình điều hịa): 84.5% Precesion (độ xác): 84.4% Recall (độ phủ): 85.5% 18 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 AUC (diện tích đường cong): 84.5% - Confusion Matrix: Từ kết thu Hình 9, 10, 11 12, ta thấy mơ hình Neural Network có tỷ lệ sai lầm nhỏ với sai lầm loại 29.8% sai lầm loại 12.0% Nên phương pháp Neural Network phù hợp - ROC Analysis: Dựa vào kết thu sử dụng cơng cụ ROC Analysis Hình 13, ta thấy đường cong ROC mơ hình Neural Network tiệm cận với điểm (0;1) nên mơ hình hiệu Kết luận: Phương pháp Neural Network phương pháp tốt CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được Churn Rate coi số quan trọng hàng đầu các doanh nghiệp Doanh nghiệp muốn thành cơng phát triển khơng thể bỏ qua việc kiểm soát tỷ lệ Customer Churn, họ khách hàng khơng làm điều Ngân hàng muốn giữ chân khách hàng tăng giá trị lâu dài họ điều người quan trọng ngân hàng làm điều tình trạng khách hàng bỏ rơi Dự đốn Churn sớm xác tránh 11% cố Tập trung vào khách hàng hài lòng dịch vụ thay cố gắng khắc phục níu giữ khách hàng có ý định rời Phân tích cách thức thời điểm khách hàng rời sử dụng liệu đưa biện pháp ưu tiên 4.2 Những Hạn Chế Hướng Phát Triển 4.2.1 Hạn chế - Thời gian học phần ngắn, sinh viên làm quen với mơn học nên cịn nhiều bỡ ngỡ, chưa làm việc với liệu chưa thực hành nhiều tập phân tích liệu - Sinh viên chưa có điều kiện, hội tiếp xúc thực tế với liệu, chủ yếu thực hành liệu mẫu có sẵn Vì nghiên cứu lấy mẫu trang web kaggle.com nên thiếu tính thực tế, làm giảm phần nhỏ trọn vẹn nghiên cứu - Độ xác mơ hình mức tương đối, chưa thể đạt đến tuyệt đối Vì vậy, có sai sót q trình phân tích, dự đốn, đưa kết kết luận 4.2.2 Hướng phát triển - Tạo điều kiện hội để sinh viên tiếp xúc với liệu nhiều hơn, thực tế để có kiến thức kỹ thực hành tốt chuyên nghiệp - Số lượng mẫu để dự báo hay huấn luyện cịn ít, nên hướng nghiên cứu cố gắng việc thu thập nhiều mẫu để tăng độ xác mơ hình dự báo Đồng thời triển khai dự đoán, kiểm chứng thực tế đánh giá kết cách thường xuyên để tăng độ xác 19 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 TÀI LIỆU THAM KHẢO Slide giảng môn Khoa học liệu – UEH Dự báo phân tích sở liệu adult, 10/2021, https://www.studocu.com/vn/document/truong-dai-hoc-kinh-te-thanh-phoho-chi-minh/khoa-hoc-du-lieu/mau-khoa-hoc-du-lieu-mau-khoa-hoc-dulieu/27688193 Ưu điểm Mơ hình Mạng Neural gì, https://vi.411answers.com/a/uudiem-cua-mo-hinh-mang-neural-la-gi.html Huỳnh Trâm, Neural network gì? Vai trị ứng dụng neural network, https://www.careerlink.vn/cam-nang-viec-lam/kien-thuc-kinh-te/neuralnetwork-la-gi-vai-tro-va-ung-dung-cua-neuralnetwork#:~:text=Neural%20network%20hay%20c%C3%B2n%20g%E1 %BB%8Di,trong%20n%C3%A3o%20c%E1%BB%A7a%20con%20ng% C6%B0%E1%BB%9Di Soumya Sethuraman, 25/9/2019, Why Customers Leave & What Can Banks Do?, https://www.tigeranalytics.com/blog/addressing-customer-churn-inbanking/ Data-fun, https://data-fun.com/cach-tinh-ty-le-churn-rate-la-gi/ Trinh Ánh, Tổng quan Orange khai phá liệu, 2021, https://www.studocu.com/vn/document/truong-dai-hoc-kinh-te-dai-hoc-danang/quan-tri-hoc/tong-quan-ve-orange-trong-khai-pha-du-lieu/18445899 Wikipedia, https://vi.wikipedia.org/wiki/Python_(ng%C3%B4n_ng%E1%BB%AF_l %E1%BA%ADp_tr%C3%ACnh)#:~:text=Python%20(ph%C3%A1t%2 0%C3%A2m%20ti%E1%BA%BFng%20Anh,d%E1%BB%85%20h%E 1%BB%8Dc%20v%C3%A0%20d%E1%BB%85%20nh%E1%BB%9B 20 Downloaded by vu ga (vuchinhhp2@gmail.com) ... Precision Recall CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu - Chọn liệu: Dữ liệu “ Bank Customer Churn Dataset “ liên quan đến liệu khách hàng Ngân hàng đa quốc gia ABC Downloaded by vu ga (vuchinhhp2@gmail.com)... ước tính 12 churn Sự chuyển đổi khách hàng ngân hàng: - 0: họ chưa rời ngân hàng - 1: khách hàng rời khỏi ngân hàng thời gian - Vì ta thực xử lý liệu nhằm mục đích dự báo cho biến đầu Churn, ta... biết, việc đăng nhập khách hàng đắt nhiều so với việc giữ khách hàng có Điều thuận lợi ngân hàng biết điều khiến khách hàng đến định rời bỏ công ty Mọi ngân hàng muốn giữ khách hàng để trì hoạt động