Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫn đến
Trang 1ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
ĐỀ TÀI ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO DỰ BÁO VIỆC RỜI
ĐI HAY Ở LẠI CỦA KHÁCH HÀNG TRONG NGÂN HÀNG
Trang 2Lời cảm ơn
Lời đầu tiên, nhóm 1 xin phép gửi lời biết ơn sâu sắc đến thầy Nguyễn Mạnh Tuấn giảng viên bộ môn Khoa học dữ liệu, Đại học Kinh tế thành phố Hồ Chí Minh Trongsuốt thời gian học tập, nhóm đã được thầy trang bị thêm các kiến thức nền tảng mới, đãgiúp cho nhóm tự tìm hiểu và là hành trang giúp ích trong công việc sau này Ngoài ra,thầy đã đưa ra thêm các lời khuyên và kinh nghiệm thực tế khi nhóm đối mặt với một sốvấn đề khó khăn khi thực hiện đề tài
-Với sự giúp đỡ của thầy, chúng em có thể hiểu sâu thêm về đề tài mình đang làm.Bằng tất cả sự kính trọng và biết ơn sâu sắc nhất, một lần nữa nhóm xin gửi lời cảm ơnchân thành đến thầy Và để báo đáp phần nào đó, nhóm mong đề tài này sẽ mang lại hữuích cho ngành ngân hàng
Trang 3Mức độ liên quan đến chuyên ngành của các bài toán
Dự án của nhóm gồm những biến liên quan đến chuyên ngành tài chính:
• Điểm tín dụng (CreditScore ) là một công cụ đánh giá quan trọng để xác định rủi
ro tín dụng và quyết định về các dịch vụ tài chính, như vay vốn, điều kiện vay, lãi suấthay thẻ tín dụng
• Số dư trong tài khoản ngân hàng (Balance) là một phần quan trọng của ngân sách
cá nhân hoặc doanh nghiệp Nó giúp xác định khả năng chi tiêu và đầu tư trong các kếhoạch tài chính Số dư tài khoản có thể ảnh hưởng đến điểm tín dụng và khả năng vayvốn
• Sử dụng thẻ tín dụng (HasCrCard) có thể ảnh hưởng đến điểm tín dụng của cá
nhân Thẻ tín dụng thường đi kèm với lãi suất nếu người sử dụng không thanh toán đầy
đủ số tiền mỗi tháng Thẻ tín dụng là một phương tiện thanh toán linh hoạt và phổ biếntrong lĩnh vực tài chính
• Thu nhập ước tính (EstimatedSalary) có thể ảnh hưởng đến sự lựa chọn về các
dịch vụ tài chính, chẳng hạn như loại tài khoản ngân hàng, thẻ tín dụng, hay các sản phẩmđầu tư Thu nhập đóng vai trò quan trọng trong quản lý tài chính cá nhân Nó ảnh hưởngđến khả năng chi tiêu, tiết kiệm, và đầu tư
• Việc rời bỏ ngân hàng (Exited) là một quyết định tài chính quan trọng và có ảnh
hưởng đến mối quan hệ của cá nhân hoặc doanh nghiệp với ngành tài chính Rời bỏ ngânhàng có thể ảnh hưởng đến loại tài khoản và các dịch vụ tài chính mà người dùng có thểtiếp cận, cách quản lý chi tiêu, tiết kiệm, và đầu tư
Trong dự án này, tỷ lệ khách hàng rời bỏ được phân tích xuyên suốt trong qua 3 bàitoán với các biến như trên Nghiên cứu trong các bài toán mang lại thông tin thực tiễn vàứng dụng cho ngành tài chính ngân hàng
Do vậy, nhóm đánh giá rằng các bài toán trong dự án thuộc mức độ 1 (liên quan đến chuyên ngành).
Link drive chứa các file dữ liệu cần thiết cho đồ án: link
Trang 4MỤC LỤC NỘI DUNG
Lời cảm ơn 2
Mức độ liên quan đến chuyên ngành của các bài toán 3
Chương 1: Tổng quan 5
1 Lý do chọn đề tài 5
2 Mục tiêu nghiên cứu 6
2.1 Mục tiêu tổng quát 6
2.2 Mục tiêu cụ thể 6
3 Đối tượng nghiên cứu 6
4 Phương pháp thực hiện 6
Chương 2: Quy trình thực hiện và Kết quả 7
1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu 7
1.1 Mô tả nguồn dữ liệu 7
1.2 Cấu trúc nguồn dữ liệu 7
2 Tiền xử lý 8
3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu 9
3.1 Dashboard: Tổng quan về ngân hàng 9
3.2 Orange: Phân tích đặc thù 11
3.3 Kết luận bài toán 15
4 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng16 4.1 Mô tả bài toán 16
4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toán 16
4.3 Chạy mô hình và kết quả 17
4.4 Kết luận cho bài toán: 25
5 Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành 26
5.1 Mô tả bài toán 26
5.2 Các kiến thức chuyên ngành nếu liên quan đến bài toán 28
5.3 Chạy mô hình và kết quả 28
5.4 Kết luận bài toán 37
Chương 3: Kết luận và kiến nghị 38
Trang 51 Kết luận: 38
1.1 Nhóm khách hàng rời bỏ nhất 38
1.2 Nhóm khách hàng trung thành 39
2 Kiến nghị 39
2.1 Kiến nghị giải pháp cho ngân hàng để giữ chân khách hàng rời đi 39
2.2 Kiến nghị giúp ngân hàng để giữ chân khách hàng ở lại để tìm được khách hàng trung thành 40
Giải thích thuật ngữ 41
Tài liệu tham khảo 41
Trang 6MỤC LỤC BẢNG BIỂU – HÌNH ẢNH
Bảng 1: Cấu trúc nguồn dữ liệu 7
Hình 1: Mô hình tiền xử lý 9
Hình 2: Dashboard – Churn For Bank Customers 10
Hình 3: Mô hình Orange phân tích đặc thù 11
Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng 12
Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 12
Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua 13
Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng 13
Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng 14
Hình 9: Biểu đồ cột thể hiện số dư của khách hàng 14
Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 15
Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng 16
Hình 12: Kết quả Test and Score 17
Hình 13: Kết quả Logistic Regression 18
Hình 14: Kết quả SVM 18
Hình 15: Kết quả Tree 19
Hình 16: Mô hình phân tích chuyên sâu Logistic Regression và Tree 20
Hình 17: Bảng đánh giá chuyên sâu bằng phương pháp Logistic Regression 21
Hình 18: Bảng đánh giá chuyên sâu bằng phương pháp Tree Viewer 22
Hình 19: Kết quả dự báo Predictions 23
Hình 20: File kết quả dự báo Excel (1) 24
Hình 21: File kết quả dự báo Excel (2) 24
Hình 22: File kết quả dự báo Excel (3) 25
Hình 23: File kết quả dự báo Excel (4) 25
Hình 24: Mô hình phân tách dữ liệu trong phân cụm 26
Hình 25: Select Rows – Lựa chọn nhóm khách hàng 27
Hình 26: Mô hình phân cụm về đặc điểm của nhóm khách hàng rời bỏ ngân hàng 28
Hình 27: Bảng kết quả của phương pháp K-Means 29
Hình 28: Kết quả Silhouette Plot 30
Hình 29: Mô hình điểm tín dụng của 2 cụm 31
Hình 30: Phân bố nhóm khách hàng rời bỏ ngân hàng theo tuổi 31
Hình 31: Phân bố nhóm khách hàng rời bỏ ngân hàng theo vị trí địa lý 32
Hình 32: Phân bố nhóm khách hàng rời bỏ ngân hàng theo giới tính 33
Hình 33: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số dư ngân hàng 33
Hình 34: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số năm khách hàng hợp tác với ngân hàng 34
Trang 8Chương 1: Tổng quan
1 Lý do chọn đề tài
Sau khủng hoảng tài chính năm 2008, Ngân hàng Trung ương Châu Âu (ECB - The
European Central bank) đã sử dụng các biện pháp tiền tệ rất linh hoạt (như nới lỏng định lượng 1 và chính sách lãi suất bằng không 2) để thúc đẩy tăng trưởng, tăng lạm phát vàgiảm tỷ lệ thất nghiệp Những biện pháp này tuy có lợi trong việc kích thích nền kinh tếcủa các quốc gia, nhưng lại gây bất lợi cực kỳ lớn cho lợi nhuận của các ngân hàng phụthuộc vào lãi suất do ECB quy định Khi đó, các ngân hàng không còn lựa chọn nào khácngoài việc tìm kiếm các nguồn thu nhập thay thế, về bản chất bao gồm việc kiểm soát chiphí và xem xét chính sách giá của họ bằng cách tính phí hoa hồng cao hơn Những biệnpháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoahồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫnđến mức độ rời bỏ khách hàng tăng lên
Khách hàng rời bỏ (customer churn) là tình trạng khách hàng dù đã bắt đầu sử dụngsản phẩm hoặc dịch vụ của doanh nghiệp nhưng vì lý do này hay lý do khác, ngừng hoàntoàn và chuyển sang lựa chọn một đối thủ khác Trong kinh doanh, khi khách hàng khônghài lòng với dịch vụ, sản phẩm mà doanh nghiệp cung cấp thì họ sẽ ngừng kết nối, hợptác với doanh nghiệp Theo như số liệu thống kê từ nhiều nguồn nghiên cứu trên thế giới:Nghiên cứu của Deloitte (2018) chỉ ra rằng khả năng cung cấp giá trị và dịch vụchất lượng là một trong những yếu tố quan trọng nhất ảnh hưởng đến quyết địnhcủa khách hàng về việc ở lại hoặc rời bỏ ngân hàng
Nghiên cứu của Accenture (2019) đã nhấn mạnh sự quan trọng của trải nghiệmkhách hàng trong quá trình giữ chân khách hàng Nói chung, khách hàng đánh giácao các trải nghiệm tích cực và có thể chuyển đổi với các tổ chức có trải nghiệmkhách hàng kém
Thống kê từ Federal Reserve Bank of St Louis (2020) cho thấy chi phí và phí liênquan đến tài khoản ngân hàng là một trong những lý do quan trọng khiến kháchhàng đưa ra quyết định rời bỏ ngân hàng
Theo Nie et al (2011), giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuậncủa ngân hàng lên tới 85%
Ta thấy rằng sự rời bỏ hay ở lại của khách hàng là yếu tố quyết định sự phát triểncủa ngân hàng Việc tìm kiếm một khách hàng mới sẽ “đắt hơn” rất nhiều so với việc giữchân một khách hàng hiện có Thế nên nhu cầu phân tích tỷ lệ khách hàng rời bỏ ngàycàng tăng Đặc biệt là nhu cầu về mô hình dự đoán được xây dựng trên các phương phápthuộc lĩnh vực khoa học dữ liệu Nếu ngân hàng có thể dự đoán tỷ lệ rời bỏ của kháchhàng, các chiến
Trang 92 Mục tiêu nghiên cứu
2.1 Mục tiêu tổng quát
Nhìn chung, mục tiêu tổng quát của đồ án này là phân tích và dự báo hành vi rời
bỏ của khách hàng tại ngân hàng nhằm giảm bớt tỷ lệ khách hàng rời bỏ
2.2 Mục tiêu cụ thể
Bài toán 1: Phát hiện điểm đặc thù của dữ liệu
Bài toán 2: Dự đoán khả năng rời bỏ hay ở lại của khách hàng
Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành
3 Đối tượng nghiên cứu
Nghiên cứu hành vi rời bỏ của khách hàng trên bộ dữ liệu “Churn for Bank Customers”
4 Phương pháp thực hiện
Bước 1: Thu thập dữ liệu
Nhóm chọn bộ dữ liệu “Churn for Bank Customers” từ trang Kaggle
Bước 2: Tiền lý trước dữ liệu
o Excel: Tạo Dashboard để khái quát về các ngân hàng
o Orange: Tiến hành phân tích đặc thù của dữ liệu và mối tương quan giữa chúng
Bước 4: Phát triển mô hình
Triển khai các thuật toán học máy trong các bài toán phân lớp và phân cụm thông qua Orange
Bước 5: Đánh giá mô hình
Đánh giá hiệu suất và xem xét lại quy trình
Trang 10Chương 2: Quy trình thực hiện và Kết quả
1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu
1.1 Mô tả nguồn dữ liệu
Bộ dữ liệu cho đề tài có tên là “Churn for Bank Customers” và có nguồn từ Kaggle(link) Dữ liệu được thu thập từ một ngân hàng ở châu Âu với các khách hàng ở các quốcgia Pháp, Tây Ban Nha và Đức Mục đích của việc nghiên cứu bộ dữ liệu này là dự đoán
tỷ lệ rời bỏ khách hàng Dữ liệu chứa tổng cộng 10.000 quan sát với 14 cột thuộc tính.Trong đó, “Exited” là biến phụ thuộc và phần còn lại là biến độc lập
1.2 Cấu trúc nguồn dữ liệu
Bảng 1: Cấu trúc nguồn dữ liệu
STT Thuộc tính Kiểu dữ liệu Khoảng giá trị Ý nghĩa
1 RowNumber Word 1 đến 10,000 Số thứ tự và không ảnh hưởng đến
việc khách hàng rời khỏi ngânhàng
2 CustomerId Longtin 15,565,701 đến
15,815,690
ID của khách hàng, chứa các giátrị ngẫu nhiên và không ảnhhưởng đến việc khách hàng rờikhỏi ngân
hàng
3 Surname String Hargrave, Hill,
Onio, Boni,Mitchell,
Họ của khách hàng, không ảnh hưởng đến việt khách hàng rờikhỏi ngân hàng
4 CreditScore Word 350 đến 650 Điểm tín dụng 3của khách hàng
5 Geography String Spain, France,
Germany Vị trí (quốc gia) của khách hàng.
6 Gender String Male, Female Giới tính của khách hàng
7 Age Integer 18 - 92 Tuổi của khách hàng
8 Tenure Integer 0 – 10 Thâm niên khách hàng, thể hiện số
năm kể từ khi khách hàng hợp tácvới ngân hàng
9 Balance Real 0 đến 250,898.1 Số dư trong tài khoản của khách
hàng
10 NumOfProducts Integer 1 đến 4 Số lượng sản phẩm (thẻ tín dụng,
thẻ ghi nợ, ) hoặc dịch vụ (gửitiền tiết kiệm, mua bán ngoạitệ, ) mà khách hàng đã mua từngân
hàng
Trang 1111 HasCrCard Integer 0, 1 Thẻ tín dụng, thể hiện việc khách
hàng có thẻ tín dụng hay không.Nếu giá trị là 1 thì khách hàng cóthẻ tín dụng, và giá trị là 0 thìngược lại, khách hàng không cóthẻ tín dụng
12 IsActiveMember Integer 0, 1 Thể hiện việc khách hàng có phải
là thành viên tích cực của ngânhàng hay không Nếu giá trị là 1thì khách hàng này là thành viêntích cực và giá trị là 0 thì ngượclại
13 EstimatedSalary Real 11.58 đến
199,992.5 Thu nhập ước tính của kháchhàng
14 Exited Integer 0, 1 Cho biết khách hàng khàng có rời
bỏ ngân hàng hay không Nếu giátrị là 0 thì khách hàng không rời
bỏ Thay vào đó, nếu giá trị bằng
1 thì khách hàng vẫn duy trì mốiquan hệ với ngân hàng rời bỏngân hàng
o CustomerId: ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh
hưởng đến việc khách hàng rời khỏi ngân hàng
o Surname: Họ của khách hàng không ảnh hưởng đến việc khách hàng rời khỏi
ngân hàng
Sau đó, nhóm lưu file sau rút gọn thành “Bài toán 1.xlsx” để thực hiện bài toán 1
Trang 12Bước 4: Chỉnh dạng dữ liệu
Trang 13Nhóm không thực hiện chuẩn hóa dữ liệu do không cần thiết nhiều cho các bài toán
Hình 1: Mô hình tiền xử lý
3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu
Trong bài toán này, nhóm sẽ lấy file “Bài toán 1.xlsx” được lưu trong phần tiền
xử lý Và bài toán được thực hiện bằng hai công cụ:
Excel: Dùng Dashboard để cung cấp cái nhìn tổng quát về ngân hàng, giúp người
đọc nắm thêm thông tin để phục vụ cho phần phân tích chuyên sâu hơn trongOrange
Orange: Phân tích sâu hơn về hành vi rời bỏ của khách hàng Nhóm sẽ phân tích
từng biến độc lập để xem chúng có thực sự ảnh hưởng đến việc “rời bỏ” haykhông Những phân tích này sẽ làm rõ hơn về hành vi “rời bỏ” của khách hàng vàgiúp ngân hàng cải thiện chất lượng dịch vụ
3.1 Dashboard: Tổng quan về ngân hàng
3.1.1 Các bước thực hiện:
Bước 1: Tạo Table
Chọn một ô bất kỳ trên vùng dữ liệu sau đó vào thẻ Insert chọn vào Table (phímtắt Ctrl + T), tại cửa sổ Create Table chọn vào My table has headers, hoàn tất chọnOK
Bước 2: Tạo Pivottable
o Trong thẻ Insert chọn PivotTable, tích vào New Worksheet để tạo PivotTable ởsheet mới
o Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn
o Kế tiếp sẽ vào thẻ Analyze, chọn PivotChart để chọn loại biểu đồ Sau đó tùychỉnh các định dạng của biểu đồ sau cho phù hợp
o Đối với các loại biểu đồ không được dùng trong Pivottable có thể sao chépbảng dữ liệu từ Pivottable để tạo biểu đồ
Bước 3: Tạo Dashboard
o Tạo một Sheet mới với tên là Dashboard sau đó Copy các PivotTable vừa tạo
và dán nó qua sheet Dashboard
Trang 14o Nhóm không sử dụng chức năng Slicer do trong phần Dashboard này chỉ cungcấp một cái nhìn tổng quát Trong phần Orange tiếp theo, nhóm sẽ tiến hànhphân tích sâu hơn về các biến
o File Dashboard này được nhóm gắn vào link drive File tên “Dashboard” nằmtrong thư mục “Bài toán 1”
3.1.2 Nhận xét kết quả:
Hình 2: Dashboard – Churn For Bank Customers
EXITED: Tỷ lệ khách hàng rời bỏ là 20% (2037), trong khi 80% (7963) khách
hàng vẫn sử dụng sản phẩm/dịch vụ của ngân hàng Trong ngành tài chính/tíndụng, tỷ lệ khách hàng rời bỏ là 25% (Nguồn: Filum.ai, link ) Do đó, ta thấy rằngcon số 20% này là không quá lớn trong ngành tài chính/tín dụng
AGE: Phần lớn khách hàng thuộc độ tuổi từ 28 đến 48 tuổi, chiếm 74% (7.438).
Đặc biệt, nhóm khách hàng từ 78 tuổi trở lên chiếm chưa tới 1% (24 người) Đa sốkhách hàng là người trung niên, những người lớn tuổi (hơn 78 tuổi) chiếm khá ít
TENURE: Ngân hàng hiện đang có 413 khách hàng mới, chưa sử dụng qua sản
phẩm/ dịch vụ nào của ngân hàng và 490 khách hàng có thâm niên 10 năm Lượngkhách hàng mới (tenure = 0) và lượng khách với thâm niên là 10 năm đều ít tương
tự nhau, chiếm chưa tới 5% Hiện tại, phần lớn khách hàng có thâm niên từ 1 đến
9 năm
NUMBER OF PRODUCTS: Hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/
dịch vụ tại ngân hàng Hơn 50% (5084) khách hàng chỉ mua 1 dịch vụ hoặc sảnphẩm của ngân hàng Số lượng khách mua 1 sản phẩm/ dịch vụ gần như ngangbằng với lượng khách mua 2 sản phẩm/ dịch vụ (4590) Ngoài ra, số lượng kháchhàng mua 3 hoặc 4 sản phẩm dịch vụ ít hơn đáng kể, chiếm lần lượt là 0.26% và0.06%
Trang 15GENDER: Khách hàng nam chiếm 55% (5457) và nữ chiếm 45% (4543) Chênh
lệch giới tính không được xem là quá lớn
CREDIT CARD: Nhìn chung, phần lớn khách hàng có thẻ tín dụng Hiện có 71%
(7055) khách hàng có thẻ tín dụng và 29% (2945) còn lại không có
ACTIVE MEMBER: Ngân hàng có 52% (5151) khách hàng là thành viên tích
cực và 48% (4849) còn lại không phải là thành viên tích cực Ta thấy rằng hơnmột nửa khách hàng là thành viên tích cực
GEOGRAPHY: Lượng khách hàng ở Pháp chiếm 50% (5010) Còn lại là 25%
(2509) ở Đức và 25% (2477) ở Tây Ban Nha
ESTIMATED SALARY: Giá trị 3 tứ phân vị lần lượt là $51.015, $100.218 và
$149.400 Thu nhập ít nhất là $90.07 và cao nhất là $199.992,5 Trung bình thunhập của khách hàng là $100.097,8 mỗi người
BALANCE: Có khoảng 36% (3617) khách hàng không có tiền trong tài khoản
Do đó điểm min (0) trùng với tứ phân vị thứ nhất Tứ phân vị thứ 2 và 3 lần lượt là
97.208 và 127.648 Giá trị số dư cao nhất là 250.898 Trung bình số dư của khách hàng là 76.486
CREDIT SCORE: Điểm tín dụng trải dài từ 350 đến 850 điểm Giá trị 3 tứ phân
vị lần lượt là 584, 652 và 718 Điểm tín dụng trung bình là 650.53
3.2 Orange: Phân tích đặc thù
3.2.1 Các bước thực hiện
Bước 1: Xây dựng mô hình trong Orange
Tương tự như phần Dashboard, nhóm tiếp tục sử dụng file “Bài toán 1.xlsx” trongTiền xử lý File này được nhóm đưa vào Orange và được thể hiện bằng các biểu đồ thôngqua chức năng Distribution
Hình 3: Mô hình Orange phân tích đặc thù
3.2.2 Nhận xét kết quả
Từ chức năng Distributions trong Orange, ta nhận sẽ nhận được một loạt các biểu
đồ Các thuộc tính sẽ được đánh giá là có liên quan đến hành vi rời bỏ nếu tỷ lệ rời bỏchênh lệch lớn hơn 10% và ngược lại, dưới 10% thì các thuộc tính sẽ không tác động đếnviệc rời đi hay ở lại của khách hàng Cụ thể như sau:
Age (Tuổi): Trong biểu đồ sau, độ tuổi từ 56-58 tuổi có tỷ lệ rời bỏ cao nhất,
60.69% Và từ độ tuổi 76 trở lên, tỷ lệ rời bỏ hầu như là 0% Sự khác biệt này đãchứng minh rằng độ tuổi tác động mạnh mẽ đến hành vi rời bỏ của khách hàng
Trang 16Các khách hàng
Trang 17trung niên (44-66 tuổi) có tỷ lệ rời bỏ khá cao Trong khi những người lớn tuổi (trên 76 tuổi) thường có xu hướng trung thành hơn
Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng
CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở
nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng cóđiểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng cótác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càngcao thì càng ít có khả năng rời bỏ
Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng
NumberOfProducts (Số lượng sản phẩm/dịch vụ): Các khách hàng đã mua 2
sản phẩm/dịch vụ có khá ít khách hàng rời bỏ 7.58% Ngược lại, các khách hàng
đã mua 4 sản phẩm/dịch vụ thì luôn luôn rời bỏ ngân hàng với tỷ lệ rời bỏ là100% Ta thấy rằng, rõ ràng số lượng sản phẩm/dịch vụ có tác động đến tỷ lệ rời
bỏ của ngân hàng Đa số các khách hàng mua 1 -2 sản phẩm/dịch vụ thì ít có khảnăng rời bỏ ngân hàng hơn
Trang 18Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua
IsActiveMember (Thành viên tích cực): Tỷ lệ rời bỏ trong nhóm khách hàng
thành viên tích cực là 26.85% và trong nhóm khách hàng không phải thành viêntích cực là 14.27% Rõ ràng, những thành viên tích cực có tỷ lệ rời bỏ cao hơn
Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng
Geography (Vị trí): Tại Đức, tỷ lệ rời bỏ là 32.44% Trong khi đó, tỷ lệ rời bỏ ở
Pháp và Tây Ban Nha lần lượt là 16.15% và 16.67% Do đó, vị trí của khách hàng
có thể ảnh hưởng đến việc họ rời bỏ ngân hàng Đặc biệt, khách hàng ở Đức có xuhướng rời bỏ hơn là ở Pháp và Tây Ban Nha
Trang 19Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng
Balance (Số dư): Đối với nhóm khách hàng có số dư bằng 0 thì tỷ lệ rời bỏ chiếm
13.85% Khi số dư trong khoảng 200.000 đến 210.000 thì có 57.14% khách hàngrời bỏ Do đó, số dư có tác động đến tỷ lệ rời bỏ của ngân hàng Nhìn chung,những người có số dư cao sẽ rời bỏ ngân hàng
Hình 9: Biểu đồ cột thể hiện số dư của khách hàng
CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở
nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng cóđiểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng cótác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càngcao thì càng ít có khả năng rời bỏ
Trang 20Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng
Bên cạnh đó, nhóm phát hiện ra rằng 4 thuộc tính sau không tác động đến việc rời
bỏ của khách hàng do có tỷ lệ chênh lệch giữa rời bỏ và ở lại dưới 10%
Gender (Giới tính): Tỷ lệ rời bỏ ở nam và nữ là 16.46% và 25.07%.
Tenure (Thâm niên): Ở mỗi mức thâm niên, tỷ lệ rời bỏ dao động từ 17-23% HasCrCard (Thẻ tín dụng): Tỷ lệ rời bỏ ở nhóm khách hàng có thẻ tín dụng và
không có thẻ lần lượt là 20.81% và 20.18%
EstimatedSalary (Thu nhập khách hàng): Tỷ lệ rời bỏ đối với các mức thu nhập
của khách hàng dao động từ 15.91% đến 25%
3.3 Kết luận bài toán
Dashboard: Tổng quan về các ngân hàng
Ngân hàng có đa số khách hàng thuộc độ tuổi trung niên, có thu nhập trung bìnhcao, và hầu hết đều có thẻ tín dụng Tuy nhiên, lượng khách hàng mới và khách hàng vớithâm niên với 10 năm chiếm chưa tới 5% và hầu hết khách hàng chỉ mua 1 hoặc 2 sảnphẩm/ dịch vụ tại ngân hàng Ngoài ra, với hơn một nửa khách hàng là thành viên tíchcực và 36% khách hàng không có tiền trong tài khoản
Orange: Phân tích đặc thù
Trong quá trình phân tích, nhóm đã loại ra 4 yếu tố không tác động đến hành vi rời
bỏ (giới tính, thâm niên, thẻ tín dụng, thu nhập) Khách hàng rời bỏ ngân hàng có đặc thùnhư sau: là thành viên tích cực, có số dư và điểm tín dụng thấp, thuộc các nước Pháp vàĐức, nằm trong độ tuổi trung niên, mua nhiều sản phẩm/dịch vụ
Nhìn chung, ngân hàng có một lượng khách hàng ổn định và có nhu cầu sử dụngthẻ tín dụng Đây là những yếu tố tích cực cho ngân hàng, cho thấy ngân hàng có uy tín
và chất lượng dịch vụ tốt Bên cạnh đó, tỷ lệ rời bỏ 20% cũng là một con số mà ngânhàng cần xem xét để có thể tăng thêm lợi nhuận
Trang 214 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng
4.1 Mô tả bài toán
Bước 1: Chọn dữ liệu File “churn_Data” và chọn cột “Exited” làm target (
biến phụ thuộc) và các biến còn lại là biến độc lập
Bước 2: Mở File “churn_Data” → Mở Preprocess nối với File và logistic
regression
Bước 3: Nối File và 3 phương pháp SVM, Tree và Logistic Regression với Test
and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn
Bước 4: Liên kết phương pháp tốt nhất và File “churn_forecast” với Predictions để
đánh giá và phân loại dữ liệu đầu vào
Bước 5: Dựa vào kết quả dự báo đưa ra đánh giá và nhận xét.
Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng
4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toán Rủi ro tín dụng và đánh giá tín nhiệm: Đánh giá khả năng thanh toán và rủi ro
tín dụng của khách hàng Điều này có thể bao gồm việc sử dụng các mô hình đánhgiá tín nhiệm để đo lường rủi ro tín dụng của khách hàng
Sản phẩm/Dịch vụ tài chính: Kiến thức sâu rộng về các sản phẩm tài chính như
tín dụng cá nhân, thẻ tín dụng Điều này giúp hiểu rõ về lựa chọn và ưu tiên củakhách hàng
Trang 22Thu nhập và số dư: Nếu mức lương của khách hàng giảm, họ có thể phải điều
chỉnh chi tiêu hàng tháng Nếu số tiền rút hàng tháng tăng lên, họ có thể cảm thấykhó khăn trong việc giữ lại tài khoản ngân hàng hiện tại
4.3 Chạy mô hình và kết quả:
4.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:
Hình 12: Kết quả Test and Score
Sau khi đánh giá kết quả dựa trên Confusion Matrix ta thấy rằng chỉ số CA, F1,Prec, Recall, MCC của phương pháp Tree cao nhất Vì thế, nhóm quyết định chọnphương pháp Tree
Trang 23Hình 13: Kết quả Logistic Regression
Hình 14: Kết quả SVM