1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng

46 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Khoa Học Dữ Liệu Vào Dự Báo Việc Rời Đi Hay Ở Lại Của Khách Hàng Trong Ngân Hàng
Tác giả Nguyễn Thanh Trúc, Ngô Nguyễn Thanh Nhân, Kiều Chinh, Kim Ngân
Người hướng dẫn Th.S. Nguyễn Mạnh Tuấn
Trường học Đại Học UEH
Chuyên ngành Khoa Công Nghệ Thông Tin Kinh Doanh
Thể loại Đề Tài
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 46
Dung lượng 3,81 MB

Nội dung

Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫn đến

Trang 1

ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỀ TÀI ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO DỰ BÁO VIỆC RỜI

ĐI HAY Ở LẠI CỦA KHÁCH HÀNG TRONG NGÂN HÀNG

Trang 2

Lời cảm ơn

Lời đầu tiên, nhóm 1 xin phép gửi lời biết ơn sâu sắc đến thầy Nguyễn Mạnh Tuấn giảng viên bộ môn Khoa học dữ liệu, Đại học Kinh tế thành phố Hồ Chí Minh Trongsuốt thời gian học tập, nhóm đã được thầy trang bị thêm các kiến thức nền tảng mới, đãgiúp cho nhóm tự tìm hiểu và là hành trang giúp ích trong công việc sau này Ngoài ra,thầy đã đưa ra thêm các lời khuyên và kinh nghiệm thực tế khi nhóm đối mặt với một sốvấn đề khó khăn khi thực hiện đề tài

-Với sự giúp đỡ của thầy, chúng em có thể hiểu sâu thêm về đề tài mình đang làm.Bằng tất cả sự kính trọng và biết ơn sâu sắc nhất, một lần nữa nhóm xin gửi lời cảm ơnchân thành đến thầy Và để báo đáp phần nào đó, nhóm mong đề tài này sẽ mang lại hữuích cho ngành ngân hàng

Trang 3

Mức độ liên quan đến chuyên ngành của các bài toán

Dự án của nhóm gồm những biến liên quan đến chuyên ngành tài chính:

Điểm tín dụng (CreditScore ) là một công cụ đánh giá quan trọng để xác định rủi

ro tín dụng và quyết định về các dịch vụ tài chính, như vay vốn, điều kiện vay, lãi suấthay thẻ tín dụng

Số dư trong tài khoản ngân hàng (Balance) là một phần quan trọng của ngân sách

cá nhân hoặc doanh nghiệp Nó giúp xác định khả năng chi tiêu và đầu tư trong các kếhoạch tài chính Số dư tài khoản có thể ảnh hưởng đến điểm tín dụng và khả năng vayvốn

Sử dụng thẻ tín dụng (HasCrCard) có thể ảnh hưởng đến điểm tín dụng của cá

nhân Thẻ tín dụng thường đi kèm với lãi suất nếu người sử dụng không thanh toán đầy

đủ số tiền mỗi tháng Thẻ tín dụng là một phương tiện thanh toán linh hoạt và phổ biếntrong lĩnh vực tài chính

Thu nhập ước tính (EstimatedSalary) có thể ảnh hưởng đến sự lựa chọn về các

dịch vụ tài chính, chẳng hạn như loại tài khoản ngân hàng, thẻ tín dụng, hay các sản phẩmđầu tư Thu nhập đóng vai trò quan trọng trong quản lý tài chính cá nhân Nó ảnh hưởngđến khả năng chi tiêu, tiết kiệm, và đầu tư

Việc rời bỏ ngân hàng (Exited) là một quyết định tài chính quan trọng và có ảnh

hưởng đến mối quan hệ của cá nhân hoặc doanh nghiệp với ngành tài chính Rời bỏ ngânhàng có thể ảnh hưởng đến loại tài khoản và các dịch vụ tài chính mà người dùng có thểtiếp cận, cách quản lý chi tiêu, tiết kiệm, và đầu tư

Trong dự án này, tỷ lệ khách hàng rời bỏ được phân tích xuyên suốt trong qua 3 bàitoán với các biến như trên Nghiên cứu trong các bài toán mang lại thông tin thực tiễn vàứng dụng cho ngành tài chính ngân hàng

Do vậy, nhóm đánh giá rằng các bài toán trong dự án thuộc mức độ 1 (liên quan đến chuyên ngành).

Link drive chứa các file dữ liệu cần thiết cho đồ án: link

Trang 4

MỤC LỤC NỘI DUNG

Lời cảm ơn 2

Mức độ liên quan đến chuyên ngành của các bài toán 3

Chương 1: Tổng quan 5

1 Lý do chọn đề tài 5

2 Mục tiêu nghiên cứu 6

2.1 Mục tiêu tổng quát 6

2.2 Mục tiêu cụ thể 6

3 Đối tượng nghiên cứu 6

4 Phương pháp thực hiện 6

Chương 2: Quy trình thực hiện và Kết quả 7

1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu 7

1.1 Mô tả nguồn dữ liệu 7

1.2 Cấu trúc nguồn dữ liệu 7

2 Tiền xử lý 8

3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu 9

3.1 Dashboard: Tổng quan về ngân hàng 9

3.2 Orange: Phân tích đặc thù 11

3.3 Kết luận bài toán 15

4 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng16 4.1 Mô tả bài toán 16

4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toán 16

4.3 Chạy mô hình và kết quả 17

4.4 Kết luận cho bài toán: 25

5 Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành 26

5.1 Mô tả bài toán 26

5.2 Các kiến thức chuyên ngành nếu liên quan đến bài toán 28

5.3 Chạy mô hình và kết quả 28

5.4 Kết luận bài toán 37

Chương 3: Kết luận và kiến nghị 38

Trang 5

1 Kết luận: 38

1.1 Nhóm khách hàng rời bỏ nhất 38

1.2 Nhóm khách hàng trung thành 39

2 Kiến nghị 39

2.1 Kiến nghị giải pháp cho ngân hàng để giữ chân khách hàng rời đi 39

2.2 Kiến nghị giúp ngân hàng để giữ chân khách hàng ở lại để tìm được khách hàng trung thành 40

Giải thích thuật ngữ 41

Tài liệu tham khảo 41

Trang 6

MỤC LỤC BẢNG BIỂU – HÌNH ẢNH

Bảng 1: Cấu trúc nguồn dữ liệu 7

Hình 1: Mô hình tiền xử lý 9

Hình 2: Dashboard – Churn For Bank Customers 10

Hình 3: Mô hình Orange phân tích đặc thù 11

Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng 12

Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 12

Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua 13

Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng 13

Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng 14

Hình 9: Biểu đồ cột thể hiện số dư của khách hàng 14

Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 15

Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng 16

Hình 12: Kết quả Test and Score 17

Hình 13: Kết quả Logistic Regression 18

Hình 14: Kết quả SVM 18

Hình 15: Kết quả Tree 19

Hình 16: Mô hình phân tích chuyên sâu Logistic Regression và Tree 20

Hình 17: Bảng đánh giá chuyên sâu bằng phương pháp Logistic Regression 21

Hình 18: Bảng đánh giá chuyên sâu bằng phương pháp Tree Viewer 22

Hình 19: Kết quả dự báo Predictions 23

Hình 20: File kết quả dự báo Excel (1) 24

Hình 21: File kết quả dự báo Excel (2) 24

Hình 22: File kết quả dự báo Excel (3) 25

Hình 23: File kết quả dự báo Excel (4) 25

Hình 24: Mô hình phân tách dữ liệu trong phân cụm 26

Hình 25: Select Rows – Lựa chọn nhóm khách hàng 27

Hình 26: Mô hình phân cụm về đặc điểm của nhóm khách hàng rời bỏ ngân hàng 28

Hình 27: Bảng kết quả của phương pháp K-Means 29

Hình 28: Kết quả Silhouette Plot 30

Hình 29: Mô hình điểm tín dụng của 2 cụm 31

Hình 30: Phân bố nhóm khách hàng rời bỏ ngân hàng theo tuổi 31

Hình 31: Phân bố nhóm khách hàng rời bỏ ngân hàng theo vị trí địa lý 32

Hình 32: Phân bố nhóm khách hàng rời bỏ ngân hàng theo giới tính 33

Hình 33: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số dư ngân hàng 33

Hình 34: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số năm khách hàng hợp tác với ngân hàng 34

Trang 8

Chương 1: Tổng quan

1 Lý do chọn đề tài

Sau khủng hoảng tài chính năm 2008, Ngân hàng Trung ương Châu Âu (ECB - The

European Central bank) đã sử dụng các biện pháp tiền tệ rất linh hoạt (như nới lỏng định lượng 1 và chính sách lãi suất bằng không 2) để thúc đẩy tăng trưởng, tăng lạm phát vàgiảm tỷ lệ thất nghiệp Những biện pháp này tuy có lợi trong việc kích thích nền kinh tếcủa các quốc gia, nhưng lại gây bất lợi cực kỳ lớn cho lợi nhuận của các ngân hàng phụthuộc vào lãi suất do ECB quy định Khi đó, các ngân hàng không còn lựa chọn nào khácngoài việc tìm kiếm các nguồn thu nhập thay thế, về bản chất bao gồm việc kiểm soát chiphí và xem xét chính sách giá của họ bằng cách tính phí hoa hồng cao hơn Những biệnpháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoahồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫnđến mức độ rời bỏ khách hàng tăng lên

Khách hàng rời bỏ (customer churn) là tình trạng khách hàng dù đã bắt đầu sử dụngsản phẩm hoặc dịch vụ của doanh nghiệp nhưng vì lý do này hay lý do khác, ngừng hoàntoàn và chuyển sang lựa chọn một đối thủ khác Trong kinh doanh, khi khách hàng khônghài lòng với dịch vụ, sản phẩm mà doanh nghiệp cung cấp thì họ sẽ ngừng kết nối, hợptác với doanh nghiệp Theo như số liệu thống kê từ nhiều nguồn nghiên cứu trên thế giới:Nghiên cứu của Deloitte (2018) chỉ ra rằng khả năng cung cấp giá trị và dịch vụchất lượng là một trong những yếu tố quan trọng nhất ảnh hưởng đến quyết địnhcủa khách hàng về việc ở lại hoặc rời bỏ ngân hàng

Nghiên cứu của Accenture (2019) đã nhấn mạnh sự quan trọng của trải nghiệmkhách hàng trong quá trình giữ chân khách hàng Nói chung, khách hàng đánh giácao các trải nghiệm tích cực và có thể chuyển đổi với các tổ chức có trải nghiệmkhách hàng kém

Thống kê từ Federal Reserve Bank of St Louis (2020) cho thấy chi phí và phí liênquan đến tài khoản ngân hàng là một trong những lý do quan trọng khiến kháchhàng đưa ra quyết định rời bỏ ngân hàng

Theo Nie et al (2011), giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuậncủa ngân hàng lên tới 85%

Ta thấy rằng sự rời bỏ hay ở lại của khách hàng là yếu tố quyết định sự phát triểncủa ngân hàng Việc tìm kiếm một khách hàng mới sẽ “đắt hơn” rất nhiều so với việc giữchân một khách hàng hiện có Thế nên nhu cầu phân tích tỷ lệ khách hàng rời bỏ ngàycàng tăng Đặc biệt là nhu cầu về mô hình dự đoán được xây dựng trên các phương phápthuộc lĩnh vực khoa học dữ liệu Nếu ngân hàng có thể dự đoán tỷ lệ rời bỏ của kháchhàng, các chiến

Trang 9

2 Mục tiêu nghiên cứu

2.1 Mục tiêu tổng quát

Nhìn chung, mục tiêu tổng quát của đồ án này là phân tích và dự báo hành vi rời

bỏ của khách hàng tại ngân hàng nhằm giảm bớt tỷ lệ khách hàng rời bỏ

2.2 Mục tiêu cụ thể

Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Bài toán 2: Dự đoán khả năng rời bỏ hay ở lại của khách hàng

Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành

3 Đối tượng nghiên cứu

Nghiên cứu hành vi rời bỏ của khách hàng trên bộ dữ liệu “Churn for Bank Customers”

4 Phương pháp thực hiện

Bước 1: Thu thập dữ liệu

Nhóm chọn bộ dữ liệu “Churn for Bank Customers” từ trang Kaggle

Bước 2: Tiền lý trước dữ liệu

o Excel: Tạo Dashboard để khái quát về các ngân hàng

o Orange: Tiến hành phân tích đặc thù của dữ liệu và mối tương quan giữa chúng

Bước 4: Phát triển mô hình

Triển khai các thuật toán học máy trong các bài toán phân lớp và phân cụm thông qua Orange

Bước 5: Đánh giá mô hình

Đánh giá hiệu suất và xem xét lại quy trình

Trang 10

Chương 2: Quy trình thực hiện và Kết quả

1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu

1.1 Mô tả nguồn dữ liệu

Bộ dữ liệu cho đề tài có tên là “Churn for Bank Customers” và có nguồn từ Kaggle(link) Dữ liệu được thu thập từ một ngân hàng ở châu Âu với các khách hàng ở các quốcgia Pháp, Tây Ban Nha và Đức Mục đích của việc nghiên cứu bộ dữ liệu này là dự đoán

tỷ lệ rời bỏ khách hàng Dữ liệu chứa tổng cộng 10.000 quan sát với 14 cột thuộc tính.Trong đó, “Exited” là biến phụ thuộc và phần còn lại là biến độc lập

1.2 Cấu trúc nguồn dữ liệu

Bảng 1: Cấu trúc nguồn dữ liệu

STT Thuộc tính Kiểu dữ liệu Khoảng giá trị Ý nghĩa

1 RowNumber Word 1 đến 10,000 Số thứ tự và không ảnh hưởng đến

việc khách hàng rời khỏi ngânhàng

2 CustomerId Longtin 15,565,701 đến

15,815,690

ID của khách hàng, chứa các giátrị ngẫu nhiên và không ảnhhưởng đến việc khách hàng rờikhỏi ngân

hàng

3 Surname String Hargrave, Hill,

Onio, Boni,Mitchell,

Họ của khách hàng, không ảnh hưởng đến việt khách hàng rờikhỏi ngân hàng

4 CreditScore Word 350 đến 650 Điểm tín dụng 3của khách hàng

5 Geography String Spain, France,

Germany Vị trí (quốc gia) của khách hàng.

6 Gender String Male, Female Giới tính của khách hàng

7 Age Integer 18 - 92 Tuổi của khách hàng

8 Tenure Integer 0 – 10 Thâm niên khách hàng, thể hiện số

năm kể từ khi khách hàng hợp tácvới ngân hàng

9 Balance Real 0 đến 250,898.1 Số dư trong tài khoản của khách

hàng

10 NumOfProducts Integer 1 đến 4 Số lượng sản phẩm (thẻ tín dụng,

thẻ ghi nợ, ) hoặc dịch vụ (gửitiền tiết kiệm, mua bán ngoạitệ, ) mà khách hàng đã mua từngân

hàng

Trang 11

11 HasCrCard Integer 0, 1 Thẻ tín dụng, thể hiện việc khách

hàng có thẻ tín dụng hay không.Nếu giá trị là 1 thì khách hàng cóthẻ tín dụng, và giá trị là 0 thìngược lại, khách hàng không cóthẻ tín dụng

12 IsActiveMember Integer 0, 1 Thể hiện việc khách hàng có phải

là thành viên tích cực của ngânhàng hay không Nếu giá trị là 1thì khách hàng này là thành viêntích cực và giá trị là 0 thì ngượclại

13 EstimatedSalary Real 11.58 đến

199,992.5 Thu nhập ước tính của kháchhàng

14 Exited Integer 0, 1 Cho biết khách hàng khàng có rời

bỏ ngân hàng hay không Nếu giátrị là 0 thì khách hàng không rời

bỏ Thay vào đó, nếu giá trị bằng

1 thì khách hàng vẫn duy trì mốiquan hệ với ngân hàng rời bỏngân hàng

o CustomerId: ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh

hưởng đến việc khách hàng rời khỏi ngân hàng

o Surname: Họ của khách hàng không ảnh hưởng đến việc khách hàng rời khỏi

ngân hàng

Sau đó, nhóm lưu file sau rút gọn thành “Bài toán 1.xlsx” để thực hiện bài toán 1

Trang 12

Bước 4: Chỉnh dạng dữ liệu

Trang 13

Nhóm không thực hiện chuẩn hóa dữ liệu do không cần thiết nhiều cho các bài toán

Hình 1: Mô hình tiền xử lý

3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Trong bài toán này, nhóm sẽ lấy file “Bài toán 1.xlsx” được lưu trong phần tiền

xử lý Và bài toán được thực hiện bằng hai công cụ:

Excel: Dùng Dashboard để cung cấp cái nhìn tổng quát về ngân hàng, giúp người

đọc nắm thêm thông tin để phục vụ cho phần phân tích chuyên sâu hơn trongOrange

Orange: Phân tích sâu hơn về hành vi rời bỏ của khách hàng Nhóm sẽ phân tích

từng biến độc lập để xem chúng có thực sự ảnh hưởng đến việc “rời bỏ” haykhông Những phân tích này sẽ làm rõ hơn về hành vi “rời bỏ” của khách hàng vàgiúp ngân hàng cải thiện chất lượng dịch vụ

3.1 Dashboard: Tổng quan về ngân hàng

3.1.1 Các bước thực hiện:

Bước 1: Tạo Table

Chọn một ô bất kỳ trên vùng dữ liệu sau đó vào thẻ Insert chọn vào Table (phímtắt Ctrl + T), tại cửa sổ Create Table chọn vào My table has headers, hoàn tất chọnOK

Bước 2: Tạo Pivottable

o Trong thẻ Insert chọn PivotTable, tích vào New Worksheet để tạo PivotTable ởsheet mới

o Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn

o Kế tiếp sẽ vào thẻ Analyze, chọn PivotChart để chọn loại biểu đồ Sau đó tùychỉnh các định dạng của biểu đồ sau cho phù hợp

o Đối với các loại biểu đồ không được dùng trong Pivottable có thể sao chépbảng dữ liệu từ Pivottable để tạo biểu đồ

Bước 3: Tạo Dashboard

o Tạo một Sheet mới với tên là Dashboard sau đó Copy các PivotTable vừa tạo

và dán nó qua sheet Dashboard

Trang 14

o Nhóm không sử dụng chức năng Slicer do trong phần Dashboard này chỉ cungcấp một cái nhìn tổng quát Trong phần Orange tiếp theo, nhóm sẽ tiến hànhphân tích sâu hơn về các biến

o File Dashboard này được nhóm gắn vào link drive File tên “Dashboard” nằmtrong thư mục “Bài toán 1”

3.1.2 Nhận xét kết quả:

Hình 2: Dashboard – Churn For Bank Customers

EXITED: Tỷ lệ khách hàng rời bỏ là 20% (2037), trong khi 80% (7963) khách

hàng vẫn sử dụng sản phẩm/dịch vụ của ngân hàng Trong ngành tài chính/tíndụng, tỷ lệ khách hàng rời bỏ là 25% (Nguồn: Filum.ai, link ) Do đó, ta thấy rằngcon số 20% này là không quá lớn trong ngành tài chính/tín dụng

AGE: Phần lớn khách hàng thuộc độ tuổi từ 28 đến 48 tuổi, chiếm 74% (7.438).

Đặc biệt, nhóm khách hàng từ 78 tuổi trở lên chiếm chưa tới 1% (24 người) Đa sốkhách hàng là người trung niên, những người lớn tuổi (hơn 78 tuổi) chiếm khá ít

TENURE: Ngân hàng hiện đang có 413 khách hàng mới, chưa sử dụng qua sản

phẩm/ dịch vụ nào của ngân hàng và 490 khách hàng có thâm niên 10 năm Lượngkhách hàng mới (tenure = 0) và lượng khách với thâm niên là 10 năm đều ít tương

tự nhau, chiếm chưa tới 5% Hiện tại, phần lớn khách hàng có thâm niên từ 1 đến

9 năm

NUMBER OF PRODUCTS: Hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/

dịch vụ tại ngân hàng Hơn 50% (5084) khách hàng chỉ mua 1 dịch vụ hoặc sảnphẩm của ngân hàng Số lượng khách mua 1 sản phẩm/ dịch vụ gần như ngangbằng với lượng khách mua 2 sản phẩm/ dịch vụ (4590) Ngoài ra, số lượng kháchhàng mua 3 hoặc 4 sản phẩm dịch vụ ít hơn đáng kể, chiếm lần lượt là 0.26% và0.06%

Trang 15

GENDER: Khách hàng nam chiếm 55% (5457) và nữ chiếm 45% (4543) Chênh

lệch giới tính không được xem là quá lớn

CREDIT CARD: Nhìn chung, phần lớn khách hàng có thẻ tín dụng Hiện có 71%

(7055) khách hàng có thẻ tín dụng và 29% (2945) còn lại không có

ACTIVE MEMBER: Ngân hàng có 52% (5151) khách hàng là thành viên tích

cực và 48% (4849) còn lại không phải là thành viên tích cực Ta thấy rằng hơnmột nửa khách hàng là thành viên tích cực

GEOGRAPHY: Lượng khách hàng ở Pháp chiếm 50% (5010) Còn lại là 25%

(2509) ở Đức và 25% (2477) ở Tây Ban Nha

ESTIMATED SALARY: Giá trị 3 tứ phân vị lần lượt là $51.015, $100.218 và

$149.400 Thu nhập ít nhất là $90.07 và cao nhất là $199.992,5 Trung bình thunhập của khách hàng là $100.097,8 mỗi người

BALANCE: Có khoảng 36% (3617) khách hàng không có tiền trong tài khoản

Do đó điểm min (0) trùng với tứ phân vị thứ nhất Tứ phân vị thứ 2 và 3 lần lượt là

97.208 và 127.648 Giá trị số dư cao nhất là 250.898 Trung bình số dư của khách hàng là 76.486

CREDIT SCORE: Điểm tín dụng trải dài từ 350 đến 850 điểm Giá trị 3 tứ phân

vị lần lượt là 584, 652 và 718 Điểm tín dụng trung bình là 650.53

3.2 Orange: Phân tích đặc thù

3.2.1 Các bước thực hiện

Bước 1: Xây dựng mô hình trong Orange

Tương tự như phần Dashboard, nhóm tiếp tục sử dụng file “Bài toán 1.xlsx” trongTiền xử lý File này được nhóm đưa vào Orange và được thể hiện bằng các biểu đồ thôngqua chức năng Distribution

Hình 3: Mô hình Orange phân tích đặc thù

3.2.2 Nhận xét kết quả

Từ chức năng Distributions trong Orange, ta nhận sẽ nhận được một loạt các biểu

đồ Các thuộc tính sẽ được đánh giá là có liên quan đến hành vi rời bỏ nếu tỷ lệ rời bỏchênh lệch lớn hơn 10% và ngược lại, dưới 10% thì các thuộc tính sẽ không tác động đếnviệc rời đi hay ở lại của khách hàng Cụ thể như sau:

Age (Tuổi): Trong biểu đồ sau, độ tuổi từ 56-58 tuổi có tỷ lệ rời bỏ cao nhất,

60.69% Và từ độ tuổi 76 trở lên, tỷ lệ rời bỏ hầu như là 0% Sự khác biệt này đãchứng minh rằng độ tuổi tác động mạnh mẽ đến hành vi rời bỏ của khách hàng

Trang 16

Các khách hàng

Trang 17

trung niên (44-66 tuổi) có tỷ lệ rời bỏ khá cao Trong khi những người lớn tuổi (trên 76 tuổi) thường có xu hướng trung thành hơn

Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng

CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng cóđiểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng cótác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càngcao thì càng ít có khả năng rời bỏ

Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng

NumberOfProducts (Số lượng sản phẩm/dịch vụ): Các khách hàng đã mua 2

sản phẩm/dịch vụ có khá ít khách hàng rời bỏ 7.58% Ngược lại, các khách hàng

đã mua 4 sản phẩm/dịch vụ thì luôn luôn rời bỏ ngân hàng với tỷ lệ rời bỏ là100% Ta thấy rằng, rõ ràng số lượng sản phẩm/dịch vụ có tác động đến tỷ lệ rời

bỏ của ngân hàng Đa số các khách hàng mua 1 -2 sản phẩm/dịch vụ thì ít có khảnăng rời bỏ ngân hàng hơn

Trang 18

Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua

IsActiveMember (Thành viên tích cực): Tỷ lệ rời bỏ trong nhóm khách hàng

thành viên tích cực là 26.85% và trong nhóm khách hàng không phải thành viêntích cực là 14.27% Rõ ràng, những thành viên tích cực có tỷ lệ rời bỏ cao hơn

Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng

Geography (Vị trí): Tại Đức, tỷ lệ rời bỏ là 32.44% Trong khi đó, tỷ lệ rời bỏ ở

Pháp và Tây Ban Nha lần lượt là 16.15% và 16.67% Do đó, vị trí của khách hàng

có thể ảnh hưởng đến việc họ rời bỏ ngân hàng Đặc biệt, khách hàng ở Đức có xuhướng rời bỏ hơn là ở Pháp và Tây Ban Nha

Trang 19

Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng

Balance (Số dư): Đối với nhóm khách hàng có số dư bằng 0 thì tỷ lệ rời bỏ chiếm

13.85% Khi số dư trong khoảng 200.000 đến 210.000 thì có 57.14% khách hàngrời bỏ Do đó, số dư có tác động đến tỷ lệ rời bỏ của ngân hàng Nhìn chung,những người có số dư cao sẽ rời bỏ ngân hàng

Hình 9: Biểu đồ cột thể hiện số dư của khách hàng

CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng cóđiểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng cótác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càngcao thì càng ít có khả năng rời bỏ

Trang 20

Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng

Bên cạnh đó, nhóm phát hiện ra rằng 4 thuộc tính sau không tác động đến việc rời

bỏ của khách hàng do có tỷ lệ chênh lệch giữa rời bỏ và ở lại dưới 10%

Gender (Giới tính): Tỷ lệ rời bỏ ở nam và nữ là 16.46% và 25.07%.

Tenure (Thâm niên): Ở mỗi mức thâm niên, tỷ lệ rời bỏ dao động từ 17-23% HasCrCard (Thẻ tín dụng): Tỷ lệ rời bỏ ở nhóm khách hàng có thẻ tín dụng và

không có thẻ lần lượt là 20.81% và 20.18%

EstimatedSalary (Thu nhập khách hàng): Tỷ lệ rời bỏ đối với các mức thu nhập

của khách hàng dao động từ 15.91% đến 25%

3.3 Kết luận bài toán

Dashboard: Tổng quan về các ngân hàng

Ngân hàng có đa số khách hàng thuộc độ tuổi trung niên, có thu nhập trung bìnhcao, và hầu hết đều có thẻ tín dụng Tuy nhiên, lượng khách hàng mới và khách hàng vớithâm niên với 10 năm chiếm chưa tới 5% và hầu hết khách hàng chỉ mua 1 hoặc 2 sảnphẩm/ dịch vụ tại ngân hàng Ngoài ra, với hơn một nửa khách hàng là thành viên tíchcực và 36% khách hàng không có tiền trong tài khoản

Orange: Phân tích đặc thù

Trong quá trình phân tích, nhóm đã loại ra 4 yếu tố không tác động đến hành vi rời

bỏ (giới tính, thâm niên, thẻ tín dụng, thu nhập) Khách hàng rời bỏ ngân hàng có đặc thùnhư sau: là thành viên tích cực, có số dư và điểm tín dụng thấp, thuộc các nước Pháp vàĐức, nằm trong độ tuổi trung niên, mua nhiều sản phẩm/dịch vụ

 Nhìn chung, ngân hàng có một lượng khách hàng ổn định và có nhu cầu sử dụngthẻ tín dụng Đây là những yếu tố tích cực cho ngân hàng, cho thấy ngân hàng có uy tín

và chất lượng dịch vụ tốt Bên cạnh đó, tỷ lệ rời bỏ 20% cũng là một con số mà ngânhàng cần xem xét để có thể tăng thêm lợi nhuận

Trang 21

4 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng

4.1 Mô tả bài toán

Bước 1: Chọn dữ liệu File “churn_Data” và chọn cột “Exited” làm target (

biến phụ thuộc) và các biến còn lại là biến độc lập

Bước 2: Mở File “churn_Data” → Mở Preprocess nối với File và logistic

regression

Bước 3: Nối File và 3 phương pháp SVM, Tree và Logistic Regression với Test

and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn

Bước 4: Liên kết phương pháp tốt nhất và File “churn_forecast” với Predictions để

đánh giá và phân loại dữ liệu đầu vào

Bước 5: Dựa vào kết quả dự báo đưa ra đánh giá và nhận xét.

Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng

4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toán Rủi ro tín dụng và đánh giá tín nhiệm: Đánh giá khả năng thanh toán và rủi ro

tín dụng của khách hàng Điều này có thể bao gồm việc sử dụng các mô hình đánhgiá tín nhiệm để đo lường rủi ro tín dụng của khách hàng

Sản phẩm/Dịch vụ tài chính: Kiến thức sâu rộng về các sản phẩm tài chính như

tín dụng cá nhân, thẻ tín dụng Điều này giúp hiểu rõ về lựa chọn và ưu tiên củakhách hàng

Trang 22

Thu nhập và số dư: Nếu mức lương của khách hàng giảm, họ có thể phải điều

chỉnh chi tiêu hàng tháng Nếu số tiền rút hàng tháng tăng lên, họ có thể cảm thấykhó khăn trong việc giữ lại tài khoản ngân hàng hiện tại

4.3 Chạy mô hình và kết quả:

4.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:

Hình 12: Kết quả Test and Score

Sau khi đánh giá kết quả dựa trên Confusion Matrix ta thấy rằng chỉ số CA, F1,Prec, Recall, MCC của phương pháp Tree cao nhất Vì thế, nhóm quyết định chọnphương pháp Tree

Trang 23

Hình 13: Kết quả Logistic Regression

Hình 14: Kết quả SVM

Ngày đăng: 08/04/2024, 12:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w