1. Trang chủ
  2. » Luận Văn - Báo Cáo

DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN HÀNG

42 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Khả Năng Khách Hàng Rời Bỏ Sử Dụng Dịch Vụ Ngân Hàng
Người hướng dẫn Nguyễn Mạnh Tuấn
Trường học Đại Học Kinh Tế Tp.Hcm
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Đồ Án Nhóm Cuối Học Phần
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 42
Dung lượng 2,9 MB

Nội dung

ĐỒ ÁN NHÓM CUỐI HỌC PHẦN MÔN KHOA HỌC DỮ LIỆU Tên dự án: DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN HÀNG Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranh gay gắt. Các ngân hàng không ngừng tìm kiếm các giải pháp để thu hút và giữ chân khách hàng. Trong đó, việc dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ ngân hàng là một vấn đề quan trọng.

Trang 1

- -TP HỒ CHÍ MINH Tháng 12, 2023

Trang 2

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN 1

1.1 Lý do chọn đề tài 1

1.2 Mục tiêu nghiên cứu 1

1.3 Đối tượng và phạm vi nghiên cứu của đề tài 2

1.4 Phương pháp nghiên cứu 2

1.4.1 Phương pháp nghiên cứu lý luận 2

1.4.2 Phương pháp nghiên cứu thực tiễn 3

CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 3

2.1 Mô tả dữ liệu 3

2.1.1 Mô tả tổng quát bộ dữ liệu 3

2.1.2 Mô tả các thuộc tính 3

2.2 Tiền xử lý 5

2.3 Bài toán 1: Bài toán phát hiện các điểm đặc thù và xây dựng dashboard 6

2.3.1 Khái niệm dashboard 6

2.3.2 Quy trình xây dựng dashboard 6

2.3.3 Các biểu đồ cụ thể trong dashboard 6

2.3.4 Kết quả và đánh giá 13

2.4 Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng dịch vụ ngân hàng (Bài toán phân lớp) 13

2.4.1 Mô tả bài toán 13

2.4.2 Mô tả các phương pháp thực hiện bài toán 13

Trang 3

2.4.2.1 Phân lớp dữ liệu 13

2.4.2.2 Các bước thực hiện 14

2.4.2.3 Một số phương pháp phân lớp 14

2.4.3 Chạy mô hình và kết quả 15

2.4.4 Kết quả và nhận xét 17

2.4.5 Kết luận 20

2.5 Bài toán 3: Phân loại những nhóm khách hàng tiếp tục sử dụng hoặc chấm dứt, rời bỏ dịch vụ của ngân hàng (bài toán phân cụm) 20

2.5.1 Mô tả bài toán 20

2.5.2 Mô tả các phương pháp thực hiện bài toán 21

2.5.2.1 Phân cụm dữ liệu 21

2.5.2.2 Quy trình phân cụm dữ liệu 21

2.5.2.3 Thực hiện bài toán phân cụm dữ liệu 22

2.5.3 Xây dựng mô hình 24

2.5.4 Kết quả mô hình phân cụm 25

2.5.5 Đánh giá và kết quả sau khi phân cụm 26

2.5.6 Kết luận 30

CHƯƠNG 3: KẾT LUẬN 30

3.1.Kết luận của các bài toán 30

3.1.1 Bài toán 1 30

3.1.2 Bài toán 2 30

Trang 4

3.1.3 Bài toán 3

31

3.2.Hạn chế của bài nghiên cứu 31

3.3.Giải pháp 32

DANH MỤC HÌNH ẢNH Hình 1 Các biến, đối tượng khảo sát 5

Hình 2 Số liệu sau khi tiền xử lí 5

Hình 3 Dashboard 6

Hình 4 Biểu đồ tỉ lệ số dư của khách hàng theo giới tính 8

Hình 5 Biểu đồ tỉ lệ rời đi theo giới tính 8

Hình 6 Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc rời đi 9

Hình 7 Số thẻ tín dụng theo quốc gia 10

Hình 8 Số thành viên hoạt động thường xuyên theo quốc gia 11

Hình 9 Số thẻ ngân hàng mà khách hàng đang sử dụng 12

Hình 10 Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc gia 13

Hình 11 Tổng quan quy trình phân lớp dữ liệu 15

Hình 12 Màn hình dữ liệu huấn luyện 16

Hình 13 Màn hình dữ liệu dự báo 16

Hình 14 Kết quả đánh giá bài toán qua SVM 17

Hình 15 Kết quả đánh giá bài toán qua LR 17

Hình 16 Kết quả đánh giá bài toán theo Neural Network 18

Trang 5

Hình18 Kết quả dự đoán của bài toán 20

Hình 19 Đánh giá kết quả dự báo 22

Hình 21 Nhập dữ liệu từ file 23

Hình 22 Mô hình xây dựng bài toán 3 24

Hình 23 Kết quả phương pháp K-Means 24

Hình 24 Kết quả Silhouette Plot 25

Hình 25 Dữ liệu trên DataTable với điểm Sihouette Plot cao nhất 26

Hình 26 Biểu đồ thống kê số lượng khách hàng mang quốc tịch Pháp, Đức, Tây Ban Nha 26

Hình 27 Biểu đồ thống kê số dư tài khoản của các khách hàng 27 Hình 28 Biểu đồ về mức độ thu nhập của các khách hàng 28

Hình 29 Biểu đồ so sánh 29

Trang 6

NHÓM SINH VIÊN THỰC HIỆN ĐỒ ÁN

Nhóm 6

đóng góp

Nguyễn Đào Duyên

Trang 7

MỨC ĐỘ LIÊN QUAN ĐẾN CHUYÊN NGÀNH

Trang 8

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Lý do chọn đề tài

Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranhgay gắt Các ngân hàng không ngừng tìm kiếm các giải pháp để thu hút

và giữ chân khách hàng Trong đó, việc dự đoán khả năng khách hàng rời

- Tốn chi phí để tiếp thị và thu hút khách hàng mới

- Giảm lòng tin của khách hàng hiện tại

 Về mặt chiến lược, khách hàng rời bỏ là dấu hiệu cho thấy ngân hàngđang gặp vấn đề trong việc đáp ứng nhu cầu của khách hàng Nếukhông giải quyết được vấn đề này, ngân hàng sẽ khó có thể phát triểnbền vững

 Về mặt xã hội, khách hàng rời bỏ có thể gây ra những tác động tiêucực đến nền kinh tế, chẳng hạn như:

- Giảm lượng tiền lưu thông trong nền kinh tế

- Tăng chi phí tài chính cho doanh nghiệp và cá nhân

Việc dự đoán khả năng khách hàng rời bỏ giúp ngân hàng có thể: Xácđịnh sớm những khách hàng có nguy cơ rời bỏ Thực hiện các biện phápcan thiệp kịp thời để ngăn chặn khách hàng rời bỏ Cải thiện chất lượngdịch vụ và sản phẩm để đáp ứng nhu cầu của khách hàng

Trang 9

Với những lý do trên, đề tài " Dự đoán khả năng khách hàng rời bỏ

sử dụng dịch vụ ngân hàng" là một đề tài có tính thực tiễn và ứng

dụng cao

1.2 Mục tiêu nghiên cứu:

Bài nghiên cứu “ Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụngân hàng” chủ yếu tập trung những mục tiêu chính như sau:

 Tiến hành nghiên cứu và phân tích các lý thuyết tổng quan về khaiphá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu

 Thực hiện nghiên cứu về các phương pháp cụ thể, đặc biệt là phươngpháp phân lớp dữ liệu (phương pháp này cho phép dự báo, phân loại

và phân lớp các đối tượng) Nghiên cứu sẽ giới thiệu các phươngpháp phân lớp dữ liệu, và từ đó chọn ra phương pháp phù hợp và tối

ưu nhất để tiến hành dự báo dữ liệu

 Triển khai mô hình thực nghiệm dựa trên thông tin khách hàng đểđưa ra dự đoán về mức độ khách hàng rời bỏ ngân hàng cũng nhưgiải pháp tốt nhất để cải thiện mức độ này

1.3 Đối tượng và phạm vi nghiên cứu của đề tài:

Đối tượng nghiên cứu gồm 10.000 khách hàng được khảo sát tại mộtngân hàng Bao gồm nhiều thuộc tính khác nhau như : số dư, thời gian sửdụng thẻ, khảo sát sử dụng thẻ ghi nợ, mức lương của chủ sở hữu,…

Dữ liệu được lấy tại một công ty được đăng tải trên trang web Kaggle :

dataset

https://www.kaggle.com/datasets/gauravtopre/bank-customer-churn-Công cụ sử dụng: Orange, Excel

1.4 Phương pháp nghiên cứu

Thực hiện nghiên cứu thông tin và dữ liệu từ các nguồn như sách, báo, tàiliệu học tập, sau đó thu thập, lọc và phân tích để định rõ những khái

Trang 10

niệm và quan điểm chính xác nhất, nhằm xây dựng nền tảng lý thuyếtcho bài nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu vàxây dựng các mô hình lý thuyết ban đầu.Bao gồm:

• Phương pháp phân tích – tổng hợp lý thuyết: từ các nguồn tài liệu,sách, báo có sẵn, sau đó đọc và tổng hợp để lọc, rút ra những nội dungcần thiết cho luận điểm của bài nghiên cứu

• Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên

lý thuyết và áp dụng mô hình để dự báo nhằm kiểm tra độ chính xác của

mô hình

1.4.2.Phương pháp nghiên cứu thực tiễn

Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phươngpháp nghiên cứu thực tiễn:

• Sử dụng phần mềm Orange - một công cụ khai phá dữ liệu phổ biếnhiện nay để phân tích, xử lý dữ liệu và làm rõ vấn đề nghiên cứu

• Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện

có sẵn và so sánh các kết quả rút ra được với nhau nhằm chọn lựa môhình phù hợp nhất giúp các nhà quản lý có quyết định chính xác hơn vàlàm việc hiệu quả hơn

CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 2.1 Mô tả dữ liệu

- Bộ dữ liệu được nhóm sử dụng cho nghiên cứu có tên là Churn-Prediction

Bank-Customer- Size: 10.000 rows, 12 columns

 11 features: 5 categorical, 6 numeric

 Target with 2 values

 No missing data

Trang 11

- Trong các cột dữ liệu, vì mục đích của bài nghiên cứu là nghiên cứu xemhành vi của khách hàng liệu có ý định tiếp tục gắn bó với các dịch vụ tàichính của ngân hàng hay không Ngoài ra, còn để nghiên cứu xem yếu tốnào là những yếu tố liên quan mật thiết đến việc tiếp tục hay rời bỏ củakhách hàng để ngân hàng có thể đưa ra các chính sách thích hợp Vì vậy,cột Churn là mục tiêu của bài nghiên cứu (target).

Country Quốc gia: Miêu tả quốc tịch của khách hàng Text

Gender Giới tính: Miêu tả giới tính của khách hàng Female/

Male

Tenure Thời hạn: Miêu tả thời gian khách hàng sử dụng

Trang 12

card thẻ ghi nợ hay không

Active

member

Thành viên tích cực: Miêu tả khách hàng cóphải sử dụng các dịch vụ của ngân hàngthường xuyên hay không

1 or 0

Estimated

salary

Mức lương ước tính: Miêu tả mức lương của chủ

sở hữu tài khoản ngân hàng

Number

Churn Rời bỏ: Miêu tả khách hàng liệu có tiếp tục sử

dụng dịch vụ hay rời bỏ không ?

1 or 0

2.2 Tiền xử lý dữ liệu

- Đầu tiên, ta tiến hành sử dụng bộ dữ liệu thô mà ta đang có với Churn

là biến phụ thuộc và ta bỏ qua biến CustomerID vì là thuộc tính địnhdanh, không ảnh hưởng đến việc phân tích, vì vậy loại bỏ đi thuộc tính

CustomerID sẽ làm đơn giản hoá dữ liệu và dễ xử lý hơn

Trang 13

Hình 1 Các biến, đối tượng khảo sát Hình 2 Số liệu sau khi tiền xử lý

Vì không có dữ liệu bị Missing nên không cần thực hiện bước tiền xử lý dữliệu bằng công cụ Impute

2.3.Bài toán 1: Bài toán phát hiện các điểm đặc thù và xây dựng dashboard.

Dashboard (Bảng điều khiển) là một loại giao diện đồ họa thường cungcấp cái nhìn tổng quan về các chỉ số hiệu suất chính (KPIs) liên quan đếnmột mục tiêu hoặc quy trình kinh doanh cụ thể Bằng cách cung cấp cáinhìn tổng quan này, chủ doanh nghiệp có thể tiết kiệm thời gian và cảithiện quyết định của mình bằng cách sử dụng các dashboard

Hình 3 Dashboard

Bước 1: Xác định mục tiêu và đối tượng

Trang 14

Mục tiêu của việc xây dựng Dashboard là để theo dõi, nghiên cứu, tính toán khả năng rời đi hay tiếp tục của những khách hàng tại một ngân hàng Để thực hiện quản lí và dự đoán khả năng đó cần có cái nhìn tổng quan cũng như chi tiết về các đối tượng cần nghiên cứu là các khách hàng với những đặc trưng đi kèm hành vi tương tự.

Bước 2: Chọn dữ liệu và nguồn dữ liệu

Việc theo dõi khả năng rời đi của khách hàng tại một ngân hàng cần quan tâm đến những yếu tố như quốc tịch, giới tính, số dư tài khoản, mứclương ước tính, thành viên hoạt động thường xuyên,…Dashboard được xây dựng dựa trên nguồn dữ liệu từ Bank Customer Churn Dataset

Bước 4: Xây dựng và tùy chỉnh

Tùy chỉnh giao diện gồm font chữ, màu sắc, các chú thích và tiêu đề phù hợp

Bước 5: Kiểm tra và cải thiện

Kiểm tra dữ liệu đã sử dụng để đảm bảo tính chính xác Đồng thời kiểm tra cách hiển thị trên các thiết bị khác nhau

Trang 15

Hình 4 Biểu đồ tỉ lệ số dư của khách hàng theo giới tính

Nhận xét: Qua khảo sát có thể thấy số dư trong tài khoản của khách

hàng nam lớn hơn số dư trong tài khoản của khách hàng nữ 77,417,864.9

(421,138,378.9 - 343,720,514.0)

Female 45%

Male 55%

Tỉ lệ số dư

Female 56%

Male 44%

Tỉ số rời đi

Trang 16

Hình 5 Biểu đồ tỉ lệ rời đi của khách hàng theo giới tính

rời đi

Tỉ lệ phần trăm

Nhận xét: Khách hàng nữ rời đi chiếm đa số trên tổng khách hàng chiếm

tỉ lệ 56% với 1139 trên tổng số 2037 khách hàng lựa chọn rời đi và 898khách hàng nam rời đi chiếm 44%

France Germany Spain France Germany Spain

0 50,000,000 100,000,000 150,000,000 200,000,000 250,000,000 300,000,000

Mức lương ước tính

Trang 17

Hình 6 Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc

794,216,813 7

1,000,902,39 8.8

Nhận xét: Khách hàng nữ rời đi nhiều hơn khách hàng nam và ngược lại

khách hàng nam lựa chọn tiếp tục nhiêu hơn khách hàng nữ ở cả 3 quốcgia Tổng số khách hàng lựa chọn tiếp tục cao gấp gần 4 lần khách hàng

lựa chọn rời đi.

Hình 7 Số thẻ tín dụng theo quốc gia

Trang 18

Female Male Tổng Cuối

dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha

France Germany Spain 0

500 1000 1500 2000 2500 3000 3500 4000

Credit Card

France Germany Spain 0

500 1,000 1,500 2,000 2,500 3,000

Thành viên hoạt động

Trang 19

Hình 8.Số thành viên hoạt động thường xuyên theo quốc gia

Nhận xét: Số lượng thành viên hoạt động thường xuyên nam cao hơn

hẳn số lượng khách hàng nữ hoạt động thường xuyên ở cả 3 nước Pháp,Đức và Tây Ban Nha Ngoài ra số lượng thành viên hoạt động thường

xuyên giảm dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha

Hình 9 Số thẻ ngân hàng mà khách hàng đang sử dụng

Femal e

Trang 20

Spain 1,713 2,100 3,813

7

15,302

Nhận xét: Số thẻ ngân hàng được sử dụng ở Pháp cao đột biến, chiếm

gần 50% tổng số lượng khảo sát, trong khi đó, số thẻ ngân hàng ở Đức vàTây Ban Nha gần như bằng nhau

Số dư theo quốc gia

Hình 10 Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc

gia

Nhận xét: Đa số khách hàng nam có số dư tài khoản cao hơn khách

hàng nữ, chỉ có cột đầu tiên của Pháp, 2 cột đầu và cuối của Đức cho sốliệu tài khoản khách hàng nữ có số dư cao hơn Nhóm khách hàng nữ cóthời gian sử dụng thẻ ngân hàng ít hơn 1 năm thường có số dư tài khoảncao hơn khách hàng nam có thời gian sử dụng thẻ ngân hàng tương tự.Bên cạnh đó khảo sát cho thấy số dư tài khoản của khách hàng Pháp vàĐức khá cân bằng nhưng cao hơn hẳn khách hàng Tây Ban Nha

Kết quả xây dựng dashboard cho thấy, tỉ lệ khách hàng nữ rời bỏ ngânhàng cao hơn khách hàng nam, mức độ hoạt động cũng như sử dụng cácdịch vụ của ngân hàng cao với nam giới, đồng thời mức lương ước tính

Trang 21

của những khách hàng lựa chọn tiếp tục cao hơn hẳn so với khách hànglựa chọn rời đi Khách hàng đến từ Pháp và Đức có thu nhập và số dưngân hàng cao Từ những nghiên cứu trên, ngân hàng có thể đưa ra cácchính sách cũng như chiến lược để thu hút các khách hàng nam tham gia

và giữ chân những khách hàng nữ Ngoài ra cần đẩy mạnh hoạt độngnghiêng về khách hàng có quốc tịch Pháp và Đức

2.4 Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng dịch vụ ngân hàng (Bài toán phân lớp)

Việc tạo niềm tin tưởng cho khách hàng là rất quan trọng của ngân hàng

Có thể khiến cho khách hàng mới lựa chọn tin vào ngân hàng hoặc nhữngkhách hàng thân thiết lựa chọn tiếp tục sử dụng dịch vụ ngân hàng làmột việc thường xuyên của ngân hàng Bài toán phân lớp giúp cho ngânhàng có thể dự đoán được số lượng khách hàng lựa chọn tiếp tục hoặc rời

bỏ sử dụng dịch vụ khách hàng Từ đó có thể đưa ra các chính sách phùhợp để có thể phục vụ khách hàng Và có thể tạo được niềm tin củakhách hàng, không làm khách hàng cảm thấy khó chịu

2.4.2.1 Phân lớp dữ liệu:

Phương pháp phân lớp: phân lớp dữ liệu được dùng để phân loại dữ liệuvào các lớp (các loại) hoặc nhãn đã được xác định trước đó Mô hình nàyđược xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó Quátrình gán nhãn cho một đối tượng dữ liệu chính là quá trình phân lớp.Mục tiêu của phân lớp dữ liệu là xác định mô hình hoặc quy tắc để tựđộng nhận dạng và phân lớp các dữ liệu mới mà không cần sự can thiệpcủa con người

2.4.2.2 Các bước thực hiện:

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Trang 22

 Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấnluyện”)

 Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:

Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)Bước 2.2: Phân lớp dữ liệu mới

2.4.2.3 Một số phương pháp phân lớp:

SVM nhận dữ liệu vào, xem chúng như những các vecto trong không gian

và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêuphẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

một lớp cụ thể, thường được sử dụng trong các bài toán nhị phân Ý nghĩchính của việc sử dụng logistic là sử dụng hàm sigmoid để ánh xạ giá trịđầu vào thành một xác suất rơi vào lớp positive hoặc negative Hàmlogistic có dạng S-shaped và giá trị nằm trong trong khoảng từ 0-1 Biếnđộc lập có thể là dữ liệu định tính hoặc dữ liệu số, tuy nhiên nếu có cácbiến dữ liệu liên tục, chúng thường được chuẩn hóa để đảm bảo cùngmột thang đo Phương pháp này có tính đơn giản, dễ hiểu, phân lớpnhanh, tuy nhiên dễ bị overfitting với dữ liệu số có chiều đặc trưng cao và

áp dụng với biến phụ thuộc là rời rạc

hoạt động của nơron trong hệ thần kinh Nó sử dụng các mô hình toánhọc để xử lý thông tin và hiểu thông tin mà nó nhận được Một mạng nơ-ron nhân tạo thông thường có từ hàng chục đến hàng triệu nơron nhântạo, được gọi là các đơn vị, được sắp xếp thành các lớp Lớp đầu vàonhận thông tin từ thế giới bên ngoài, sau đó dữ liệu đi qua một hoặcnhiều lớp ẩn, với nhiệm vụ biến đổi dữ liệu đầu vào thành dạng mà lớpđầu ra có thể sử dụng

Ngày đăng: 23/02/2024, 13:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w