ĐỒ ÁN NHÓM CUỐI HỌC PHẦN MÔN KHOA HỌC DỮ LIỆU Tên dự án: DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN HÀNG Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranh gay gắt. Các ngân hàng không ngừng tìm kiếm các giải pháp để thu hút và giữ chân khách hàng. Trong đó, việc dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ ngân hàng là một vấn đề quan trọng.
Trang 1- -TP HỒ CHÍ MINH Tháng 12, 2023
Trang 2MỤC LỤC
CHƯƠNG 1: TỔNG QUAN 1
1.1 Lý do chọn đề tài 1
1.2 Mục tiêu nghiên cứu 1
1.3 Đối tượng và phạm vi nghiên cứu của đề tài 2
1.4 Phương pháp nghiên cứu 2
1.4.1 Phương pháp nghiên cứu lý luận 2
1.4.2 Phương pháp nghiên cứu thực tiễn 3
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 3
2.1 Mô tả dữ liệu 3
2.1.1 Mô tả tổng quát bộ dữ liệu 3
2.1.2 Mô tả các thuộc tính 3
2.2 Tiền xử lý 5
2.3 Bài toán 1: Bài toán phát hiện các điểm đặc thù và xây dựng dashboard 6
2.3.1 Khái niệm dashboard 6
2.3.2 Quy trình xây dựng dashboard 6
2.3.3 Các biểu đồ cụ thể trong dashboard 6
2.3.4 Kết quả và đánh giá 13
2.4 Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng dịch vụ ngân hàng (Bài toán phân lớp) 13
2.4.1 Mô tả bài toán 13
2.4.2 Mô tả các phương pháp thực hiện bài toán 13
Trang 32.4.2.1 Phân lớp dữ liệu 13
2.4.2.2 Các bước thực hiện 14
2.4.2.3 Một số phương pháp phân lớp 14
2.4.3 Chạy mô hình và kết quả 15
2.4.4 Kết quả và nhận xét 17
2.4.5 Kết luận 20
2.5 Bài toán 3: Phân loại những nhóm khách hàng tiếp tục sử dụng hoặc chấm dứt, rời bỏ dịch vụ của ngân hàng (bài toán phân cụm) 20
2.5.1 Mô tả bài toán 20
2.5.2 Mô tả các phương pháp thực hiện bài toán 21
2.5.2.1 Phân cụm dữ liệu 21
2.5.2.2 Quy trình phân cụm dữ liệu 21
2.5.2.3 Thực hiện bài toán phân cụm dữ liệu 22
2.5.3 Xây dựng mô hình 24
2.5.4 Kết quả mô hình phân cụm 25
2.5.5 Đánh giá và kết quả sau khi phân cụm 26
2.5.6 Kết luận 30
CHƯƠNG 3: KẾT LUẬN 30
3.1.Kết luận của các bài toán 30
3.1.1 Bài toán 1 30
3.1.2 Bài toán 2 30
Trang 43.1.3 Bài toán 3
31
3.2.Hạn chế của bài nghiên cứu 31
3.3.Giải pháp 32
DANH MỤC HÌNH ẢNH Hình 1 Các biến, đối tượng khảo sát 5
Hình 2 Số liệu sau khi tiền xử lí 5
Hình 3 Dashboard 6
Hình 4 Biểu đồ tỉ lệ số dư của khách hàng theo giới tính 8
Hình 5 Biểu đồ tỉ lệ rời đi theo giới tính 8
Hình 6 Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc rời đi 9
Hình 7 Số thẻ tín dụng theo quốc gia 10
Hình 8 Số thành viên hoạt động thường xuyên theo quốc gia 11
Hình 9 Số thẻ ngân hàng mà khách hàng đang sử dụng 12
Hình 10 Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc gia 13
Hình 11 Tổng quan quy trình phân lớp dữ liệu 15
Hình 12 Màn hình dữ liệu huấn luyện 16
Hình 13 Màn hình dữ liệu dự báo 16
Hình 14 Kết quả đánh giá bài toán qua SVM 17
Hình 15 Kết quả đánh giá bài toán qua LR 17
Hình 16 Kết quả đánh giá bài toán theo Neural Network 18
Trang 5Hình18 Kết quả dự đoán của bài toán 20
Hình 19 Đánh giá kết quả dự báo 22
Hình 21 Nhập dữ liệu từ file 23
Hình 22 Mô hình xây dựng bài toán 3 24
Hình 23 Kết quả phương pháp K-Means 24
Hình 24 Kết quả Silhouette Plot 25
Hình 25 Dữ liệu trên DataTable với điểm Sihouette Plot cao nhất 26
Hình 26 Biểu đồ thống kê số lượng khách hàng mang quốc tịch Pháp, Đức, Tây Ban Nha 26
Hình 27 Biểu đồ thống kê số dư tài khoản của các khách hàng 27 Hình 28 Biểu đồ về mức độ thu nhập của các khách hàng 28
Hình 29 Biểu đồ so sánh 29
Trang 6NHÓM SINH VIÊN THỰC HIỆN ĐỒ ÁN
Nhóm 6
đóng góp
Nguyễn Đào Duyên
Trang 7MỨC ĐỘ LIÊN QUAN ĐẾN CHUYÊN NGÀNH
Trang 8CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Lý do chọn đề tài
Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranhgay gắt Các ngân hàng không ngừng tìm kiếm các giải pháp để thu hút
và giữ chân khách hàng Trong đó, việc dự đoán khả năng khách hàng rời
- Tốn chi phí để tiếp thị và thu hút khách hàng mới
- Giảm lòng tin của khách hàng hiện tại
Về mặt chiến lược, khách hàng rời bỏ là dấu hiệu cho thấy ngân hàngđang gặp vấn đề trong việc đáp ứng nhu cầu của khách hàng Nếukhông giải quyết được vấn đề này, ngân hàng sẽ khó có thể phát triểnbền vững
Về mặt xã hội, khách hàng rời bỏ có thể gây ra những tác động tiêucực đến nền kinh tế, chẳng hạn như:
- Giảm lượng tiền lưu thông trong nền kinh tế
- Tăng chi phí tài chính cho doanh nghiệp và cá nhân
Việc dự đoán khả năng khách hàng rời bỏ giúp ngân hàng có thể: Xácđịnh sớm những khách hàng có nguy cơ rời bỏ Thực hiện các biện phápcan thiệp kịp thời để ngăn chặn khách hàng rời bỏ Cải thiện chất lượngdịch vụ và sản phẩm để đáp ứng nhu cầu của khách hàng
Trang 9Với những lý do trên, đề tài " Dự đoán khả năng khách hàng rời bỏ
sử dụng dịch vụ ngân hàng" là một đề tài có tính thực tiễn và ứng
dụng cao
1.2 Mục tiêu nghiên cứu:
Bài nghiên cứu “ Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụngân hàng” chủ yếu tập trung những mục tiêu chính như sau:
Tiến hành nghiên cứu và phân tích các lý thuyết tổng quan về khaiphá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu
Thực hiện nghiên cứu về các phương pháp cụ thể, đặc biệt là phươngpháp phân lớp dữ liệu (phương pháp này cho phép dự báo, phân loại
và phân lớp các đối tượng) Nghiên cứu sẽ giới thiệu các phươngpháp phân lớp dữ liệu, và từ đó chọn ra phương pháp phù hợp và tối
ưu nhất để tiến hành dự báo dữ liệu
Triển khai mô hình thực nghiệm dựa trên thông tin khách hàng đểđưa ra dự đoán về mức độ khách hàng rời bỏ ngân hàng cũng nhưgiải pháp tốt nhất để cải thiện mức độ này
1.3 Đối tượng và phạm vi nghiên cứu của đề tài:
Đối tượng nghiên cứu gồm 10.000 khách hàng được khảo sát tại mộtngân hàng Bao gồm nhiều thuộc tính khác nhau như : số dư, thời gian sửdụng thẻ, khảo sát sử dụng thẻ ghi nợ, mức lương của chủ sở hữu,…
Dữ liệu được lấy tại một công ty được đăng tải trên trang web Kaggle :
dataset
https://www.kaggle.com/datasets/gauravtopre/bank-customer-churn-Công cụ sử dụng: Orange, Excel
1.4 Phương pháp nghiên cứu
Thực hiện nghiên cứu thông tin và dữ liệu từ các nguồn như sách, báo, tàiliệu học tập, sau đó thu thập, lọc và phân tích để định rõ những khái
Trang 10niệm và quan điểm chính xác nhất, nhằm xây dựng nền tảng lý thuyếtcho bài nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu vàxây dựng các mô hình lý thuyết ban đầu.Bao gồm:
• Phương pháp phân tích – tổng hợp lý thuyết: từ các nguồn tài liệu,sách, báo có sẵn, sau đó đọc và tổng hợp để lọc, rút ra những nội dungcần thiết cho luận điểm của bài nghiên cứu
• Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên
lý thuyết và áp dụng mô hình để dự báo nhằm kiểm tra độ chính xác của
mô hình
1.4.2.Phương pháp nghiên cứu thực tiễn
Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phươngpháp nghiên cứu thực tiễn:
• Sử dụng phần mềm Orange - một công cụ khai phá dữ liệu phổ biếnhiện nay để phân tích, xử lý dữ liệu và làm rõ vấn đề nghiên cứu
• Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện
có sẵn và so sánh các kết quả rút ra được với nhau nhằm chọn lựa môhình phù hợp nhất giúp các nhà quản lý có quyết định chính xác hơn vàlàm việc hiệu quả hơn
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 2.1 Mô tả dữ liệu
- Bộ dữ liệu được nhóm sử dụng cho nghiên cứu có tên là Churn-Prediction
Bank-Customer- Size: 10.000 rows, 12 columns
11 features: 5 categorical, 6 numeric
Target with 2 values
No missing data
Trang 11- Trong các cột dữ liệu, vì mục đích của bài nghiên cứu là nghiên cứu xemhành vi của khách hàng liệu có ý định tiếp tục gắn bó với các dịch vụ tàichính của ngân hàng hay không Ngoài ra, còn để nghiên cứu xem yếu tốnào là những yếu tố liên quan mật thiết đến việc tiếp tục hay rời bỏ củakhách hàng để ngân hàng có thể đưa ra các chính sách thích hợp Vì vậy,cột Churn là mục tiêu của bài nghiên cứu (target).
Country Quốc gia: Miêu tả quốc tịch của khách hàng Text
Gender Giới tính: Miêu tả giới tính của khách hàng Female/
Male
Tenure Thời hạn: Miêu tả thời gian khách hàng sử dụng
Trang 12card thẻ ghi nợ hay không
Active
member
Thành viên tích cực: Miêu tả khách hàng cóphải sử dụng các dịch vụ của ngân hàngthường xuyên hay không
1 or 0
Estimated
salary
Mức lương ước tính: Miêu tả mức lương của chủ
sở hữu tài khoản ngân hàng
Number
Churn Rời bỏ: Miêu tả khách hàng liệu có tiếp tục sử
dụng dịch vụ hay rời bỏ không ?
1 or 0
2.2 Tiền xử lý dữ liệu
- Đầu tiên, ta tiến hành sử dụng bộ dữ liệu thô mà ta đang có với Churn
là biến phụ thuộc và ta bỏ qua biến CustomerID vì là thuộc tính địnhdanh, không ảnh hưởng đến việc phân tích, vì vậy loại bỏ đi thuộc tính
CustomerID sẽ làm đơn giản hoá dữ liệu và dễ xử lý hơn
Trang 13Hình 1 Các biến, đối tượng khảo sát Hình 2 Số liệu sau khi tiền xử lý
Vì không có dữ liệu bị Missing nên không cần thực hiện bước tiền xử lý dữliệu bằng công cụ Impute
2.3.Bài toán 1: Bài toán phát hiện các điểm đặc thù và xây dựng dashboard.
Dashboard (Bảng điều khiển) là một loại giao diện đồ họa thường cungcấp cái nhìn tổng quan về các chỉ số hiệu suất chính (KPIs) liên quan đếnmột mục tiêu hoặc quy trình kinh doanh cụ thể Bằng cách cung cấp cáinhìn tổng quan này, chủ doanh nghiệp có thể tiết kiệm thời gian và cảithiện quyết định của mình bằng cách sử dụng các dashboard
Hình 3 Dashboard
Bước 1: Xác định mục tiêu và đối tượng
Trang 14Mục tiêu của việc xây dựng Dashboard là để theo dõi, nghiên cứu, tính toán khả năng rời đi hay tiếp tục của những khách hàng tại một ngân hàng Để thực hiện quản lí và dự đoán khả năng đó cần có cái nhìn tổng quan cũng như chi tiết về các đối tượng cần nghiên cứu là các khách hàng với những đặc trưng đi kèm hành vi tương tự.
Bước 2: Chọn dữ liệu và nguồn dữ liệu
Việc theo dõi khả năng rời đi của khách hàng tại một ngân hàng cần quan tâm đến những yếu tố như quốc tịch, giới tính, số dư tài khoản, mứclương ước tính, thành viên hoạt động thường xuyên,…Dashboard được xây dựng dựa trên nguồn dữ liệu từ Bank Customer Churn Dataset
Bước 4: Xây dựng và tùy chỉnh
Tùy chỉnh giao diện gồm font chữ, màu sắc, các chú thích và tiêu đề phù hợp
Bước 5: Kiểm tra và cải thiện
Kiểm tra dữ liệu đã sử dụng để đảm bảo tính chính xác Đồng thời kiểm tra cách hiển thị trên các thiết bị khác nhau
Trang 15Hình 4 Biểu đồ tỉ lệ số dư của khách hàng theo giới tính
Nhận xét: Qua khảo sát có thể thấy số dư trong tài khoản của khách
hàng nam lớn hơn số dư trong tài khoản của khách hàng nữ 77,417,864.9
(421,138,378.9 - 343,720,514.0)
Female 45%
Male 55%
Tỉ lệ số dư
Female 56%
Male 44%
Tỉ số rời đi
Trang 16Hình 5 Biểu đồ tỉ lệ rời đi của khách hàng theo giới tính
rời đi
Tỉ lệ phần trăm
Nhận xét: Khách hàng nữ rời đi chiếm đa số trên tổng khách hàng chiếm
tỉ lệ 56% với 1139 trên tổng số 2037 khách hàng lựa chọn rời đi và 898khách hàng nam rời đi chiếm 44%
France Germany Spain France Germany Spain
0 50,000,000 100,000,000 150,000,000 200,000,000 250,000,000 300,000,000
Mức lương ước tính
Trang 17Hình 6 Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc
794,216,813 7
1,000,902,39 8.8
Nhận xét: Khách hàng nữ rời đi nhiều hơn khách hàng nam và ngược lại
khách hàng nam lựa chọn tiếp tục nhiêu hơn khách hàng nữ ở cả 3 quốcgia Tổng số khách hàng lựa chọn tiếp tục cao gấp gần 4 lần khách hàng
lựa chọn rời đi.
Hình 7 Số thẻ tín dụng theo quốc gia
Trang 18Female Male Tổng Cuối
dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha
France Germany Spain 0
500 1000 1500 2000 2500 3000 3500 4000
Credit Card
France Germany Spain 0
500 1,000 1,500 2,000 2,500 3,000
Thành viên hoạt động
Trang 19Hình 8.Số thành viên hoạt động thường xuyên theo quốc gia
Nhận xét: Số lượng thành viên hoạt động thường xuyên nam cao hơn
hẳn số lượng khách hàng nữ hoạt động thường xuyên ở cả 3 nước Pháp,Đức và Tây Ban Nha Ngoài ra số lượng thành viên hoạt động thường
xuyên giảm dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha
Hình 9 Số thẻ ngân hàng mà khách hàng đang sử dụng
Femal e
Trang 20Spain 1,713 2,100 3,813
7
15,302
Nhận xét: Số thẻ ngân hàng được sử dụng ở Pháp cao đột biến, chiếm
gần 50% tổng số lượng khảo sát, trong khi đó, số thẻ ngân hàng ở Đức vàTây Ban Nha gần như bằng nhau
Số dư theo quốc gia
Hình 10 Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc
gia
Nhận xét: Đa số khách hàng nam có số dư tài khoản cao hơn khách
hàng nữ, chỉ có cột đầu tiên của Pháp, 2 cột đầu và cuối của Đức cho sốliệu tài khoản khách hàng nữ có số dư cao hơn Nhóm khách hàng nữ cóthời gian sử dụng thẻ ngân hàng ít hơn 1 năm thường có số dư tài khoảncao hơn khách hàng nam có thời gian sử dụng thẻ ngân hàng tương tự.Bên cạnh đó khảo sát cho thấy số dư tài khoản của khách hàng Pháp vàĐức khá cân bằng nhưng cao hơn hẳn khách hàng Tây Ban Nha
Kết quả xây dựng dashboard cho thấy, tỉ lệ khách hàng nữ rời bỏ ngânhàng cao hơn khách hàng nam, mức độ hoạt động cũng như sử dụng cácdịch vụ của ngân hàng cao với nam giới, đồng thời mức lương ước tính
Trang 21của những khách hàng lựa chọn tiếp tục cao hơn hẳn so với khách hànglựa chọn rời đi Khách hàng đến từ Pháp và Đức có thu nhập và số dưngân hàng cao Từ những nghiên cứu trên, ngân hàng có thể đưa ra cácchính sách cũng như chiến lược để thu hút các khách hàng nam tham gia
và giữ chân những khách hàng nữ Ngoài ra cần đẩy mạnh hoạt độngnghiêng về khách hàng có quốc tịch Pháp và Đức
2.4 Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng dịch vụ ngân hàng (Bài toán phân lớp)
Việc tạo niềm tin tưởng cho khách hàng là rất quan trọng của ngân hàng
Có thể khiến cho khách hàng mới lựa chọn tin vào ngân hàng hoặc nhữngkhách hàng thân thiết lựa chọn tiếp tục sử dụng dịch vụ ngân hàng làmột việc thường xuyên của ngân hàng Bài toán phân lớp giúp cho ngânhàng có thể dự đoán được số lượng khách hàng lựa chọn tiếp tục hoặc rời
bỏ sử dụng dịch vụ khách hàng Từ đó có thể đưa ra các chính sách phùhợp để có thể phục vụ khách hàng Và có thể tạo được niềm tin củakhách hàng, không làm khách hàng cảm thấy khó chịu
2.4.2.1 Phân lớp dữ liệu:
Phương pháp phân lớp: phân lớp dữ liệu được dùng để phân loại dữ liệuvào các lớp (các loại) hoặc nhãn đã được xác định trước đó Mô hình nàyđược xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó Quátrình gán nhãn cho một đối tượng dữ liệu chính là quá trình phân lớp.Mục tiêu của phân lớp dữ liệu là xác định mô hình hoặc quy tắc để tựđộng nhận dạng và phân lớp các dữ liệu mới mà không cần sự can thiệpcủa con người
2.4.2.2 Các bước thực hiện:
Quá trình phân lớp dữ liệu gồm 2 bước chính:
Trang 22 Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấnluyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)Bước 2.2: Phân lớp dữ liệu mới
2.4.2.3 Một số phương pháp phân lớp:
SVM nhận dữ liệu vào, xem chúng như những các vecto trong không gian
và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêuphẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
một lớp cụ thể, thường được sử dụng trong các bài toán nhị phân Ý nghĩchính của việc sử dụng logistic là sử dụng hàm sigmoid để ánh xạ giá trịđầu vào thành một xác suất rơi vào lớp positive hoặc negative Hàmlogistic có dạng S-shaped và giá trị nằm trong trong khoảng từ 0-1 Biếnđộc lập có thể là dữ liệu định tính hoặc dữ liệu số, tuy nhiên nếu có cácbiến dữ liệu liên tục, chúng thường được chuẩn hóa để đảm bảo cùngmột thang đo Phương pháp này có tính đơn giản, dễ hiểu, phân lớpnhanh, tuy nhiên dễ bị overfitting với dữ liệu số có chiều đặc trưng cao và
áp dụng với biến phụ thuộc là rời rạc
hoạt động của nơron trong hệ thần kinh Nó sử dụng các mô hình toánhọc để xử lý thông tin và hiểu thông tin mà nó nhận được Một mạng nơ-ron nhân tạo thông thường có từ hàng chục đến hàng triệu nơron nhântạo, được gọi là các đơn vị, được sắp xếp thành các lớp Lớp đầu vàonhận thông tin từ thế giới bên ngoài, sau đó dữ liệu đi qua một hoặcnhiều lớp ẩn, với nhiệm vụ biến đổi dữ liệu đầu vào thành dạng mà lớpđầu ra có thể sử dụng