TÓM TẮT NGHIÊN CỨU Nghiên cứu này tập trung vào việc dự đoán khả năng khách hàng mở tài khoản tiền gửi có kỳ hạn tại một ngân hàng bằng cách sử dụng dữ liệu khách hàng và các mô hình trí
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG
TIỂU LUẬN CUỐI KỲ
MÔN HỌC: TRÍ TUỆ NHÂN TẠO TRONG KỶ NGUYÊN CHUYỂN ĐỔI SỐ
Ngày: 26/06/2024 – Mã lớp: ML132 – Mã học phần: AIDE300
ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ PHÂN LOẠI KHÁCH HÀNG
CÓ KHẢ NĂNG MỞ TÀI KHOẢN TIỀN GỬI KỲ HẠN Ở CÁC NGÂN HÀNG
BẰNG PHƯƠNG PHÁP PHÂN LOẠI NHÓM 20 – DANH SÁCH THÀNH VIÊN
(0%-100%)
Trang 2MỤC LỤC
TÓM TẮT NGHIÊN CỨU 1
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 2
CHƯƠNG 2: XỬ LÝ DỮ LIỆU 3
2.1 Giới thiệu về bộ dữ liệu 3
2.2 Làm sạch dữ liệu 3
2.2.1 Nạp dữ liệu và kiểm tra sự thiếu dữ liệu 3
2.2.2 Chuyển đổi dữ liệu sang format phù hợp 4
2.2.3 Đưa dữ liệu vào việc huấn luyện 5
CHƯƠNG 3: MÔ TẢ VÀ KHÁM PHÁ DỮ LIỆU 6
3.1 Tổng quan 6
3.2 Phân tích về sự tương quan giữa các chỉ số 8
CHƯƠNG 4: SỬ DỤNG MÔ HÌNH DEEP LEARNING ĐỂ DỰ BÁO TIỀN GỬI 10
4.1 Ứng dụng mô hình kinh tế lượng truyền thống Logistics Regression 10
4.1.1 Lý thuyết lựa chọn mô hình 10
4.1.2 Vấn đề phân loại nhị phân 10
4.1.3 Ưu điểm của mô hình Logistics Regression 10
4.1.4 Nhược điểm của mô hình Logistics Regression 10
4.1.5 Dự đoán và đánh giá mô hình Logistics Regression 10
4.2 Ứng dụng mô hình Feedforward Neural Network 11
4.2.1 Lý thuyết lựa chọn mô hình 11
4.2.2 Ưu điểm của mô hình Feedforward Neural Network 11
4.2.3 Nhược điểm của mô hình Feedforward Neural Network 12
CHƯƠNG 5: ĐÁNH GIÁ MÔ HÌNH LSTM SO SÁNH VỚI MÔ HÌNH KINH TẾ LƯỢNG TRUYỀN THỐNG LINEAR REGRESSION 15
5.1 So sánh kết quả dự đoán của hai mô hình thông qua phương pháp Confusion Matrix 15
5.2 Kết quả và Kết luận: 16
CHƯƠNG 6: KẾT LUẬN 17
6.1 Kết luận tổng quan 17
6.2 Ứng dụng trong kinh doanh 17
6.3 Kết luận và các điểm còn hạn chế của nghiên cứu 17
Phụ lục 18
Tài liệu tham khảo 19
Trang 3TÓM TẮT NGHIÊN CỨU
Nghiên cứu này tập trung vào việc dự đoán khả năng khách hàng mở tài khoản tiền gửi có kỳ hạn tại một ngân hàng bằng cách sử dụng dữ liệu khách hàng và các mô hình trí tuệ nhân tạo (AI) Chúng em áp dụng hai mô hình AI là logistic regression và mạng neural (Feedforward Neural Network) để so sánh và lựa chọn mô hình phù hợp nhất Mục tiêu là xác định mô hình nào có hiệu quả tốt nhất trong việc dự đoán hành vi khách hàng, từ đó hỗ trợ ngân hàng trong việc tối ưu hóa chiến lược tiếp thị và quản lý nguồn lực
Dữ liệu sử dụng trong nghiên cứu bao gồm thông tin cá nhân và giao dịch của khách hàng như tuổi, nghề nghiệp, tình trạng hôn nhân, trình độ học vấn, số dư tài khoản
và các biến khác Biến mục tiêu là "deposit", cho biết liệu khách hàng có mở tài khoản tiền gửi có kỳ hạn hay không
Kết quả cho thấy mô hình Feedforward Neural Network có độ chính xác cao hơn
so với logistic regression, với độ chính xác tổng thể đạt 80% Tuy nhiên, logistic regression cũng thể hiện khả năng dự đoán khá tốt với độ chính xác 77%, và có hiệu suất tốt hơn trong một số chỉ số đánh giá khác
Trang 4CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU
Trong ngành ngân hàng hiện đại, việc hiểu và dự đoán hành vi của khách hàng
là một yếu tố then chốt để duy trì và phát triển mối quan hệ khách hàng bền vững Một trong những thách thức lớn nhất mà các ngân hàng phải đối mặt là dự đoán khả năng khách hàng sẽ mở tài khoản tiền gửi có kỳ hạn Điều này không chỉ giúp ngân hàng tăng cường các chiến lược tiếp thị mà còn tối ưu hóa quản lý nguồn lực và nâng cao hiệu quả kinh doanh
Trang 5CHƯƠNG 2: XỬ LÝ DỮ LIỆU
2.1 Giới thiệu về bộ dữ liệu
Dữ liệu được sử dụng trong báo cáo này bao gồm thông tin về tuổi, nghề nghiệp, tình trạng hôn nhân, trình độ học vấn, số dư tài khoản, và các thông tin liên quan khác của khách hàng ngân hàng Biến mục tiêu là deposit, cho biết liệu khách hàng có gửi tiền vào tài khoản có kỳ hạn hay không (yes hoặc no)
2.2 Làm sạch dữ liệu
2.2.1 Nạp dữ liệu và kiểm tra sự thiếu dữ liệu
Nạp dữ liệu từ tệp CSV và kiểm tra sự thiếu dữ liệu
Các cột dữ liệu:
- Age: Tuổi của khách hàng
- Job: Công việc của khách hàng
- Marital: Tình trạng hôn nhân của khách hàng
- Education: Trình độ học vấn của khách hàng
- Default: Khách hàng có nợ xấu hay không (binary)
- Balance: Số dư tài khoản của khách hàng
- Housing: Khách hàng có vay mua nhà hay không (binary)
- Loan: Khách hàng có vay tiêu dùng hay không (binary)
- Contact: Phương thức liên lạc với khách hàng
Trang 62.2.2 Chuyển đổi dữ liệu sang format phù hợp
Hình 2.1 thao tác lọc sạch dữ liệu
Trang 72.2.2.1 Chuyển đổi các biến nhị phân sang dạng số (0 và 1)
Các cột default, housing, loan, và deposit chứa các giá trị yes hoặc no Trong máy học, các mô hình thường hoạt động tốt hơn với dữ liệu số thay vì dữ liệu dạng chuỗi Do đó, chúng ta chuyển đổi yes thành 1 và no thành 0
2.2.2.2 Xác định và loại bỏ các cột kiểu chuỗi
Các cột chứa dữ liệu dạng chuỗi (text) không thể sử dụng trực tiếp trong các mô hình máy học mà không có sự chuyển đổi thích hợp Nên cần xác định tất cả các cột có kiểu dữ liệu là object và loại bỏ chúng Việc chuyển đổi và loại bỏ các cột không cần thiết giúp mô hình hoạt động hiệu quả hơn Đồng thời giảm bớt các biến không cần thiết
và chuyển đổi dữ liệu giúp đơn giản hóa quá trình huấn luyện mô hình
2.2.3 Đưa dữ liệu vào việc huấn luyện
Trong quá trình phát triển mô hình học máy, việc chuẩn bị dữ liệu là bước quan trọng để mô hình hoạt động hiệu quả và đưa ra dự đoán chính xác
Hình 2.2 Thể hiện thao tác thể hiện dữ liệu cho training
2.2.3.1 Lý do cần chuẩn bị dữ liệu
Chuẩn hóa dữ liệu giúp mô hình học máy tốt hơn và nhanh hơn do các biến đặc trưng nằm trong cùng một phạm vi giá trị Việc chia dữ liệu thành tập huấn luyện và tập kiểm tra giúp đánh giá chính xác hiệu suất của mô hình trên dữ liệu chưa từng thấy
trước đó Đồng thời việc sử dụng random_state đảm bảo rằng quá trình chia dữ liệu có
thể tái tạo, giúp kiểm tra và so sánh kết quả giữa các lần chạy khác nhau dễ dàng hơn
Trang 8CHƯƠNG 3: MÔ TẢ VÀ KHÁM PHÁ DỮ LIỆU
3.1 Tổng quan
Hình 3.1 Thông tin trong dataset khi được mình họa bằng biểu đồ
Trang 9Hình 3.2 Biểu đồ hộp thể hiện sự phân bổ của nhóm khách hàng có tiền gửi và
không có tiền gửi và số dư tài khoản của họ
Biểu đồ hộp này cho thấy sự phân bố của số dư tài khoản giữa hai nhóm khách hàng (có mở tài khoản tiền gửi và không mở tài khoản tiền gửi) Cả hai nhóm đều có số
dư tài khoản tập trung ở mức thấp, nhưng nhóm có mở tài khoản tiền gửi có xu hướng
có số dư cao hơn Số dư tài khoản cao có thể là một yếu tố quan trọng trong việc dự đoán khả năng mở tài khoản tiền gửi của khách hàng
Trang 103.2 Phân tích về sự tương quan giữa các chỉ số
Hình 3.3 Ma trận tương quan giữa các chỉ số
Ma trận covariance này cho thấy mối tương quan - covariance giữa các biến số trong dữ liệu Các giá trị cao như giữa Balance (Số dư tài khoản) và Duration (Thời lượng liên lạc) cho thấy mối tương quan dương mạnh, nghĩa là số dư tài khoản và thời lượng liên lạc có ảnh hưởng đáng kể đến khả năng khách hàng mở tài khoản tiền gửi Điều này giúp ngân hàng tập trung vào các yếu tố quan trọng để cải thiện chiến lược tiếp thị và quản lý khách hàng
Trang 11Hình 3.4 Ma trận quan hệ giữa các chỉ số
Ma trận tương quan này cho thấy mức độ tương quan hệ - correlation các biến
số trong dữ liệu Đáng chú ý là Duration (Thời lượng liên lạc) có tương quan dương mạnh nhất với Deposit (Tiền gửi) (hệ số tương quan 0.45), cho thấy thời lượng liên lạc dài hơn có thể tăng khả năng khách hàng mở tài khoản tiền gửi Ngược lại, Housing (Vay mua nhà) có tương quan âm (-0.20) với Deposit, nghĩa là khách hàng có vay mua nhà ít có khả năng mở tài khoản tiền gửi hơn
Trang 12CHƯƠNG 4: SỬ DỤNG MÔ HÌNH DEEP LEARNING ĐỂ DỰ BÁO TIỀN GỬI
4.1 Ứng dụng mô hình kinh tế lượng truyền thống Logistics Regression
4.1.1 Lý thuyết lựa chọn mô hình
Hồi quy logistic là một mô hình thống kê dùng để dự đoán xác suất xảy ra của một sự kiện nhị phân (có hoặc không) dựa trên các biến độc lập Đây là một biến thể của Linear Regression thông thường được ứng dụng trong kinh tế lượng
4.1.2 Vấn đề phân loại nhị phân
Bài toán dự đoán khả năng khách hàng mở tài khoản tiền gửi là một bài toán phân loại nhị phân (có hoặc không) Hồi quy logistic là mô hình phù hợp nhất cho các bài toán như vậy, vì nó trực tiếp dự đoán xác suất của một sự kiện nhị phân
4.1.3 Ưu điểm của mô hình Logistics Regression
Hồi quy logistic hiệu quả cho phân loại nhị phân, dễ dàng giải thích và hiệu quả
về mặt tính toán Mô hình này không yêu cầu giả định về phân phối chuẩn của các biến độc lập, giúp linh hoạt trong nhiều tình huống
4.1.4 Nhược điểm của mô hình Logistics Regression
Hồi quy logistic không thể xử lý mối quan hệ phi tuyến, nhạy cảm với đa cộng tuyến và yêu cầu dữ liệu được cân bằng Mô hình này cũng có thể gặp khó khăn với dữ liệu rất lớn hoặc phức tạp
4.1.5 Dự đoán và đánh giá mô hình Logistics Regression
Mô hình được đánh giá dựa trên độ chính xác (accuracy) và các chỉ số khác như precision, recall, và f1-score
Trang 13Hình 4.1 Code khởi chạy Linear Regression
Kết quả:
- Độ chính xác: 0.77 (77%)
- Precision, Recall, F1-score: Các chỉ số này cho thấy mô hình hoạt động tốt
với cả hai lớp (có và không gửi tiền), với các giá trị đều xấp xỉ 0.77
Kết luận: Mô hình hồi quy logistic cho kết quả khá tốt với độ chính xác 77%
trong việc dự đoán liệu khách hàng có gửi tiền hay không Cho thấy mô hình có khả năng phân loại khá chính xác, doanh nghiệp có thể dự đoán hành vi của khách hàng một cách hiệu quả
4.2 Ứng dụng mô hình Feedforward Neural Network
4.2.1 Lý thuyết lựa chọn mô hình
Feedforward Neural Network (FNN) là một dạng mạng nơ-ron nhân tạo đơn giản, trong đó thông tin chảy theo một chiều từ đầu vào đến đầu ra mà không có vòng lặp FNN bao gồm nhiều lớp nơ-ron (input layer, hidden layers, output layer) và sử dụng các hàm kích hoạt phi tuyến để học các mẫu phức tạp trong dữ liệu
Trang 144.2.3 Nhược điểm của mô hình Feedforward Neural Network
Huấn luyện mô hình FNN đòi hỏi nhiều tài nguyên tính toán và thời gian FNN
dễ bị overfitting nếu không có biện pháp phòng ngừa như regularization hoặc dropout Kết quả của FNN thường khó giải thích hơn so với các mô hình thống kê truyền thống như hồi quy logistic
4.3 Chuẩn hóa dữ liệu
Đây là bước quan trọng để đảm bảo rằng các đặc trưng của dữ liệu đều nằm trong một khoảng giá trị nhất định, giúp mô hình mạng nơ-ron nhân tạo (ANN) hiệu quả hơn Việc chuẩn hóa này giúp tăng tốc độ huấn luyện và cải thiện hiệu suất của mô hình Giúp chúng em đảm bảo rằng tất cả các đặc trưng của khách hàng đều được đánh giá trên cùng một tiêu chuẩn, giúp dự đoán chính xác hơn về khả năng gửi tiền của khách hàng
Hình 4.2 code khởi chạy tính năng thêm lớp (layers) cho mô hình
Sau khi chạy dòng các dòng lệnh trên ta được các kết quả sau:
Trang 15Hình 4.3 Kết quả khởi chạy mô hình neural network
Dựa trên các kết quả được trình bài ở cuối bảng ta có các kết quả sau:
Accuracy (Độ chính xác): Độ chính xác tổng thể của mô hình đạt 0.80, nghĩa
là mô hình dự đoán chính xác 80% các trường hợp
Precision (Độ chính xác khi dự đoán là Positive):
- Đối với lớp 0 (Không gửi tiền): 0.83
- Đối với lớp 1 (Có gửi tiền): 0.76
- Giá trị macro trung bình là 0.80
Trang 16- Mô hình mạng neural đạt độ chính xác tổng thể là 0.80, cho thấy mô hình có khả năng dự đoán tốt với độ chính xác cao
- Độ chính xác (precision) và độ nhạy (recall) đều tốt cho cả hai lớp, tuy nhiên, lớp 1 có độ chính xác thấp hơn một chút so với lớp 0, điều này có thể do sự mất cân bằng trong dữ liệu hoặc các đặc trưng của lớp 1 khó dự đoán hơn
- Các chỉ số F1-score cho thấy mô hình đạt được sự cân bằng giữa precision và recall
Kết quả này cho thấy mô hình mạng neural có hiệu quả tốt trong việc phân loại
dữ liệu khách hàng có gửi tiền hay không gửi tiền, và có thể được sử dụng để dự đoán trong các chiến dịch marketing hoặc phân tích dữ liệu khách hàng
Trang 17CHƯƠNG 5: ĐÁNH GIÁ MÔ HÌNH LSTM SO SÁNH VỚI MÔ HÌNH KINH TẾ LƯỢNG TRUYỀN THỐNG LINEAR REGRESSION
5.1 So sánh kết quả dự đoán của hai mô hình thông qua phương pháp Confusion
Matrix
Confusion matrix là một công cụ hữu ích để đánh giá hiệu suất của một mô hình phân loại Nó hiển thị số lượng dự đoán chính xác và sai cho từng lớp trong dữ liệu kiểm tra
Confusion matrix gồm có 4 giá trị:
- True Positive (TP): Số lần mô hình dự đoán đúng một trường hợp là Positive
(Có gửi tiền)
- True Negative (TN): Số lần mô hình dự đoán đúng một trường hợp là Negative
(Không gửi tiền)
- False Positive (FP): Số lần mô hình dự đoán sai một trường hợp là Positive
trong khi thực tế là Negative (Không gửi tiền nhưng dự đoán là Có gửi tiền)
- False Negative (FN): Số lần mô hình dự đoán sai một trường hợp là Negative
trong khi thực tế là Positive (Có gửi tiền nhưng dự đoán là Không gửi tiền)
Hình 5.1 Kết quả Confusion matrix của mô hình FNN
Trang 18- Sai dương tính (FP): 282
- Sai âm tính (FN): 167
Hình 5.2 Kết quả Confusion matrix của mô hình Logistics Regression
Confusion Matrix của mô hình Logistic Regression:
FNN: Hiệu quả hơn trong việc xác định khách hàng sẽ mở tài khoản tiền gửi có
kỳ hạn (TP cao hơn và FN thấp hơn) Điều này có thể giúp ngân hàng tối ưu hóa chiến lược tiếp thị, tập trung vào những khách hàng tiềm năng cao
Logistic Regression: Hiệu quả hơn trong việc xác định khách hàng sẽ không mở
tài khoản tiền gửi có kỳ hạn (TN cao hơn và FP thấp hơn) Điều này giúp giảm thiểu
Trang 19CHƯƠNG 6: KẾT LUẬN
6.1 Kết luận tổng quan
Trong nghiên cứu này, nhóm đã sử dụng hai mô hình học máy - Logistic Regression và Feedforward Neural Network (FNN) - để dự đoán khả năng khách hàng
sẽ mở tài khoản tiền gửi có kỳ hạn Qua phân tích kết quả có thể nhận thấy mỗi mô hình
có những ưu điểm và hạn chế riêng Mô hình FNN cho thấy khả năng dự đoán tốt hơn trong việc xác định khách hàng tiềm năng mở tài khoản, trong khi Logistic Regression hiệu quả hơn trong việc xác định khách hàng không mở tài khoản
6.2 Ứng dụng trong kinh doanh
- Tối ưu hóa chiến lược tiếp thị;
- Quản lý nguồn lực hiệu quả;
- Nâng cao trải nghiệm khách hàng
6.3 Kết luận và các điểm còn hạn chế của nghiên cứu
- Dữ liệu không đồng nhất: Có thể không áp dụng được cho các ngân hàng khác có điều kiện và khách hàng khác nhau
- Thiếu các biến số ngoại sinh: Nghiên cứu này không xem xét các yếu tố ngoại sinh
có thể ảnh hưởng đến quyết định mở tài khoản của khách hàng, như tình hình kinh tế, chính sách lãi suất, và cạnh tranh từ các ngân hàng khác
Nghiên cứu nhận ra rằng việc áp dụng các mô hình AI giúp tăng độ chính xác trong
dự đoán và cung cấp những gợi ý quan trọng để cải thiện các chiến lược tiếp thị và dịch
vụ khách hàng của ngân hàng Hạn chế của nghiên cứu là dữ liệu chỉ thu thập từ một ngân hàng cụ thể và khó khăn trong việc xử lý các biến động ngắn hạn Tương lai nên xem xét việc áp dụng các kỹ thuật tăng cường dữ liệu và thử nghiệm với nhiều mô hình khác nhau, tích hợp thêm các biến số ngoại sinh để nâng cao độ chính xác và hiệu quả
dự đoán
Trang 20Phụ lục
A Các Thuật Ngữ Chuyên Ngành
1 Logistic Regression: Một phương pháp thống kê để dự đoán xác suất của một biến nhị phân dựa trên các biến độc lập
2 Feedforward Neural Network (FNN): Một loại mạng nơ-ron nhân tạo nơi
thông tin di chuyển theo một hướng duy nhất từ đầu vào đến đầu ra
3 Accuracy (Độ chính xác): Tỷ lệ dự đoán đúng trên tổng số dự đoán
4 Precision (Độ chính xác khi dự đoán là Positive): Tỷ lệ dự đoán đúng là
Positive trên tổng số dự đoán là Positive
5 Recall (Độ nhạy): Tỷ lệ dự đoán đúng là Positive trên tổng số trường hợp thực
tế là Positive
6 F1-score: Trung bình điều hòa của Precision và Recall, dùng để đánh giá độ cân
bằng của mô hình
7 Confusion Matrix (Ma trận nhầm lẫn): Một công cụ để đánh giá hiệu suất của
mô hình phân loại, hiển thị số lượng dự đoán đúng và sai cho từng lớp
8 LSTM (Long Short-Term Memory): Một loại mạng nơ-ron hồi quy có khả
năng ghi nhớ thông tin dài hạn, thường được sử dụng trong các bài toán chuỗi thời gian
9 MinMaxScaler: Một kỹ thuật chuẩn hóa dữ liệu bằng cách chia các giá trị theo
3 Ma trận hiệp phương sai (Covariance Matrix): Minh họa mối quan hệ hiệp
phương sai giữa các biến số