1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng trí tuệ nhân tạo Để phân loại khách hàng có khả năng mở tài khoản tiền gửi kỳ hạn Ở các ngân hàng bằng phương pháp phân loại

21 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Trí Tuệ Nhân Tạo Để Phân Loại Khách Hàng Có Khả Năng Mở Tài Khoản Tiền Gửi Kỳ Hạn Ở Các Ngân Hàng Bằng Phương Pháp Phân Loại
Tác giả Lê Trần Hoàng Oanh, Lý Như Quỳnh, Huỳnh Bảo Phương Thy, Huỳnh Dương Quốc Thắng
Người hướng dẫn TS. Nguyễn Thị Hoàng Anh, TS. Lê Trung Thành
Trường học Trường Đại Học Ngoại Thương
Chuyên ngành Trí Tuệ Nhân Tạo
Thể loại Tiểu Luận Cuối Kỳ
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 21
Dung lượng 776,47 KB

Nội dung

TÓM TẮT NGHIÊN CỨU Nghiên cứu này tập trung vào việc dự đoán khả năng khách hàng mở tài khoản tiền gửi có kỳ hạn tại một ngân hàng bằng cách sử dụng dữ liệu khách hàng và các mô hình trí

Trang 1

TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG

TIỂU LUẬN CUỐI KỲ

MÔN HỌC: TRÍ TUỆ NHÂN TẠO TRONG KỶ NGUYÊN CHUYỂN ĐỔI SỐ

Ngày: 26/06/2024 – Mã lớp: ML132 – Mã học phần: AIDE300

ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ PHÂN LOẠI KHÁCH HÀNG

CÓ KHẢ NĂNG MỞ TÀI KHOẢN TIỀN GỬI KỲ HẠN Ở CÁC NGÂN HÀNG

BẰNG PHƯƠNG PHÁP PHÂN LOẠI NHÓM 20 – DANH SÁCH THÀNH VIÊN

(0%-100%)

Trang 2

MỤC LỤC

TÓM TẮT NGHIÊN CỨU 1

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 2

CHƯƠNG 2: XỬ LÝ DỮ LIỆU 3

2.1 Giới thiệu về bộ dữ liệu 3

2.2 Làm sạch dữ liệu 3

2.2.1 Nạp dữ liệu và kiểm tra sự thiếu dữ liệu 3

2.2.2 Chuyển đổi dữ liệu sang format phù hợp 4

2.2.3 Đưa dữ liệu vào việc huấn luyện 5

CHƯƠNG 3: MÔ TẢ VÀ KHÁM PHÁ DỮ LIỆU 6

3.1 Tổng quan 6

3.2 Phân tích về sự tương quan giữa các chỉ số 8

CHƯƠNG 4: SỬ DỤNG MÔ HÌNH DEEP LEARNING ĐỂ DỰ BÁO TIỀN GỬI 10

4.1 Ứng dụng mô hình kinh tế lượng truyền thống Logistics Regression 10

4.1.1 Lý thuyết lựa chọn mô hình 10

4.1.2 Vấn đề phân loại nhị phân 10

4.1.3 Ưu điểm của mô hình Logistics Regression 10

4.1.4 Nhược điểm của mô hình Logistics Regression 10

4.1.5 Dự đoán và đánh giá mô hình Logistics Regression 10

4.2 Ứng dụng mô hình Feedforward Neural Network 11

4.2.1 Lý thuyết lựa chọn mô hình 11

4.2.2 Ưu điểm của mô hình Feedforward Neural Network 11

4.2.3 Nhược điểm của mô hình Feedforward Neural Network 12

CHƯƠNG 5: ĐÁNH GIÁ MÔ HÌNH LSTM SO SÁNH VỚI MÔ HÌNH KINH TẾ LƯỢNG TRUYỀN THỐNG LINEAR REGRESSION 15

5.1 So sánh kết quả dự đoán của hai mô hình thông qua phương pháp Confusion Matrix 15

5.2 Kết quả và Kết luận: 16

CHƯƠNG 6: KẾT LUẬN 17

6.1 Kết luận tổng quan 17

6.2 Ứng dụng trong kinh doanh 17

6.3 Kết luận và các điểm còn hạn chế của nghiên cứu 17

Phụ lục 18

Tài liệu tham khảo 19

Trang 3

TÓM TẮT NGHIÊN CỨU

Nghiên cứu này tập trung vào việc dự đoán khả năng khách hàng mở tài khoản tiền gửi có kỳ hạn tại một ngân hàng bằng cách sử dụng dữ liệu khách hàng và các mô hình trí tuệ nhân tạo (AI) Chúng em áp dụng hai mô hình AI là logistic regression và mạng neural (Feedforward Neural Network) để so sánh và lựa chọn mô hình phù hợp nhất Mục tiêu là xác định mô hình nào có hiệu quả tốt nhất trong việc dự đoán hành vi khách hàng, từ đó hỗ trợ ngân hàng trong việc tối ưu hóa chiến lược tiếp thị và quản lý nguồn lực

Dữ liệu sử dụng trong nghiên cứu bao gồm thông tin cá nhân và giao dịch của khách hàng như tuổi, nghề nghiệp, tình trạng hôn nhân, trình độ học vấn, số dư tài khoản

và các biến khác Biến mục tiêu là "deposit", cho biết liệu khách hàng có mở tài khoản tiền gửi có kỳ hạn hay không

Kết quả cho thấy mô hình Feedforward Neural Network có độ chính xác cao hơn

so với logistic regression, với độ chính xác tổng thể đạt 80% Tuy nhiên, logistic regression cũng thể hiện khả năng dự đoán khá tốt với độ chính xác 77%, và có hiệu suất tốt hơn trong một số chỉ số đánh giá khác

Trang 4

CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU

Trong ngành ngân hàng hiện đại, việc hiểu và dự đoán hành vi của khách hàng

là một yếu tố then chốt để duy trì và phát triển mối quan hệ khách hàng bền vững Một trong những thách thức lớn nhất mà các ngân hàng phải đối mặt là dự đoán khả năng khách hàng sẽ mở tài khoản tiền gửi có kỳ hạn Điều này không chỉ giúp ngân hàng tăng cường các chiến lược tiếp thị mà còn tối ưu hóa quản lý nguồn lực và nâng cao hiệu quả kinh doanh

Trang 5

CHƯƠNG 2: XỬ LÝ DỮ LIỆU

2.1 Giới thiệu về bộ dữ liệu

Dữ liệu được sử dụng trong báo cáo này bao gồm thông tin về tuổi, nghề nghiệp, tình trạng hôn nhân, trình độ học vấn, số dư tài khoản, và các thông tin liên quan khác của khách hàng ngân hàng Biến mục tiêu là deposit, cho biết liệu khách hàng có gửi tiền vào tài khoản có kỳ hạn hay không (yes hoặc no)

2.2 Làm sạch dữ liệu

2.2.1 Nạp dữ liệu và kiểm tra sự thiếu dữ liệu

Nạp dữ liệu từ tệp CSV và kiểm tra sự thiếu dữ liệu

Các cột dữ liệu:

- Age: Tuổi của khách hàng

- Job: Công việc của khách hàng

- Marital: Tình trạng hôn nhân của khách hàng

- Education: Trình độ học vấn của khách hàng

- Default: Khách hàng có nợ xấu hay không (binary)

- Balance: Số dư tài khoản của khách hàng

- Housing: Khách hàng có vay mua nhà hay không (binary)

- Loan: Khách hàng có vay tiêu dùng hay không (binary)

- Contact: Phương thức liên lạc với khách hàng

Trang 6

2.2.2 Chuyển đổi dữ liệu sang format phù hợp

Hình 2.1 thao tác lọc sạch dữ liệu

Trang 7

2.2.2.1 Chuyển đổi các biến nhị phân sang dạng số (0 và 1)

Các cột default, housing, loan, và deposit chứa các giá trị yes hoặc no Trong máy học, các mô hình thường hoạt động tốt hơn với dữ liệu số thay vì dữ liệu dạng chuỗi Do đó, chúng ta chuyển đổi yes thành 1 và no thành 0

2.2.2.2 Xác định và loại bỏ các cột kiểu chuỗi

Các cột chứa dữ liệu dạng chuỗi (text) không thể sử dụng trực tiếp trong các mô hình máy học mà không có sự chuyển đổi thích hợp Nên cần xác định tất cả các cột có kiểu dữ liệu là object và loại bỏ chúng Việc chuyển đổi và loại bỏ các cột không cần thiết giúp mô hình hoạt động hiệu quả hơn Đồng thời giảm bớt các biến không cần thiết

và chuyển đổi dữ liệu giúp đơn giản hóa quá trình huấn luyện mô hình

2.2.3 Đưa dữ liệu vào việc huấn luyện

Trong quá trình phát triển mô hình học máy, việc chuẩn bị dữ liệu là bước quan trọng để mô hình hoạt động hiệu quả và đưa ra dự đoán chính xác

Hình 2.2 Thể hiện thao tác thể hiện dữ liệu cho training

2.2.3.1 Lý do cần chuẩn bị dữ liệu

Chuẩn hóa dữ liệu giúp mô hình học máy tốt hơn và nhanh hơn do các biến đặc trưng nằm trong cùng một phạm vi giá trị Việc chia dữ liệu thành tập huấn luyện và tập kiểm tra giúp đánh giá chính xác hiệu suất của mô hình trên dữ liệu chưa từng thấy

trước đó Đồng thời việc sử dụng random_state đảm bảo rằng quá trình chia dữ liệu có

thể tái tạo, giúp kiểm tra và so sánh kết quả giữa các lần chạy khác nhau dễ dàng hơn

Trang 8

CHƯƠNG 3: MÔ TẢ VÀ KHÁM PHÁ DỮ LIỆU

3.1 Tổng quan

Hình 3.1 Thông tin trong dataset khi được mình họa bằng biểu đồ

Trang 9

Hình 3.2 Biểu đồ hộp thể hiện sự phân bổ của nhóm khách hàng có tiền gửi và

không có tiền gửi và số dư tài khoản của họ

Biểu đồ hộp này cho thấy sự phân bố của số dư tài khoản giữa hai nhóm khách hàng (có mở tài khoản tiền gửi và không mở tài khoản tiền gửi) Cả hai nhóm đều có số

dư tài khoản tập trung ở mức thấp, nhưng nhóm có mở tài khoản tiền gửi có xu hướng

có số dư cao hơn Số dư tài khoản cao có thể là một yếu tố quan trọng trong việc dự đoán khả năng mở tài khoản tiền gửi của khách hàng

Trang 10

3.2 Phân tích về sự tương quan giữa các chỉ số

Hình 3.3 Ma trận tương quan giữa các chỉ số

Ma trận covariance này cho thấy mối tương quan - covariance giữa các biến số trong dữ liệu Các giá trị cao như giữa Balance (Số dư tài khoản) và Duration (Thời lượng liên lạc) cho thấy mối tương quan dương mạnh, nghĩa là số dư tài khoản và thời lượng liên lạc có ảnh hưởng đáng kể đến khả năng khách hàng mở tài khoản tiền gửi Điều này giúp ngân hàng tập trung vào các yếu tố quan trọng để cải thiện chiến lược tiếp thị và quản lý khách hàng

Trang 11

Hình 3.4 Ma trận quan hệ giữa các chỉ số

Ma trận tương quan này cho thấy mức độ tương quan hệ - correlation các biến

số trong dữ liệu Đáng chú ý là Duration (Thời lượng liên lạc) có tương quan dương mạnh nhất với Deposit (Tiền gửi) (hệ số tương quan 0.45), cho thấy thời lượng liên lạc dài hơn có thể tăng khả năng khách hàng mở tài khoản tiền gửi Ngược lại, Housing (Vay mua nhà) có tương quan âm (-0.20) với Deposit, nghĩa là khách hàng có vay mua nhà ít có khả năng mở tài khoản tiền gửi hơn

Trang 12

CHƯƠNG 4: SỬ DỤNG MÔ HÌNH DEEP LEARNING ĐỂ DỰ BÁO TIỀN GỬI

4.1 Ứng dụng mô hình kinh tế lượng truyền thống Logistics Regression

4.1.1 Lý thuyết lựa chọn mô hình

Hồi quy logistic là một mô hình thống kê dùng để dự đoán xác suất xảy ra của một sự kiện nhị phân (có hoặc không) dựa trên các biến độc lập Đây là một biến thể của Linear Regression thông thường được ứng dụng trong kinh tế lượng

4.1.2 Vấn đề phân loại nhị phân

Bài toán dự đoán khả năng khách hàng mở tài khoản tiền gửi là một bài toán phân loại nhị phân (có hoặc không) Hồi quy logistic là mô hình phù hợp nhất cho các bài toán như vậy, vì nó trực tiếp dự đoán xác suất của một sự kiện nhị phân

4.1.3 Ưu điểm của mô hình Logistics Regression

Hồi quy logistic hiệu quả cho phân loại nhị phân, dễ dàng giải thích và hiệu quả

về mặt tính toán Mô hình này không yêu cầu giả định về phân phối chuẩn của các biến độc lập, giúp linh hoạt trong nhiều tình huống

4.1.4 Nhược điểm của mô hình Logistics Regression

Hồi quy logistic không thể xử lý mối quan hệ phi tuyến, nhạy cảm với đa cộng tuyến và yêu cầu dữ liệu được cân bằng Mô hình này cũng có thể gặp khó khăn với dữ liệu rất lớn hoặc phức tạp

4.1.5 Dự đoán và đánh giá mô hình Logistics Regression

Mô hình được đánh giá dựa trên độ chính xác (accuracy) và các chỉ số khác như precision, recall, và f1-score

Trang 13

Hình 4.1 Code khởi chạy Linear Regression

Kết quả:

- Độ chính xác: 0.77 (77%)

- Precision, Recall, F1-score: Các chỉ số này cho thấy mô hình hoạt động tốt

với cả hai lớp (có và không gửi tiền), với các giá trị đều xấp xỉ 0.77

Kết luận: Mô hình hồi quy logistic cho kết quả khá tốt với độ chính xác 77%

trong việc dự đoán liệu khách hàng có gửi tiền hay không Cho thấy mô hình có khả năng phân loại khá chính xác, doanh nghiệp có thể dự đoán hành vi của khách hàng một cách hiệu quả

4.2 Ứng dụng mô hình Feedforward Neural Network

4.2.1 Lý thuyết lựa chọn mô hình

Feedforward Neural Network (FNN) là một dạng mạng nơ-ron nhân tạo đơn giản, trong đó thông tin chảy theo một chiều từ đầu vào đến đầu ra mà không có vòng lặp FNN bao gồm nhiều lớp nơ-ron (input layer, hidden layers, output layer) và sử dụng các hàm kích hoạt phi tuyến để học các mẫu phức tạp trong dữ liệu

Trang 14

4.2.3 Nhược điểm của mô hình Feedforward Neural Network

Huấn luyện mô hình FNN đòi hỏi nhiều tài nguyên tính toán và thời gian FNN

dễ bị overfitting nếu không có biện pháp phòng ngừa như regularization hoặc dropout Kết quả của FNN thường khó giải thích hơn so với các mô hình thống kê truyền thống như hồi quy logistic

4.3 Chuẩn hóa dữ liệu

Đây là bước quan trọng để đảm bảo rằng các đặc trưng của dữ liệu đều nằm trong một khoảng giá trị nhất định, giúp mô hình mạng nơ-ron nhân tạo (ANN) hiệu quả hơn Việc chuẩn hóa này giúp tăng tốc độ huấn luyện và cải thiện hiệu suất của mô hình Giúp chúng em đảm bảo rằng tất cả các đặc trưng của khách hàng đều được đánh giá trên cùng một tiêu chuẩn, giúp dự đoán chính xác hơn về khả năng gửi tiền của khách hàng

Hình 4.2 code khởi chạy tính năng thêm lớp (layers) cho mô hình

Sau khi chạy dòng các dòng lệnh trên ta được các kết quả sau:

Trang 15

Hình 4.3 Kết quả khởi chạy mô hình neural network

Dựa trên các kết quả được trình bài ở cuối bảng ta có các kết quả sau:

Accuracy (Độ chính xác): Độ chính xác tổng thể của mô hình đạt 0.80, nghĩa

là mô hình dự đoán chính xác 80% các trường hợp

Precision (Độ chính xác khi dự đoán là Positive):

- Đối với lớp 0 (Không gửi tiền): 0.83

- Đối với lớp 1 (Có gửi tiền): 0.76

- Giá trị macro trung bình là 0.80

Trang 16

- Mô hình mạng neural đạt độ chính xác tổng thể là 0.80, cho thấy mô hình có khả năng dự đoán tốt với độ chính xác cao

- Độ chính xác (precision) và độ nhạy (recall) đều tốt cho cả hai lớp, tuy nhiên, lớp 1 có độ chính xác thấp hơn một chút so với lớp 0, điều này có thể do sự mất cân bằng trong dữ liệu hoặc các đặc trưng của lớp 1 khó dự đoán hơn

- Các chỉ số F1-score cho thấy mô hình đạt được sự cân bằng giữa precision và recall

Kết quả này cho thấy mô hình mạng neural có hiệu quả tốt trong việc phân loại

dữ liệu khách hàng có gửi tiền hay không gửi tiền, và có thể được sử dụng để dự đoán trong các chiến dịch marketing hoặc phân tích dữ liệu khách hàng

Trang 17

CHƯƠNG 5: ĐÁNH GIÁ MÔ HÌNH LSTM SO SÁNH VỚI MÔ HÌNH KINH TẾ LƯỢNG TRUYỀN THỐNG LINEAR REGRESSION

5.1 So sánh kết quả dự đoán của hai mô hình thông qua phương pháp Confusion

Matrix

Confusion matrix là một công cụ hữu ích để đánh giá hiệu suất của một mô hình phân loại Nó hiển thị số lượng dự đoán chính xác và sai cho từng lớp trong dữ liệu kiểm tra

Confusion matrix gồm có 4 giá trị:

- True Positive (TP): Số lần mô hình dự đoán đúng một trường hợp là Positive

(Có gửi tiền)

- True Negative (TN): Số lần mô hình dự đoán đúng một trường hợp là Negative

(Không gửi tiền)

- False Positive (FP): Số lần mô hình dự đoán sai một trường hợp là Positive

trong khi thực tế là Negative (Không gửi tiền nhưng dự đoán là Có gửi tiền)

- False Negative (FN): Số lần mô hình dự đoán sai một trường hợp là Negative

trong khi thực tế là Positive (Có gửi tiền nhưng dự đoán là Không gửi tiền)

Hình 5.1 Kết quả Confusion matrix của mô hình FNN

Trang 18

- Sai dương tính (FP): 282

- Sai âm tính (FN): 167

Hình 5.2 Kết quả Confusion matrix của mô hình Logistics Regression

Confusion Matrix của mô hình Logistic Regression:

FNN: Hiệu quả hơn trong việc xác định khách hàng sẽ mở tài khoản tiền gửi có

kỳ hạn (TP cao hơn và FN thấp hơn) Điều này có thể giúp ngân hàng tối ưu hóa chiến lược tiếp thị, tập trung vào những khách hàng tiềm năng cao

Logistic Regression: Hiệu quả hơn trong việc xác định khách hàng sẽ không mở

tài khoản tiền gửi có kỳ hạn (TN cao hơn và FP thấp hơn) Điều này giúp giảm thiểu

Trang 19

CHƯƠNG 6: KẾT LUẬN

6.1 Kết luận tổng quan

Trong nghiên cứu này, nhóm đã sử dụng hai mô hình học máy - Logistic Regression và Feedforward Neural Network (FNN) - để dự đoán khả năng khách hàng

sẽ mở tài khoản tiền gửi có kỳ hạn Qua phân tích kết quả có thể nhận thấy mỗi mô hình

có những ưu điểm và hạn chế riêng Mô hình FNN cho thấy khả năng dự đoán tốt hơn trong việc xác định khách hàng tiềm năng mở tài khoản, trong khi Logistic Regression hiệu quả hơn trong việc xác định khách hàng không mở tài khoản

6.2 Ứng dụng trong kinh doanh

- Tối ưu hóa chiến lược tiếp thị;

- Quản lý nguồn lực hiệu quả;

- Nâng cao trải nghiệm khách hàng

6.3 Kết luận và các điểm còn hạn chế của nghiên cứu

- Dữ liệu không đồng nhất: Có thể không áp dụng được cho các ngân hàng khác có điều kiện và khách hàng khác nhau

- Thiếu các biến số ngoại sinh: Nghiên cứu này không xem xét các yếu tố ngoại sinh

có thể ảnh hưởng đến quyết định mở tài khoản của khách hàng, như tình hình kinh tế, chính sách lãi suất, và cạnh tranh từ các ngân hàng khác

Nghiên cứu nhận ra rằng việc áp dụng các mô hình AI giúp tăng độ chính xác trong

dự đoán và cung cấp những gợi ý quan trọng để cải thiện các chiến lược tiếp thị và dịch

vụ khách hàng của ngân hàng Hạn chế của nghiên cứu là dữ liệu chỉ thu thập từ một ngân hàng cụ thể và khó khăn trong việc xử lý các biến động ngắn hạn Tương lai nên xem xét việc áp dụng các kỹ thuật tăng cường dữ liệu và thử nghiệm với nhiều mô hình khác nhau, tích hợp thêm các biến số ngoại sinh để nâng cao độ chính xác và hiệu quả

dự đoán

Trang 20

Phụ lục

A Các Thuật Ngữ Chuyên Ngành

1 Logistic Regression: Một phương pháp thống kê để dự đoán xác suất của một biến nhị phân dựa trên các biến độc lập

2 Feedforward Neural Network (FNN): Một loại mạng nơ-ron nhân tạo nơi

thông tin di chuyển theo một hướng duy nhất từ đầu vào đến đầu ra

3 Accuracy (Độ chính xác): Tỷ lệ dự đoán đúng trên tổng số dự đoán

4 Precision (Độ chính xác khi dự đoán là Positive): Tỷ lệ dự đoán đúng là

Positive trên tổng số dự đoán là Positive

5 Recall (Độ nhạy): Tỷ lệ dự đoán đúng là Positive trên tổng số trường hợp thực

tế là Positive

6 F1-score: Trung bình điều hòa của Precision và Recall, dùng để đánh giá độ cân

bằng của mô hình

7 Confusion Matrix (Ma trận nhầm lẫn): Một công cụ để đánh giá hiệu suất của

mô hình phân loại, hiển thị số lượng dự đoán đúng và sai cho từng lớp

8 LSTM (Long Short-Term Memory): Một loại mạng nơ-ron hồi quy có khả

năng ghi nhớ thông tin dài hạn, thường được sử dụng trong các bài toán chuỗi thời gian

9 MinMaxScaler: Một kỹ thuật chuẩn hóa dữ liệu bằng cách chia các giá trị theo

3 Ma trận hiệp phương sai (Covariance Matrix): Minh họa mối quan hệ hiệp

phương sai giữa các biến số

Ngày đăng: 01/12/2024, 15:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w