Phân bồ cá nhân được chấp thuận cho vay theo “Giá trị tài sản trong ngân TAI LIEU THAM KHAO: - KHDL - Đồ án cuối kì môn Khoa học dữ liệu - ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA QUẢN TRỊ KI
Trang 1DO AN KHOA HOC DU LIEU
Dé tai: PHAN TICH CAC BIEN TAC DONG DEN KHA NANG DUOC VAY VON CUA KHACH HANG VA PHAN LOAI NHOM KHACH HANG
Giảng viên hướng dẫn: Ths Nguyễn Mạnh Tuần Lop HP: 23C 1INF50905948
Trang 2LOI CAM ON VA MUC BDO LIEN QUAN DEN CHUYEN
NGANH CUA DE TAI Trước hết, chúng em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Mạnh Tuần, người đã tận tình hướng dẫn, giúp đỡ chúng em trong suốt quá trình thực hiện đề tài Thầy đã cung cấp cho chúng em những kiến thức nền tảng cũng như hỗ trợ hết mình đề giúp chúng em nắm vững các kiến thức cả về mặt lý thuyết lẫn thực hành, giúp chúng em hoàn thành bài nghiên cứu này một
cách tốt nhất
Đặc biệt, chúng em xin gửi lời cảm ơn đến các bạn sinh viên trong nhóm, những người đã cùng chúng em đồng hành và góp phần vào thành công của nghiên cứu này Chúng em xin chân thành cảm ơn tất cả những người đã giúp đỡ chúng em trong quá trình thực hiện nghiên cứu này Sự giúp đỡ của các bạn là nguồn động viên lớn lao giúp chúng em hoàn thành đề tài một
cách tốt nhất
Trong quá trình thực hiện dự án, chúng em nhận thay nhóm mình còn nhiều sai sót và còn thiếu nhiều kinh nghiệm Vì vậy, chúng em rất mong muốn nhận được ý kiến đóng góp quý báu từ
thầy và các bạn sinh viên để nhóm chúng em có thể hoàn thành dự án một cách xuất sắc nhất
Chúng em rất biết ơn những lời chia sé va gop y cua thay trong suốt thời gian qua
Cuối cùng, chúng em chúc thầy Nguyễn Mạnh Tuần luôn mạnh khỏe, hạnh phúc và thành công trong công việc giảng dạy và luôn tràn đây nhiệt huyệt và yêu nghê
*Mức độ liên quan: Nhóm đánh giá mức độ liên quan đến chuyên ngành này của đề tài là liên quan gần (mức 2) vì nhóm chỉ sử dụng các kiến thức liên quan đến tài chính để đưa ra các lí do chọn đề tài, phân tích các biến và đưa ra các kiến nghị phù hợp chứ vẫn chưa sử dụng các công
thức, thuật ngữ và các kiến thức sâu của ngành tài chính dé thực hiện các bài toán
Link GGDrive dữ liệu Dữ liệu đồ án cuối kỳ - Google Drive
*Do trục trac kỹ thuật nên nhóm không dán link file testing và training vào Orange được nên thầy và các bạn vui lòng tải 2 file này về và link với Orange giúp nhóm a, rat xin lỗi vì
su bat tiện này
Trang 3CHƯƠNG 1 TONG QUAN
1.1 Téng quan dé tai nghién ctru:
1.1.1 Lí do và mục tiêu nghiên cứu:
1.1.2 Đối tượng nghiên cứu:
1.1.3 Phương pháp nghiên cứu:
2.2 BÀI TOÁN I: Phát hiện các điểm đặc thù của dữ liệu:
Trang 42.4 BÀI TOÁN 3: Phân cụm đặc điểm các khách hàng đã đủ điều kiện cho vay (Bài toán phân cụm) 21
2.4.1 Mô tả phuong phap phan cum (Clustering) 21
P.0 si vi 0 .e ốỐỒe 21 2.4.3 Thực hiện bài toán phân cụm đặc điểm các cá nhân được chấp thuận cho vay « 22
Danh mục hình ảnh Hình 2.1: Tiền xử lý dữ liệu bằng cách chuân hóa dữ liệu về phạm vi
Hình 2.5: Bar Chart 2 về Giá trị tài sản nhà ở của khách hàng, Đà c c2 22 nh HH 10
Hình 2.6: Bảng đường xu hướng Hình 2.15: Bảng phân tích chuyên sâu theo phương pháp hồi quy tuyến tính.của Đánh giá cho vay theo sự thay đôi của Số người phụ thuộc và theo thuộc tính Tự kinh doanh - - c1 222222131 12121 121511153512 111 151 8111101111 111111 01 1111111111111 11111 TH rớ 10
Hình 2.8: Chỉnh role của biển “loan ¡d” thành skip do không tác động đến biến mục
0 13 Hình 2.9: Ding Data Sampler dé phan chia tệp dữ liệu thành 2 phan “Training” va
Hình 2.12: Kết quả dự đoán của mô hình SVM - 5 2222122 1221221212211 l6
Hinh 2.14: Két qua dy doan cia m6 hinh Logistic Regression c.cccccscsscsssessessessessesseseesees 17 Hình 2.15: Bảng phân tích chuyên sâu theo phương pháp hồi quy tuyến
Hình 2.16: Phân tích chuyên sâu theo mô hình Tree - c2: 2c 223123123 121151351151 15x 1xx re 19
Hình 2.17: Mô hình phân lớp và dự báo khách hàng đủ điều kiện vay
— 20
Trang 5Hinh 2.18: Két qua dy bao khach hang di diéu kién vay VON cceccccccccsscscesesceseessessessesseseeee 20
Hình 2.19: Kiểm tra độ chính xác của mô hình dự báo 2S S153 E253 E555 115515555 Exsee 21 Hình 2.20: Mô hình thực hiện bài toán phân cụm các cá nhân được chấp thuận cho
VAY 000L HT nnn HT H1 xnxx k k1 KH k HH TK kg kg 911 11 k1 grkt 23
Hình 2.21: Kết quả K-means 5c E12112112112 1111121121 T1 TH HH 12111 ngưng 24
Biểu đồ 4 Phân bố cá nhân được chấp thuận cho vay theo “Thu nhập hàng
TAI ooo cece ccecceesccecsccssseesscecesscusscusuecessecsaseecasecstsvessecessecsasscessecseesustsnseseseusecsassesasessiseesaeeetssensas 25
Biểu đồ 5 Phân bố cá nhân được chấp thuận cho vay theo “Số tiền
vay” G1111 1xx ru ¬ THẾ HH HH HH HH HH HH HH HH hưng 26 Biêu đồ 6 Phân bô cá nhân được chập thuận cho vay theo “Thời hạn cho
Biêu đồ 7 Phân bô cá nhân được châp thuận cho vay theo “Diém tin
dụng” c nhe TH HH HH HH HH HH HH HH HH hưng 28 Biêu đồ 8 Phân bô cá nhân được chập thuận cho vay theo “Gia tri tai san nhà
Biểu đồ 9 Phân bố cá nhân được chấp thuận cho vay theo “Giá trị tài sản thương
TH TỔ Q.0 Q2 n SH kg ng key — ÔÔÔÒÔỒÒÔ 29 Biêu đồ 10 Phân bô cá nhân duoc chap thuận cho vay theo “Gia tri tài sản xa
Biểu đồ 11 Phân bồ cá nhân được chấp thuận cho vay theo “Giá trị tài sản trong ngân
TAI LIEU THAM KHAO:
- KHDL - Đồ án cuối kì môn Khoa học dữ liệu - ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA QUẢN TRỊ KINH DOANH - Studocu
- 8+ chiến lược thu hút khách hàng tiềm năng hiệu quả X2 tỷ lệ chuyển đôi (Loffice.vn
- Các nhân tô ảnh hưởng đến khả năng trả nợ đúng hạn của khách hàng cá nhân
(tapchinganhang gov.vn)
Trang 6CHUONG 1 TONG QUAN
1.1 Tống quan đề tài nghiên cứu:
1.1.1 Lí do và mục tiêu nghiên cứu:
- Trong thời kỳ kỹ thuật số, việc nhu cầu vay vốn đề đây mạnh đòn bẩy tài chính
cũng như nhu cầu vay tiêu dùng của mỗi cá nhân là rất cao Đây cũng là nguồn thu nhập dồi dào của các ngân hàng: các công ty cho vay Thay vì phải tập trung nguồn nhân lực đề giải quyết, xét duyệt hàng chục, trăm nghìn hồ sơ đề đưa ra kết luận rằng
cá nhân, tô chức có đủ điều kiện để vay vốn hay không và có nguy cơ bỏ sót cũng
như không phản hồi kịp thời cho khách hàng sẽ ảnh hưởng rất nhiều đến lợi nhuận
của công ty Việc tự động hóa quá trình này là hết sức cần thiết và giúp tiết kiệm rất nhiều chỉ phí cho công ty Ngoài ra, nhóm hướng đến tìm ra các biến tác động đến biến mục tiêu và có độ chính xác cao để nhằm tối ưu hóa độ chính xác cho phương pháp của nhóm Theo nhóm tham khảo các bài nghiên cứu khác thì do chọn các biến tác động chưa phù hợp nên độ chính xác của việc dự báo còn thấp, một số nghiên
cứu nhóm tham khảo như: Bải-tiêu-luận | PDF (seribd.com); Đồ án cuối kỳ 1204 - khdl - DAI HOC UEH TRUONG CONG NGHE VA THIET KE KHOA CÔNG
NGHE THÔNG TIN KINH - Studoeu Do đó, để có thê tự động hóa quy trình này và
cũng như tìm được một phương pháp có tỷ lệ chính xác cao nhất trong khả năng thì bài nghiên cứu của nhóm hướng đến các mục tiêu sau:
® Sử dụng phần mềm Orange để xử lý bộ dữ liệu thu thập được sau quá trình chọn lọc các biến phù hợp của các khách hàng có nhu cầu vay vốn Ứng dụng phương phương pháp phân lớp đề tôi ưu hóa quá trình xử lý và hệ thống dự báo dữ liệu
® Xây dựng mô hình phù hợp và có khả năng dự báo khách hàng đủ điều kiện cho vay dựa trên các yếu tố có săn trong bộ dữ liệu
®_ Xây dựng mô hình giúp công ty, ngân hàng phân loại các tệp khách hàng đã
đủ điều kiện vay vốn đề từ đó đưa ra được những chính sách phù hợp
Đối tượng nghiên cứu:
- Bộ dữ liệu được thu thập từ hồ sơ tài chính của các khách hàng có nhu cầu vay vốn sau quá trình thâm định giá các loại tài sản được đăng tải trên web Kaggle Tệp dữ liệu
Trang 7bao gồm 4270 dòng cùng với 13 cột đặc tính
1.1.3 Phương pháp nghiên cứu:
a) Phương pháp nghiên cứu lý luận:
Dựa trên những thông tin, dữ liệu từ các trang web, tài liệu học tập, các bài
nghiên cứu khác cũng như nền táng kiến thức có sẵn sau khi chọn lọc và phân tích từ đó đưa ra những quan điểm, khái niệm chính xác nhất có thê làm nền tảng xây dựng cơ sở lý thuyết cho bài nghiên cứu, dự đoán về thuộc tính mục tiêu mà bài nghiên cứu hướng đến, xây dựng các mô hình, lý thuyết ban đầu như:
- Phương pháp quy nạp — diễn giải lý thuyết: Từ các nguồn tài liệu hiện có, nhóm tiền hành đọc và phân tích nhằm sàng lọc những nội dung cần thiết và liên kết chúng lại với nhau từ đó xây dựng nèn tảng lý thuyết của bài nghiên cứu
- Phương pháp mô hình hóa: Xây dựng các mô hình dựa trên cơ sở lý thuyết đã
đưa ra và ứng dụng mô hỉnh để dự báo nhằm kiểm định tính xác thực của mô
hình
- Phương pháp logic: Phân tích sâu vào các đặc điểm cụ thể của đối tượng nghiên cứu từ đó rút ra những kết luận, giải pháp phù hợp
Phương pháp nghiên cứu thực tiễn:
- Tiên hành vận dụng những lý thuyết đã được đưa ra kết hợp với sử dụng các công cụ thống kê, lược đồ, biểu đồ, mô hình của Excel và phần mềm Orange dé
xử lý dữ liệu và giải quyết các bài toán sau:
® Bài toán l: Phát hiện các điểm đặc thù của dữ liệu liên quan đến khả năng
được chấp nhận vay vốn của khách hàng dựa vào lược đồ và các công cụ liên quan
® Bài toán 2: Dự đoán khách hàng có đủ điều kiện để vay vốn hay không dựa trên dữ liệu liên quan (bài toán phân lớp)
® Bài toán 3: Phân loại các nhóm khách hàng sau khi đã được chấp nhận cho vay vốn (bài toán phân cụm)
b —
CHUONG 2 QUY TRINH THUC HIEN VA KET QUA
2.1 Phân tích và tiền xử lý dữ liệu:
2.1.1 Phân tích dữ liệu:
Trang 8Dữ liệu gồm có 4269 dòng tương ứng với số khách hàng có nhu cầu vay và 13 cột đặc tinh
bao gồm:
STT | Thuộc tính Ý nghĩa Giá trị tham chiều
7 loan term Thời hạn cho vay Months
8 cibil_ score Điểm tin dung Numbers
- Đây là dữ liệu dùng để dự đoán liệu khách hàng có đủ điều kiện vay vốn hay không nên biến
loan status (đánh giá cho vay) sẽ là biến mục tiêu, các biến còn lại sẽ là các biến dùng để giải
thích cho biên mục tiêu
2.1.2 Tiền xử lý dữ liệu:
2.1.2.1 Sơ lược các phương pháp tiền xử lý dữ liệu:
Xử lý tiền dữ liệu là bước đầu tiên trong quy trình phân tích dữ liệu Nó bao gồm các thao
tác làm sạch, chuẩn hóa và chuân bị dữ liệu để săn sảng cho các bước phân tích tiếp theo Xử ly
tiền dữ liệu có vai trò quan trọng trong việc đảm bảo độ chính xác và hiệu quả của phân tích dữ
liệu Có bốn phương pháp xử lý tiền dữ liệu chính:
- Làm sạch dữ liệu (Data cleaning): Là bước loại bỏ các lỗi, thiếu sót, giá trị bất thường
và dữ liệu không liên quan khỏi tập dữ liệu Các lỗi thường gặp trong dữ liệu bao gồm lỗi nhập liệu, lỗi logic và lỗi do thiết bị thu thập đữ liệu
- Chuan hóa dữ liệu (Data normalization): Là bước biến đổi dữ liệu thành một định dạng
thống nhất, giúp cho các mô hình phân tích dữ liệu dé dàng xử lý Các dạng chuẩn hóa dữ liệu
phô biến bao gồm:
= Chuan héa vé pham vi: Chuyên đối tất cả các giá trị dữ liệu về cùng một phạm vi,
chăng hạn như từ 0 đến 1
“_ Chuân hóa về trung bình: Chuyên đổi tất cả các giá trị dữ liệu về trung bình 0 và độ
lệch chuẩn 1.
Trang 9= Chuan hoa vé tan suat: Chuyén d6i tat ca các giá trị dữ liệu về tỷ lệ phan tram
- Thu nhỏ dữ liệu (Data reduction): Là bước giảm kích thước của tập dữ liệu, giúp cho các
mô hình phân tích dữ liệu dễ dàng hơn và nhanh hơn Các phương pháp giảm kích thước dữ liệu phô biến bao gồm:
"_ Loại bỏ các biến không liên quan: Loại bỏ các biến không có tác động đáng kẻ đến kết quả phân tích
Trích chọn các biến: Chọn ra một tập con các biến có liên quan nhất đến kết quả phân tích
- Tiền xứ lý dữ liệu dạng văn bản (Text data preprocessing): Là các thao tác xử lý dữ liệu
dạng văn bản, chăng hạn như loại bỏ các ký tự đặc biệt, chuẩn hóa các từ, loại bỏ các từ
thừa
2.1.2.2 Tiền xử lý dữ liệu:
- Dữ liệu trên được lấy từ web kaggle: Loan-Approval-Prediction-Dataset (kaggle.com)
- Trong bộ dữ liệu gốc được tác giá đăng tải trên trang web Kaggle đã được xử lý các dữ liệu bị nhiều, bị thiêu , khong nhat quan nén nhom sé khong ap dung các phương pháp tiên xử
lý dữ liệu trên Tuy nhiên dé có thé dé dang str dụng bộ dữ liệu để khởi chạy các mô hình cũng như đưa ra các đánh giá phù hợp thì nhóm sẽ chuẩn hóa bộ dữ liệu này về phạm vi 0 đến I bang Preprocess cua Orange
% Preprocess - Orange
Proprocessors Normalize Features
^) Standardize to p=0, g2=1
##< Continuize Discrete Variables
Impute Missing Values ) Center to y=0
H Select Relevant Features ~) Scale to o2=1
"T Select Random Features ) Normalize to interval [-1, 1]
Normalize Features @ Normaive to interval [0, 1}
'T Remove Sparse Features
~ Principal Component Analysis
T CUR Matrix Decomposition v
Hình 2.1: Tiền xử lý dữ liệu bằng cách chuẩn hóa dữ liệu về phạm vi [0.1] 2.2 BÀI TOÁN 1: Phát hiện các điểm đặc thù của dữ liệu:
2.2.1 Mô tả bài toán:
- Bài toán tìm ra một số điểm khác biệt và thê hiện một cách trực quan trong các thuộc tính
giữa việc khách hàng có đánh giá cho vay được chấp nhận hay loại bỏ
- Các thuộc tính được xem xét và đánh giá sự phân bồ bằng các loại biểu đồ để xác định mức
độ ảnh hưởng của thuộc tính đến khả năng được chấp nhận vay vốn của khách hàng
4
Trang 102.2.2 Các phương pháp thể hiện - đánh giá dữ liệu:
- Biểu đồ tròn (Pie chart) : là dạng biểu đồ thống, kê được dùng đề so sánh cho các đôi tượng với mức độ tông thê Điểm đặc biệt ở dạng biểu đồ này chính là các phần tử sẽ được trực quan hóa bằng số liệu (thường là theo tỷ lệ phần trăm) và giup so sánh các phân tử với nhau một cách đơn giản, trực quan qua kích thước các góc trong biêu đồ
- Biểu đồ đường (Line chart): là một trong những loại biêu đồ thể hiện đữ liệu số liệu theo thời gian hoặc phân loại khác Nó sử dụng đường thăng để biểu thị sự thay đôi của dữ liệu trong phân loại do Tw do, Line chart giúp ta phân tích, theo dõi được xu hướng của dữ liệu
- Biểu đồ hình cột (Column chart) hoặc biểu đồ thanh ngang (Bar chart) có đặc điểm là bạn
có thể so sánh được về độ cao (hay độ lớn) của các cột với nhau Do đó mục đích chính của
dạng biêu đồ này là đề so sánh các chỉ tiêu, danh gia tong quan, mang tinh chat xép thir hang
- Biểu đồ Sparkline: là một biểu đồ đường được nhúng vào một bảng trình bày kiều bảng LOAN DASHBOARD
a -ÌÌ wil =~
Hình 2.1: Dashboard thể hiện các đặc điểm đặc thù của bộ dữ liệu
2.2.2.1 Pie Chart: Loan status theo Self-employed
self_employedy) loan_status ~~ Count of loan_status
Bảng số liệu 2.1 và Pie Chart 1: khách hàng
Tự kimh doanh có Đánh giá cho vay Approved
(Được chập nhận) và ReJected (BỊ loại bỏ)
Trang 11Bảng số liệu 2.2 va Pie Chart 2: khach
hàng Không tự kmh doanh có Đánh giá cho
vay Approved (Được chấp nhận) và
Rejected (BỊ loại bỏ)
=> Bảng 2.1 và Pie Chart I cho thấy số khách hàng Tự kinh doanh có Đánh giá cho vay được
Chấp nhận chiếm 62.33% trên tông sô
- Bang 2.2 va Pie Chart 2 cho thay sỐ khách hàng Không tự kinh doanh có Đánh giá cho vay được Chấp nhận chiếm 62.20% trên tông số
Từ đó, ta thấy tỉ lệ Đánh giá cho vay của khách hàng Tự kinh doanh và Không tự kinh doanh chênh lệch nhau 62.33% - 62.20% = 0.13% << 10% —> Thuộc tích Self_employed khéng tac động đến Loan status
Loan status theo Graduate education rx loan status - Count of loan status en 512189000)
Loan status theo Not graduate
education r loan status “- Count of loan status
= Not Graduate 100.00%
Approved 61.98%
Rejected 38.02%
Grand Total: 100.00%
*Aoeswse Bằng số liệu 2.4 và Pie Chart 4: khách
—_ hang có Trình độ học vấn: Không tốt nghiệp
có Đánh giá cho vay Approved (Được châp nhận) và Rejected (BỊ loại bỏ)
=> - Bảng 2.3 và Pie Chart 3 cho thấy số khách hàng Tốt nghiệp có Đánh giá cho vay được Chap nhan chiém 62.45% trên tông sô
Trang 12- Bang 2.4 va Pie Chart 4 cho thay SỐ khách hàng Không tốt nghiệp có Đánh giá cho vay được Chấp nhận chiếm 61.98% trên tổng số
Từ đó, ta thấy tỉ lệ Đánh giá cho vay của khách hàng Tốt nghiệp và Không tốt nghiệp chênh lệch nhau 62.45% - 61.98% = 0.47% << 10% —› Thuộc tích Education không tác động đến Loan_ status
Hình 2.2: Line chart về khách hàng có số người phụ thuộc
Line Chart về khách hang có Số người phụ thuộc từ 0—5 có Đánh giá cho vay Approved (Được chấp nhận) và Rejectcd (BỊ loại bỏ) dựa trên thuộc tính Tự kinh doanh
=> Line Chart cho thấy:
- Với Số người phụ thuộc là 0: Số khách hàng Tự kinh doanh có Đánh giá cho vay được Chấp
nhận là 226 và Không tự kinh doanh la 231
- Với Số người phụ thuộc là 1: Số khách hàng Tự kinh doanh có Đánh giá cho vay được Chấp
nhận là 224 và Không tự kinh doanh là 206
- Với Số người phụ thuộc là 2: Số khách hàng Tự kinh doanh có Đánh giá cho vay được Chấp
nhận là 216 và Không tự kinh doanh là 225
- Tương tự với trường hợp Số người phụ thuộc là 3,4,5
Từ đó, ta thấy được ở từng trường hợp khi Số người phụ thuộc tăng từ 0—›5 có số khách hàng
Tự kmh doanh và Không tự kinh doanh có được Chấp thuận và BỊ loại bỏ khi đánh giá cho vay
Khi Số người phụ thuộc tăng lên thì số khách hàng Approved và ReJected dựa trên thuộc tính Self employed thay đổi không đáng kể, chỉ có khi Số người phụ thuộc từ 4 lên 5 thì Loan status bi giam kha manh Loan status khéng bị ảnh hưởng (biến động) nhiều bởi No_of_ dependents
Trang 13Hinh 2.3: Column chart vé thu nhap hàng năm của khách hàng
Column Chart vé Thu nhập hàng năm của khách hàng (đã rút gọn) có Đánh gia cho vay Approved (Được chấp nhận) và Rejected (Bị loại bỏ) dựa trên thuộc tính Tự kinh doanh
=> Column Chart cho thấy:
- Với Thu nhập hàng năm là 9600000: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự
kinh doanh là 11 và khi Không tự kinh doanh là 7 Sô khách hàng có Đánh giá cho vay Loại bỏ khi Tự kinh doanh là L0 và khi Không tự kinh doanh là 11
- Với Thu nhập hàng năm là 4100000: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự
kinh doanh là 14 và khi Không tự kinh doanh là 14 Số khách hàng có Đánh giá cho vay Loại
bỏ khi Tự kimh doanh là 12 và khi Không tự kinh doanh là 19
- Với Thu nhập hàng năm là 9100000: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự
kinh doanh là 10 và khi Không tự kinh doanh là 13 Số khách hàng có Đánh giá cho vay Loại
bỏ khi Tự kinh doanh là 6 và khi Không tự kinh doanh là 11
- Tương tự với trường hợp Thu nhập hàng năm là 8200000, 9800000, 4800000, 8700000,
5700000
2.2.2.4 Bar Chart:
Trang 14Loan status theo Cibil score
=> Bar Chart 1 cho thấy:
- Với Điểm tín dụng là 522: Số khách hàng có Đánh giá cho vay Loại bỏ khi Tự kinh doanh là
2 và khi Không tự kinh doanh là 2
- Với Điểm tín dụng là 691: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự kinh doanh
là 3 và khi Không tự kinh doanh là 5
- Với Điểm tín dụng là 319: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự kinh doanh
là I và khi Không tự kinh doanh là I Sô khách hàng có Đánh giá cho vay Loại bỏ khi Tự kinh doanh là 6 và khi Không tự kinh doanh là I
- Tương tự với trường hợp Điểm tín dụng là 612, 830, 679, 782, 778
Trang 15Loan status theo Residential assets value
Rejected JWWfAs===ó Approved ma 4 Rejected passes 6 Approved NP? 7
=> Bar Chart 2 cho thấy:
- Với Giá trị tài sản nhà ở là 0: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự kinh doanh là 14 và khi Không tự kinh doanh là 14 Số khách hàng có Đánh giá cho vay Loại bỏ khi
Tự kmh doanh là § và khi Không tự kinh doanh là 9
- Với Giá tri tai san nha ở là 400000: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự kinh doanh là 26 và khi Không tự kinh doanh là 16 Số khách hàng có Đánh giá cho vay Loại
bỏ khi Tự kimh doanh là 13 và khi Không tự kinh doanh là II
- Với Giá trị tài sản nhà ở là -100000: Số khách hàng có Đánh giá cho vay Chấp nhận khi Tự kinh doanh là 11 và khi Không tự kinh doanh là 5 Sô khách hàng có Đánh giá cho vay Loại bỏ khi Tự kinh doanh là 4 và khi Không tự kinh doanh là 8
- Tương tự với trường hợp Giá trị tài sản nhà ở là 12400000, 7100000
10
Trang 16Hình 2.6: Bảng đường xu hướng của Đánh giá cho vay theo sự thay đổi của Số người phụ thuộc và theo thuộc tính Tự kinh doanh
=> Đối với toàn bộ khách hàng, đánh giá cho vay Approved có xu hướng giảm khi Số người phụ thuộc tang từ 0 đến I, có xu hướng tăng khi Số người phụ thuộc tăng từ I đến 4 va lại giảm khi Số người phụ thuộc đạt 5 Còn đánh giá cho vay Rejected có xu hướng tăng khi Số người phụ thuộc tăng từ 0 đến I, không đôi khi Số người phụ thuộc tăng từ I đến 2, có xu hướng tăng khi Số người phụ thuộc tăng từ 2 đến 4 và giảm khi Số người phụ thuộc đạt 5
- Đối với khách hàng Tự kinh doanh, đánh giá cho vay Approved có xu hướng giảm khi Số người phụ thuộc tăng từ 0 đến 2, có xu hướng tăng khi Số người phụ thuộc tăng từ 2 đến 3 và lại giảm khi Số người phụ thuộc tăng từ 3 đến 5 Còn đánh giá cho vay Rejected có xu hướng tăng khi Số người phụ thuộc tăng từ 0 đến I, có xu hướng giảm khi Số người phụ thuộc tăng từ
1 đến 2 , tăng khi Số người phụ thuộc tăng từ 2 đến 3 và lại giảm khi Số người phụ thuộc tăng
2.3 BÀI TOÁN 2: Dự đoán khách hàng có đủ điều kiện vay vốn hay không? (Bài toán phân lớp dữ liệu)
2.3.1 Phân tích các biến tác động:
Theo nhận định của nhóm, tât cả các biên kê trên đếu có tác động đến biên mục tiêu ngoại trừ biên “loan 1d” Vì vậy nhóm sẽ phân tích sâu phương thức tác động của các biên này đề tác
động đến biên mục tiêu:
- Biến “Số người phụ thuộc”:
+ Tác động đến khả năng chỉ trả của người vay: Người vay có số người phụ thuộc cảng nhiều thì khả năng chỉ trả cho khoản vay cảng thấp Điều này là do thu nhập của người vay cần phải phân bồ cho nhiều mục đích hơn, bao gom: chi tiéu cho ban thân, chị tiêu cho gia đình và chị trả cho khoản vay
11
Trang 17- Bién “trinh độ học vấn”: Dưới góc độ tài chính thì trình độ học vấn có thê được coi là một
tài sản vô hình Tài sản vô hình là những tài sản không có hình đáng vật chất nhưng có giá trị
kinh tế Trình độ học vấn có giá trị kinh tế vì nó có thể giúp người sở hữu tăng thu nhập, giảm
Tủi ro và được tiếp cận với các nguồn tài chính
+ Tăng thu nhập: Trình độ học vấn cao có liên quan đến mức thu nhập cao hơn Theo một nghiên cứu được thực hiện bởi Bộ Lao động-Thương bình và Xã hội vào năm 2022
Nghiên cứu sử dụng dữ liệu từ Khảo sát Lao động và Dân số Việt Nam (VLSS) năm 2020
Nghiên cứu cho thay rang người có trình độ đại học có thu nhập trung bình cao hơn 70% so với
người chỉ có trình độ trung học phố thông h(tps://www.gso.gov.vn/du-lieu-va-so-lieu-thong- ke/2023/01/thong-cao-bao-chi-tinh-hinh-lao-dong-viec-lam-quy-iv-va-nam-2022/
+ Giảm Tủi ro: Trình độ học vấn cao cũng có thê giup người sở hữu giảm rủi ro, dé tiếp cận với các nguồn tài chính: có trình độ học vẫn cao có thê giup người vay có khả năng tiếp cận với các nguồn tài chính cao cấp hơn, chăng hạn như các quỹ đầu tư mạo hiểm hoặc các khoản vay từ các tô chức tài chính lớn
- Biến “Điểm tín dụng”: Vì người vay có lịch sử trả nợ tốt nên số điểm cao, người có điểm tín dụng cảng cao cho thay răng họ có khả năng quản lý tài chính tôt và ít có khả năng mật khả năng thanh toán khoản vay
> Neudi vay co điểm tín dụng cao thường có khả năng được vay vốn cao hơn
- Thu nhập hằng năm phản ánh khả năng chỉ trả của khách hàng, là cơ sở để ngân hàng đánh giá khả năng trả nợ của khách hàng
Thu nhập hằng năm ảnh hưởng tới quyết định cho vay của ngân hàng như sau:
® Là căn cứ đề xác định khả năng trả nợ của khách hàng: Thu nhập hằng năm càng cao thì khả năng trả nợ của khách hàng càng lớn Do đó, ngân hàng sẽ có nhiêu khả năng cho vay cho khách hàng có thu nhập hăng năm cao
®- Là căn cứ để xác định mức lãi suất cho vay và thời hạn cho vay của khách hàng
- Kinh doanh cá nhân ảnh hưởng tới quyết định cho vay như sau:
® Là một yếu tố quan trọng trong đánh giá khả năng trả nợ của khách hàng Các tô chức tín dụng sẽ xem xét doanh thu, lợi nhuận, dòng tiền của doanh nghiệp đề đánh giá khả năng trả nợ của khách hàng Nếu doanh nghiệp có doanh thu, lợi nhuận, dòng tiền ôn
định thì khả năng trả nợ của khách hàng sẽ cao hơn
Cụ thê, các tô chức tín dụng sẽ xem xét các yếu tô sau để đánh giá kinh doanh cá nhân của khách hàng: Loại hình doanh nghiệp, Ngành nghề kinh doanh, Doanh thu, lợi nhuận, dòng tiên, tình hình tài chính của doanh nghiệp
- Các biến còn lại như giá trị tài sản thương mại, tài san nha 6, tai sản trong ngân hàng và tài san xa xi là các yếu tổ cũng ảnh hưởng không nhỏ đến quyết định cho vay của ngân hàng, giá
12
Trang 18trị của của các loại tài sản này cảng cao thì đồng nghĩa với khả năng thanh toán nợ càng cao
Đồng thời, giá trị của các loại tài sản này cũng là co so dé xác định lãi suât, hạn mức và thời hạn cho vay của khách hàng Tuy nhiên tùy loại tài sản sẽ có mức đánh giá khác nhau dựa trên các điêu kiện mà ngân hàng, công ty cho vay đê ra
@ File: - Loan Approval Dataset.csv 1 Õ neload
> URL: | netps://docs.google.com/spreadsheets/d/1IEEShO_XOSSOMK_HS9WwapC-mOGbECX/edit# gid=466959403 File Type
Automatically detect type Info
7 loan_term numeric feature
2 residential_asse numeric feature
10 commercial_oss numeric feature
11 luxury assets v G3 numeric feature
12 bank assetvalue G9 numeric feature
> URL: | https://docs.qoagle.com/spreadsheets/d/1IEEShO_XD6SOMK_HS9WvqpC-mOGbExfX/ edit # gid=466959403
File Type Aukomatically detect type Info
13 features (no missing values) Data has no target variable
O meta attributes
‘Columns (Double click to edit) Name Type Role Values =
1 skip
4 selfemployed @ categorical feature No, Yes S$ income_annum numeric feature
Trang 19Bước 2: Dùng Data Sampler để phân bộ dữ liệu vừa được đưa vào thành 2 phần: | phan chiém
80% dữ liệu nhăm sử dụng cho mô hình dy bao hoc va duoc dat tén la “Training”; 20% dtr ligu còn lại sẽ được sử dụng đề mô hình dự báo thử nghiệm và được đặt tên là “Testing”
Testing (20%) Save Data (1)
Hình 2.9: Dùng Data Sampler để phân chia tệp dữ liệu thành 2 phần “Training” và
“Testing”
Bước 3: Sử dụng file “Training” va 3 mé hinh phan lép bao gsm SVM, Tree va Logistic Regression néi vào Test and Score Sau đó nôi tiếp Test and Score với Confusion Matrix Dya trên kết quả đánh giá của Test and Score, Confusion Matrix và đánh giá sai lầm nghiêm trọng, nhóm sẽ chọn ra phương pháp phân lớp tôi ưu nhất
Bước 4: Liên kết ñle “Training” với phương pháp phân lớp tối ưu nhất và với Predictions Sau
đó nôi file '“Testing” với Predictions đề tiên hành dự báo biên mục tiêu và thực hiện đánh giá
2.3.3 Xây dựng và khởi chạy mồ hình:
Logistic Regression F “oy