Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính

38 4 0
Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.Dự án mà nhóm của chúng em đã thực hiện là "Xây dựng mô hình dự báo khách hàn

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

BÁO CÁO DỰ ÁN CUỐI KỲ

MÔN KHOA HỌC DỮ LIỆU

XÂY DỰNG MÔ HÌNH DỰ BÁO KHÁCH HÀNG ĐỦĐIỀU KIỆN ĐƯỢC PHÊ DUYỆT KHOẢN VAY MUA

NHÀ CỦA CÔNG TY TÀI CHÍNH

Giảng viên: Ths.Trương Việt Phương

Mã LHP: 24D1INF50905908 Buổi học: Sáng thứ Hai

TP Hồ Chí Minh - 2024

Trang 3

LỜI MỞ ĐẦU

Lời đầu tiên, chúng em xin gửi lời cảm ơn đến thầy Trương Việt Phương đã truyền đạt kiến thức cho chúng em trong suốt những tuần qua với bộ môn Khoa học dữ liệu Thay mặt các bạn, chúng em cảm ơn sự tận tâm qua từng buổi học, từng lời giảng, sự tận tình của thầy về bộ môn này và cả những kinh nghiệm trong việc khắc phục những thiếu sót của chúng em, điều đó đã giúp chúng em rất nhiều trong lúc thực hiện dự án cuối kì này Từ những kiến thức được học, nhóm chúng em đã cố gắng tìm tòi và học hỏi thêm để hoàn thành dự án này, Tuy nhiên, nhận thức rằng kiến thức và kinh nghiệm của chúng em vẫn còn hạn chế và không tránh khỏi những sai sót Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.

Dự án mà nhóm của chúng em đã thực hiện là "Xây dựng mô hình dự báo khách hàngđủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính." Mục tiêu chính của dự án này là tìm hiểu kĩ hơn về đặc điểm khách hàng qua bộ dữ liệu từ nước ngoài, qua đó đối chiếu và đưa ra khuyến nghị về việc cho vay tín dụng ở Việt Nam Chúng em hy vọng rằng thông qua dự án này, nhóm chúng em có thể phát triển kỹ năng làm việc nhóm, kỹ năng mềm cần thiết và tích lũy thêm nhiều kinh nghiệm hơn trong xử lý dữ liệu để chuẩn bị cho các công việc tương lai.

Trang 4

MỤC LỤC

I GIỚI THIỆU DỰ ÁN 1

1 Tóm tắt dự án 1

2 Giới thiệu dự án 1

2.1 Lĩnh vực cho vay tiêu dùng là gì? 1

2.2 Thực trạng cho vay tiêu dùng tại Việt Nam 2

2.3 Khoa học dữ liệu và lĩnh vực vay tiêu dùng 3

2.4 Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính cho bài toán 3

2.5 Phương pháp nghiên cứu 4

II XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE 4

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Dữ liệu các thông tin từ danh sách khách hàng các khoản vay tiêu dùng 6

Hình 2 Data Table về các thông tin từ danh sách người vay tiêu dùng 6

Hình 3 Tiền xử lý dữ liệu bị thiếu 7

Hình 4 Data Table sau khi đã Tiền xử lý dữ liệu (no missing data) 8

Hình 5 Lưu dữ liệu tiến hành phân cụm 8

Hình 6 Mô hình tiến hành thống kê mô tả dữ liệu 9

Hình 7 Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu 9

Hình 8 Mô hình bài toán phân cụm 15

Hình 9 Mô tả phương pháp k-Means 16

Hình 10 Phương pháp Hierarchical Clustering 16

Hình 11 Mô tả phương pháp Hierarchical Clustering theo 2 cụm 17

Hình 12 Phân chia 2 cụm 17

Hình 13 Đồ thị chỉ số Silhouette Scores 2 cụm bằng Hierarchical Clustering 18

Hình 14.Data table kết quả mô hình phân cụm 18

Hình 15 Mô tả phương pháp Hierarchical Clustering theo 3 cụm 19

Hình 16 Phân chia 3 cụm 19

Hình 17 Đồ thị chỉ số Silhouette Scores 3 cụm bằng Hierarchical Clustering 20

Hình 18 Data table kết quả mô hình phân cụm 21

Hình 19 Mô hình bài toán phân lớp 22

Hình 20 Insert bộ dữ liệu huấn luyện 23

Hình 21 Data Table sau khi đã tiền xử lý dữ liệu 24

Hình 22 Rank xếp hạng độ tương quan với biến target 24

Hình 23 Kết quả test and Score 25

Hình 24 Đồ thị ROC với target N qua 3 phương pháp phân lớp 26

Hình 25 Đồ thị ROC với target Y qua 3 phương pháp phân lớp 26

Hình 26 Ma trận nhầm lẫn cho Tree Decision 27

Hình 27 Ma trận nhầm lẫn cho Logistic Regression 27

Hình 28 Ma trận nhầm lẫn cho SVM 28

Hình 29 Mô hình bài toán dự báo 29

Hình 30 Trích 10 dòng dữ liệu trong bộ dữ liệu processed 29

Hình 31 Kết quả dự báo bằng công cụ Predictions 30

Trang 6

I.GIỚI THIỆU DỰ ÁN1.Tóm tắt dự án

Tín dụng tiêu dùng ngày càng trở nên không thể thiếu và là một phần quan trọng của cơ cấu kinh tế thị trường, đồng thời đó cũng là chiến lược và mục tiêu hàng đầu mà các công ty tài chính trên thế giới hướng đến, đặc biệt là Việt Nam Trong bối cảnh này, nhu cầu vay tiêu dùng của người dân nhằm đáp ứng các mục tiêu như mua nhà, mua xe ngày càng tăng cao Mặc dù việc vay tiêu dùng trở nên phổ biến và thuận tiện, nhưng để đáp ứng nhu cầu ấy thành công, người cho vay cần xem xét cẩn thận khả năng thanh toán của người vay trong khoảng thời gian nhất định.

Dự án “Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoảnvay mua nhà của công ty tài chính” dựa trên tính cấp thiết của việc phát triển lĩnh vực

cho vay tiêu dùng, sử dụng đặc điểm khách hàng lấy trong bộ dữ liệu từ nước ngoài Nhóm sẽ tiến hành dự báo khả năng cho vay và đề ra khuyến nghị để phát triển việc cho vay tín dụng ở Việt Nam .

Cụ thể, thông qua phương pháp phân tích dữ liệu, phân cụm dữ liệu, phân lớp dữ liệu và dự báo kết quả để xác định yếu tố cũng như mức độ ảnh hưởng của đặc điểm khách hàng đến khả năng vay vốn Nhờ vào kết quả phân tích này, các công ty tài chính có thể xác định được phân khúc khách hàng đủ điều kiện vay vốn, đề xuất hướng phát triển dịch vụ cho vay, tối ưu hóa lợi nhuận và đạt hiệu quả tốt nhất cho cả hai bên.

2.Giới thiệu dự án

Trang 7

Như vậy, cho vay tiêu dùng là nguồn tài chính quan trọng giúp người tiêu dùng có thể trang trải các nhu cầu trong cuộc sống như nhà ở, phương tiện đi lại, tiện nghi sinh hoạt, học tập, du lịch, y tế… trước khi họ có đủ khả năng về tài chính để hưởng thụ (Khuất, n.d.)

2.2 Thực trạng cho vay tiêu dùng tại Việt Nam

Trong một thập niên qua, xu hướng tiêu dùng tại thị trường Việt Nam đã có nhiều thay đổi, người dân sẵn sàng chi tiêu trước cho các nhu cầu đời sống, thay vì tiết kiệm trước, chi tiêu sau; chuyển từ sử dụng tiền mặt sang thẻ tín dụng trong thanh toán và các kênh bán lẻ trực tuyến thay vì chuỗi cửa hàng bán lẻ, tác động lớn đến sự phát triển của tín dụng tiêu dùng trong hệ thống các tổ chức tín dụng Dựa trên thống kê của Hiệp hội Ngân hàng Việt Nam, đến cuối tháng 9/2023, toàn hệ thống có 84 tổ chức tín dụng triển khai hoạt động tín dụng tiêu dùng, trong đó có 15 công ty tài chính tiêu dùng Tổng dư nợ cho vay nền kinh tế đạt khoảng 12.749 nghìn tỷ đồng, trong đó tín dụng tiêu dùng của toàn hệ thống đạt khoảng 2.703 nghìn tỷ đồng, chiếm tỷ trọng 21,2% tổng dư nợ nền kinh tế (Nguyễn, 2020)

Tuy nhiên, tình hình kinh tế trong nước cùng nền kinh tế toàn cầu thời gian gần đây đang phải trải qua vô số biến động phức tạp, dẫn đến hoạt động cho vay tiêu dùng gặp nhiều thách thức với tỷ lệ tăng trưởng thấp Khi so sánh giữa cuối năm 2022, dư nợ cho vay tiêu dùng toàn hệ thống chỉ tăng khoảng 1,53% - một mức tăng rất thấp so với 5 năm qua.

Bên cạnh đó, tỷ lệ nợ xấu trong tín dụng tiêu dùng toàn hệ thống có xu hướng gia tăng khoảng gần 3,7% tổng dư nợ tín dụng tiêu dùng Đặc biệt, tỷ lệ nợ xấu của các công ty tài chính có nguy cơ tăng hơn 15%, nhiều công ty lâm vào tình trạng khó khăn, thậm chí thua lỗ do phải trích dự phòng rủi ro nợ xấu (Anh Hồng, 2023).

Nguyên nhân của tất cả bối cảnh trên, ngoài những yếu tố khách quan nói chung, còn có những yếu tố chủ quan và rất nguy hiểm chưa được xử lý như: Khách hàng cố ý không trả nợ, người trước khuyên người sau không trả nợ, hay cán bộ công ty đến đòi nợ hoặc nhắc nợ thì bị chống đối, tố cáo…

Chính vì thế, đây là những vấn đề đòi hỏi sự chú ý và giải quyết kịp thời để có thể khai thác hết tiềm năng của cho vay tiêu dùng, hồi phục mức độ tăng trưởng của tín dụng tiêu

Trang 8

2.3 Khoa học dữ liệu và lĩnh vực vay tiêu dùng

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu, có ý nghĩa đối với hoạt động kinh doanh; đồng thời kết hợp với các nguyên tắc từ toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu Ngày nay, khoa học dữ liệu thường được các tổ chức cho vay sử dụng nhằm phân tích và xác định khách hàng đáng tin cậy, từ đó giảm thiểu rủi ro cũng như tạo nền tảng vững chắc trong việc cho vay tiêu dùng.

Câu hỏi “Các đối tượng Khách Hàng có đủ điều kiện cho vay hay không?” sẽ là mục

tiêu chính của dự án trong việc áp dụng khoa học dữ liệu cho lĩnh vực đầy tiềm năng này.

2.4 Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính chobài toán

Cho vay tiêu dùng thường có những đặc điểm sau đây:

Thứ nhất, quy mô của các hợp đồng vay thường nhỏ, dẫn đến chi phí tổ chức cho vay cao Điều này nghĩa là dù giá trị vay lớn hay nhỏ, nhân viên ngân hàng hoặc nhân viên tổ chức tín dụng vẫn phải thực hiện đầy đủ các bước trong quy trình tín dụng, dẫn đến chi phí quản lý tương đương với việc cho doanh nghiệp vay một món lớn để sản xuất kinh doanh.

Thứ hai, hoạt động cho vay tiêu dùng thường nhạy cảm theo chu kỳ kinh tế Nó tăng lên khi nền kinh tế mở rộng, người dân cảm thấy lạc quan về tương lai; giảm khi nền kinh tế suy thoái, khiến nhiều cá nhân và hộ gia đình hạn chế vay mượn.

Trang 9

Dựa trên những đặc tính của cho vay tiêu dùng, nhóm nghiên cứu đã xác định một số thuộc tính quan trọng như ID của cá nhân đi vay, số người phụ thuộc, giới tính, tình trạng hôn nhân, trình độ học vấn, khả năng làm chủ doanh nghiệp, thu nhập của người đề đơn vay, thu nhập của người đồng đề đơn vay, số tiền muốn vay, thời hạn vay theo tháng, lịch sử tín dụng của người đi vay, khu vực của người đi vay và quyết định có nên cho vay hay không của tổ chức tài chính Những thuộc tính này sẽ là cơ sở vững chắc để phân tích khả năng cho vay và đưa ra dự báo có tính hiệu quả về quản lý rủi ro, giúp các tổ chức tài chính đưa ra quyết định thông minh về việc cho vay tiêu dùng đối với khách hàng (Phân Tích Các Yếu Tố ảnh Hưởng đến Quyết định Vay Tiêu Dùng Tại Các Ngân Hàng Thương Mại Của Công Nhân Trên địa Bàn Thành Phố Biên Hòa, Tỉnh Đồng Nai, 2022)

2.5 Phương pháp nghiên cứu

Dựa vào bộ dữ liệu bao gồm dữ liệu huấn luyện và dữ liệu dự báo có sẵn, nhóm tiến hành tiền xử lý dữ liệu và phân cụm khách hàng để thấy rõ từng đặc điểm của họ thông qua những công cụ như Hierarchical clustering, Partitioning clustering (K-Means), Sau quá trình phân cụm, nhóm sử dụng dữ liệu đã phân cụm để tiến hành phân lớp, với mục đích dự đoán khả năng phê duyệt khoản vay mua nhà của công ty tài chính Cuối cùng, nhóm khai thác công cụ SVM, Tree, Logistic Regression để phân lớp và áp dụng Test and Score, ROC Analysis, Confusion Matrix để chọn ra phương pháp phù hợp.

II.XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE1.Phân tích dữ liệu

1.1 Mô tả bộ dữ liệu

Phân tích dữ liệu của các đặc trưng có tính phân loại:

Bộ dữ liệu của nhóm được thu thập từ công ty tài chính chuyên giải quyết tất cả các khoản vay Quá trình thu thập dữ liệu được thực hiện bằng cách họ đưa ra bài toán xác định phân khúc khách hàng đủ điều kiện vay vốn để nhắm mục tiêu cụ thể đến những khách hàng này Bằng cách dựa trên thông tin chi tiết khách hàng được cung cấp khi điền vào mẫu đơn đăng ký trực tuyến bằng thời gian thực.

Bộ dữ liệu gồm 367 đối tượng (hàng), có 10 thuộc tính (cột) đồng thời bộ dữ liệu này đã được xác thực Trước khi tiến hành phân tích nhóm có thực hiện bước xử lý dữ liệu trước vì nhận thấy có sự tồn tại một số dữ liệu mà thông tin thiếu hay bị bỏ trống Bên cạnh đó,

Trang 10

nhóm cũng đã chọn skip để bỏ qua 1 cột meta do không phù hợp trong quá trình phân tích.

Bảng 1: Tổng quát dữ liệu về các thông tin của khách hàng vay tiêu dùng.

Loan_ID Mã định danh của khách hàng Chuỗi ký tự chữ và số Dependents Số người phụ thuộc của người đi vay Số tự nhiên

Education Trình độ học vấn Graduate/Not Graduate Self_Employed Người đi vay có tự làm chủ doanh

nghiệp của mình hay không

Yes/No Applicant Income Thu nhập của người đề đơn vay Số tự nhiên Co applicant Income Thu nhập của người đồng đề đơn vay Số tự nhiên

Loan Amount Term Thời hạn vay theo tháng Số tự nhiên Credit_History Lịch sử tín dụng của người vay Số tự nhiên

Property Area Khu vực của người đi vay Urban/SemiUrban /Rural Loan_Status Quyết định có nên cho vay hay

Yes/No

Trang 11

1.2 Tiền xử lý dữ liệu

Hình 1 Dữ liệu các thông tintừ danh sách khách hàng các khoản vay tiêu dùng.

Báo cáo sử dụng dữ liệu được lấy từ trangkaggle.com.

Nhập bộ dữ liệu test.csv vào máy, ta có thể thấy các cột giá trị của bộ dữ liệu Trong đó, Loan_ID chứa dữ liệu dạng ký tự nên sẽ không ảnh hưởng đến kết quả dự báo, ta chọn Skip; Dependents là số người phụ thuộc của người đi vay, ta chọn type là categorical và role là feature.

Hình 2 Data Table về các thông tintừ danh sách người vay tiêu dùng.

Trang 12

Từ data table thấy được có 2.1% dữ liệu bị thiếu (missing value), do đó tiến hành tiền xử lý dữ liệu thông qua preprocessing widget Chọn Impute Missing Values và Average/Most frequent (thay thế các giá trị bị thiếu bằng giá trị trung bình/xuất hiện nhiều nhất).

Hình 3 Tiền xử lý dữ liệu bị thiếu.

Sau khi tiền xử lý dữ liệu, ta có được một bộ dữ liệu hoàn chỉnh.

Trang 13

Hình 4 Data Table sau khi đã Tiền xử lý dữ liệu (no missing data)

Hình 5 Lưu dữ liệu tiến hành phân cụm

Sau đó, nhóm sẽ tiến hành lưu dữ liệu (Save data widget) để tiến hành phân cụm.

1.3 Thống kê mô tả dữ liệu

Từ dữ liệu đã lưu tiến hànhchọn feature statistic widget để tiến hành thống kê mô tả dữ liệu.

Trang 14

Hình 6 Mô hình tiến hành thống kê mô tả dữ liệu

Hình 7 Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu

Trang 15

Các thuộc tính mô tả dữ liệu:

● Gender

Qua Thống kê cho thấy khách hàng có nhu cầu vay tiêu dùng chủ yếu là nam với297 khách hàng chiếm 80.93%và70 khách hàng chiếm 19.07%đối với khách hàng nữ.

● Married

Qua kết quả phân tích nhận thấy rằng khách hàng đã kết hôn chiếm tỉ lệ cao233 người với 63.49%và134 người chưa kết hôn chiếm 36.51%.

Trang 16

● Education

Đa phần khách hàng có nhu cầu vay đã tốt nghiệp với283 khách hàng chiếm 77.11%và khách hàng chưa tốt nghiệp84 khách hàng chiếm 22.89%.

● Self_Employed

Phần lớn khách hàng không tự kinh doanh chiếm số lượng lớn với330 khách hàng chiếm 89.92% và khách hàng tự kinh doanh chiếm số lượng nhỏ với 37 khách hàng chiếm 10.08%.

● Credit_History

Trang 17

Đa phần đây đều là lần đầu hay lần thứ hai của khách hàng có nhu cầu vay Trong đó có 59 khách hàng chưa từng vay trước đó chiếm 16,58% và 308 khách hàng đã từng vay 1 lần chiếm 83,92%.

● Property_Area

Tất cả các khu vực đều có nhu cầu vay và số lượng khu vực lần lượt là nông thôn (Rural) là 111 khách hàng chiếm 30.25% và bán đô thị (Semiurban) là 116 khách hàng chiếm 31.61% và đô thị (Urban) là 140 khách hàng chiếm 38.15%.

● Dependents

Nhìn chung, phần lớn khách hàng có nhu cầu vay tín dụng không có người phụ thuộc (chiếm 57.22% với 210 người), cao thứ hai là có 59 khách hàng có 2 người phụ thuộc chiếm 16.08%, còn lại số khách hàng có 1 người phụ thuộc là 58 người chiếm 15.8% và từ 3 người phụ thuộc trở lên chiếm 10.9%.

● ApplicantIncome

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Trang 18

Trung bình thu nhập của người nộp đơn là 4805.60$, người có thu nhập cao nhất là 72529$ và vẫn tồn tại khách hàng có nhu cầu vay tín dụng không có thu nhập.

● CoapplicantIncome

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Trang 19

Số tiền vay của khách hàng trung bình là 136.13 nghìn $, khách hàng có nhu cầu vay tiền cao nhất là 550 nghìn $ và thấp nhất là 28 nghìn $ Phần lớn khách hàng có nhu cầu vay tín dụng thường muốn vay khoảng 150 nghìn $.

● Loan_amount_term (đơn vị tháng)

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Khách hàng có nhu cầu vay với nhiều kỳ hạn khác nhau Trong đó kỳ hạn trung bình thường là 342 tháng, trong đó kỳ hạn vay lâu nhất là 480 tháng tương ứng 40 năm và thấp nhất là chỉ trong 6 tháng.

Ngày đăng: 08/04/2024, 12:12

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan