Đang tải... (xem toàn văn)
Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.Dự án mà nhóm của chúng em đã thực hiện là "Xây dựng mô hình dự báo khách hàn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
BÁO CÁO DỰ ÁN CUỐI KỲ
MÔN KHOA HỌC DỮ LIỆU
XÂY DỰNG MÔ HÌNH DỰ BÁO KHÁCH HÀNG ĐỦĐIỀU KIỆN ĐƯỢC PHÊ DUYỆT KHOẢN VAY MUA
NHÀ CỦA CÔNG TY TÀI CHÍNH
Giảng viên: Ths.Trương Việt Phương
Mã LHP: 24D1INF50905908 Buổi học: Sáng thứ Hai
TP Hồ Chí Minh - 2024
Trang 3LỜI MỞ ĐẦU
Lời đầu tiên, chúng em xin gửi lời cảm ơn đến thầy Trương Việt Phương đã truyền đạt kiến thức cho chúng em trong suốt những tuần qua với bộ môn Khoa học dữ liệu Thay mặt các bạn, chúng em cảm ơn sự tận tâm qua từng buổi học, từng lời giảng, sự tận tình của thầy về bộ môn này và cả những kinh nghiệm trong việc khắc phục những thiếu sót của chúng em, điều đó đã giúp chúng em rất nhiều trong lúc thực hiện dự án cuối kì này Từ những kiến thức được học, nhóm chúng em đã cố gắng tìm tòi và học hỏi thêm để hoàn thành dự án này, Tuy nhiên, nhận thức rằng kiến thức và kinh nghiệm của chúng em vẫn còn hạn chế và không tránh khỏi những sai sót Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.
Dự án mà nhóm của chúng em đã thực hiện là "Xây dựng mô hình dự báo khách hàngđủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính." Mục tiêu chính của dự án này là tìm hiểu kĩ hơn về đặc điểm khách hàng qua bộ dữ liệu từ nước ngoài, qua đó đối chiếu và đưa ra khuyến nghị về việc cho vay tín dụng ở Việt Nam Chúng em hy vọng rằng thông qua dự án này, nhóm chúng em có thể phát triển kỹ năng làm việc nhóm, kỹ năng mềm cần thiết và tích lũy thêm nhiều kinh nghiệm hơn trong xử lý dữ liệu để chuẩn bị cho các công việc tương lai.
Trang 4MỤC LỤC
I GIỚI THIỆU DỰ ÁN 1
1 Tóm tắt dự án 1
2 Giới thiệu dự án 1
2.1 Lĩnh vực cho vay tiêu dùng là gì? 1
2.2 Thực trạng cho vay tiêu dùng tại Việt Nam 2
2.3 Khoa học dữ liệu và lĩnh vực vay tiêu dùng 3
2.4 Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính cho bài toán 3
2.5 Phương pháp nghiên cứu 4
II XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE 4
Trang 5DANH MỤC HÌNH ẢNH
Hình 1 Dữ liệu các thông tin từ danh sách khách hàng các khoản vay tiêu dùng 6
Hình 2 Data Table về các thông tin từ danh sách người vay tiêu dùng 6
Hình 3 Tiền xử lý dữ liệu bị thiếu 7
Hình 4 Data Table sau khi đã Tiền xử lý dữ liệu (no missing data) 8
Hình 5 Lưu dữ liệu tiến hành phân cụm 8
Hình 6 Mô hình tiến hành thống kê mô tả dữ liệu 9
Hình 7 Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu 9
Hình 8 Mô hình bài toán phân cụm 15
Hình 9 Mô tả phương pháp k-Means 16
Hình 10 Phương pháp Hierarchical Clustering 16
Hình 11 Mô tả phương pháp Hierarchical Clustering theo 2 cụm 17
Hình 12 Phân chia 2 cụm 17
Hình 13 Đồ thị chỉ số Silhouette Scores 2 cụm bằng Hierarchical Clustering 18
Hình 14.Data table kết quả mô hình phân cụm 18
Hình 15 Mô tả phương pháp Hierarchical Clustering theo 3 cụm 19
Hình 16 Phân chia 3 cụm 19
Hình 17 Đồ thị chỉ số Silhouette Scores 3 cụm bằng Hierarchical Clustering 20
Hình 18 Data table kết quả mô hình phân cụm 21
Hình 19 Mô hình bài toán phân lớp 22
Hình 20 Insert bộ dữ liệu huấn luyện 23
Hình 21 Data Table sau khi đã tiền xử lý dữ liệu 24
Hình 22 Rank xếp hạng độ tương quan với biến target 24
Hình 23 Kết quả test and Score 25
Hình 24 Đồ thị ROC với target N qua 3 phương pháp phân lớp 26
Hình 25 Đồ thị ROC với target Y qua 3 phương pháp phân lớp 26
Hình 26 Ma trận nhầm lẫn cho Tree Decision 27
Hình 27 Ma trận nhầm lẫn cho Logistic Regression 27
Hình 28 Ma trận nhầm lẫn cho SVM 28
Hình 29 Mô hình bài toán dự báo 29
Hình 30 Trích 10 dòng dữ liệu trong bộ dữ liệu processed 29
Hình 31 Kết quả dự báo bằng công cụ Predictions 30
Trang 6I.GIỚI THIỆU DỰ ÁN1.Tóm tắt dự án
Tín dụng tiêu dùng ngày càng trở nên không thể thiếu và là một phần quan trọng của cơ cấu kinh tế thị trường, đồng thời đó cũng là chiến lược và mục tiêu hàng đầu mà các công ty tài chính trên thế giới hướng đến, đặc biệt là Việt Nam Trong bối cảnh này, nhu cầu vay tiêu dùng của người dân nhằm đáp ứng các mục tiêu như mua nhà, mua xe ngày càng tăng cao Mặc dù việc vay tiêu dùng trở nên phổ biến và thuận tiện, nhưng để đáp ứng nhu cầu ấy thành công, người cho vay cần xem xét cẩn thận khả năng thanh toán của người vay trong khoảng thời gian nhất định.
Dự án “Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoảnvay mua nhà của công ty tài chính” dựa trên tính cấp thiết của việc phát triển lĩnh vực
cho vay tiêu dùng, sử dụng đặc điểm khách hàng lấy trong bộ dữ liệu từ nước ngoài Nhóm sẽ tiến hành dự báo khả năng cho vay và đề ra khuyến nghị để phát triển việc cho vay tín dụng ở Việt Nam .
Cụ thể, thông qua phương pháp phân tích dữ liệu, phân cụm dữ liệu, phân lớp dữ liệu và dự báo kết quả để xác định yếu tố cũng như mức độ ảnh hưởng của đặc điểm khách hàng đến khả năng vay vốn Nhờ vào kết quả phân tích này, các công ty tài chính có thể xác định được phân khúc khách hàng đủ điều kiện vay vốn, đề xuất hướng phát triển dịch vụ cho vay, tối ưu hóa lợi nhuận và đạt hiệu quả tốt nhất cho cả hai bên.
2.Giới thiệu dự án
Trang 7Như vậy, cho vay tiêu dùng là nguồn tài chính quan trọng giúp người tiêu dùng có thể trang trải các nhu cầu trong cuộc sống như nhà ở, phương tiện đi lại, tiện nghi sinh hoạt, học tập, du lịch, y tế… trước khi họ có đủ khả năng về tài chính để hưởng thụ (Khuất, n.d.)
2.2 Thực trạng cho vay tiêu dùng tại Việt Nam
Trong một thập niên qua, xu hướng tiêu dùng tại thị trường Việt Nam đã có nhiều thay đổi, người dân sẵn sàng chi tiêu trước cho các nhu cầu đời sống, thay vì tiết kiệm trước, chi tiêu sau; chuyển từ sử dụng tiền mặt sang thẻ tín dụng trong thanh toán và các kênh bán lẻ trực tuyến thay vì chuỗi cửa hàng bán lẻ, tác động lớn đến sự phát triển của tín dụng tiêu dùng trong hệ thống các tổ chức tín dụng Dựa trên thống kê của Hiệp hội Ngân hàng Việt Nam, đến cuối tháng 9/2023, toàn hệ thống có 84 tổ chức tín dụng triển khai hoạt động tín dụng tiêu dùng, trong đó có 15 công ty tài chính tiêu dùng Tổng dư nợ cho vay nền kinh tế đạt khoảng 12.749 nghìn tỷ đồng, trong đó tín dụng tiêu dùng của toàn hệ thống đạt khoảng 2.703 nghìn tỷ đồng, chiếm tỷ trọng 21,2% tổng dư nợ nền kinh tế (Nguyễn, 2020)
Tuy nhiên, tình hình kinh tế trong nước cùng nền kinh tế toàn cầu thời gian gần đây đang phải trải qua vô số biến động phức tạp, dẫn đến hoạt động cho vay tiêu dùng gặp nhiều thách thức với tỷ lệ tăng trưởng thấp Khi so sánh giữa cuối năm 2022, dư nợ cho vay tiêu dùng toàn hệ thống chỉ tăng khoảng 1,53% - một mức tăng rất thấp so với 5 năm qua.
Bên cạnh đó, tỷ lệ nợ xấu trong tín dụng tiêu dùng toàn hệ thống có xu hướng gia tăng khoảng gần 3,7% tổng dư nợ tín dụng tiêu dùng Đặc biệt, tỷ lệ nợ xấu của các công ty tài chính có nguy cơ tăng hơn 15%, nhiều công ty lâm vào tình trạng khó khăn, thậm chí thua lỗ do phải trích dự phòng rủi ro nợ xấu (Anh Hồng, 2023).
Nguyên nhân của tất cả bối cảnh trên, ngoài những yếu tố khách quan nói chung, còn có những yếu tố chủ quan và rất nguy hiểm chưa được xử lý như: Khách hàng cố ý không trả nợ, người trước khuyên người sau không trả nợ, hay cán bộ công ty đến đòi nợ hoặc nhắc nợ thì bị chống đối, tố cáo…
Chính vì thế, đây là những vấn đề đòi hỏi sự chú ý và giải quyết kịp thời để có thể khai thác hết tiềm năng của cho vay tiêu dùng, hồi phục mức độ tăng trưởng của tín dụng tiêu
Trang 82.3 Khoa học dữ liệu và lĩnh vực vay tiêu dùng
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu, có ý nghĩa đối với hoạt động kinh doanh; đồng thời kết hợp với các nguyên tắc từ toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu Ngày nay, khoa học dữ liệu thường được các tổ chức cho vay sử dụng nhằm phân tích và xác định khách hàng đáng tin cậy, từ đó giảm thiểu rủi ro cũng như tạo nền tảng vững chắc trong việc cho vay tiêu dùng.
Câu hỏi “Các đối tượng Khách Hàng có đủ điều kiện cho vay hay không?” sẽ là mục
tiêu chính của dự án trong việc áp dụng khoa học dữ liệu cho lĩnh vực đầy tiềm năng này.
2.4 Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính chobài toán
Cho vay tiêu dùng thường có những đặc điểm sau đây:
Thứ nhất, quy mô của các hợp đồng vay thường nhỏ, dẫn đến chi phí tổ chức cho vay cao Điều này nghĩa là dù giá trị vay lớn hay nhỏ, nhân viên ngân hàng hoặc nhân viên tổ chức tín dụng vẫn phải thực hiện đầy đủ các bước trong quy trình tín dụng, dẫn đến chi phí quản lý tương đương với việc cho doanh nghiệp vay một món lớn để sản xuất kinh doanh.
Thứ hai, hoạt động cho vay tiêu dùng thường nhạy cảm theo chu kỳ kinh tế Nó tăng lên khi nền kinh tế mở rộng, người dân cảm thấy lạc quan về tương lai; giảm khi nền kinh tế suy thoái, khiến nhiều cá nhân và hộ gia đình hạn chế vay mượn.
Trang 9Dựa trên những đặc tính của cho vay tiêu dùng, nhóm nghiên cứu đã xác định một số thuộc tính quan trọng như ID của cá nhân đi vay, số người phụ thuộc, giới tính, tình trạng hôn nhân, trình độ học vấn, khả năng làm chủ doanh nghiệp, thu nhập của người đề đơn vay, thu nhập của người đồng đề đơn vay, số tiền muốn vay, thời hạn vay theo tháng, lịch sử tín dụng của người đi vay, khu vực của người đi vay và quyết định có nên cho vay hay không của tổ chức tài chính Những thuộc tính này sẽ là cơ sở vững chắc để phân tích khả năng cho vay và đưa ra dự báo có tính hiệu quả về quản lý rủi ro, giúp các tổ chức tài chính đưa ra quyết định thông minh về việc cho vay tiêu dùng đối với khách hàng (Phân Tích Các Yếu Tố ảnh Hưởng đến Quyết định Vay Tiêu Dùng Tại Các Ngân Hàng Thương Mại Của Công Nhân Trên địa Bàn Thành Phố Biên Hòa, Tỉnh Đồng Nai, 2022)
2.5 Phương pháp nghiên cứu
Dựa vào bộ dữ liệu bao gồm dữ liệu huấn luyện và dữ liệu dự báo có sẵn, nhóm tiến hành tiền xử lý dữ liệu và phân cụm khách hàng để thấy rõ từng đặc điểm của họ thông qua những công cụ như Hierarchical clustering, Partitioning clustering (K-Means), Sau quá trình phân cụm, nhóm sử dụng dữ liệu đã phân cụm để tiến hành phân lớp, với mục đích dự đoán khả năng phê duyệt khoản vay mua nhà của công ty tài chính Cuối cùng, nhóm khai thác công cụ SVM, Tree, Logistic Regression để phân lớp và áp dụng Test and Score, ROC Analysis, Confusion Matrix để chọn ra phương pháp phù hợp.
II.XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE1.Phân tích dữ liệu
1.1 Mô tả bộ dữ liệu
Phân tích dữ liệu của các đặc trưng có tính phân loại:
Bộ dữ liệu của nhóm được thu thập từ công ty tài chính chuyên giải quyết tất cả các khoản vay Quá trình thu thập dữ liệu được thực hiện bằng cách họ đưa ra bài toán xác định phân khúc khách hàng đủ điều kiện vay vốn để nhắm mục tiêu cụ thể đến những khách hàng này Bằng cách dựa trên thông tin chi tiết khách hàng được cung cấp khi điền vào mẫu đơn đăng ký trực tuyến bằng thời gian thực.
Bộ dữ liệu gồm 367 đối tượng (hàng), có 10 thuộc tính (cột) đồng thời bộ dữ liệu này đã được xác thực Trước khi tiến hành phân tích nhóm có thực hiện bước xử lý dữ liệu trước vì nhận thấy có sự tồn tại một số dữ liệu mà thông tin thiếu hay bị bỏ trống Bên cạnh đó,
Trang 10nhóm cũng đã chọn skip để bỏ qua 1 cột meta do không phù hợp trong quá trình phân tích.
Bảng 1: Tổng quát dữ liệu về các thông tin của khách hàng vay tiêu dùng.
Loan_ID Mã định danh của khách hàng Chuỗi ký tự chữ và số Dependents Số người phụ thuộc của người đi vay Số tự nhiên
Education Trình độ học vấn Graduate/Not Graduate Self_Employed Người đi vay có tự làm chủ doanh
nghiệp của mình hay không
Yes/No Applicant Income Thu nhập của người đề đơn vay Số tự nhiên Co applicant Income Thu nhập của người đồng đề đơn vay Số tự nhiên
Loan Amount Term Thời hạn vay theo tháng Số tự nhiên Credit_History Lịch sử tín dụng của người vay Số tự nhiên
Property Area Khu vực của người đi vay Urban/SemiUrban /Rural Loan_Status Quyết định có nên cho vay hay
Yes/No
Trang 111.2 Tiền xử lý dữ liệu
Hình 1 Dữ liệu các thông tintừ danh sách khách hàng các khoản vay tiêu dùng.
Báo cáo sử dụng dữ liệu được lấy từ trangkaggle.com.
Nhập bộ dữ liệu test.csv vào máy, ta có thể thấy các cột giá trị của bộ dữ liệu Trong đó, Loan_ID chứa dữ liệu dạng ký tự nên sẽ không ảnh hưởng đến kết quả dự báo, ta chọn Skip; Dependents là số người phụ thuộc của người đi vay, ta chọn type là categorical và role là feature.
Hình 2 Data Table về các thông tintừ danh sách người vay tiêu dùng.
Trang 12Từ data table thấy được có 2.1% dữ liệu bị thiếu (missing value), do đó tiến hành tiền xử lý dữ liệu thông qua preprocessing widget Chọn Impute Missing Values và Average/Most frequent (thay thế các giá trị bị thiếu bằng giá trị trung bình/xuất hiện nhiều nhất).
Hình 3 Tiền xử lý dữ liệu bị thiếu.
Sau khi tiền xử lý dữ liệu, ta có được một bộ dữ liệu hoàn chỉnh.
Trang 13Hình 4 Data Table sau khi đã Tiền xử lý dữ liệu (no missing data)
Hình 5 Lưu dữ liệu tiến hành phân cụm
Sau đó, nhóm sẽ tiến hành lưu dữ liệu (Save data widget) để tiến hành phân cụm.
1.3 Thống kê mô tả dữ liệu
Từ dữ liệu đã lưu tiến hànhchọn feature statistic widget để tiến hành thống kê mô tả dữ liệu.
Trang 14Hình 6 Mô hình tiến hành thống kê mô tả dữ liệu
Hình 7 Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu
Trang 15Các thuộc tính mô tả dữ liệu:
● Gender
Qua Thống kê cho thấy khách hàng có nhu cầu vay tiêu dùng chủ yếu là nam với297 khách hàng chiếm 80.93%và70 khách hàng chiếm 19.07%đối với khách hàng nữ.
● Married
Qua kết quả phân tích nhận thấy rằng khách hàng đã kết hôn chiếm tỉ lệ cao233 người với 63.49%và134 người chưa kết hôn chiếm 36.51%.
Trang 16● Education
Đa phần khách hàng có nhu cầu vay đã tốt nghiệp với283 khách hàng chiếm 77.11%và khách hàng chưa tốt nghiệp84 khách hàng chiếm 22.89%.
● Self_Employed
Phần lớn khách hàng không tự kinh doanh chiếm số lượng lớn với330 khách hàng chiếm 89.92% và khách hàng tự kinh doanh chiếm số lượng nhỏ với 37 khách hàng chiếm 10.08%.
● Credit_History
Trang 17Đa phần đây đều là lần đầu hay lần thứ hai của khách hàng có nhu cầu vay Trong đó có 59 khách hàng chưa từng vay trước đó chiếm 16,58% và 308 khách hàng đã từng vay 1 lần chiếm 83,92%.
● Property_Area
Tất cả các khu vực đều có nhu cầu vay và số lượng khu vực lần lượt là nông thôn (Rural) là 111 khách hàng chiếm 30.25% và bán đô thị (Semiurban) là 116 khách hàng chiếm 31.61% và đô thị (Urban) là 140 khách hàng chiếm 38.15%.
● Dependents
Nhìn chung, phần lớn khách hàng có nhu cầu vay tín dụng không có người phụ thuộc (chiếm 57.22% với 210 người), cao thứ hai là có 59 khách hàng có 2 người phụ thuộc chiếm 16.08%, còn lại số khách hàng có 1 người phụ thuộc là 58 người chiếm 15.8% và từ 3 người phụ thuộc trở lên chiếm 10.9%.
● ApplicantIncome
Trung bình Yếu vị Trung vị Độ phân tán Min Max
Trang 18Trung bình thu nhập của người nộp đơn là 4805.60$, người có thu nhập cao nhất là 72529$ và vẫn tồn tại khách hàng có nhu cầu vay tín dụng không có thu nhập.
● CoapplicantIncome
Trung bình Yếu vị Trung vị Độ phân tán Min Max
Trang 19Số tiền vay của khách hàng trung bình là 136.13 nghìn $, khách hàng có nhu cầu vay tiền cao nhất là 550 nghìn $ và thấp nhất là 28 nghìn $ Phần lớn khách hàng có nhu cầu vay tín dụng thường muốn vay khoảng 150 nghìn $.
● Loan_amount_term (đơn vị tháng)
Trung bình Yếu vị Trung vị Độ phân tán Min Max
Khách hàng có nhu cầu vay với nhiều kỳ hạn khác nhau Trong đó kỳ hạn trung bình thường là 342 tháng, trong đó kỳ hạn vay lâu nhất là 480 tháng tương ứng 40 năm và thấp nhất là chỉ trong 6 tháng.