1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính

38 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 3,89 MB

Cấu trúc

  • I. GIỚI THIỆU DỰ ÁN (6)
    • 1. Tóm tắt dự án (6)
    • 2. Giới thiệu dự án (6)
      • 2.1. Lĩnh vực cho vay tiêu dùng là gì? (0)
      • 2.2. Thực trạng cho vay tiêu dùng tại Việt Nam (7)
      • 2.3. Khoa học dữ liệu và lĩnh vực vay tiêu dùng (8)
      • 2.4. Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính (8)
      • 2.5. Phương pháp nghiên cứu (9)
  • II. XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE (9)
    • 1. Phân tích dữ liệu (9)
      • 1.1. Mô tả bộ dữ liệu (9)
      • 1.2. Tiền xử lý dữ liệu (11)
      • 1.3. Thống kê mô tả dữ liệu (13)
    • 2. Phân cụm dữ liệu (20)
      • 2.1. Mô tả bài toán 1 (20)
      • 2.2. Các bước tiến hành (20)
      • 2.3. Các phương pháp phân cụm (0)
        • 2.3.1. Phương pháp k-Means (0)
        • 2.3.2. Phương pháp Hierarchical Clustering (21)
      • 2.4. Đánh giá và nhận xét (26)
    • 3. Phân lớp dữ liệu (0)
      • 3.1. Mô tả bài toán 2 (0)
      • 3.2. Các bước tiến hành (27)
      • 3.3. Đánh giá và nhận xét (30)
    • 4. Dự báo bài toán được cho vay (33)

Nội dung

Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.Dự án mà nhóm của chúng em đã thực hiện là "Xây dựng mô hình dự báo khách hàn

GIỚI THIỆU DỰ ÁN

Tóm tắt dự án

Tín dụng tiêu dùng ngày càng trở nên không thể thiếu và là một phần quan trọng của cơ cấu kinh tế thị trường, đồng thời đó cũng là chiến lược và mục tiêu hàng đầu mà các công ty tài chính trên thế giới hướng đến, đặc biệt là Việt Nam Trong bối cảnh này, nhu cầu vay tiêu dùng của người dân nhằm đáp ứng các mục tiêu như mua nhà, mua xe ngày càng tăng cao Mặc dù việc vay tiêu dùng trở nên phổ biến và thuận tiện, nhưng để đáp ứng nhu cầu ấy thành công, người cho vay cần xem xét cẩn thận khả năng thanh toán của người vay trong khoảng thời gian nhất định.

Dự án“Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính”dựa trên tính cấp thiết của việc phát triển lĩnh vực cho vay tiêu dùng, sử dụng đặc điểm khách hàng lấy trong bộ dữ liệu từ nước ngoài. Nhóm sẽ tiến hành dự báo khả năng cho vay và đề ra khuyến nghị để phát triển việc cho vay tín dụng ở Việt Nam .

Cụ thể, thông qua phương pháp phân tích dữ liệu, phân cụm dữ liệu, phân lớp dữ liệu và dự báo kết quả để xác định yếu tố cũng như mức độ ảnh hưởng của đặc điểm khách hàng đến khả năng vay vốn Nhờ vào kết quả phân tích này, các công ty tài chính có thể xác định được phân khúc khách hàng đủ điều kiện vay vốn, đề xuất hướng phát triển dịch vụ cho vay, tối ưu hóa lợi nhuận và đạt hiệu quả tốt nhất cho cả hai bên.

Giới thiệu dự án

Như vậy, cho vay tiêu dùng là nguồn tài chính quan trọng giúp người tiêu dùng có thể trang trải các nhu cầu trong cuộc sống như nhà ở, phương tiện đi lại, tiện nghi sinh hoạt, học tập, du lịch, y tế… trước khi họ có đủ khả năng về tài chính để hưởng thụ (Khuất, n.d.)

2.2 Thực trạng cho vay tiêu dùng tại Việt Nam

Trong một thập niên qua, xu hướng tiêu dùng tại thị trường Việt Nam đã có nhiều thay đổi, người dân sẵn sàng chi tiêu trước cho các nhu cầu đời sống, thay vì tiết kiệm trước, chi tiêu sau; chuyển từ sử dụng tiền mặt sang thẻ tín dụng trong thanh toán và các kênh bán lẻ trực tuyến thay vì chuỗi cửa hàng bán lẻ, tác động lớn đến sự phát triển của tín dụng tiêu dùng trong hệ thống các tổ chức tín dụng Dựa trên thống kê của Hiệp hội Ngân hàng Việt Nam, đến cuối tháng 9/2023, toàn hệ thống có 84 tổ chức tín dụng triển khai hoạt động tín dụng tiêu dùng, trong đó có 15 công ty tài chính tiêu dùng Tổng dư nợ cho vay nền kinh tế đạt khoảng 12.749 nghìn tỷ đồng, trong đó tín dụng tiêu dùng của toàn hệ thống đạt khoảng 2.703 nghìn tỷ đồng, chiếm tỷ trọng 21,2% tổng dư nợ nền kinh tế. (Nguyễn, 2020)

Tuy nhiên, tình hình kinh tế trong nước cùng nền kinh tế toàn cầu thời gian gần đây đang phải trải qua vô số biến động phức tạp, dẫn đến hoạt động cho vay tiêu dùng gặp nhiều thách thức với tỷ lệ tăng trưởng thấp Khi so sánh giữa cuối năm 2022, dư nợ cho vay tiêu dùng toàn hệ thống chỉ tăng khoảng 1,53% - một mức tăng rất thấp so với 5 năm qua.

Bên cạnh đó, tỷ lệ nợ xấu trong tín dụng tiêu dùng toàn hệ thống có xu hướng gia tăng khoảng gần 3,7% tổng dư nợ tín dụng tiêu dùng Đặc biệt, tỷ lệ nợ xấu của các công ty tài chính có nguy cơ tăng hơn 15%, nhiều công ty lâm vào tình trạng khó khăn, thậm chí thua lỗ do phải trích dự phòng rủi ro nợ xấu (Anh Hồng, 2023).

Nguyên nhân của tất cả bối cảnh trên, ngoài những yếu tố khách quan nói chung, còn có những yếu tố chủ quan và rất nguy hiểm chưa được xử lý như: Khách hàng cố ý không trả nợ, người trước khuyên người sau không trả nợ, hay cán bộ công ty đến đòi nợ hoặc nhắc nợ thì bị chống đối, tố cáo…

Chính vì thế, đây là những vấn đề đòi hỏi sự chú ý và giải quyết kịp thời để có thể khai thác hết tiềm năng của cho vay tiêu dùng, hồi phục mức độ tăng trưởng của tín dụng tiêu dùng và đáp ứng tốt nhu cầu của người dân trong thời đại chuyển đổi số.

2.3 Khoa học dữ liệu và lĩnh vực vay tiêu dùng

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu, có ý nghĩa đối với hoạt động kinh doanh; đồng thời kết hợp với các nguyên tắc từ toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu Ngày nay, khoa học dữ liệu thường được các tổ chức cho vay sử dụng nhằm phân tích và xác định khách hàng đáng tin cậy, từ đó giảm thiểu rủi ro cũng như tạo nền tảng vững chắc trong việc cho vay tiêu dùng.

Câu hỏi“Các đối tượng Khách Hàng có đủ điều kiện cho vay hay không?”sẽ là mục tiêu chính của dự án trong việc áp dụng khoa học dữ liệu cho lĩnh vực đầy tiềm năng này.

2.4 Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính cho bài toán

Cho vay tiêu dùng thường có những đặc điểm sau đây:

Thứ nhất, quy mô của các hợp đồng vay thường nhỏ, dẫn đến chi phí tổ chức cho vay cao Điều này nghĩa là dù giá trị vay lớn hay nhỏ, nhân viên ngân hàng hoặc nhân viên tổ chức tín dụng vẫn phải thực hiện đầy đủ các bước trong quy trình tín dụng, dẫn đến chi phí quản lý tương đương với việc cho doanh nghiệp vay một món lớn để sản xuất kinh doanh.

Thứ hai, hoạt động cho vay tiêu dùng thường nhạy cảm theo chu kỳ kinh tế Nó tăng lên khi nền kinh tế mở rộng, người dân cảm thấy lạc quan về tương lai; giảm khi nền kinh tế suy thoái, khiến nhiều cá nhân và hộ gia đình hạn chế vay mượn.

Dựa trên những đặc tính của cho vay tiêu dùng, nhóm nghiên cứu đã xác định một số thuộc tính quan trọng như ID của cá nhân đi vay, số người phụ thuộc, giới tính, tình trạng hôn nhân, trình độ học vấn, khả năng làm chủ doanh nghiệp, thu nhập của người đề đơn vay, thu nhập của người đồng đề đơn vay, số tiền muốn vay, thời hạn vay theo tháng, lịch sử tín dụng của người đi vay, khu vực của người đi vay và quyết định có nên cho vay hay không của tổ chức tài chính Những thuộc tính này sẽ là cơ sở vững chắc để phân tích khả năng cho vay và đưa ra dự báo có tính hiệu quả về quản lý rủi ro, giúp các tổ chức tài chính đưa ra quyết định thông minh về việc cho vay tiêu dùng đối với khách hàng (Phân Tích Các Yếu Tố ảnh Hưởng đến Quyết định Vay Tiêu Dùng Tại Các Ngân Hàng Thương Mại Của Công Nhân Trên địa Bàn Thành Phố Biên Hòa, Tỉnh Đồng Nai, 2022)

Dựa vào bộ dữ liệu bao gồm dữ liệu huấn luyện và dữ liệu dự báo có sẵn, nhóm tiến hành tiền xử lý dữ liệu và phân cụm khách hàng để thấy rõ từng đặc điểm của họ thông qua những công cụ như Hierarchical clustering, Partitioning clustering (K-Means), Sau quá trình phân cụm, nhóm sử dụng dữ liệu đã phân cụm để tiến hành phân lớp, với mục đích dự đoán khả năng phê duyệt khoản vay mua nhà của công ty tài chính Cuối cùng, nhóm khai thác công cụ SVM, Tree, Logistic Regression để phân lớp và áp dụng Test andScore, ROC Analysis, Confusion Matrix để chọn ra phương pháp phù hợp.

XÂY DỰNG MÔ HÌNH DỰ BÁO BẰNG ORANGE

Phân tích dữ liệu

1.1 Mô tả bộ dữ liệu

Phân tích dữ liệu của các đặc trưng có tính phân loại:

Bộ dữ liệu của nhóm được thu thập từ công ty tài chính chuyên giải quyết tất cả các khoản vay Quá trình thu thập dữ liệu được thực hiện bằng cách họ đưa ra bài toán xác định phân khúc khách hàng đủ điều kiện vay vốn để nhắm mục tiêu cụ thể đến những khách hàng này Bằng cách dựa trên thông tin chi tiết khách hàng được cung cấp khi điền vào mẫu đơn đăng ký trực tuyến bằng thời gian thực.

Bộ dữ liệu gồm 367 đối tượng (hàng), có 10 thuộc tính (cột) đồng thời bộ dữ liệu này đã được xác thực Trước khi tiến hành phân tích nhóm có thực hiện bước xử lý dữ liệu trước vì nhận thấy có sự tồn tại một số dữ liệu mà thông tin thiếu hay bị bỏ trống Bên cạnh đó, nhóm cũng đã chọn skip để bỏ qua 1 cột meta do không phù hợp trong quá trình phân tích.

Bảng 1: Tổng quát dữ liệu về các thông tin của khách hàng vay tiêu dùng.

Thuộc tính Ý nghĩa Mô tả

Loan_ID Mã định danh của khách hàng Chuỗi ký tự chữ và số

Dependents Số người phụ thuộc của người đi vay Số tự nhiên

Gender Giới tính Male/Female

Married Tình trạng hôn nhân Yes/No

Education Trình độ học vấn Graduate/Not Graduate

Self_Employed Người đi vay có tự làm chủ doanh nghiệp của mình hay không

Applicant Income Thu nhập của người đề đơn vay Số tự nhiên

Co applicant Income Thu nhập của người đồng đề đơn vay Số tự nhiên

Loan Amount Số tiền muốn vay Số tự nhiên

Loan Amount Term Thời hạn vay theo tháng Số tự nhiên

Credit_History Lịch sử tín dụng của người vay Số tự nhiên

Property Area Khu vực của người đi vay Urban/SemiUrban /Rural

Loan_Status Quyết định có nên cho vay hay không

1.2 Tiền xử lý dữ liệu

Hình 1 Dữ liệu các thông tintừ danh sách khách hàng các khoản vay tiêu dùng.

Báo cáo sử dụng dữ liệu được lấy từ trangkaggle.com.

Nhập bộ dữ liệu test.csv vào máy, ta có thể thấy các cột giá trị của bộ dữ liệu Trong đó, Loan_ID chứa dữ liệu dạng ký tự nên sẽ không ảnh hưởng đến kết quả dự báo, ta chọn Skip; Dependents là số người phụ thuộc của người đi vay, ta chọn type là categorical và role là feature.

Hình 2 Data Table về các thông tintừ danh sách người vay tiêu dùng.

Từ data table thấy được có 2.1% dữ liệu bị thiếu (missing value), do đó tiến hành tiền xử lý dữ liệu thông qua preprocessing widget Chọn Impute Missing Values và Average/Most frequent (thay thế các giá trị bị thiếu bằng giá trị trung bình/xuất hiện nhiều nhất).

Hình 3 Tiền xử lý dữ liệu bị thiếu.

Sau khi tiền xử lý dữ liệu, ta có được một bộ dữ liệu hoàn chỉnh.

Hình 4 Data Table sau khi đã Tiền xử lý dữ liệu (no missing data)

Hình 5 Lưu dữ liệu tiến hành phân cụm

Sau đó, nhóm sẽ tiến hành lưu dữ liệu (Save data widget) để tiến hành phân cụm.

1.3 Thống kê mô tả dữ liệu

Từ dữ liệu đã lưu tiến hànhchọn feature statistic widget để tiến hành thống kê mô tả dữ liệu.

Hình 6 Mô hình tiến hành thống kê mô tả dữ liệu

Hình 7 Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu

Các thuộc tính mô tả dữ liệu:

Qua Thống kê cho thấy khách hàng có nhu cầu vay tiêu dùng chủ yếu là nam với297 khách hàng chiếm 80.93%và70 khách hàng chiếm 19.07%đối với khách hàng nữ.

Qua kết quả phân tích nhận thấy rằng khách hàng đã kết hôn chiếm tỉ lệ cao233 người với 63.49%và134 người chưa kết hôn chiếm 36.51%.

● Education Đa phần khách hàng có nhu cầu vay đã tốt nghiệp với283 khách hàng chiếm 77.11%và khách hàng chưa tốt nghiệp84 khách hàng chiếm 22.89%.

Phần lớn khách hàng không tự kinh doanh chiếm số lượng lớn với330 khách hàng chiếm 89.92% và khách hàng tự kinh doanh chiếm số lượng nhỏ với 37 khách hàng chiếm 10.08%.

● Credit_History Đa phần đây đều là lần đầu hay lần thứ hai của khách hàng có nhu cầu vay Trong đó có

59 khách hàng chưa từng vay trước đó chiếm 16,58% và 308 khách hàng đã từng vay 1 lần chiếm 83,92%.

Tất cả các khu vực đều có nhu cầu vay và số lượng khu vực lần lượt là nông thôn (Rural) là 111 khách hàng chiếm 30.25% và bán đô thị (Semiurban) là 116 khách hàng chiếm 31.61% và đô thị (Urban) là 140 khách hàng chiếm 38.15%.

Nhìn chung, phần lớn khách hàng có nhu cầu vay tín dụng không có người phụ thuộc (chiếm 57.22% với 210 người), cao thứ hai là có 59 khách hàng có 2 người phụ thuộc chiếm 16.08%, còn lại số khách hàng có 1 người phụ thuộc là 58 người chiếm 15.8% và từ 3 người phụ thuộc trở lên chiếm 10.9%.

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Trung bình thu nhập của người nộp đơn là 4805.60$, người có thu nhập cao nhất là 72529$ và vẫn tồn tại khách hàng có nhu cầu vay tín dụng không có thu nhập.

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Số tiền vay của khách hàng trung bình là 136.13 nghìn $, khách hàng có nhu cầu vay tiền cao nhất là 550 nghìn $ và thấp nhất là 28 nghìn $ Phần lớn khách hàng có nhu cầu vay tín dụng thường muốn vay khoảng 150 nghìn $.

● Loan_amount_term (đơn vị tháng)

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Khách hàng có nhu cầu vay với nhiều kỳ hạn khác nhau Trong đó kỳ hạn trung bình thường là 342 tháng, trong đó kỳ hạn vay lâu nhất là 480 tháng tương ứng 40 năm và thấp nhất là chỉ trong 6 tháng.

Phân cụm dữ liệu

Bài toán 1:Bài toán phân cụm khách hàng để thấy các đặc điểm của các khách hàng đã đăng ký khoản vay mua nhà của công ty tài chính Nhóm sử dụng file dữ liệu đã tiền xử lý và 2 phương pháp chính để tiến hành phân cụm là k-Means và Hierarchical Clustering.

Hình 8 Mô hình bài toán phân cụm

Các bước tiến hành phân cụm

Bước 1: Nhập File “processed_data” đã xử lý để tiến hành phân cụm Chọn skip

“Loan_ID” bởi vì biến này không phải là thông tin cần thiết để phân cụm khách hàng.

Bước 2:Sử dụng 2 phương pháp k-Means và Hierarchical Clustering để phân cụm dữ liệu.

Silhouette Scores nằm trong khoảng 0.25-0.5 Đối với phân cụm từ 4-8, vì Silhouette Scores 0.5 (C2 cao nhất là 0.96) Chia 2 cụm chưa phải là phương pháp tối ưu cho mô hình, ta sẽ tiến hành kiểm tra phương pháp với 3 cụm.

Vào Hierarchical Clustering widget để chọn lại Top N = 3 để phân thành 3 cụm.

Hình 15 Mô tả phương pháp Hierarchical Clustering theo 3 cụm

Chọn Pivot widget để xem số lượng mỗi cụm, C1 có 1 khách hàng (chiếm 0.27%), C2 có

4 khách hàng (chiếm 1,1 %) và C3 có 362 khách hàng (chiếm 98.63%) trên tổng số 367 khách hàng.

Hình 17 Mô hình chỉ số Silhouette Scores 3 cụm bằng Hierarchical Clustering

Hình 18 Kết quả mô hình phân cụm

Dựa trên mô hình chỉ số Silhouette Scores, thấy được chỉ số Silhouette của mỗi cụm trong mô hình khi chia làm 3 cụm Cụ thể, chỉ số Silhouette của C1 vẫn là 0, C2 trung bình là 0.36 < 0.5 (C2 cao nhất là 0.44) và C3 trung bình là 0.778 > 0.5 (C3 cao nhất là 0.849) Từ các kết quả trên ta nhận thấy phương pháp Hierarchical Clustering của bộ dữ liệu không thực hiện phân cụm được.

2.4 Đánh giá và nhận xét

Từ các phương pháp phân cụm đã phân tích, ta thấy cả 2 phương pháp K-Means và Hierarchical Clustering đều không phù hợp với mô hình cần phân tích Vì cả 2 phương pháp các số liệu khi chọn ngẫu nhiên 2 hoặc 3 cụm đối với Hierarchical Clustering và từ

2 - 8 cụm đối vớiK-Means đềukhông có cụm nào có chỉ số Silhouette Scores tốt, phần

Hình 19 Mô hình bài toán phân lớp

Bước 1: Nhóm tiến hànhnhập bộ dữ liệu train.csv, chọn Loan_Status làm biến Targetđể thực hiện phân lớp, cộtLoan_ID được bỏ qua (skip) do không ảnh hưởng đến kết quả.

Bước 2: Tiến hành tiền xử lý dữ liệu cho data, giải quyết các missing values bằng cách thay thế các giá trị bị thiếu bằng giá trị trung bình hoặc giá trị có tần suất xuất hiện nhiều nhất (Average/Most frequent).

Bước 3: Dùng Ranks xếp hạng các biến theo mối tương quan của chúng với biến mục tiêu, trong đó biến Credit_History có mối tương quan đáng kể nhất với biến mục tiêu Loan_status.

Bước 4: Thực hiện quá trình phân lớp bằng cách sử dụng các phương pháp như Hồi quy

Logistic, Cây quyết định, SVM Tiếp đó, dùng phương pháp ma trận nhầm lẫn và ROC để thực hiện đánh giá kết quả.

Bước 5: Sau khi thực hiện, đánh giá và tìm ra phương pháp tốt nhất Sử dụng phương pháp đó để để tiến hành phân lớp cho dữ liệu.

Hình 20 Insert bộ dữ liệu huấn luyện

Hình 21 Data Table sau khi đã tiền xử lý dữ liệu

Hình 22 Rank xếp hạng độ tương quan với biến target

3.3 Đánh giá và nhận xét

Tiến hành kiểm tra thử dữ liệu bằng Test and Score.

Chỉ số AUC (là phần diện tích dưới đường cong ROC) Chỉ số AUC của SVM là cao nhất (0.775) cho thấy rằng SVM và Logistic Regression là các phương pháp tốt trong ứng dụng mô hình phân tích.

Chỉ số CA (Classification Accuracy): CA càng gần 1 chứng tỏ tính chính xác trong phân loại càng lớn Cụ thể, trong bài toán 2 chỉ số CA của SVM cao nhất với 0.800 thể hiện tính phân loại tốt nhất trong 3 phương pháp.

Các chỉ số F1-Score, Precision, Recall và MCC càng tiến về 1 thì mô hình càng hiệu quả, trong đó, các chỉ số của SVM lần lượt là 0.778, 0.808, 0.800, 0.507 - cao và gần 1 nhất so với 2 phương pháp còn lại.

Tóm lại, sau khi thực hiện đánh giá 3 phương pháp trên, dựa vào các chỉ số phân tích, nhận thấy phương phápSVM (Support Vector Machine)và Logistic Regression là tối ưu để kiểm thử và phân tích, nhóm tác giả tiếp tục tiến hành đánh giá dựa trên Ma trận nhầm lẫn và ROC

Hình 23 Kết quả test and Score

Hình 24 Đồ thị ROC với target N qua 3 phương pháp phân lớp

Hình 25 Đồ thị ROC với target Y qua 3 phương pháp phân lớp

ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả, như vậy có thể đánh giá phương pháp Logistic Regression và SVM là hai phương pháp tốt để áp dụng vào mô hình.

● Ma trận nhầm lẫn (Confusion Matrix)

Hình 26 Ma trận nhầm lẫn cho Tree Decision

Hình 27 Ma trận nhầm lẫn cho Logistic Regression

Hình 28 Ma trận nhầm lẫn cho SVM

Qua 3 phương pháp phân lớp trên thấy rằng trong các ma trận nhầm lẫn thì ma trận nhầm lẫn của phương pháp Support Vector Machine (SVM) có tỷ lệ dự đoán sai lệch thấp nhất thấp nhất (36.2%) so với 2 phương pháp còn lại Nhận thấy các chỉ số tốt của phương pháp SVM, nhóm tiến hành thực hiện phân lớp và dự đoán các cá nhân đủ điều kiện nhận khoản vay dựa trên phương pháp này.

4 Dự báo bài toán được cho vay

Dự báo bài toán được cho vay

Sau khi xây dựng mô hình, huấn luyện cho máy, thực hiện dự báo 10 khách hàng được trích từ bộ dữ liệu test.csv có đủ điều kiện nhận khoản vay hay không.

Hình 29 Mô hình bài toán dự báo

Bước 1: Nhập bộ data processed.csv đã tiến hành tiền xử lý dữ liệu từ bài toán 1 Bước 2: Dùng Data Sampler trích lấy 10 dòng thông tin ứng với 10 khách hàng cần dự báo trong bộ dữ liệu vừa nhập.

Bước 3: Sử dụng mô hình đã huấn luyện và phương pháp SVM tiến hành dự báo trên 10 khách hàng thông qua công cụ Prediction.

Hình 30 Trích 10 dòng dữ liệu trong bộ dữ liệu processed

4.3 Kết quả dự báo và nhận xét

Hình 31 Kết quả dự báo bằng công cụ Predictions

N: Nhóm khách hàng không đủ điều kiện được cho vay

Y: Nhóm khách hàng đủ điều kiện được cho vay

Thông qua kết quả dự báo khả năng cho vay bằng công cụ Predictions, thấy được rằng 6/10 đối tượng ngẫu nhiên được trích ra nằm trong nhóm khách hàng phù hợp để cho vay.

Từ công cụ Rank được thực hiện từ bài toán 2 và kết quả dự báo ở bài toán 3, có thể thấy sự tương quan đáng kể giữa biến Credit_History và Loan_status Nếu 1 khách hàng có thông tin Credit_History là 0 thì thường ít có khả năng nhận được khoản vay từ công ty và ngược lại.

Trong quá trình nghiên cứu và đánh giá, dựa vào những kiến thức đã được học trên lớp và những nỗ lực, cố gắng của nhóm nghiên cứu trong quá trình thực hiện dự án, chúng em nhận thấy những hạn chế sau:

Bộ dữ liệu được phân tích chủ yếu mang mục đích mô phỏng cách dự đoán khả năng cho vay cho công ty tài chính Vì vậy, bộ dữ liệu sẽ không thể đại diện cho một mẫu tổng thể.

Ngoài ra, do khả năng của nhóm có hạn, nhóm chỉ có thể kiểm tra được ba phương pháp là Tree, SVM và Logistic Regression Bộ dữ liệu sẽ được khai thác tốt hơn nếu được triển khai theo một mô hình khác phù hợp ngoài ba mô hình đã sử dụng.

Do thời gian tiếp xúc với bộ môn Khoa học dữ liệu với còn khá ngắn, nên nhóm còn ít kinh nghiệm trong việc làm dự án trước đó Bài báo cáo còn nhiều thiếu sót, các đánh giá còn mang tính chủ quan tương đối, chúng em rất mong sự cảm thông và bỏ qua của thầy.

Nhóm sẽ tiếp thu và khắc phục những hạn chế, để thực hiện và hoàn thành các dự án tiếp theo một cách hoàn chỉnh hơn.

Dự án của nhóm là “Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính” với mục đích chủ yếu là đối chiếu và đưa ra khuyến nghị về việc cho vay tín dụng ở Việt Nam Chính vì vậy, để thực hiện thành công dự án này, nhóm đã áp dụng các nền tảng lý thuyết thực tiễn từ môn học Khoa học Dữ liệu, từ đó xây dựng một mô hình dự đoán có thể đảm bảo các ước tính từ phân tích là nhất quán Sau khi có phát hiện rõ ràng, nhóm đưa ra những kết luận sau: Nhìn chung, thu được kết quả từ phương pháp Prediction rằng 6/10 đối tượng ngẫu nhiên được trích ra nằm trong nhóm khách hàng phù hợp để cho vay Đây sẽ là phân khúc khách hàng mà công ty nên nhắm tới theo từng đặc điểm cụ thể của cá nhân Tuy nhiên, kết quả này mang tính chủ quan tương đối vì còn phụ thuộc vào nhiều yếu tố.

Không chỉ riêng nước ngoài, khả năng vay vốn thường bị ảnh hưởng bởi những điều kiện khác nhau Sự quan tâm đặc biệt đến việc vay vốn được nhấn mạnh, và doanh nghiệp có thể tham khảo mô hình đánh giá này nhằm áp dụng trong tương lai Điều này không chỉ giúp họ hiểu rõ hơn về từng đối tượng khách hàng, mà còn giúp công ty đề xuất các biện pháp nhằm tối ưu hóa quá trình cho vay, giảm thiểu rủi ro và đảm bảo lợi nhuận.

Nghiên cứu về mô hình dự báo khả năng cho vay đã được xây dựng dựa trên 13 thuộc tính đề cập ở trên Mặc dù đã tiến hành phân tích, nhưng do còn tồn tại một số thiếu sót nhất định, mô hình vẫn chưa thể xác định được mức độ ảnh hưởng của từng yếu tố cụ thể

Tuân thủ chặt chẽ quy trình cho vay và xây dựng các chính sách cho vay để kiểm soát và quản lý rủi ro dựa vào kinh nghiệm trong hoạt động tín dụng.

Xây dựng các chiến lược tiếp thị hiệu quả, nâng cao sức hấp dẫn của công ty đối với khách hàng tiềm năng.

Ngày đăng: 08/04/2024, 12:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w