Báo cáo dự án tên đề tài dự báo các đối tượng khách hàng đủ điều kiện được cho vay

35 0 0
Báo cáo dự án tên đề tài dự báo các đối tượng khách hàng đủ điều kiện được cho vay

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KINH TẾ TPHCM KHOA KẾ TOÁN BỘ MÔN KHOA HỌC DỮ LIỆU BÁO CÁO DỰ ÁN TÊN ĐỀ TÀI DỰ BÁO CÁC ĐỐI TƯỢNG KHÁCH HÀNG ĐỦ ĐIỀU KIỆN ĐƯỢC CHO VAY Giảng viên môn: ThS Trương Việt Phương Mã lớp học phần: 22C1INF50905959 Danh sách sinh viên nhóm: Mai Thị Thanh Hùn - 31211022987 Hồng Nguyễn Minh Ngọc - 31211022887 Ngô Quốc Thắng - 31211026604 Nguyễn Thị Thanh Xuân - 31211022055 - 3121102 Nguyễn Hoàng Vỹ TPHCM, ngày 09 tháng 10 năm 2022 BẢNG PHÂN CÔNG NHIỆM VỤ Họ và Tên Nhiệm vụ Đánh giá chất lượng Mai Thị Thanh Huyền Nội dung, trình bày 100% Hồng Nguyễn Minh Ngọc Nội dung, trình bày 100% Ngơ Quốc Thắng Nội dung, trình bày 100% Nguyễn Thị Thanh Xn Nội dung, trình bày 100% Nguyễn Hồng Vỹ Nội dung, trình bày 100% MỤC LỤC GIỚI THIỆU TỔNG QUAN DANH MỤC HÌNH ẢNH NỘI DUNG -2 Tóm tắt dự án -2 Giới thiệu dự án -2 2.1 Lý chọn đề tài -2 2.2 Mục tiêu nghiên cứu 2.3 Đối tượng, phạm vi nghiên cứu -3 Phương pháp nghiên cứu, công cụ thực hiệN Quy trình phân tích kết -4 4.1 Phân tích liệu 4.1.1 Mô tả liệu 4.1.2 Tiền xử lý liệu -5 4.1.3 Thống kê mô tả liệu 4.2 Phân cụm liệu -8 4.2.1 Mơ tả tốn 4.2.2 Các bước tiến hành 4.2.2.1 Xây dựng mơ hình 4.2.2.2 Các phương pháp phân cụm 4.2.2.3 Đánh giá, nhận xét -15 4.3 Phân lớp liệu 15 4.3.1 Mơ tả tốn -15 4.3.2 Các bước tiến hành -15 4.3.2.1 Xây dựng mơ hình -15 4.3.2.2 Các phương pháp phân lớp -16 4.3.2.3 Đánh giá, nhận xét -17 4.4 Dự báo khả cho vay -20 4.4.1 Mơ tả tốn -21 4.4.2 Các bước tiến hành -21 4.4.2.1 Xây dựng mơ hình 21 4.4.2.2 Kết dự báo 21 Hạn chế 22 Kết luận và khuyến nghị -22 6.1 Kết luận -22 6.2 Khuyến nghị -23 TÀI LIỆU THAM KHẢO 24 GIỚI THIỆU TỔNG QUAN Bộ môn Khoa học liệu là môn học việc khai phá, quản trị phân tích liệu để dự đốn xu hướng tương lai đưa định, chiến lược hành động Việc phân tích sử dụng liệu dựa vào ba nguồn tri thức: toán học (thống kê tốn học - Mathematical Statistics), cơng nghệ thơng tin (máy học Machine Learning) tri thức lĩnh vực ứng dụng cụ thể Do đó, suốt quá trình học tập tại Trường Đại học Kinh tế Thành Phố Hồ Chí Minh, chúng em không chỉ được học tập và trang bị thêm nhiều kiến thức lý thuyết về lĩnh vực khoa học liệu mà là cả cách vận dụng những bài học đó vào thực tiễn cho đúng đắn Những điều lẽ đó đều được nhóm chúng em tích luỹ, tổng hợp cũng cố gắng áp dụng thật hiệu quả vào dự án thay cho bài tiểu luận đánh giá cuối kỳ mang tên “Dự báo đối tượng khách hàng đủ điều kiện cho vay”        Qua dự án này, mục tiêu bản của chúng em là có thể khái quát rõ về những nhu cầu, lý và các tác đợng sẽ ảnh hưởng đến việc phân tích đối tượng khách hàng đủ điều kiện cho vay Đồng thời qua đó, chúng em - nhóm thực hiện dự án có thể trau dồi thêm khả làm việc nhóm, các kỹ mềm cần có và tích luỹ được nhiều kinh nghiệm xử lý dữ liệu cho những cơng việc ở tương lai Nhóm chúng em xin gửi lời cảm ơn chân thành đến trường Đại học Kinh tế TP.HCM đưa mơn học Khoa học liệu vào chương trình giảng dạy Và hết, nhóm em xin gửi lời cảm ơn đặc biệt sâu sắc đến ThS Trương Việt Phương giảng viên dạy mơn Khoa học liệu nhóm chúng em Trong trình giảng dạy, nhờ có sự chu đáo, tận tình hướng dẫn, chia sẻ của thầy về các kiến thức ở bộ môn Khoa học liệu lẫn những kinh nghiệm việc khắc phục nhiều thiếu sót thực hiện dự án mà nhóm em mới có thể hoàn thiện nghiên cứu của mình Kiến thức kinh nghiệm mà nhóm em có chưa đủ hồn hảo khơng tránh khỏi việc xảy sai sót Mong thầy có góp ý chân thành để nhóm em cải thiện tốt cho lần sau Cuối cùng, em xin chúc thầy gia đình thật nhiều sức khỏe, vui vẻ, hạnh phúc Luôn mong thầy giữ vững lửa nhiệt huyết để giảng dạy cho hệ mơn học đầy thú vị Nhóm em xin chân thành cảm ơn thầy! DANH MỤC HÌNH ẢNH Hình 1: Mơ hình q trình tiền xử lý liệu Hình 2: Mơ hình tốn phân cụm Hình 3.1: Mô tả phương pháp k-Means -9 Hình 3.2: Mơ hình số Silhouette Scores cụm phương pháp kMeans -10 Hình 3.3: Điểm Silhouette cao cụm theo phương pháp k-Means 11 Hình 4.1: Mô tả phương pháp Hierarchical Clustering theo cụm 11 Hình 4.2: Mơ hình số Silhouette Scores theo cụm phương pháp Hierarchical Clustering 12 Hình 4.3: Mô hình phương pháp Hierarchical Clustering theo cụm -13 Hình 4.4: Mơ hình số Silhouette Scores theo cụm phương pháp Hierarchical Clustering 13 Hình 4.5: Điểm Silhouette Scores cao cụm phương pháp Hierarchical Clustering 14 Hình 5: Mơ hình tốn phân lớp 15 Hình 6: Kết Test and Score -18 Hình 7: Mơ hình ROC Analysis C1, C2 qua ba phương pháp phân lớp 18 Hình 8.1: Kết Ma trận nhầm lẫn phương pháp Logistics Regression - 19 Hình 8.2: Kết Ma trận nhầm lẫn phương pháp Cây định 20 Hình 8.3: Kết Ma trận nhầm lẫn phương pháp SVM -20 Hình 9: Mơ hình tốn dự báo -21 Hình 10: Kết dự báo công cụ Predictions 22 NỘI DUNG Tóm tắt dự án Nhóm chúng em xây dựng dự án với mục tiêu phân tích liệu để xác định phân khúc khách hàng, đối tượng đủ điều kiện vay vốn để nhắm mục tiêu cụ thể đến khách hàng tiềm Để thực dự án, nhóm sử dụng phần mềm Orange kiến thức học lớp Nhằm tìm hiểu cặn kẽ để đưa phân tích xác thơng tin trên, nhóm chúng em thu thập liệu cụ thể thông tin chi tiết khách hàng cung cấp công ty tài Dream Housing Dựa vào liệu đó, nhóm chúng em sử dụng phương pháp phân cụm liệu, phân lớp liệu dự báo kết không xác định yếu tố ảnh hưởng đến việc có đủ điều kiện cho vay khơng mà cịn xác định yếu tố chủ yếu, yếu tố thứ yếu khả cho vay với yếu tố định đến việc cho vay Các yếu tố sau ảnh hưởng trực tiếp đến khả vay vốn bao gồm: Giới tính, Tình trạng nhân, Giáo dục, Thu nhập khách hàng, Số tiền Khoản vay, Thời hạn vay Lịch sử Tín dụng Từ xác định phân khúc khách hàng đủ điều kiện vay vốn, nhắm mục tiêu cụ thể đến khách hàng tìm hướng phát triển cho dịch vụ cho vay phù với lợi nhuận chung để đạt hiệu tốt Giới thiệu dự án 2.1 Lý chọn đề tài Cuộc sống ngày phát triển, nhu cầu vay tiêu dùng gia tăng mạnh mẽ gắn liền với nhu cầu hàng tiêu dùng lâu bền nhà, xe, Nó giúp cải thiện chất lượng sống người dân, công cụ đắc lực giúp giải nhanh vấn đề liên quan đến tài cá nhân doanh nghiệp Tuy nhiên, để nhu cầu đáp ứng thời điểm lúc dễ dàng thực cịn phụ thuộc vào nhân tố quan trọng, khả toán người vay Dựa nghiên cứu trước việc người ta khả chi trả khoản nợ với ngân hàng, cơng ty tài Livingston Lunt (1992), mơ hình chấm điểm tín dụng FICO, hệ thống xếp hạng tín dụng cá nhân BIDV, Vietinbank, Việc đánh giá khả trả nợ khách hàng giúp cho cơng ty nhận diện khách hàng “xấu” (khả cao có khơng chi trả khoản vay), từ đưa biện pháp xử lý để hạn chế rủi ro từ khoản vay loại khách hàng 2.2 Mục tiêu nghiên cứu Nghiên cứu giúp có thơng tin cần thiết đối tượng mà tìm hiểu Có thể sử dụng cơng cụ hỗ trợ để phân tích đưa kết luận cụ thể, xu hướng giải pháp cho doanh nghiệp Từ đó, doanh nghiệp dự đốn khả có nên cho người vay hay không.  Dự báo khả cho vay thông qua toán: - Bài toán 1: Phân cụm loại khách hàng chưa gán nhãn để thấy rõ đặc điểm khách hàng thông qua công cụ Hierarchical clustering, Partitioning clustering (K-Means),   - Bài toán 2: Phân lớp khách hàng từ liệu gán nhãn thơng qua tốn phân cụm để dự đốn khách hàng có đủ điều kiện vay cơng cụ Logistic Regression, SVM, Tree Neural Network - Bài toán 3: Dự báo khả cho vay qua công cụ Prediction từ phương pháp phân lớp (phương pháp tốt phương pháp phân lớp) 2.3 Đối tượng, phạm vi nghiên cứu Khảo sát thực phạm vi 614 khách hàng ngẫu nhiên có nhu cầu vay nợ mua nhà công ty tài Dream Housing Phương pháp nghiên cứu Hình 4.2: Mơ hình số Silhouette Scores theo cụm Hierarchical Clustering  Chọn cụm: C1 có khách hàng (chiếm 0.65%) , C2 có 27 khách hàng (chiếm 4.4%) C3 có 583 khách hàng (chiếm 94.95%) tổng số 614 khách hàng 15 Hình 4.3: Mơ tả phương pháp Hierarchical Clustering theo cụm Hình 4.4: Mơ hình số Silhouette Scores theo cụm Hierarchical Clustering => Nhận xét: Dựa mơ hình số Silhouette Scores, ta thấy mơ hình chia làm cụm đẹp hơn, hiệu nên ta chọn chia thành cụm - Chỉ số Silhouette C1 0.81 > 0.5, C2 0.583 > 0.5 ⇒ Phương pháp Hierarchical Clustering phương pháp tối ưu cho mơ hình nên ta nên áp dụng phương pháp 16 Hình 4.5: Điểm Silhouette cao cụm theo Hierarchical Clustering - Vì nhánh Hierarchical Clustering có cụm khách hàng có số lượng nhỏ nên ta bỏ qua tổng thể ⇒ Từ 640 khách hàng giảm xuống 610 khách hàng 4.2.2.3 Đánh giá, nhận xét Theo phân tích phương pháp phân cụm Ta thấy phương pháp K-Means với phương pháp Hierarchical Clustering phương pháp Hierarchical Clustering phù hợp với mơ hình mà ta cần phân tích (Vì phương pháp K-Means, C2 có số Silhouette Scores < 0.5) 4.3 Phân lớp liệu 17 Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp dự đoán loại lớp nhãn 4.3.1 Mơ tả tốn 2  Ở toán này, sử dụng liệu File “Data phân cụm”, liệu phân cụm thơng qua tốn 1, sau ta tiến hành trình phân lớp để sử dụng cho việc dự đốn khả cho khách hàng vay, điều giúp cho cơng ty xác định khách hàng tiềm 4.3.2 Các bước tiến hành 4.3.2.1 Xây dựng mơ hình  Mơ hình phân lớp: Hình 5: Mơ hình tốn phân lớp  Các bước thực toán phân lớp liệu: - Bước 1: Chọn liệu File “Data phân cụm” (gồm 614 biến) để tiến hành phân lớp, chọn cột “Cluster” làm Target Skip cột “Silhouette” 18 - Bước 2: Sử dụng phương pháp phân lớp Hồi quy Logistic, Cây định, SVM để tiến hành phân lớp Sau đó, thực đánh giá kết qua phương pháp Ma trận nhầm lẫn ROC - Bước 3: Chọn phương pháp đánh giá tốt nhất, dùng phương pháp phân lớp cho File “Data phân lớp” 4.3.2.2 Các phương pháp phân lớp  19  Phương pháp Hồi quy Logistic Regression ( Logistic Regression)  Phương pháp Cây định (Decison Tree)  Phương pháp SVM (Support Vector Machine) 4.3.2.3 Đánh giá, nhận xét 20  Sử dụng Test and Score để kiểm tra thử liệu Tiếp theo, chia nhỏ liệu thành phần theo phương pháp K-fold cross: - Chỉ số AUC (là phần diện tích đường cong ROC) Có số SVM gần (0.999) cho thấy SVM phương pháp tốt ứng dụng mô hình phân tích - Chỉ số CA (Accuracy): CA chứng tỏ tính xác lớn => Có số Logistic Regression cao (0.987) nên phương pháp có tính xác cao - Tương tự với số F1, Precision Recall: tiến mơ hình hiệu => Có số Logistic Regression cao (0.987) nên phương pháp dự đốn mang tính hợp lý ⇒ Như vậy, thông qua số trên, ta thấy phương pháp phương pháp Hồi quy Logistic (Logistic Regression) phương pháp tối ưu việc phân tích kiểm thử diện tích AUC tiến nên phương pháp mơ hình sử dụng tốt Hình 6: Kết Test and Score  Sử dụng ROC Analysis: 21 Hình 7: Mơ hình ROC C1, C2 qua ba phương pháp phân lớp Qua ROC Analysis ta thấy phương pháp Logistic Regression SVM hai phương pháp tốt để áp dụng vào mơ hình đường giá trị chúng gần với trục hoành trục tung  Sử dụng Confusion Matrix: Để tăng tính đánh giá mơ hình, ngồi việc dùng Test and Score ta dùng Ma trận nhầm lẫn (Confusion Matrix) để phân tích 22 Hình 8.1: Ma trận nhầm lẫn phương pháp Logistic Regression Hình 8.2: Ma trận nhầm lẫn phương pháp Cây định 23 Hình 8.3: Ma trận nhầm lẫn phương pháp SVM Qua phương pháp phân lớp hình ta thấy ma trận nhầm lẫn ma trận nhầm lẫn phương pháp Hồi quy Logistic (Logistic Regression) có tỉ lệ false thấp 12%.  ⇒ Hồi quy Logistic (Logistic Regression) phương pháp tối ưu việc áp dụng mô hình 4.4 Dự báo khả Dự báo tiên đoán kiện xảy tương lai, sở phân tích khoa học liệu thu thập (giống kết phân lớp) 4.4.1 Mơ tả tốn Sau thực xong toán 2, ta sử dụng phương pháp Hồi quy Logistic Regression (phương pháp đánh giá tốt nhất) trích 10% từ liệu phân lớp, xem chưa có nhãn (bằng cơng cụ Data Sampler) để tiến hành dự báo thông qua công cụ Predictions 4.2.2 Các bước tiến hành 4.4.2.1 Xây dựng mơ hình 24  Mơ hình dự báo: Hình 9: Mơ hình tốn dự báo  Cơng cụ Data Sampler: 4.4.2.2 Kết dự báo Ta dựa vào bảng Predictions để phân tích, đó:  C1: Nhóm khách hàng không đủ điều kiện cho vay  C2: Nhóm khách hàng đủ điều kiện cho vay Qua kết dự báo khả cho vay, ta thấy 61/61 khách hàng ngẫu nhiên trích nằm nhóm khách hàng đủ điều kiện cho vay biến predictions thuộc C2 Và kết nghiên cứu mang tính 25 chất dự báo chủ quan, không đánh giá tổng quan điều kiện vay vốn 100%  khách hàng Hình 10: Kết dự báo cơng cụ Predictions Hạn chế  Bên cạnh những nỗ lực trình thực dự án, nhóm chúng em tự nhận thấy hạn chế sau:  Data lấy nước ngồi nên khơng kiểm chứng trực tiếp, đánh giá cịn mang tính chủ quan  Cách trình bày phân tích cịn nhiều sai sót Vì chưa có kinh nghiệm làm nhiều dự án trước cố gắng để hồn thành tốt dự án nhóm nên chúng em mong thầy thông cảm bỏ qua Chúng em khắc phục hạn chế dự án tới Kết luận và khuyến nghị 6.1 Kết luận Mục tiêu ban đầu nhóm nghiên cứu “Dự báo khả đối tượng khách hàng đủ điều kiện cho vay” Các tảng lý thuyết đề cập môn học Khoa học liệu áp dụng để xây dựng mơ hình dự đốn đảm bảo 26 ước tính từ phân tích quán Sau thực hiện phân tích liệu, nhóm thực dự án đưa kết luận sau: - Nhìn chung, qua kết quả phân tích này đã phân tích cho thấy đâu là mục tiêu nhóm khách hàng mà công ty nhắm tới theo đặc điểm cụ thể cá nhân Cụ thể, 10% liệu khách hàng tách ngẫu nhiên, 61/61 khách hàng đủ điều kiện để cho vay (phân tích thuận lợi) - Việc đủ khả vay vốn hay không không bị tác động yếu tố định mà chịu tác động nhiều yếu tố khác Mặt khác, đa số khách đặt rất nhiều sự quan tâm đến việc vay vốn Các doanh nghiệp tham khảo mơ hình đánh giá để áp dụng tương lai, có nhìn cụ thể hố đối tượng khách hàng để đưa biện pháp, giải pháp nhằm nâng cao hiệu quả của việc cho vay, giúp công ty giảm thiểu rủi ro thu lợi nhuận 6.2 Khún nghị  Mặc dù mơ hình đưa kết dự báo ước tính khả có đủ điều kiện cho vay đối tượng khách hàng từ yếu tố đầu vào Cụ thể hơn, ta chưa thể xác định tác động yếu tố đầu vào nói riêng tác động đồng thời tất yếu tố đến khả được cho vay khách hàng Ngoài ra, ta chưa thể xác định yếu tố đầu vào có mối tương quan với hay khơng yếu tố có ảnh hưởng lớn đến biến phụ thuộc Nhưng dựa vào yếu tố trên, ta xác định mục tiêu khách hàng để cho vay, áp dụng cho mơ hình cho vay tương lai Đây vấn đề lớn thú vị mà đồ án tương lai nên xem xét để giải Nhóm chúng em đề xuất số khuyến nghị giúp công ty giảm thiểu rủi ro cho vay thu hút đầu tư đối tượng tiềm như: - Xây dựng hệ thống quản lý cập nhật thông tin hiệu quả, nắm bắt rõ thu thập tình hình người vay để phán đốn có giải pháp hay hướng đắn - Xây dựng sách kiểm soát quản trị rủi ro hoạt động tín dụng chủ yếu dựa vào kinh nghiệm tuân thủ chặt chẽ quy trình cho vay 27 - Ngồi nên có sách để ưu đãi đối tượng phù hợp thu hút đầu tư… TÀI LIỆU THAM KHẢO Slide giảng môn học Khoa học liệu VIKAS UKANI (2020) Loan Eligible Dataset, 28 từ ... Nhóm khách hàng khơng đủ điều kiện cho vay  C2: Nhóm khách hàng đủ điều kiện cho vay Qua kết dự báo khả cho vay, ta thấy 61/61 khách hàng ngẫu nhiên trích nằm nhóm khách hàng đủ điều kiện cho vay. .. nhập khách hàng, Số tiền Khoản vay, Thời hạn vay Lịch sử Tín dụng Từ xác định phân khúc khách hàng đủ điều kiện vay vốn, nhắm mục tiêu cụ thể đến khách hàng tìm hướng phát triển cho dịch vụ cho vay. .. có đủ điều kiện cho vay đối tượng khách hàng từ yếu tố đầu vào Cụ thể hơn, ta chưa thể xác định tác động yếu tố đầu vào nói riêng tác động đồng thời tất yếu tố đến khả được cho vay khách hàng

Ngày đăng: 21/03/2023, 18:09

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan