Ứng dụng mô hình học máy trong việc dự đoán khả năng ra quyết định cho vay của công ty dream housing finance về các khoản hồ sơ vay vốn mua nhà của khách hàng

41 13 0
Ứng dụng mô hình học máy trong việc dự đoán khả năng ra quyết định cho vay của công ty dream housing finance về các khoản hồ sơ vay vốn mua nhà của khách hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|18034504 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM TIỂU LUẬN MÔN HỌC: KHOA HỌC DỮ LIỆU ĐỀ TÀI: ỨNG DỤNG MƠ HÌNH HỌC MÁY TRONG VIỆC DỰ ĐOÁN KHẢ NĂNG RA QUYẾT ĐỊNH CHO VAY CỦA CÔNG TY DREAM HOUSING FINANCE VỀ CÁC KHOẢN HỒ SƠ VAY VỐN MUA NHÀ CỦA KHÁCH HÀNG Giảng viên hướng dẫn: NCS TS Thái Kim Phụng Lớp học phần: 22C1INF50905940 – Sáng thứ Nhóm sinh viên thực hiện: Nguyễn Đặng Thảo Chi 31211024039 Nguyễn Hoàng Hải My 31211025644 Nguyễn Thị Phương Thảo 31211024106 Phạm Uyên Khuê 31211024109 Lê Hoàng Hải Yến 31211025497 TP.HCM, ngày 30 tháng 10 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC DANH MỤC BẢNG BIỂU – HÌNH VẼ VÀ BIỂU ĐỒ .4 Chương 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc nghiên cứu Chương 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 2.1.1 Tại cần phải khai phá liệu? 2.1.2 Khai phá liệu gì? 2.1.3 Các thuật tốn khai phá liệu 2.1.4 Các kỹ thuật khai phá liệu 10 2.1.5 Các tính khai phá liệu 11 2.1.6 Quy trình khai phá liệu .11 2.1.7 Ứng dụng khai phá liệu lĩnh vực .12 2.1.8 Công cụ khai phá liệu sử dụng nghiên cứu - Orange .13 2.2 Phân lớp liệu 14 2.2.1 Khái niệm phân lớp liệu 14 2.2.2 Quá trình phân lớp liệu 14 2.2.3 Phân loại toán phân lớp 17 2.2.4 Các phương pháp phân lớp liệu 17 2.2.5 Các phương pháp đánh giá mơ hình 20 Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO 25 3.1 Mơ hình nghiên cứu 25 3.1.1 Xây dựng biến số dùng nghiên cứu 25 3.1.2 Biến phụ thuộc 26 3.1.3 Biến độc lập 26 3.2 Trực quan hóa liệu .27 3.2.1 Giới tính tình trạng nhân .27 3.2.2 Người phụ thuộc 27 3.2.3 Học vấn 28 3.2.4 Nghề nghiệp lịch sử tín dụng 29 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 3.2.5 Thu nhập người đề đơn 29 3.2.6 Thu nhập người đồng đề đơn 30 3.2.7 Khoản vay 30 3.2.8 Kỳ hạn khoản vay .30 3.2.9 Khu vực tài sản 31 3.2.10 Heatmap 32 3.3 Nguồn số liệu, phương pháp thu thập liệu nghiên cứu .32 3.4 Bộ liệu huấn luyện 32 3.5 Bộ liệu dự báo .33 3.6 Kết liệu huấn luyện 34 3.7 Kết liệu dự báo 36 3.8 Kết luận kết nghiên cứu 38 CHƯƠNG 4: KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP .39 4.1 Kết luận 39 4.2 Hạn chế giải pháp 39 TÀI LIỆU THAM KHẢO 41 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC BẢNG BIỂU – HÌNH VẼ VÀ BIỂU ĐỒ Hình 2.1 Mơ hình biểu diễn quy trình khai phá liệu Hình 2.2 Mơ hình phân lớp liệu Hình 2.3 Bước trình trình phân lớp: Xây dựng mơ hình phân lớp Hình 2.4 Bước 2.1 trình trình phân lớp: Đánh giá mơ hình Hình 2.5 Bước 2.2 q trình trình phân lớp: Phân lớp liệu Hình 2.6 Hình minh họa phương pháp phân lớp hồi quy Logistic (Logistic Regression) Hình 2.7 Hình minh họa mơ hình phân lớp SVM (Support vector machine) Hình 2.8 Hình minh họa mơ hình phân lớp định (Decision Tree ) Hình 2.9 Hình minh họa mơ hình phân lớp Neural Network Hình 2.10 Hình minh họa mơ tả phương pháp ma trận nhầm lẫn (Confusion Matrix) Hình 2.11 Cơng thức Precision Hình 2.12 Cơng thức Recall Hình 2.13 Cơng thức F1 – score Hình 2.14 Cơng thức Accuracy Hình 2.15 Hình minh họa mơ tả đường cong ROC giá trị AOC Hình 3.1 Trực quan hóa liệu theo tình trạng nhân giới tính Hình 3.2 Trực quan hóa liệu theo lượng người phụ thuộc Hình 3.3 Trực quan hóa liệu theo học vấn Hình 3.4 Trực quan hóa liệu theo nghề nghiệp lịch sử tín dụng Hình 3.5 Trực quan hóa liệu theo thu nhập người đề đơn Hình 3.6 Trực quan hóa liệu theo thu nhập người đồng đề đơn Hình 3.7 Trực quan hóa liệu theo khoản vay Hình 3.8 Trực quan hóa liệu theo kỳ hạn khoản vay Hình 3.9 Trực quan hóa liệu theo khu vực tài sản Hình 3.10 Heatmap Hình 3.11 Dữ liệu huấn luyện 27 thông tin cá nhân muốn vay Hình 3.12 Dữ liệu dự báo 27 thông tin cá nhân muốn vay Hình 3.13 Mơ tả thuộc tính biến huấn luyện Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.14 Tổng quan quy trình huấn luyện dự báo sơ đồ Hình 3.15 Kết mơ hình đánh giá phân lớp Cross Validation Hình 3.16 Ma trận nhầm lẫn với SVM Hình 3.17 Các thuộc tính liệu dự báo Hình 3.18 Kết dự báo SVM Hình 3.19 Chỉ số SVM Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Chương 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài Cơng nghệ thơng tin đóng vai trị quan trọng việc phát triển kinh tế – xã hội, mặt văn hóa trị với góp phần hình thành nhân tố mới, người Công nghê thông tin Việt Nam ngày dần phát triển bùng nổ khiến cho việc thu thập lượng lớn liệu tăng lên nhanh chóng Mặc dù, có nhiều cơng cụ hỗ trợ cho việc thu nhập, lưu trữ khai phá liệu, song, với bùng nổ lớn mạnh thông tin thu thập vượt ngồi tầm kiểm sốt người để nắm bắt chúng xử lý kịp thời Cần phải có kỹ thuật khai phá liệu lớn, thế, khai phá liệu mối quan tâm hàng đầu nhà nghiên cứu năm gần Khai phá liệu ứng dụng nhiều lĩnh vực tài chính, ngân hàng, cơng nghệ thơng tin, y tế, giáo dục,… Đặc biệt, với phát triển không ngừng ngành tài nay, việc mà xử lý liệu lớn cần phải thực nhanh chóng, triệt để, tránh mát nhiều thời gian Ngày nay, công nghệ thông tin ngày phát triển đồng nghĩa với việc cần phải phát triển phần mềm, ứng dụng để nâng cao suất làm việc, thay cho kỹ thuật xử lý thơ sơ trước Chính thế, khai phá liệu cơng cụ phân tích, giúp cho việc xử lý liệu diễn nhanh chóng thơng minh Khai phá liệu cho phép người sử dụng phân tích liệu với nhiều góc độ khác nhau, phân loại liệu theo nhiều quan điểm riêng biệt từ đó, tổng kết mối quan hệ bóc tách Để đánh giá mức độ tín nhiệm tổ chức doanh nghiệp cá nhân quy trình tín dụng nhiệm vụ đầy thách thức phải đánh giá dựa nhiều yếu tố: nguồn vốn, tảng tài chính, sở vay tín dụng, quản lý rủi ro… Hiện nay, nhiều doanh nghiệp áp dụng quy trình tín dụng truyền thống với thủ tục phê duyệt khoản vay thủ công dựa giấy tờ Đây nguyên nhân dẫn đến việc họ chậm trễ phản hồi định phận chuyên trách, không đáp ứng nhiều yêu cầu xử lý cấp bách khách hàng Đồng thời, việc quản lý liệu nội doanh nghiệp tạo khối lượng công việc lớn cho cấp quản trị Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Là sinh viên Tài Chính nói riêng thuộc ngành Kinh Tế nói chung, việc áp dụng kiến thức kinh tế vào việc quan sát, nắm bắt hiểu rõ việc kinh doanh mục tiêu sinh viên ngành Thông qua môn học Khoa học liệu, việc áp dụng công nghệ số hiểu rõ liệu mảng Tài Chính trở nên dễ hiểu dễ áp dụng trình nghiên cứu thị trường doanh nghiệp Hiểu điều này, công nghệ số ngày ứng dụng mạnh mẽ nhằm tự động hóa q trình thẩm định hồ sơ vay vốn nghiệp vụ ngân hàng doanh nghiệp, có cơng ty Dream Housing Finance Bằng cách hợp lý hóa tự động hóa quy trình cho vay, doanh nghiệp cần tìm kiếm giải pháp giúp họ vượt qua thách thức, nâng cao chất lượng danh mục vay mang lại hài lịng cho khách hàng.Việc tối ưu cơng nghệ khâu, đặc biệt khâu thẩm định hồ sơ cho vay giúp giảm đáng kể chi phí đồng thời nâng cao hài lòng khách hàng thời gian xử lý nhanh chóng, hiệu hệ thống Vì vậy, để kết hợp phương pháp khai phá liệu lĩnh vực cơng nghệ thơng tin với phân tích dự báo khâu thẩm định hồ sơ cho vay nhóm chúng em định chọn đề tài “Ứng dụng mơ hình học máy việc dự đoán khả định cho vay Công ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng” làm đề tài nghiên cứu cho tiểu luận 1.2 Mục tiêu nghiên cứu Bài nghiên cứu “Ứng dụng mơ hình học máy việc dự đốn khả định cho vay Công ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng” nhằm tập trung mục tiêu đề cập đây: · Bài nghiên cứu tiến hành phân tích lý thuyết khai phá liệu nhằm tập trung làm rõ vấn đề nghiên cứu · Nghiên cứu phương pháp cụ thể, phương pháp phân lớp liệu (phương pháp phân lớp đưa dự báo, phân loại phân lớp đối tượng) Nghiên cứu đưa phương pháp phân lớp liệu, từ chọn phương pháp tối ưu đảm bảo cho trình dự báo liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 · Dự báo mơ hình hoạt động kinh doanh dựa vào liệu huấn luyện, từ đưa mơ hình hoạt động kinh doanh tốt cho thẩm định hồ sơ cho vay công ty · Qua kết liệu huấn luyện với dự báo mơ hình hoạt động kinh doanh, nhóm chúng em đưa kết luận, với hạn chế nghiên cứu, sau đưa giải pháp tốt cho nghiên cứu 1.3 Đối tượng nghiên cứu Khách hàng sử dụng dịch vụ đăng kí cho vay trực tuyến công ty Dream Housing Finance Bộ liệu thu thập tạo Vikas Ukani đăng tải trang web kaggle Tập liệu bao gồm thông tin liệu thô chứa 367 hàng liệu (khách hàng) 12 cột (đặc tính độc lập) 1.4 Phương pháp nghiên cứu Phương pháp nghiên cứu đề tài kết hợp phân tích định tính với phân tích định tượng (dự báo) Chúng tơi sử dụng phương pháp thống kê, phân tích liệu, ứng dụng mơ hình hồi quy kinh tế định lượng để dự báo mơ hình định hồ sơ vay vốn mua nhà công ty khách hàng với hỗ trợ chương trình Orange Excel 1.5 Cấu trúc nghiên cứu Ngồi phần mục lục, danh mục bảng biểu hình vẽ, tài liệu tham khảo, đề tài kết cấu thành chương sau: · Chương I: Giới thiệu · Chương II: Cơ sở lý luận · Chương III: Phân tích dự báo · Chương IV: Kết luận, hạn chế - giải pháp Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Chương 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 2.1.1 Tại cần phải khai phá liệu? Trong vòng thập kỷ trở lại đây, lượng thông tin liệu lưu trữ tăng lên cách chóng mặt, tốc độ bùng nổ theo cấp số nhân, ước tính thơng tin tồn cầu tăng gấp đơi vịng năm Bên cạnh đó, sở liệu gia tăng đáng kể số lượng lẫn kích cỡ Tồn cầu rơi vào cảnh “ngợp” liệu khai thác tối ưu lượng thơng tin có Từ đó, khai phá liệu (Data Mining), đời “chiếc chìa khóa” giải thắc mắc, vấn đề hậu khối liệu tưởng chừng “bỏ đi” cách hữu hiệu triệt để Nói cách dễ hiểu khai phá liệu dạng công nghệ hỗ trợ khai thác, giúp người khám phá, chọn lọc thông tin hữu ích, tri thức tiềm ẩn vơ vàng liệu tích trữ suốt thời gian hoạt động công ty hay doanh nghiệp 2.1.2 Khai phá liệu gì? Khai phá liệu kỹ thuật quan trọng thuộc trình phát tri thức (Knowledge Discovery in Database) Đây trình phân loại, đánh giá tập liệu lớn nhiều góc độ, phương diện khác từ xác định mẫu thiết lập mối liên hệ để đưa định giải cho vấn đề Bên cạnh đó, doanh nghiệp đưa dự báo cho tương lai nhờ vào MCU khai phá liệu Khai phá liệu trình phức tạp tính chuyên sâu kho liệu địi hỏi cơng nghệ, kỹ tính tốn Bên cạnh đó, khai phá liệu khơng giới hạn việc trích xuất liệu mà cịn dùng để chuyển đổi, làm sạch, tích hợp liệu phân tích mẫu Xét ý tưởng lợi ích mà khai phá liệu mang lại thật nhu cầu tất yếu mà thời đại 4.0 thiếu 2.1.3 Các thuật tốn khai phá liệu Thuật tốn chiếm vai trò quan trọng khai phá liệu Chúng dùng để xử lí lượng liệu khổng lồ từ chọn lọc thơng tin có ích cho mục đích nghiên cứu Có nhiều thuật tốn học máy phần số Đây Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 q trình rèn trí thơng minh nhân tạo cho máy tính để tạo sở liệu đầu vào mang tính lịch sử thuật tốn Từ đưa dự đốn cho tình tương lai Có loại học máy: học máy có giám sát, học máy khơng giám sát, học máy bán giám sát học máy tăng cường Nhưng nghiên cứu này, xin phép đề cập đến học máy có giám sát học máy khơng giám sát · Học máy có giám sát: Trong q trình này, tập hợp thơng tin mẫu có nhãn đưa vào máy huấn luyện để tìm mối liên hệ mẫu nhãn, Mục đích làm giảm thiểu lỗi đưa dự đoán tương lai Một số ví dụ học máy có giám sát như: định, rừng ngẫu nhiên,… · Học máy không giám sát: Trong q trình học máy khơng giám sát, mẫu đưa vào huấn luyện không giám sát khơng dán nhãn Trong thuật tốn này, hàm chi phí thước đo khoảng cách định nghĩa; thuật toán phải giảm giá trị hàm chi phí theo thước đo khoảng cách Dự đoán đầu vào tương lai, định, phân cụm nhóm, giảm kích thước, v.v Một số ví dụ thuật tốn học khơng giám sát bao gồm phân cụm K-mean, mơ hình chuỗi Markov 2.1.4 Các kỹ thuật khai phá liệu Khai phá liệu chia thành số hướng sau: · Mô tả khái niệm (concept description): Kỹ thuật thiên tóm tắt, mơ tả tổng hợp khái niệm · Luật kết hợp (association rules): dạng luật biểu diễn tri thức dạng đơn giản, ứng dụng nhiều lĩnh vực kinh doanh, tin-sinh, tài thị trường chứng khống,… · Phân lớp dự đốn (classification & prediction): Là q trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước Một số phương pháp phân lớp : Hồi quy Logistic (Logistic Regression), Cây định ( Decision Tree), SVM (Support Vector Machine),… Phân lớp thuộc nhóm phương pháp học có giám sát (supervised learning) Chúng sử dụng kỹ thuật khai phá liệu để dự báo số liệu 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 ng thông tin quan trọng (lịch sử người vay, số tiền muốn vay, ) Việc ghi nhận lại n hững thông tin cần thiết thông tin cung cấp biến số s ẽ dẫn đến định cuối công ty Dream Housing Finance 3.2 Trực quan hóa liệu - Sinh viên sử dụng phần mềm Excel để trực quan hóa liệu thu kết sau: 3.2.1 Giới tính tình trạng nhân Hình 3.1: Trực quan hóa liệu theo tình trạng nhân giới tính - Phần lớn lượng người đề đơn vay nam kết hôn, lớn nhiều so với lượng n gười đề đơn nữ kết hôn 3.2.2 Người phụ thuộc 27 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.2: Trực quan hóa liệu theo lượng người phụ thuộc - Dữ liệu cho thấy hồ sơ vay người phụ thuộc có khả chấp nhận c ho vay cao hẳn so với hồ sơ vay có người phụ thuộc 3.2.3 Học vấn Hình 3.3: Trực quan hóa liệu theo học vấn - Lượng người đề đơn tốt nghiệp cao nhiều so với lượng người đề đơn chưa tốt nghiệp lượng hồ sơ chấp nhận cho vay phần lớn thuộc người đề đơn tốt nghiệp 3.2.4 Nghề nghiệp lịch sử tín dụng Hình 3.4: Trực quan hóa liệu theo nghề nghiệp lịch sử tín dụng 28 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Đa số người đề đơn làm th có lịch sử tín dụng tốt so với người đề đơn làm ngh ề tự do/ tự làm chủ doanh nghiệp 3.2.5 Thu nhập người đề đơn Hình 3.5: Trực quan hóa liệu theo thu nhập người đề đơn 3.2.6 Thu nhập người đồng đề đơn Hình 3.6: Trực quan hóa liệu theo thu nhập người đồng đề đơn 3.2.7 Khoản vay 29 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.7: Trực quan hóa liệu theo khoản vay - Lượng hồ sơ vay chấp nhận cao nhiều so với lượng hồ sơ vay bị từ chối 3.2.8 Kỳ hạn khoản vay Hình 3.8: Trực quan hóa liệu theo kỳ hạn khoản vay - Dữ liệu cho thấy kỳ hạn 360 tháng phổ biến so với kỳ hạn khác 3.2.9 Khu vực tài sản 30 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.9: Trực quan hóa liệu theo khu vực tài sản - Đa số khoản vay chấp nhận có tài sản nằm khu vực Semiurban so sánh vớ i khu vực Urban Rural 3.2.10 Heatmap Hình 3.10: Heatmap 3.3 Nguồn số liệu, phương pháp thu thập liệu nghiên cứu Bài nghiên cứu lấy liệu 367 thông tin khách hàng muốn vay nhà đất công ty Dream Housing Finance Số liệu sử dụng dựa báo cáo t ài 12 yếu tố nhóm ngành liệt kê sau: Giới tính, Tình trạng nhâ n, Giáo dục, Số người phụ thuộc, Thu nhập, Số tiền Khoản vay, Lịch sử Tín dụng, n hững thơng tin khác 31 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phương pháp thu thập liệu: thu thập liệu dựa nguồn https://ww w.kaggle.com/ Đây xem nguồn đáng tin cậy để thu thập d ữ liệu số thuộc lĩnh vực tài Phương pháp nghiên cứu: Bài nghiên cứu sử dụng Excel (2016) để tính to án số tài chương trình Orange để chạy mơ hình dự báo 3.4 Bộ liệu huấn luyện Khi ứng dụng mơ hình khai phá liệu việc dự báo biến số để đưa định cho vay doanh nghiệp hay công ty, nghiên cứu sử dụng liệu 12 nhân t ố để đưa yếu tố khách quan người vay tốt hay xấu thông qua biến số L oan_Status Yes hay No (Y/N) 614 thông tin cá nhân muốn vay thị trườn g cho vay Việt Nam Bộ liệu cá nhân muốn vay chia thành phần bao g ồm liệu huấn luyện liệu dự báo Bộ liệu huấn luyện giải thí ch chi tiết phần Bộ liệu 614 thông tin cá nhân muốn vay dùng để huấn luyện bao gồm 12 biến độc lập Loan_ID, Dependents, Gender, Married, Education, Self Em ployed, Applicant Income ,CoapplicantIncome, Loan Amount, Loan Amount Term, Credit History, Property_Area, biến phụ thuộc Loan_Status chia thành loạ i sau: Yes đồng ý cho vay, ngược lại No không đồng ý cho vay 32 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.11: Dữ liệu huấn luyện 27 thông tin cá nhân muốn vay Nguồn: Kết từ chương trình Orange 3.5 Bộ liệu dự báo Hình 3.12: Dữ liệu dự báo 27 thơng tin cá nhân muốn vay Nguồn: Kết từ chương trình Orange Sau có liệu huấn luyện cá nhân muốn vay, dự báo 27 c nhân muốn vay dựa vào huấn luyện có sẵn Dự báo lựa chọn phương phá p phân lớp liệu để lựa chọn phương pháp thích hợp thông qua cách đánh giá mô hình phân lớp 3.6 Kết liệu huấn luyện Đầu tiên, sử dụng phần mềm Orange để đưa liệu huấn luyện vào Sau đưa liệu huấn luyện vào, bắt đầu khai báo thuộc tính liệu huấn luyện Các thuộc tính liệu huấn luyện thiết kế sau Đối với biến độc lập Education, Self Employed, Applicant Income, CoapplicantIncome, Loan Amount, Loan Amount Term, Credit History, Property Area khai báo thuộc tính “feature”, sau đó, khai báo thuộc tính “target” cho Loan Status (Loan Status kết huấn luyện cho kết Yes hay 33 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 No) Loan Status chia thành hai loại Yes - đồng ý, No - khơng đồng ý Cịn Loan_ID, Dependents, Gender, Married, liệu cột dạng ký tự nên không ảnh hưởng đến trình dự báo, khơng cần “skip” Hình 3.13: Mơ tả thuộc tính biến huấn luyện Nguồn: Kết từ chương trình Orange Sau khai báo thuộc tính liệu cần ý, nghiên cứu l ựa chọn phương pháp phân lớp liệu phù hợp thông qua số CA, F – score, Precison, Recall Các phương pháp phân lớp mà nghiên cứu sử dụng Tree Decision, Logistic Regression, SVM, Neural Network Bài nghiên cứu vẽ sơ đồ c trình huấn luyện dự báo thể hình 3.7 sau: 34 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.14: Tổng quan quy trình huấn luyện dự báo sơ đồ Nguồn: Kết từ chương trình Orange Sau có sơ đồ hình 3.7, nghiên cứu tiếp tục vào phần Test and Sc ore để tổng quan số lựa chọn mơ hình phù hợp cho nghiên cứu Ở b ài nghiên cứu sử dụng phương pháp đánh giá mơ hình phân lớp với Cross Validati on với Number of fold (=5) để đánh giá với tính vượt trội tránh trùng l ặp tập kiểm thử Hình 3.15: Kết mơ hình đánh giá phân lớp Cross Validation Nguồn: Kết từ chương trình Orange Ở hình 3.8, SVM đánh giá cao kể số CA, F 1, Precision, Recall Gi trị F SVM cao với 77.5% Giá trị chưa phải cao nhất, đó, giá trị AUC SVM 76.1%, số cao Để tính số này, ng hiên cứu sử dụng ma trận nhầm lẫn hình 3.9 sau: Hình 3.16: Ma trận nhầm lẫn với SVM 35 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguồn: Kết từ chương trình Orange Hình 3.9 thể 614 mẫu liệu huấn luyện: · Có 192 cá nhân thuộc lớp “Khơng nên cho vay”, lượng mẫu phân lớ p lên đến 83.2% có 21.1% mẫu bị phân nhầm lớp · Bên cạnh đó, phân lớp “Nên cho vay” có 422 cá nhân , có tới 78.9% cá nhâ n thuộc phân lớp cịn 16.8% cá nhân bị nhầm phân lớp Thơng qua phương pháp đánh giá sử dụng nói trên, rút kết luận rằng: Đ ối với liệu sử dụng nghiên cứu này, thuật tốn phân lớp SVM cho m hình vô phù hợp ứng dụng để dự báo định đầu tư hiệu công ty liệu dự báo trình bày phần sau 3.7 Kết liệu dự báo SVM phương pháp phân lớp thích hợp cho nghiên cứu, sử dụng S VM dự báo cho 367 thông tin cá nhân vay Tôi tiến hành bước tương tự nh liệu huấn luyện, đưa liệu dự báo vào chương trình Orange chạy t huộc tính cho biến số liệu báo giống liệu huấn luyện Hình 3.17: Các thuộc tính liệu dự báo Nguồn: Kết từ chương trình Orange Cũng giống liệu dự báo, nghiên cứu khai thuộc tính Coapplic antIncome, Loan Amount, Loan_Amount_Team, Credit_History , Property_Area 36 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 “feature” Sau đó, vào Predictions để xem dự báo SVM Hình 3.11 thể kết dự báo 19 thông tin cá nhân Hình 3.18: Kết dự báo SVM Nguồn: Kết từ chương trình Orange Qua kết dự báo minh họa 19 cá nhân, cho thấy có 15 thơng tin Yes hay đ ồng ý cho vay có cá nhân No hay không cho vay Lý mà kết lại đ ược phân lớp Chúng ta xem kết số SVM hình 3.9 để thấy rõ phân lớp SVM Hình 3.19: Chỉ số SVM Nguồn: Kết từ chương trình Orange 37 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Ở hình 3.12 minh họa 32 cá nhân, thơng qua số SVM mà ta kết l uận sau Những cá nhân có số SVM Y (YES) cá nhân ch o vay có số SVM N phân loại vào có nhân khơng có địn h cho vay Từ bảng số SVM cho thấy 32 thông tin cá nhân xếp vào n hóm đồng ý định cho vay 3.8 Kết luận kết nghiên cứu Bài nghiên cứu ứng dụng mơ hình học máy để dự đoán khả định cho vay công ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng Bài nghiên cứu dùng liệu 981 người có 614 người thuộ c liệu huấn luyện 367 người thuộc liệu dự báo Tiến hành phân tích liệu huấn luyện, lựa chọn thuộc tính cần sử dụng cho biến độc lập biến phụ thuộc ta thấy SVM phương pháp phân lớp thích hợp cho nghi ên cứu thông qua bảng số F1-score, Precision, Recall Tiếp theo ta sử dụng ma trận nhầm lẫn để rút kết luận cho liệu huấn luyện Với liệu dự báo, tiến hành chạy mơ hình dự báo Orange cụ thể sử dụng phương pháp SVM để dự báo khả định cho vay 367 người nên hay không nên Kết mang tính chất học thuật tham khảo, dự báo thơng qua số liệu có sẵn, nh ững số liệu dự báo thực chưa phải xác Về công nghệ thông tin, nghiên cứu sử dụng phần mềm Orange để chạy mơ hình từ đưa mơ hình cụ th ể, xác, đánh giá liệu dự báo thông qua liệu huấn luyện CHƯƠNG 4: KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP 4.1 Kết luận Bài nghiên cứu làm rõ mục tiêu đề cập chương Bài nghiên cứu kết hợp lĩnh vực khác nhau, tác động qua lại lẫn cho vay cơng nghệ Sử dụng cơng nghệ để áp dụng lên cho lĩnh vực kinh tế nhiều người quan tâm nghiên cứu ứng dụng điều hợp lý Bài nghiên cứu sử dụng phần mềm Excel Orange việc dự báo khả định cho 38 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 vay công ty khoản hồ sơ vay vốn mua nhà khách hàng Nhìn chung, nghiên cứu hoàn thành mục tiêu nghiên cứu đề thông qua phương diện Về lý thuyết, đề tài trình bày sơ sở lý thuyết tổng quan kỹ thuật khai phá liệu, tập trung chủ yếu vào phương pháp phân lớp liệu, từ chọn SVM phương pháp tối ưu cho nghiên cứu Về thực nghiệm, áp dụng tảng lý thuyết nghiên cứu vào toán ứng dụng dự báo khả định cho vay công ty 367 người thuộc liệu dự báo, thông qua biến phụ thuộc định “ Nên hay không nên cho vay” 12 biến độc lập khác Bài nghiên cứu đề xuất xây dựng bốn mơ hình dự đốn thuật tốn Tree, SVM, Neural Network Logistic Regression, từ so sánh mơ hình với chọn mơ hình tối ưu SVM Việc triển khai ứng dụng việc dự báo khả định công ty người cần vay giúp cơng ty có nhìn đắn định cho vay, biết cần dựa vào yếu tố để đánh giá khả hoàn trả người tương lai Cụ thể người dự báo “ Nên cho vay”, họ thu kết hồn trả khả quan hơn, người dự báo “Khơng nên cho vay”, cơng ty cân nhắc, thận trọng việc cho vay nhận thấy khả hoản trả không trả quan người đề đơn vay Qua đó, cơng ty phân rút dấu hiệu cần thiết người có nhu cầu vay để áp dụng với người khác tương lai 4.2 Hạn chế giải pháp Mặc dù nghiên cứu làm theo hướng nghiên cứu khoa học có sai sót định Vì hạn chế mặt thời gian nên nghiên cứu thực cách lấy mẫu trang website kaggle.com/datasets, mẫu nghiên cứu tầm 900 mẫu Vì việc lấy mẫu cịn nên ảnh hướng phần đến số mơ hình F1 – score, Precision hay Recall Việc đưa định cho vay công ty nên hay không ảnh hướng nhiều nhân tố tài người cần vay nhiều nhân tố kinh tế vĩ mô hay nhân tố khác nên cịn nhiều yếu tố khác ảnh hưởng đến việc định cho vay bị bỏ sót Qua hạn chế đề tài, nghiên cứu đưa vài giải pháp thích hợp cho hướng nghiên cứu Các giải pháp liệt kê sau 39 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Số lượng mẫu để dự báo hay huấn luyện cịn ít, nên hướng nghiên cứu cố gắng việc thu thập nhiều mẫu để tăng độ xác mơ hình dự báo Cần mở rộng thêm thời gian nghiên cứu, giả sử từ năm trở lên, dự báo xác cần phải mở rộng biến số bao gồm biến số kinh tế biến số khác tài ngồi 12 biến đề cập mơ hình TÀI LIỆU THAM KHẢO Khai phá liệu – Tổng quan, ứng dụng tảng thông dụng để khai phá liệu https://aita.gov.vn/khai-pha-du-lieu-%E2%80%93-tong-quan-ung-dung-va-cac-nentang-thong-dung-de-khai-pha-du-lieu 2.http://uet.vnu.edu.vn/~thuyhq/Student_Thesis/K44_Do_Thi_Dieu_Ngoc_Thesis.pdf Data Mining gì? Các cơng cụ khai phá liệu phổ biến https://insight.isb.edu.vn/data-mining-la-gi-cac-cong-cu-khai-pha-du-lieu/ Logistic regression 40 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 http://maitrongnghia.com/2020/04/logistic-regression/ Confusion Matrix / Ma trận nhầm lẫn / Ma trận lỗi https://aithietke.com/confusion-matrix-ma-tran-nham-lan-ma-tran-loi/ SVM khó hiểu! Hãy đọc https://trituenhantao.io/kien-thuc/svm-qua-kho-hieu-hay-doc-bai-nay/ 41 Downloaded by vu ga (vuchinhhp2@gmail.com) ... tích dự báo khâu thẩm định hồ sơ cho vay nhóm chúng em định chọn đề tài ? ?Ứng dụng mơ hình học máy việc dự đốn khả định cho vay Công ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng? ??... nghiên cứu cho tiểu luận 1.2 Mục tiêu nghiên cứu Bài nghiên cứu ? ?Ứng dụng mơ hình học máy việc dự đốn khả định cho vay Cơng ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng? ?? nhằm... luận kết nghiên cứu Bài nghiên cứu ứng dụng mô hình học máy để dự đốn khả định cho vay công ty Dream Housing Finance khoản hồ sơ vay vốn mua nhà khách hàng Bài nghiên cứu dùng liệu 981 người có

Ngày đăng: 23/02/2023, 22:06

Tài liệu cùng người dùng

Tài liệu liên quan