Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,8 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI VỚI KHOẢN VAY CỦA SINH VIÊN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI VỚI KHOẢN VAY CỦA SINH VIÊN Chuyên ngành: Công nghệ thơng tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Đồng Nai - Năm 2022 LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn thầy PGS TS , người tận tình hướng dẫn, bảo ln có phản hồi tỉ mỉ thời gian nhanh nhất, giúp em suốt thời gian qua để em hồn thành luận văn Em xin gửi lời cảm ơn đến q thầy Trường Đại học nói chung Khoa Sau đại học nói riêng tạo điều kiện cho em học tập có đủ kỹ để hồn thành khóa đào tạo thạc sĩ chun ngành Công nghệ thông tin Cuối cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp bên cạnh ủng hộ tạo điều kiện để em hồn thành luận văn Xin chân thành cảm ơn! Học viên LỜI CAM ĐOAN Tơi xin cam đoan đề tài cơng trình nghiên cứu độc lập cá nhân tôi, hướng dẫn PGS TS Những số liệu kết nghiên cứu trung thực nguồn tài liệu tham khảo trích dẫn nguồn đầy đủ thích rõ ràng Khơng có chép hay vi phạm luật sở hữu trí tuệ pháp luật Việt Nam Tơi xin hồn tồn chịu trách nhiệm luận văn Học viên TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI VỚI KHOẢN VAY CỦA SINH VIÊN Ngành: Côn nghệ thông tin Mã số: 8480201 Học viên: Người hướng dẫn: PGS TS NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Thu thập thông tin, liệu, nghiên cứu có liên quan đến đề tài - Xử lý làm liệu, phân tích liệu - Nghiên cứu lựa chọn thuật tốn đề xuất mơ hình - Xây dựng hệ thống - Thử nghiệm đánh giá kết - Hoàn thiện hệ thống viết báo cáo luận văn Cách thức giải vấn đề Để giải toán Xây dựng hệ thống đánh giá rủi ro khoản vay sinh viên, dựa vào phương pháp máy học với mơ hình Random Forest thực theo bước sau: - Tìm kiếm nghiên cứu tổng quan qua báo, báo cáo, cơng trình nghiên cứu khoa học có liên quan đến đề tài - Thu thập, xử lý liệu phân chia liệu - Mô hình sử dụng cho liệu Random Forest, tìm hiểu mơ hình Random Forest - Tiến hành triển khai mơ hình Random Forest liệu thu thập xử lý Dùng ngơn ngữ lập trình Python để xây dựng hệ thống - Dùng phương pháp đánh giá mơ hình Confusion matrix để đánh giá tính xác hệ thống Đánh giá mặt khoa học kết - Luận văn hệ thống hóa lý thuyết liên quan tới tốn dự đốn rủi ro tài chính, đặc biệt trình bày chi tiết cách sử dụng mơ hình Random Forest - Luận văn xây dựng hệ thống đánh giá rủi ro tài rủi ro tốt nghiệp sinh viên, với liệu thực tế Trường Đại học Ngân hàng TP HCM cho kết nhanh, độ xác tốt Những vấn đề cịn tồn so với nội dung giao (nếu có) Ngày 29 tháng 12 năm 2022 MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG CHƯƠNG 1: PHẦN MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu nghiên cứu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Giới hạn nghiên cứu 1.5 Ý nghĩa khoa học 1.6 Ý nghĩa thực tiễn CHƯƠNG 2: TỔNG QUAN 2.1 Lý thuyết hệ thống thông tin 2.2 Rủi ro tín dụng tài 2.2.1 Các yếu tố dẫn đến rủi ro với khoản vay khách hàng cá nhân 2.2.2 Đánh giá rủi ro theo phương pháp định lượng 2.2.3 Đánh giá phân loại rủi ro theo máy học 2.3 Một số thuật toán phân loại máy học 2.3.1 Thuật toán 2.3.2 Phân loại máy học 2.3.3 Thuật toán Support Vector Machine 13 2.3.4 Thuật toán Logistic Regression 13 2.3.5 Thuật toán Decision Trees 14 2.3.6 Thuật toán Random Forest 14 2.4 So sánh Random Forest với thuật toán Cây định [17] 16 2.5 Các cơng trình nghiên cứu có liên quan 17 2.6 Những vấn đề luận văn cần nghiên cứu, giải 20 CHƯƠNG 3: PHƯƠNG PHÁP LUẬN 21 3.1 Phương pháp nghiên cứu 21 3.2 Quy trình cho vay với khoản vay sinh viên ngân hàng sách xã hội 22 3.3 Quy trình hỗ trợ tài cho sinh viên thực tế trường Đại học Ngân hàng TP HCM 23 3.4 Đề xuất quy trình hỗ trợ tài theo định hướng liệu 25 3.5 Phương pháp thu thập Dataset 25 3.6 Mơ hình Random Forest 27 3.7 Đánh giá mơ hình máy học 28 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 31 4.1 Mô tả liệu 31 4.2 Phương pháp xử lý liệu 33 4.3 Kết mơ hình Random Forest 33 4.3.1 Kết mô hình Random Forest dự đốn khả tài sinh viên 33 4.3.2 Kết mô hình Random Forest dự đốn khả tốt nghiệp 36 4.4 Mô tả hệ thống 38 4.4.1 Đối với người dùng quản trị viên 39 4.4.2 Đối với người dùng sinh viên: 40 4.5 Mơ tả kết mơ hình 40 4.6 Thực nghiệm hệ thống 41 CHƯƠNG 5: KẾT LUẬN 46 5.1 Đóng góp đề tài 46 5.2 Hạn chế đề tài 46 5.3 Hướng nghiên cứu phát triển 47 DANH MỤC HÌNH ẢNH Hình 2.1: Sơ đồ Hệ thống thông tin .5 Hình 2.2: Ví dụ phân loại nhị phân Hình 2.3: ví dụ phân loại nhiều lớp .10 Hình 2.4: Ví dụ phân loại nhiều nhãn 11 Hình 2.5: Ví dụ phân loại không cân 12 Hình 2.6: Mơ hình hóa hoạt động thuật tốn Random Forest 15 Hình 2.7: Quá trình hoạt động Random Forest .16 Hình 2.8: Quá trình hoạt động Random Forest .16 Hình 3.1: Sơ đồ bước thực .21 Hình 3.2: Sơ đồ Random Forest .28 Hình 4.1: Dữ liệu thu thập Trường Đại học Ngân hàng 31 Hình 4.2: 566 mẫu sinh viên khóa 33 34 gán nhãn nợ học phí 32 Hình 4.3: 566 mẫu sinh viên khóa 33 34 điểm trung bình 32 Hình 4.4: Xử lý liệu 33 Hình 4.5: Kết mơ hình Random Forest cho mơ hình dự đốn khả tài sinh viên 34 Hình 4.6: Kết mơ hình Random Forest dự đốn khả tốt nghiệp sinh viên 36 Hình 4.7: Mơ hệ thống đánh giá rủi ro khoản vay sinh viên 39 Hình 4.8: Hệ thống đánh giá rủi ro khoản vay sinh viên chạy tảng Python .42 Hình 4.9: Dữ liệu sinh viên định dạng csv kết nối trực tiếp từ máy quản trị viên vào hệ thống 42 Hình 4.10: Giao diện nhập liệu cho người sinh viên .43 Hình 4.11: Trường hợp sinh viên nhập liệu chưa xuất sở liệu .44 Hình 4.12: Kết dự đốn tài dự đốn khả tốt nghiệp 44 Hình 4.13: In kết dự đoán 45 Hình 4.14: Xuất kết dự đốn file pdf 45 DANH MỤC BẢNG Bảng 2.1: So sánh Random Forest với Decision tree 17 Bảng 3.1: Đối tượng thu thập thông tin 26 Bảng 3.2: Đơn vị cung cấp thông tin cách lấy thông tin 26 Bảng 3.3: Tổng quan thông tin thu thập 27 Bảng 4.1: Kết mơ hình Random Forest dự đốn khả tài sinh viên 34 Bảng 4.2: Kết ma trận nhầm lẫn (confusion matrix) mơ hình dự đốn khả tài sinh viên 35 Bảng 4.3: Kết mơ hình Random Forest dự đoán khả tốt nghiệp sinh viên 36 Bảng 4.4: Kết ma trận nhầm lẫn (confusion matrix) mơ hình dự đốn khả tốt nghiệp sinh viên 37 STT 31 32 33 Biến FIN311 INT302 BAF303 Mô tả liệu Thống kê Tỷ lệ Rớt (0) Rớt (0.00%) Không rớt (566) Không rớt (100%) Rớt (7) Rớt (1.24%) Không rớt (559) Không rớt (98.76%) Rớt (3) Rớt (0.53%) Không rớt (563) Không rớt (99.47%) Rớt/ Không rớt Rớt/ Không rớt Rớt/ Không rớt BẢNG XỬ LÝ DỮ LIỆU Tên trường Tên cột liệu chuyển đổi MSSV student_id Phương thức xử lý unique Được sử dụng làm khóa “Có khả tài chính” Tình trạng learning_status “Khơng có khả tài chính” Họ first_name Tên last_name Họ tên full_name Ngày sinh day_birth Tháng sinh month_birth Năm sinh Tuổi Giới tính year_birth age Năm - Năm sinh gender Chuyển đổi: Tên trường Tên cột liệu chuyển đổi Phương thức xử lý Nam - Male Nữ - Female Tỉnh thành province Chuyển đổi: thành phố trung ương theo tham khảo Cục Thống Kê Đà Nẵng Trực thuộc trung ương central_province Cần Thơ Hải Phòng Tp Hồ Chí Minh Hà Nội CMND citizen_id Điện thoại nhà phone Email email Tên cha Nghề nghiệp cha uniqiue fat_name fat_occupation Chuyển đổi: Cha_Đang làm việc fat_is_working Nghỉ hưu, mất, tự do, nội trợ = else = Tên mẹ Nghề nghiệp mẹ mot_name mot_occupation Tên trường Tên cột liệu chuyển đổi Phương thức xử lý Chuyển đổi: Mẹ_Đang làm việc mot_is_working Nghỉ hưu, mất, tự do, nội trợ = else = Khóa học entry_year Đơn vị department Ngành học major 0