Trang 1 TRƯỜNG ĐẠI HỌC QUY NHƠNĐỖ VĂN TUẤNNGHIÊN CỨU ỨNG DỤNG THUẬT TOÁNHỌC MÁY TĂNG CƯỜNG CHO BÀITỐN CHẤM ĐIỂM TÍN DỤNGĐỀ ÁN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Trang 2 TRƯỜNG ĐẠI HỌC QU
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN ĐỖ VĂN TUẤN NGHIÊN CỨU ỨNG DỤNG THUẬT TOÁN HỌC MÁY TĂNG CƯỜNG CHO BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG ĐỀ ÁN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định - 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN ĐỖ VĂN TUẤN NGHIÊN CỨU ỨNG DỤNG THUẬT TOÁN HỌC MÁY TĂNG CƯỜNG CHO BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG Ngành: Khoa học dữ liệu ứng dụng Mã số: 8904648 Người hướng dẫn: TS Hồ Văn Lâm LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện đề án thực sự của riêng tôi, dưới sự hướng dẫn của TS Hồ Văn Lâm Mọi tham khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc tế đều được trích dẫn một cách rõ ràng trong đề án Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm trước Hội đồng cũng như kết quả đề án của mình Học viên Đỗ Văn Tuấn LỜI CẢM ƠN Trong quá trình thực hiện và hoàn thiện đề án này, tôi xin gửi lời cảm ơn chân thành nhất đến các Thầy/Cô trong Khoa Toán - Thống kê và Khoa Công nghệ thông tin trường Đại học Quy Nhơn cũng như các Thầy thỉnh giảng ở các trường, các viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt 2 năm học vừa qua Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới Thầy TS Hồ Văn Lâm đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất đề án của mình Tôi xin chân thành cảm ơn! Học viên Đỗ Văn Tuấn 3 MỤC LỤC MỞ ĐẦU 4 CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY VÀ THUẬT TOÁN CATBOOST 7 1.1 Học máy - Machine learning (ML) 7 1.1.1 Khái niệm 7 1.1.2 Các phương pháp học máy 7 1.2 Cây quyết định - Decision tree (DT) 10 1.3 Học kết hợp - Esemble learning (EL) 12 1.3.1 Bagging (Đóng bao) 12 1.3.2 Boosting (Tăng cường) 13 1.3.3 Stacking (Xếp chồng) 14 1.4 Thuật toán Gradient Boosting 15 1.5 Thuật toán Catboost 17 1.5.1 Giới thiệu 17 1.5.2 Cây đối xứng trong CatBoost - Symmetric tree 18 1.5.3 So sánh CatBoost, LightGBM và XGBoost 18 1.6 Phương pháp đánh giá mô hình 20 1.6.1 Độ đo dùng trong phân loại 20 1.6.2 Đánh giá mô hình bằng kiểm tra chéo 21 1.7 Phương pháp xử lý mất cân bằng dữ liệu 23 1.7.1 Tăng nhóm thiểu số - Oversampling 23 1.7.2 Giảm nhóm đa số - Undersampling 23 1.7.3 Phương pháp SMOTE 24 CHƯƠNG 2 BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG 25 2.1 Các bước thực hiện bài toán 25 2.2 Tìm hiểu nghiệp vụ của bài toán 25 2.2.1 Quy trình phê duyệt cho vay của ngân hàng 25 2.2.2 Các nhóm nợ của ngân hàng 26 2.2.3 Mục đích phân loại nhóm nợ trong hoạt động vay vốn: 28 2.3 Hiểu dữ liệu 28 2.4 Chuẩn bị dữ liệu 33 2.4.1 Loại bỏ các biến không cần thiết và gán nhãn 34 2.4.2 Chọn các biến để xây dựng mô hình 34 2.4.3 Xử lý dữ liệu mất cân bằng 37 CHƯƠNG 3 XÂY DỰNG MÔ HÌNH CHO BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG VÀ CÀI ĐẶT THỰC NGHIỆM 40 3.1 Xây dựng mô hình dự đoán 40 3.1.1 Cài đặt các thư viện 40 3.1.2 Chia dữ liệu giữa tập train và test 41 3.1.3 Xây dựng mô hình 42 3.1.4 Xếp hạng độ quan trọng của các biến 44 4 3.1.5 Lưu mô hình CatBoost để triển khai thực tế 45 3.2 Đánh giá mô hình 45 3.3 Triển khai thực tế 47 KẾT LUẬN VÀ KIẾN NGHỊ 50 DANH MỤC TÀI LIỆU THAM KHẢO 51 1 DANH MỤC TỪ VIẾT TẮT AI Artificial intelligence CatBoost Categorical Boosting CBTD Cán bộ tín dụng CNTT Công nghệ thông tin DT Decision tree EL Esemble learning GPU Graphics Processing Unit KTĐTVT Kỹ thuật Điện tử Viễn thông LightGBM Light Gradient Boosting Machine ML Machine learning SMOTE Synthetic Minority Over-sampling Technique THPT Trung Học Phổ thông TSBĐ Tài sản bảo đảm XGBoost Extreme Gradient Boosting 2 DANH SÁCH BẢNG 1.1 Bảng so sánh CatBoost, LightGBM và XGBoost 18 2.1 Mô tả chi tiết các biến được chọn 36 3 DANH SÁCH HÌNH VẼ 1.1 Các phương pháp học máy 7 1.2 Minh hoạ học máy có giám sát 8 1.3 Minh hoạ học máy không giám sát 9 1.4 Minh hoạ học tăng cường 9 1.5 Thành phần trong cây quyết định 10 1.6 Sơ đồ trực quan một cây quyết định 12 1.7 Phương pháp EL Bagging 13 1.8 Phương pháp EL Boosting 14 1.9 Phương pháp huấn luyện mô hình theo Gradient Boosting 16 1.10 Ví dụ mình hoạ cây đối xứng 18 1.11 Bảng so sánh giá trị Logloss giữa các thuật toán học máy tăng cường 19 1.12 Bảng so sánh thời gian huấn luyện 20 1.13 Bảng mô tả ma trận nhầm lẫn 20 2.1 Quy trình đánh giá, phê duyệt vốn của khách hàng cho vay 26 2.2 Dữ liệu thu thập 29 2.3 Biểu đồ số lượng các nhóm nợ 30 2.4 Biểu đồ phân bố loại khách hàng 30 2.5 Biểu đồ phân bố loại hình vay của khách hàng 31 2.6 Biểu đồ tương quan giữa các biến 32 2.7 Biểu đồ tương quan giữa các biến sau chọn lọc 35 2.8 Biểu đồ các nhóm nợ sau khi đã xử lý mất cân bằng 39 3.1 Minh hoạ Overfitting trong huấn luyện mô hình 43 3.2 Ma trận nhầm lẫn trên dữ liệu test 46 3.3 Giao diện website chấm điểm tín dụng 49 4 MỞ ĐẦU 1 Lý do chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của khoa học dữ liệu, bài toán chấm điểm tín dụng đang trở thành một thách thức quan trọng trong lĩnh vực tài chính và ngân hàng Điều này đặt ra nhu cầu cao về các phương pháp đánh giá rủi ro hiệu quả và chính xác để đảm bảo tính bền vững của hệ thống tài chính Trong ngữ cảnh này, ứng dụng thuật toán học máy tối ưu trở nên quan trọng để cải thiện khả năng dự đoán và đánh giá rủi ro trong quá trình chấm điểm tín dụng Trong những năm gần đây, sự phát triển của các thuật toán học máy tăng cường như CatBoost, XGBoost, LightGBM và các biến thể khác đã đem lại đột phá lớn trong lĩnh vực học máy và khai thác dữ liệu Đặc biệt, CatBoost, một thuật toán dựa trên cây quyết định, đã thu hút sự chú ý đặc biệt từ cộng đồng nghiên cứu trong lĩnh vực Điều này không chỉ bởi tính linh hoạt của nó mà còn bởi khả năng tối ưu hóa và tăng tốc quá trình huấn luyện mô hình Mặt khác, bài toán chấm điểm tín dụng đặt ra những thách thức đặc biệt, bao gồm sự không cân bằng trong dữ liệu, và yêu cầu mô hình dự đoán có hiệu suất tốt trong quyết định Sự linh hoạt của CatBoost trong việc xử lý dữ liệu, huấn luyện mô hình với hiệu suất tốt, cùng với khả năng tự động tối ưu các tham số đầu vào, làm cho nó trở thành một ứng cử viên lý tưởng để áp dụng trong bài toán chấm điểm tín dụng Mô hình xây dựng bằng CatBoost có thể hỗ trợ việc quản lý rủi ro tín dụng cho các ngân hàng và người đi vay Do đó, nghiên cứu về ứng dụng của CatBoost trong bài toán chấm điểm tín dụng không chỉ là quan trọng mà còn là cấp thiết để đảm bảo tính hiệu quả và tính ứng dụng trong thực tế của mô hình Chính vì vậy, cùng với sự hướng dẫn của thầy TS Hồ Văn Lâm tôi đã chọn đề tài: "NGHIÊN CỨU ỨNG DỤNG THUẬT TOÁN HỌC MÁY TĂNG CƯỜNG CHO BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG"cho đề án thạc sĩ của mình 2 Mục tiêu nghiên cứu Xây dựng một mô hình dự đoán chấm điểm tín dụng sử dụng thuật toán học máy tăng cường, cụ thể là thuật toán CatBoost Đảm bảo mô hình có khả năng dự đoán chính xác và linh hoạt, đồng thời giảm thiểu sai số để cung cấp thông tin chấm điểm tín dụng chính xác nhất Đánh giá hiệu suất của mô hình với dữ liệu hiện có, đảm bảo khả năng dự đoán đồng đều và chính xác khi triển khai thực tế 3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Cơ sở lý thuyết về học máy, thuật toán học máy tăng cường CatBoost, nghiệp vụ liên quan đến lĩnh vực cho vay tín dụng Phạm vi nghiên cứu: Phạm vi nghiên cứu của đề án này sẽ tập trung vào ứng dụng thuật toán học máy tăng cường để giải quyết bài toán chấm điểm tín dụng Nghiên cứu sẽ tập trung vào các chỉ số tài chính quan trọng và ảnh hưởng đến bài toán chấm điểm tín dụng, áp dụng các thuật toán học máy tăng cường để xây dựng mô hình dự đoán chấm điểm tín dụng