(Tiểu luận) phân tích dữ liệu cơ bản đồ án cuối kì đề tài credit score classification

45 2 0
(Tiểu luận) phân tích dữ liệu cơ bản đồ án cuối kì đề tài credit score classification

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT   PHÂN TÍCH DỮ LIỆU CƠ BẢN ĐỒ ÁN CUỐI KÌ   ĐỀ TÀI: CREDIT SCORE CLASSIFICATION GIẢNG VIÊN: NGUYỄN THƠN DÃ  NHĨM – CA THỨ MÃ LỚP: 222MI2102 h   Bảng đánh giá mức độ hồn thành cơng việc Họ tên MSSV Mức độ hoàn thành Lê Trọng Nghĩa K214140946 100%  Nguyễn Nhật Thơ K214140955 100%  Nguyễn Phạm Minh Anh K214140932 100% Khương Thảo Vy K214140962 100% Trần Hữu Hoàng K214140939 100% h   MỤC LỤC Lời cảm ơn Tóm tắt đồ án 1.Giới thiệu .5 Các nghiên cứu liên quan Nền tảng lý thuyết: .7 Phương pháp luận nghiên cứu 10 4.1 Mơ hình tổng quan .10 4.2 Thu thập liệu 10 4.3 Mô tả liệu .11 4.4 Tiền xử lý liệu trích xuất đặc trưng .16 Kết thử nghiệm phân tích 26 Machine Learning 37 6.1 Classification Model 37 6.2 Model evaluation 39 Kết luận .41 7.1 Ưu điểm 41 7.2 Hạn chế .42 7.3 Hướng phát triển 42 Tài liệu tham khảo .43 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Lời cảm ơn  Nhóm chúng em xin chân thành cảm ơn thầy Nguyễn Thôn Dã hỗ trợ góp ý q trình học tập thực đồ án Do vốn kiến thức hiểu biết hạn chế nên hẳn đồ án khơng thể tránh khỏi sai sót, chúng em mong nhận góp ý thầy để chúng em hồn thiện hơn, áp dụng tốt tương lai Tóm tắt đồ án Các từ khóa:  Từ khóa 1: Credit Score: điểm tín dụng, khách hàng có điểm tín dụng Good (có mức điểm 2), Standard (có mức điểm 1), Poor (có mức điểm 0)  Từ khóa 2: Classification: Ở mơ hình đánh giá điểm tín dụng thuộc tốn  phân loại (Classification) Đồ án tập trung vào việc xây dựng mơ hình phân loại credit score cho khách hàng có nghề nghiệp liên quan đến kỹ thuật Để làm điều này, đồ án sử dụng tập liệu lớn khách hàng thuộc tính liên quan, bao gồm tuổi, thu nhập, số lượng tài khoản ngân hàng, thơng tin liên quan đến tài khách hàng Sau thu thập xử lý liệu, chúng em sử dụng số phương pháp học máy để tạo mơ hình phân loại credit score, bao gồm Logistic Regression, KNN, Naive Bayes, Decision Tree, Random Forest, Decision Tree, Stacking Classification Soft Voting Qua đó, đồ án thử nghiệm so sánh hiệu phương pháp tập liệu kiểm tra Cuối cùng, kết đồ án cho thấy mơ hình phân loại Stacking Classification đạt độ xác cao nhất, với độ xác đạt 80,12% Kết giúp tổ chức tài đánh giá rủi ro cho vay cho khách hàng có nghề liên quan đến kỹ thuật tăng tính minh bạch trình xét duyệt hồ sơ vay khách hàng h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Tóm lại, đồ án nỗ lực đáng ý để phát triển mơ hình phân loại Credit Score hiệu cho khách hàng có nghề nghiệp liên quan đến kỹ thuật, với kết đạt hữu ích cho tổ chức tài trình đánh giá quản lý rủi ro cho vay 1.Giới thiệu: Trong hệ thống tài ngày nay, đánh giá quản lý rủi ro tín dụng đóng vai trị quan trọng ổn định lợi nhuận tổ chức tài Do đó, việc  phân loại dự đốn rủi ro tín dụng xác trở thành yếu tố cần thiết để đưa định cho vay thông minh Khả xác định hiệu khách hàng có khả nợ xấu phân biệt người vay có rủi ro thấp cao giảm thiểu mát tài liên quan đến khoản vay khơng trả cải thiện việc quản lý rủi ro chung  Nghiên cứu tập trung vào việc phân loại rủi ro tín dụng cho khách hàng, với mục tiêu xây dựng mơ hình có khả dự đốn xác khả vỡ nợ dựa thuộc tính khách hàng số tài khác Bằng cách sử dụng kỹ thuật học máy tiên tiến, mục tiêu tạo mơ hình linh hoạt hiệu áp dụng việc phân loại rủi ro tín dụng Các nghiên cứu liên quan: Việc đánh giá rủi ro tín dụng đóng vai trị quan trọng tổ chức tài để đánh giá khả người vay không thực cam kết trả nợ Phương pháp thống kê truyền thống sử dụng rộng rãi đánh giá rủi ro tín dụng, với tiến kỹ thuật học máy, nhà nghiên cứu khám phá ứng dụng phương pháp Một nghiên cứu quan trọng Galindo Tamayo (2019) giới thiệu phương  pháp ứng dụng mơ hình rủi ro sử dụng thống kê học máy đánh giá rủi ro tín dụng Attigeri et al (2018) sử dụng thuật toán học máy để đánh giá rủi ro tín dụng Addo et al (2018) đề xuất mơ hình học máy học sâu cho phân tích rủi ro tín dụng h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Gần đây, có số nghiên cứu kết hợp thuật tốn học máy khơng giám sát giám sát để cải thiện việc đánh giá rủi ro tín dụng Bao et al (2019) tích hợp thuật tốn học máy khơng giám sát giám sát để đánh giá rủi ro tín dụng Kalaycı et al (2018) sử dụng thuật toán học máy cho phân tích rủi ro tín dụng Li (2019) đề xuất phương pháp dự đốn rủi ro tín dụng dựa thuật toán học máy Aithal Jathanna (2019) sử dụng kỹ thuật học máy cho đánh giá rủi ro tín dụng Ye (2020) nghiên cứu việc đánh giá rủi ro tín dụng cá nhân dựa thuật tốn học máy  Nhìn chung, phương pháp học máy cho thấy tiềm việc cải thiện đánh giá rủi ro tín dụng Tuy nhiên, thách thức khả giải thích khả tổng qt hóa Do đó, cần tiếp tục nghiên cứu để cải thiện độ xác đáng tin cậy mơ hình học máy đánh giá rủi ro tín dụng Các nghiên cứu trước khám phá áp dụng phương pháp học máy khác việc đánh giá rủi ro tín dụng Cơng trình Galindo Tamayo (2000) Chow (2018) tập trung vào phương pháp thống kê học máy đánh giá rủi ro tín dụng Nghiên cứu Bao et al (2019) Kalaycı et al (2018) nhấn mạnh việc kết hợp thuật tốn học máy khơng giám sát giám sát để nâng cao hiệu đánh giá rủi ro tín dụng  Ngồi ra, nghiên cứu Attigeri et al (2018) Aithal Jathanna (2019) tập trung vào ứng dụng thuật toán học máy việc đánh giá rủi ro tín dụng Các cơng trình Addo et al (2018) Li (2019) tập trung vào sử dụng mơ hình học máy học sâu để phân tích dự đốn rủi ro tín dụng Trong đó, cơng trình Ye (2020) Okur Cetin (2019) tập trung vào việc nghiên cứu đánh giá rủi ro tín dụng cá nhân ước lượng rủi ro tín dụng học máy Tuy nhiên, để đảm bảo tính áp dụng thực tế đáng tin cậy phương pháp học máy đánh giá rủi ro tín dụng, cần tiếp tục nghiên cứu việc cải thiện tính giải thích khả tổng quát hóa mơ hình, đồng thời xem xét yếu tố h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   khác đa dạng hóa liệu, quản lý thiếu sót thơng tin xử lý đối tượng gian lận đánh giá rủi ro tín dụng  3 Nền tảng lý thuyết: 3.1 Rủi ro tín dụng:   - Định nghĩa: Rủi ro tín dụng khả mát tiềm việc khách hàng không thực khoản trả nợ theo thỏa thuận ban đầu   - Vai trò: Rủi ro tín dụng có tác động đáng kể đến tổ chức tài chính, ngân hàng bên liên quan, ảnh hưởng đến việc xác định khả trả nợ khách hàng định việc cấp tín dụng 3.2 Phân loại rủi ro tín dụng:   - Mục tiêu ý nghĩa: Phân loại rủi ro tín dụng nhằm xác định đánh giá mức độ rủi ro khách hàng vay cách xác hiệu   - Phương pháp truyền thống: Các phương pháp truyền thống bao gồm mơ hình đánh giá tín dụng dựa quy tắc thơng tin tài chính, tỉ lệ nợ xấu, phương  pháp dựa mơ hình thống kê   - Phương pháp học máy: Các phương pháp học máy Decision Tree, Random Forest, Support Vector Machines (SVM), Logistic Regression Neural Networks áp dụng để phân loại rủi ro tín dụng Chúng sử dụng thuật toán máy học để học từ liệu huấn luyện dự đốn rủi ro tín dụng 3.3 Học máy phân loại rủi ro tín dụng: 3.3.1 Khái niệm học máy:   Học máy lĩnh vực trí tuệ nhân tạo tập trung vào việc phát triển thuật tốn mơ hình máy tính có khả tự học cải thiện hiệu suất dự đoán thông qua việc xử lý liệu Trong phân loại rủi ro tín dụng, học máy sử dụng để xây dựng mơ hình phân loại dựa liệu huấn luyện để dự đoán khả trả nợ khách hàng 3.3.2 Thuật toán học máy phân loại rủi ro tín dụng: h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66     Có nhiều thuật tốn học máy phổ biến áp dụng phân loại rủi ro tín dụng Dưới số thuật toán quan trọng:  Decision Tree (Cây định): Decision Tree mơ hình học máy dựa cấu trúc Thuật toán tạo định cách tách liệu dựa điều kiện thuộc tính đầu vào Cây định sử dụng để dự đoán khả trả nợ khách hàng dựa thông tin khách hàng cung cấp  Random Forest: Random Forest phương pháp kết hợp nhiều định để tạo mơ hình dự đốn tốt Thuật toán tạo nhiều định ngẫu nhiên từ mẫu liệu thuộc tính ngẫu nhiên Kết dự đoán cuối xác định dựa đa số phiếu bầu định  Support Vector Machines (SVM): Support Vector Machines thuật toán học máy phân loại dựa việc tạo ranh giới tuyến tính tốt lớp liệu SVM tìm siêu phẳng tối ưu để phân tách điểm liệu Trong  phân loại rủi ro tín dụng, SVM sử dụng để xác định khả trả nợ khách hàng dựa đặc trưng tài  Logistic Regression: Logistic Regression thuật toán học máy sử dụng để phân loại dựa hàm logistic Đối với tốn phân loại rủi ro tín dụng, Logistic Regression sử dụng để dự đốn xác suất khả trả nợ khách hàng dựa biến đầu vào Thuật tốn tìm đường cong logistic tối ưu để phân loại khách hàng vào nhóm rủi ro khác  Neural Networks (Mạng neuron): là mơ hình học máy lấy cảm hứng từ cấu trúc hoạt động não người Mạng neuron có nhiều lớp ẩn nút neuron kết nối với thông qua trọng số Trong phân loại rủi ro tín dụng,  Neural Networks có khả học mẫu phức tạp dự đoán khả trả nợ khách hàng dựa biến đầu vào 3.4 Tiền xử lý liệu: h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Trước áp dụng thuật toán học máy, việc tiền xử lý liệu quan trọng để đảm bảo chất lượng hiệu suất mơ hình Các bước tiền xử lý liệu bao gồm: - Xóa giá trị thiếu: Kiểm tra xử lý giá trị thiếu tập liệu - Chuẩn hóa liệu: Chuẩn hóa biến đầu vào để đảm bảo chúng có đơn vị phân phối tương tự - Trích xuất đặc trưng: Chọn trích xuất đặc trưng quan trọng từ liệu để cung cấp thông tin phân loại tốt cho mơ hình Phần tảng lý thuyết giới thiệu khái niệm học máy thuật toán phổ biến sử dụng phân loại rủi ro tín dụng Các thuật tốn cung cấp phương pháp phân loại dự đoán khả trả nợ khách hàng dựa liệu đầu vào đặc trưng tài Đồng thời, việc tiền xử lý liệu đóng vai trị quan trọng việc đảm bảo chất lượng hiệu suất mơ hình 3.5 Tập liệu biến đầu vào:   - Tập liệu: Tập liệu sử dụng phân loại rủi ro tín dụng bao gồm thơng tin khách hàng, lịch sử tín dụng, thu nhập, tài sản biến số kinh tế khác Tập liệu thu thập từ nhiều nguồn khác nhau, bao gồm sở  liệu ngân hàng, hồ sơ tín dụng thơng tin tài khách hàng   - Biến đầu vào: Các biến đầu vào phân loại rủi ro tín dụng bao gồm tuổi, giới tính, thu nhập, số lượng tài sản, lịch sử tín dụng, tỷ lệ nợ, thông tin công việc biến số kinh tế khác Các biến sử dụng để xây dựng mơ hình phân loại dự đốn khả trả nợ khách hàng 3.6 Đánh giá đo lường hiệu suất:   - Phương pháp đánh giá hiệu suất: Để đánh giá hiệu suất mơ hình phân loại rủi ro tín dụng, phương pháp confusion matrix, accuracy, precision, recall, F1-score ROC curve sử dụng Confusion matrix giúp đánh giá phân loại sai, accuracy, precision, recall F1-score cung cấp thơng tin độ xác, độ phủ độ cân lớp ROC curve đánh giá hiệu suất  phân loại dựa trade-off tỷ lệ true positive false positive h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66     - Lựa chọn mơ hình tốt nhất: Đánh giá hiệu suất mơ hình phân loại rủi ro tín dụng lựa chọn mơ hình tốt dựa tiêu chí hiệu suất yêu cầu  bài toán cụ thể Các tiêu chí bao gồm độ xác, độ phủ, độ cân độ tin cậy mơ hình Phương pháp luận nghiên cứu 4.1 Mơ hình tổng quan Thu thập liệu: Dữ liệu lấy từ tập train.csv tập liệu "Credit Score Classification" Kaggle, bao gồm thông tin khách hàng, thông tin tín dụng số kinh tế khách hàng Đối với việc tiền xử lý liệu, liệu tiền xử lý để loại bỏ liệu dư thừa, điền giá trị thiếu chuẩn hóa liệu Về việc phân tích liệu, thực phân tích liệu để hiểu rõ mối quan hệ thuộc tính tín dụng khách hàng Ứng dụng mơ hình: Sử dụng mơ hình xây dựng để phân loại tín dụng khách hàng Mơ hình tổng quan nhằm giải toán phân loại tín dụng dựa liệu có sẵn đưa định việc cấp tín dụng cho khách hàng Mục đích dự án để dự đốn xếp hạng tín dụng khách hàng cơng ty Để thực dự án, phải làm chuẩn bị tập liệu cho mơ hình hóa, lựa chọn tính có ý nghĩa để xây dựng mơ hình, với thơng tin liên quan đến tín dụng người, tạo mơ hình máy học phân loại điểm tín dụng 4.2 Thu thập liệu: Nhóm chúng em thu thập liệu từ website Kaggle Dữ liệu thu có tiêu đề Credit Score Classification ( Paris, R (2020) Credit Score Classification Retrieved May 5, 2023, from Kaggle website: https://www.kaggle.com/datasets/parisrohan/credit-scoreclassification?select=train.csv) 10 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Hình 3: Đồ thị biểu diễn tỷ lệ khách hàng phân loại vào nhóm tín dụng khác Phân tích: Từ hình 3, ta thấy 52,3% khách hàng có điểm tín dụng mức Standard (chiếm nửa số lượng khách hàng tập liệu thu thập được), mức tín dụng cịn lại Poor Good chiếm 29,9% 17,8% số lượng khách hàng tập liệu thu thập  Hình 4: Đồ thị biểu diễn mối quan hệ số ngày chậm tốn mức lương rịng  hàng tháng khách hàng, phân theo nhóm tín dụng khác 31 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Phân tích: Từ đồ thị trên, ta thấy mức Credit_Score, người có mức lương hàng tháng cao có số ngày chậm tốn so với người có mức lương hàng tháng thấp  Hình 5: Đồ thị biểu diễn mức lương ròng hàng tháng khách hàng theo nghề nghiệp,  phân theo nhóm tín dụng khác Phân tích: Từ đồ thị ta thấy mức lương hàng tháng khách hàng có điểm tín dụng Good dao động mức $5500, mức lương khách hàng có điểm tín dụng Standard Poor dao động mức $4250 $3500 32 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Hình 6: Đồ thị biểu diễn mức lương rịng hàng tháng khách hàng, phân theo từng  nhóm tín dụng khác Phân tích:  Từ đồ thị thấy người có điểm tín dụng Good mức lương trung bình hàng tháng họ cao so với người có điểm tín dụng Standard Poor Ở mức tín dụng Good, số lượng người có mức lương từ $5500-$6000 nhiều đó, mức tín dụng Standard Poor số $3500 $4250 33 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Hình 7: Đồ thị boxplot biểu diễn mức lương ròng hàng tháng khách hàng cho từng  nghề nghiệp khác Phân tích: Từ đồ thị trên, ta thấy mức lương hàng tháng ngành nghề chênh lệch không đáng kể 34 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Hình 8: Biểu đồ tương quan thể mối quan hệ biến Để xem liệu cách trực quan hơn, ta nhóm độ tuổi theo khoảng nhóm theo mức Credit_Score, cột hiển thị giá trị trung bình đại diện cho khoảng độ tuổi khác theo mức Credit_Score Ta làm điều đoạn code sau: 35 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Sau thực cơng việc nhóm độ tuổi lại với theo mức Credit_Score trên, chạy dịng lệnh để thực trực quan hóa liệu Dữ liệu trực quan hóa số đồ thị hình vẽ đây:    Hình 9: Biểu đồ cột dạng phân nhóm (grouped bar chart) hiển thị khác biệt số tiền nợ chưa tốn nhóm độ tuổi khác nhau, phân loại theo mức độ tín dụng (credit score) Phân tích : - Với Credit Score mức Poor chiếm tỷ trọng cao đặc biệt từ 14 đến 45 tuổi chiếm 2000$ nợ chưa tốn - Ở mức Standard mức Good số tiền nợ chưa toán tương đồng đạt đến độ tuổi 95 - 120  Hình 10: Biểu đồ phân tích mối quan hệ nhóm tuổi với thu nhập hàng tháng  (Monthly_Inhand_Salary), phân loại theo mức độ tín dụng (credit score) 36 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Phân tích : - Ở ba mức Credit Score độ tuổi từ 45 đến 95 có mức thu nhập hàng tháng cao so với độ tuổi cịn lại - Nhìn chung thu nhập bình quân giảm dần từ mức Good đến Standard đến Poor, cho thấy người có thu nhập cao thường có mức tín dụng cao  Ngồi cách biểu diễn đồ thị-trực quan hóa liệu trên, ta sử dụng thư viện Plotly để vẽ biểu đồ tương tác (interaction) Điểm bật Plotly khả tương tác với người dùng, cho phép họ truy cập thông tin chi tiết rê chuột vào điểm liệu, thu phóng di chuyển biểu đồ Từ liệu sau xử lý, ta sử dụng thư viện Plotly để vẽ số đồ thị tương tác sau:  Hình 11: Biểu đồ biểu diễn mối quan hệ Credit Score số ngày chậm trễ trả nợ khách hàng  Phân tích: - Nhìn vào biểu đồ ta thấy số ngày chậm trễ Credit Score mức Tốt thưa dần sau 30 ngày 37 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   - Với Credit Score mức Standard Poor có có số ngày trễ 60 ngày mức Standard có số lượng ngày trả hạn xấp xỉ với mức Good  Hình 12: Đồ thị biểu diễn số lượng khoảng mức lương rịng hàng tháng, phân theo nhóm tín dụng khác Phân tích : - Ở mức tín dụng, mức lương rịng hàng tháng chiếm tỷ trọng lớn từ 1k đến 5k giảm dần 14k - Số lượng người mức Poor có mức tín dụng thấp chiếm nhiều so với mức lại Machine Learning: 6.1 Classification Model Scikit-learning thư viện phổ biến dành cho máy học Python sử dụng phần lập mơ hình dự án Vì việc phát Điểm tín dụng vấn đề phân loại nên cần sử dụng mơ hình phân loại, cịn gọi thuật tốn học máy để huấn luyện mơ hình 38 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   nhằm đưa dự đoán Các thuật tốn mà nhóm chúng em chọn để phân tích bao gồm:   Logistic Regression  - Nearest Neighbors  - Nearest Neighbors  - Nearest Neighbors  - Nearest Neighbors  Gaussian Naive Bayes  Decision Tree  Random Forest (10 trees)  Random Forest (25 trees)  Random Forest (50 trees)  Random Forest (100 trees)  Stacking Classification  Soft Voting Khái niệm: Soft Voting kỹ thuật kết hợp dự đoán nhiều mơ hình khác để đưa kết dự đoán cuối Khi sử dụng kỹ thuật này, mơ hình đưa vào hệ thống đưa dự đoán chúng, kết cuối tính cách lấy trung bình dự đoán Kỹ thuật Soft Voting sử dụng toán phân loại (classification) để cải thiện độ xác mơ hình, đặc biệt sử dụng nhiều mơ hình khác có độ xác tương đương Kết quả: Sau áp dụng kỹ thuật Soft Voting , nhóm chúng em thu kết sau: 39 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Trực quan hóa kết quả:  Hình 12: Confusion matrix cho mơ hình sử dụng soft voting để phân loại 6.2 Model evaluation Đánh giá mơ hình (Model evaluation) q trình sử dụng số đánh giá khác để hiểu hiệu suất mơ hình máy học, điểm mạnh điểm yếu Sau có thơng số đánh giá hiệu suất mơ hình ta có bảng kết đánh giá hiệu suất mô hình phân loại khác sau: 40 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Bảng kết đánh giá hiệu suất mơ hình phân loại khác Kết luận: Dựa vào bảng kết quả, ta thấy mơ hình phân loại Stacking Classification đạt độ xác (Accuracy) cao với giá trị 80,12% so với tất mơ hình khác Ngồi ra, mơ hình có Precision Recall cao với giá trị 80,09% 80,12% Vì vậy, ta kết luận mơ hình Stacking Classification mơ hình tốt để phân loại liệu tốn Trực quan hóa kết quả: 41 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Đồ thị minh họa kết đánh giá hiệu suất mơ hình phân loại khác Phân tích: Từ đồ thị trên, ta dễ dàng thấy mơ hình Stacking Classification mơ hình tốt để phân loại liệu toán Kết luận 7.1 Ưu điểm 42 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66   Giúp cho tổ chức tài chính, ngân hàng, cá nhân đánh giá khả trả nợ cá nhân doanh nghiệp dựa thông tin liên quan đến lịch sử tín dụng họ Giúp đưa định cho vay tiền hay khơng vay vay để đảm  bảo rủi ro tối thiểu cho tổ chức tài hay ngân hàng Các mơ hình đánh giá tín dụng sử dụng thuật toán phương pháp máy học để dự đoán khả trả nợ đưa định cho vay 7.2 Hạn chế Việc xây dựng mơ hình phân loại đánh giá tín dụng địi hỏi hiểu biết sâu rộng liệu phương pháp thống kê, máy học, khai phá liệu Các thuật tốn máy học phương pháp đánh giá tín dụng gặp phải vấn đề phân loại sai, phân loại thiếu, khó giải thích Đối với khách hàng người chưa có lịch sử tín dụng, việc đánh giá khả trả nợ khó khăn 7.3 Hướng phát triển  Nghiên cứu phát triển phương pháp phân loại tín dụng sử dụng thuật toán phương pháp máy học nhằm cải thiện độ xác độ tin cậy mơ hình Phát triển mơ hình phân loại tín dụng cung cấp cho người dùng cách giải thích rõ ràng cách định đưa Tăng cường quản lý liệu đảm bảo tính bảo mật liệu tín dụng 43 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66    Tài liệu tham khảo Kao, LJ, Chiu, CC, & Chiu, FY (2012) Một mô hình biến tiềm ẩn Bayesian với cách tiếp cận phân loại hồi quy để chấm điểm hành vi tín dụng  Hệ thống dựa tri thức , 36  , 245-252 Keramati, A., & Yousefi, N (2011, tháng 1) Đề xuất phân loại kỹ thuật khai thác liệu chấm điểm tín dụng Ở Proc 2011 Quốc tế Conf Quản lý Vận hành Kỹ  thuật Công nghiệp Kuala Lumpur, Malaysia Galindo, J., & Tamayo, P (2019) Credit risk assessment using statistical and machine learning: basic methodology and risk modeling applications Computational economics, 15, 107-143 Bao, W., Lianju, N., & Yue, K (2019) Integration of unsupervised and supervised machine learning algorithms for credit risk assessment Expert Systems with Applications, 128, 301-315 Aithal, V., & Jathanna, R D (2019) Credit risk assessment using machine learning techniques International Journal of Innovative Technology and Exploring Engineering, 9(1), 3482-3486 Addo, P M., Guegan, D., & Hassani, B (2018) Credit risk analysis using machine and deep learning models Risks, 6(2), 38 Attigeri, G V., Pai, M M., & Pai, R M (2018) Credit risk assessment using machine learning algorithms Advanced Science Letters, 23(4), 3649-3653 Kalaycı, S., Kamasak, M., & Arslan, S (2018, May) Credit risk analysis using machine learning algorithms In 2018 26th Signal Processing and Communications Applications Conference (SIU) (pp 1-4) Chow, J C (2018) Analysis of financial credit risk using machine learning arXiv  preprint arXiv:1802.05326 Li, Y (2019, August) Credit risk prediction based on machine learning methods In 2019 14th International Conference on Computer Science & Education (ICCSE) (pp 10111013) 44 h 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

Ngày đăng: 08/09/2023, 00:02

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan