Học máy có giải thích và ứng dụng trong dự báo rủi ro vỡ nợ doanh nghiệp

ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN SỞ KHOA HỌC VÀ CÔNG NGHỆ KHOA HỌC VÀ CÔNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CƠNG NGHỆ HỌC MÁY CĨ GIẢI THÍCH VÀ ỨNG DỤNG TRONG DỰ BÁO RỦI RO VỠ NỢ DOANH NGHIỆP Cơ quan chủ trì nhiệm vụ: Trung tâm Phát triển Khoa họcvà Công nghệ Trẻ Chủ nhiệm nhiệm vụ: TRẦN KIM LONG Thành phố Hồ Chí Minh – 2022 ỦY BAN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH SỞ KHOA HỌC VÀ CƠNG NGHỆ THÀNH ĐỒN TP HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CƠNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ HỌC MÁY CĨ GIẢI THÍCH VÀ ỨNG DỤNG TRONG DỰ BÁO RỦI RO VỠ NỢ DOANH NGHIỆP (Đã chỉnh sửa theo kết luận Hội đồng nghiệm thu ngày 06/12/2022) Chủ tịch Hội đồng nghiệm thu PGS.TS Nguyễn Đức Trung Chủ nhiệm nhiệm vụ: ThS Trần Kim Long Cơ quan chủ trì nhiệm vụ Đồn Kim Thành Thành phố Hồ Chí Minh – 2022 THÀNH ĐỒN TP HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CƠNG NGHỆ TRẺ CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc TP.HCM, ngày 30 tháng 10 năm 2022 BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN NHIỆM VỤ NGHIÊN CỨU KH&CN I THÔNG TIN CHUNG Tên nhiệm vụ: Thuộc: Chương trình/lĩnh vực (tên chương trình/lĩnh vực): Vườn ươm Sáng tạo Khoa học Công nghệ trẻ Chủ nhiệm nhiệm vụ: Họ tên: TRẦN KIM LONG Ngày, tháng, năm sinh: 12/06/1988 Nam/ Nữ: Nam Học hàm, học vị: Thạc sỹ Chức vụ: giảng viên Điện thoại: 0938694812 E-mail: longtk@buh.edu.vn Tên tổ chức công tác: Trường Đại học Ngân hàng TP Hồ Chí Minh Địa tổ chức: 36 Tôn Thất Đạm, Q.1, TP Hồ Chí Minh Địa nhà riêng: Căn hộ B4.12, Tịa nhà Sen Xanh Số 36 Trịnh Đình Thảo, P Hịa Thạnh, Q Tân Phú, TP Hồ Chí Minh Tổ chức chủ trì nhiệm vụ: Tên tổ chức chủ trì nhiệm vụ: Trung tâm Phát triển Khoa học Công nghệ Trẻ Điện thoại : 028.38.230.780 E-mail: khoahoctre@gmail.com Website: : khoahoctre.com.vn Địa chỉ: Số Phạm Ngọc Thạch, P Bến Nghé, Q1, Tp Hồ Chí Minh Họ tên thủ trưởng tổ chức: ĐOÀN KIM THÀNH Số tài khoản: 3713.0.1083277.00000 Kho bạc: Kho bạc Nhà nước Q.1 – Tp Hồ Chí Minh Tên quan chủ quản đề tài: Sở Khoa học Cơng nghệ TP HCM II TÌNH HÌNH THỰC HIỆN Thời gian thực nhiệm vụ: - Theo Hợp đồng ký kết: từ tháng 12 năm 2021 đến tháng 12 năm 2022 - Thực tế thực hiện: từ tháng 12 năm 2021 đến tháng 12 năm 2022 Kinh phí sử dụng kinh phí: a) Tổng số kinh phí thực hiện: 90 triệu đồng, đó: + Kính phí hỗ trợ từ ngân sách khoa học: 90 triệu đồng + Kinh phí từ nguồn khác: tr.đ b) Tình hình cấp sử dụng kinh phí từ nguồn ngân sách khoa học: Số TT Theo kế hoạch Thời gian Kinh phí (Tháng, năm) (Tr.đ) 5/2022 45 10/2022 27 12/2022 18 Thực tế đạt Thời gian Kinh phí (Tháng, năm) (Tr.đ) 5/2022 45 10/2022 27 12/2022 18 Ghi (Số đề nghị toán) 45 27 18 c) Kết sử dụng kinh phí theo khoản chi: Đối với đề tài: Đơn vị tính: Triệu đồng Số TT Nội dung khoản chi Trả công lao động (khoa học, phổ thông) Nguyên, vật liệu, lượng Thiết bị, máy móc Xây dựng, sửa chữa nhỏ Chi khác Tổng cộng Theo kế hoạch Thực tế đạt Tổng NSKH Nguồ n khác Tổng NSKH Nguồ n khác 81.927.650 81.927.650 81.927.650 81.927.650 0 0 0 0 0 0 0 0 0 8.072.350 90.000.000 8.072.350 90.000.000 8.072.350 90.000.000 8.072.350 90.000.000 - Lý thay đổi (nếu có): Các văn hành q trình thực đề tài/dự án: Số TT Số, thời gian ban hành văn Hợp đồng số 14/2021/HĐKHCNT-VƯ Tên văn Hợp động thuê khoán Ghi Chủ nhiệm đề tài: Trần Kim Long Tổ chức phối hợp thực nhiệm vụ: Số TT Tên tổ chức đăng ký theo Thuyết minh Tên tổ chức tham gia thực Nội dung tham gia chủ yếu Sản phẩm chủ yếu đạt Ghi chú* - Lý thay đổi (nếu có): Cá nhân tham gia thực nhiệm vụ: (Người tham gia thực đề tài thuộc tổ chức chủ trì quan phối hợp, không 10 người kể chủ nhiệm) Số TT Tên cá nhân đăng ký theo Thuyết minh ThS Trần Kim Long PGS TS Nguyễn Thanh Hiên TS Nguyễn Minh Nhật TS Lê Hoàng Anh Tên cá nhân tham gia thực ThS Trần Kim Long PGS TS Nguyễn Thanh Hiên TS Nguyễn Minh Nhật Nội dung tham gia Tìm kiếm tài liệu, khảo lược nghiên cứu, viết đề cương nội dung báo cáo khoa học Định hướng, hướng dẫn đề tài Sản phẩm chủ yếu đạt Báo cáo khoa học Thuyết minh đề tài Tham gia xử lý liệu lược khảo nghiên cứu Báo cáo khoa học TS Lê Hoàng Anh Tham gia xử lý liệu lược khảo nghiên cứu Báo cáo khoa học ThS Liêu Cập Phủ ThS Liêu Cập Phủ Tổng hợp liệu, chạy mơ hình Báo cáo khoa học ThS Trần Thị Mỹ Hạnh ThS Trần Thị Mỹ Hạnh Xử lý liệu Báo cáo khoa học CN Trần Thị Hương Thảo CN Trần Thị Hương Thảo Xử lý liệu Báo cáo khoa học SV Nguyễn Thị Anh Thư SV Nguyễn Thị Anh Thư Xử lý liệu Báo cáo khoa học - Lý thay đổi ( có): Ghi chú* Tình hình hợp tác quốc tế: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Ghi chú* - Lý thay đổi (nếu có): Tình hình tổ chức hội thảo, hội nghị: Theo kế hoạch Số (Nội dung, thời gian, kinh phí, địa TT điểm ) Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm ) Ghi chú* - Lý thay đổi (nếu có): Tóm tắt nội dung, cơng việc chủ yếu: (Nêu mục 15 thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát nước nước ngoài) Số TT Các nội dung, công việc chủ yếu (Các mốc đánh giá chủ yếu) Nội dung 1: Xây dựng thuyết minh Nội dung 2: Xây dựng sở lý thuyết mơ hình học máy phương pháp Nội dung 3: Lược khảo nghiên cứu liên quan Nội dung 4: Xây dựng mơ hình phương pháp ước lượng Thời gian (Bắt đầu, kết thúc Người, - tháng … năm) quan thực Theo kế Thực tế đạt hoạch 08/12/2021 – 08/12/2021 – Trần Kim Long 08/03/2022 08/03/2022 Nguyễn Thanh Hiên Lê Hoàng Anh Nguyễn Minh Nhật 08/01/2022 – 08/01/2022 – Trần Kim Long 08/04/2022 08/04/2022 Nguyễn Thanh Hiên Lê Hoàng Anh Nguyễn Minh Nhật 08/01/2022 – 08/01/2022 – Trần Kim Long 08/04/2022 08/04/2022 Nguyễn Thanh Hiên Lê Hoàng Anh Nguyễn Minh Nhật 08/02/2022 – 08/02/2022 – Trần Kim Long 08/05/2022 08/05/2022 Nguyễn Thanh Hiên Lê Hoàng Anh Nguyễn Minh Nhật Nội dung 5: Thu thập liệu 08/03/2022 – 08/06/2022 Nội dung 6: Xử lý liệu chạy mơ hình 01/06/2022 – 01/09/2022 Nội dung 7: Viết báo cáo tổng kết 01/07/2022 – 01/10/2022 08/03/2022 – Liêu Cập Phủ 08/06/2022 Trần Thị Mỹ Hạnh Trần Thị Hương Thảo Nguyễn Thị Anh Thư 01/06/2022 – Liêu Cập Phủ 01/09/2022 Trần Thị Mỹ Hạnh Trần Thị Hương Thảo 01/07/2022 – Trần Kim Long 01/10/2022 Nguyễn Thanh Hiên Lê Hoàng Anh - Lý thay đổi (nếu có): III SẢN PHẨM KH&CN CỦA NHIỆM VỤ Sản phẩm KH&CN tạo ra: a) Sản phẩm Dạng I: Số TT Tên sản phẩm tiêu chất lượng chủ yếu Đơn vị đo Số lượng Theo kế hoạch Thực tế đạt - Lý thay đổi (nếu có): b) Sản phẩm Dạng II: Số TT Tên sản phẩm Bài báo khoa học Explainable Machine Learning for Financial Distress Prediction: Evidence from Vietnam Data, 7(11), 160 Yêu cầu khoa học cần đạt Theo kế Thực tế hoạch đạt Bài báo đăng Đã có viết tạp chí đăng Tạp chí chuẩn Data, SCOPUS SCOPUS Q2 vào tháng 11/2022 Ghi https://www.mdp i.com/23065729/7/11/160 - Lý thay đổi (nếu có): Đánh giá hiệu nhiệm vụ mang lại: a) Hiệu khoa học công nghệ: (Nêu rõ danh mục công nghệ mức độ nắm vững, làm chủ, so sánh với trình độ công nghệ so với khu vực giới…) b) Hiệu kinh tế xã hội: (Nêu rõ hiệu làm lợi tính tiền dự kiến nhiệm vụ tạo so với sản phẩm loại thị trường…) Tình hình thực chế độ báo cáo, kiểm tra nhiệm vụ: Số TT Nội dung Thời gian thực Báo cáo tiến độ Lần 30/06/2022 II Báo cáo giám định 29/10/2022 III Nghiệm thu sở 06/12/2022 I Chủ nhiệm đề tài (Họ tên, chữ ký) ThS Trần Kim Long Ghi (Tóm tắt kết quả, kết luận chính, người chủ trì…) Đề tài thực tiến độ đề Chủ trì: PGS.TS Nguyễn Đức Trung Đề tài thực tiến độ đề Hội đồng góp ý chỉnh sửa hình thức nội dung đóng góp cho TP.HCM Chủ trì: PGS.TS Nguyễn Đức Trung Đề tài đạt yêu cầu, tiến độ Chủ trì: PGS.TS Nguyễn Đức Trung Thủ trưởng tổ chức chủ trì (Họ tên, chữ ký đóng dấu) BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ HỌC MÁY CĨ GIẢI THÍCH VÀ ỨNG DỤNG TRONG DỰ BÁO RỦI RO VỠ NỢ DOANH NGHIỆP Cơ quan chủ trì nhiệm vụ: Trung tâm Phát triển Khoa họcvà Công nghệ Trẻ Chủ nhiệm nhiệm vụ: TRẦN KIM LONG Thành phố Hồ Chí Minh – 2022 MỤC LỤC Chương Giới thiệu 12 1.1.Tính cấp thiết đề tài 12 1.2 Mục tiêu nghiên cứu 14 1.3 Câu hỏi nghiên cứu 14 1.4 Đối tượng phạm vi nghiên cứu 14 1.5 Phương pháp nghiên cứu 14 1.6 Ý nghĩa khoa học thực tiễn 15 1.7 Kết cấu đề tài 16 Chương Cơ sở lý luận 17 2.1 Các định nghĩa rủi ro vỡ nợ 17 2.3 Khảo lược lý thuyết phương pháp dự báo vỡ nợ 23 2.4 Khảo lược lý thuyết khả giải thích 27 2.5 Tóm tắt chương 29 Chương Phương pháp nghiên cứu mơ hình nghiên cứu 30 3.1 Dữ liệu sử dụng nghiên cứu 30 3.2 Các phương pháp dự đốn tình trạng vỡ nợ 31 3.3 Phương pháp giải thích 35 3.4 Đánh giá kết dự báo mơ hình 36 3.5 Tóm tắt chương 37 Chương Phân tích kết nghiên cứu 38 4.1 Kết dự báo 38 4.2 Diễn giải kết dự báo 39 4.3 Tóm tắt chương 42 Chương Kết luận 43 cách khác, mơ hình có khả giải thích cao nên thường sử dụng thực tế tổ chức tài 3.2.2 Máy vector hỗ trợ (SVM) Máy vectơ hỗ trợ (SVM) dựa ý tưởng xác định siêu mặt phẳng phân tách quan sát thành không gian đặc trưng nhiều chiều Các mơ hình SVM tuyến tính tập trung vào việc tối đa hóa biên độ siêu mặt phẳng giá trị dương giá trị âm Quá trình phân loại diễn theo phương trình (2) T yi = {+1 if b + αT 𝑥 ≥ +1 −1 if b + α 𝑥 ≤ −1 (2) b độ lệch (bias) Đối với trường hợp phi tuyến, hàm kernel sử dụng để chiếu biến mơ hình vào khơng gian nhiều chiều Ví dụ, hàm Kernel truyền thống, dựa Gauss, có phương trình sau (3) 𝐾(𝑥, 𝑥𝑖 ) = exp (−𝛾||𝑥 − 𝑦|| ) (3) Điểm mạnh SVM tránh tượng overfitting với mẫu nhỏ nhạy cảm với liệu không cân 3.2.3 Cây định Các thuật tốn định trích xuất thơng tin từ liệu để đưa quy tắc định dạng cấu trúc Cụ thể hơn, thuật toán định xác định phân bổ tốt để tối ưu hóa lần phân tách với độ tinh khiết tối đa dựa thang đo, ví dụ hệ số Gini Entropy Gốc Cây định gọi nốt gốc, thuộc tính dễ phân biệt Các nốt đại diện cho lớp, thuộc tính phân tách 32 Mơ hình định có ưu điểm mơ hình trực quan diễn giải Tuy nhiên, hạn chế dễ dàng trang bị tượng overfitting trình phân chia miền đặc trưng trình phân nhánh 3.2.4 Rừng ngẫu nhiên Breiman (2001) phát triển kỹ thuật rừng ngẫu nhiên dựa mơ hình định Các định xây dựng cách sử dụng tập hợp đặc điểm chọn ngẫu nhiên Các tập mẫu đặc trưng lựa chọn ngẫu nhiên để đảm bảo tính đa dạng cho định Rừng ngẫu nhiện tạo thành dựa kết định Lớp ưu tiên xác định dựa quy tắc đa số, phương pháp cung cấp dự báo xác quan trọng tránh tượng overfitting (Breiman, 2001) 3.2.5 Extreme Gradient Boosting (XGB) XGB kỹ thuật học máy sử dụng toán hồi quy phân loại Ý tưởng XGB dựa việc tổng hợp mơ hình có khả dự báo yếu hơn, ví dụ định Khác với Rừng ngẫu nhiên, XGB có khả xây dựng định cách song song tích hợp việc kiểm sốt mức độ phức tạp mơ hình hàm tổn thất để kiểm soát mức độ overfitting nhằm mang lại kết dự báo tốt Mục tiêu tối thiểu hóa phương trình hàm tổn thất (4) ℒ𝑡 𝑛 = ∑ 𝑙 (𝑦𝑘 , 𝑦𝑘𝑡−1 (4) 𝑘=1 + 𝜙𝑡 (𝑥𝑘 )) + Ω(𝜙𝑡 ) 33 Trong 𝑙( ) hàm tổn thất (loss function) Ω(𝜙𝑡 ) phần chuẩn hóa nhằm kiểm sốt mức độ phức tạp mơ hình Mục tiêu tìm 𝜙𝑡 cho giá trị ℒ 𝑡 cực tiểu 3.2.6 Mạng lưới thần kinh nhân tạo Mạng nơ-ron nhân tạo (còn gọi mạng nơ-ron) thuật toán học máy thiết kế dựa ý tưởng cách hoạt động não người Thuật toán giải vấn đề phức tạp cách bắt chước cấu trúc não kết nối nơ-ron Mạng nơ-ron nhân tạo bao gồm kết nối nhiều lớp nơ-ron nhân tạo Mỗi lớp chia thành lớp đầu vào, lớp đầu lớp ẩn Các tế bào thần kinh nhân tạo mô vai trị tế bào thần kinh thực thơng qua mơ hình tốn học Mỗi nơ-ron nhân tạo nhận tín hiệu đầu vào, 𝑥1 , 𝑥2 , … , 𝑥𝑗 , bao gồm số 1, sau ước tính tổng trọng số tín hiệu mà nhận theo trọng số, 𝑤1 , 𝑤2 , … 𝑤𝑗 Một tín hiệu truyền đến nơron nhân tạo tổng trọng số tín hiệu nhận vượt ngưỡng định Một nơron nhân tạo biểu diễn dạng phương trình (5) if ∑ 𝑤𝑗 𝑥𝑗 ≤ threshold yi = output = j (5) if ∑ 𝑤𝑗 𝑥𝑗 > threshold { j Dựa liệu lịch sử, mạng thần kinh nhân tạo tối ưu thông qua việc xác định trọng số ngưỡng 34 3.3 Phương pháp giải thích SHApely Additive exPlanation (SHAP) phương pháp sử dụng để đáp ứng yêu cầu diễn giải kết Đây thuật toán nhằm xây dựng mơ hình tuyến tính để giải thích mức độ quan trọng biến kết dự báo cách tính giá trị Shapely Phương pháp có tảng lý thuyết dựa lý thuyết trị chơi hợp tác nhằm giải thích mức độ đóng góp biên biến lên kết dự báo Cơ chế hoạt động SHAP thể dạng phương trình (6) 𝑀 𝑔(𝑧 ′ ) = Φ0 + ∑ Φ𝑖 𝑧𝑖′ (6) 𝑖=1 Trong 𝑔 mơ hình giải thích, 𝑧 ′ 𝜖 {0,1}𝑀 vector tương tác, M số biến tối đa mơ hình, ith biến có xuất (𝑧 ′ = 1) không xuất (𝑧 ′ = 0) Φ𝑖 giá trị SHAP biến thứ ith , đại diện cho mức độ đóng biến thứ ith tính dựa vào cơng thức (7) Φ𝑖 (𝑓, 𝑥) = ∑ 𝑆⊆𝑁 |𝑆|! (𝑀 − |𝑆| − 1)! [𝑓𝑥 (𝑆 ∪ {𝑖}) − 𝑓𝑥 (𝑆)] 𝑀! (7) Trong N tập hợp tất biến, |S| số biến tập 𝑆 mà loại trừ biến thứ ith 𝑓𝑥 (𝑆) đại diện cho kết dự báo đầu mơ hình máy học f huấn luyện tập S SHAP kỹ thuật diễn giải kết cho kết tốt liệu có cấu trúc với số lượng biến có giới hạn SHAP sử dụng giải thích cấp độ tổng thể cấp độ chi tiết đối tượng Trong nghiên cứu này, chúng tơi sử dụng Tree SHAP để tính tốn giá trị Shapely để giải thích kết mơ hình Random Forest XGBoost Chúng tơi chọn TreeSHAP phương pháp ước tính nhanh xác cho mơ hình dạng định tập hợp định (Lundberg 35 & ctg , 2020) Ngoài ra, phương pháp dự báo dựa mơ hình định tính giá trị đặc trưng quan trọng hốn vị (permutation feature importance values), giá trị SHAP có khác biệt so với thang đo Giá trị đặc trưng quan trọng hoán vị xây dựng dựa mức độ suy giảm khả dự báo mơ hình, SHAP dựa độ lớn việc đóng góp tính Do đó, SHAP values có mức độ giải thích tốt 3.4 Đánh giá kết dự báo mơ hình Để đánh giá kết dự báo mơ hình, nhóm nghiên cứu sử dụng thang đo lường sau  Accuracy – Tỷ trọng quan sát phân loại toàn liệu đánh giá 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =  𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Precision – Tỷ trọng quan sát có giá trị dương phân loại tổng quan sát có giá trị dương 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =  𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Sensitivity (Recall) – Tỷ trọng quan có giá trị dương phân loại tổng số quan sát dự báo 𝑅𝑒𝑐𝑎𝑙𝑙 =  𝑇𝑃 𝑇𝑃 + 𝐹𝑁 𝐹1𝑆𝑐𝑜𝑟𝑒 – hệ số trung hịa bình qn recision recall 𝐹1𝑆𝑐𝑜𝑟𝑒 = ×  𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Đường cong ROC vẽ đồ thị với hai yếu tố tỷ lệ giá trị dương phân loại không 36  Area Under the receiver operating Curve (AUC) – The Receiver Operating Cure (ROC) đo lường khả phân loại mơ hình thay đổi ngưỡng phân loại Diện tích phía đường cong (AUC) thang đo tích lũy, giúp đánh giá so sánh mơ hình Diện tích chạy từ 0.5 đến 1.0, gần mơ hình có tính dự báo tốt 3.5 Tóm tắt chương Trong chương 3, nhóm nghiên cứu giới thiệu cách thức thu thập xử lý liệu Bên cạnh đó, nhóm trình bày sáu phương pháp dự báo sử dụng nghiên cứu phương pháp SHAP để giải thích kết mơ hình 37 Chương Phân tích kết nghiên cứu 4.1 Kết dự báo Bảng 4.1 Kết dự báo mơ hình Algorithms AUC Accuracy Precision Recall F1 score Extreme Gradient Boosting 0.9702 0.9566 0.8726 0.8354 0.8536 Random Forest 0.9788 0.9529 0.8535 0.8272 0.8401 Logistic Regression 0.9303 0.8623 0.8854 0.5148 0.6511 Artificial Neural Network 0.9034 0.9168 0.8025 0.6811 0.7368 Decision Trees 0.8848 0.9251 0.828 0.7065 0.7625 Support Vector Machine 0.7889 0.8789 0.9427 0.4022 0.5815 Nguồn: nhóm nghiên cứu tính tốn Bảng 4.1 trình bày kết dự báo mơ hình dựa thang đo lường Dựa nghiên cứu Abellán Castellano (2017), độ xác khơng phải thang đo tốt đánh giá quan sát có giá trị dương quan trọng quan sát có giá trị âm Do đó, thang đo precision recall cho kết đo lường tốt hơn, chúng có tính nhạt cảm liệu cân Nghiên cứu sử dụng thang F1-score, giá trị bình quân hai giá trị XGB random forest có giá trị recall, F1-scores cao so với mơ hình khác, cho thấy hai mơ hình có khả dự báo tốt giá trị dương, tức quan sát bị vỡ nợ Ngược lại, mơ hình hồi quy logisctic, ANN SVM cho kết có giá trị recall thấp, cho thấy mơ hình dễ bị mắc lỗi loại I Tuy nhiên, SVM có giá trị nhạy cảm cao nhất, cho thất mơ hình có khả dự báo tốt quan sát mang giá trị dương Mơ hình random forest có giá trị AUC cao (0.9788), Extreme Gradient Boosting (0.9702), cho thấy hai mơ hình có khả dự báo cao so với mơ hình cịn lại Kết tương tự nghiên cứu Barboza & ctg (2017), Chakraborty Joseph (2017), Fuster & ctg (2018) 38 Hình 4.1 Đồ thị ROC mơ hình Nguồn: nhóm nghiên cứu tính tốn Hình 4.1 thể đường cong ROC random forest XGB gần góc bên trái cho thấy khả dự báo hai mơ hình vượt trội nhóm cịn lại Cần lưu ý ROC không phụ thuộc vào phân phối lớp phân loại, nên dự báo tốt kiện rủi ro vỡ nợ 4.2 Diễn giải kết dự báo Nhóm nghiên cứu tính giá trị SHAP cho hai mơ hình với kết dự báo tốt Random Forest XGBoost Giá trị Shapley tính giá trị bình quân nhằm mang lại khả giải thích mang tính tổng thể Kỹ thuật sử dụng nghiên cứu Kim Shin (2021) Bussmann & ctg (2021) Hình 4.2 cho thấy bốn năm biến quan trọng giống hai mơ hình Chúng Long-term Debts to Equity (X4), Account Payable to Equity (X10), Enterprise Value to Revenues (X22), Diluted EPS (X25) Như vậy, biến quan trọng xác định nhờ vào giá trị Shapely ổn định mơ hình XGB random forest Hình 3(a) thể mức độ ảnh hưởng biến Long-term Debts to Equity (X4) kết dự báo X4 phản ánh rủi ro địn bẩy cơng ty dài hạn 39 Nếu cơng ty có hệ số địn bẩy cao, cơng ty chịu áp lực lớn việc hoàn trả khoản nợ dễ gặp rủi ro khoản kinh tế vào giai đoạn suy thối Hình 3(a) cho thấy mối quan hệ chiều X4 giá trị SHAP Khi X4 tăng, giá trị SHAP tăng, cho thất xác suất công ty bị vỡ nợ tăng lên Hiện tượng tương đồng với kiến thức chuyên môn lĩnh vực tài SHAP on XGB SHAP on Random Forest Hình 4.2 Mức độ quan trọng biến XGB Random Forest Nguồn: nhóm nghiên cứu tính tốn Hình 3(b) cho thấy mức độ ảnh hưởng biến Account Payable to Equity (X10) X10 phản ánh rủi ro vỡ nợ ngắn hạn Nếu hệ số X10 cao, công ty chịu áp lực trả nợ ngắn hạn, dẫn đến rủi ro vỡ nợ Khi X10 2,5, giá trị SHAP tăng lên, ngụ ý xác suất vỡ nợ gia tăng Thế nhưng, X10 vượt 2,5, giá trị SHAP có xu hướng ổn định Điều điểm thú vị so với kiến thức chuyên môn ngành 40 (a) (b) (c) (d) Hình Đồ thị SHAP Dependence Plot Nguồn: nhóm nghiên cứu tính tốn Hình 3(c) thể mức độ ảnh hưởng biến Enterprise Value on Revenues (X22) kết dự báo Hệ số đo lường chi phí để mua doanh nghiệp xét mức độ doanh thu Nếu EV/R tăng, công ty bị định giá cao Khi giá trị gần 0, mức độ biến động giá trị SHAP lớn Khi X22 tăng lên giá trị SHAP tăng lên Thế nhưng, X22 lớn 0,6 giá trị SHAP có xu hướng ngang Vì vậy, ảnh hưởng X22 lên SHAP values tồn khí giá trị X22 thấp, hiệu ứng suy giảm X22 có giá trị cao Hình 3(d) thể mối quan hệ biến Diluted EPS (X25) kết dự báo X25 thể mức độ thay đổi EPS cổ phiếu ưu đãi thực 41 Hình 3(d) cho thấy mối quan hệ ngược chiều X25 giá trị SHAP Khi X25 tăng giá trị SHAP có xu hướng giảm, tức giảm xác suất xảy vỡ nợ Thế nhưng, X25 nhỏ lớn 4000 giá trị SHAP khơng có xu hướng rõ ràng mà có nhiều biến động 4.3 Tóm tắt chương Trong chương 4, nhóm tác giả trả lời hai câu hỏi nghiên cứu đặt chương Đối với câu hỏi nghiên cứu thứ nhất, nhóm nghiên cứu chứng minh mơ hình random forest XGB có khả dự báo tốt so với mơ hình trước Đối với câu hỏi thứ hai, nhóm tác giả cho thấy phù hợp việc dùng giá trị SHAP giải thích kết 42 Chương Kết luận Trong nghiên cứu này, nhóm tác giả sử dụng mơ hình máy học để dự báo rủi ro vỡ nợ doanh nghiệp Việt Nam giai đoạn 2010 đến 2021 Kết cho thất XGB random forest hai mơ hình có giá trị AUC cao với giá trị 0,9788 0,9702 Đây hai mơ hình cho thấy khả dự báo vượt trội so với mơ hình khác Bên cạnh đó, nhóm tác giả sử dụng phương pháp SHAP để phân tích ảnh hưởng biến đến kết dự báo Các biến Long-term Debts to Equity (X4), Account Payable to Equity (X10), Enterprise Value to Revenues (X22), Diluted EPS (X25) cho thấy có ảnh hưởng lớn đến kết dự báo đầu mơ hình, tác động phù hợp mặt logic tài Các nhà quản lý, bên làm sách tổ chức xếp hạng tín nhiệm trang bị cơng cụ để hiểu diễn dịch kết từ mơ hình máy học phức tạp Nghiên cứu đặt tảng cho việc sử dụng XAI để định kinh tế tài Ngồi ra, mẫu nghiên cứu mở rộng sang lĩnh vực khác cho vay tiêu dùng cho vay ngang hàng (P2P lending) Nghiên cứu có số hạn chế, cỡ mẫu nhỏ, đặc biệt tỷ trọng thấp cơng ty bị vỡ nợ Nhóm nghiên cứu kỳ vọng nghiên cứu mở rộng cỡ mẫu sang quốc gia có đặc tính tương đồng Ngồi ra, biến sử dụng nghiên cứu chủ yếu báo tài chính, chủ yếu dựa giả giả định thông tin công ty phản ánh tình hình tài chúng Tuy nhiên, điều khơng thực tế Việt Nam thị trường tài khơng hiệu Chúng tơi kỳ vọng nghiên cứu sau đưa thêm biến hành vi, cấu trúc vốn doanh nghiệp, số lượng thành viên độc lập Hội đồng quản trị, yếu tố ngành mức độ đa dạng hóa kinh doanh 43 PHỤ LỤC Các đặc trưng sử dụng mơ hình Symbol X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 Input Features Cash Ratio Quick Ratio Current Ratio Long term Debts to Equity Long term Debts to Total Assets Total Liabilities to Equity Total Liabilities to Total Assets Short term Debt to Equity Short term Debt to Total Assets Account Payable to Equity Account Payable to Total Assets Total Assets to Total Liabilities EBITDA to Short term Debt and Interest Price to Earning Diluted Price to Earning Price to Book Value Price to Sales Price to Tagible Book Value Market Capital Price to Cashflow Enterprise Value Enterprise Value to Revenues Enterprise Value to EBITDA Enterprise Value to EBIT Diluted EPS 44 Category Liquidity risk Liquidity risk Liquidity risk Financial risk Financial risk Financial risk Financial risk Financial risk Financial risk Business Risk Business Risk Business Risk Business Risk Market factor Market factor Market factor Market factor Market factor Market factor Market factor Valuation Valuation Valuation Valuation Valuation TÀI LIỆU THAM KHẢO Abellán, J., & Castellano, J G (2017) A comparative study on base classifiers in ensemble methods for credit scoring Expert Systems with Applications, 73, 1-10 Altman, E I (1968) Financial ratios, discriminant analysis and the prediction of corporate bankruptcy The journal of finance, 23(4), 589-609 Altman, E I., Hotchkiss, E., & Wang, W (2019) Corporate financial distress, restructuring, and bankruptcy: analyze leveraged finance, distressed debt, and bankruptcy: John Wiley & Sons Ariza-Garzón, M J., Arroyo, J., Caparrini, A., & Segovia-Vargas, M.-J (2020) Explainability of a machine learning granting scoring model in peer-to-peer lending Ieee Access, 8, 64873-64890 Babaei, G., Giudici, P., & Raffinetti, E (2021) Explainable fintech lending Available at SSRN 3892652 Barboza, F., Kimura, H., & Altman, E (2017) Machine learning models and bankruptcy prediction Expert Systems with Applications, 83, 405-417 Beaver, W H (1966) Financial ratios as predictors of failure Journal of accounting research, 71-111 BIS (2000) Principles for the management of credit risk: Bank for International Settlements Bracke, P., Datta, A., Jung, C., & Sen, S (2019) Machine learning explainability in finance: an application to default risk analysis Breiman, L (2001) Random forests Machine learning, 45(1), 5-32 Bussmann, N., Giudici, P., Marinelli, D., & Papenbrock, J (2021) Explainable machine learning in credit risk management Computational Economics, 57(1), 203-216 Chakraborty, C., & Joseph, A (2017) Machine learning at central banks Chen, H.-J., Huang, S Y., & Lin, C.-S (2009) Alternative diagnosis of corporate bankruptcy: A neuro fuzzy approach Expert Systems with Applications, 36(4), 7710-7720 Chen, S., Härdle, W K., & Moro, R A (2011) Modeling default risk with support vector machines Quantitative Finance, 11(1), 135-154 Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., & Chen, K (2015) Xgboost: extreme gradient boosting R package version 0.4-2, 1(4), 1-4 Doshi-Velez, F., & Kim, B (2017) Towards a rigorous science of interpretable machine learning arXiv preprint arXiv:1702.08608 Freund, Y., Schapire, R., & Abe, N (1999) A short introduction to boosting JournalJapanese Society For Artificial Intelligence, 14(771-780), 1612 Fuster, A., Goldsmith-Pinkham, P., Ramadorai, T., & Walther, A (2018) Predictably unequal The Effects of Machine Learning on Credit Markets Revise & Resubmit in Journal of Finance Geng, R., Bose, I., & Chen, X (2015) Prediction of financial distress: An empirical study of listed Chinese companies using data mining European Journal of Operational Research, 241(1), 236-247 Hadji Misheva, B., Hirsa, A., Osterrieder, J., Kulkarni, O., & Fung Lin, S (2021) Explainable AI in Credit Risk Management Credit Risk Management (March 1, 2021) 45 Hagras, H (2018) Toward human-understandable, explainable AI Computer, 51(9), 2836 Harris, C R., Millman, K J., Van Der Walt, S J., Gommers, R., Virtanen, P., Cournapeau, D., Smith, N J (2020) Array programming with NumPy Nature, 585(7825), 357-362 Kim, D.-s., & Shin, S (2021) The economic explainability of machine learning and standard econometric models-an application to the US mortgage default risk International Journal of Strategic Property Management, 25(5), 396–412-396–412 Kruppa, J., Schwarz, A., Arminger, G., & Ziegler, A (2013) Consumer credit risk: Individual probability estimates using machine learning Expert Systems with Applications, 40(13), 5125-5131 Lundberg, S M., Erion, G., Chen, H., DeGrave, A., Prutkin, J M., Nair, B., Lee, S.-I (2020) From local explanations to global understanding with explainable AI for trees Nature machine intelligence, 2(1), 56-67 Lundberg, S M., & Lee, S.-I (2017) A unified approach to interpreting model predictions Advances in neural information processing systems, 30 McKinney, W (2010) Data structures for statistical computing in python Paper presented at the Proceedings of the 9th Python in Science Conference Miller, T (2019) Explanation in artificial intelligence: Insights from the social sciences Artificial intelligence, 267, 1-38 Mitchell, T M., & Mitchell, T M (1997) Machine learning (Vol 1): McGraw-hill New York Murdoch, W J., Singh, C., Kumbier, K., Abbasi-Asl, R., & Yu, B (2019) Definitions, methods, and applications in interpretable machine learning Proceedings of the National Academy of Sciences, 116(44), 22071-22080 Ohlson, J A (1980) Financial ratios and the probabilistic prediction of bankruptcy Journal of accounting research, 109-131 Olson, D L., Delen, D., & Meng, Y (2012) Comparative analysis of data mining methods for bankruptcy prediction Decision Support Systems, 52(2), 464-473 Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Dubourg, V (2011) Scikit-learn: Machine learning in Python the Journal of machine Learning research, 12, 2825-2830 Ribeiro, M T., Singh, S., & Guestrin, C (2016) " Why should i trust you?" Explaining the predictions of any classifier Paper presented at the Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining Shin, K.-S., Lee, T S., & Kim, H.-j (2005) An application of support vector machines in bankruptcy prediction model Expert Systems with Applications, 28(1), 127-135 Vapnik, V (1999) The nature of statistical learning theory: Springer science & business media Waskom, M., Botvinnik, O., O'Kane, D., Hobson, P., Lukauskas, S., Gemperline, D C., Warmenhoven, J (2017) Mwaskom/Seaborn: V0 8.1 (September 2017) Zenodo Zhao, Z., Xu, S., Kang, B H., Kabir, M M J., Liu, Y., & Wasinger, R (2015) Investigation and improvement of multi-layer perceptron neural networks for credit scoring Expert Systems with Applications, 42(7), 3508-3516 46

Định dạng
Số trang	46
Dung lượng	1,22 MB