Ước lượng xác suất vỡ nợ của khách hàng doanh nghiệp bằng phương pháp học máy để nâng cao năng lực quản lý rủi ro

MỤC LỤC

GIỚI THIỆU

    Tuy nhiên, sử dụng các mô hình phân tích khác nhau, Deakin (1972) đã chọn 14 biến tài chính: tiền mặt/nợ ngắn hạn, dòng tiền thực/tổng nợ, tiền mặt/doanh thu ròng, tiền mặt/tài sản cố định, khả năng thanh toán hiện tại, tài sản ngắn hạn/ doanh thu thuần, tài sản lưu động/tổng tài sản, thu nhập/tổng tài sản, tài sản có tính thanh khoản cao/nợ ngắn hạn, tài sản có tính thanh khoản cao/doanh thu thuần, tài sản có tính thanh khoản cao/tổng tài sản, tổng nợ/tổng tài sản, vốn lưu động/doanh thu thuần, vốn lưu động /Tổng tài sản. Theo thời gian trôi qua, các nhà khoa học đã phát hiện ra nhiều chỉ số tài chính có thể ảnh hưởng đến kết quả xếp hạng tín dụng, như Blum (1974) sử dụng tỷ suất lợi nhuận thị trường, tỷ lệ thanh toán nhanh, các biến tài chính của tài sản/hàng tồn kho thanh khoản cao, dòng tiền/tổng nợ, giá trị sổ sách/tổng nợ phải trả, giảm xu hướng lợi nhuận, giảm xu hướng tài sản/hàng tồn kho có tính thanh khoản cao hoặc Back, Laitinen, Sere & Wesel (1996) sử dụng 31 chỉ số khác nhau.

    Hình 1.1: Dự báo tỷ lệ vỡ nợ năm 2023 so với năm 2019
    Hình 1.1: Dự báo tỷ lệ vỡ nợ năm 2023 so với năm 2019

    CƠ SỞ LÝ THUYẾT VÀ KHẢO LƯỢC CÁC NGHIÊN CỨU

    Xác suất vỡ nợ

    Theo Michael K.Ong (2003), "xếp hạng tín nhiệm là một quá trình đánh giá và phân loại các mức độ tín nhiệm tương ứng với các mức độ rủi ro khác nhau, mỗi xếp hạng là một phản ỏnh rừ ràng và ngắn gọn về khả năng thanh toỏn của cụng ty được xếp hạng, đồng thời, tín nhiệm xếp hạng là một quá trình sử dụng thông tin có sẵn và hiện tại để dự báo kết quả trong tương lai.". Theo quan điểm của Standard & Poor's, "xếp hạng tín nhiệm là đánh giá mức độ đáng tin cậy về khả năng trả nợ của một bên đối với các nghĩa vụ tài chính trong tương lai dựa trên các yếu tố hiện tại và ý kiến của người thẩm định.

    Các chỉ số tài chính

    Khía cạnh này của phương pháp học máy đặc biệt quan trọng để ước lượng xác suất vỡ nợ, tuy nhiên, nó phải trả giá bằng việc giảm tính minh bạch khi so sánh với các mô hình thống kê: Các mô hình bằng phương pháp học máy không đưa ra các ước tính về các tham số liên kết các yếu tố dự đoán với biến kết quả (các mô hình không phải là tham số), điều này có thể khiến cho lý luận và dự đoán của chúng khó giải thích hơn. Trong nghiên cứu này, ba yếu tố là thu nhập ròng âm trong hai năm qua, thanh khoản ngắn hạn và nợ phải trả/tổng tài sản, có tương quan thuận với chỉ số ước lượng phá sản Oscore và đồng thời có mối quan hệ nghịch biến giữa tỷ lệ lợi nhuận/tổng tài sản và tốc độ tăng trưởng thu nhập ròng với chỉ số dự báo phá sản Oscore; tất cả đều có ý nghĩa thống kê. Đầu tiên, nghiên cứu của Guido Perboli và Ehsan Arabnezhad (2021) áp dụng các mô hình như Random Forest, Neural Network, Logistic Regression và Gradient Boosting đã được hiệu chỉnh bằng cách sử dụng 15 biến độc lập của dữ liệu báo cáo tài chính từ hơn 160.000 doanh nghiệp của Ý đang hoạt động bởi cuối năm 2018, kết hợp với dữ liệu của khoảng 3.000 doanh nghiệp phá sản từ năm 2001 đến 2018.

    Chương này làm rừ tớnh cấp thiết thụng qua việc trỡnh bày lý thuyết cơ bản và lý thuyết nền tảng về xếp hạng tín dụng, các phương pháp đo lường và ước lượng xác suất vỡ nợ của doanh nghiệp và nội dung chi tiết của nó, kết quả đánh giá và tổng kết các nghiên cứu đã công bố của đề tài đồng thời làm cơ sở cho việc phân tích mô hình nghiên cứu đề xuất và kết quả nghiên cứu được trình bày trong chương tiếp theo.

    Hình 2.1: 4 nhóm chỉ số tài chính
    Hình 2.1: 4 nhóm chỉ số tài chính

    MÔ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU

    • Các mô hình dự báo xác suất vỡ nợ được nghiên cứu 1. Mô hình Logistic
      • Phương pháp lựa chọn mô hình dự báo xác suất vỡ nợ

        Theo hai tiêu chuẩn để lựa chọn doanh nghiệp, tác giả xem xét 462 doanh nghiệp, trong đó: có 38 doanh nghiệp thuộc lĩnh vực kinh doanh thương mại hàng tiêu dùng; 32 doanh nghiệp thuộc ngành kinh doanh xăng dầu; 44 doanh nghiệp thuộc ngành kinh doanh ô tô; 42 doanh nghiệp thuộc ngành thi công xây lắp; 53 doanh nghiệp thuộc ngành kinh doanh dược phẩm và thiết bị y tế; 52 doanh nghiệp thuộc ngành dệt may; 58 doanh nghiệp thuộc ngành thủy sản (cá tra, tôm, nghêu…); 67 doanh nghiệp thuộc ngành sắt thép và 76 doanh nghiệp thuộc ngành kinh doanh nông sản (lúa gạo, cà phê, điều, tiêu…). Theo Crouhy, Galai & Mark (2001), "điểm yếu chính của mô hình ước lượng rủi ro là mẫu dựa trên dữ liệu tài chính trước đây được thu thập trong các tình huống có thể hoặc không thể áp dụng trong tương lai hoặc dữ liệu được sử dụng trong các mô hình hiếm khi được cập nhật". Moody's và Standard and Poor's đã tiết lộ nhiều biện pháp tài chính thiết yếu khác nhau trong quy trình xếp hạng của họ, bao gồm như Tỷ lệ Tổng Nợ trên Tổng Tài sản; Thu nhập trước lãi vay và thuế (EBIT); Triển vọng kinh doanh tốt (dòng tiền tăng hoặc lợi nhuận tài sản tăng); Cổ tức và các khoản thanh toán khác; Rủi ro kinh doanh (Dòng tiền hoặc biến động giá trị tài sản); Tính thanh khoản của tài sản.

        Engelmann & Rauhmeier (2010) đã mở rộng nghiên cứu của Hayden với 14 tỷ lệ tài chính đã được lựa chọn và chia thành 9 nhóm rủi ro bao gồm đòn bẩy tài chính, khả năng thanh khoản, chỉ số hoạt động, khả năng kiểm soát chi phí, hiệu quả sử dụng tài sản, khả năng sinh lời, quy mô doanh nghiệp, tốc độ tăng trưởng và tốc độ gia tăng nợ vay (Phụ lục - Bảng 2). Trong các bài toán phân loại các công ty thuộc lớp phá sản hoặc không phá sản, bộ dữ liệu được sử dụng để xây dựng và kiểm định mô hình thường có sự phân bố không đồng đều, trong trường hợp này dữ liệu về các công ty không phá sản sẽ chiếm một tỷ lệ lớn hơn rất nhiều so với dữ liệu của các công ty phá sản, từ đó dẫn đến các tỷ lệ sensitivity và tỷ lệ precision thường bị lệch và cho kết quả dự báo không thật sự chính xác. Trong chương này, tác giả trình bày chi tiết về nội dung của mô hình nghiên cứu (mô hình ước lượng xác suất vỡ nợ đề xuất), mô tả chi tiết dữ liệu thu thập được và các phương pháp nghiên cứu được sử dụng để xác định xác suất vỡ nợ, đồng thời trong chương tiếp theo sẽ trình bày độ tin cậy của mô hình nghiên cứu.

        Bảng 3.1: Tổng hợp số lượng doanh nghiệp - ngành nghề kinh doanh ST
        Bảng 3.1: Tổng hợp số lượng doanh nghiệp - ngành nghề kinh doanh ST

        KẾT QUẢ NGHIÊN CỨU 4.1. Kết quả thống kê mô tả

        Hệ số tương quan

        Ma trận tương quan giữa các biến trong mô hình: Hình 4.1 thể hiện hệ số tương quan Pearson giữa các cặp biến. Giá trị của nó nằm trong khoảng từ -1 đến +1, -1 biểu thị tổng tương quan tuyến tính âm, 0 biểu thị không có tương quan tuyến tính và 1 biểu thị tổng tương quan tuyến tính dương. Hơn nữa, r bất biến dưới những thay đổi riêng biệt về vị trí và tỷ lệ của hai biến, ngụ ý rằng đối với một hàm tuyến tính, góc đối với trục x không ảnh hưởng đến r.

        Tuy nhiên, các mức độ tương quan này đều nhỏ hơn 0,8, do đó hiện tượng đa cộng tuyến giữa các biến trong mô hình có thể không tác động quá lớn đến kết quả hồi quy của mô hình.

        Hình 4.1 thể hiện mối quan hệ giữa các biến độc lập trong mô hình ước lượng xác suất vỡ nợ, trong ma trận tương quan trên có cặp biến độc lập có mức độ tương quan cao
        Hình 4.1 thể hiện mối quan hệ giữa các biến độc lập trong mô hình ước lượng xác suất vỡ nợ, trong ma trận tương quan trên có cặp biến độc lập có mức độ tương quan cao

        Kết quả hồi quy của mô hình tham số 1. Kết quả hồi quy của mô hình logistic

        Điều này cho rằng, lợi nhuận gộp và thu nhập trước thuế trên doanh thu thuần và vốn chủ sở hữu của một doanh nghiệp càng lớn thì khả năng tạo ra lợi nhuận của doanh nghiệp càng cao và khả năng phá sản của doanh nghiệp càng thấp. Bên cạnh đó, khả năng thanh toán lãi vay được đánh giá bằng tỷ lệ phần trăm tài sản ngắn hạn trên nợ ngắn hạn càng lớn nghĩa là doanh nghiệp đang nắm giữ lượng tiền mặt nhiều thì xác suất phá sản của doanh nghiệp càng thấp. Mặt khác, các biến độc lập như Thu nhập trước thuế/Doanh thu thuần (X2), Tổng nợ phải trả/Vốn chủ sở hữu (X6), (Tài sản ngắn hạn - Hàng tồn kho)/Nợ ngắn hạn (X8), Lợi nhuận trước thuế và lãi vay/Lãi vay (X9), Các khoản phải thu/Doanh thu bình quân (X13) theo cùng chiều với biến phụ thuộc.

        Dựa vào kết quả hồi quy của mô hình logistic, có thể thấy rằng nếu một doanh nghiệp nếu sử dụng nợ vay càng cao thì khả năng tự chủ tài chính của doanh nghiệp càng thấp, áp lực tài chính càng lớn dẫn đến khả năng phá sản càng tăng cao.

        Bảng 4.3 chỉ ra ma trận Confusion của mô hình hồi quy logistic forest (Phần code dùng để chạy ma trận Confusion của mô hình cây quyết định tại phụ lục - Hình 2)
        Bảng 4.3 chỉ ra ma trận Confusion của mô hình hồi quy logistic forest (Phần code dùng để chạy ma trận Confusion của mô hình cây quyết định tại phụ lục - Hình 2)

        Kết quả hồi quy của các mô hình phi tham số 1. Mô hình cây quyết định (Decision tree)

          Chỉ số Accuracy của mô hình cây quyết định là 0.9049, cao hơn mô hình hồi quy Logistic, cho thấy mô hình cây quyết định có thể phân biệt một cách đáng tin cậy giữa các doanh nghiệp bị phá sản và không bị phá sản với tỷ lệ 90.49%. Chỉ số Accuracy của mô hình cây quyết định là 0.9052, cao hơn mô hình hồi quy Logistic, cho thấy mô hình random forest có thể phân biệt một cách đáng tin cậy giữa các doanh nghiệp bị phá sản và không bị phá sản với tỷ lệ 90.52%. Thông qua hai bảng ma trận confusion bên trên của hai mô hình ước lượng xác suất vỡ nợ là: mô hình cây quyết định và mô hình random forest, ta có thể đưa ra nhận định rằng mô hình cây quyết định mang lại kết quả kém mô hình random forest khi tất cả chỉ số Accuracy, Sensitivity, Specificity, Precision và F1 - Score đều thấp hơn.

          Trong chương này, tác giả phân tích kết quả hồi quy từ các mô hình tham số và phi tham số và sử dụng các tiêu chí (Accuracy, Sensitivity, Specificity, Precision, F1 - Score) được tính từ ma trận confusion để đánh giá khả năng ước lượng xác suất vỡ nợ của từng mô hình.

          Bảng 4.4: Ma trận Confusion của mô hình cây quyết định (Decision Tree)
          Bảng 4.4: Ma trận Confusion của mô hình cây quyết định (Decision Tree)