1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng học máy vào dự Đoán rủi ro vỡ nợ của các doanh nghiệp tại việt nam

96 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học máy vào dự đoán rủi ro vỡ nợ của các doanh nghiệp tại Việt Nam
Tác giả Lê Thị Trúc Ly
Người hướng dẫn TS. Nguyễn Thị Minh Châu
Trường học Trường Đại Học Ngân Hàng Tp. Hồ Chí Minh
Chuyên ngành Tài Chính – Ngân Hàng
Thể loại Khóa luận Tốt Nghiệp Đại Học
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 96
Dung lượng 6,67 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU VỀ NGHIÊN CỨU (13)
    • 1.1 Đặt vấn đề (13)
    • 1.2 Tính cấp thiết của đề tài (14)
    • 1.3 Mục tiêu của đề tài (16)
      • 1.3.1 Mục tiêu nghiên cứu tổng quát (16)
      • 1.3.2 Mục tiêu nghiên cứu cụ thể (16)
    • 1.4 Câu hỏi nghiên cứu (17)
    • 1.5 Đối tượng và phạm vi nghiên cứu (17)
    • 1.6 Phương pháp nghiên cứu (17)
    • 1.7 Đóng góp của đề tài (18)
      • 1.7.1 Đóng góp về lý thuyết (18)
      • 1.7.2 Đóng góp về thực tiễn (18)
    • 1.8. Bố cục của đề tài nghiên cứu (18)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ TÌNH HÌNH NGHIÊN CỨU (20)
    • 2.1 Rủi ro vỡ nợ của doanh nghiệp và xác suất vỡ nợ (20)
      • 2.2.1 Các nhân tố thường được sử dụng trong ước lượng xác suất vỡ nợ (22)
      • 2.2.2 Các phương pháp phổ biến ứng dụng ước lượng xác suất vỡ nợ (28)
    • 2.3 Tổng quan các nghiên cứu trước (35)
      • 2.3.1 Các nghiên cứu trong nước (35)
      • 2.3.2 Các nghiên cứu ngoài nước (37)
  • CHƯƠNG 3. MÔ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU (40)
    • 3.1 Phương pháp nghiên cứu (40)
    • 3.2 Quy trình nghiên cứu (41)
    • 3.3 Thu thập dữ liệu và xử lý dữ liệu (43)
    • 3.4 Lựa chọn các biến đầu vào trong mô hình dự báo rủi ro vỡ nợ (45)
    • 3.5 Các mô hình dự báo rủi ro vỡ nợ doanh nghiệp (48)
      • 3.5.1 Mô hình hồi quy Logistic (Logistic Regression) (49)
      • 3.5.2 Mô hình cây quyết định (Decision Tree) (50)
      • 3.5.3 Mô hình rừng ngẫu nhiên (Random Forest) (51)
      • 3.5.4 Mô hình mạng thần kinh nhân tạo (Artificial Neural Network) (51)
    • 3.6 Các phương pháp đánh giá hiệu quả của mô hình dự báo (53)
      • 3.6.1 Confusion matrix (Ma trận nhầm lẫn) (53)
      • 3.6.2 Sensitivity và Specificity (Độ nhạy và độ đặc hiệu) (54)
      • 3.6.3 Accuracy và Precision (Độ chính xác) (55)
      • 3.6.4 F1-Score (Điểm F) (56)
      • 3.6.5 AUC (Khu vực dưới đường cong) (56)
    • 3.7 Chuẩn bị và tiền xử lý dữ liệu (57)
    • 3.8 Xác định mẫu xây dựng và mẫu kiểm định (58)
  • CHƯƠNG 4. KẾT QUẢ NGHIÊN CỨU (19)
    • 4.1 Thống kê mô tả (60)
    • 4.2 Ma trận tương quan (62)
    • 4.3 Kết quả dự báo các mô hình (63)
      • 4.3.1 Kết quả phân loại của mô hình hồi quy logistic (63)
      • 4.3.2 Kết quả phân loại của mô hình cây quyết định (67)
      • 4.3.3 Kết quả phân loại của mô hình rừng ngẫu nhiên (68)
      • 4.3.4 Kết quả phân loại của mô hình mạng thần kinh nhân tạo (69)
    • 4.4 So sánh các mô hình phân loại (70)
  • CHƯƠNG 5. KẾT LUẬN VÀ KHUYẾN NGHỊ (19)
    • 5.1 Kết luận (73)
    • 5.2 Khuyến nghị (74)
    • 5.3 Hạn chế và hướng nghiên cứu tiếp theo (78)
      • 5.3.1 Hạn chế của nghiên cứu (78)
      • 5.3.2 Hướng nghiên cứu tiếp theo (79)
  • TÀI LIỆU THAM KHẢO ........................................................................................... 68 (80)

Nội dung

Dựa vào tính cấp bách của thực tiễn, bài nghiên cứu mục đích hướng tới một số vấn đề như sau: i Tìm hiểu ước lượng rủi ro vỡ nợ doanh nghiệp bằng phương pháp học máy; ii Lựa chọn mô hình

GIỚI THIỆU VỀ NGHIÊN CỨU

Đặt vấn đề

Trong bối cảnh nền kinh tế hội nhập hiện nay, Việt Nam đang thu hút ngày càng nhiều đầu tư vào các dự án có quy mô khác nhau Chính vì điều này mà tín dụng ngân hàng càng trở nên quan trọng hơn trong việc cung cấp nguồn vốn thiết yếu trong hoạt động kinh doanh Đặc biệt, sự bùng nổ gần đây đối với mảng tín dụng khách hàng doanh nghiệp Chính vì vậy, việc thiết lập một mô hình định lượng để đo lường và dự báo rủi ro vỡ nợ của doanh nghiệp là một yêu cầu cấp thiết Do số lượng khách hàng vay lớn, ngoài các phương pháp chấm điểm thủ công, ngân hàng nên áp dụng các mô hình hay thuật toán trong việc phân tích, dự đoán rủi ro vỡ nợ của mỗi doanh nghiệp nhằm hạn chế rủi ro tín dụng Trong bối cảnh nghiên cứu rủi ro vỡ nợ của doanh nghiệp thông qua sử dụng kỹ thuật học máy, một số nghiên cứu đưa ra nhiều hướng phân tích mức độ rủi ro của các mô hình trong bộ dữ liệu cụ thể Tuy nhiên, các nghiên cứu này vẫn chưa xác định được kỹ thuật dự báo rủi ro vỡ nợ có thể dự báo ở mức độ chính xác cao hơn (Dastile và cộng sự (2020)) Chính vì vậy, bài khóa luận hướng tới mục tiêu đề xuất ứng dụng mô hình học máy trong phân tích các chỉ tiêu tài chính để ước lượng xác suất vỡ nợ nhằm dự đoán rủi ro vỡ nợ của doanh nghiệp Mục đích chính là nhằm hỗ trợ các ngân hàng trong công tác xếp hạng tín dụng, ra quyết định cho vay hoặc phân loại nợ Ngoài ra, tác giả hi vọng sẽ giúp ngân hàng cải thiện hiệu quả kiểm soát rủi ro tín dụng của các ngân hàng thương mại tại Việt Nam trong tương lai.

Tính cấp thiết của đề tài

Tính cấp thiết của đề tài được thể hiện ở một số khía cạnh như sau:

Thứ nhất, “Các phương pháp phân loại tín dụng truyền thống không đem lại hiệu quả tốt đối với sự phát triển công nghệ và dữ liệu data lớn” Trong ngành ngân hàng, việc quản lý rủi ro tín dụng đối với khách hàng doanh nghiệp là một trong những yếu tố then chốt quyết định đến sự bền vững và phát triển của tổ chức tài chính Quản lý rủi ro tín dụng hiệu quả giúp giảm thiểu các tổn thất do nợ xấu gây ra, từ đó cải thiện sức mạnh tài chính và sự ổn định của ngân hàng Tuy nhiên, với sự phát triển của công nghệ và số liệu lớn, việc áp dụng các phương pháp truyền thống đã không còn đáp ứng được nhu cầu ngày càng cao trong việc đánh giá và quản lý rủi ro tín dụng một cách hiệu quả

Barboza và đồng nghiệp (2017) đã chỉ ra sự ưu việt của các mô hình dự báo dựa trên học máy so với các mô hình thống kê truyền thống trong việc phân loại và dự báo rủi ro tín dụng Các công cụ như mạng nơron nhân tạo, cây quyết định và máy học sâu đã được chứng minh là hiệu quả vượt trội Tuy nhiên, việc áp dụng những phương pháp này trong thực tế vẫn gặp nhiều thách thức do sự thiếu hiểu biết và khả năng triển khai mô hình phức tạp trong các ngân hàng, đặc biệt là tại Việt Nam Các nghiên cứu trước đó của (Thomas, 2002) và (Altman, 1968) đã sử dụng phương pháp thống kê truyền thống, nhưng chúng có hạn chế trong việc xử lý dữ liệu lớn và phức tạp

Xác định các chỉ số tài chính ảnh hưởng đến xếp hạng tín dụng là mục tiêu của nghiên cứu về dự báo khả năng vỡ nợ Các nghiên cứu trong lĩnh vực này đã xác định và lựa chọn các chỉ số quan trọng, chẳng hạn như Vốn chủ sở hữu/Tổng thu nhập thuần và Tỷ lệ Vốn chủ sở hữu/Tài sản cố định, để đánh giá tình trạng tài chính và xếp hạng tín dụng của doanh nghiệp.

(Altman, 1968) tiếp tục phát triển mô hình Z-Score, một trong những công cụ phân tích tín dụng quan trọng, sử dụng các biến như Giá trị Vốn chủ sở hữu/Giá trị sổ sách của khoản nợ, Thu nhập ròng của doanh nghiệp/Tổng tài sản, Lợi nhuận sau thuế/Tổng tài sản và Vốn lưu động/Tổng tài sản Mô hình này đã có sự ảnh hưởng lớn đến phương pháp dự báo rủi ro tín dụng và được sử dụng rộng rãi trong thực tế ngân hàng và tài chính Nghiên cứu của (Deakin, 1972) đã mở rộng về số lượng biến tài chính để cải thiện độ chính xác trong dự báo, bao gồm Tiền mặt/Nợ ngắn hạn, Dòng tiền thực/Tổng nợ, Tiền mặt/Doanh thu ròng, Khả năng thanh toán hiện tại, Tài sản ngắn hạn/Doanh thu thuần và Tài sản lưu động/Tổng tài sản, đóng góp quan trọng vào việc nghiên cứu và áp dụng các chỉ số tài chính Nghiên cứu gần đây của (Blum,

1974) và (Ohlson, 1980) tiếp tục tập trung vào các chỉ số như Tỷ suất lợi nhuận thị trường, Tỷ lệ thanh toán nhanh, và các biến tài chính khác của Tài sản/Hàng tồn kho có tính thanh khoản cao để cải thiện độ chính xác trong dự báo khả năng vỡ nợ.Các biến tài chính khác như tỷ lệ lưu chuyển tiền mặt và tỷ lệ nợ dài hạn so với vốn chủ sở hữu cũng được xem xét để đánh giá và dự báo tình trạng tài chính của doanh nghiệp một cách chi tiết và toàn diện hơn

Thứ ba, “ Phương pháp phân loại tín dụng tại các ngân hàng thương mại Việt

Nam vẫn mang tính chủ quan cao, dựa trên năng lực đánh giá của cán bộ tín dụng”

Phương pháp xếp hạng tín nhiệm hiện tại tại các ngân hàng thương mại Việt Nam vẫn chịu sự ảnh hưởng lớn từ nhân quyền, dẫn đến mức độ chủ quan cao từ các cán bộ tín dụng Điều này không chỉ ảnh hưởng đến tính chính xác trong dự báo nguy cơ vỡ nợ của khách hàng doanh nghiệp, mà còn tác động đến quyết định cho vay và tăng rủi ro tín dụng của các ngân hàng Sự chủ quan trong đánh giá có thể dẫn đến việc đưa ra các quyết định không cân đối, không căn cứ khoa học, gây khó khăn trong việc quản lý rủi ro và tối đa hóa hiệu quả tín dụng

Ngoài ra, khoảng trống nghiên cứu hiện nay bao gồm việc thiếu các nghiên cứu ứng dụng cụ thể các mô hình học máy trong môi trường ngân hàng Việt Nam Đặc biệt, chưa có nhiều nghiên cứu đánh giá hiệu quả của việc kết hợp các mô hình học máy với các yếu tố tài chính và phi tài chính để dự báo rủi ro tín dụng Điều này tạo ra sự cần thiết về mặt khoa học để nghiên cứu sâu hơn và ứng dụng các phương pháp tiên tiến nhằm cải thiện khả năng dự báo rủi ro tín dụng Hơn thế nữa, các nghiên cứu trong và ngoài nước vẫn có nhiều ý kiến bất đồng về độ tin cậy của các mô hình xếp hạng tín nhiệm khác nhau, khiến việc lựa chọn mô hình trở nên khó khăn hơn

Chính vì các lý do trên, tác giả đã chọn đề tài “ỨNG DỤNG HỌC MÁY VÀO DỰ ĐOÁN RỦI RO VỠ NỢ CỦA KHÁCH HÀNG DOANH NGHIỆP TẠI VIỆT NAM” với mong muốn lựa chọn ra các mô hình dự báo vỡ nợ phù hợp giúp các nhà quản trị rủi ro tín dụng tại các ngân hàng thương mại Việt Nam có thể phát triển tốt hơn trong việc quản trị tín dụng, giảm thiểu rủi ro và hoạt động kinh doanh hiệu quả hơn Ngoài ra, tác giả hi vọng bài nghiên cứu sẽ giúp mở rộng kiến thức về các phương pháp học máy trong cộng đồng học thuật, góp phần khắc phục các hạn chế hiện tại và lấp đầy khoảng trống nghiên cứu trong lĩnh vực này.

Mục tiêu của đề tài

1.3.1 Mục tiêu nghiên cứu tổng quát

Nghiên cứu này ứng dụng học máy để xây dựng mô hình dự báo xác suất vỡ nợ của doanh nghiệp, nhằm giảm thiểu rủi ro tín dụng trong hoạt động của ngân hàng thương mại Việt Nam Mô hình dự báo dựa trên các dữ liệu tài chính của doanh nghiệp, đánh giá khả năng thanh toán, tình hình tài chính và đặc điểm hoạt động Kết quả nghiên cứu cung cấp các hàm ý quản trị giúp ngân hàng thương mại đưa ra quyết định cho vay phù hợp, giảm thiểu rủi ro tín dụng và đảm bảo tính ổn định, an toàn của hệ thống ngân hàng.

1.3.2 Mục tiêu nghiên cứu cụ thể

Thứ nhất là Tìm hiểu ước lượng rủi ro vỡ nợ doanh nghiệp bằng phương pháp học máy

Thứ hai là Ứng dụng học máy xây dựng mô hình dự báo rủi ro vỡ nợ của doanh nghiệp

Thứ ba là Đánh giá và so sánh các mô hình dự báo xác suất vỡ nợ , từ đó xác định mô hình phù hợp cho từng trường hợp cụ thể

Thứ tư, Đề xuất và khuyến nghị các nhà quản trị rủi ro tín dụng ứng dụng mô hình tại các Ngân hàng thương mại Việt Nam, đồng thời đưa ra các điều kiện và lưu ý khi triển khai từng loại mô hình, nhằm đảm bảo hiệu quả và tính khả thi trong thực tiễn.

Câu hỏi nghiên cứu

• Các phương pháp học máy nào đang được sử dụng để ước lượng rủi ro vỡ nợ doanh nghiệp?

• Mô hình học máy nào đem lại hiệu quả nhất khi ứng dụng vào dự đoán trong nghiên cứu?

• Những khuyến nghị cụ thể nào có thể giúp các ngân hàng thương mại Việt Nam áp dụng các mô hình học máy hiệu quả trong quản trị rủi ro tín dụng?

• Các điều kiện và lưu ý quan trọng nào cần được xem xét khi triển khai các mô hình học máy tại các ngân hàng thương mại Việt Nam?

Đối tượng và phạm vi nghiên cứu

− Đối tượng ứng dụng: Các ngân hàng thương mại tại Việt Nam

− Đối tượng nghiên cứu: Xác suất vỡ nợ của doanh nghiệp phi tài chính tại Việt Nam

− Phạm vi nghiên cứu: Dữ liệu sử dụng được lấy từ báo cáo tài chính hàng năm có kiểm toán của khoảng 400 doanh nghiệp phi tài chính thuộc 12 ngành khác nhau tại Việt Nam từ năm 2020 đến năm 2023

Các ngành gồm: Sắt thép, Dệt may, Chế biến thủy sản, Khai khoáng (dầu mỏ, khí đốt, than, ), Kinh doanh ô tô và phụ tùng ô tô, Sản xuất thiết bị và máy móc, Sản xuất thực phẩm và đồ uống, Sản xuất nông nghiệp (Lúa, tiêu, điều, chè, ), Dịch vụ sức khỏe và y tế, Công nghệ và thông tin, Bất động sản và xây dựng, Du lịch và giải trí.

Phương pháp nghiên cứu

Nghiên cứu này sử dụng phương pháp định lượng với thống kê mô tả, so sánh giữa mô hình và thực tiễn, phương pháp Analytic-Synthetic để xây dựng và phân tích dữ liệu Nghiên cứu đánh giá rủi ro mất khả năng thanh toán của doanh nghiệp thông qua các mô hình hồi quy logistic, cây quyết định, rừng ngẫu nhiên và mạng thần kinh nhân tạo.

Đóng góp của đề tài

1.7.1 Đóng góp về lý thuyết Đề tài ứng dụng học máy dự đoán rủi ro vỡ nợ doanh nghiệp tại các ngân hàng thương mại Việt Nam đóng góp vào lý thuyết bằng cách phát triển và cải tiến các mô hình dự đoán, nâng cao phương pháp xử lý và lựa chọn đặc trưng, tích hợp học máy vào quy trình tài chính, tối ưu hóa và đánh giá mô hình, cũng như giải quyết các thách thức đặc thù trong lĩnh vực này

1.7.2 Đóng góp về thực tiễn

Việc ứng dụng học máy vào dự đoán rủi ro vỡ nợ của khách hàng tại ngân hàng đóng vai trò quan trọng trong việc tối ưu hóa quy trình vay mượn, quản lý rủi ro tín dụng, và cải thiện hiệu suất kinh doanh của ngân hàng

Giải quyết vấn đề thực tiễn trong ngành ngân hàng bằng cách cung cấp phương tiện hiệu quả để đánh giá rủi ro vỡ nợ của khách hàng và quản lý rủi ro tín dụng.

Bố cục của đề tài nghiên cứu

Bài viết được phân chia thành 5 chương: Giới thiệu tổng quan, đưa ra cơ sở lý thuyết và các nghiên cứu trước đây, các mô hình ước lượng rủi ro vỡ nợ, phân tích kết quả và thảo luận kèm theo, chi tiết cụ thể như sau:

Tính cấp thiết của đề tài, vấn đề nghiên cứu, mục tiêu nghiên cứu, câu hỏi nghiên cứu, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, những đóng góp của đề tài và kết cấu của luận án đều được trình bày trong chương này nhằm cung cấp cho người đọc một cái nhìn tổng thể về toàn bộ nghiên cứu

Chương 2 (CƠ SỞ VÀ TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU)

Mục đích của chương 2 là cung cấp cho độc giả một nền tảng vững chắc về lý thuyết và các công cụ phân tích được sử dụng trong nghiên cứu về rủi ro vỡ nợ, cũng như tổng quan về các nghiên cứu trước đó để làm cơ sở cho phần nghiên cứu tiếp theo

Chương 3 (PHƯƠNG PHÁP NGHIÊN CỨU)

Chương 3 tập trung vào phương pháp và quy trình nghiên cứu, cũng như các phương pháp liên quan đến thu thập, xử lý dữ liệu, cách lựa chọn biến đầu vào và các mô hình dự báo rủi ro vỡ nợ sẽ được ứng dụng xác định mức độ tin cậy của kết quả nghiên cứu này

Chương 4 (KẾT QUẢ NGHIÊN CỨU)

Từ các mô hình tham số và phi tham số để phân tích kết quả hồi quy Bên cạnh đó, dựa trên các chỉ tiêu đã được tính toán từ ma trận confusion (Accuracy, Sensitivity, Specificity, Precision, F1 –Score, AUC) nhằm mục đích so sánh từng mô hình và đánh giá khả năng dự báo rủi ro vỡ nợ của chúng

Tóm tắt lại các kết quả nghiên cứu và đưa ra một số khuyến nghị cho các tổ chức tín dụng ứng dụng mô hình dự đoán rủi ro vỡ nợ vào quá trình hoạt động Bên cạnh đó, tác giả còn phân tích rõ các hạn chế mà nghiên cứu đang gặp phải và đưa ra hướng nghiên cứu tiếp theo nhằm cải thiện hơn.

CƠ SỞ LÝ THUYẾT VÀ TÌNH HÌNH NGHIÊN CỨU

Rủi ro vỡ nợ của doanh nghiệp và xác suất vỡ nợ

Theo khoản 10, điều 4, Luật Doanh Nghiệp năm 2020, Doanh nghiệp được định nghĩa là một tổ chức, có tên riêng, có tài sản riêng và có trụ sở giao dịch ổn định, được thành lập hoặc đăng ký thành lập theo quy định của pháp luật nhằm mục đích kinh doanh

Basel II (2006) định nghĩa Rủi ro vỡ nợ của doanh nghiệp là rủi ro doanh nghiệp không có khả năng thực hiện đúng cam kết hoàn trả đối với các chủ nợ vào thời điểm đến hạn Xét về nguyên nhân gồm cả yếu tố chủ quan và khách quan đến tình trạng vỡ nợ của doanh nghiệp Yếu tố chủ quan thường liên quan thường liên quan đến các quyết định và hành động của chính doanh nghiệp, như chiến lược kinh doanh, quản lý tài chính, và chính sách tín dụng Các yếu tố chủ quan này có thể bao gồm sức khỏe tài chính của doanh nghiệp, hiệu quả quản lý rủi ro tín dụng, và chất lượng của quản lý tổ chức Yếu tố khách quan như suy thoái kinh tế, biến động vĩ mô của nền kinh tế hoặc sự kiện không lường trước được như khủng hoảng tài chính hoặc đại dịch

Rủi ro vỡ nợ của doanh nghiệp góp phần làm tăng rủi ro tín dụng của ngân hàng Theo thông tư của Ngân hàng Nhà nước Việt Nam, rủi ro tín dụng là rủi ro khách hàng không trả được nợ theo hợp đồng Trong khi đó, Basel (2004) định nghĩa rủi ro tín dụng là khả năng người đi vay không thực hiện nghĩa vụ trả nợ Để đo lường rủi ro tín dụng, nghiên cứu tập trung vào dự đoán khả năng vỡ nợ của doanh nghiệp Basel II (2004) xác định xác suất vỡ nợ (PD) là khả năng một người đi vay sẽ vỡ nợ trong vòng một năm, khi họ chậm thanh toán 90 ngày hoặc không thể thực hiện nghĩa vụ tài chính.

Xác suất vỡ nợ (PD) là một trong ba yếu tố chính (xác suất vỡ nợ (PD), dư nợ tại thời điểm vỡ nợ (EAD), tổn thất khi vỡ nợ (LGD) ) để xác định rủi ro tín dụng theo tiêu chuẩn Basel II Basel II cho phép các tổ chức sử dụng mô hình thống kê ước lượng PD Các mô hình này có thể dựa trên dữ liệu lịch sử và sử dụng các biến độc lập như lịch sử tín dụng, thu nhập, và các yếu tố khác để dự đoán xác suất vỡ nợ Basel II cũng cho phép sử dụng các mô hình dựa trên dữ liệu để ước lượng PD Các mô hình này thường dựa trên các kỹ thuật máy học và học máy để phân tích dữ liệu lịch sử và dự đoán xác suất vỡ nợ Đây cũng chính là mô hình mà tác giả hướng đến Ngoài ra, Basel II cũng khuyến khích sử dụng các phương pháp kết hợp để ước lượng

PD Điều này có thể bao gồm kết hợp cả mô hình thống kê và mô hình dựa trên dữ liệu để tạo ra một ước lượng PD chính xác hơn

Việc đo lường và đánh giá xác suất vỡ nợ giúp các tổ chức tài chính đưa ra quyết định cấp vay, xếp hạng tín dụng, và quản lý rủi ro tín dụng một cách hiệu quả Tuy nhiên, việc ước tính xác suất vỡ nợ sai sẽ dẫn đến đưa ra xếp hạng không hợp lý cho khách hàng Và hệ lụy là sử dụng không đúng công cụ tài chính dẫn đến tác động tiêu cực việc phát triển kinh tế và ổn định tài chính toàn cầu

2.2 Các phương pháp và các nhân tố thường được sử dụng trong ước lượng xác suất vỡ nợ của khách hàng doanh nghiệp

2.2.1 Các nhân tố thường được sử dụng trong ước lượng xác suất vỡ nợ

Chỉ số tài chính của doanh nghiệp được tính toán bằng tỉ lệ của một số liệu tài chính/kinh doanh này so với một số liệu khác Các chỉ số tài chính doanh nghiệp thể hiện rõ hơn mối quan hệ giữa các yếu tố (Thu nhập ròng và doanh thu, Tổng tài sản và tổng phải trả,…) trong báo cáo tài chính Chỉ số này cho chúng ta thấy được rõ nhất tình hình tài chính của một doanh nghiệp Chỉ số tài chính thường dùng để so sánh, cho phép chủ doanh nghiệp đánh giá và đo lường giữa các yếu tố tài chính, phản ánh chi tiết về những vấn đề tốt và xấu trong doanh nghiệp để đưa ra quyết định trong quản lý kinh doanh Ngoài ra, chỉ số tài chính giúp các nhà đầu tư nắm được tình hình doanh nghiệp hoạt động, từ đó đưa ra quyết định đầu tư đúng đắn, hiệu quả hơn Đặc biệt hơn, các chỉ số tài chính còn cho phép thực hiện so sánh với các báo cáo tài chính khác ngành giúp nhận định khả năng thanh toán nợ vay và chi trả cổ tức Nhiều nghiên cứu đã chứng minh hiệu quả của việc sử dụng các chỉ số tài chính trong việc dự đoán rủi ro và đánh giá tình hình tài chính của doanh nghiệp Chẳng hạn, (Altman, 1968) với mô hình Z-Score sử dụng các chỉ số như tỷ lệ vốn lưu động trên tổng tài sản và lợi nhuận giữ lại trên tổng tài sản để dự đoán khả năng vỡ nợ, đạt được độ chính xác cao (Ohlson, 1980) phát triển mô hình O-Score dựa trên các chỉ số về quy mô doanh nghiệp và cấu trúc tài chính để dự báo rủi ro tài chính (Beaver, 1966) cũng sử dụng các chỉ số như tỷ lệ thanh toán hiện hành và tỷ lệ nợ trên tổng tài sản để cung cấp các dấu hiệu sớm về rủi ro vỡ nợ Hay, các nghiên cứu gần đây đã tiếp tục khẳng định vai trò quan trọng của các chỉ số tài chính trong việc dự đoán rủi ro vỡ nợ của doanh nghiệp Chẳng hạn, nghiên cứu của Chen và cộng sự (2023) đã sử dụng các mô hình học máy kết hợp với các chỉ số tài chính để nâng cao độ chính xác của dự đoán Jabeur & Serret (2023) sử dụng các mô hình học máy và mạng nơ-ron tích chập mờ, kết hợp với các chỉ số tài chính để nâng cao độ chính xác của dự báo Jabeur & cộng sự (2021) áp dụng mô hình CatBoost, còn Duan & cộng sự (2020) phát triển phương pháp NGBoost, tất cả đều dựa trên các chỉ số tài chính như tỷ lệ vốn lưu động, lợi nhuận giữ lại, và tỷ lệ thanh toán hiện hành để phân tích và dự báo rủi ro tài chính hiệu quả Những nghiên cứu này khẳng định rằng các chỉ số tài chính là công cụ quan trọng và được ứng dụng rộng rãi trong quản lý tài chính và đầu tư

* Ưu và nhược điểm khi sử dụng nhân tố tài chính

(Nguồn: Tác giả tổng hợp)

Bảng 2.1 Ưu và nhược điểm khi sử dụng nhân tố tài chính Ưu điểm Nhược điểm

• Dữ liệu đo lường được: Các chỉ số tài chính như tỷ suất lợi nhuận và tỷ lệ nợ dễ dàng đo lường và phân tích

• Cung cấp phân tích khách quan: Các chỉ số tài chính cung cấp cái nhìn khách quan về tình hình tài chính của doanh nghiệp

• Mối quan hệ mạnh mẽ với rủi ro vỡ nợ: Các nghiên cứu đã chỉ ra rằng nhiều chỉ số tài chính có mối quan hệ chặt chẽ với khả năng vỡ nợ của doanh nghiệp

• Khả năng so sánh: Cho phép so sánh hiệu quả giữa các doanh nghiệp và các giai đoạn khác nhau

• Ảnh hưởng bởi biến động kinh tế: Các chỉ số tài chính có thể bị ảnh hưởng bởi yếu tố kinh tế vĩ mô, như lạm phát hoặc suy thoái, làm giảm độ chính xác của dự đoán

• Hạn chế dự đoán tương lai: Chỉ số tài chính có thể phản ánh quá khứ nhưng không luôn dự đoán chính xác tình hình tài chính tương lai

• Khó cân nhắc yếu tố phi tài chính: Mô hình dự đoán dựa trên chỉ số tài chính có thể bỏ qua các yếu tố phi tài chính quan trọng như chất lượng quản lý và môi trường kinh doanh

• Hiệu ứng thay đổi số liệu: Số liệu tài chính có thể thay đổi theo cách trình bày của doanh nghiệp, gây ảnh hưởng đến độ chính xác của dự đoán

Có 4 nhóm chỉ số tài chính phổ biến nhất dùng phân tích tài chính một doanh nghiệp:

➢ Nhóm Tỷ suất lợi nhuận

➢ Nhóm Chỉ số thanh toán

➢ Nhóm Đòn bẩy tài chính

➢ Nhóm Hiệu suất hoạt động

❖ Nhân tố phi tài chính

Các nghiên cứu trước đây đã chứng minh rằng việc tích hợp các nhân tố phi tài chính vào các mô hình dự đoán rủi ro vỡ nợ mang lại nhiều lợi ích đáng kể Ví dụ, nghiên cứu của (Altman, E I., & Saunders, A., 1998) cho thấy rằng các yếu tố như chất lượng quản lý và chiến lược kinh doanh có thể làm tăng độ chính xác của các mô hình đo lường rủi ro tín dụng bằng cách cung cấp cái nhìn sâu sắc hơn về khả năng bền vững của doanh nghiệp Tương tự, Nghiên cứu của Wilson và Sharda (1994) đã áp dụng các mô hình học máy, bao gồm mạng nơ- ron, để dự đoán vỡ nợ và nhận thấy rằng việc kết hợp các yếu tố phi tài chính như

Hình 2.1 Bốn nhóm chỉ số tài chính phổ biến chất lượng quản trị công ty và chiến lược kinh doanh đã tăng cường khả năng dự đoán Hay, nghiên cứu của (Lussier, 1995) chỉ ra rằng các yếu tố như kinh nghiệm quản lý và kỹ năng lãnh đạo có thể cải thiện độ chính xác của các mô hình dự đoán phá sản Nghiên cứu của (Tinoco, M H., & Wilson, N., 2013) cũng nhấn mạnh rằng các yếu tố như quản trị công ty có thể ảnh hưởng tích cực đến dự đoán phá sản, nhờ vào việc cung cấp cái nhìn về cấu trúc quản lý và chiến lược công ty Nghiên cứu của (Altman, E I., Iwanicz-Drozdowska, M., Laitinen, E K., & Suvas, A., 2020) cũng đã ứng dụng mô hình học máy để dự đoán vỡ nợ, trong đó các yếu tố phi tài chính như quản trị công ty và văn hóa doanh nghiệp đóng vai trò quan trọng trong việc nâng cao hiệu quả dự đoán.Những kết quả này chứng tỏ rằng nhân tố phi tài chính không chỉ làm phong phú thêm phân tích rủi ro mà còn giúp nhận diện sớm các yếu tố tiềm ẩn không thể hiện qua các chỉ số tài chính, từ đó nâng cao khả năng dự đoán và ra quyết định

Các nhân tố phi tài chính bao gồm:

➢ Chất lượng quản lý và chiến lược kinh doanh: Bao gồm kinh nghiệm và năng lực của ban lãnh đạo, cũng như sự rõ ràng và khả thi của chiến lược kinh doanh

➢ Thị trường và ngành: Đánh giá vị thế cạnh tranh của doanh nghiệp trong ngành và mức độ phụ thuộc vào chu kỳ kinh doanh của ngành

➢ Quan hệ với các bên liên quan: Bao gồm mối quan hệ với nhà cung cấp, khách hàng, và tổ chức tài chính

➢ Rủi ro pháp lý và tuân thủ: Đánh giá mức độ tuân thủ các quy định pháp luật và khả năng ảnh hưởng của các tranh chấp pháp lý

Văn hóa doanh nghiệp và môi trường làm việc đóng vai trò quan trọng trong sự thành công của tổ chức Đánh giá sự phù hợp giữa văn hóa doanh nghiệp và chiến lược kinh doanh giúp đảm bảo sự nhất quán trong tầm nhìn và mục đích giữa nhân viên và lãnh đạo Đánh giá mức độ hài lòng và gắn kết của nhân viên thông qua các khảo sát và nghiên cứu đo lường mức độ thỏa mãn và động lực của nhân viên trong công việc Tỷ lệ nghỉ việc cũng là một chỉ số phản ánh sức khỏe của môi trường làm việc, cho biết mức độ gắn bó và hài lòng của nhân viên với tổ chức.

➢ Khả năng đổi mới và công nghệ: Đánh giá khả năng của doanh nghiệp trong việc đổi mới sản phẩm, dịch vụ và quy trình

* Ưu và nhược điểm khi sử dụng nhân tố phi tài chính

Bảng 2.2 Ưu và nhược điểm khi sử dụng nhân tố phi tài chính Ưu điểm Nhược điểm

Tổng quan các nghiên cứu trước

2.3.1 Các nghiên cứu trong nước

Hiện nay, ứng dụng các thuật toán học máy vào dự đoán rủi ro vỡ nợ và ước lượng xác suất vỡ nợ tại Việt Nam còn hạn chế, dù có một số nghiên cứu đã được thực hiện nhưng vẫn rất ít và chưa đa dạng về phương pháp và ngành nghề Các nghiên cứu hiện tại như của (Trương Thị Thùy Dương & Lê Hải Trung, 2023) và Huỳnh Thị Cẩm Hà & cộng sự (2017) chủ yếu tập trung vào các giai đoạn trước năm

2020 và chỉ sử dụng một số phương pháp học máy Ngoài ra, nghiên cứu của Nguyễn Thị Tuyết Lan (2019) chỉ tập trung vào ngành xây dựng, còn Vũ Thị Loan (2016) chủ yếu sử dụng các chỉ số thị trường thông tin Tuy nhiên, chưa có nghiên cứu nào đánh giá toàn diện hiệu quả của các mô hình học máy khi áp dụng trên dữ liệu đa ngành từ các doanh nghiệp niêm yết trên HOSE, HNX, và UPCOM Nghiên cứu của tác giả sẽ khắc phục những hạn chế này bằng cách sử dụng dữ liệu mới nhất từ 2020 đến 2023, bao gồm 400 doanh nghiệp thuộc 12 ngành khác nhau, và áp dụng nhiều thuật toán học máy để đánh giá và so sánh hiệu quả dự đoán rủi ro phá sản Điều này không chỉ cập nhật tình hình kinh tế hiện tại mà còn cung cấp cái nhìn toàn diện và chi tiết hơn, giúp cải thiện khả năng dự đoán và quản lý rủi ro của các doanh nghiệp Việt Nam

Cụ thể, nghiên cứu mới đây (Trương Thị Thùy Dương & Lê Hải Trung, 2023) đã thực hiện nghiên cứu “Ứng dụng phương pháp học máy trong dự báo rủi ro phá sản của các doanh nghiệp tại Việt Nam” Tác giả sử dụng các chỉ tiêu tài chính của

Với dữ liệu của 300 doanh nghiệp Việt Nam giai đoạn 2017 - 2019 từ FinGroup, nghiên cứu sử dụng 5 phương pháp dự báo gồm: Logistic Regression (LR), Random Forest (RF), XGBoost, K-Nearest Neighbor, Nạve Bayes (NB) Kết quả cho thấy cả 5 mô hình đều đạt độ chính xác trên 77%, trong đó XGBoost đạt hiệu suất cao nhất với độ chính xác dự đoán đúng trên 87% doanh nghiệp phá sản và không phá sản, tiếp theo là Random Forest với độ chính xác hơn 83% Điều đáng chú ý là Logistic Regression có độ chính xác trong dự báo tổng số doanh nghiệp phá sản và không phá sản tốt hơn so với K-Nearest Neighbor và Nạve Bayes.

Nạve Bayes trong tập dữ liệu này với tỷ lệ dự đốn đúng 80,66% so với 77,35% và 78,3%

Hay, Nguyễn Thị Tuyết Lan (2019) đã tiến hành một nghiên cứu về các yếu tố ảnh hưởng đến rủi ro phá sản của các doanh nghiệp niêm yết trong ngành xây dựng tại Việt Nam Trong nghiên cứu này, cô sử dụng mô hình Logit với 5 biến độc lập là tổng nợ/tổng tài sản, vốn lưu động/tổng tài sản, rủi ro thanh toán ngắn hạn, tỷ lệ lợi nhuận/tổng tài sản và tăng trưởng thu nhập ròng Mẫu khảo sát bao gồm 109 doanh nghiệp niêm yết trong ngành xây dựng tại Việt Nam trên 2 sàn giao dịch là HNX và HOSE trong giai đoạn từ 2005 đến 2017 Kết quả của nghiên cứu cho thấy các yếu tố, bao gồm tổng nợ/tổng tài sản, có mối tương quan thuận chiều với rủi ro phá sản của các doanh nghiệp niêm yết trong ngành xây dựng tại Việt Nam, và tác động ngược chiều với tỷ lệ sinh lời/tổng tài sản

Ngoài ra, Huỳnh Thị Cẩm Hà và cộng sự (2017) thực nghiệm nghiên cứu dựa trên mẫu dữ liệu gồm 664 công ty phi tài chính trên thị trường chứng khoán Việt Nam từ năm 2009-2015 Bài nghiên cứu thực hiện bằng cách sử dụng mô hình cây phân lớp dựa trên thuật toán C4.5 và thuật toán AdaBoost nhằm dự báo kiệt quệ tài chính (KQTC) cho các doanh nghiệp Việt Nam Mô hình nghiên cứu cho thấy kết quả nghiên cứu hoàn toàn phù hợp ứng dụng dự đoán KQTC cho doanh nghiệp, đặc biệt mô hình cây dựa trên thuật toán Adaboost với tỷ lệ dự báo chính xác trên 90% Nhóm tác giả tìm ra ba thuộc tính đánh giá quan trọng nhất trong mô hình dự báo KQTC đó là chỉ số tăng trưởng trong vốn chủ sở hữu, tỷ lệ nợ trên vốn chủ sở hữu và tỷ lệ lợi nhuận ròng trên vốn chủ sở hữu

Vũ Thị Loan (2016) đã sử dụng hồi quy Logit và kỹ thuật nghiên cứu Máy vectơ hỗ trợ (SVM) để xác định thị trường thông tin có thể dự đoán sự thất bại của công ty trong vòng một đến ba năm tới hay không Kết quả cho thấy khi kết hợp các tỷ lệ kế toán với các đặc điểm của thị trường, chẳng hạn như biến động giá và tỷ lệ Giá trên Thu nhập, có thể cải thiện khả năng phân loại rủi ro của mô hình tiền nghiệm.

2.3.2 Các nghiên cứu ngoài nước

Nghiên cứu của (Beaver, 1966) được coi là một trong những nghiên cứu đầu tiên áp dụng tỷ số tài chính để dự đoán nguy cơ phá sản bằng cách phân tích dữ liệu trong 5 năm trước khi doanh nghiệp gặp khó khăn Mô hình tiêu biểu về rủi ro phân biệt giữa các doanh nghiệp phá sản và không phá sản được phát triển bởi (Altman,

Altman (1968) là người tiên phong trong việc áp dụng phân tích phân biệt nhiều chiều (MDA) để dự báo khả năng phá sản thông qua phương pháp dự đoán đa biến Ông đã phát triển mô hình Z-score nổi tiếng, sử dụng năm tỷ số tài chính, giúp dự báo nguy cơ phá sản một năm trước tốt hơn nhiều so với các biến đơn lẻ Sau đó, Altman tiếp tục phát triển phương pháp Beaver bằng cách sử dụng MDA với năm biến (Wu, X., Zhang, Y., & Li, J., 2022).

Trong nghiên cứu của (Lin, 2009) về rủi ro dự đoán tình trạng khó khăn tài chính của các công ty ở Đài Loan sau cuộc khủng hoảng tài chính năm 2009, các mô hình phân tích khác biệt như discriminant analysis, logit, và probit đã được kiểm tra Kết quả dự báo cho thấy hiệu suất ổn định Tuy nhiên, khi giả định một số điều kiện mà dữ liệu không đáp ứng các giả thiết thống kê, hiệu suất này đã giảm đi

Trong nghiên cứu của (Liou, 2008), ba phương pháp khai thác dữ liệu đã được đánh giá để phát hiện gian lận trong báo cáo tài chính và dự đoán sự thất bại của công ty Sử dụng phương pháp hồi quy logistic từng bước, đã chứng minh được rằng 19 trong tổng số 52 tỷ lệ tài chính từ các nghiên cứu trước đó là có giá trị tiên đoán đáng kể trong việc ước lượng sự phá sản của công ty Tuy nhiên, theo kết quả của nghiên cứu, mô hình cây quyết định đã đạt được tỷ lệ thành công cao hơn trong việc dự đoán sự phá sản của công ty

Sun và cộng sự (2014) đưa ra những gợi ý cho nghiên cứu trong tương lai mà các nhà nghiên cứu cần xem xét việc sử dụng một thước đo có thể phân loại các doanh nghiệp gặp khó khăn thành nhiều cấp độ như nhẹ, trung bình và phá sản bởi vì kiệt quệ tài chính là một quá trình năng động, diễn ra liên tục do hoạt động kinh doanh đang diễn ra bất thường trong thời gian dài (từ nhiều tháng đến nhiều năm hoặc thậm chí lâu hơn) Kết quả là, một số phương pháp đo lường cũng đã được phát triển để dự báo doanh nghiệp kiệt quệ tài chính ở các mức độ khác nhau

Nghiên cứu của Guido Perboli và Ehsan Arabnezhad (2021) đã áp dụng các mô hình như Random Forest, Neural Network, Logistic Regression và Gradient Boosting, được hiệu chỉnh thông qua việc sử dụng 15 biến độc lập từ dữ liệu báo cáo tài chính của hơn 160.000 doanh nghiệp ở Ý đến cuối năm 2018 Nghiên cứu này cũng kết hợp dữ liệu về khoảng 3.000 doanh nghiệp phá sản từ năm 2001 đến 2018 Kết quả của họ cho thấy độ chính xác trên 80%, không chỉ trong ngắn hạn (12 tháng) mà còn trong trung hạn (36 tháng) và dài hạn (đến 60 tháng)

Tóm lại, mặc dù các mô hình phân tích truyền thống như của (Beaver, 1966) và (Altman, 1968) đã đóng vai trò quan trọng trong dự đoán rủi ro phá sản bằng cách sử dụng tỷ số tài chính và phân tích phân biệt, nhưng chúng vẫn có những hạn chế đáng kể Các mô hình này thường gặp khó khăn trong việc dự đoán dài hạn và xử lý dữ liệu chuỗi thời gian lớn Nghiên cứu của (Lin, 2009) cho thấy hiệu suất của các mô hình phân tích phân biệt có thể giảm khi không đáp ứng các giả định thống kê, trong khi (Liou, 2008) chỉ ra rằng mô hình cây quyết định có thể đạt được tỷ lệ thành công cao hơn so với hồi quy logistic trong dự đoán phá sản Nghiên cứu gần đây như của Guido Perboli và Ehsan Arabnezhad (2021) cho thấy các mô hình học máy như Random Forest, Neural Network, và Gradient Boosting có khả năng vượt trội trong dự đoán rủi ro phá sản, với độ chính xác cao trong cả ngắn hạn và dài hạn Những mô hình này không chỉ cải thiện khả năng dự đoán mà còn có khả năng xử lý dữ liệu lớn và cung cấp cái nhìn sâu sắc hơn về rủi ro tài chính.Nhìn chung, việc áp dụng học máy vào dự đoán rủi ro phá sản cho thấy tiềm năng vượt trội so với các phương pháp phân tích truyền thống Tuy nhiên, để đạt được kết quả tối ưu, cần có thêm nghiên cứu để khai thác và hoàn thiện các mô hình học máy, kết hợp chúng với các phương pháp truyền thống, và xem xét các yếu tố thay đổi của thị trường để nâng cao độ chính xác dự đoán.Vì vậy, ở nghiên cứu này tác giả tiến hành so sánh hiệu suất dự báo khả năng vỡ nợ của doanh nghiệp Việt Nam đối với cả các phương pháp truyền thống và mô hình học máy hiện đại

Chương này đánh giá kết quả của các nghiên cứu đã từng được công bố trước đây để làm rõ tính cấp thiết của đề tài và cung cấp căn cứ cho việc đề xuất và trình bày các mô hình nghiên cứu trong chương tiếp theo.

MÔ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp nghiên cứu

Mục tiêu nghiên cứu là dự báo các doanh nghiệp có rủi ro hoặc không có rủi ro vỡ nợ Trong đó, tác giả sử dụng mô hình hồi quy Logistic, mô hình cây quyết định, mô hình rừng ngẫu nhiên và mô hình mạng trí tuệ nhân tạo để phân loại tình trạng vỡ nợ doanh nghiệp dựa trên 12 chỉ số tài chính Bộ dữ liệu bao gồm 400 doanh nghiệp được thu thập trên sàn HOSE, HNX và UPCOM Các bước thực hiện dự báo được trình bày tóm gọn trong Hình 3.1

(Nguồn: Tác giả phân tích)

Cây quyết định Rừng ngẫu nhiên

Mạng thần kinh nhân tạo

Hình 3.1 Các bước thực hiện mô hình

Quy trình nghiên cứu

Nội dung nghiên cứu của đề tài là việc áp dụng các phương pháp và mô hình học máy để dự đoán rủi ro vỡ nợ của khách hàng doanh nghiệp tại ngân hàng Cụ thể, nội dung nghiên cứu sẽ bao gồm các giai đoạn và công việc như sau:

(Nguồn: Tác giả tổng hợp)

Hình 3.2 Quy trình nghiên cứu i Thu thập dữ liệu: Thu thập dữ liệu từ nguồn báo cáo tài chính của 400 doanh nghiệp phi tài chính giai đoạn từ 2020 đến 2023 Tác giả sử dụng phần mềm VietstockFinance pro để thu thập dữ liệu

Tác giả lựa chọn thu thập dữ liệu từ giai đoạn 2020 đến 2023 để nghiên cứu là vì, giai đoạn này đặc biệt phản ánh tình hình kinh tế và tài chính đầy biến động của Việt Nam do ảnh hưởng của đại dịch COVID-19 So với các giai đoạn trước đó, nền kinh tế Việt Nam đã phải đối mặt với nhiều thách thức chưa từng có, bao gồm sự gián đoạn trong chuỗi cung ứng, suy giảm sản xuất và tiêu dùng, cũng như những thay đổi đáng kể trong chính sách kinh tế và tài chính của chính phủ nhằm ứng phó với đại dịch Do đó, dữ liệu từ giai đoạn này không chỉ phản ánh các biến động ngắn hạn mà còn cung cấp cái nhìn sâu sắc về khả năng thích ứng và sức đề kháng của doanh nghiệp trong bối cảnh khủng hoảng Sự đa dạng và độ phức tạp của các yếu tố này làm cho giai đoạn 2020-2023 trở thành một mốc thời gian quan trọng và đáng giá để nghiên cứu, cung cấp thông tin quan trọng để dự đoán rủi ro vỡ nợ và hiểu rõ hơn về sức khỏe tài chính của doanh nghiệp trong thời kỳ đầy thách thức Ngoài ra, Báo cáo tài chính được kiểm toán từ năm 2020 đến 2024 cung cấp thông tin cập nhật và chính xác hơn, phản ánh tình hình tài chính hiện tại của các doanh

• Lựa chọn các biến đầu vào mô hình

• Tiền xử lý dữ liệu

• Xây dựng các mô hình

• Đánh giá và so sánh các mô hình nghiệp Điều này giúp đảm bảo rằng các dự đoán rủi ro vỡ nợ được thực hiện dựa trên dữ liệu mới nhất và phù hợp với bối cảnh hiện tại ii Lựa chọn các biến đầu vào của mô hình: Để dự báo rủi ro vỡ nợ của các doanh nghiệp, tác giả đã lựa chọn 13 thuộc tính đầu vào là các chỉ số tài chính được tính toán từ báo cáo tài chính của các doanh nghiệp Các biến độc lập này thuộc 5 nhóm chỉ số tài chính: Nhóm chỉ số về khả năng sinh lời, nhóm chỉ số về hiệu quả hoạt động của doanh nghiệp, nhóm chỉ số về khả năng thanh khoản, nhóm chỉ số đòn bẩy tài chính và nhóm chỉ số định giá doanh nghiệp iii Tiền xử lý dữ liệu: Xử lý dữ liệu để chuẩn bị cho việc phân tích và huấn luyện mô hình Các bước tiền xử lý có thể bao gồm xử lý dữ liệu thiếu, chuyển đổi dữ liệu về định dạng phù hợp, và chuẩn hóa dữ liệu iv Phân tích và huấn luyện mô hình: Áp dụng các phương pháp và mô hình học máy thực hiện chạy hồi quy và phân loại trên các mô hình dự báo rủi ro vỡ nợ được lựa chọn, bao gồm mô hình tham số và phi tham số Mô hình tham số bao gồm mô hình hồi quy Logistic; các mô hình phi tham số bao gồm mô hình Cây quyết định, mô hình Rừng ngẫu nhiên và mô hình Mạng thần kinh nhân tạo Tác giả sử dụng phần mềm Google Colab và ngôn ngữ Python để xây dựng mô hình học máy v Đánh giá, kiểm định và so sánh mô hình: Tác giả sẽ sử dụng ma trận Confusion, điểm số F1, Sensitivity – Specificity, Accuracy – Precision và khu vực dưới đường cong (AUC) để đánh giá kết quả hồi quy của từng mô hình Dựa trên các kết quả này, chúng ta có thể lựa chọn mô hình xếp hạng tín nhiệm phù hợp và dự báo tốt hơn về rủi ro vỡ nợ của khách hàng doanh nghiệp

Tóm lại, nội dung nghiên cứu sẽ tập trung vào việc phát triển, đánh giá, và tích hợp các mô hình học máy để cải thiện quy trình vay mượn và quản lý rủi ro tín dụng của ngân hàng.

Thu thập dữ liệu và xử lý dữ liệu

Để dự đoán rủi ro vỡ nợ của các doanh nghiệp Việt Nam, tác giả sử dụng dữ liệu thứ cấp từ báo cáo tài chính của 400 doanh nghiệp phi tài chính thuộc 12 ngành như bảng thống kê dưới tại Việt Nam Các báo cáo tài chính đều được kiểm toán chặt chẽ để nguồn dữ liệu đáng tin cậy và chính xác hơn Tác giả loại các mẫu quan sát thuộc công ty tài chính như ngân hàng, bảo hiểm, tài chính, vì các nhóm ngành này bị chịu điều tiết bởi một số luật quy định khác dẫn đến báo cáo tài chính có sự khác biệt so với các ngành khác

Có hai tiêu chí lựa chọn doanh nghiệp được tác giả đưa ra:

• Một là, có cổ phiếu niêm yết trên HOSE, HNX hoặc UPCOM

• Hai là, công bố đầy đủ báo cáo tài chính được kiểm toán trong giai đoạn từ năm 2020 đến năm 2023

Dựa vào tiêu chí trên, tác giả đã thu thập được 118 doanh nghiệp có cổ phiếu niêm yết trên sàn HOSE, 99 doanh nghiệp có cổ phiếu niêm yết trên sàn HNX và có tới 183 doanh nghiệp niêm yết trên sàn UPCOM Tổng thể mẫu nghiên cứu gồm 400 doanh nghiệp trong thời gian liên tục 4 năm Quy mô của mẫu lên đến 1600 (400 *4) quan sát Trong đó, có 26 doanh nghiệp thuộc lĩnh vực kinh doanh thép; 41 doanh nghiệp thuộc ngành Dệt may; 23 doanh nghiệp thuộc ngành Du lịch và giải trí; 31 doanh nghiệp thuộc ngành Chế biến thủy sản; 32 doanh nghiệp thuộc ngành Khai khoáng; 18 doanh nghiệp thuộc ngành Kinh doanh ô tô và phụ tùng; 35 doanh nghiệp thuộc ngành Sản xuất thiết bị và máy móc; 46 doanh nghiệp thuộc ngành Sản xuất thực phẩm và đồ uống; 54 doanh nghiệp thuộc ngành Dịch vụ sức khỏe và y tế; 20 doanh nghiệp thuộc ngành Sản xuất nông nghiệp; 37 doanh nghiệp thuộc ngành Công nghệ và thông tin và 37 doanh nghiệp thuộc ngành Bất động sản và xây dựng

Bảng 3.1 Tổng hợp số lượng doanh nghiệp – ngành nghề kinh doanh

STT Lĩnh vực kinh doanh Số lượng doanh nghiệp

3 Du lịch và giải trí 23

5 Khai khoáng (dầu mỏ, khí đốt, than, ) 32

6 Kinh doanh ô tô và phụ tùng ô tô 18

7 Sản xuất thiết bị và máy móc 35

8 Sản xuất thực phẩm và đồ uống 46

9 Dịch vụ sức khỏe và y tế 54

10 Sản xuất nông nghiệp (Lúa, tiêu, điều, chè, ) 20

11 Công nghệ và thông tin 37

12 Bất động sản và xây dựng 37

(Nguồn: Tổng hợp từ tác giả)

Trong nghiên cứu này, tác giả sẽ căn cứ vào dấu hiệu theo tiêu chuẩn Basel II để đưa ra nhận biết một doanh nghiệp có rủi ro vỡ nợ Theo đó, nếu một doanh nghiệp được coi là có rủi ro vỡ nợ (đánh dấu là 1) khi thỏa mãn cả hai trường hợp sau xảy ra: (A) Vốn lưu động thường xuyên nhỏ hơn 0; (B) Giá thị trường của doanh nghiệp nhỏ hơn tổng nợ phải trả Ngược lại, những doanh nghiệp không có nguy cơ vỡ nợ được đánh dấu là 0

Bảng 3.2 Dấu hiệu nhận biết các doanh nghiệp có rủi ro vỡ nợ

Chỉ tiêu Cách xác định

A Vốn lưu động thường xuyên <

Tổng tài sản ngắn hạn – Tổng nợ ngắn hạn

B Giá thị trường của doanh nghiệp < Tổng nợ phải trả

Giá 1 cổ phiếu x Số lượng cổ phiếu lưu hành

Tổng nợ phải trả Nợ ngắn hạn + Nợ dài hạn

(Nguồn: Thống kê từ tác giả)

Bảng 3.3 Thống kê số quan sát của mẫu dữ liệu doanh nghiệp

Năm DN có rủi ro vỡ nợ DN không có rủi ro vỡ nợ

Tỷ trọng Số quan sát

Tỷ trọng Số quan sát

(Nguồn: Thống kê từ tác giả)

Lựa chọn các biến đầu vào trong mô hình dự báo rủi ro vỡ nợ

Các chỉ số tài chính đóng vai trò thiết yếu trong việc dự đoán rủi ro vỡ nợ của doanh nghiệp, vì chúng phản ánh trực tiếp sức khỏe tài chính và hiệu quả hoạt động của công ty Các chỉ số như ROAA (Return on Average Assets), ROAE (Return on

Average Equity), và ROS (Return on Net Sales) đánh giá khả năng sinh lợi và hiệu quả sử dụng tài sản và vốn chủ sở hữu Các tỷ số thanh toán hiện hành và nhanh cho thấy khả năng thanh toán ngắn hạn, trong khi khả năng thanh toán lãi vay và tỷ số nợ trên vốn chủ sở hữu phản ánh khả năng đáp ứng các cam kết tài chính Tỷ số vốn chủ sở hữu trên tổng tài sản đánh giá mức độ an toàn tài chính, trong khi các chỉ số vòng quay hàng tồn kho, phải thu khách hàng và tổng tài sản đo lường hiệu quả quản lý tài sản Lợi nhuận trên mỗi cổ phiếu và chỉ số giá thị trường trên thu nhập phản ánh kỳ vọng của thị trường và hiệu quả tài chính

Nhiều nghiên cứu đã chứng minh tính hữu ích của các chỉ số tài chính này Chẳng hạn, Barboza và cộng sự (2017) đã khẳng định rằng các chỉ số thuộc nhóm đòn bẩy tài chính, khả năng sinh lời, và thanh khoản có ảnh hưởng mạnh mẽ đến khả năng dự đoán rủi ro vỡ nợ (Tian, H., & Yu, L., 2017) cũng cho thấy các chỉ số tài chính về đòn bẩy và thanh khoản là những yếu tố quan trọng nhất trong mô hình dự đoán phá sản doanh nghiệp của họ Altman và Sabato (2007) cùng với (Shumway,

2001) cũng đã sử dụng các chỉ số này để xây dựng các mô hình dự đoán rủi ro tín dụng với độ chính xác cao

Việc không sử dụng các yếu tố vĩ mô và phi tài chính trong giai đoạn 2020 đến 2023 có lý do cụ thể Các yếu tố vĩ mô như GDP, lãi suất, và tỷ lệ thất nghiệp có thể biến động mạnh và khó dự đoán trong bối cảnh đại dịch COVID-19, dẫn đến sự không ổn định trong mô hình dự đoán Hơn nữa, các yếu tố phi tài chính như chất lượng quản lý, chiến lược kinh doanh, và vị thế cạnh tranh thường khó đo lường chính xác và không có sẵn dữ liệu định lượng rõ ràng, làm giảm tính khả thi của việc sử dụng chúng trong mô hình học máy

Dựa trên các nghiên cứu trước đó và lý luận thực tiễn, tác giả đã chọn ra 13 chỉ số tài chính làm biến độc lập xây dựng mô hình dự báo rủi ro vỡ nợ trong nghiên cứu này Bảng dưới đây minh họa cách xác định 13 biến độc lập cụ thể như sau:

Bảng 3.4 Mô tả các biến độc lập được sử dụng trong mô hình

Nhóm chỉ số tài chính

Tên thuộc tính Kí hiệu Mô tả thuộc tính

Tỷ suất sinh lợi trên tổng tài sản bình quân

Tỷ suất lợi nhuận trên vốn chủ sở hữu bình quân

Tỷ suất sinh lợi trên doanh thu thuần

Tỷ số thanh toán hiện hành X4 𝑇à𝑖 𝑠ả𝑛 𝑛𝑔ắ𝑛 ℎạ𝑛

Tỷ số thanh toán nhanh X5 𝑇à𝑖 𝑠ả𝑛 𝑛𝑔ắ𝑛 ℎạ𝑛 − 𝐻à𝑛𝑔 𝑡ồ𝑛 𝑘ℎ𝑜

𝑁ợ 𝑛𝑔ắ𝑛 ℎạ𝑛 Khả năng thanh toán lãi vay X6 𝐿ợ𝑖 𝑛ℎ𝑢ậ𝑛 𝑡𝑟ướ𝑐 𝑡ℎ𝑢ế 𝑣à 𝑙ã𝑖 𝑣𝑎𝑦

Tỷ số nợ trên vốn chủ sở hữu

Tỷ số vốn chủ sở hữu trên tổng tài sản

Vòng quay hàng tồn kho X9 𝐻à𝑛𝑔 𝑡ồ𝑛 𝑘ℎ𝑜 𝑏ì𝑛ℎ 𝑞𝑢â𝑛

𝐺𝑖á 𝑣ố𝑛 ℎà𝑛𝑔 𝑏á𝑛 𝑥 365 Vòng quay phải thu khách hàng

Vòng quay tổng tài sản X11 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑡ℎ𝑢ầ𝑛

Lợi nhuận trên mỗi cổ phiếu

Chỉ số giá thị trường trên thu nhập

Lợi nhuận trên mỗi cổ phiếu (EPS)

(Nguồn: Thống kê từ tác giả)

Nhóm chỉ số khả năng sinh lời là công cụ đánh giá khả năng tạo ra lợi nhuận của một doanh nghiệp hoặc tài sản Nhờ đó, nhà đầu tư và nhà quản lý có thể đánh giá tình hình tài chính hiện tại cũng như dự đoán tiềm năng tăng trưởng trong tương lai.

➢ Nhóm chỉ số khả năng thanh khoản: Chỉ số thanh khoản giúp đánh giá sự linh hoạt và dễ dàng của việc chuyển đổi tài sản thành tiền mặt Nó cho phép đánh giá rủi ro và cơ hội liên quan đến việc đầu tư vào một tài sản cụ thể

➢ Nhóm chỉ số đòn bẩy tài chính: Nhóm chỉ số này giúp đo lường mức độ sử dụng vốn vay trong hoạt động kinh doanh Nó cho phép đánh giá rủi ro tài chính và khả năng thanh toán của một doanh nghiệp hoặc tài sản

Các chỉ số hiệu quả hoạt động cung cấp thông tin quan trọng về hiệu suất của doanh nghiệp trong việc sử dụng tài nguyên để tạo ra lợi nhuận Chúng giúp đánh giá khả năng tăng trưởng và sức cạnh tranh bằng cách cung cấp thông tin chi tiết về cách doanh nghiệp sử dụng các tài sản hiện có để tạo ra thu nhập Nhìn chung, các chỉ số này đóng vai trò là thước đo hữu ích để đánh giá sức khỏe tài chính và tiềm năng thành công trong tương lai của một doanh nghiệp.

➢ Nhóm chỉ số định giá: Nhóm chỉ số này giúp đánh giá giá trị của một doanh nghiệp hoặc tài sản so với các chỉ số tài chính khác Nó có thể được sử dụng để xác định liệu một doanh nghiệp có định giá đúng so với tiềm năng tăng trưởng và lợi nhuận hay không.

Các mô hình dự báo rủi ro vỡ nợ doanh nghiệp

Tác giả chọn bốn mô hình gồm hồi quy logistic, cây quyết định, rừng ngẫu nhiên và mạng thần kinh nhân tạo để xây dựng dự báo rủi ro vỡ nợ vì chúng đáp ứng hiệu quả các yêu cầu phân tích của nghiên cứu với dữ liệu 400 doanh nghiệp tại Việt Nam từ năm 2020 đến 2023 Tận dụng các ưu điểm riêng biệt của từng mô hình nhằm cung cấp cái nhìn toàn diện và chính xác Hồi quy logistic đặc biệt phù hợp với các yêu cầu phân loại nhị phân, giúp xác định xác suất vỡ nợ một cách rõ ràng và dễ giải thích, như đã được chứng minh bởi (Altman, 1968) Cây quyết định, với khả năng tạo ra các quy tắc phân loại đơn giản, mang đến cái nhìn trực quan về các yếu tố rủi ro, giúp người dùng hiểu rõ hơn về các yếu tố quyết định Rừng ngẫu nhiên, thông qua việc kết hợp nhiều cây quyết định, cung cấp độ chính xác và ổn định cao hơn, giảm thiểu khả năng quá khớp và làm việc hiệu quả với dữ liệu phức tạp, như chỉ ra trong nghiên cứu của (Breiman, 2001) Mạng thần kinh nhân tạo, với khả năng xử lý mối quan hệ phi tuyến tính phức tạp và học từ dữ liệu lớn, cung cấp cái nhìn sâu sắc hơn về các yếu tố tiềm ẩn trong rủi ro vỡ nợ, như được chứng minh bởi Zhang, G & cộng sự (1999) Sự kết hợp của các mô hình này cho phép xây dựng mô hình phân tích rủi ro vỡ nợ từ nhiều góc độ khác nhau, cung cấp cái nhìn toàn diện và chính xác, và phù hợp với các yêu cầu phân tích và điều kiện cụ thể của mỗi ngân hàng hoặc tổ chức tài chính

3.5.1 Mô hình hồi quy Logistic (Logistic Regression)

Mô hình hồi quy logistic là một phương pháp thống kê phổ biến nhất được dùng để phân lớp các biến nhị phân (0 và 1) Mô hình Logit trong ngữ cảnh của rủi ro vỡ nợ được sử dụng dự đoán xác suất một khoản vay sẽ gặp khó khăn hoặc mặc nợ dựa trên các biến độc lập qua tham số PD (xác suất vỡ nợ) Trong đó, biến phụ thuộc Y nhận giá trị 1 khi doanh nghiệp không trả được nợ và Y nhận giá trị 0 khi doanh nghiệp trả được nợ

Phương trình của mô hình Logit có thể được biểu diễn như sau:

• 𝑃(𝑌=1) là xác suất của sự kiện cần dự đoán, trong trường hợp này là rủi ro vỡ nợ

• 𝛽0,𝛽1, ,βn là các hệ số ước lượng từ dữ liệu huấn luyện, biểu thị mức độ ảnh hưởng của các biến độc lập (𝑋1,𝑋2, ,𝑋𝑛) đến xác suất rủi ro

• 𝑋1,𝑋2, ,𝑋𝑛 là các biến độc lập, ví dụ như thông tin tài chính, hành vi thanh toán, điểm tín dụng, và các yếu tố khác liên quan đến người vay hoặc doanh nghiệp

3.5.2 Mô hình cây quyết định (Decision Tree)

Thuật toán cây quyết định là một phương pháp máy học phổ biến được sử dụng để dự đoán rủi ro vỡ nợ và giải quyết các vấn đề phân loại và hồi quy Cây quyết định biểu diễn các quy tắc quyết định dưới dạng cây, trong đó mỗi nút đại diện cho một biến và mỗi nhánh biểu thị một giá trị ngưỡng của biến đó Mô hình cây quyết định bắt đầu từ một nút gốc và lặp lại các phép phân chia để tìm ra các quy tắc phân loại tốt nhất cho dữ liệu Giá trị dự đoán của biến mục tiêu được biểu thị bằng nút lá

Các thuật toán phổ biến cho cây quyết định bao gồm ID3, J48, C4.5, và CART (Classification and Regression Tree) CART sử dụng chỉ số Gini để đánh giá chất lượng của các phân chia Chỉ số Gini được sử dụng để đo lường chất lượng của việc phân chia tại mỗi nút của cây quyết định Đối với dự đoán rủi ro vỡ nợ, việc tạo ra các nhóm có sự đồng nhất cao về rủi ro trong mỗi nút của cây quyết định là mục tiêu Chỉ số Gini được sử dụng để đánh giá xem việc phân chia dữ liệu có tạo ra các nhóm rủi ro đồng nhất hay không

Hình 3.3 Mô phỏng mô hình cây quyết định

• n là số lượng các nhóm phân loại trong nút

• 𝑃 𝑗 là tỷ lệ của các mẫu thuộc vào nhóm j trong tổng số mẫu tại nút đó

3.5.3 Mô hình rừng ngẫu nhiên (Random Forest)

Mô hình Random Forest hoạt động bằng cách tạo ra một tập hợp các cây quyết định độc lập Mỗi cây quyết định được xây dựng dựa trên một phần của dữ liệu huấn luyện và một số biến độc lập được chọn ngẫu nhiên từ tập biến đầu vào (Bootstrap, Random sampling) Các cây quyết định này tạo ra các quy tắc quyết định để phân loại các quan sát vào các nhóm có rủi ro vỡ nợ khác nhau Khi cần dự đoán, mỗi cây quyết định đưa ra dự đoán riêng về khả năng rủi ro vỡ nợ của mỗi quan sát Kết quả cuối cùng được xác định bằng cách kết hợp dự đoán từ tất cả các cây quyết định trong tập hợp Điều này giúp cải thiện tính chính xác và ổn định của dự đoán và giúp đưa ra quyết định về rủi ro vỡ nợ một cách hiệu quả

3.5.4 Mô hình mạng thần kinh nhân tạo (Artificial Neural Network)

Mạng nơron thần kinh nhân tạo là một thuật toán học máy được xây dựng dựa trên cách thức hoạt động của bộ não của con người Nó gồm số lượng lớn các nơron nhân tạo (nút) liên kết với nhau, và xử lý thông tin bằng cách truyền theo kết nối và

Hình 3.4 Mô phỏng mô hình rừng ngẫu nhiên tính giá trị mới tại các nút Nơron chỉ truyền tín hiệu tới các nơron khác khi cường độ của tín hiệu nhận được vượt qua một ngưỡng nhất định

Cấu trúc của một mạng nơron nhân tạo (ANN) gồm 3 phần đó là: Lớp đầu vào (Input Layer), Lớp các tầng ẩn (Hidden Layer) và Lớp đầu ra (Output Layer)

Mỗi nơron nhân tạo sẽ nhận nhiều tín hiệu 𝑥 1 , 𝑥 2 , 𝑥 3 … ,𝑥 𝑗 được tạo thành từ các giá trị 0 và 1, và tính trọng số tổng trọng số của các tín hiệu đầu vào bằng cách nhân tín hiệu 𝑥 𝑖 với trọng số tương ứng 𝑤 𝑖 và cộng thêm hệ số bias b

Trong đó, b là độ lệch của nơron

Tùy thuộc vào mô hình, các tín hiệu có thể thuộc tập (−∞ , ∞) hoăc tập (0 , ∞) Một tín hiệu chỉ được truyền tới nơron nhân tạo tiếp theo khi tổng trọng số của các tín hiệu nhận được vượt qua một cường độ hoặc ngưỡng nhất định Các trọng số và ngưỡng của mỗi nơron được xác định bởi sự kết hợp dẫn đến kết quả tốt nhất dựa trên kinh nghiệm hoặc dữ liệu quá khứ

Hình 3.5 Mô phỏng mô hình mạng thần kinh nhân tạo

Công thức mô tả hoạt động của nơron nhân tạo như sau:

Các phương pháp đánh giá hiệu quả của mô hình dự báo

Để đánh giả hiệu suất của mô hình ước lượng xác suất vỡ nợ doanh nghiệp, tác giả đã sử dụng một số kỹ thuật như sau: ma trận nhầm lẫn (Confusion matrix); độ nhạy (Sensitivity) và độ đặc hiệu (Specificity); Độ chính xác (Accuracy và Precision); điểm F1 (F1-Score), khu vực dưới đường cong (AUC)

3.6.1 Confusion matrix (Ma trận nhầm lẫn)

Nghiên cứu sử dụng ma trận nhầm lẫn đo độ chính xác của mô hình Nó hiển thị số lượng dự đoán chính xác và không chính xác trong mỗi lớp Trong bài nghiên cứu này, phương pháp đánh giá hiệu suất phân loại các quan sát của mô hình vào hai lớp rủi ro vỡ nợ (nhận giá trị 1) và không có rủi ro vỡ nợ (0) Ma trận được trình bày tại Bảng 3.5

Bảng 3.5 Ma trận nhầm lẫn

Giá trị thực 0 TN FP

Chỉ số TP (True Positives - Số lượng dự đoán chính xác về rủi ro vỡ nợ) đánh giá hiệu quả của mô hình dự báo rủi ro vỡ nợ TP nằm trong nhóm các chỉ số quan trọng giúp đánh giá đúng mức rủi ro vỡ nợ, ngăn chặn tối đa tình trạng phát sinh nợ xấu, đảm bảo an toàn hoạt động kinh doanh cho doanh nghiệp.

• TN (True Negatives - Số lượng dự đoán chính xác về không có rủi ro vỡ nợ):

Số lượng doanh nghiệp không có rủi ro vỡ nợ được dự báo chính xác không có rủi ro vỡ nợ

• FP (False Positives - Số lượng dự đoán sai về rủi ro vỡ nợ): Số lượng các doanh nghiệp không có rủi ro vỡ nợ nhưng dự báo rủi ro vỡ nợ Đây được xem là sai số loại I (Type I error)

Số lượng dự đoán sai số lượng doanh nghiệp không có rủi ro vỡ nợ được gọi là FN (False Negatives) Đây là sai số loại II (Type II error).

3.6.2 Sensitivity và Specificity (Độ nhạy và độ đặc hiệu)

Trong dự đoán rủi ro vỡ nợ, Sensitivity đo lường khả năng của mô hình trong việc phát hiện các trường hợp thực sự có rủi ro vỡ nợ (positive) Nó cho biết tỷ lệ các khách hàng thực sự có khả năng vỡ nợ mà mô hình dự đoán đúng

𝑻𝑷 + 𝑭𝑵 Nếu kết quả dự báo với sensitivity = 100% thì mô hình đã dự báo chính xác các doanh nghiệp có rủi ro vỡ nợ Trường hợp khác, mô hình cho ra kết quả sensitivity = 80%, có nghĩa mô hình dự báo chính xác 80% doanh nghiệp có rủi ro vỡ nợ và dự báo sai 20% doanh nghiệp có rủi ro vỡ nợ

Trong đó: TP là số lượng doanh nghiệp dự đoán chính xác về rủi ro vỡ nợ; FN là số lượng doanh nghiệp có rủi ro vỡ nợ nhưng dự báo không có rủi ro vỡ nợ

Specificity đo lường khả năng của mô hình trong việc phát hiện các trường hợp không có rủi ro vỡ nợ (negative) Nó cho biết tỷ lệ các khách hàng thực sự không có khả năng vỡ nợ mà mô hình dự đoán đúng

𝑻𝑵 + 𝑭𝑷 Trong đó: TN là số lượng doanh nghiệp dự đoán chính xác về trường hợp không có rủi ro vỡ nợ; FP là số lượng doanh nghiệp không có rủi ro vỡ nợ nhưng dự báo rủi ro vỡ nợ

3.6.3 Accuracy và Precision (Độ chính xác)

Accuracy đo lường tỷ lệ các dự đoán chính xác (bao gồm cả dự đoán positive và negative) của một mô hình phân loại Nó được tính bằng công thức:

Precision đo lường tỷ lệ các dự đoán là positive (rủi ro vỡ nợ) mà mô hình dự đoán đúng so với tất cả các dự đoán positive của mô hình Nó được tính bằng công thức:

Đánh giá mô hình dự đoán rủi ro vỡ nợ thường sử dụng các chỉ số: True Positive (TP), True Negative (TN), False Positive (FP), False Negative (FN) Trong đó: TP là số lượng dự đoán chính xác về rủi ro vỡ nợ; TN là số lượng dự đoán chính xác về không có rủi ro vỡ nợ; FP là số lượng dự đoán sai về rủi ro vỡ nợ; FN là số lượng dự đoán sai về không có rủi ro vỡ nợ.

3.6.4 F1-Score (Điểm F) Điểm F1-Score khắc phục nhược điểm mất cân bằng dữ liệu khi đưa vào xây dựng và kiểm định mô hình F1-Score kết hợp Precision và Recall, tập trung vào việc cân nhắc giữa việc giảm thiểu các dự đoán sai lầm positive (Precision) và tăng cường khả năng phát hiện các trường hợp positive thực sự (Recall) Điều này giúp tối ưu hóa hiệu suất tổng thể của mô hình dự đoán rủi ro vỡ nợ, đảm bảo rằng cả việc dự đoán chính xác các trường hợp rủi ro lẫn không rủi ro đều được xem xét một cách cân đối

Giá trị F1 Score cao nhất đạt được là 1, biểu thị trường hợp lý tưởng khi Độ chính xác (Precision) và Độ nhạy (Sensitivity) đều đạt mức tối ưu Trong trường hợp này, mô hình dự đoán rủi ro vỡ nợ hoạt động xuất sắc, loại trừ mâu thuẫn giữa việc giảm thiểu dự đoán dương tính sai và tăng khả năng phát hiện các trường hợp rủi ro thực sự.

Chuẩn bị và tiền xử lý dữ liệu

Tác giả đã tiến hành thu thập dữ liệu của 13 biến độc lập trên phần mềm VietstockFinance pro Sau khi dữ liệu được thu thập tác giả tiến hành phân tích sàng lọc, xử lý các dữ liệu bị thiếu bằng trị giá trung bình (sử dụng hàm fillna trong python)

Quan sát bảng Hình 3.7 được trích ra từ quá trình thống kê dữ liệu, tác giả nhận thấy biến X6 (Khả năng thanh toán lãi vay) thiếu nhiều dữ liệu nhất, cụ thể là

121 giá trị; X3 (Tỷ suất sinh lợi trên doanh thu thuần) thiếu 5 giá trị; X4 (Tỷ số thanh toán hiện hành), X7 (Tỷ số nợ trên vốn chủ sở hữu) và X8 (Tỷ số vốn chủ sở hữu trên tổng tài sản ) thiếu 1 giá trị; X9 (Vòng quay hàng tồn kho) thiếu 10 giá trị; X10 (Vòng quay phải thu khách hàng) thiếu 6 giá trị; X11 (Vòng quay tổng tài sản) thiếu 2 giá trị và X13 (Chỉ số giá thị trường trên thu nhập) thiếu 23 giá trị

(Nguồn: Trích từ dữ liệu phân tích)

Sau khi sử dụng hàm fillna điền giá trị trung bình cho các biến bị thiếu tác giả nhận được kết quả tổng quan sát của mỗi biến đã đủ 1600 quan sát (400 doanh nghiệp

*4 năm) Hình 3.8 thể hiện điều này:

Hình 3.8 Kết quả điền dữ liệu thiếu sau khi dùng hàm Fillna

(Nguồn: Trích từ dữ liệu phân tích)

KẾT QUẢ NGHIÊN CỨU

Thống kê mô tả

Số quan sát mỗi biến là: 1600 quan sát

Bảng 4.1 Thống kê mô tả các biến độc lập

Chỉ tiêu tài chính Giá trị trung bình Độ lệch chuẩn

X1 Tỷ suất sinh lợi trên tổng tài sản bình quân 0.0262 0.3184 -9.5844 2.5616

Tỷ suất lợi nhuận trên vốn chủ sở hữu bình quân

X3 Tỷ suất sinh lợi trên doanh thu thuần -32.5305 1294.1653 -51766.7120 4.5810

X4 Tỷ số thanh toán hiện hành 2.7440 4.8349 0.0100 73.7500

X5 Tỷ số thanh toán nhanh 2.0441 4.5835 0.0100 73.7500

X6 Khả năng thanh toán lãi vay 34.6144 4503.7537 -164911.6000 49072.3100

X7 Tỷ số nợ trên vốn chủ sở hữu 57.5698 2086.7864 -33152.5425 72226.7820

X8 Tỷ số vốn chủ sở hữu trên tổng tài sản 0.2794 3.7870 -103.6228 0.9960

X9 Vòng quay hàng tồn kho 137.6238 3622.0282 0.0100 141892.7700

X10 Vòng quay phải thu khách hàng 83.7732 1359.6823 0.0100 50566.1500

X11 Vòng quay tổng tài sản 1.1941 1.5184 0.0100 42.2100

X12 Lợi nhuận trên mỗi cổ phiếu 1793.6500 4936.3270 -35505 60128

X13 Chỉ số giá thị trường trên thu nhập 45.8888 531.9261 -7526.8400 15790.3100

(Nguồn: Thống kê từ tác giả)

Bảng 4.1 trình bày một bày một vài dữ liệu tổng quan của 13 biến độc lập, cụ thể giá trị trung bình, độ lệch chuẩn, giá trị cao nhất và giá trị thấp nhất giúp chúng ta hiểu thêm về dữ liệu đưa vào xây dựng mô hình dự báo rủi ro vỡ nợ doanh nghiệp

Về giá trị trung bình, X12 (Lợi nhuận trên mỗi cổ phiếu) đạt giá trị cao nhất với giá trị 1793.6500 và X3 (Tỷ suất sinh lợi trên doanh thu thuần) đạt giá trị thấp nhất là - 32.5305 Phân tích dữ liệu cho thấy sự biến động rộng lớn trong các chỉ tiêu, với độ lệch chuẩn dao động từ 0.3184 đến 4936.3270 Xét về giá trị thấp nhất trong 13 biến độc lập, X3 (Tỷ suất sinh lợi trên doanh thu thuần) có giá trị thấp nhất là -164911.6000, cho thấy có một số doanh nghiệp ghi nhận tỷ suất sinh lợi âm đối với doanh thu thuần

Tỷ số nợ trên vốn chủ sở hữu (X7) cao nhất là 141892,7700, biểu thị một số doanh nghiệp có mức nợ cao so với vốn chủ sở hữu.

Ma trận tương quan

Hình 4.1 Thể hiện hệ số tương quan Pearson giữa các biến độc lập Đối với tương quan Pearson, giá trị tương quan nằm trong khoảng từ -1 đến 1 Trong đó:

➢ Giá trị tương quan gần -1 cho thấy mối quan hệ tuyến tính mạnh mẽ và âm đối với hai biến Điều này có nghĩa là khi một biến tăng, biến kia giảm và ngược lại

➢ Giá trị tương quan gần 1 cho thấy mối quan hệ tuyến tính mạnh mẽ và dương đối với hai biến Điều này có nghĩa là khi một biến tăng, biến kia cũng tăng và ngược lại

➢ Giá trị tương quan gần 0 cho thấy không có mối quan hệ tuyến tính hoặc mối quan hệ tuyến tính yếu giữa hai biến

(Nguồn: Thống kê từ tác giả)

Hình 4.1 Ma trận tương quan

Hình 4.1 thể hiện mối tương quan giữa các biến độc lập trong mô hình ước lượng xác suất vỡ nợ Trong ma trận trên, chỉ có một cặp biến độc lập có mức độ tương quan cao với nhau Cụ thể, (i) biến Tỷ số vốn chủ sở hữu trên tổng tài sản (X8) và biến Tỷ suất sinh lợi trên tổng tài sản bình quân (X1) với mức độ tương quan là 0.63 Mặt khác, các cặp biến độc lập khác có mức độ tương quan rất thấp, thậm chí không đáng kể Ví dụ (ii) biến Lợi nhuận trên mỗi cổ phiếu (X12) và biến Tỷ suất sinh lợi trên tổng tài sản bình quân (X1) với mức độ tương quan là 0.27; (iii) biến Tỷ suất sinh lợi trên doanh thu thuần (X3) và Tỷ số thanh toán hiện hành (X4) với mức độ tương quan là -0.15; (iv) biến Tỷ số thanh toán nhanh (X5) và biến Vòng quay tổng tài sản (X11) có mức độ tương quan là -0.12 Nhìn chung, giá trị tương quan giữa các biến độc lập đều nhỏ hơn 0.8 nên không có hiện tượng đa cộng biến xảy ra Điều này giúp mô hình trở nên rõ ràng hơn, và cải thiện hiệu suất dự báo hơn.

Kết quả dự báo các mô hình

4.3.1 Kết quả phân loại của mô hình hồi quy logistic

Sau khi thu thập và xử lý dữ liệu, tác giả tiến hành phân tích hồi quy và xây dựng mô hình để dự báo rủi ro vỡ nợ của doanh nghiệp Trong mô hình này, các doanh nghiệp được mã hóa thành [1] nếu có rủi ro vỡ nợ và [0] nếu không có.

Kết quả chi tiết được tổng hợp các bảng dưới đây:

Bảng 4.2 Kết quả mô hình hồi quy logistic

Estimate Std.Error z value P>|z| Signif codes (Intercept) -0.701940 0.427611 -1.641540 1.006855e-01

Bảng 4.2 mô tả kết quả hồi quy của mô hình Logistic Các biến có ý nghĩa thống kê gồm: Tỷ suất sinh lợi trên tổng tài sản bình quân (X1), Tỷ suất lợi nhuận trên vốn chủ sở hữu bình quân (X2), Tỷ suất sinh lợi trên doanh thu thuần (X3), Tỷ số thanh toán nhanh (X5), Khả năng thanh toán lãi vay (X6) và Tỷ số nợ trên vốn chủ sở hữu (X7).

Tỷ số vốn chủ sở hữu trên tổng tài sản (X8), Vòng quay phải thu khách hàng (X10), Vòng quay tổng tài sản (X11), Lợi nhuận trên mỗi cổ phiếu (X12) và Chỉ số giá thị trường trên thu nhập (X13) có tương quan ngược chiều với biến phụ thuộc Ngược lại, biến Tỷ số thanh toán hiện hành (X4) và Vòng quay hàng tồn kho (X9) có tương quan cùng chiều với biến phụ thuộc

X1, X2 và X11 có tác động nhiều nhất đến đến kết quả dự báo rủi ro vỡ nợ doanh nghiệp, với hệ số ước lượng tương ứng là -49.319428, -5.81041 và -0.717856 Mặc khác, X9 và X12 không ảnh hưởng quá nhiều đến biến phụ thuộc, với hệ số tương ứng là 0.000150 và -0.000202 Điều này có nghĩa là khi tỷ suất sinh lợi trên tổng tài sản bình quân (X1) tăng, doanh nghiệp có khả năng sinh lời từ mỗi đơn vị tài sản đầu tư cao hơn Điều này dẫn đến mức độ rủi ro vỡ nợ giảm do sự tăng cường của lợi nhuận Tương tự, Khi tỷ suất lợi nhuận trên vốn chủ sở hữu bình quân (X2) tăng, doanh nghiệp có khả năng sinh lời từ mỗi đơn vị vốn chủ sở hữu đầu tư cao hơn Điều này cũng có thể dẫn đến giảm rủi ro vỡ nợ do sự tăng cường của lợi nhuận Khi vòng quay tổng tài sản (X11) tăng, doanh nghiệp có khả năng tận dụng tài sản hiện có một cách hiệu quả hơn để tạo ra doanh thu Điều này cũng có thể dẫn đến giảm rủi ro vỡ nợ do tăng cường quản lý và sử dụng tài sản Điều này không chỉ giúp tăng cường quản lý và sử dụng tài sản mà còn giảm rủi ro vỡ nợ, doanh thu gia tăng mang lại một môi trường ổn định và thu nhập dự đoán được

Trong bảng thống kê hồi quy trên, trong số 13 biến độc lập có 5 biến có ý nghĩa thống kê, bao gồm các biến là X1, X2, X11, X12 và X13 Trong đó, X1, X2 và X13 có mức ý nghĩa thống kê cao nhất tại mức 1% và X11, X12 có mức ý nghĩa thống kê tại mức 5%

Bảng 4.3 Mức độ dự báo của mô hình hồi quy logistic

Không vỡ nợ Vỡ nợ

Giá tr ị th ự c Không vỡ nợ 335 9

(Nguồn: Tổng hợp từ tác giả)

Chọn ngẫu nhiên 400 doanh nghiệp để kiểm tra xem doanh nghiệp vỡ nợ và không vỡ nợ được dự đoán chính xác là bao nhiêu Kết quả dự báo của mô hình hồi quy logistic cho 400 doanh nghiệp thu được chỉ số Accuracy là 96.75% (mô hình đáng tin cậy) Trong số các doanh nghiệp được dự đoán, có 335 trường hợp không vỡ nợ được xác định chính xác, chỉ có 9 trường hợp bị phân loại sai Đối với các trường hợp vỡ nợ, mô hình đã dự đoán đúng 52 trong số 56 trường hợp Ngoài ra, các chỉ số như Precision, Sensitivity, Specificity, và F1-Score cũng cho thấy hiệu suất ấn tượng của mô hình Sensitivity, đo lường khả năng phát hiện chính xác các trường hợp vỡ nợ, đạt 92.86% Specificity, đo lường khả năng xác định chính xác các trường hợp không vỡ nợ, đạt 97.38% Các con số này là bằng chứng rõ ràng cho độ hiệu quả và chính xác của mô hình trong việc phân loại các trường hợp về vỡ nợ và không vỡ nợ

4.3.2 Kết quả phân loại của mô hình cây quyết định

Bảng 4.4 Mức độ dự báo của mô hình cây quyết định

(Nguồn: Tổng hợp từ tác giả)

Mô hình cây quyết định đã thể hiện hiệu suất tốt trong việc dự đoán tình trạng vỡ nợ của 400 doanh nghiệp Với chỉ số Accuracy đạt 97.75%, mô hình đã chính xác phân loại 338 trường hợp không vỡ nợ và 53 trường hợp vỡ nợ Các chỉ số Precision (89.83%) và Sensitivity (94.64%) cho thấy mô hình đạt được sự cân bằng giữa việc dự đoán chính xác các trường hợp vỡ nợ và không vỡ nợ Specificity (98.26%) là chỉ số đáng chú ý, cho thấy mô hình phân loại chính xác cao ở các trường hợp không vỡ nợ Đồng thời, F1-Score đạt 92.17%, biểu hiện sự hiệu quả và đồng đều trong việc dự đoán cả hai trạng thái Các chỉ số này chứng tỏ mô hình cây quyết định là một công cụ mạnh mẽ và đáng tin cậy trong việc phân loại tình trạng vỡ nợ của các doanh nghiệp

Không vỡ nợ Vỡ nợ

Giá tr ị th ự c Không vỡ nợ 338 6

4.3.3 Kết quả phân loại của mô hình rừng ngẫu nhiên

Bảng 4.5 Mức độ dự báo của mô hình rừng ngẫu nhiên

Mô hình rừng ngẫu nhiên thu được kết quả vượt trội trong việc dự đoán tình trạng vỡ nợ của 400 doanh nghiệp Với độ chính xác lên đến 98.50%, mô hình đã phân lớp chính xác 340 trường hợp không vỡ nợ và 54 trường hợp vỡ nợ từ tổng số

400 doanh nghiệp Ngoài ra, các chỉ số quan trọng như Precision, Sensitivity, Specificity, và F1-Score cũng đều đem lại kết quả ấn tượng Precision đạt 93.10%, chiếm tỷ lệ cao về độ chính xác của việc dự đoán các trường hợp vỡ nợ thực sự trong tổng các dự đoán positive (trường hợp vỡ nợ) của mô hình Cả Sensitivity và Specificity đều ấn tượng, lần lượt là 96.43% và 98.84%, cho thấy khả năng phát hiện và phân loại chính xác cả hai trạng thái vỡ nợ và không vỡ nợ Mô hình rừng ngẫu nhiên cho kết quả tốt hơn so với mô hình hồi quy logistic và mô hình cây quyết định

Không vỡ nợ Vỡ nợ

Giá tr ị th ự c Không vỡ nợ 340 4

(Nguồn: Tổng hợp từ tác giả)

4.3.4 Kết quả phân loại của mô hình mạng thần kinh nhân tạo

Bảng 4.6 Mức độ dự báo của mô hình mạng thần kinh nhân tạo

Không vỡ nợ Vỡ nợ

Giá tr ị th ự c Không vỡ nợ 339 5

(Nguồn: Tổng hợp từ tác giả) Đưa ngẫu nhiên 400 doanh nghiệp vào kiểm tra khả năng phân lớp vỡ nợ và không vỡ nợ của mô hình mạng thần kinh nhân tạo thu được kết quả như sau Mặc dù chỉ số Accuracy đạt 94.25%, chỉ ra tỷ lệ dự đoán chính xác về cả hai trạng thái vỡ nợ và không vỡ nợ, nhưng các chỉ số khác không đạt được mức độ cao như mong đợi Chẳng hạn, chỉ số Sensitivity chỉ đạt 67.86%, tức là mô hình chỉ có khả năng phát hiện 67.86% các trường hợp thực sự vỡ nợ trong số tất cả các trường hợp vỡ nợ có thực sự tồn tại Điều này cho thấy mô hình có xu hướng bỏ sót một phần các trường hợp vỡ nợ, làm giảm tính ứng dụng của nó trong thực tế Hơn nữa, chỉ số F1-Score chỉ đạt 76.77%, biểu hiện sự không ổn định và không đồng đều trong việc đánh giá hiệu suất tổng thể của mô hình Các chỉ số này chứng minh mô hình đem lại kết quả không khả quan so với các mô hình trên.

Ngày đăng: 09/10/2024, 10:02