Bài báo này ứng dụng hồi quy logistics để xây dựng một mô hình dự báo xác suất vỡ nợ của khách hàng tín dụng cá nhân và đánh giá tác động của các nhân tố đến xác suất này.
Chun mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) MƠ HÌNH HỒI QUY LOGISTIC TRONG ĐO LƢỜNG XÁC SUẤT VỠ NỢ KHÁCH HÀNG TÍN DỤNG CÁ NHÂN Hồng Thanh Hải1, Trần Đình Chúc2, Nguyễn Quỳnh Hoa3 Tóm tắt Việc đánh giá rủi ro tín dụng khơng thể bỏ qua hoạt động tín dụng của ngân hàng Có nhiều nhân tố ảnh hưởng đến việc lượng hóa rủi ro tín dụng, xác suất vỡ nợ khách hàng yếu tố quan trọng để ngân hàng đánh giá ước lượng nhân tố khác Bài báo ứng dụng hồi quy logistics để xây dựng mơ hình dự báo xác suất vỡ nợ khách hàng tín dụng cá nhân đánh giá tác động nhân tố đến xác suất Từ khóa: Rủi ro tín dụng, xác suất vỡ nợ, hồi quy logistic A LOGISTIC REGRESSION MODEL FOR ESTIMATING THE PROBABILITY OF DEFAULT OF RETAIL CUSTOMERS Abstract In banks’credit activities, the assessment of credit risk is of paramout importance Among a variety of factors used to quantify credit risk, the probability of default is the key one In this paper, a logistic regression was employed to construct a model predicting the probability of default of credit card clients and evaluating regressors’ influences to this probability Key words: credit risk, the probability of default, logistic regression Xét biến phụ thuộc nhị phân ( Giới thiệu khách hàng vỡ nợ, ngược lại) Để đưa định cho khách hàng biến độc lập Mơ hình hồi quy có vay hay không với mức lãi suất bao nhiêu, tổ chức tín dụng cần phải phân logistic có dạng: loại, xếp hạng tín dụng khách hàng Việc | phân loại phụ thuộc vào xác suất mà khách hàng không trả nợ hạn, xác suất gọi hay dạng tương đương: xác suất vỡ nợ (probability of default) Khơng trả hạn không trả gốc trả lãi hạn hai [1] Tính tốn xác Các hệ số hồi quy ước suất vỡ nợ công việc đánh giá lượng phương pháp hợp lý cực đại tín dụng xác định sách lãi suất Đối với Phƣơng pháp nghiên cứu khách hàng cá nhân, xác suất vỡ nợ chịu tác 2.1 Nguồn số liệu mô tả biến động nhiều nhân tố trình độ học vấn, độ Trong báo này, tác giả sử dụng tuổi, giới tính hay nhân tố tài liệu tín dụng khách hàng cá nhân tình trạng trả nợ định kỳ, mức chi tiêu ngân hàng Đài Loan (Trung Quốc) để đánh giá Có nhiều mơ hình thống kê sử dụng ảnh hướng yếu tố đến xác suất vỡ nợ để ước lượng xác suất vỡ nợ mơ hình phân khách hàng xây dựng mơ hình ước lượng tích chun biệt, hồi quy logistic, hồi quy probit, xác suất vỡ nợ mơ hình phân loại, mơ hình mạng nơ-ron Nghiên cứu sử dụng liệu trả nợ Mỗi mơ hình có ưu nhược điểm riêng, 30.000 khách hàng tín dụng cá nhân ngân mơ hình hồi quy logistic mơ hình sử hàng Đài Loan (Trung Quốc) tháng 10, 2005 dụng phổ biến đơn giản mơ hình [9] Biến phụ thuộc biến nhị phân ( độ xác phân loại tương đương khách hàng vỡ nợ, ngược lại) với phương pháp khác [8] 23 biến giải thích bao gồm thơng tin cá nhân liệu trả nợ khách hàng: 92 Chuyên mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) : hạn mức tín dụng (đơn vị: Đơ la Đài Loan) : Giới tính khách hàng (1 = Nam; = Nữ) : Trình độ học vấn ( = sau đại học; = đại học; = phổ thông; = khác) : Tình trạng nhân (1 = kết hôn; = độc thân; = khác) : độ tuổi (tuổi) : Tình trạng trả nợ hàng tháng (từ tháng đến tháng năm 2005): = tình trạng trả nợ tháng 9, 2005; = tình trạng trả nợ tháng 8, 2005; ; = tình trạng trả nợ tháng 4, 2005 Các mức bao gồm: -1 = trả nợ hạn; = trả nợ chậm tháng; = trả nợ chậm hai tháng; ; = trả nợ chậm tháng; = trả nợ chậm chín tháng trở lên : Lượng chi tiêu hàng tháng (đô la Đài Loan) = lượng chi tiêu tháng 9, 2005; = lượng chi tiêu tháng 8, 2005; ; = lượng chi tiêu tháng 4, 2005 : Lượng trả nợ hàng tháng (đô la Đài Loan) = lượng trả nợ tháng 9, 2005; = lượng trả nợ tháng 8, 2005; ; = lượng trả nợ tháng 4, 2005 2.2 Phân tích liệu khám phá Tác giả sử dụng phần mềm R 3.3.1 để làm liệu dùng cơng cụ hình ảnh kiểm định để đánh giá tổng quan tác động biến độc lập đến biến phụ thuộc Sử dụng biểu đồ tần số biến tình trạng trả nợ, có hai mức khơng định nghĩa -2, 0, có tới 25.939 quan sát tổng số 30.000 (chiếm 86,5%) quan sát có hai giá trị này, tác giả giữ nguyên mức để phân tích thay gán cho chúng giá trị khơng xác định NA (not available) Tương tự, có vài quan sát biến trình độ học vấn tình trạng nhân có mức khơng định nghĩa 0, Các quan sát gán cho giá trị NA Đối với biến liên tục, tác giả sử dụng biểu đồ tán xạ để quan sát điểm bất thường (outliers) liệu Thông thường, giá trị gọi giá trị bất thường mẫu tứ phân vị thứ thứ mẫu, Hình biểu đồ tán xạ biến hạn mức tín dụng Giá trị trường hợp 525.000, nhiên từ biểu đồ ta thấy giá trị thấp để loại quan sát Tác giả sử dụng mức 750.000 làm xác định điểm bất thường, có quan sát thuộc loại Sau trình xác định outliers tất biến liên tục, có 1283 số tương ứng với 457 khách hàng bị loại khỏi liệu gốc ban đầu Bởi vậy, liệu dùng để xây dựng mơ hình cịn lại có kích thước 29.543 Hình 1: Biểu đồ tán xạ biến hạn mức tín dụng 93 Chuyên mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) Để đánh giá tác động biến độc lập lên biến phụ thuộc, tác giả sử dụng biểu đồ mosaic biến định tính biểu đồ violin, biểu đồ boxplot biến định lượng Hình 2: Biểu đồ mosaic quan hệ giới tính vỡ nợ Hình biểu đồ mosaic mô tả mối quan hệ Hình biểu đồ violin lượng giới tính tình trạng vỡ nợ Quan sát biểu tốn tháng 9, 2005 Từ biểu đồ nhận xét đồ thấy khách hàng nam có xác suất vỡ nợ nhìn chung lượng tốn thấp khả vỡ nợ cao cao khách hàng nữ Giá trị kiểm định Pearson cho thấy phụ thuộc hai biến Hình 3: Biểu đồ violin lượng toán tháng 9, 2005 Bằng phương pháp tương tự biến giải thích khác, ta thu kết đánh giá 94 khái quát tác động biến đến khả vỡ nợ sau: Chuyên mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) liệu kiểm định (kích thước 14.563) dùng để đánh giá mơ hình Trên liệu huấn luyện, tác giả chọn biến đưa vào mơ hình sử dụng tiêu chí AIC (Akaike‟s Information Criterion), định nghĩa bởi: : Hạn mức tín dụng thấp, khả vỡ nợ cao : Nam có khả vỡ nợ cao nữ : Trình độ học vấn cao xác suất vỡ nợ thấp : Khách hàng kết có xác suất vỡ nợ cao : Nhóm có xác suất vỡ nợ lớn nhóm khách hàng 25 tuổi, nhóm có xác suất vỡ nợ thấp nhóm độ tuổi 25 -34 : Càng trả nợ chậm, khả vỡ nợ cao : Nhìn chung khơng có khác biệt nhóm vỡ nợ nhóm khơng vỡ nợ lượng chi tiêu hàng tháng : Lượng trả nợ thấp khả vỡ nợ cao 2.3 Tiêu chuẩn lựa chọn mơ hình Dữ liệu sau làm sạch, loại bỏ giá trị NA điểm outliers chia ngẫu nhiên thành hai nhóm, liệu huấn luyện liệu kiểm định với tỷ lệ 50:50 Dữ liệu huấn luyện (kích thước 14.586) dùng để xây dựng mơ hình Trong đó: L giá trị hàm hợp lý mơ hình, K số tham số mơ hình ( mơ hình logistic có biến giải thích) kích thước mẫu Mơ hình sát thực tế ( lớn) sử dụng biến ( nhỏ) AIC thấp Bởi vậy, mơ hình có AIC nhỏ coi mơ hình tối ưu Kết nghiên cứu 3.1 Mô hình Sử dụng tiêu chí AIC, tác giả xác định biến sau đưa vào mơ hình Kết hồi quy liệu huấn luyện thể bảng Bảng 1: Kết hồi quy logistic OR Đơn vị so sánh Khoảng tin Biến Hệ số Sai số chuẩn Hạn mức tín dụng -0,094 0,0094 0,911 +50.000 0,894; 0,928 Giới tính -0,186 0,0359 0,830 Nam 0,774; 0,891 cậy 95% OR p Đã kết hôn Tình trạng nhân Độc thân -0,174 0,0358 0,841 0,784; 0,902 Khác Lượng chi tiêu tháng Lượng chi tiêu tháng Lượng chi tiêu tháng Lượng trả nợ tháng Lượng trả nợ tháng Lượng trả nợ tháng Lượng trả nợ tháng 0,024 0,1623 1,024 0,745; 1,408 0,882 -0,176 0,0731 0,839 +50.000 0,727; 0,968 0,016 0,186 0,0869 1,204 +50.000 1,016; 1,429 0,032 0,104 0,0498 1,109 +50.000 1,006; 1,223 0,037 -0.,179 0,0305 0,836 +10.000 0,788; 0,888 5,00 -0,134 0,0282 0,875 +10.000 0,828; 0,924 1,97 -0,055 0,0234 0,947 +10.000 0,904; 0,991 0,019 -0,051 0,0219 0,950 +10.000 0,910; 0,992 0,020 1,26 95 Chuyên mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) Bảng 1: Kết hồi quy logistic (tiếp) Biến Hệ số Sai số chuẩn OR Đơn vị so sánh Khoảng tin cậy 95% OR p Trả hạn Tình trạng trả nợ tháng X6 = -2 X6 = Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng - 0,403 -0,637 0,341 1,570 1,494 0,892 0,156 0,842 0,0989 0,0682 0,0668 0,0776 0,1704 0,2808 0,4842 0,7551 0,668 0,529 1,406 4,809 4,454 2,439 1,169 2,321 Chậm tháng 2,199 1,2813 9,020 Chậm tháng Tình trạng trả nợ tháng X8 = -2 X8 = Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Tình trạng trả nợ tháng X9 = -2 X9 = Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Tình trạng trả nợ tháng X11 = -2 X11 = Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng Chậm tháng -12,351 247,3855 0,000 0,550; 0,811 0,463; 0,605 1,234; 1,603 4,131; 5,599 3,189; 6,220 1,407; 4,229 0,453; 3,019 0,528; 10,196 0,732; 111,139 0,000; 4,59.10-5 < 10-16 3,25 10-7 < 10-16 < 10-16 0,002 0,747 0,265 0,865; 1,313 1,052; 1,460 0,000; 1,494; 2,095 0,989; 2,097 0,514; 2,389 0,250; 4,854 0,000; + 0,159; 4,692 0,000; + 0,552 0,010 0,974 1,88 10-11 0,057 0,794 0,899 0,954 0,865 0,945 0,905;1,361 0,920;1,261 0,000; + 1,315; 1,903 1,015; 2,551 0,585;1,198 0,076; 1,200 0,000; + 0,000; + 0,000; + 0,318 0,357 0,999 1,13.10-6 0,043 0,475 0,088 0,949 0,949 0,968 1,038; 1,398 0,732; 0,947 1,140; 1,575 1,187; 2,849 0,860; 5,453 0,363; 7,347 1,329; 3,125 0,000; + 0,000; + 0,014 0,005 0,000 0,006 0,101 0,522 0,021 0,954 0,941 0,086 0,960 Trả hạn 0,063 0,215 -12,276 0,570 0,365 0,103 0,096 14,183 -0,147 -12,266 0,1065 0,0835 377,9862 0,0863 0,1918 0,3920 0,7570 247,3858 0,8638 179,2412 1,065 1,240 0,000 1,769 1,440 1,108 1,101 1,444.106 0,863 0,000 Trả hạn 0,104 0,074 1,045 0,459 0,476 0,307 -1,200 -15,808 11,473 -13,742 0,1043 0,0806 655,392 0,0942 0,2350 0,4306 0,7044 247,3907 179,2366 343,0832 1,120 1,077 2,844 1,582 1,609 1,360 0,030 0,000 9,612.104 0,000 Trả hạn 0,186 -0,183 0,293 0,609 0,773 0,491 1,863 -10,391 38,125 0,0760 0,0658 0,0825 0,2232 0,4713 0,7671 0,8055 179,2357 517,0116 1,204 0,833 1,340 1,839 2,165 1,634 6,444 0,000 3,610.1016 Nguồn: Tính tốn tác giả phần mềm R 96 Chuyên mục: Tài - Ngân hàng - TẠP CHÍ KINH TẾ & QUẢN TRỊ KINH DOANH SỐ 07 (2018) Biến Bảng 2: Hệ số phóng đại phương sai (VIF) VIF Biến VIF X1 X2 X4 1,212 1,006 1,006 X12 X13 X15 5,297 6,082 2,970 X6 X8 X9 X11 2,060 2,699 4,585 2,343 X18 X19 X20 X21 1,211 1,122 1,145 1,049 Nguồn: Tính tốn tác giả phần mềm R 3.2 Kiểm định mơ hình Độ xác phân loại Bảng so sánh độ xác phân loại Kiểm tra đa cộng tuyến Hệ số phóng đại phương sai biến mơ hình hai liệu huấn luyện mơ hình cho bảng liệu kiểm định với ngưỡng xác suất (cutoff - level) Do khơng có hệ số phóng đại phương sai phân loại vỡ nợ không vỡ nợ 0,5 lớn 10 nên cho mơ hình khơng có đa cộng tuyến Bảng 3: Ma trận confusion mơ hình Dữ liệu huấn luyện Thực tế Dự báo Vỡ nợ Không vỡ nợ Dữ liệu kiểm định Dự báo Vỡ nợ Không vỡ nợ Vỡ nợ 1.177 2.088 Không vỡ nợ 539 10.782 Thực tế Vỡ nợ 1.140 2.112 Không vỡ nợ 535 10.776 Nguồn: Tính tốn tác giả phần mềm R Bảng 4: Thống kê độ xác mơ hình Dữ liệu huấn luyện Độ xác Khoảng tin cậy 95% Kappa McNemar‟s Test p –value Dữ liệu kiểm định 0,820 0,818 0,814; 0,826 0,812; 0,825 0,376 0,367