CHƯƠNG 3. GIẢI PHÁP ĐÁNH GIÁ RỦI RO TÍN DỤNG DỰA TRÊN MÔ HÌNH HỒI QUY LOGISTIC
3.4.3 Kết quả thực nghiệm
Tính tỷ lệ phân loại chính xác AR (theo công thức 2.12) của các biến xj (j=1..41)
Kết quả thực nghiệm tính hệ số AR trên R code của 41 biến độc lập được ghi chép lại như sau:
Biến AR Loại
x1 0.027556 x
51
Biến AR Loại
x2 0.33921 x3 0.440276 x4 0.289362 x5 0.11152 x x6 0.325683 x7 -0.34168 x x8 0.244295 x9 0.048144 x x10 0.140261 x11 0.100458 x x12 0.165479 x13 0.106701 x x14 0.120151 x15 -0.01679 x x16 0.007099 x x17 0.208956 x18 -0.20075 x x19 -0.36263 x x20 0.245053 x21 0.281544 x22 0.072448 x x23 0.144369 x24 0.282006 x25 -0.09232 x x26 0.198698 x27 0.281149 x28 0.1515 x29 -0.21828 x x30 -0.02938 x x31 -0.1312 x x32 -0.0678 x x33 -0.00756 x x34 -0.18128 x x35 -0.04956 x x36 -0.08498 x x37 -0.02259 x x38 0.24669 x39 -0.41849 x
52
Biến AR Loại
x40 0.327663 x41 0.228769
Nguồn: Thực nghiệm của tác giả Sau khi loại các biến có AR<12%, còn lại các biến sau:
x={ x2, x3, x4, x6, x8, x10, x12, x14, x17, x20, x21, x23, x24, x26, x27, x28, x38, x40, x41}
Xác định hệ số tương quan giữa các biến
Sử dụng độ tương quan Pearson (đã trình bày ở chương 2) để đánh giá độ tương quan giữa các biến. Trong luận văn này, tác giả coi 2 biến được gọi là tương quan khi abs(hệ số tương quan)>=0.7. Khi 2 biến được gọi là tương quan, ta chỉ cần sử dụng 1 trong 2 biến để đưa vào mô hình mà kết quả hầu như vẫn không thay đổi.
Sau quá trình thực nghiệm bằng R code, kết quả được lưu tại Phụ lục 1 trong báo cáo này. Từ Phụ lục 1, ta thấy có các cặp biến sau có độ tương quan cao:
r(x8,x6)=0.98 r(x10,x12)=0.77 r(x6,x20)=0.98 r(x6,x23)=0.88 r(x6,x40)=0.97 r(x8,x20)=1 r(x8,x23)=0.91 r(x8,x40)=0.95 r(x20,x23)=0.91 r(x20,x40)=0.95 r(x21,x24)=1 r(x21,x38)=0.86 r(x23,x40)=0.85 r(x24,x38)=0.86
53 Các biến x6, x8, x10, x20, x21, x23, x24 có thể loại khỏi mô hình mà không ảnh hưởng tới kết quả đánh giá. Các biến được chọn để thực hiện xây dựng mô hình xác suất vỡ nợ khách hàng được mô tả trong bảng 3.6:
Bảng 3.6: Danh sách biến được lựa chọn để xây dựng mô hình
STT 1 2 3 4 5 6 7 8 9 10 11 12
Biến x2 x3 x4 x12 x14 x17 x26 x27 x28 x38 x40 x41 3.4.3.2. Xác định mô hình thực nghiệm
Sử dụng R code để đánh giá và xác định mô hình. Đầu tiên luận văn thực hiện xác định và đánh giá mô hình với đẩy đủ các biến trong bảng 3.6 trên tập dữ liệu Training.
Mô hình m1:
Mô hình m1 với các biến độc lập: x2, x3, x4, x12, x14, x17, x26, x27, x28, x38, x40, x41. Sau khi chạy hồi quy ta thu được kết quả tham số của mô hình như sau:
STT Biến Hệ số p-value 1 Intercept -6.9271 <0.0001 2 x2 -0.3653 <0.0001 3 x3 -5.1439 <0.0001
4 x4 -0.0223 0.8555
5 x12 -0.3333 <0.0001
6 x14 -0.0023 0.9677
7 x17 0.0378 0.6181
8 x26 -3.1232 <0.0001
9 x27 0.026 0.8691
10 x28 0.3073 0.0002
11 x38 -0.8533 <0.0001 12 x40 -1.1962 <0.0001 13 x41 0.7874 <0.0001 Nguồn: Thực nghiệm của tác giả
Kết quả dự đoán mô hình m1 trên tập dữ liệu Training như sau:
Nguồn: Thực nghiệm của tác giả
54 Mô hình có tỷ lệ dự đoán True Negative là 85.9% và True Positive 80.6%.
Kết quả chung là 85.4%.
Ngoài ra, ta có thêm kết quả:
Nguồn: Tác giả chạy trên R code
Chỉ số R2 =0.429 điều này cho thấy mô hình này giải thích được 42.9%
nguyên nhân dẫn tới hiện tượng Default của các doanh nghiệp.
Ta thấy, x14 có p-value=0.9677>0.05 do vậy thực hiện chạy mô hình m2 sau khi đã loại biến x14.
Mô hình m2:
Mô hình m2 với các biến độc lập x2, x3, x4, x12, x17, x26, x27,x28, x38, x40, x41; thực hiện chạy hồi quy ta thu được kết quả sau:
STT Biến Hệ số p-value 1 Intercept -6.9275 <0.0001 2 x2 -0.3654 <0.0001 3 x3 -5.1445 <0.0001
4 x4 -0.0223 0.8551
5 x12 -0.3339 <0.0001
6 x17 0.0382 0.6125
7 x26 -3.1234 <0.0001
8 x27 0.0261 0.8686
9 x28 0.307 0.0002
10 x38 -0.8533 <0.0001 11 x40 -1.1963 <0.0001 12 x41 0.787 <0.0001
Nguồn: Thực nghiệm của tác giả Kết quả dự đoán mô hình m2 trên tập dữ liệu Training như sau:
Nguồn: Thực nghiệm của tác giả
55 Mô hình có tỷ lệ dự đoán True Negative là 85.9% và True Positive 80.6%.
Kết quả chung là 85.4%.
Ngoài ra, ta có thêm kết quả:
Nguồn: Tác giả chạy trên R code
Chỉ số R2 =0.429 điều này cho thấy mô hình này giải thích được 42.9%
nguyên nhân dẫn tới hiện tượng Default của các doanh nghiệp.
Ta thấy, x27 có p-value=0.8686>0.05 do vậy thực hiện chạy mô hình m3 sau khi đã loại biến x27.
Mô hình m3:
Mô hình m3 với các biến độc lập x2, x3,x4,x12,x17,x26,x28,x38,x40,x41, thực hiện chạy hồi quy ta thu được kết quả sau:
STT Biến Hệ số p-value 1 Intercept -6.9095 <0.0001 2 x2 -0.3649 <0.0001 3 x3 -5.0942 <0.0001 4 x4 -0.0224 0.8545 5 x12 -0.3341 <0.0001 6 x17 0.0378 0.6158 7 x26 -3.1148 <0.0001 8 x28 0.3051 0.0002 9 x38 -0.8508 <0.0001 10 x40 -1.1959 <0.0001 11 x41 0.7875 <0.0001 Nguồn: Thực nghiệm của tác giả
Kết quả dự đoán mô hình m3 trên tập dữ liệu Training như sau:
Nguồn: Thực nghiệm của tác giả
56 Mô hình có tỷ lệ dự đoán True Negative là 86% và True Positive 80.6%.
Kết quả chung là 85.4%.
Ngoài ra, ta có thêm kết quả:
Nguồn: Tác giả chạy trên R code
Chỉ số R2 =0.429 điều này cho thấy mô hình này giải thích được 42.9%
nguyên nhân dẫn tới hiện tượng Default của các doanh nghiệp.
Ta thấy, x4 có p-value=0.8545>0.05 do vậy thực hiện chạy mô hình m4 sau khi đã loại biến x4.
Mô hình m4:
Mô hình m4 với các biến độc lập x2,x3,x12,x17,x26,x28,x38,x40,x41, thực hiện chạy hồi quy ta thu được kết quả sau:
STT Biến Hệ số p-value 1 Intercept -6.9116 <0.0001 2 x2 -0.365 <0.0001 3 x3 -5.0942 <0.0001 4 x12 -0.3339 <0.0001
5 x17 0.038 0.6139
6 x26 -3.1142 <0.0001 7 x28 0.3085 <0.0001 8 x38 -0.852 <0.0001 9 x40 -1.2203 <0.0001 10 x41 0.785 <0.0001 Nguồn: Thực nghiệm của tác giả
Kết quả dự đoán mô hình m4 trên tập dữ liệu Training như sau:
Nguồn: Thực nghiệm của tác giả
57 Mô hình có tỷ lệ dự đoán True Negative là 86% và True Positive 80.6%.
Kết quả chung là 85.5%.
Ngoài ra, ta có thêm kết quả:
Nguồn: Tác giả chạy trên R code
Chỉ số R2 =0.429 điều này cho thấy mô hình này giải thích được 42.9%
nguyên nhân dẫn tới hiện tượng Default của các doanh nghiệp.
Ta thấy, x17 có p-value=0.6139>0.05 do vậy ta thực hiện chạy mô hình m5 sau khi đã loại biến x17.
Mô hình m5:
Mô hình m5 với các biến độc lập x2,x3,x12,x26,x28,x38,x40,x41, thực hiện chạy hồi quy ta thu được kết quả sau:
STT Biến Hệ số p-value 1 Intercept -6.9066 <0.0001 2 x2 -0.363 <0.0001 3 x3 -5.0806 <0.0001 4 x12 -0.3366 <0.0001 5 x26 -3.1003 <0.0001 6 x28 0.3118 <0.0001 7 x38 -0.8529 <0.0001 8 x40 -1.2219 <0.0001 9 x41 0.7849 <0.0001
Nguồn: Thực nghiệm của tác giả Kết quả dự đoán mô hình m5 trên tập dữ liệu Training như sau:
Nguồn: Thực nghiệm của tác giả
58 Mô hình có tỷ lệ dự đoán True Negative là 85.9% và True Positive 80.6%.
Kết quả chung là 85.4%.
Ngoài ra, ta có thêm kết quả:
Nguồn: Tác giả chạy trên R code
Chỉ số R2 =0.429 điều này cho thấy mô hình này giải thích được 42.9%
nguyên nhân dẫn tới hiện tượng Default của các doanh nghiệp.
Mô hình m5 chỉ bao gồm các biến có p-value<0.05. Do vậy, luận văn dừng chạy thực nghiệm tại đây và chuyển sang bước tiếp theo đánh giá và lựa chọn mô hình tối ưu để xây dựng hệ thống trợ giúp đánh giá xếp hạng rủi ro khách hàng.
3.4.3.3. Đánh giá và lựa chọn mô hình
Như trên đã trình bày, quá trình thực nghiệm đã xây dựng 5 mô hình (m1 đến m5) và thực hiện test trên chính tập dữ liệu sử dụng để xây dựng mô hình.
Mục này luận văn sử dụng các chỉ số như: R2, Chi-Square, Mean Squared Error, Accuracy Ratio đã đề cập ở mục 2.4 để đánh giá lựa chọn mô hình phù hợp nhất trên tập dữ liệu quan sát được.
Quá trình thực nghiệm, luận văn thu được kết quả sau:
Mô hình Chỉ số
Số biến 12 11 10 9 8
1436.36 1436.36 1436.33 1436.30 1436.05 MSE 0.05978 0.05978 0.05974 0.05977 0.05974
AR% 85.42 85.42 85.42 85.47 85.47
Nguồn: Thực nghiệm của luận văn Nhìn vào bảng số liệu trên ta có nhận xét sau:
- Chỉ số Chi-Square có xu hướng giảm dần từ m1 tới m5. Điều này thể hiện sự sai khác giữa kết quả tiên lượng và giá trị quan sát được cải thiện dần từ m1 tới m5. Theo chỉ số này, m5 là mô hình tốt nhất và m1 là xấu nhất.
59 - Chỉ số MSE hầu như không thay đổi giữa các mô hình, điều này cho thấy
trung bình của bình phương sai số giữa các mô hình là như nhau. .
- Chỉ số AR đo lường tỷ lệ số quan sát tiên đoán đúng (true positive và true negative) trên tổng số quan sát. Chỉ số này là tương đương giữa các mô hình (min là 85.42% và max là 85.47%). .
Đánh giá:
Các chỉ số Chi-Square, MSE giữa các mô hình là tương đương nhau. Xét về góc độ dự báo mô hình m4 và m5 có khả năng dự báo tốt hơn mô hình m1,m2, m3 mặc dù mức độ tốt hơn này là không nhiều. Xét dưới góc độ biến sử dụng mô hình m1 sử dụng nhiều biến số nhất (12 biến), mô hình m5 sử dụng ít biến nhất (8 biến). Trong thực tế mô hình càng nhiều biến thì chi phí xây dựng và vận hành sẽ tốn kém hơn rất nhiều so với mô hình ít biến hơn. Trong trường hợp này, luận văn lựa chọn mô hình m5 để xây dựng hệ thống trợ giúp đánh giá xếp hạng rủi ro của khách hàng doanh nghiệp quy mô trung bình.
Chúng ta phân tích kết quả trên thông qua các biểu đồ sau:
Hình 3.3: Biểu đồ biến đổi Chi-Square của các mô hình
1436.36 1436.36
1436.33
1436.30
1436.05
1435.80 1435.90 1436.00 1436.10 1436.20 1436.30 1436.40
m1 m2 m3 m4 m5
Biểu đồ biến đổi Chi-Square qua các mô hình
60 Hình 3.4: Biểu đồ biến đổi MSE qua các mô hình
Hình 3.5: Biểu đồ biến đổi AR qua các mô hình
Hình 3.6: Biểu đồ số lượng biến sử dụng qua các mô hình
0.05978 0.05978
0.05974
0.05977
0.05974
0.05971 0.05972 0.05973 0.05974 0.05975 0.05976 0.05977 0.05978 0.05979
m1 m2 m3 m4 m5
Biểu đồ biến thiên MSE qua các mô hình
85.42 85.42 85.42
85.47 85.47
85.38 85.39 85.4 85.41 85.42 85.43 85.44 85.45 85.46 85.47 85.48
m1 m2 m3 m4 m5
Biểu đồ minh họa AR qua các mô hình
12
11
10
9
8
0 2 4 6 8 10 12 14
m1 m2 m3 m4 m5
Số biến sử dụng trong các mô hình
61 3.4.3.4. Kiểm định mô hình
Sau khi xác định được mô hình tính rủi ro xác suất vỡ khách hàng doanh nghiệp quy mô trung bình (m5). Luận văn sử dụng mô hình tính toán xác suất vỡ nợ và đánh giá trạng thái vỡ nợ của khách hàng dựa trên tập dữ liệu testing có kích cỡ 1567 quan sát.
Kết quả kiểm tra mô hình được luận văn ghi chép trong bảng 3.7:
Bảng 3.7: Kết quả kiểm thử mô hình
Dữ liệu quan sát Kết quả chạy theo mô hình Trạng thái Số lượng Số lượng Tỷ lệ chính xác
1 159 131 82.39%
0 1408 1195 84.87%
AR chung 84.62%
Như vậy với tập dữ liệu Training, mô hình lựa chọn có AR (tỷ lệ chính xác) là: 85.47%; Trên tập dữ liệu Testing có AR là 84.62%. Qua đó ta thấy, mô hình đánh giá xếp hạng rủi ro khách hàng doanh nghiệp quy mô trung bình cho độ chính xác khá cao và hoàn toàn có thể ứng dụng trong việc xây dựng hệ thống trợ giúp đánh giá xếp hạng rủi ro khách hàng doanh nghiệp quy mô trung bình.
3.4.3.5. Công thức và tham số mô hình lựa chọn
Như trên đã trình bày, m5 là mô hình được lựa chọn. Trong mô hình m5 ta có các hệ số như bảng 3.8.
Bảng 3.8: Hệ số các biến của mô hình thực nghiệm Biến Hệ số p-Value
Intercept -6.9066 <0.0001
x2 -0.363 <0.0001
x3 -5.0806 <0.0001
x12 -0.3366 <0.0001
x26 -3.1003 <0.0001
x28 0.3118 <0.0001
x38 -0.8529 <0.0001
x40 -1.2219 <0.0001
x41 0.7849 <0.0001
62 Thay các hệ số mô hình m5 vào công thức (3.18) ta được công thức tính xác suất vỡ nợ (3.24) của khách hàng doanh nghiệp quy mô trung bình như sau:
( )
( ) ( )
Tham số của hệ thống trợ giúp đánh giá xếp hạng rủi ro tín dụng của khách hàng được ghi lại như bảng 3.9:
Bảng 3.9: Tham số mô hình thực nghiệm
Biến U L M μ ϭ
x2 41.3525505 1.0533105 21.2029305 0.2146680 0.2576732 x3 3.4317275 0.0942825 1.7630050 0.2211384 0.2598687 x12 2.0365500 0.7185750 1.3775625 0.3139252 0.2529314 x26 0.2065450 0.0056625 0.1061038 0.3551989 0.3048614 x28 0.1393375 0.0004100 0.0698738 0.2147876 0.2595698 x38 6.0766525 0.3880825 3.2323675 0.2964351 0.2788422 x40 0.6389600 0.0062125 0.3225863 0.2118110 0.2595655 x41 0.3997300 0.0031100 0.2014200 0.2817356 0.2796866