Bƣớc 2: Chạy Workflow xác định mô hình cây quyết định
Workflow đƣợc chạy từng bƣớc 1 bằng cách click chuột phải và chọn run. Quá trình chạy đƣợc thực hiện từ bƣớc xác định nguồn dữ liệu cho tới bƣớc xác định output – đầu ra. Tới bƣớc phân lớp (class buid) chúng ta có đƣợc tập luật gồm 39 luật.
Trong đó có các luật tiêu biểu sau:
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A1" "B2" "B3" )
Then
0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" ) And 8.5 < PERIOD <= 15.5 And INTRATE <= 19.95 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và Lãi suất cho vay nhỏ hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And PERIOD <= 8.5
And INTRATE <= 19.95
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và kỳ hạn nhỏ hơn hoặc bằng 8.5 tháng
Và Lãi suất cho vay nhỏ hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And PERIOD <= 15.5
And INTRATE > 19.95
Then 0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và kỳ hạn nhỏ hơn hoặc bằng 15.5 tháng
Và Lãi suất cho vay lớn hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000 And AGE > 58.5 And 12.4 < INTRATE <= 13.1 Then 0 If AMT <= 14500000 And AGE > 58.5 And INTRATE <= 12.4 Then 0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay lớn hơn 58.5
Và Lãi suất cho vay lớn hơn 12.4 và nhỏ hơn hoặc bằng 13.1
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 4.5 And AGE <= 32.5 And INTRATE > 10.55 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3 hoặc C1 hoặc C3 hoặc D.
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 32.5
Và Lãi suất cho vay lớn hơn 12.4
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 4.5 And AGE <= 32.5 And INTRATE <= 10.55 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 32.5
Và Lãi suất cho vay lớn hơn 10.55
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" )
And .5 < PERIOD <= 2.5
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" )
And 2.5 < PERIOD <= 4.5
Then 0
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3 hoặc C1 hoặc C3 hoặc D.
Và Lãi suất cho vay lớn hơn 0.5 và nhỏ hơn hoặc bằng 4.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And 24.5 < PERIOD <= 49.5
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD > 49.5
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1.
Và loại khách hàng là cá nhân
Và kỳ hạn cho vay lớn hơn 24.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD <= 24.5
And INTRATE > 15.375
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD <= 24.5
And INTRATE <= 15.375
Then 0
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1.
Và loại khách hàng là cá nhân
Và kỳ hạn cho vay nhỏ hơn 24.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 690000000
And CUSTTP isIn ( "02" )
And CRDTRTGLOC isIn ( "A2" "B1" )
Then
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 690000000
Và xếp hạng tín dụng là A2 hoặc B1.
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 6.5 And AGE > 32.5 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3 hoặc C1 hoặc C3 hoặc D.
Và tuổi đời lớn hơn 32.5
Và kỳ hạn lớn hơn 6.5
Thì hợp đồng này không xảy nợ xấu
3.Dự báo kiểm thử mô hình
3.1. Dự báo dựa trên mô hình SAS
Ta có công thức hồi quy logit ở phần 4.1 nhƣ sau:
Log(odds) = 4.2312 + 0.0496*INRATE + (-2.9225)* CRDTRTGLOC(A1) + (- 2.0704)*CRDTRTGLOC(A2) + (-0.18716)*CRDTRTGLOC(A3) + (-
1.6034)*CRDTRTGLOC(B1) + (-1.6524)*CRDTRTGLOC(B2) + (-
3.0428)*CRDTRTGLOC(B3) + 6.5914* CRDTRTGLOC(C1) + 0.0109*AGE + (-0.02)*PERIOD + (-582E-10)*AMT
Xác suất xảy ra nợ xấu theo hồi quy logit P( ) = 1
-( )
1e i iX
X với Xi là các
biến phụ thuộc, i là các tham số đã ƣớc lƣợc ở trên công thức, j < =11. Ta có tập dữ liệu kiểm thử
STT Mã số HĐ Số tiền Lãi suất
Xếp hạng
Kỳ
hạn Tuổi Log P(Y=1) Dự báo Thực tế 1 201301310 30000000 13 A2 12 49 8.94 0.9998 1 1 2 201100718 2E+08 19 B3 0 49 2.426 0.9188 1 1 3 201300503 3.5E+08 14 A1 6 35 -18.4 9.3E-09 0 0 4 201300506 3.73E+08 13.5 A1 5 34 -19.833 2.4E-09 0 0 5 201300504 30000000 10 A1 2 40 0.0187 0.5 1 1 6 201300521 30000000 9.5 A2 3 24 8.947 0.99 1 0 7 201300249 7E+09 9 A1 4 35 -405.7 0 0 0 8 201301717 1E+09 10 A2 12 44 -47.662 0 0 0 9 201301716 1E+09 10 A2 12 37 -47.662 0 0 0 10 201301725 1E+08 11.5 A1 12 44 -4.1809 0.015 0 0 11 201301771 10000000 10 A3 12 24 4.452 0.9884 1 0 12 201301768 5E+08 10 A3 12 55 -24.065 3.5E-11 0 0 13 201301218 10000000 11 A2 12 38 10.0055 0.999 1 0 14 201301201 5E+08 13 A1 12 -27.38 -1E+09 0 0 15 201301222 3E+08 13 A1 12 40 -15.7 E-07 0 0 16 201301234 50000000 11 A1 12 -1.2957 0.214 0 0 17 201301240 60000000 11.5 A1 1 36 -1.6329 0.163 0 0 18 201301264 2.3E+09 13 A2 0 35 -122.9 0 0 0 19 201301289 2E+08 11 A1 12 43 -10.02 4E-05 0 0 20 201301219 50000000 11 A1 12 33 -1.2957 0.21 0 0
Bảng 3.12: Kết quả dự báo với mô hình logistic hồi quy
Kết quả:mô hình này dự đoán đúng kết quả của 17 hồ sơ và sai 3 hồ sơ => tỷ
lệ = 85%
3.2. Dự báo dựa trên mô hình cây quyết định
Với tập luật của mô hình dự báo ở trên, chúng ta có bảng dự báo nhƣ sau:
STT Mã số HĐ Loại KH Số tiền Lãi suất Xếp hạng Kỳ hạn Tuổi Luật thỏa mãn Kết quả dự báo Nợ xấu thực tế 1 201301310 01 300000000 13 A2 12 49 38 0 1 2 201100718 02 20000000000 19 B3 0 49 48 0 1 3 201300503 01 350000000 14 A1 6 35 48 0 0 4 201300506 01 373000000 13.5 A1 5 34 48 0 0 5 201300504 01 30000000 10 A1 2 40 0 6 201300521 01 30000000 9.5 A2 3 24 44 0 0 7 201300249 01 7000000000 9 A1 4 35 48 0 8 201301717 01 10000000 10 A2 12 44 28 0 0 9 201301716 01 10000000 10 A2 12 37 44 0 0 10 201301725 01 100000000 11.5 A1 12 44 48 0 0 11 201301771 01 10000000 10 A3 12 24 28 0 1
13 201301218 01 10000000 11 A2 12 38 26 0 0 14 201301201 02 500000000 13 A1 12 48 0 0 15 201301222 01 300000000 13 A1 12 40 48 0 0 16 201301234 02 50000000 11 A1 12 0 17 201301240 01 60000000 11.5 A1 1 36 24 0 0 18 201301264 01 230000000 13 A2 0 35 48 0 0 19 201301289 01 20000000 11 A1 12 43 40 0 0 20 201301219 01 50000000 11 A1 12 33 40 0 0
Bảng 3.13: Kết quả dự báo với mô hình cây quyết định
Kết luận: Mô hình xây dựng trên cây quyết định dự đoán đúng 14/20 hợp đồng => tỷ lệ = 70%.
3.3. So sánh kết quả dự báo
Các mô hình dự báo xây dựng dựa trên hồi quy logistic và dựa trên cây quyết định đều cho kết quả dự báo cao trên 50%. Chính vì thế các mô hình này đều có thể sử dụng trên thực tế để có thể dự báo nợ xấu của hợp đồng tín dụng nào đó. Tuy nhiên, nhìn vào kết quả và tính dễ hiểu của các mô hình dự báo thì ta có thể thấy mô hình dự báo xây dựng dựa trên hồi quy logistics có độ chính xác và rõ ràng hơn:
- Mô hình dự báo xây dựng dựa trên hồi quy logistics có độ chính xác 85% trong khi đó mô hình dự báo dựa trên cây quyết định hồi quy có độ chính xác 70%.
- Mô hình dự báo dựa trên hồi quy logistics có thể chỉ ra đƣợc sự ảnh hƣởng mạnh yếu của từng biến số đối với kết quả nợ xấu của từng hợp đồng nào đó (Ví dụ nhƣ biến tỷ lệ lãi suất trong mô hình ở trên có mức độ ảnh hƣởng lớn nhất tới kết quả nợ xấu của các hợp đồng tín dụng). Trong khi đó, mô hình cây quyết định thì không thể chỉ ra điều này (cho dù tất cả các biến dự báo để đƣợc sử dụng để xây dựng cây dự báo).
KẾT LUẬN CHƢƠNG
Chƣơng này đã hệ thống hóa lại toán bộ quá trình bắt đầu từ khâu chuẩn bị tập dữ liệu, lựa chọn các biến số tác động đến kết quả nợ xấu của hợp đồng đồng thời xây dựng mô hình phân tích và dự báo nợ xấu. Bên cạnh đó, nội dung còn đƣa ra đƣợc kết quả dự báo nợ xấu của cả hai mô hình dự báo tốt nhất của kỹ thuật cây quyết định và mô hình hồi quy logit. Với kết quả dự báo nhƣ vậy của các mô hình luận văn cũng nêu bật đƣợc ƣu điểm, nhƣợc điểm của từng mô hình và mô hình xây dựng dựa trên kỹ thuật nào là phù hợp hơn. Tuy nhiên, Trên thực tế áp dụng chúng ta có thể áp dụng cả 2 mô hình này để có thể tận dụng tốt nhất các ƣu điểm mà từng kỹ thuật mang lại.
KẾT LUẬN ĐỀ TÀI
Luận văn đã nêu đƣợc hiện trạng của khâu phân tích, dự báo nợ xấu tại đồng thời đƣa ra đƣợc cách thức xây dựng mô hình phân tích, dự báo nợ xấu. Cách thức xây dựng mô hình đi từ khâu khảo sát nghiệp vụ, tổng hợp dữ liệu, làm sạch dữ liệu, xác định các tham số của mô hình (đối với mô hình xây dựng dựa trên logit hồi quy) hoặc xây dựng các tập luật của mô hình (đối với mô hình xây dựng dựa trên kỹ thuật cây quyết định). Luận văn đã đƣa ra đƣợc mô hình phân tích, dự báo dựa trên hồi quy logit và mô hình phân tích, dự báo dựa trên cây quyết định.
Đồng thời luận văn cũng đã đƣa ra đƣợc ƣu, nhƣợc điểm của mỗi mô hình và so sánh đƣợc tính hiệu quả của các mô hình trong bài toán dự báo nợ xấu. Trong đó mô hình dự báo dựa trên hồi quy logit có ƣu điểm chỉ ra đƣợc mức độ ảnh hƣởng của từng biến đầu vào (nghĩa là của từng yếu tố ảnh hƣởng đến nợ xấu). Tuy nhiên, cây quyết định thì có ƣu điểm là sinh ra các luật dễ đọc, dễ hiểu và gần gũi với ngôn ngữ tự nhiên. Và với tập dữ liệu và cá mô hình tìm đƣợc thì chúng ta nhận thấy mô hình dự báo nợ xấu xây dựng dựa theo hồi quy logit dự đoán chính xác hơn so với mô hình cây quyết định hồi quy.
Mỗi phƣơng pháp đƣa ra đều có một ƣu nhƣợc điểm riêng, với phƣơng pháp xây dựng mô hình dự báo đƣợc nêu trong luận văn cũng có những ƣu nhƣợc điểm cần khắc phục. Ƣu điểm: dễ dàng xây dựng mô hình từ tập dữ liệu ghi nhận giao dịch trực tuyển của ngân hàng, mô hình dự báo có độ chính xác và linh động cao. Nhƣợc điểm: mô hình đƣa ra phụ thuộc rất nhiều vào tính phù hợp của thuyết hồi quy đƣợc lựa chọn với bài toán dự báo.
Với cách thức xây dựng mô hình nhƣ vậy, bản thân tác giả mong muốn các hệ thống phân tích dự báo có thể đƣợc xây dựng và sử dụng rộng rãi tại các trung tâm công nghệ thông tin của các ngân hàng, tổ chức tài chính để hỗ trợ phân tích và dự báo tín dụng hiệu quả cao hơn. Đặc biệt là đối với ngân hàng nhà nƣớc cần phải triển khai tốt hệ thống này. Bởi vì, đơn vị này có vai trò quản lý vĩ mô, định hƣớng, ra quyết sách nên hệ thống phân tích dự báo nhƣ thế này sẽ hỗ trợ rất tốt cho đơn vị này. Đồng thời, ngân hàng nhà nƣớc có các lợi thế về thu thập dữ liệu, có thể áp dụng mô hình dự báo vào thực tiễn ngay dựa trên vai trò định hƣớng của mình.
Trong tƣơng lai, tác giả mong muốn phát triển đƣợc một hệ thống phân tích, dự báo có độ chính xác cao hơn, tận dụng đƣợc các lợi thế về mặt công nghệ trong thời đại công nghệ thông tin phát triển mạnh mẽ hiện nay. Đồng thời có thể cài đặt nhiều mô hình dự báo để phù hợp hơn với các bài toán dự báo khác nha. Sử dụng các nền tảng công nghệ hiện đại nhƣ điện toán đám mây, nền tảng di động để đƣa ra các sản phẩm dự báo phổ dụng và gần gũi với đa số ngƣời dung.
TÀI LIỆU THAM KHẢO
1. PGS. TS. Nguyễn Văn Tiến (2009), Ngân hàng thƣơng mại, xuất bản lần 3, nxb: Thống kê.
1. Nguyễn Thị Tâm Minh (2009), Ứng dụng cây quyết định để dự báo chỉ số nhóm nợ hỗ trợ quản lý rủi ro tin dụng, Luận văn thạc sỹ, 80 trang, Đại học Công nghệ, Đại học Quốc gia Hà Nội.
2. Breiman, L., Friedman, J., Olshen, R., Stone, C. (1994): Classification and Regression Trees. Chapman & Hall, New York, 1994.
3. Kdnuggets (2007). Data mining methods. Kdnuggets Polls 2003-2007.
4. M.D.Intriligator, , R.G. Bodkin, and C. Hsiao, Econometric models, techniques, and aplications. 2nd ed. 1996, Upper Saddle River, NJ: Prentice Hall. 5. Wu X. and Kumar V. (2009): Top 10 Algorithms in Data Mining. Chapman & Hall/CRC.
6.
http://www.nsl.hcmus.edu.vn/greenstone/collect/thesiskh/index/assoc/HASH8c8d.dir/5.pd f
7.https://support.sas.com/documentation/cdl/en/basess/58133/HTML/default/viewer.ht m#a001310742.htm – Basic components in SAS
8.http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.ht m#statug_logistic_sect001.htm – logit procedure