Tập dữ liệu dự báo bao 15976 gồm là tập dữ liệu đã lựa chọn và loại ra 20 hợp đồng của tập dữ liệu kiểm định
Sau khi trích xuất từ hệ thống ngân hàng lõi, dữ liệu tín dụng đƣợc làm sạch và đƣa vào bảng PREDICTORS. Bảng này gồm có các trƣờng dữ liệu nhƣ sau: Mã số HĐ, Loại khác hàng, Tổng giá trị tài sản, Loại tiền tệ, Số tiền vay, Lãi suất, Kỳ hạn vay, xếp hạng tin dụng, tuổi (số năm hoạt động).
III.2. Xây dựng mô hình dựa trên tập dữ liệu dự báo 1.Xây dựng mô hình theo ngôn ngữ SAS 1.Xây dựng mô hình theo ngôn ngữ SAS
Tối ƣu hóa mô hình bằng cách sử dụng các phƣơng pháp lựa chọn các biến dự báo để đƣa vào (biến có ít ảnh hƣởng) hoặc loại bỏ ra (biến có ít ảnh hƣởng) khỏi mô hình dự báo. Có 2 phƣơng pháp sử dụng để lựa chọn biến đó là: phƣơng pháp stepwise và phƣơng pháp backward. Phƣơng pháp Stepwise là phƣơng pháp lựa chọn danh sách các biến mô hình bằng cách thêm dần vào mô hình các biến dự báo theo các tham số chấp nhận biến và tham số thích nghi mô hình của biến số[11]. Phƣơng pháp backward là phƣơng pháp lựa chọn danh sách các biến mô hình bằng cách loại bỏ dần các biến dự báo theo tham số thích nghi mô hình của biến số[11]. Chi tiết các bƣớc lựa chọn biến theo phƣơng pháp STEPWISE:Mã hóa chƣơng trình
proclogistic data=mydblib.TRAIN_DATA_FULL outmodel=predict_bad; class CRDTRTGLOC(MISSING);
model BADFLG = AMT INTRATE CRDTRTGLOC AGE PERIOD OVERDUERATE SUMCLAMT / selection=stepwise slentry=0.3 slstay=0.3 details lackfit; run;
Khai báo nguồn dữ liệu: data=mydblib.TRAIN_DATA_FULL => Dữ liệu nguồn là bảng TRAIN_DATA_FULL trong cơ sở dữ liệu. Bảng này có chứa dữ liệu của các hợp đồng tín dụng đƣợc thu thập và tổng hợp từ các chi nhánh: Chi nhánh Sài Gòn, Chi nhánh Đà Năng của Ngân Hàng Nông Nghiệp Và Phát Triển Nông Thôn Việt Nam.
Khai báo các biến kiểu danh mục: class CRDTRTGLOC (missing)
Khai báo mô hình: model BADFLG = AMT INTRATE CRDTRTGLOC AGE PERIOD SUMCLAMT; Trong mô hình này:
BADFLG là cờ chỉ ra khoản vay dự đoán là nợ xấu hay không nợ xấu. Các trƣờng khác là dữ liệu của 1 khoản vay. Các trƣờng dữ liệu bao gồm:
Thông tin chung:
o Tuổi/ năm thành lập: AGE
o Số tiền cho vay: AMT
Xếp hạng tín dụng: CRDTRTGLOC – Loại hạng tín dụng theo quy định của ngân hàng nhà nƣớc.
Lãi xuất trong hạn: INTRATE.
Giá trị tài sản thế chấp: SUMCLAMT
Kỳ hạn: PERIOD
Sau khi chạy chƣơng trình kết quả đạt đƣợc và mô tả các bƣớc lựa chọn biến đƣợc thể hiện nhƣ sau:
Bả ng model information chỉ ra cho chúng ta thấy đƣợc các thành phần của mô hình nhƣ:
- Nguồn dữ liệu: bảng TRAIN_DATA_FULL
- Biến dự báo: BADFLG – nợ xấu hay không nợ xấu - Tập giá trị của biến dự báo: 2
- Số lƣợng hợp đồng tín dụng: 15,956.
- Loại mô hình: hồi quy logit nhị phân – binary logit - Kỹ thuật tối ƣu hóa mô hình: Fisher’s Scoring Thống kê dữ liệu biến dự báo:
- Số lƣợng hợp đồng nợ xấu là 995: các hợp đồng nợ xấu (là các hợp đồng rơi vào nhóm nợ từ 3 đến 5).
- Số lƣợng hợp đồng không bị nợ xấu là 14961 Bảng phân tích các biến mô hình
- Trong bảng này biến số giá trị tài sản thế chấp có xác suất bác bỏ cao nhất và các biến số lãi xuất, xếp hạng tín dụng có xac suất bác bỏ thấp nhất.
- Luận văn tiến hành loại bỏ các biến có xác suất bác bỏ > 0.1 Chƣơng trình lựa chọn biến qua 3 bƣớc nhƣ sau:
Bƣớc 1: lựa chọn biến số xếp hạng tín dụng - CRDTRTGLOC
Ƣớc lƣợng tham số mô hình
Bƣớc 2: lựa chọn biến số xếp hạng tín dụng - INTRATE
Ƣớc lƣợng tham số mô hình
Ƣớc lƣợng tham số mô hình
Bƣớc 4: lựa chọn biến số kỳ hạn tín dụng - PERIOD
Ƣớc lƣợng tham số mô hình
Bƣớc 5: lựa chọn biến số kỳ hạn tín dụng - AMT
Cuối cùng ta có đƣợc các biến số trong mô hình bao gồm 3 biến đƣợc mô tả ở bảng dƣới đây:
1.1.1. Xác định tham số
Để xác định tham số chƣơng trình, luận văn sử dụng các biến số xác định sẽ đƣa vào mô hình ở phần 4.1.2. Chi tiết các bƣớc xác định tham số mô hình nhƣ sau: Mã hóa chƣơng trình
proclogistic data=mydblib.TRAIN_DATA_FULL outmodel=predict_bad; class CRDTRTGLOC(MISSING);
model BADFLG = INTRATE CRDTRTGLOC AGE;
run;
Bƣớc 1: xem xét và loại bỏ lại biến theo xác suất bác bỏ
Khi ƣớc lƣợng các tham số cho mô hình, hệ thống SAS đã sử dụng phƣơng pháp kiểm định wald và đƣa ra phƣơng sai (Chi-Square) và xác suất bắc bỏ (P- value chính là cột Pr > ChiSq). Với bảng kết quả kiểm định trên ta có một số lƣu ý nhƣsau:
- Tất cả các biến này đều tác động đến kết quả dự báo vì đều có xác suất bác bỏ P-Value = 0.0001 < 0.01.
Bƣớc 2: Ứớc lƣợng tham số mô hình
Với bảng ƣớc lƣợng các tham số này ta có công thức nhƣ sau:
Log(odds) = 4.2312 + 0.0496*INRATE + (-2.9225)*
CRDTRTGLOC(A1) + (-2.0704)*CRDTRTGLOC(A2) + (-
0.18716)*CRDTRTGLOC(A3) + (-1.6034)*CRDTRTGLOC(B1) + (- 1.6524)*CRDTRTGLOC(B2) + (-3.0428)*CRDTRTGLOC(B3) + 6.5914* CRDTRTGLOC(C1) + 0.0107AGE + (-0.02)*PERIOD + (- 582E-10)*AMT
Với biến đổi logit của mô hình tìm đƣợc trên đây, chúng ta có thể tính đƣợc sự thay đổi xác suất xảy ra nợ xấu thay đổi nhƣ thế nào theo biến đổi của từng biến phụ thuộc dựa trên công thức:
odds P( ) logit P( ) = ln = ln = + 1-P( ) i iX X X X Trong đó P( ) = 1 -( ) 1e i iX X và i là các tham số đã đƣợc ƣớc lƣợng ở trên, j <= 9 Giả sử 1 biến X 0
k với k <=9 trong khi các biến còn lại =0. Khi đó ta có: Log(odd) = 4.2312 + X
k k
Trong trƣờng hợp này, khi X
ktăng lên 1 đơn vị thì log(odd) thay đổi
k
và
bằng các biến đổi toán học => P(x) tăng lên
1+
i i
hay nói cách khác xác suất
xảy ra nợ xấu tăng lên
1+
i i
Với suy luận này, chúng ta cũng có thể rút ra kết luận trong trƣờng hợp 2 hợp đồng chỉ khác nhau 1 đơn vị ở biến X
k thì xác suất xảy ra nợ xấu của các hợp đồng chênh lệch nhau 100 1+ i i %.
Áp dụng cụ thể đối với từng biến số ảnh hƣởng đến nợ xấu ta có các tỉ lệ chênh lệch đối với biến tỉ lệ lãi suất ta có:
0.0496 0.04726 0.0496 1+ 1+ i i
xác suất xảy ra nợ xấu tăng lên 47.26%
Từ con số này có thể kết luận: Nếu lãi suất của hợp đồng tín dụng tăng lên 1 đơn vị (1%) thì khả năng xảy ra nợ xấu tăng lên 47.26%
Sự biến động khả năng xảy ra nợ xấu đối với từng biến:
Độ bao phủ của mô hình:
Bảng này chỉ ra cho chúng ta thấy:
- Các biến độc lập giải thích đƣợc tỷ số odds của biến nợ xấu ở mức 62.9% và 34.8% không giải thích đƣợc, 2.3% bị ràng buộc
- Điều đó có nghĩa là mô hình trên giải thích đƣợc 62.9% khả năng hợp đồng tín dụng xảy ra nợ xấu hay không xảy ra nợ xấu.
2.Xây dựng cây quyết định hồi quy dự báo nợ xấu 2.1. Xây dựng cây quyết định hồi quy 2.1. Xây dựng cây quyết định hồi quy
Cây quyết định hồi quy đƣợc xây dựng bằng cách sử dụng công cụ data miner trên SQL Developer của Oracle. Quá trình xây dựng cây quyết định hồi quy nhƣ sau:
Hình 3.2: Luồng phân tích và dự báo trong công cụ khai phá của oracle
Workflow dự báo gồm 4 thành phần chính: 1. Nguồn dữ liệu:
- Tập dữ liệu trainning đƣợc khai báo trong data source có tên là TRAIN_DATA_GOOD. Nguồn dữ liệu này đƣợc lấy từ bảng TRAIN_DATA_GOOD.
Hình 3.3: Thành phần dữ liệu đầu vào
Các trƣờng dữ liệu phục vụ xây dựng cây quyết định bao gồm: AGE – Tuổi, AMT – Số tiền, BADFLG – Nợ xấu/ không nợ xấu, CCYCD – Loại tiền tệ, CRDTRTGLOC – Xếp hạng tín dụng, CUSTTP – Loại khách hàng, INTRATE – Lãi suất, PERIOD.
Trƣờng dữ liệu dự báo là BADFLG: chỉ ra hợp đồng tín dụng là nợ xấu hay không nợ xấu.
- Tập dữ liệu dự báo đƣợc khai báo trong data source có tên là
MODEL_APPLY. Nguồn này dùng để áp dụng tập luật tìm đƣợc sau khi kết thúc quá trình xây dựng cây nhằm xác định giá trị của trƣờng BADFLG là 1- nợ xấu hay 0 – không nợ xấu. Dữ liệu của data source đƣợc lấy từ bảng
MODEL_APPLY, các trƣờng thông tin của bảng này tƣơng tự nhƣ bảng TRAIN_DATA_GOOD.
Hình 3.4: Thành phần áp dụng mô hình
2. Thành phần Model – Tạo mô hình
Ta sử dụng loại mô hình là classification - phân lớp và chỉ rõ thuật toán là Decision Tree.
Hình 3.5: Thành phần xây dựng mô hình
Khai báo các tham số của thuật toán
Hình 3.7: Các trƣờng dữ liệu sử dụng trong thành phần nhập
Các trƣờng dữ liệu đƣợc khai báo trong tab Input. Biến dự báo BAGFLG. Đồng thời khi khai xác định input thì thành phần model này cũng loại bỏ đi các trƣờng dữ liệu dƣ thừa: CCYCD.
3. Thành phần Apply – áp dụng mô hình
Đây là thành phần kết nối giữa tập luật của model với tập dữ liệu dự báo.
Hình 3.8: Chi tiết thành phần áp dụng mô hình
Các trƣờng thông tin sẽ đƣợc đƣa ra bảng output bao gồm: 1. Kết quả biến dự báo, 2. Xắc suất của kết quả dự báo, 3. Chi phí chạy ra kết quả dự báo.
4. Thành phần Output
Hình 3.9: Thành phần đầu ra trong luồng phân tích, dự báo
Bƣớc 2: Chạy Workflow xác định mô hình cây quyết định
Workflow đƣợc chạy từng bƣớc 1 bằng cách click chuột phải và chọn run. Quá trình chạy đƣợc thực hiện từ bƣớc xác định nguồn dữ liệu cho tới bƣớc xác định output – đầu ra. Tới bƣớc phân lớp (class buid) chúng ta có đƣợc tập luật gồm 39 luật.
Trong đó có các luật tiêu biểu sau:
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A1" "B2" "B3" )
Then
0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" ) And 8.5 < PERIOD <= 15.5 And INTRATE <= 19.95 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và Lãi suất cho vay nhỏ hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And PERIOD <= 8.5
And INTRATE <= 19.95
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và kỳ hạn nhỏ hơn hoặc bằng 8.5 tháng
Và Lãi suất cho vay nhỏ hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000
And AGE <= 50.5
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And PERIOD <= 15.5
And INTRATE > 19.95
Then 0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 50.5
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1
Và kỳ hạn nhỏ hơn hoặc bằng 15.5 tháng
Và Lãi suất cho vay lớn hơn hoặc bằng 19.95
Thì hợp đồng này không xảy nợ xấu
If AMT <= 14500000 And AGE > 58.5 And 12.4 < INTRATE <= 13.1 Then 0 If AMT <= 14500000 And AGE > 58.5 And INTRATE <= 12.4 Then 0
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay nhỏ hoặc bằng 14500000
Và Tuổi đời của đối tƣợng cho vay lớn hơn 58.5
Và Lãi suất cho vay lớn hơn 12.4 và nhỏ hơn hoặc bằng 13.1
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 4.5 And AGE <= 32.5 And INTRATE > 10.55 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3 hoặc C1 hoặc C3 hoặc D.
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 32.5
Và Lãi suất cho vay lớn hơn 12.4
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 4.5 And AGE <= 32.5 And INTRATE <= 10.55 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và Tuổi đời của đối tƣợng cho vay nhỏ hơn hoặc bằng 32.5
Và Lãi suất cho vay lớn hơn 10.55
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" )
And .5 < PERIOD <= 2.5
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" )
And 2.5 < PERIOD <= 4.5
Then 0
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A1 hoặc B2 hoặc B3 hoặc C1 hoặc C3 hoặc D.
Và Lãi suất cho vay lớn hơn 0.5 và nhỏ hơn hoặc bằng 4.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And 24.5 < PERIOD <= 49.5
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD > 49.5
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1.
Và loại khách hàng là cá nhân
Và kỳ hạn cho vay lớn hơn 24.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD <= 24.5
And INTRATE > 15.375
Then 0
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A2" "A3" "B1" )
And CUSTTP isIn ( "01" )
And PERIOD <= 24.5
And INTRATE <= 15.375
Then 0
Diễn giải hai luật trên:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000
Và xếp hạng tín dụng là A2 hoặc A3 hoặc B1.
Và loại khách hàng là cá nhân
Và kỳ hạn cho vay nhỏ hơn 24.5
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 690000000
And CUSTTP isIn ( "02" )
And CRDTRTGLOC isIn ( "A2" "B1" )
Then
Diễn giải:
- Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 690000000
Và xếp hạng tín dụng là A2 hoặc B1.
Thì hợp đồng này không xảy nợ xấu
If 14500000 < AMT <= 3065000000
And CRDTRTGLOC isIn ( "A1" "B2" "B3" "C1" "C3" "D" ) And PERIOD > 6.5 And AGE > 32.5 Then 0 Diễn giải: - Nếu hợp đồng tín dụng có:
Số tiền cho vay lớn hơn 14500000 và nhỏ hơn hoặc bằng 3065000000