CHƯƠNG 3. GIẢI PHÁP ĐÁNH GIÁ RỦI RO TÍN DỤNG DỰA TRÊN MÔ HÌNH HỒI QUY LOGISTIC
3.2 Xây dựng hệ trợ giúp đánh giá rủi ro tín dụng
Hệ trợ giúp đánh giá rủi ro tín dụng của khách hàng sử dụng mô hình hồi quy logistic trong tính xác suất vỡ nợ của khách hàng. Xác suất vỡ nợ là một giá trị nằm trong đoạn [0,1]. Trong thực tế, người ta thường quy đổi giá trị này sang biểu diễn dưới dạng ký hiệu xếp hạng dựa trên bảng quy đổi thang hạng chuẩn.
Để đạt được mục tiêu trên, luận văn đề xuất mô hình giải quyết bài toán như hình 3.1:
31
Mô hình đề xuất giải quyết bài toán
Dữ liệu đầu vàoTính các biếnChuẩn hóa các biếnXây dựng mô hìnhĐánh giá mô hìnhKết quảBáo cáo
Trợ giúp xếp loại ro tín dụng của khách hàng Xây dựng mô hình đánh giá rủi ro tín dụng
Tính toán các biến xây dựng mô hình (2)
Tính toán các biến để đánh giá rủi ro tín dụng của
khách hàng (8) Chuẩn hóa và xác định
tham số chuẩn hóa (3) Tham số chuẩn Chuẩn hóa các biến (9)
hóa
Xây dựng các mô hình (4)
Thu thập dữ liệu (1) Thu thập chỉ tiêu tài
chính của khách hàng (7)
Mô hình lựa chọn (6)
Độ phù hợp của mô hình (5)
Có Không
Tính rủi ro tín dụng của khách hàng (10)
Kết quả xếp hạng tín dụng của khách hàng (11)
Công thức mô hình
Hình 3.1: Mô hình Flowchart giải quyết bài toán Diễn giải mô hình:
Mô hình đánh giá rủi to tín dụng khách hàng bao gồm 11 bước. Trong đó:
- Từ bước 1 đến 6 là các bước trong lớp bài toán xây dựng mô hình
- Từ bước 7 đến bước 11 là các bước trong lớp bài toán xây dựng hệ trợ đánh giá rủi ro tín dụng của khách hàng dựa trên mô hình xây dựng được ở trên.
Mô hình thiết kế kiến trúc đề xuất hệ thống hỗ trợ đánh giá xếp hạng rủi ro tín dụng khách hàng được trình bày theo hình 3.2:
32
Cơ sở dữ liệu (2)
Bộ tiền xử lý
Hiệu chỉnh dữ liệu (3)
Chuẩn hóa và chuyển dạng
dữ liệu (4) Bộ đánh giá khách hàng
Tính xác suất vỡ nợ khách hàng (5)
Kết quả xếp hạng rủi ro khách hàng (7)
Bảng thang hạng chuẩn (6)
Cán bộ quan hệ khách
hàng
Cán bộ tín dụng
Dữ liệu đầu vào (1)
Hình 3.2: Mô hình kiến trúc hệ thống
Các thành phần trong mô hình kiến trúc hệ thống đề xuất như sau:
- (1): Thành phần hỗ trợ người dùng xem, nhập thông tin khách hàng và các chỉ tiêu báo cáo tài chính của khách hàng cần đánh giá.
- (2): Thành phần CSDL lưu trữ toàn bộ dữ liệu tính toán cũng như metadataa của hệ thống.
- (3): Thành phần hỗ trợ hiệu chỉnh dữ liệu đối với các biến tài chính có số liệu bất thường.
- (4): Thành phần chuẩn hóa các dữ liệu trước khi đưa vào công thức của mô hình tính xác suất rủi ro của khách hàng.
- (5): Thành phần tính xác suất xảy ra rủi ro của khách hàng. Sử dụng công thức toán học của mô hình được xác định ở phần trên để tính xác suất vỡ nợ của khách hàng. Thành phần này cũng có vai trò lựa chọn mô hình phù hợp với khách hàng trong trường hợp hệ thống có nhiều mô hình khác nhau đối với từng loại/đối tượng khách hàng.
- (6): Thành phần tính toán và hiển thị kết quả đầu ra là đánh giá xếp hạng tín dụng của khách hàng. Kết quả này được cán bộ tín dụng sử dụng trực tiếp và có vai trò hỗ trợ rất quan trọng trong việc ra quyết định về xử lý hồ sơ tín dụng của khách hàng như: áp lãi suất, hạn mức tín dụng, thời hạn vay,…
Sau đây luận văn trình bày chi tiết phương pháp/kỹ thuật thực hiện các bước trong mô hình giải quyết bài toán đề xuất ở trên:
33 Bước 1: Thu thập dữ liệu xây dựng mô hình
Đầu vào: Các chỉ tiêu trên báo cáo tài chính của khách hàng
Đầu ra: Là một Dataset bao gồm các chỉ tiêu tài chính cần quan tâm Thực hiện:
Đặt (Y,TC) là tập hợp dữ liệu thu thập được từ nguồn. Trong đó
Y=(Yi, 1<=i<=n) là véc tơ dấu hiệu nhận biết trạng thái vỡ nợ của khách hàng tại quan sát thứ i. Yi chứa đựng các thông tin như:
Có bán nợ cho VAMC hay không
Nợ quá hạn bao nhiêu ngày
…
TC=(TCir, 1<=i<=n, 1<=r<=z); TCir ∈ R. TC có kích thước n x z, n là số quan sát; z là số chỉ tiêu thu thập được từ báo cáo tài chính.
Dataset đầu ra là trạng thái vỡ nợ Y và ma trận chỉ tiêu tài chính TC được sử dụng làm đầu vào cho bước tiếp theo.
Bước 2: Tính toán các biến
Đầu vào: Tập dữ liệu thu thập ở trên (Y,TC).
Đầu ra: là một Dataset chứa biến trước chuẩn hóa được sử dụng để xây dựng mô hình.
Thực hiện:
Gọi (1<=j<=p) là các biến trước chuẩn hóa được sử dụng để xác định mô hình hồi quy logistic. được tính toán trực tiếp từ TC.
Gọi Fj là công thức được sử dụng để tính ra biến . Khi đó ta có mối quan hệ:
( ) ( ) Hoặc:
( ) ( ) Công thức (3.2) mô tả cách tính giá trị biến tại quan sát i. Công thức này được sử dụng để tính ra ma trận x* (n x p)- giá trị các biến trước chuẩn hóa được sử dụng xây dựng mô hình.
Bước 3: Chuẩn hóa các biến để xây dựng mô hình
Đầu vào: Các biến trước chuẩn hóa được xác định ở trên
34
Đầu ra: là một Dataset chứa các biến xj đã chuẩn hóa; tham số Lj, Mj, Uj,
chuẩn hóa của biến xj. Thực hiện:
Các biến được chuẩn hóa về cùng độ đo trước khi được đưa vào sử dụng xây dựng mô hình.
Các biến được chuẩn hóa qua 2 bước:
Bước 3.1: Chuẩn hóa các biến về cùng thang đo [0,1]
Sử dụng hàm sigmoid sau để chuẩn hóa [14]
( )
( )
Trong công thức (3.3):
o : Giá trị sau chuẩn hóa nằm trong miền [0,1]
o Lj là phân vị1 5th của , là giá trị mà tại đó có nhiều nhất 5%
trường hợp trong tập dữ liệu quan sát có giá trị thấp hơn giá trị này.
o Uj là phân vị 95th của , là giá trị mà tại đó có nhiều nhất 95%
trường hợp trong tập dữ liệu quan sát có giá trị thấp hơn giá trị này.
o
o Phân vị: Trong một dãy số đã sắp xếp thứ tự, phân vị thứ p là Qp%
(0<=p<=100) là giá trị chia bộ dữ liệu thành 2 phần: một phần gồm p% số quan sát <=Qp%; một phần (100-p)% số quan sát
>=Qp%
Bước 3.2: Đưa các biến về phân phối chuẩn tắc
Sau chuẩn hóa bước 1, các có giá trị trung bình và độ lệch chuẩn khác nhau. Do vậy bước này sẽ chuẩn hóa để các biến
về phân phối chuẩn tắc có
( )
1 Số phân vị Pth là một giá trị mà tại đó nhiều nhất có P% số trường hợp quan sát trong tập dữ liệu có giá trị thấp hơn giá trị này và nhiều nhất là (100 – P)% của trường hợp có giá trị lớn hơn giá trị này
35 Trong công thức (3.4):
o giá trị của biến xj tại quan sát thứ i sau chuẩn hóa
o : Giá trị trung bình của trên tập dữ liệu quan sát. được xác định như sau:
∑
( ) o : Giá trị độ lệch chuẩn của trên tập dữ liệu quan sát.
được xác định như sau:
√
∑( )
( )
Bước 4: Xây dựng mô hình
Đầu vào: Véc tơ trạng thái vỡ nợ thu thập được Y và ma trận x (n x p) sau chuẩn hóa.
Đầu ra: Các tham số ̂ của mô hình Thực hiện:
Đặt (y,x) là dữ liệu quan sát sau chuẩn hóa. Với:
y=(yi, 1 <= i <= n) là véc tơ nhị phân phản ánh trạng thái trả nợ của khách hàng tại thời điểm quan sát:
yi=1 nếu Yi có trạng thái vỡ nợ (tại thời điểm quan sát khách hàng xảy ra vỡ nợ)
yi=0 nếu Yi có trạng thái không vỡ nợ (tại thời điểm quan sát khách hàng không xảy ra vỡ nợ)
x=(xij, 1 <= i <= n, 1 <= j <= p); x là ma trận dữ liệu sau chuẩn hóa kích thước n x p với n là số quan sát của dữ liệu, p là số biến độc lập của mô hình.
xij ∈ R: là giá trị của biến xj tại quan sát thứ i trong ma trận dữ liệu sử dụng để xây dựng mô hình
xij đã được chuẩn hóa về cùng độ đo ở trên
Đặt ( ) ∈ là các hệ số chưa biết cần xác định.
Trong đó
: Hệ số cắt của hàm hồi quy
36
: Là các hệ số hồi quy riêng của các biến xj
Xác định công thức hồi quy logistic của mô hình
Gọi ( ) là xác suất để quan sát thứ i xảy ra vỡ nợ với giá trị của các biến độc lập xi, 1<=i<=p, ( ) ∈ [ ]
( ) ( | ) ( )
Xác suất để yi=1 với giá trị các biến xi được xác định như sau [28]:
( ) ( | ) ( ∑ )
( ∑ ) ( )
Nhận thấy ( ) là xác suất để yi=1 (xác suất để quan sát i xảy ra vỡ nợ) thì 1- ( ) là xác suất để yi=0 (xác suất để quan sát i không xảy ra vỡ nợ). Ta có:
( ) ( ∑ )
( ∑ )
( ∑ ) ( )
Xét tỷ số xác suất xảy ra yi=1 và xác suất xảy ra yi=0. Kết hợp (3.8) và (3.9) ta có:
( )
( ) ( ∑
) ( )
Lấy ln 2 vế của (3.8) và đặt ( ) ( ( )
( )). Như vậy ta có:
( ) ( ( )
( )) ∑
( )
Nhận thấy ( ) phi tuyến với xi nhưng ( ) lại tuyến tính với xi
Ước lượng các tham số của mô hình
Các hệ số trong mô hình (3.11) được xác định theo phương pháp hợp lý cực đại (maximum likelihood estimators - MLE). Theo phương pháp này, ta có hệ phương trình sau [28]:
37 {
∑ [ ( )]
∑ [ ( )]
( )
Biến đổi (3.8) bằng cách chia cả tử và mẫu cho: ( ∑ ) ta được:
( )
( ∑ )
( [ ( ∑
)])
( )
Gọi ̂ là ước lượng của . Kết hợp (3.12) và (3.13) ta được
{
∑
∑ ( [ ( ̂ ∑ ̂
)])
∑
∑ ( [ ( ̂ ∑ ̂
)])
( )
Trong công thức (3.14):
yi=1 nếu tại quan sát i khách hàng xảy ra vỡ nợ
yi=0 nếu tại quan sát i khách hàng không xảy ra vỡ nợ
Giải hệ phương trình (3.14)2 ta thu được các hệ số ̂ ( ̂ ̂ ̂ ̂ ).
Đây chính là các tham số cần xác định của mô hình tính xác suất vỡ nợ của khách hàng.
Bước 5: Đánh giá độ phù hợp của mô hình
Đầu vào: Mô hình xác định được ở Bước 4
Đầu ra: Kết luận về mô hình có phù hợp không Thực hiện:
Để đánh giá mô hình của phù hợp với domain của bài toán hay không, hiện nay có rất nhiều phương pháp đánh giá. Luận văn sử dụng các kỹ thuật:
- Mô hình lựa chọn là mô hình chỉ sử dụng các biến có ý nghĩa thống kê, với mức ý nghĩa 5%.
2 Trong hầu hết các phần mềm thống kê đều hỗ trợ công cụ giải hệ phương trình này [28]
38 ( ) - Các biến trong mô hình có độ tương quan thấp, luận văn lựa chọn các biến
có độ tương quan không quá 70% từ tập danh sách các biến được đề xuất ( ( )) ( ) - Sử dụng tỷ lệ phân loại chính xác AR đánh giá độ phù hợp của biến:
( ) Khi mô hình đánh giá chưa là lựa chọn cuối cùng, thực hiện loại bỏ các biến có p-value cao và thực hiện lặp lại bước Bước 4.
Quá trình thực hiện cho tới khi xác định được mô hình phù hợp nhất thì dừng lại.
Bước 6: Xác định công thức mô hình
Đầu vào: Các hệ số ̂ được xác định ở trên
Đầu ra: Công thức toán học của mô hình Thực hiện:
Sau khi xác định được các tham số của mô hình hồi quy logistic, công thức tính xác suất vỡ nợ của khách hàng (3.8) được viết lại như sau:
( ( ̂̂ ∑ ∑ ̂̂ )
) ( ) Trong đó:
k: Số biến được sử dụng trong mô hình lựa chọn (mô hình tối ưu)
̂
xj: Các biến giải thích của mô hình lựa chọn
p: xác suất không trả được nợ của khách hàng.
Công thức (3.18) chính là công thức toán học của mô hình hồi quy logistic trong việc xác định xác suất vỡ nợ của khách hàng. Công thức này được sử dụng để xây dựng hệ thống trợ giúp tính xếp hạng rủi ro tín dụng của khách hàng từ Bước 7 đến Bước 11.
Bước 7: Thu thập dữ liệu của khách hàng cần đánh giá
Đầu vào: Báo cáo tài chính và các thông tin liên quan tới khách hàng cần đánh giá
Đầu ra: là một véc tơ giá trị các chỉ tiêu tài chính TC
39 Thực hiện:
Dựa vào mô hình (3.18) tìm được ở trên, bước này sẽ tiến hành thu thập các chỉ tiêu cần thiết để xác định rủi ro tín dụng của khách hàng cần đánh giá.
Gọi w là số lượng các chỉ tiêu tài chính cần thu thập, ta có véc tơ TC bao gồm các chỉ tiêu cần thu thập như sau:
( ) ( )
Véc tơ TC này làm dữ liệu đầu vào cho các Bước tiếp theo.
Bước 8: Tính toán các biến
Đầu vào: Véc tơ TC (TC1,TC2,…,TCw) do khách hàng cung cấp và công thức tính các biến.
Đầu ra: là một véc tơ (1<=j<=k) của các biến trước chuẩn hóa.
Thực hiện:
Gọi (1<=j<=k) là các biến trước chuẩn hóa được sử dụng để tính xác suất vỡ nợ của khách hàng. được tính toán trực tiếp từ TC do khách hàng cung cấp.
Tính các biến , tương tự công thức (3.1) ta có:
( ) ( ) Bước 9: Chuẩn hóa các biến để tính PD
Đầu vào: Véc tơ ; tham số sử dụng chuẩn hóa các biến
Đầu ra: Véc tơ x (xj, 1<=j <=k) đã chuẩn hóa Thực hiện:
Kết hợp (3.3) và (3.4) ta có công thức chuẩn hóa giá trị các biến đầu vào:
( )
( ) Trong công thức (3.21): Các tham số: của biến xj đã được xác định trong bước xây dựng mô hình tính xác suất vỡ nợ khách hàng.
Bước 10: Tính xác suất vỡ nợ
Đầu vào: Véc tơ x(xj, 1 <= j <= k) đã chuẩn hóa
Đầu ra: Xác suất vỡ nợ PD của khách hàng.
Thực hiện:
40 Sử dụng công thức (3.18) để tính xác suất vỡ nợ của khách hàng. Gọi PD là xác suất vỡ nợ của khách hàng. Ta có công thức xác định PD như sau:
( ( ̂̂ ∑ ∑ ̂̂ )
) ( ) Trong công thức (3.19) các hệ số ̂ ̂ ̂ ̂ đã biết. Do vậy ta hoàn toàn tính được xác suất vỡ nợ PD của khách hàng.
Bước 11: Xác định kết quả xếp hạng khách hàng
Đầu vào: Xác suất vỡ nợ PD, bảng thang hạng chuẩn
Đầu ra: Xếp loại rủi ro tín dụng của khách hàng Thực hiện:
Bước này sử dụng bảng thang hạng chuẩn để mapping xác suất vỡ nợ PD sang ký hiệu xếp loại rủi ro tín dụng. Đây là ký hiệu rủi ro tín dụng được sử dụng thống nhất trên toàn hệ thống.
PD của khách hàng đánh giá là p:
Nếu bw1=<p< bw2 : Rating=Rw. Bảng 3.1 mô tả thang hạng chuẩn ứng với các dải PD [14][41]:
Bảng 3.1: Bảng thang hạng chuẩn
Pdrange
Ý nghĩa hỗ trợ
Rating Min Max
aaa 0.00% 0.03%
Khả năng trả nợ rất tốt
aa+ 0.03% 0.05%
aa 0.05% 0.09%
a+ 0.09% 0.12%
Khả năng trả nợ tốt
A 0.12% 0.36%
bbb 0.36% 0.75%
Trung lập
bb+ 0.75% 1.15%
Bb 1.15% 3.85%
Rủi ro
b+ 3.85% 6.96%
B 6.96% 9.81%
41 Pdrange
Ý nghĩa hỗ trợ
Rating Min Max
Ccc 9.81% 13.95%
Rất rủi ro
cc+ 13.95% 16.25%
Cc 16.25% 28.90%
c+ 28.90% 32.00%
Có nguy cơ không trả được nợ
C 32.00% 39.00%
D 39.00% 99.99%