Đánh giá mô hình

CHƯƠNG 2. MÔ HÌNH HỒI QUY LOGISTIC TRONG ĐÁNH GIÁ XẾP HẠNG TÍN DỤNG KHÁCH HÀNG

2.4 Đánh giá mô hình

2.4.1 Đường cong tích lũy và tỷ lệ phân loại chính xác

Tỷ lệ phân loại chính xác (Accuracy ratio - AR) là công cụ để đo lường chất lượng của biến số trong việc phân định các khách hàng thành 2 nhóm default và non-default. AR càng cao khả năng phân định khách hàng thành 2 nhóm default và non-default càng tốt. Để xác định AR, trên trục x, ta thực hiện sắp xếp các khách hàng có biến số cần đánh giá từ xấu nhất tới tốt nhất. Trục y thể hiện tỷ lệ

% các khách hàng default. Khi đó ta có đường cong tích lũy hoàn hảo, đường cong của mô hình và đường thẳng ngẫu nhiên tạo nên các vùng diện tích aR và aQ. Hình 2.5 minh họa các đường cong và vùng diện tích này[50]:

Hình 2.5: Minh hoạt đường cong tích lũy Khi đó AR được tính theo công thức sau [50]:

( )

( ) ( ) ( ) Trong đó:

 AR: Tỷ lệ phân loại chính xác của biến số cần đánh giá

 ( ): Vùng diện tích giữa đường ngẫu nhiên và đường cong của mô hình

 ( ): Vùng diện tích giữa đường cong của mô hình và đường cong hoàn hảo

2.4.2 Mức ý nghĩa thống kê

Ý nghĩa thống kê p-value, là ngưỡng được lựa chọn trước, là con số xác suất ngẫu nhiên của dữ liệu có thể xảy ra trùng hợp với dữ liệu quan sát. p-value càng nhỏ thì độ tin cậy của dữ liệu càng lớn. Với hầu hết thực nghiệm dựa trên giả thuyết, mức ý nghĩa 5% là chấp nhận được. Khi đó độ tin cậy của dữ liệu là 95% . Hình 2.6 minh họa mức ý nghĩa thống kê 5% của biến dữ liệu:

Hình 2.6: Minh họa mức ý nghĩa thống kê 2.4.3 Hệ số tương quan

Hai biến có độ tương quan cao (thường >70%), khi loại bỏ 1 trong 2 biến đó ra khỏi mô hình sẽ cho kết quả đầu ra hầu như không thay đổi. Luận văn sử dụng hệ số tương quan Pearson để đánh giá các biến.

Với 2 biến số X và Y từ tập dữ liệu có n mẫu, hệ số tương quan Pearson được xác định theo công thức sau [12]:

( ) ∑ ( )( )

√∑ ( ) ∑ ( ) ( )

27 Trong đó:

 n: số lượng mẫu quan sát

 xi, yi : giá trị dữ liệu mẫu thứ i của biến X và Y

 : giá trị trung bình của X và Y trong n mẫu quan sát

Hệ số tương quan Pearson thường được áp dụng với các biến tuân theo luật phân phối chuẩn.

2.4.4 Person chi-square, χ2

Chỉ số này sử dụng để đánh giá mô hình hồi quy logistic có phù hợp với kết quả quan sát hay không.

Người ta thường sử dụng chỉ số này để so sánh các mô hình với nhau, mô hình nào có chỉ số χ2 sẽ phù hợp hơn.

Gọi r là phần dư chuẩn hóa (standardized residual)

√ ( ) ( ) Khi đó Chi-Square, χ2 được tính theo công thức sau:

∑

( )

Trong đó:

 Yi: Giá trị biến phụ thuộc tại thời điểm quan sát (nhận hai giá trị 0 hoặc 1)

 pi: Giá trị tiên lượng được tính qua mô hình

 : Phần dư chuẩn hóa

 n: Số quan sát

 χ2: Chi-square: Dùng để đánh giá sự phù hợp của dữ liệu quan sát với kết quả đánh giá.

2.4.5 Residual Deviance, G2

Chỉ số này cũng dùng để đánh giá độ phù hợp của dữ liệu quan sát với kết quả đánh giá của mô hình.

Người ta thường sử dụng chỉ số này để so sánh các mô hình với nhau, mô hình nào có chỉ số G2 sẽ phù hợp hơn.

28 ∑[ ( ) ( ) ( )] ( )

Trong đó:

 Yi: Giá trị biến phụ thuộc tại thời điểm quan sát (nhận hai giá trị 0 hoặc 1)

 pi: Giá trị tiên lượngt tính mô hình

 n: Số quan sát

 G2: Dùng để đánh giá sự phù hợp của dữ liệu quan sát với kết quả đánh giá.

2.4.6 Mean Squared Error

Giá trị MSE (sai số toàn phương trung bình) được tính theo công thức như sau:

∑( ̂ )

( )

Với ̂ là tập hợp các giá trị kết quả của quá trình suy diễn, là tập hợp các giá trị nhãn đầu ra của bộ testing. MSE là giá trị bình phương trung bình của sai số. Giá trị MSE càng nhỏ thì kết quả càng chính xác.

2.4.7 Tỷ lệ dự đoán

Tỷ lệ dự đoán AR (Accuracy ratio) được tính một cách đơn giản, là tỉ lệ dự đoán đúng so với tổng số lần dự đoán. Công thức tính AR như sau [34].

( ) Trong đó:

 a là kết quả dự đoán true positive

 b là kết quả dự đoán false positive

 c là kết quả dự đoán false negative

 d là kết quả dự đoán true negative

Giá trị AR càng cao thì mô hình dự đoán có tỷ lệ chính xác càng cao.

29 2.4.8 Hệ số xác định bội R2

Trong mô hình hồi quy đa biến, tỷ lệ của toàn bộ sự khác biệt của biến Y do tất cả các các biến giải thích X1, X2,…,Xk gây ra được gọi là hệ số xác định bội, ký hiệu R2. Công thức xác định [12]:

( ) Trong đó:

∑( ̂)

∑( ̅)

̅ ∑

 Yi: Giá trị quan sát

 ̅: Giá trị trung bình của mẫu

 ̂: Giá trị tiên lượng từ mô hình

 R2: Hệ số hồi quy bội

Ta thấy 0<=R2 <=1; nếu R2 =1 mô hình giải thích 100% sự thay đổi của Y;

nếu R2 =0: mô hình không giải thích được gì tới sự thay đổi của Y.

Giới thiệu mô hình hồi quy logistic

Biểu đồ ca sử dụng (use-case)