CHƯƠNG I CƠ SỞ LÝ LUẬN VỀ XẾP HẠNG TÍN DỤNG VÀ MÔ HÌNH
1.2. Giới thiệu về mô hình hồi quy Logistic
1.2.1. Khái niệm về hồi quy Logistic
Vào thập niên 1970, nhà thống kê họcDavid R.Cox1 đã phát triển một mô hình thuộc dạng hồi quy tổng quát với tên gọi hồi quy Logistic (Binary Logistic). Đây là một mô hình xác suất phi tuyến, nghiên cứu sự phụ thuộc của 1 biến có dạng nhị phân vào các biến độc lập khác. Lúc này không thể sử dụng hồi quy tuyến tính thông thường, vì nó sẽ xâm phạm các giả định. Dễ thấy như khi biến phụ thuộc chỉ có hai
1David Roxbee Cox, sinh ngày 15/07/1924, là một nhà thống kê học nổi tiếng người Anh.
2. Thu thập thông tin về đối tượng cần xếp hạng Nguồn bên ngoài
Nguồn bên trong
1. Xác định mục đích xếp hạng Xếp hạng đối tượng nào?
Mục đích xếp hạng là gì?
3. Phân tích thông tin
Lựa chọn phương pháp thích hợp để phân tích
4. Rút ra những kết luận và đánh giá ban đầu Kết quả có thỏa mãn mục đích đưa ra?
Kết quả có bảo đảm tính khách quan, chính xác và đáng tin cậy không?
5. Đưa ra kết quả đánh giá chính thức Công bố kết quả
Đưa ra những quyết định cần thiết
Trường Đại học Kinh tế Huế
biểu hiện 0 hoặc 1 thì phần dư sẽ có phân phối nhị thức chứ không phải phân phối chuẩn, do đó các kiểm định trong phép hồi quy thông thường trong trường hợp này sẽ mất hiệu lực thống kê. Một khó khăn khác khi dùng hồi quy tuyến tính thông thường là giá trị ước lượng của biến phụ thuộc không thể được diễn dịch thành xác suất như trong mô hình Logistic.
1.2.2. Lý thuyết về mô hình hồi quy Logistic và ứng dụng của mô hình trong xếp hạng tín dụng doanh nghiệp
Mô hình này sử dụng các nhân tố có ảnh hưởng đến tình trạng tín dụng của DN (biến độc lập) để xác định khả năng những DN này sẽ có rủi ro tín dụng (biến phụ thuộc) là bao nhiêu. Nghĩa là, mô hình Logistic có thể ước lượng xác suất mặc định xảy ra rủi ro tín dụng của một DN trực tiếp từ mẫu, và căn cứ vào xác suất đó để XHTD DN vào nhóm thích hợp.
Cấu trúc dữ liệu trong mô hình như sau:
Biến Loại Giả định
Phụ thuộc (Y) Nhị phân Phân phối theo quy luật Bernoulli
Độc lập (Xi) Liên tục hoặc rời rạc
Phân phối Logistic, giữa các biến không có tương quan tuyến tính
Giả sử biến giả (Y) phụ thuộc vào giá trị ước lượng Y*.
Trong đó: Y* = β1+ β2X2i+ β3X2i+…. +βkXki+ ɛi
Y (X) là biến lựa chọn nhị phân, nghĩa là:
Yi=
Trong đó, Pi= P(Yi=1/Xi). Khi đó Yilà biến ngẫu nhiên phân phối theo quy luật Bernoulli, có nghĩa là:
fi(Yi) = Pi
Yi( 1- Pi)1 – Yi hayYi=Log = Log
Trường Đại học Kinh tế Huế
Với Yi= 0, 1; i= 1,…,n
Khi đó, kỳ vọng toán và phương sai được tính như sau:
E(Yi) = niPi
Var(Yi) = niPi(1-Pi)
Vì Y là biến ngẫu nhiên phân phối theo quy luật Bernoulli nên theo luật số mũ có thể viết lại như sau:
PYi(1- Pi)1 – Yi= (1- Pi). exp Yilog
Tỷ lệ chênh lệch: Odds = =
Mở rộng hơn có thể viết như sau:
Yi= Log = β1+ β2X2i+…. +βkXki
= Exp (β1+ β2X2i+…. +βkXki)
P( Y =1) = Pi= (1)
Phương trình (1) được gọi làhàm phân bố Logistic. Và xác suất để DN có rủi ro tín dụng được tính bằng công thức trên. Như vậy trong mô hình Logistic chúng ta không nghiên cứu ảnh hưởng trực tiếp của biến độc lập Xk đối với Y mà xem xét ảnh hưởng của Xk đến xác suất P để Y nhận giá trị bằng 1. Trong mô hình trên dễ thấy Pi không phải là hàm tuyến tính của các biến độc lập Xi tham số β. Vì khi Xi,βi nhận các giá trị từ - đến + , thì Pi nhận giá trị từ 0 đến 1. Như vậy, không thể áp dụng trực tiếp OLS (phương pháp bình phương nhỏ nhất) để ước lượng mà dùngước lượng hợp lý tối đa (Maximum likelihood) để ước lượng β. (Chi tiết xem tại phụ lục 25)
Trường Đại học Kinh tế Huế
Ngày nay, các phương pháp thuần toán học để ước lượng cácβ đã được tự động hóa dựa trên một số phần mềm kinh tế lượng như Eviews, Stata, SPSS,…Đề tài này sử dụng phần mềm SPSS kết hợp Eviews để ước lượng tham sốβ.
1.2.3. Kiểm định mô hình theo phương pháp ước lượng hợp lý tối đa
Như đã đề cập, hàm hồi quy Logistic không phải là tuyến tính nên không thể áp dụng trực tiếp OLS (phương pháp bình phương nhỏ nhất) để ước lượng mà dùng ước lượng hợp lý tối đa (Maximum likelihood). Mức ý nghĩa sử dụng là α = 0.1 (phù hợp với cỡ mẫu không quá lớn).
1.2.3.1. Kiểm định độ phù hợp của mô hình
Đo lường độ phù hợp tổng quát của mô hình Logistic không dùng hệ số xác định mô hình R2 ở mô hình tuyến tính thông thường, mà dựa trên chỉ tiêu-2LL(viết tắt của -2 log likelihood), thước đo này có ý nghĩa giống như SSE (sum of squares of error) nghĩa là càng nhỏ càng tốt. Giá trị -2LL càng nhỏ càng thể hiện độ phù hợp cao.
Giá trị nhỏ nhất của -2LL là 0 (tức là không có sai số) khi đó mô hình có một độ phù hợp hoàn hảo. Bên cạnh đó còn có thể dùng hệ số McFadden R2= 1 - (LLFUR - LLFR)1, tương đương hệ số R2 .
1.2.3.2. Kiểm định ý nghĩa của các hệ số
Với hồi quy Logistic, đại lượngWald Chi Squaređược sử dụng để kiểm định ý nghĩa thống kê của hệ số hồi quy tổng thể, thông qua kiểm định ràng buộcWald Test. Nếu p-value (Chi square) < α = 0.1, bác bỏ giả thiết H0: βk = 0, nghĩa là hệ số có ý nghĩa.
1.2.3.3. Kiểm định mức độ phù hợp tổng quát
Ở hồi quy Logistic, tổ hợp liên hệ tuyến tính của toàn bộ các hệ số trong mô hình ngoại trừ hằng số cũng được kiểm định xem có thực sự có ý nghĩa trong việc giải thích cho biến phụ thuộc không. Ta dùng kiểm định Chi square để kiểm định giả
1LLFURlà log của hàm hợp lý tối đa không bị ràng buộc (tất cả các biến giải thích được đưa vào mô hình)
Trường Đại học Kinh tế Huế
thuyết H0 : β1= β2 = β3=… βk = 0. Căn cứ vào mức ý nghĩa sig. mà SPSS đưa ra trong bảngOmnibus Tests of Model Coefficients, nếu sig. < α = 0.1, quyết định bác bỏ H0, tức là các hệ số đều có ý nghĩa trong mô hình.
1.2.3.4. Kiểm định tính ngẫu nhiên của phần dư
Phần dư của mô hình có phương sai sai số ngẫu nhiên, đi kèm với phân phối không chuẩn. Ta kiểm định dựa vào quan sát đồ thị biểu diễn giá trị phần dư, giá trị ước lượng và giá trị thật của Y. Kiểm tra xem đường giá trị tồn dư (resid values) có tương đối hằng định qua suốt hết các dãy giá trị ước lượng không (fitted values). Nếu không thì chứng tỏ phần dư của mô hình là sai số ngẫu nhiên, mô hình phù hợp.