Ví dụ minh họaDựa trên những cơ sở lý luận ta đã tìm hiểu, sau đây chúng ta cùng phân tích một tình huống kinh tế cụ thể để thấy được cách phát hiện và khắc phục hiện tượng đa cộng tuyến
Trang 1II Ví dụ minh họa
Dựa trên những cơ sở lý luận ta đã tìm hiểu, sau đây chúng ta cùng phân tích một tình huống kinh tế cụ thể để thấy được cách phát hiện và khắc phục hiện tượng đa cộng tuyến như thế nào
Theo cuộc điều tra thực tế về mức chi tiêu cho thực phẩm của sinh viên ĐH
Thương Mại, ta tiến hành thu thập số liệu trên một mẫu tiêu biểu với các biến như sau:
Y: số tiền chi tiêu cho thực phẩm (đơn vị: nghìn đồng) X: số tiền được chu cấp hàng tháng (đơn vị: nghìn đồng) Z: số tiền nhà, điện, nước (đơn vị: nghìn đồng)
G: giới tính
G=1 nam G=0 nữ
Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục Cho
α = 5%.
Trang 2
1 Lập mô hình hàm hồi quy
Ta có mô hình hàm hồi quy tuyến tính thể hiện sự phụ thuộc của số tiền chi tiêu cho thực phẩm vào số tiền được chu cấp hàng tháng, số tiền nhà + điện+ nước và giới tính
Yi = β1 + β2Xi + β3Zi + β4Gi + Ui
Mô hình ước lượng của hàm hồi quy
^
Yi = ^ β1 + ^ β2Xi + ^ β3Zi + ^ β4Gi
Từ bảng số liệu sử dụng phần mềm eviews ta có bảng sau
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 00:09
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 270.5513 99.81757 2.710457 0.0203
X 0.081103 0.167417 0.484440 0.6376
Z 0.383807 0.324546 1.182595 0.2619
G -23.34150 23.89132 -0.976986 0.3496
R-squared 0.837776 Mean dependent var 788.6667
Adjusted R-squared 0.793533 S.D dependent var 87.08507
S.E of regression 39.57023 Akaike info criterion 10.41721
Sum squared resid 17223.83 Schwarz criterion 10.60602
Log likelihood -74.12907 Hannan-Quinn criter 10.41520
F-statistic 18.93586 Durbin-Watson stat 2.537517
Prob(F-statistic) 0.000119
Từ kết quả ước lượng ta có hàm hồi quy mẫu :
^
Yi = 70,5513+ 0,081103Xi + 0,383807Zi – 23,34150Gi
2 Phát hiện hiện tượng đa cộng tuyến
Ta có hàm hồi quy mẫu:
Yi ^ = 270,5513+ 0,081103Xi + 0,383807Zi – 23,34150Gi
t(α/ 2 n−k) = t0,02511 = 2,201
Cách 1: Hệ số xác định bội R2 cao nhưng t thấp.
Trang 3Nhận xét:
R2= 0.837776 > 0.8
Thống kê ứng với hệ số chặn t1=2,710475
Thống kê t của hệ số ứng với biến X
t2 =0,484440 < 2,201
Thống kê t của hệ số ứng với biến Z
t3 = 1,182596 < 2,201
Thống kê t của hệ số ứng với biến G
t4 = - 0,976986 < 2,201
Ta thấy rằng hệ số xác định bội R2tương đối cao (>0.8) điều này chứng tỏ mô hình đưa ra là khá phù hợp Tuy nhiên thống kê t2 lại có giá trị rất gần 0 tương ứng với xác suất ý nghĩa bằng 0.484440 là khá lớn thì ta có xu hướng chấp nhận giả thiết
hệ số hồi quy riêng β2 bằng 0, tức là không có ý nghĩa về mặt thống kê Vậy có thể nghi ngờ rằng có hiện tượng đa cộng tuyến xảy ra trong mô hình.
Cách 2: Hệ số tương quan cặp giữa các biến giải thích cao
Ta có.
X 1.000000 0.973738
Z 0.973738 1.000000
r12 = 0,973738 > 0.8
=> Như vậy ta càng có cơ sở kết luận có hiện tượng đa cộng tuyến trong mô hình trên
Cách 3: Hồi quy phụ
Ta tiến hành hồi quy X theo Z
Trang 4Sử dụng phần mềm Eviews ta có bảng sau:
Dependent Variable: X
Method: Least Squares
Date: 10/13/12 Time: 00:36
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 425.6249 117.4292 3.624523 0.0031
Z 1.954492 0.126744 15.42076 0.0000
R-squared 0.948166 Mean dependent var 2213.333
Adjusted R-squared 0.944179 S.D dependent var 306.7495
S.E of regression 72.47431 Akaike info criterion 11.52791
Sum squared resid 68282.84 Schwarz criterion 11.62231
Log likelihood -84.45930 Hannan-Quinn criter 11.52690
F-statistic 237.8000 Durbin-Watson stat 2.080353
Prob(F-statistic) 0.000000
Ta có 0.05 ta đi kiểm định cặp giả thiết
Ho: R2
2 =0
H1: R2
2 ≠ 0
Xây dựng tiêu chuẩn kiểm định F=
Ri2/( k −2)
(1−Ri2)/( n−k +1 ) : F [ k −2 ,n−k +1 ]
Ta có miền bác bỏ Wα={fftn: ftn>fα(k-2,n-k+1)}
Từ bảng eviews ta có ftn=237.8
Với n=15, k=4 , α=0.05 f0.05(2,12)= 3,89
Ftn> 3,89 => ftn > Wα
( Hoặc t a thấy giá trị p-value của thống kê F là 0,000000 < =0.05)
=> bác bỏ giả thiết H0 chấp nhận giả thiết H1
=> với mức ý nghĩa 5% thì X có quan hệ tuyến tính với Z
Vậy càng có cơ sở khẳng định mô hình trên có hiện tượng đa cộng tuyến Cách 4: Sử dụng nhân tử phóng đại phương sai
VIF(X2) =
1
1−Ri2
=
1 1−0,948166 =19,29236 >10
Trang 5Theo lý thuyết nếu VIF ≥ 10 thì có hiện tượng đa cộng tuyến giữa 2 biến độc lập trong mô hình
Vậy mô hình có hiện tượng đa cộng tuyến
Cách 5: Độ đo Theil
Xét mô hình hồi quy Y theo X ta được kết quả
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 14:01
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 232.0850 81.60625 2.843961 0.0138
X 0.251468 0.036544 6.881194 0.0000
R-squared 0.784593 Mean dependent var 788.6667
Adjusted R-squared 0.768023 S.D dependent var 87.08507
S.E of regression 41.94364 Akaike info criterion 10.43410
Sum squared resid 22870.50 Schwarz criterion 10.52850
Log likelihood -76.25572 Hannan-Quinn criter 10.43309
F-statistic 47.35083 Durbin-Watson stat 2.365041
Prob(F-statistic) 0.000011
Xét mô hình hồi quy Y theo Z ta được kết quả
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 14:04
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 315.6494 61.49740 5.132727 0.0002
Z 0.517147 0.066376 7.791223 0.0000
R-squared 0.823617 Mean dependent var 788.6667
Adjusted R-squared 0.810049 S.D dependent var 87.08507
S.E of regression 37.95462 Akaike info criterion 10.23423
Sum squared resid 18727.19 Schwarz criterion 10.32863
Log likelihood -74.75669 Hannan-Quinn criter 10.23322
F-statistic 60.70315 Durbin-Watson stat 2.538934
Prob(F-statistic) 0.000003
Trang 6Xét mô hình hồi quy Y theo G ta được
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 14:37
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 771.4286 33.52434 23.01100 0.0000
G 32.32143 45.90510 0.704092 0.4938
R-squared 0.036734 Mean dependent var 788.6667
Adjusted R-squared -0.037364 S.D dependent var 87.08507
S.E of regression 88.69707 Akaike info criterion 11.93190
Sum squared resid 102273.2 Schwarz criterion 12.02630
Log likelihood -87.48922 Hannan-Quinn criter 11.93089
F-statistic 0.495746 Durbin-Watson stat 0.579719
Prob(F-statistic) 0.493795
Từ 2 bảng hồi quy trên ta thu được kết quả:
r122 = 0,784593
r132 = 0,823617
r142 = 0,036734
Độ đo Theil
m = R2 – ( R2 - r122 ) – ( R2 - r132 ) – ( R2 - r142 )
= 0,837776 – ( 0,837776 – 0,784593) – ( 0,837776 – 0,823617) – (0,837776 – 0,036734)
= - 0,03061≠ 0
Có hiện tượng đa cộng tuyến xảy ra
Vậy độ đo của Theil về mức độ đa cộng tuyến là 0,03061
II/ Khắc phục hiện tượng đa cộng tuyến
Cách 1: Thu thêm số liệu để tăng kích thước mẫu
Ta tiến hành điều tra số liệu về mức chi tiêu cho thực phẩm của sinh viên trường đại học Thương Mại với kích thước mẫu lớn hơn thì thu được kết quả sau:
Trang 7Y X Z G
Trang 8900 2800 1200 1
Trang 9Từ bảng số liệu, sử dụng phần mềm eviews ta được kết quả
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 15:18
Sample: 2001 2020
Included observations: 20
Variable Coefficient Std Error t-Statistic Prob
C 159.5631 75.40862 2.115979 0.0504
X 0.366352 0.067181 5.453240 0.0001
Z -0.173448 0.121251 -1.430483 0.1718
G -40.65999 19.39398 -2.096526 0.0523
R-squared 0.816436 Mean dependent var 787.5000
Adjusted R-squared 0.782017 S.D dependent var 86.80741
S.E of regression 40.52917 Akaike info criterion 10.41878
Sum squared resid 26281.82 Schwarz criterion 10.61792
Log likelihood -100.1878 Hannan-Quinn criter 10.45765
F-statistic 23.72097 Durbin-Watson stat 2.332945
Prob(F-statistic) 0.000004
Từ bảng hồi quy ta có hàm hồi quy mẫu mới
^
Yi = 159,5631 + 0,366352X – 0,173448Z – 40,65999G
t1 = 2,115979
t2 = 5,453240
t3 = - 1,430483
t4 = -2,096526
R2 = 0,816436 > 0,8 và t cũng khá cao nên mô hình là khá phù hợp
Trang 10Cách 2: Bỏ biến
Hồi quy Y theo X và G (1)
Dependent Variable: Y
Method: Least Squares
Date: 10/13/12 Time: 16:04
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 199.9159 81.29202 2.459231 0.0301
X 0.274013 0.038288 7.156625 0.0000
G -33.24595 22.74376 -1.461762 0.1695 R-squared 0.817151 Mean dependent var 788.6667 Adjusted R-squared 0.786677 S.D dependent var 87.08507 S.E of regression 40.22194 Akaike info criterion 10.40356 Sum squared resid 19413.66 Schwarz criterion 10.54517 Log likelihood -75.02669 Hannan-Quinn criter 10.40205 F-statistic 26.81401 Durbin-Watson stat 2.329059 Prob(F-statistic) 0.000037
Hồi quy Y theo Z và G (2)
Trang 11Dependent Variable: Y
Trang 12Method: Least Squares
Date: 10/13/12 Time: 16:05
Sample: 2001 2015
Included observations: 15
Variable Coefficient Std Error t-Statistic Prob
C 307.3077 62.75654 4.896824 0.0004
Z 0.536999 0.070654 7.600410 0.0000
G -18.40583 20.90954 -0.880260 0.3960
R-squared 0.834315 Mean dependent var 788.6667
Adjusted R-squared 0.806701 S.D dependent var 87.08507
S.E of regression 38.28762 Akaike info criterion 10.30499
Sum squared resid 17591.30 Schwarz criterion 10.44660
Log likelihood -74.28740 Hannan-Quinn criter 10.30348
F-statistic 30.21336 Durbin-Watson stat 2.577606
Prob(F-statistic) 0.000021
r12
= 0.817151
r12
< r22 nên mô hình thứ 2 phù hợp hơn Vì vậy bỏ biến X ra khỏi mô hình sẽ phù hợp hơn là bỏ biến Z.
Kết luận.
Có nhiều cách phát hiện và khắc phục hiện tượng đa cộng tuyến khác nhau Mỗi phương pháp có những hạn chế nhất định Vì vậy, khi áp dụng một phương pháp nào ta cần cân nhắc kĩ lượng để mang lại kết quả tin cậy nhất