Bài4. ĐA CỘNG tuyến
1. Bản chất của đa cộng tuyến ( Multicolinearity)
1.1. Hiện tượng :
Xét MH: Y
i
=
β
1
+
β
2
X
2i
+
β
3
X
3i
+ … +
β
k
X
ki
+ u
i
Gt 10: Các biến giải thích không có quan hệ cộng tuyến.
Nếu giả thiết bị vi phạm → hiện tượng đa cộng tuyến.
Có hai dạng đa cộng tuyến:
i. Đa cộng tuyến hoàn hảo( Perfect Multicolinearity) :
∃
λ
j
≠ 0 (j ≠ 1) sao cho:
λ
2
X
2i
+ … +
λ
k
X
ki
= 0 ∀ i
→ Ma trận X là suy biến, không có lời giải duy nhất.
ii. Đa cộng tuyến không hoàn hảo ( Imperfect Multicolinearity) :
∃
λ
j
≠ 0 (j ≠ 1) sao cho:
λ
2
X
2i
+ … +
λ
k
X
ki
+ v
i
= 0
với v
i
là SSNN có phương sai dương → vẫn có lời giải.
1.2. Nguyên nhân
Đa cộng tuyến hoàn hảo gần như không bao giờ xảy ra
Đa cộng tuyến không hoàn hảo thường xuyên xảy ra, do các nguyên
nhân:
- Bản chất các biến giải thích có quan hệ tươngquan với
nhau(Khách quan).
- Do sốliệu mẫu không ngẫu nhiên.
- Do kích thước mẫu không đủ.
- Do quá trình làm trơn số liệu.
2. Hậu quả
2.1. Đa cộng tuyến hoàn hảo : không giải được
V× lóc ®ã
=j
ˆ
β
0
0
∀j vµ
Var( ) = ∞ ∀j(Ph-¬ng sai)
j
ˆ
β
2.2. Đa cộng tuyến không hoàn hảo:
- Các ước lượngcó phương sai lớn, là ước lượng không hiệu quả.
- Khoảng tin cậy rộng không còn ý nghĩa.
- Các kiểm định T có thể sai.
- Các kiểm định T và kiểm định F có thể cho kết luận mâu thuẫn
nhau.
- Các ước lượngcó thể sai về dấu.
- Mô hình trở nên nhậy cảm với mỗi sự thay đổi của số biến giải
thích và của tệp số liệu.
3. Phát hiện đa cộng tuyến.
3.1. Sự mâu thuẫn giữa kiểm định T và F
Có mâu thuẫn: Kiểm định F có ý nghĩa, tất cả các kiểm định T về
các hệ số góc không có ý nghĩa.
→ có Đa cộng tuyến.
→ Điều ngược lại chưa chắc đúng.
3.2. Hồi qui phụ
Nghi ngờ biến giải thích X
j
phụ thuộc tuyến tính vào các biến giải
thích khác, hồi qui mô hình hồi qui phụ:
X
j
=
α
1
+
α
2
X
2
+ … +
α
j-1
X
j -1
+
α
j+1
X
j+1
+ … + v
i
(*)
⎩
⎨
⎧
≠
=
0:H
0:H
2
*1
2
*0
R
R
Mô hình ban đầu không có Đa cộng tuyến
Mô hình ban đầu có Đa cộng tuyến
→ F
qs
=
11
*
*
2
*
2
*
−
−
×
− k
kn
R
R
; F
qs
> F
α
(k
*
– 1, n – k
*
) thì bác bỏ H
0
.
3.3. Độ đo Theil
Dùng để so sánh mức độ đa cộng tuyến không hoàn hảo giữa các mô
hình.
B-íc 1: Håi quy m« h×nh ban ®Çu t×m ®-îc R
2
B-íc 2: Bỏ biến X
j
ra khỏi mô hình, hồi qui thu được R
2
– j
(j=2,k)
m = R
2
– được gọi là độ đo Theil
)(
2
2
2
j
k
j
RR
−
=
∑
−
Ví dụ: Sử dụng tệp sốliệu ch5bt4 về Tiêu dùng Y, Thu nhập X
2
và Tài sản có khả
năng chuyển đổi cao X
3
của 25 hộ gia đình Mỹ để kiểm định hiện tượng đa cộng
tuyến giữa các biến giải thích.
Kết quả hồi quy Y theo X
2
và X
3
như sau:
Dependent Variable: Y
Method: Least Squares
Date: 11/19/08 Time: 10:12
Sample: 1 25
Included observations: 25
Variable Coefficie
nt
Std. Error t-Statistic Prob.
C 33.87971 19.11513 1.772403 0.0902
X2 -
26.00263
34.95897 -0.743804 0.4649
X3 6.709261 8.740550 0.767602 0.4509
R-squared 0.741695 Mean dependent
var
169.368
0
Adjusted R-
squared
0.718213 S.D. dependent var 79.0585
7
S.E. of regression 41.96716 Akaike info
criterion
10.4238
2
Sum squared resid 38747.34 Schwarz criterion 10.5700
8
Log likelihood -
127.2977
F-statistic 31.5853
2
Durbin-Watson
stat
2.785912 Prob(F-statistic) 0.00000
0
Håi quy phô cña X
2
theo X
3
cã kÕt qu¶ sau:
Dependent Variable: X2
Method: Least Squares
Date: 11/19/08 Time: 10:17
Sample: 1 25
Included observations: 25
Variable Coefficie
nt
Std. Error t-Statistic Prob.
C - 0.111892 -0.938303 0.3578
0.104988
X3 0.250022 0.000157 1594.459 0.0000
R-squared 0.999991 Mean dependent
var
159.448
0
Adjusted R-
squared
0.999991 S.D. dependent var 81.4698
0
S.E. of regression 0.250315 Akaike info
criterion
0.14442
6
Sum squared resid 1.441126 Schwarz criterion 0.24193
6
Log likelihood 0.194678 F-statistic 2542299
.
Durbin-Watson
stat
2.245068 Prob(F-statistic) 0.00000
0
Håi quy phô của X
3
theo X
2
có kết quả sau:
Dependent Variable: X3
Method: Least Squares
Date: 11/19/08 Time: 10:19
Sample: 1 25
Included observations: 25
Variable Coefficie
nt
Std. Error t-Statistic Prob.
C 0.425686 0.447288 0.951703 0.3511
X2 3.999613 0.002508 1594.459 0.0000
R-squared 0.999991 Mean dependent
var
638.156
0
Adjusted R-
squared
0.999991 S.D. dependent var 325.849
2
S.E. of regression 1.001168 Akaike info
criterion
2.91683
0
Sum squared resid 23.05376 Schwarz criterion 3.01434
0
Log likelihood -
34.46038
F-statistic 2542299
.
Durbin-Watson
stat
2.245125 Prob(F-statistic) 0.00000
0
Để tính độ đo Theil ta hồi quy Y lần lượt với X
2
và X
3
. Kết quả như sau:
Dependent Variable: Y
Method: Least Squares
Date: 11/19/08 Time: 10:23
Sample: 1 25
Included observations: 25
Variable Coefficie
nt
Std. Error t-Statistic Prob.
C 36.73575 18.58133 1.977025 0.0601
X2 0.831821 0.104206 7.982448 0.0000
R-squared 0.734777 Mean dependent
var
169.368
0
Adjusted R-
squared
0.723246 S.D. dependent var 79.0585
7
S.E. of regression 41.59070 Akaike info
criterion
10.3702
5
Sum squared resid 39785.09 Schwarz criterion 10.4677
6
Log likelihood -
127.6281
F-statistic 63.7194
8
Durbin-Watson
stat
2.919889 Prob(F-statistic) 0.00000
0
Dependent Variable: Y
Method: Least Squares
Date: 11/19/08 Time: 10:24
Sample: 1 25
Included observations: 25
Variable Coefficie
nt
Std. Error t-Statistic Prob.
C 36.60968 18.57637 1.970766 0.0609
X3 0.208034 0.026033 7.991106 0.0000
R-squared 0.735199 Mean dependent
var
169.368
0
Adjusted R-
squared
0.723686 S.D. dependent var 79.0585
7
S.E. of regression 41.55758 Akaike info
criterion
10.3686
6
Sum squared resid 39721.74 Schwarz criterion 10.4661
7
Log likelihood -
127.6082
F-statistic 63.8577
8
Durbin-Watson
stat
2.916396 Prob(F-statistic) 0.00000
0
Hãy dùng các kết quả trên tính độ đo Theil.
.4. Khắc phục đa cộng tuyến.
4.1. Dùng thông tin tiên nghiệm.
Ví dụ: Xét mô hình TD
i
=
β
1
+
β
2
TN
i
+
β
3
SK
i
+ u
i
Dễ thấy TD
i
có cộng tuyến với SK
i
Nếu có thể cho rằng
β
3
= 0,1
β
2
Thì mô hình trở thành TD
i
=
β
1
+
β
2
( TN
i
+ 0,1SK
i
) + u
i
Và đã khắc phục được đa cộng tuyến.
4.2. Bỏ bớt biến nếu có thể.
Lúc đó việc lựa chọn biến bị loại khỏi mô hình có thể căn cứ vào kết quả của
hồi quy phụ.
4.3.Tăng kích thước mẫu hoặc lấy mẫu mới nếu có thể.
4.4. Đổi dạng của mô hình.
VÝ dô thay v× håi quy m« h×nh Y
i
=
β
1
+
β
2
X
2i
+
β
3
X
3i
+ u
i
Ng-êi ta håi quy m« h×nh lnY
i
=
β
1
+
β
2
lnX
2i
+
β
3
lnX
3i
+ u
i
4 . Dùng sai phân cấp 1.
Xét mô hình Y
t
=
β
1
+
β
2
X
2t
+
β
3
X
3t
+ u
t
Tại thời điểm t-1 mô hình có dạng:
β
X
2t-1
+
β
X + u
t-1
+
β
( X
3t
– X
3t-1
) + ( u
t
– u
t-1
) (*)
4.6. Giảm cộng tuyến trong hồi quy đa thức.
.5
Y
t-1
=
β
1
+
2 3 3t-1
Lấy sai phân ta có:
Y
t
- Y
t-1
=
β
2
( X
2t
– X
2t-1
)
3
Mô hình (*) được gọi là mô hình sai phân cấp 1.
Có thể giảm cộng tuyến trong hồi quy đa thức bằng cách lấy sai phân của các
biến trong mô hình so với giá trị trung bình của chúng.
. Error t-Statistic Prob.
C 33.87971 19.11513 1.77 240 3 0.0902
X2 -
26.00263
34. 95897 -0 . 743 8 04 0 .46 49
X3 6.709261 8. 740 550 0.767602 0 .45 09
R-squared 0. 741 695. 23.05376 Schwarz criterion 3.0 143 4
0
Log likelihood -
34. 46038
F-statistic 2 542 299
.
Durbin-Watson
stat
2. 245 125 Prob(F-statistic) 0.00000
0
Để tính