• Hình 3.1a chỉ ra rằng khi thu nhập khả dụng tăng lên, giá trị trung bình của chi tiêu cũng tăng lên nhưng phương sai của sai số quanh giá trị trung bình của nó không thay đổi tại mọi
Trang 1C3 Phương sai của sai số thay đổi
(Heteroscedasticity)
• Bản chất của hiện tượng phương sai của sai
số thay đổi
• Hậu quả của phương sai sai số thay đổi
• Cách phát hiện phương sai sai số thay đổi
• Cách khắc phục phương sai sai số thay đổi
Trang 2Bản chất hiện tượng PSSS thay đổi
• Xét ví dụ mô hình hồi qui 2 biến trong đó biến
phụ thuộc Y là chi tiêu của hộ gia đình và
biến giải thích X là thu nhập khả dụng của
hộ gia đình
Trang 3Bản chất hiện tượng PSSS thay đổi
Trang 4Bản chất hiện tượng PSSS thay đổi
a) Phương sai sai số không đổi
Trang 5• Hình 3.1a chỉ ra rằng khi thu nhập khả dụng tăng
lên, giá trị trung bình của chi tiêu cũng tăng lên
nhưng phương sai của sai số quanh giá trị trung
bình của nó không thay đổi tại mọi mức thu nhập
E(ui2 ) = σi2
Trang 6• Giải thích:
– Những người có thu nhập cao, nhìn chung, sẽ chi tiêu nhiều hơn so với người có thu nhập thấp nhưng sự biến động của chi tiêu sẽ cao hơn
– Đối với người có thu nhập thấp, họ chỉ có một ít thu nhập để chi tiêu
• Phương sai sai số của những hộ gia đình có thu nhập cao có thể lớn hơn của những hộ
có thu nhập thấp
Trang 7Nguyên nhân
• Do bản chất các mối quan hệ kinh tế;
– Ví dụ: thu nhập & chi tiêu
ngày càng giảm;
• Do quá trình “học hỏi từ công việc”;
– Ví dụ: số lỗi đánh máy của một thư ký có thể giảm dần
theo thời gian làm việc.
• Do có sự hiện diện của các “quan sát dị biệt”
(outlier);
• Do định dạng sai mô hình.
Hiện tượng này thường gặp phải đối với “số liệu theo không gian” (cross-section data).
Trang 8Quan sát dị biệt
x
x x x
x
x
x x
x x x
Trang 9Hậu quả của phương sai sai số thay đổi
Nếu các giả thiết khác vẫn đảm bảo thì…
1 Các ước lượng OLS vẫn tuyến tính
2 Chúng vẫn là ước lượng không chệch
3 Tuy nhiên, chúng sẽ không còn có phương
sai nhỏ nhất nữa, nghĩa là, chúng sẽ không còn hiệu quả nữa
4 Công thức thông thường để ước lượng
phương sai của ước lượng OLS, nhìn chung, sẽ chệch
Trang 10Hậu quả của phương sai sai số thay đổi
5 Theo đó, các khoảng tin cậy và kiểm định
giả thuyết thông thường dựa trên phân phối
t và F sẽ không còn đáng tin cậy nữa Do
vậy, nếu chúng ta áp dụng các kỹ thuật kiểm định giả thuyết thông thường sẽ cho
ra kết quả sai
Trang 11Phương pháp phát hiện ra PSSS thay đổi
1 Xem xét đồ thị của phần dư
2 Kiểm định Park
3 Kiểm định Glejser
4 Kiểm định tương quan hạng của Spearman
5 Kiểm định Goldfeld – Quandt
6 Kiểm định Breusch – Pagan
7 Kiểm định White
Trang 13Kết quả hồi quy…
reg Y X
Source | SS df MS Number of obs = 20 -+ - F( 1, 18) = 1501.41 Model | 2184.59892 1 2184.59892 Prob > F = 0.0000
Residual | 26.1904894 18 1.45502719 R-squared = 0.9882
-+ - Adj R-squared = 0.9875 Total | 2210.78941 19 116.357337 Root MSE = 1.2062
Trang 141 Xem xét đồ thị của sai số
Trang 16• Park đã đề nghị chúng ta có thể sử dụng eithay cho ui và chạy mô hình hồi qui sau:
lnei2 = B 1 + B2 ln|Xi|+ v i (*)
Trang 17i
Y
Trang 182 Kiểm định Park
4) Kiểm định giả thuyết H0: B 2 = 0, nghĩa là, không có phương sai của sai số thay đổi Nếu giả thuyết H0 bị bác bỏ, mối quan hệ
giữa lne i 2 và lnX có ý nghĩa thống kê, có
phương sai của sai số thay đổi
5) Nếu giả thuyết H0 được chấp nhận, B 1 trong
mô hình (*) có thể được xem là giá trị chung của phương sai của sai số không đổi, σ2
Trang 19Cách 2: Kiểm định Park
Source | SS df MS Number of obs = 20 -+ - F( 1, 18) = 32.43 Model | 32.7929497 1 32.7929497 Prob > F = 0.0000
Residual | 18.204119 18 1.01133994 R-squared = 0.6430
-+ - Adj R-squared = 0.6232 Total | 50.9970687 19 2.68405625 Root MSE = 1.0057
Trang 203 Kiểm định Glejser
• Tương tự như kiểm định Park: Sau khi thu thập được phần dư từ mô hình hồi qui gốc, Glejser đề
• Glejser đề xuất một số dạng hàm hồi qui sau:
i i
i i
X
B B
Trang 21B B
e = 1 + 2 1 +
i i
i i
e = 1 + 2 2 +
Trang 223 Kiểm định Glejser
các mô hình hồi qui của Glejser có một số vấn đề, như giá trị kỳ vọng của nó khác không, nó có tương quan chuỗi.
– 4 mô hình đầu cho kết quả tốt khi sử dụng OLS – 2 mô hình sau (phi tuyến tính tham số) không sử dụng OLS được
• Do vậy, kiểm định Glejser có thể được dùng để chẩn đoán đối với những mẫu lớn
Trang 234 Kiểm định tương quan hạng của Spearman
• Hệ số tương quan hạng của Spearman, r S, được xác định như sau:
trong đó di là hiệu của các hạng được gán cho
2 đặc trưng khác nhau của cùng một phần tử thứ i và n là số các phần tử được xếp hạng
( n
Trang 244 Kiểm định tương quan hạng của Spearman
• Xét mô hình hồi qui sau:
Yi = β1 + β2Xi + ui
• Các bước thực hiện kiểm định tương quan
hạng như sau:
1 Ước lượng mô hình hồi qui trên dựa trên
bộ mẫu cho trước, thu thập phần dư ei
2 Xếp hạng | ei| và Xi theo thứ tự tăng dần
hay giảm dần, tính d = hạng | ei| - hạng Xi, sau đó tính hệ số tương quan hạng
Spearman
Trang 254 Kiểm định tương quan hạng (tt)
3 Giả sử hệ số tương quan hạng của tổng
thể là ρ = 0 và n > 8 thì ý nghĩa của hệ số tương quan hạng mẫu rS có thể được kiểm định bằng tiêu chuẩn t sau:
2 S
S
r 1
2 n
r t
−
−
=
Nếu giá trị t tính được lớn hơn giá trị tra bảng t với mức
ý nghĩa đã cho thì chúng ta có thể chấp nhận giả thuyết phương sai sai số thay đổi; ngược lại chúng ta bác bỏ giả thuyết này.
với bậc tự do
df = n – 2
Trang 265 Kiểm định Goldfeld - Quandt
• Xét mô hình hồi qui sau:
Yi = β1 + β2Xi + uiGiả sử σi2 có quan hệ dương với biến X
theo cách sau:
σi2 = σ2Xi2 trong đó σ2 là hằng số
• Các bước thực hiện kiểm định Goldfeld -
Quandt như sau:
1 Sắp xếp các quan sát theo thứ tự tăng dần
về giá trị của biến X
2 Bỏ qua quan sát ở giữa theo cách sau:
Trang 275 Kiểm định Goldfeld - Quandt
2 Bỏ qua quan sát ở giữa theo cách sau:
Đối với mô hình 2 biến:
c = 4 nếu cỡ mẫu khoảng n = 30;
c = 10 nếu cỡ mẫu khoảng n = 60
và chia số quan sát còn lại thành 2 nhóm, trong đó mỗi nhóm có (n – c)/2 quan sát
Trang 285 Kiểm định Goldfeld - Quandt
3 Sử dụng phương pháp bình phương bé nhất để
ước lượng tham số của các hàm hồi qui đối với (n – c)/2 quan sát đầu và cuối;
Thu thập tổng bình phương của các phần dư
Bậc tự do tương ứng là hoặc (n – c – 2k)/2 Trong đó, k là các tham số được ước lượng
kể cả hệ số chặn (trường hợp 2 biến: k = 2)
k 2
c n
−
−
Trang 295 Kiểm định Goldfeld - Quandt
4 Tính tỷ số
Nếu u i theo phân phối chuẩn và nếu giả định
về phương sai có điều kiện không đổi được thỏa mãn thì λ tuân theo phân phối F
với bậc tự do ở tử số và mẫu số là
df RSS
df
RSS λ
/
/
=
1 2
2
2k
c
n − −
ta có thể nói phương sai của sai số thay đổi
Trang 306 Kiểm định Breusch - Pagan
• Xét mô hình hồi qui k biến sau:
Yi = β1 + β2X2i + … + βkXki + ui (**)Giả sử σi2 được mô tả như là một hàm số của các biến phi ngẫu nhiên Zi, Zi là các biến Xi (một số hoặc tất cả) có ảnh hưởng đến σi2, có dạng:
σi2 = f(z2i, z3i, …, zmi)Giả định f() có dạng tuyến tính:
σi2 = α1 + α2Z2i + … + αmZminếu α2 = α3 = … = αm = 0 thì σi2 = α1 là hằng
số
Trang 316 Kiểm định Breusch - Pagan
đổi hay không, chúng ta có thể kiểm định giả
1 Ước lượng (**) bằng phương pháp OLS để thu
2 i
Trang 326 Kiểm định Breusch - Pagan
4 Hồi qui pi theo các biến Zi dưới dạng:
pi = α1 + α2Z2i + … + αmZmi + vi (*)trong đó vi là số hạng ngẫu nhiên của hồi qui này
5 Thu được ESS (tổng các bình phương
được giải thích) từ (*) và xác định:
ESS
θ
21
=
Trang 336 Kiểm định Breusch - Pagan
Giả thuyết rằng ui có phân phối chuẩn và khi cỡ
mẫu n tăng lên vô hạn thì θ ≈ χ2
(m – 1).Tức là θ
sẽ xấp xỉ χ2 với m – 1 bậc tự do
Như vậy, nếu trong áp dụng mà ta tính được θ
vượt giá trị tra bảng χ2 với m – 1 bậc tự do với mức ý nghĩa đã chọn, thì chúng ta bác
bỏ giả thuyết H0 về phương sai đồng đều Ngược lại, chúng ta có thể chấp nhận nó
Trang 346 Kiểm định Breusch - Pagan
Sau khi tính giá trị cho biến pi theo công thức trên,
reg pi_sq X
Source | SS df MS Number of obs = 20 -+ - F( 1, 18) = 15.54 Model | 17.3765893 1 17.3765893 Prob > F = 0.0010 Residual | 20.1289422 18 1.11827456 R-squared = 0.4633 -+ - Adj R-squared = 0.4335 Total | 37.5055315 19 1.97397534 Root MSE = 1.0575
pi_sq | Coef Std Err t P>|t| [95% Conf Interval] -+ -
X | .0809689 .0205405 3.94 0.001 037815 .1241228 _cons | -1.024223 .5653388 -1.81 0.087 -2.211956 .1635096 -
Ta tính được θ = 17.3765893/2 = 8.6882946 ( ≈ 8.9)
Giá trị tra bảng χ1, 5% = 3.84
bác bỏ giả thuyết H0 về phương sai đồng đều
Trang 35Trường hợp sử dụng lệnh trong Stata, sau khi hồi quy Y theo X
chúng ta thực hiện lệnh sau:
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of Y
chi2(1) = 8.69
Prob > chi2 = 0.0032
Hoặc, cách khác như sau:
1 Tạo biến X-squared và lnX
2 Thực hiện lệnh
bpagan X X_sq lnX
Breusch-Pagan LM statistic: 12.22094 Chi-sq( 3) P-value = 0067
Trang 367 Kiểm định White
phối chuẩn, White đã đề nghị một phương pháp
không cần đòi hỏi u có phân phối chuẩn
Trang 377 Kiểm định White
hay
ei2 = α1 + α2X2i + α3X3i + α4X2i2 + α5X3i2 + α6X2iX3i + v2i (2)
(1) và (2) có thể có số mũ cao hơn và nhất thiết phải có hệ
số chặn bất kể mô hình gốc có hay không
không có số hạng chéo hay (2) với mô hình có số hạng chéo
Trang 387 Kiểm định White
• Bước 3: Với H0: PSSS không đổi, ta có thể
chỉ ra rằng:
nR2 có phân phối xấp xỉ χ2(df), df bằng số
hệ số của mô hình (1) hoặc (2)
• Bước 4: Nếu nR2 không lớn hơn giá trị tra
bảng χ2(df), chúng ta chấp nhận giả thuyết
H0 Do đó, chúng ta có thể kết luận trong
mô hình (1) α2 = α3 = α4 = α5 = 0 hay α2 = α3
= α4 = α5 = α6 = 0 trong mô hình (2)
• Ngược lại, chúng ta bác bỏ H0 và như vậy,
có hiện tượng phương sai sai số thay đổi
Trang 39-+ - Adj R-squared = 0.5578 Total | 64.3165268 19 3.38508036 Root MSE = 1.2235
e_sq | Coef Std Err t P>|t| [95% Conf Interval] -+ -
X | -.1758568 .1169453 -1.50 0.151 -.4225898 .0708762 X_sq | .0055821 .0022675 2.46 0.025 0007981 .0103661 _cons | 1.477384 1.318608 1.12 0.278 -1.304635 4.259402 -
Trang 41Biện pháp khắc phục PSSS thay đổi
1 Trường hợp đã biết σi 2
Chúng ta hãy xem xét trường hợp mô hình hồi qui tổng thể 2 biến:
Yi = α1 + α2Xi + uiChúng ta giả sử rằng PSSS σi2 đã biết; nghĩa là PSSS của mỗi quan sát đã biết Đơn giản, chúng ta chia hai vế của MH cho σi đã biết
i
i i
i 2
i
1 i
Y
σ σ
α σ
α
σ = + +
Trang 421 Trường hợp đã biết σi 2 (tt)
Xem phần chứng minh trong giáo trình, vi2 là hằng số Hay phần sai số “được chuyển đổi”,
vi là đồng đều
Trong thực tế, chúng ta chia mỗi quan sát Yi và
Xi cho σi đã biết và chạy hồi qui OLS cho dữ liệu đã được chuyển đổi này
Ước lượng OLS của α1 và α2 được tính theo cách này được gọi là ước lượng bình phương bé nhất có trọng số (WLS); mỗi quan sát Y và X đều được chia cho trọng số (độ lệch chuẩn) của riêng nó, σi
Trang 432 Trường hợp chưa biết σi 2
Trường hợp 1: Phương sai sai số tỷ lệ với
biến giải thích.
Sau khi ước lượng hồi qui OLS thông thường, chúng ta vẽ đồ thị phần dư từ ước lượng này theo biến giải thích X và quan sát hình ảnh của nó Nếu hình ảnh của phần dư tương tự như hình sau:
Trang 442 Trường hợp chưa biết σi 2
Trang 452 Trường hợp chưa biết σi 2
Như vậy, phương sai sai số có quan hệ tuyến tính:
E(u i 2 ) = σ2 X i
Chúng ta chia hai vế của mô hình cho căn bậc hai của Xi Trong mô hình đa biến, chúng ta chia hai vế của mô hình cho căn bậc hai của , với X i
i
i i
i i
i
i
X
u X
X X
X
Y
+ +
= α1 1 α2
i i
Trang 46Phương sai sai số tỷ lệ với Xi
reg Y_new X_root_rev X_root, nocons
Source | SS df MS Number of obs = 20 -+ - F( 2, 18) = 4964.25 Model | 443.986743 2 221.993372 Prob > F = 0.0000 Residual | 804930833 18 .04471838 R-squared = 0.9982 -+ - Adj R-squared = 0.9980 Total | 444.791674 20 22.2395837 Root MSE = 21147 - Y_new | Coef Std Err t P>|t| [95% Conf Interval] -+ - X_root_rev | .6381967 .3956905 1.61 0.124 -.1931182 1.469512 X_root | .9166721 0184377 49.72 0.000 8779359 .9554084 -
So với mô hình gốc, hệ số góc hầu như không đổi nhưng với
mô hình chuyển hóa này s.e giảm gần 21% (.0184377) so với (.02343)
Trang 472 Trường hợp chưa biết σi 2 (tt)
Trường hợp 2: Phương sai sai số tỷ lệ với bình
phương của biến giải thích
Tương tự trường hợp 1, nếu hình ảnh của phần dư tương tự như hình bên dưới, phương sai sai số có quan hệ tuyến tính với
bình phương của X: E(u i 2 ) = σ2 X i 2
Chúng ta chia hai vế của mô hình cho Xi
i
i i
i
i
X
u X
X
Y
++
Trang 48Phương sai sai số tỷ lệ với bình phương của biến X
Trang 492 Trường hợp chưa biết σi 2 (tt)
Trường hợp 3: Phương sai sai số tỷ lệ với bình
phương của giá trị kỳ vọng của Y
E(u i 2 ) = σ2 [E(Y i )] 2 Tương tự chúng ta chia hai vế của mô hình cho E(Yi)
i
Tiến hành theo 2 bước sau:
Bước 1: Ước lượng mô hình hồi qui:
Yi = α1 + α2Xi + uibằng phương pháp OLS thông thường, từ đó
ta thu được Yˆ i
Trang 502 Trường hợp chưa biết σi 2 (tt)
Trường hợp 3:(tt) biến đổi mô hình gốc về dạng
như sau:
Bước 2: Ước lượng hồi qui trên dù không
chính xác là E(Yi\X i), nhưng chúng là ước lượng vững, nghĩa là khi cỡ mẫu tăng lên vô hạn thì chúng hội tụ về E(Yi|Xi) Do vậy, phép biến đổi trên có thể dùng được khi cỡ mẫu tương đối lớn
i i
i 2
i
1 i
Yˆ
X Yˆ
1 Yˆ
Y
+ +
i
Yˆ
Trang 512 Trường hợp chưa biết σi 2 (tt)
Trường hợp 4: Định dạng lại mô hình
Thay vì ước lượng mô hình hồi qui gốc, ta có thể ước lượng mô hình hồi qui:
lnYi = α1 + α2lnXi + uiTình trạng phương sai sai số không đồng nhất sẽ bớt nghiêm trọng hơn so với mô hình gốc bởi vì khi được logarit hóa, độ lớn các biến bị ‘nén lại’
lường hệ số co giãn của Y theo X, nghĩa là, nó cho biết % thay đổi của Y khi X thay đổi 1%
Trang 52Phương pháp dùng sai số chuẩn điều chỉnh - White’s heteroscedasticity-corrected s.e hay robust s.e.
• Các chương trình máy tính về KTL đều có tính toán loại s.e này,
• Người dùng có thể chọn thêm “White’s
heteroscedasticity-corrected variances” hay “robust standard error” khi chạy OLS.
Trang 53regress Y X, vce(robust)
Linear regression Number of obs = 20 F( 1, 18) = 995.24 Prob > F = 0.0000 R-squared = 0.9882 Root MSE = 1.2062
| Robust
Y | Coef Std Err t P>|t| [95% Conf Interval] -+ -
X | .9078664 .0287778 31.55 0.000 8474064 .9683264 _cons | .8583391 .5438968 1.58 0.132 -.2843456 2.001024 -