A.1: Mô hình là tuyến tính trong các tham số và được xác định rõ.. A.2: Không có mối quan hệ tương quan chính xác giữa các biến độc lập ở trong mẫu.. A.1: Mô hình là tuyến tính trong cá
Trang 1Chương 4
Mô hình hồi qui đa biến
Trang 2i i
i
Y 1 2 2 3 3
i i
Hệ số hồi qui cũng được ước lượng thông qua sử dụng phương pháp bình phương bé
nhất như trong phân tích hồi qui đơn Giá trị ước lượng phù hợp của Y trong quan sát thứ i
Trang 3i i
i
Y 1 2 2 3 3
i i
i i
i i
Trang 52 2
2
2 2
(
3 2
3 2 3
3 1 2
2 1 3
3
2 2 1
2 3
2 3
2 2
2 2
2 1 2
i i
i i
i i
i i i
i i
i
X X
b b X
b b X
b b Y
X b
Y X b Y
b X
b X
b b
i
i i
i i
i
i i
i i
X X
b b X
b b
X b
b Y
X b
Y X b
Y b
X b
X b
nb Y
3 2
3 2 3
3 1
2 2
1 3
3 2
2
1
2 3
2 3
2 2
2 2
2 1 2
2 2
2 2
Đầu tiên, chúng ta triển khai biểu thức RSS và sau đó chung ta sử dụng điều kiện đạo hàm
hay vi phân bậc một của biểu thức để tìm cực tiểu.
Trang 63 3 2
2
1 Y b X b X
Chúng ta có 3 phương trình cho 3 tham số chưa biết Giải phương trình để tìm b1, b2, và b3 ,
Chúng ta có thể có các giá trị của các tham số được tìm như trên Giá trị của b3 giống với
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
Trang 73 3 2
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
Biểu thức của b1 được mở rộng một cách trực tiếp từ mô hình hồi qui đơn.
Trang 83 3 2
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
Tuy nhiên, biểu thức cho các hệ số hồi qui tương đối phức tạp hơn so với hệ số hồi qui
trong mô hình hồi qui đơn.
Trang 93 3 2
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
Nhìn chung sẽ rất nhiều biến thì dùng biều biểu thức đại số thông thường là không đủ Vì thế, cần phải sử dụng biểu thức dạng ma trận.
Trang 10reg EARNINGS S EXP
Source | SS df MS Number of obs = 540 -+ - F( 2, 537) = 67.54 Model | 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual | 89496.5838 537 166.660305 R-squared = 0.2010 -+ - Adj R-squared = 0.1980 Total | 112010.231 539 207.811189 Root MSE = 12.91
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 -
Đây là kết quả hồi qui đối với 540 quan sát từ số liệu thực tế.
EXP S
INGS N
Trang 11reg EARNINGS S EXP
Source | SS df MS Number of obs = 540 -+ - F( 2, 537) = 67.54 Model | 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual | 89496.5838 537 166.660305 R-squared = 0.2010 -+ - Adj R-squared = 0.1980 Total | 112010.231 539 207.811189 Root MSE = 12.91
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 -
EXP S
INGS N
Kết quả chỉ ra rằng thu nhập tăng lên bởi 2,68 đồng cho một năm đến trường và 0,56 đồng cho mỗi năm kinh nghiệm.
Trang 12reg EARNINGS S EXP
Source | SS df MS Number of obs = 540 -+ - F( 2, 537) = 67.54 Model | 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual | 89496.5838 537 166.660305 R-squared = 0.2010 -+ - Adj R-squared = 0.1980 Total | 112010.231 539 207.811189 Root MSE = 12.91
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 -
EXP S
INGS N
Theo lý thuyết, hệ số chặn chỉ ra rằng cá nhân không đến trường và không có kinh nghiệm làm việc sẽ có thu nhập trên giờ –$26.49
Trang 13reg EARNINGS S EXP
Source | SS df MS Number of obs = 540 -+ - F( 2, 537) = 67.54 Model | 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual | 89496.5838 537 166.660305 R-squared = 0.2010 -+ - Adj R-squared = 0.1980 Total | 112010.231 539 207.811189 Root MSE = 12.91
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.678125 .2336497 11.46 0.000 2.219146 3.137105 EXP | .5624326 .1285136 4.38 0.000 3099816 .8148837 _cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213 -
EXP S
INGS N
Rõ ràng, đây là điều không thể Giá trị thấp nhất của S trong mẫu là 6 Chúng ta đã có một
ước tính không có ý nghĩa bởi vì chúng ta có ước tính quá xa từ số liệu thực tế.
Trang 14Đặc điểm của hệ số hồi qui đa
Trang 15A.1: Mô hình là tuyến tính trong các tham số và được xác định
rõ.
A.2: Không có mối quan hệ tương quan chính xác giữa các biến
độc lập ở trong mẫu.
A.3 Yếu tố ngẫu nhiên có kỳ vọng bằng 0
A.4 Yếu tố ngẫu nhiên có phương sai đồng nhất
A.5 Giá trị của yếu tố ngẫu nhiên có phân bố độc lập
A.6 Yếu tố ngẫu nhiên có phân phối chuẩn
u X
X
Y 1 2 2 k k
Từ mô hình hồi qui đơn đến mô hình hồi qui đa, chúng bắt đầu bằng nhắc lại các giả định của mô hình hồi qui đơn
Trang 16A.1: Mô hình là tuyến tính trong các tham số và được xác định
rõ.
A.2: Không có mối quan hệ tương quan chính xác giữa các biến
độc lập ở trong mẫu.
A.3 Yếu tố ngẫu nhiên có kỳ vọng bằng 0
A.4 Yếu tố ngẫu nhiên có phương sai đồng nhất
A.5 Giá trị của yếu tố ngẫu nhiên có phân bố độc lập
A.6 Yếu tố ngẫu nhiên có phân phối chuẩn
u X
X
Y 1 2 2 k k
Chỉ có giả thiết A.2 là khác Trước đây, giả thiết phát biểu rằng cần có sự thay đổi trong
biến X Chúng ta sẽ giải thích sự khác nhau qua các slide sau.
Trang 17A.1: Mô hình là tuyến tính trong các tham số và được xác định
rõ.
A.2: Không có mối quan hệ tương quan chính xác giữa các biến
độc lập ở trong mẫu.
A.3 Yếu tố ngẫu nhiên có kỳ vọng bằng 0
A.4 Yếu tố ngẫu nhiên có phương sai đồng nhất
A.5 Giá trị của yếu tố ngẫu nhiên có phân bố độc lập
A.6 Yếu tố ngẫu nhiên có phân phối chuẩn
u X
X
Y 1 2 2 k k
Trong trường hợp các giả định của mô hình có hiệu lực, các ước lượng theo phương pháp bình phương bé nhất trong mô hình hồi qui tổng thể là ước lượng không chệch và hiệu quả giống như mô hình hồi qui đơn.
Trang 18u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
Chúng ta cũng không chúng minh tính hiệu quả của các ước lượng, tuy nhiên chúng ta chỉ
ra một cách cơ bản tính không chệch của chúng
Trang 19u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Bước đầu tiên là thay thế cho giá trị của Y từ mối quan hệ thực Thành phần của Y trong
b2 thực tế là Y i trừ đi giá trị trung binh của nó Vì thế, để cho thuân tiện chúng ta nên có
biểu thức cho thành phần này
Trang 20u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Sau khi thay thếy, chúng ta có thể dễ dàng tách b2 thành 2 thành phần đó là giá trị thực 2
cộng với biểu thức kết hợp giữa các giá trị của yếu tố ngẫu nhiên trong mẫu.
Trang 21u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Trang 22u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Trang 23u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Yếu tố a* là yếu tố không ngẫu nhiên vì nó chỉ phụ thuộc vào giá trị của X2 và X3 , và
những giá trị này được giả định cũng là yếu tố không ngẫu nhiên Vì thế yếu tố a* có thể
đưa ra người của biểu thức kỳ vọng.
Trang 24u X
2 2 2
3 3
2 2
3 3
X X
X X
X X
X X
X X
Y Y
X
X b
i i
i i
i i
i i
X X X X u u
u X
X u
X X
Y Y
i i
i
i i
i i
3 2
2 2
3 3 2
2 1
3 3 2
2 1
Bởi giả định A.3, E(u i ) = 0 cho tất cả các i Vì thế E(b2 ) bằng 2 và b2 là ước lượng không
chệch Tương tự, b3 là ước lượng không chệch của 3
Trang 25u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
Cuối cùng, chúng ta sẽ chỉ ra răng b1 là ước lượng không chệch của 1
3 3 2
2 3
3 2
2 1
3 3 2
2 1
)
X b X
b Y
Trang 26u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
3 3 2
2 3
3 2
2 1
3 3 2
2 1
)
X b X
b Y
Trang 27u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
3 3 2
2 3
3 2
2 1
3 3 2
2 1
)
X b X
b Y
2 3
3 2
2 1
3 3
2 2
3 3 2
2 1
X X
b E X b
E X u
E X
X b
E
Sau đó, chúng ta lấy kỳ vọng 3 yếu tố đầu chúng không phải là yếu tố ngẫu nhiên nên nó không bị ảnh hưởng bởi biểu thức kỳ vọng.
Trang 28u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
3 3 2
2 3
3 2
2 1
3 3 2
2 1
)
X b X
b Y
2 3
3 2
2 1
3 3
2 2
3 3 2
2 1
X X
b E X b
E X u
E X
X b
E
Kỳ vọng của trung bình các yếu tố ngẫu nhiên bằng o vì E(u) bằng 0 trong mỗi quan sát
Chúng ta vừa chỉ ra rằng E(b2 ) bằng 2 và E(b3 ) bằng 3
Trang 29u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
3 3 2
2 3
3 2
2 1
3 3 2
2 1
)
X b X
b Y
2 3
3 2
2 1
3 3
2 2
3 3 2
2 1
X X
b E X b
E X u
E X
X b
E
Vì thế, b1 là ước lượng không chệch của 1
Trang 30Tính chính xác của các hệ số hồi
qui
Trang 31u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 32u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 33u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
Yếu tố đầu tiên trong biểu thức phương sai của b2 hoàn toàn giống phương sai của b2
trong hệ số hồi qui của mô hình hồi qui đơn.
2
2 ,
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 34u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 35u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 36u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 37u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Điều này có thể dễ dàng hiểu được vì sự tương quan càng lớn thì khó có thể tách ảnh
hưởng của các biến giải thích lên Y Vì thế dẫn đến ước lượng thiếu chính xác.
Trang 38u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Chú ý rằng, biểu thức ở trên chỉ có giá trị đối với mô hình có 2 biến giải thích Khi mô hình
có nhiều hơn 2 biến, biểu thức trở nên rất phức tạp và thế có ý nghĩa khi chuyển sang biểu
Trang 39u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
2 2
3 21
1 of
deviation
standard
X X i
u
r X
Trang 40u X
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
2 2
3 21
1 of
deviation
standard
X X i
u
r X
Trang 41u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
Phương sai của u phải được ước tính Trung bình bình phương của các sai số cung cấp một ước phù hợp, nhung nó bị chệch xuống dưới một yếu tố (n – k) / n , trong đó k số tham số.
2
2 ,
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
2 2
3 21
1 of
deviation
standard
X X i
u
r X
1
u i
n
k
n e
Trang 42u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
Chúng ta có thể có được ước lượng không chệch bởi chia tổng bình phương của các sai
số bở n – k thay vì n Đây chính là ước lượng không chệch s 2 u
2
2 ,
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
2 2
3 21
1 of
deviation
standard
X X i
u
r X
s
2 2
1
u i
n
k
n e
Trang 43u X
X
Y 1 2 2 3 3 Y ˆ b1 b2X2 b3X3
2 2
1
u i
n
k
n e
s
2 ,
2 2 2
2 2
3 21
1 of
deviation
standard
X X i
u
r X
2 2
3 21
1 )
(
s.e.
X X i
u
r X
X
s b
2 2 2
2 2
3 2 3
2
1 )
( MSD 1
1
X X
u X
X i
u b
r X
n r
Trang 44Chúng ta sử dụng biểu thức này để phân tích tại sao sai số chuẩn của S là lớn cho mẫu
quan sát có công đoàn lớn hơn mẫu quan sát không có nghiẹp đoàn
reg EARNINGS S EXP if COLLBARG==1
Source | SS df MS Number of obs = 101 -+ - F( 2, 98) = 9.72 Model | 3076.31726 2 1538.15863 Prob > F = 0.0001 Residual | 15501.9762 98 158.18343 R-squared = 0.1656 -+ - Adj R-squared = 0.1486 Total | 18578.2934 100 185.782934 Root MSE = 12.577
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.333846 .5492604 4.25 0.000 1.243857 3.423836 EXP | .2235095 .3389455 0.66 0.511 -.4491169 .8961358 _cons | -15.12427 11.38141 -1.33 0.187 -37.71031 7.461779 -
Trang 45reg EARNINGS S EXP if COLLBARG==1
Source | SS df MS Number of obs = 101 -+ - F( 2, 98) = 9.72 Model | 3076.31726 2 1538.15863 Prob > F = 0.0001 Residual | 15501.9762 98 158.18343 R-squared = 0.1656 -+ - Adj R-squared = 0.1486 Total | 18578.2934 100 185.782934 Root MSE = 12.577
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.333846 .5492604 4.25 0.000 1.243857 3.423836 EXP | .2235095 .3389455 0.66 0.511 -.4491169 .8961358 _cons | -15.12427 11.38141 -1.33 0.187 -37.71031 7.461779 -
Trong trường hợp mẫu có công đoàn, sai số chuẩn của S là 0.5493.
Trang 46reg EARNINGS S EXP if COLLBARG==0
Source | SS df MS Number of obs = 439 -+ - F( 2, 436) = 57.77 Model | 19540.1761 2 9770.08805 Prob > F = 0.0000 Residual | 73741.593 436 169.132094 R-squared = 0.2095 -+ - Adj R-squared = 0.2058 Total | 93281.7691 438 212.972076 Root MSE = 13.005
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.721698 .2604411 10.45 0.000 2.209822 3.233574 EXP | .6077342 .1400846 4.34 0.000 3324091 .8830592 _cons | -28.00805 4.643211 -6.03 0.000 -37.13391 -18.88219 -
Trong trường hợp không có công đoàn, sai số chuẩn của S là 0.2604, nhỏ hơn ½ so với
mẫu có công đoàn.
Trang 472 , 2
2
3 21
1 )
( MSD
1
1 )
(
s.e.
X X
u
r X
Trang 48RSS k
reg EARNINGS S EXP if COLLBARG==1
Source | SS df MS Number of obs = 101 -+ - F( 2, 98) = 9.72 Model | 3076.31726 2 1538.15863 Prob > F = 0.0001 Residual | 15501.9762 98 158.18343 R-squared = 0.1656 -+ - Adj R-squared = 0.1486 Total | 18578.2934 100 185.782934 Root MSE = 12.577
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.333846 .5492604 4.25 0.000 1.243857 3.423836 EXP | .2235095 .3389455 0.66 0.511 -.4491169 .8961358 _cons | -15.12427 11.38141 -1.33 0.187 -37.71031 7.461779 -
Chúng ta sẽ bắt đầu với s u Đây là RSS cho mẫu có công đoàn.
Trang 49RSS k
reg EARNINGS S EXP if COLLBARG==1
Source | SS df MS Number of obs = 101 -+ - F( 2, 98) = 9.72 Model | 3076.31726 2 1538.15863 Prob > F = 0.0001 Residual | 15501.9762 98 158.18343 R-squared = 0.1656 -+ - Adj R-squared = 0.1486 Total | 18578.2934 100 185.782934 Root MSE = 12.577
EARNINGS | Coef Std Err t P>|t| [95% Conf Interval] -+ -
S | 2.333846 .5492604 4.25 0.000 1.243857 3.423836 EXP | .2235095 .3389455 0.66 0.511 -.4491169 .8961358 _cons | -15.12427 11.38141 -1.33 0.187 -37.71031 7.461779 -
Có 101 quan sát trong mẫu công đoàn K bằng 3 Và n – k bằng 98.