Khái niệm về phân tích hồi quy Phân tích hồi quy đề cập đến việc nghiên cứu sự phụ thuộc của một biến số, biến phụ thuộc, vào một hay nhiều biến số khác, biến độc lập, với ý định ướ
Trang 1Phân tích mô hình hồi qui đa biến
Khái niệm về phân tích hồi quy
Mô hình hồi qui hai biến
Kiểm định giả thuyết mô hình
Ví dụ mô hình hồi qui đa biến
Trang 2Khái niệm về phân tích hồi quy
Phân tích hồi quy đề cập đến việc
nghiên cứu sự phụ thuộc của một biến
số, biến phụ thuộc, vào một hay nhiều biến số khác, biến độc lập, với ý định
ước lượng và/hoặc dự đoán giá trị
trung bình (tổng thể) của biến phụ
thuộc dựa trên những giá trị đã biết
hay cố định của biến độc lập
Trang 3Ví dụ 1
Chúng ta quan tâm đến việc dự báo chiều
cao trung bình của những người con khi biết chiều cao của người cha.
Dùng biểu đồ phân tán để biểu diễn
phân phối chiều cao của những người con trong một tổng thể tương ứng với chiều cao của những người cha được cho trước
hay cố định
Trang 4Hình 1.1 Phân phối giả thiết của chiều cao của những người con
trai tương ứng với chiều cao của người cha được cho trước
Giá trị trung bình
Trang 5Ví dụ khác
Một nhà kinh tế có thể quan tâm đến việc
nghiên cứu sự phụ thuộc của chi tiêu cá nhân vào thu nhập cá nhân sau thuế hay thu nhập khả dụng thực tế
Một nhà độc quyền, người có thể ấn định giá
hay sản lượng (nhưng không cả hai) có thể
muốn tìm ra phản ứng của cầu đối với sản
phẩm khi giá thay đổi Thực nghiệm này có
thể cho phép sự ước lượng hệ số co giãn
theo giá
…
Trang 6Mô hình hồi qui hai biến
Hàm hồi qui tổng thể (population
regression function – PRF) có dạng:
E(Y/Xi) = f(Xi) Nếu PRF có 1 biến độc lập thì được gọi là hàm hồi qui đơn (hồi qui hai biến), nếu
có từ 2 biến độc lập trở lên được gọi là hàm hồi qui bội
Hàm hồi qui tổng thể cho biết giá trị
trung bình của biến Y sẽ thay đổi như
thế nào khi biến X nhận các giá trị khác nhau.
Trang 8Một ví dụ giả thiết
Mặc dù có sự biến động lớn của Y ứng với
mỗi giá trị của X, nhưng, một cách tổng
quát,
X thì Y
Giá trị kỳ vọng của Y ứng với một giá trị nào
đó của X đgl Giá trị kỳ vọng có điều kiện,
Ví dụ: E(Y|X=80) = 65; E(Y|X=260) = 173
Giá trị kỳ vọng không có điều kiện:
E(Y) = 7273/60 = 121,20
Trang 9Phân phối có điều kiện của chi tiêu ứng với các mức thu nhập khác nhau
Trang 10Hàm hồi quy tổng thể
Đường nối các điểm tròn đen trong hình là
đường hồi quy tổng thể, biểu diễn sự hồi quy của Y vào X.
Về mặt hình học, một đường hồi quy tổng
thể là quỹ tích các giá trị trung bình có điều kiện của biến phụ thuộc ứng với mỗi giá trị cốđịnh của biến giải thích
Ứng với mỗi giá trị của X, có một tổng thể
các giá trị của Y, dao động xung quanh giá trị
kỳ vọng có điều kiện của Y
Trang 11Đường hồi quy tổng thể
Trang 12Mô hình hồi quy tuyến tính
Vậy kỳ vọng có điều kiện E(Y|Xi) là
một hàm số của Xi:
E(Y|Xi) = f(Xi)
Dạng hàm f(Xi) phụ thuộc vào các mối
quan hệ kinh tế (thường được xác định dựa vào các lý thuyết kinh tế).
Ở đây, ta thường sử dụng hàm số
tuyến tính:
Trang 13 β1 là hệ số tự do, cho biết giá trị trung bình
của biến phụ thuộc Y sẽ thay đổi như thếnào khi biến X nhận giá trị 0
β2 là hệ số góc, cho biết giá trị trung bình
của biến phụ thuộc Y sẽ thay đổi (tăng or giảm) bao nhiêu đơn vị khi giá trị của biến độc lập X tăng 1 đơn vị với điều kiện các yếu tố khác không thay đổi
Trang 14Mô hình hồi qui hai biến
Thuật ngữ “tuyến tính” ở đây được hiểu
theo hai nghĩa: tuyến tính đối với tham số
và tuyến tính đối với biến
- E(Y/Xi) = β1+ β2Xi2 là tuyến tính tham số
- E(Y/Xi) = β1+ β22Xi là tuyến tính biến số
Hàm hồi qui tuyến tính luôn được hiểu là
tuyến tính đối với tham số, nó có thể
không tuyến tính đối với biến
Trang 15Các hàm số tuyến tính đối với tham số
Trang 16Mô hình hồi qui hai biến
Ứng với mỗi giá trị của X, giá trị Y của một số
quan sát có độ lệch so với giá trị kỳ vọng.
Giá trị quan sát thứ i của biến phụ thuộc Y được
ký hiệu là Yi
- Ký hiệu Ui là chênh lệch giữa Yi và E(Y/Xi)
Ui = Yi - E(Y/Xi)hay Yi = E(Y/Xi) + Ui (dạng ngẫu nhiên PRF)
Ui đgl đại lượng ngẫu nhiên hay sai số ngẫu
nhiên
Lý do cho sự tồn tại của Ui
Yếu tố đại diện cho các biến không đưa vào
mô hình (biến không rõ, không có số liệu, ảnh hưởng quá nhỏ …)
Trang 17Mô hình hồi qui hai biến
Trong thực tế, ta thường phải ước lượng các
hệ số hồi quy của tổng thể từ hệ số hồi quy của mẫu.
Hàm hồi qui mẫu (sample regression function
– SRF): sử dụng khi chúng ta không thể lấy tất
cả thông tin từ tổng thể mà chỉ thu thập được
2
Trang 18Hàm hồi qui mẫu
Dạng ngẫu nhiên của SRF:
ei là ước lượng điểm của Ui và gọi là phần
dư hay sai số ngẫu nhiên
i i
Trang 19Hàm hồi qui mẫu SRF
0 100
Xi
Yi
E(Y/Xi) Yi
Trang 20Hàm hồi qui mẫu
Rõ ràng, các ước lượng từ hàm hồi quy
mẫu có thể ước lượng cao hơn
(overestimate) hay ước lượng thấp hơn
(underestimate) giá trị thực của tổng
thể.
Vấn đề đặt ra là SRF được xây dựng
như thế nào để càng gần i thực càng tốt, mặc dù ta không bao giờ biết i
thực.
Trang 21Phương pháp bình phương nhỏ nhất (OLS)
i i
i i
i
i i
i i
i
X Y
Yˆ Y
e
e Yˆ
e X
2 1
•Ta muốn tìm và sao cho gần
bằng với Y nhất, có nghĩa là ei nhỏ nhất Tuy nhiên, ei thường rất nhỏ và thậm chí bằng 0 vì chúng triệt tiêu lẫn nhau.
•Để tránh tình trạng này, ta dùng phương pháp “Bình phương nhỏ nhất”
2
Trang 22Phương pháp OLS
2 1
ˆ ( f
ei2 1 2
• Vậy để tìm giá trị cực tiểu của biểu thức trên, ta cần tính đạo hàm của hàm số trên theo các và cho các đạo hàm =0
Trang 24I Các ước lượng OLS là các ước lượng điểm, có
nghĩa là, với mẫu cho trước, mỗi ước lượng chỉ
cho biết duy nhất một giá trị của tham số của tổng thể nghiên cứu.
II Một khi thu được các ước lượng từ mẫu, ta có thể
vẽ được đường hồi quy mẫu và đường này có
những đặc tính sau:
Trang 26Đặc điểm của đường hồi quy mẫu
2 Giá trị ước lượng trung bình của Y bằng
với giá trị trung bình của Y quan sát.
3 Giá trị trung bình của sai số ei bằng 0: ei
Trang 27Giả định của mô hình hồi qui đa biến
(1) Giả định 1: Tuyến tính các tham số hồi
qui (linear in parameters).
(2) Giả định 2: Các giá trị mẫu của xj được
ước lượng đúng, không có sai số (random sampling): Giá trị các biến giải thích là các số đã được xác định.
(3) Giả định 3: Kỳ vọng hoặc trung bình số
học của các sai số là bằng 0 (zero conditional mean).
E(u/xi) = 0
Trang 2828
Trang 29Giả định của mô hình hồi qui đa biến
(4)Giả định 4: Các sai số u độc lập với biến
giải thích Cov(ui, Xi) = 0
(5) Giả định 5: Các sai số u có phương sai
bằng nhau (homoscedasticity)
Var(u/xi) = σ2
Trang 3030
Trang 31Phương sai sai số không đồng nhất: var(ui|Xi) = i2
Trang 32Giả định của mô hình hồi qui đa biến
(6) Giả định 6: Các sai số u từng cặp độc lập với
nhau Cov(ui, ui’) = E(uiui’) = 0, nếu i i’
Trang 33Giả định của mô hình hồi qui đa
biến
(7) Giả định: Không có biến độc lập nào là hằng
số, và không tồn tại các mối liên hệ tuyến
tính hoàn toàn chính xác giữa các biến độc lập (no perfect multicollinearity).
(8) Số quan sát n phải lớn hơn số biến độc lập (9) Mô hình hồi quy được xác định đúng đắn:
không có sai lệch về dạng mô hình.
Trang 34Sai lệch về dạng mô hình
Trang 35Độ chính xác hay sai số chuẩn của
các ước lượng OLS
Các giá trị của ước lượng OLS phụ
thuộc vào số liệu của mẫu Số liệu giữa các mẫu khác nhau lại khác nhau => cần đo lường độ chính xác của các ước lượng.
Ta đo lường độ chính xác bằng sai số
chuẩn (standard error – se).
Trang 36Sai số chuẩn của các ước lượng OLS
Trong đó:
var: phương sai;
se: sai số chuẩn và
2: phương sai của sai số,
c ó thể được ước lượng bằng công thức:
2
2 2
e i2 ( Y i Yˆ i )2 y i2 ˆ22 x i2
Trang 37được dùng để chỉ “Độ tin cậy của
mô hình” (goodness of fit)
Trang 38Một số đặc điểm của phương sai hay
se của các ước lượng OLS
1 Phương sai của ước lượng 2 tỷ lệ với
2, nhưng nghịch biến với xi2 Do vậy,
X biến động càng lớn, se càng nhỏ => ước lượng càng chính xác; n càng lớn, càng chính xác.
2 Phương sai của ước lượng 1 tỷ lệ với
2 và Xi2, nhưng nghịch biến với xi2
và cở mẫu
Trang 39Định lý Gauss-Markov
Một ước lượng được gọi là “ước lượng không
chệch tuyến tính tốt nhất” (BLUE) nếu thỏa các điều kiện:
của một biến ngẫu nhiên,
lượng hiệu quả (efficient estimator).
Định lý: Với những giả định của mô hình hồi
quy cổ điển, các ước lượng bình phương bé nhất có phương sai nhỏ nhất, trong nhóm
những ước lượng tuyến tính không chệch,
tức là, chúng là BLUE
Trang 40tin cậy của mô hình
Gọi TSS (Tổng bình phương sai số tổng cộng):
ESS
R2 1
Trang 41 R2 cho biết % sự biến động của Y được giải
thích bởi các biến số X trong mô hình
0 < R2 < 1
R2 1: mô hình giải thích được càng nhiều
sự biến động của Y mô hình càng đáng tin cậy
Một nhược điểm của R2 là giá trị của nó tăng
khi số biến X đưa vào mô hình tăng, bất
chấp biến đưa vào không có ý nghĩa
Cần sử dụng R2 điều chỉnh (adjusted R2 -R2)
để quyết định việc đưa thêm biến vào mô
hình
Trang 42k n
n ) R (
• Khi k > 1, R2 < R2 Do vậy, khi số biến
X tăng,R2 sẽ tăng ít hơn R2
• Khi đưa thêm biến vào mô hình mà làm choR2 tăng thì nên đưa biến vào và
ngược lại
Trang 43Kiểm định giả thuyết mô hình
CLRM còn giả định ui theo phân phối chuẩn:
ui ~ N(0, 2) Yi ~ N(1 + 2Xi, 2)
Do ui theo phân phối chuẩn, các ước lượng
OLS của 1 và 2 cũng theo phân phối
chuẩn vì chúng là các hàm số tuyến tính
của ui
Chúng ta có thể áp dụng các kiểm định t, F,
và 2 để kiểm định các giả thuyết về các
ước lượng OLS
Trang 441 Xây dựng khoảng tin cậy của 1
và 2
Để xem 2 “gần” với 2 đến mức nào, ta
cần tìm 2 giá trị và sao cho xác suất của khoảng:
(2 - , 2 + ) có chứa giá trị thực của 2 là
Trang 45Khoảng tin cậy của 2
Do 2 không biết trước, ta thường dùng
ước lượng không chệch của nó là 2, ta có:
Biến t sẽ theo phân phối t với bậc tự do n –
k (số tham số được ước lượng kể cả hệ số
Trang 46 Kiểm định được sử dụng khi ta không biết rõ
chiều hướng khác biệt của 2 so với 0
Quy tắc quyết định: Xây dựng khoảng tin
cậy 100(1-) cho 2 Nếu giá trị 2 trong giảthuyết H0 nằm trong khoảng tin cậy này, ta chấp nhận H0, nhưng nếu nó nằm ngoài, ta bác bỏ H0
Trang 47Quy tắc quyết định
Trang 48Kiểm định giả thuyết mô hình
1 Kiểm định giả thuyết về từng phần tử của
Thông thường, giả thuyết được đặt ra là i = 0,
nghĩa là biến Xi không ảnh hưởng đến môhình, khi đó chúng ta xét:
) k n ( k
k
t
~ )
ˆ ( se
Nếu t > t/2, (n-k): ta bác bỏ giả thuyết H0 và chấp
nhận H1: i 0 ở mức độ tin cậy , có nghĩa là Xi có ảnh hưởng đến Y.
Trang 49Kiểm định giả thuyết mô hình
2 Kiểm định ảnh hưởng tất cả các biến
k
k
n F
F < F(k - 1, n – k), thì chấp nhận giả thuyết H0, nghĩa
là tất cả các tham số 2, 3, , k đều bằng 0;
hoặc là không có biến độc lập nào ảnh hưởng đến Y.
Trang 500 2 1
11
i
o /
x
) x X
( n
s t
) X ˆ ˆ
Cho trước 1 giá trị X0, ta có thể dùng mô
hình hồi quy để dự báo giá trị Y ứng với một mức tin cậy nào đó Công thức:
s: sai số chuẩn của ước lượng
Trang 51Ví dụ: Có bộ số liệu về chi tiêu và thu nhập
của hộ gia đình ở VN 1998 như sau:
Variable Obs Mean Std.Dev Min Max Label
pcexp 5999 3210 2682 337.705 54886.9 Chi tieu/nguoi
rincome 5999 15274 18535 -29524.4 445334 Tong thu nhap thuc hhsize 5999 4.77 1.97 1 19 So nhan khau
child 5999 1.66 1.40 0 8 So tre em
Ta cần kiểm định mối quan hệ giữa mức chi tiêu/đầu người với thu nhập của hộ gia đình, số nhân khẩu,
số trẻ em trong gia đình.
Trang 52Adj R-squared = 0.358 Total 4.32E+10 5998 7195461 Root MSE = 2149.2
pcexp Coef Std Err t P>t [95% Conf Interval]
rincome 0.082 0.00 51.90 0.000 0.08 0.08 hhsize -376.468 20.22 -18.62 0.000 -416.11 -336.83 child -145.951 27.57 -5.29 0.000 -199.99 -91.91 _cons 4001.691 75.15 53.25 0.000 3854.37 4149.01
Trang 53Trình bày Kết quả
d 145,95chil -
ze 376,47hhsi
rincome ,
• R 2 = 35,8%, chứng tỏ, các biến độc lập trong mô
hình giải thích được 35,8% sự biến động của chi tiêu bình quân đầu người trong hộ.
• Do giá trị t của các hệ số đều lớn hơn giá trị t5%, ta bác bỏ các giả thuyết H0, cho rằng các hệ số bằng 0 Hay ta có thể gọi các hệ số được ước lượng đều có ý nghĩa ở mức 5%.
Trang 54Trình bày và giải thích Kết quả
d 145,95chil -
ze 376,47hhsi
rincome ,
• Khi thu nhập tăng thêm 1 đồng, chi tiêu đầu người
tăng bình quân 0,082 đồng, trong điều kiện các yếu tố khác không đổi.
• Khi số nhân khẩu trong gia đình tăng thêm 1 người,
chi tiêu đầu người giảm bình quân 376.000 đồng, trong điều kiện các yếu tố khác không đổi.
• Khi số trẻ em trong gia đình tăng thêm 1, chi tiêu
đầu người giảm bình quân 146.000 đồng