Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
416,55 KB
Nội dung
HỒI QUY 2 BIẾN
Chương 2
1) Hồi qui
a- Khái niệm
Phân tích hồi qui là nghiên cứusự phụ thuộccủa1
biến(biếnphụ thuộc) vào 1 hay nhiềubiến khác (biến
độclập), nhằmmục đích ướclượng (hay dựđoán) giá
trị trung bình củabiếnphụ thuộctrêncơ sở các giá trị
biếttrướccủacácbiến độclập.
2.1. Giớithiệu
2.1.1. Khái niệmvề hồiquyvàtương quan
ĐỒ THỊ PHÂN TÁN
i. Quan hệ thống kê và quan hệ hàm số:
Y = aX + b
Năng suấtlúa= f(giống, kỹ thuậtcanhtác, đất đai thổ
nhưỡng, vậttư nôngnghiệp,…)
ii. Hồiquy và quan hệ nhân quả:
Phân tích hồiquy không đòi hỏigiữabiếnphụ thuộcvà
các biến độclậpphảicómốiquanhệ nhân quả.
Vì hồi qui là để quyết định phương án tốtnhấtnhằmdự
báo biếnY từ biếnX
b) Sự khác nhau giữacácd
ạng quan hệ trong hồiqui
Ví dụ 1 : Về nhân quả : khi thu nhậpcánhântăng (biến
X) thì số thuế thu nhậpcánhânphảinộptăng (biếnY), vậy
khi ta thấymộtngườinộpthuế thu nhậpcánhântăng, ta có
thể cho rằng người đócómức thu nhậptăng.
Tuy nhiên trong thựctế ta không thể xác định rõ biếnnào
qui định biếnnào.
Ví dụ 2 : không phải nhân quả
Lý thuyếtkinhtế cho rằng : tỷ lệ thấp nghiệptăng do giá
lương thấp, nhưng cầnhiểurằng giá lương thấp không là
nguyên khiếnthất nghiệptăng
b) Sự khác nhau giữacácdạng quan hệ trong hồiqui
a- Khái niệm
–Phân tích tương quan :
• Là đolường mức độ liên kếtcủahaibiếnnhằm cho biếtmột
biếncóxuhướng thay đổinhư thế nào khi thay đổibiến còn lại.
• Không có sự phân biệtgiữa các biến; các biếncótínhchất đối
xứng.
r
xy
= r
yx
Ví dụ : mốitương quan cao giữaviệc hút thuốcvàbệnh ung thư
phổi
–Phân tích hồi qui :
Nhằm ướclượng hoặcdựđóan giá trị trung bình củabiếnphụ
thuộcdựa trên giá trị xác định củabiến độclập.
iii. tương quan:
2.2.1. Mô hình hồiquytổng thể (PRF-Public
Regression Function)
Ví dụ 2.1.
Xét mốiquanhệ giữa chi tiêu dùng hàng tuần
(Y) theo mức thu nhập(X) của 60 hộ dân tạimột
địaphương.Ta đượcsố liệuchoở bảng sau:
2.2.Mô hình hồiquytổng thể và hồiquymẫu
Bảng 2.1. Chi tiêu và thu nhậpcủahộ gia đình:
MỨC THU
NHẬP
( X )
80 100 120 140 160 180 200 220 240 260
MỨC CHI
TIÊU
( Y )
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 140 160 189 185
115 162 191
∑
Yi
325 462 445 707 678 750 685 1043 966 1211
E(Y/Xi) 65 77 89 101 113 125 137 149 161 173
)/()(
XXYYPYX
/
YE
ij
1
ji
===
∑
=
k
j
Vd : tính E(Y/X=100) =
6
1
88
6
1
85
6
1
80
6
1
74
6
1
70
6
1
65 +++++
E(Y/X
i
) = f(X
i
) = β
1
+ β
2
X
i
β
1
: là hệ số chặn–tungđộ gốc
β
2
: hệ số góc - hệ sốđo độ dốc đường hồi quy
Ví dụ: ở hộ gia đình có mức chi tiêu trung bình
149 ta có được thu nhập ở mức:
149 = 17 +0.6X ⇒X = 220
Mô hình hồiquy tổng thể ngẫu nhiên:
Y
i
= β
1
+ β
2
X
i
+ u
i
u
i
:sai số ngẫu nhiên củatổng thểứng vớiquansátthứ i
u
i
: đạidiệnnhững nhân tố còn lại ảnh hưởng đếnchi tiêu
Mô hình hồiquy tổng thể
Về mặthìnhhọc, một đường hồiquytổng thể là
quỹ tích các giá trị trung bình có điềukiệncủa
biếnphụ thuộc ứng vớimỗigiátrị cốđịnh của
biếngiải thích.
Ứng vớimỗi giá trị củaX, cómộttổng thể các giá
trị của Y, dao động xung quanh giá trị kỳ vọng có
điềukiệncủaY
Dependent Variable: CHITIEU
Method: Least Squares
Date: 09/19/10 Time: 09:08
Sample: 1 60
Included observations: 60
Variable Coefficient Std. Error t-Statistic Prob.
C 17 4.66196662984 3.64652974802 0.000570143766419
THUNHAP 0.6 0.0254913443421 23.5374012428 2.30488954789e-31
R-squared 0.9052301916
82
Mean dependent var 121.2
Adjusted R-
squared
0.9035962294
7
S.D. dependent var 36.4579163011
S.E. of regression 11.319802605
8
Akaike info criterion 7.72374945135
Sum squared resid 7432 Schwarz criterion 7.79356093675
Log likelihood -229.71248354 F-statistic 554.009257266
Durbin-Watson
stat
1.5104951560
8
Prob(F-statistic) 0
-Bỏ sót biếngiải thích.
-Saisố khi đolường biếnphụ thuộc.
-Dạng mô hình hồiquy không phù hợp.
-Cáctácđộng không tiên đoán được.
Sai số ngẫu nhiên hình thành từ nhiềunguyên
nhân:
40
60
80
100
120
140
160
50 100 150 200 250 X
Y
Y = E(Y/X
i
)
Y
i
u
i
E(Y/X
i
)=β
1
+β
2
X
i
Y
i
=β
1
+β
2
Xi+u
i
Y
i
= β
1
+β
2
X
i
Thu nhậpkhả dụng (X)
Tiêu
dùng
(Y)
β
1
β
2
Mô hình hồiquy mẫu:
Trong đó
: ướclượng cho β
1
.
: Ướclượng cho β
2
.
: Ướclượng cho E(Y/Xi)
Mô hình hồiquy mẫungẫu nhiên
ii
XY
21
ˆˆ
ˆ
ββ
+=
1
ˆ
β
2
ˆ
β
i
Y
ˆ
iii
eXY ++=
21
ˆˆ
ββ
2.2.2. Mô hình hồiquymẫu(SRF)
0
100
200
300
400
500
600
0 100 200 300 400 500 600 700 800 900
Thu nhập
Tiêu dùng
(PRF)
(SRF)
Xi
Yi
E(Y/Xi)
Yi
e
i
ε
i
β
1
β
1
β
2
β
2
β
2
Giả thiết1:
Các biếngiải thích (biến độclập) là phi ngẫu
nhiên tức là X nhận các giá trị xác định x
i
(giá trị
của chúng đượcchotrướchoặc đượcxácđịnh)
, khi đó
mớitồntạibiếnngẫu nhiên có điềukiện (Y/Xi)
và mớitồntại trung bình E(Y/Xi).
¾Từđómới xây dựng hàm hồi qui tổng thế và
biếnngẫu nhiên
.
2.3.1.Các giảđịnh củamôhìnhhồiquytuyến
tính cổđiển
Giả thiết2:
Kỳ vọng củayếutố ngẫu nhiên u
i
bằng 0, tứclà:
E[ u
i
/ X
i
] = 0 ∀i # j
•Nghĩa là E(ui/Xi) = f(Xi), hay hàm hồi qui tổng thể
đượcxácđịnh là điqua đúng các điểm trung bình có
điềukiện.
•Sự dao động ngẫunhiêntriệttiêunhauvìvậy không
tác động đếnxuthế biến động trung bình, mà xu thế
này do biến độclậpX giảithích
2.3.1.Các giảđịnh củamôhìnhhồiquytuyến
tính cổđiển
U
i
+
U
i
-
Y
X
Ảnh hưởng cân bằng củanhiễuUi
Vd : sự chênh lệch giữa
những nhóm ngườilàm
việc trong ngành ngân
hàng và ngành y có cùng
mức thu nhậpnhưng
mức tiêu dùng khác
nhau
Giả thiết2:(tt)
Giả thiết2:(tt)
Phương sai sai số ngẫunhiên(u
i
) bằng nhau (phương sai
thuầnnhất)
Var(u
i
/X
i
) = var(u
j
/X
i
) = σ
2
∀
i,σ
2
> 0
Độ giao động phương sai là đồng nhấtgiữacácgiátrị Xi
Giả thiết3
:
Giả thiết 3 (tt):
Phương sai thuầnnhất
Trường hợpphương sai thay đổi
Các sai số ngẫunhiên(u
i
) không tương quan lẫn nhau:
Cov [u
i
,u
j
]= E(u
i
,u
j
) = 0
∀
i # j
Khi X = X
i
, sự dao động của Y không liên quan đến
sự giao động của Y khi X = X
j
¾Nhằm đảmbảosự biến động củaY tạicácvị trí độc
lậpvới nhau và sai số ngẫu nhiên là thậtsự ngẫu
nhiên chứ không mang tính xu thế
Giả thiết4:
Giả thiết 4 (tt):
Tự tương quan củaphầndư ( nhiễu–Ui)
c) Không tương quan
b) Tương quan âm
a) Tương quan dương
Sai số ngẫu nhiên (u
i
) và các biến độclập( X
i
) không
tương quan với nhau:
Cov (u
i
,X
i
) = 0
Biến độclập X và u cùng tác dụng đếnbiếnY, làtác
động riêng lẽ không liên quan với nhau, chúng hoàn
toàn độclậpvớinhau
Giả thiết5
:
Định lý Gauss-Markov
Vớicácgiảđịnh củamôhìnhhồiquytuyến tính
cổđiển, mô hình hồiquytuyếntínhtheophương
phápbìnhphương tốithiểu(OLS) là ướclượng
tuyến tính không thiên lệch tốtnhất
2.3.1.Các giảđịnh củamôhìnhhồi
quy tuyếntínhcổđiển
2.3.2. Phương pháp bình phương nhỏ nhất
(OLS)
iiiii
iiiii
XYY
ˆ
Ye
eY
ˆ
eXY
∧∧
∧∧
−−=−=⇔
+=++=
21
21
ββ
ββ
1
β
ˆ
Ta có hàm SRF:
•Ta muốn tìm và sao cho gầnbằng với Y
nhất, có nghĩalàΣe
i
nhỏ nhất. Tuy nhiên, Σei thường
rấtnhỏ và thậm chí bằng 0 vì chúng triệttiêulẫn
nhau.
• Để tránh tình trạng này, ta dùng phương pháp “Bình
phương nhỏ nhất”
2
ˆ
β
Y
ˆ
Cho n quan sát của2 đạilượng (Y
i
, X
i
)
Mô hình hồiquy mẫungẫu nhiên có dạng
ni ,1=
iii
eXY ++=
21
ˆˆ
ˆ
ββ
iii
YYe
ˆ
−=
0min).
ˆˆ
(
ˆ
1211111
⇔⇒+−=−= XYYYe
ββ
0).
ˆˆ
(
ˆ
2212222
⇒+−=−= XYYYe
ββ
0).
ˆˆ
(
ˆ
3213333
⇒+−=−= XYYYe
ββ
Nội dung củaphương pháp
Phương pháp OLS (tt)
()
2
21
2
∑∑
−−=
iii
X
ˆˆ
Ye
ββ
1
β
ˆ
•Bâygiờ, ta muốntìm và saochoΣe
i
2
nhỏ nhất.
•Lưuý rằng biểuthứctrêncóthểđượcxemnhư là một
hàm số theo và và chúng ta cần tìm các β sao
biểuthức đạtcựctiểu
2
β
ˆ
1
β
ˆ
2
β
ˆ
)
ˆ
,
ˆ
(fe
i 21
2
ββ
∑
=
()
0e2X
ˆˆ
Y2
ˆ
e
n
1i
i
n
1i
i21i
1
n
1i
2
i
=−=β−β−−=
β∂
⎟
⎠
⎞
⎜
⎝
⎛
∂
∑∑
∑
==
=
()
0Xe2XX
ˆˆ
Y2
ˆ
e
n
1i
iii
n
1i
i21i
2
n
1i
2
i
=−=β−β−−=
β∂
⎟
⎠
⎞
⎜
⎝
⎛
∂
∑∑
∑
==
=
• Để tìm ∑ei2 => 0: sử dụng Phương pháp bình phương bé
nhất(OSL)
•Vậy để tìm giá trị cựctiểucủabiểuthứctrên, tacần tính
đạohàmcủahàmsố trên theo các β và cho các đạohàm=0.
Giảihệ phương trình trên, chúng ta thu được:
XY
21
ˆˆ
ββ
−=
∑
∑
=
=
−
−
=
n
i
i
n
i
ii
XnX
YXnXY
1
22
1
2
).(
ˆ
β
XXx
ii
−=
YYy
ii
−=
∑
∑
=
=
=β
n
1i
2
i
n
1i
ii
2
x
xy
ˆ
n
Y
Y
n
X
X
i
i
∑
∑
=
=
Với
đặt
⇒
Phương pháp OLS (tt)
1
β
ˆ
và
2
β
ˆ
Đượcgọilàcácướclượng bình phương
nhỏ nhất của
β
1
và
β
2
Các thuộctínhcủa
1
β
ˆ
và
2
β
ˆ
Các ướclượng OLS là các ướclượng điểm, có nghĩa
là, vớimẫuchotrước, mỗi ướclượng chỉ cho biếtduy
nhấtmột giá trị củathamsố củatổng thể nghiên cứu.
Mộtkhithuđược các ướclượng từ mẫu, ta có thể vẽ
được đường hồiquymẫuvàđường này có những đặc
tính sau:
Đặc điểmcủa đường hồiquy mẫu
Đi qua giá trị trung bình
mẫucủa X và Y, do
XY
ββ
ˆˆ
21
+=
Đặc điểmcủa đường hồiquymẫu
2. Giá trịướclượng trung bình củaY bằng vớigiátrị
trung bình của Y quan sát.
3. Giá trị trung bình củasaisố e
i
bằng 0: ⎯e
i
= 0.
4. Sai số e
i
không có tương quan vớigiátrị dự báo
Y
i
.
5. Sai số e
i
không có tương quan vớiX
i
.
YY
=
ˆ
Trong đó: σ
2
= var (u
i
). Do σ
2
chưabiếtnên
dùng ướclượng củanólà(ướclượng điểm
phương sai sai số ngẫu nhiên)
Phương sai Sai số chuẩn
2
ˆˆ
2
2
2
2
ˆ
2
2
ˆˆ
1
2
2
2
2
ˆ
1
222
111
ˆˆ
)
ˆ
(
1
)
ˆ
(
ˆˆ
)
ˆ
()
ˆ
(
βββ
βββ
σσβσσβ
σσβσσβ
====
====
∑
∑
∑
se
x
Var
se
xn
X
Var
i
i
i
22
ˆ
2
2
−
=
−
=
∑
n
RSS
n
e
i
σ
2.4.1. Phương sai và sai số chuẩncủacácướclượng
2.4. Phương sai, sai số chuẩncủacácước
lượng, hệ số xác định R
2
, hệ số tương quan
Ví dụ : chúngtacómộtTổng thể chỉ 10 người, và chiều
cao tính bằng cm của10 ngườinàylà:
Tổng thể: 130, 189, 200, 156, 154, 160, 162, 170, 145, 140
Như vậychiều cao trung bình củaTổng thể (chúng ta biết)
là 160.6 cm. Gọichỉ số này là μ = 160.6 cm.
Bây giờ, giả sử chúng ta không có điềukiệnvàtàilực để
đochiềucaocủatoànbộ Tổng thể, mà chỉ có khả năng lấy
mẫu5 ngườitừ Tổng thể này để ước tính chiềucao.
Chúngtacóthể lấy nhiềumẫungẫunhiên, mỗilần5
người:
2.4. Phương sai, sai số chuẩn
b
) Sai số chuẩn(SE)
Lầnthứ 1: 140, 160, 200, 140, 145 x1 = 157.0
Lầnthứ 2: 154, 170, 162, 160, 162 x2 = 161.6
Lầnthứ 3: 145, 140, 156, 140, 156 x3 = 147.4
Lầnthứ 4: 140, 170, 162, 170, 145 x4 = 157.4
Lầnthứ 5: 156, 156, 170, 189, 170 x5 = 168.2
Lầnthứ 6: 130, 170, 170, 170, 170 x6 = 162.0
Lầnthứ 7: 156, 154, 145, 154, 189 x7 = 159.6
Lầnthứ 8: 200, 154, 140, 170, 170 x8 = 166.8
Lầnthứ 9: 140, 170, 145, 162, 160 x9 = 155.4
Lầnthứ 10: 200, 200, 162, 170, 162 x10 = 178.8
n
S
SE =
Cứ mỗilầnchọnmẫu, số trung bình chiều cao ước tính khác
nhau,
và biến thiên từ 147.4 cm đến 178.8 cm (x
i
ởđây là các giá trị
trung bình). Các số trung bình này dao động chung quanh số trung
bình củatổng thể (tức là 160.6 cm).
Nếu chúng ta chọnmẫu N lần(mỗilầnvới n đốitượng), thì chúng
ta sẽ có N số trung bình khác nhau.
Sai số chuẩn SE được tính bằng công thứcsau:
2.4.2. Hệ số xác định R
2
và hệ số tương quan r
Thước đo độ phù hợpcủamôhìnhđốivới
dữ liệulàR
2
Y
Yi
Yi
Xi X
Y
SRF
ii
yYY
ˆ
ˆ
=−
iii
eYY =−
ˆ
ii
yYY =−
TSS = = ESS
=RSS
•TSS (Total Sum of Squares): Tổng bình phương
tấtcả các sai lệch giữa giá trị thựctế củaY với
giá trị trung bình củanó.
RSSESSnTSS
Y
Y
Y
Y
i
n
i
i
+=−=−=
∑∑
=
2
2
2
1
)()(
[...]... số hồi quy với mức ý nghĩa α (độ tin cậy 1-α) như sau Để xác suất mà giá trị đúng của tham số cần ước lượng nằm trong khoảng (1-α) P ( βˆ i − ε i ≤ β i ≤ βˆ i + ε i ) = 1 − α ˆ ˆ ˆ β i ∈ ( β i − ε i ; β i + ε i ) Với ε i = t( n − 2,α / 2 ) SE ( β i ) ˆ β i − ε i : giới hạn tin cậy dưới ˆ β i + ε i : giới hạn tin cậy trên ε : độ chính xác của ước lượng (ε > 0) 2.7 Kiểm định giả thiết về hệ số hồi quy. .. βˆ 2 − β 2* Cách 1: Kiểm định t: t = SE ( βˆ 2 ) Quy tắc quy t định Nếu t > t ( n − 2,α / 2 ) thì bác bỏ H0 Nếu t ≤ t( n − 2,α / 2 ) thì ta không thể bác bỏ H0 -t α/2 -4 -3 * Để tìm giá trị tα/2, n-2, sử dụng hàm TINV(α/2, n-2) Cách 2: Phương pháp khoảng tin cậy Với ˆ εi = t(n−2,α / 2) * se(βi ) với mức ý nghĩa α trùng với mức ý nghĩa của gt H0 Quy tắc quy t định * ˆ ˆ - Nếu βi ∈ (βi − ε i ; βi + ε i... Kiểm định giả thiết H0: R2 = 0 với mức ý nghĩa α hay độ tin cậy 1 - α R 2 (n − 2) Xét thống kê F = 2 Quy tắc quy t định 1 − R - Nếu F > Fα(k-1,n-k): Bác bỏ H0 - Nếu F ≤ Fα(k-1,n-k): Chấp nhận H0 Miền bác bỏ Miền chấp nhận Tra bảng Fα(n1, n2) để tìm giá trị F trong đó n1 = k-1, n2 = n-k, với k là tổng số biến trong mô hình 2.8 Kiểm định sự phù hợp của mô hình – Dự báo (tt) 2)Dự báo Cho trước giá trị Xi... i i 0 -2 t -1 0 t 1 α/2 2 3 Cách 3: Phương pháp P-value Giả sử ta tìm được khoảng tin cậy của βi là: ˆ ˆ βi ∈ ( βi − ε i ; β i + ε i ) α/2 α/2 Tính ˆ β i − β i* ti = ˆ se ( β i ) P (T > t i ) = p Quy tắc quy t định - Nếu p ≤ α : Bác bỏ H0 - Nếu p > α: Chấp nhận H0 (Phương pháp này thường dùng khi tiến hành trên máy vi tính) Vd nếu α = 0,05 = 5%, ta đọc “xác suất để khoảng tin cậy chứa giá trị thực... ∑x i =1 2 i i =1 = 2 i Σ ( X − X )(Y − Y ) ∑ ( X − X ) 2 (Y i − Y i i i i i )2 Tính chất của r: - r > 0: giữa X và Y có quan hệ đồng biến r→ ± 1: X và Y có quan hệ tuyến tính chặt chẽ r → 0: X và Y có quan hệ tuyến tính không chặt chẽ r < 0: X và Y có quan hệ nghịch biến - Hệ số tương quan có tính chất đối xứng: rXY = rYX - r độc lập với gốc toạ độ và các tỷ lệ Nghĩa là: với a, c > 0, b, d là hằng... 30 35 35 40 38 37 39 36 CHI TIÊU (Yi) ' ˆ Với: ε 0 = se (Y0 − Y0 ) t ( n − 2 ,α / 2 ) 31 25 26 25 29 29 33 31 30 32 29 Dựa vào bảng số liệu trên, anh (chị) hãy tính : ˆ ˆ • Các hệ số hồi qui β , β • Viết phương trình hồi qui chi tiêu theo thu nhập của 10 hộ dân trên 2 • Hãy tính các hệ số : RSS, ESS, TSS, R2, σ ˆ • Kiểm định β2, kiểm định F 1 ˆ ˆ se (Y0 − Y0 ) = Var (Y0 − Y0 ) 2 ˆ ) = σ 2 (1 + 1 +... Y n RSS = ∑ ei = ∑ (Y n ˆ ) = (β ) ∑ x2 i 2 i =1 ESS = ∑ (Y − Y ˆ 2 i i =1 • RSS 2 2 i =1 ˆ i −Y i) 2 n R2 = ESS RSS SSE = 1− =1− =1− TSS TSS SST ∑e i=1 n ∑y i=1 Hệ số xác định R2 thể hiện phần tỷ lệ biến thiên của Y được giải thích bởi mối liên hệ tuyến tính của Y theo X và được viết thành: ˆ β2 R2 = 2 n ∑ i =1 n ∑ y i =1 R2 x i2 2 i 2 i Hệ số tương quan r Hệ số tương quan r đo lường mức độ phụ thuộc . HỒI QUY 2 BIẾN
Chương 2
1) Hồi qui
a- Khái niệm
Phân tích hồi qui là nghiên cứusự phụ thuộccủa1
biến( biếnphụ thuộc) vào 1 hay nhiềubiến khác (biến
độclập),. nôngnghiệp,…)
ii. Hồi quy và quan hệ nhân quả:
Phân tích hồi quy không đòi hỏigiữabiếnphụ thuộcvà
các biến độclậpphảicómốiquanhệ nhân quả.
Vì hồi qui là để quy t