Chương 2 HỒI QUI VỚI BIẾN PHỤ THUỘC LÀ RỜI RẠCMÔ HÌNH LPM, LOGIT VÀ PROBIT Dichotomous: lưỡng phân Binary: nhị phân Discrete: rời rạc Các mô hình hồi quy mà ta đề cập từ trước tới nay đề
Trang 1Chương 2 HỒI QUI VỚI BIẾN PHỤ THUỘC LÀ RỜI RẠC
MÔ HÌNH LPM, LOGIT VÀ PROBIT
Dichotomous: lưỡng phân
Binary: nhị phân
Discrete: rời rạc
Các mô hình hồi quy mà ta đề cập từ trước tới nay đều có biến phụ thuộc (DependentVariable) là biến định lượng (quantitative variable) Tuy nhiên trong thực tế chúng ta có thểgặp trường hợp biến phụ thuộc là biến định tính (qualitative variable)
Chẳng hạn học sinh sau khi tốt nghiệp phổ thông trung học cần phải lựa chọn học tiếptrường đại học hoặc học trường nghề Một người có thể đến nơi làm việc bằng phương tiện
xe máy riêng hoặc xe ô tô buýt Một người trưởng thành phải quyết định có lập gia đìnhhoặc không Biến biểu thị quyết định được lựa chọn trường của một học sinh, hay biến biểuthị quyết định chọn phương tiện giao thông mà một người sử dụng, hay biến biểu thị quyếtđịnh “đại đăng khoa” của 1 người trưởng thành là các biến định tính
Để lượng hóa các biến định tính, như ta đã biết ở phần kinh tế lượng cơ bản, người ta sử
dụng biến giả (Dummy Variable) Biến giả có thể có hơn 2 giá trị Ở đây ta chỉ xét biến giả
nhị phân (Binary Dummy Variable) có hai giá trị là 0 hoặc 1
Để nghiên cứu các mô hình trong đó biến phụ thuộc là biến giả nhị phân người tathường sử dụng các mô hình sau đây:
Mô hình xác suất tuyến tính LPM (The linear probability model)
Trong đó: X : thu nhập gia đình, biến độc lập
Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà
Y là biến ngẫu nhiên
Gọipi= P(Y= 1/Xi) : xác suất để Y = 1 với điều kiện X = Xi
1pi= P( Y= 0/Xi)
Như vậy YiB(1,pi)
P 1-pi pi
Trang 2Với giả thiết E(ui) = 0, (trong phần KTL cơ bản) ta có: E(Y/Xi) = 1+ 2Xi (a)
Theo định nghĩa kỳ vọng ta có: E(Yi)= E(Y/Xi) = 1*pi+ 0* (1- pi) =pi (b)
Từ (a) và (b) ta có : E(Y/Xi) = 1+ 2Xi=pi
Khi đó mô hình (2.1) được gọi là mô hình xác suất tuyến tính (LPM)
Mặt khác do 0 pi 1, nên 0 E(Y/Xi) 1
2- Các giả thiết của OLS trong mô hình xác suất tuyến tính.
Trong mô hình hồi quy tuyến tính cổ điển, các yếu tố ngẫu nhiên thỏa mãn các giả thiếtnhất định, trong đó có các giả thiết sau:
E(ui) = 0;
cov(ui, uj) = 0 (i j);
var(ui) =2(i)
Ta hãy xem các giả thiết trên có thỏa mãn hay không trong mô hình xác suất tuyến tính
a- Trong LPM các sai số ngẫu nhiên không thuần nhất, phương sai của chúng thay đổi.
b- Sai số ngẫu nhiên không phân phối theo qui luật chuẩn.
Phương pháp OLS không đòi hỏi uiphải có phân phối chuẩn, khi kiểm định giả thiết và
Trang 3Như vậy ui không phân phối theo quy luật chuẩn, nhưng các ước lượng nhận được bằngphương pháp OLS vẫn là các ước lượng không chệch Khi kích thước mẫu tăng lên, các ướclượng sẽ tiệm cận chuẩn (asymptotic normality) Trong trường hợp này có thể dùng OLS đểước lượng LPM.
c- Ước lượng của E(Y/Xi) là Yˆ i chưa chắc đã thỏa mãn điều kiện: 0 Yˆ i 1
Ta đã chứng minh E(Y/Xi) = pivà 0 pi1 Nhưng khi dùng OLS để ước lượng mô hìnhLPM thì không có gì đảm bảo để: 0 Yˆ i 1
Chúng ta có thể khắc phục bằng cách đặt Yˆ i = 0 nếu Yˆ i nhận được nhỏ hơn 0, và đặt
i
Yˆ = 1 nếu Yˆ i nhận được lớn hơn 1 Tuy nhiên người ta có thể sử dụng mô hình LOGIT vàPROBIT để khắc phục hiện tượng này
3- Ước lượng mô hình LPM
Để ước lượng mô hình LPM, ta cần thực hiện các bước sau đây:
Bước 1: Dùng phương pháp OLS để ước lượng mô hình (2.1), từ đó thu được Yˆ i
Do uikhông thuần nhất, var(ui) = pi(1- pi), nên cần phải thực hiện phép đổi biến số
Bước 2: Đổi biến số
Do pichưa biết, ta dùng ước lượng của pilà Yˆ i.
Chúng ta sẽ bỏ các quan sát có Yˆ i < 0 hoặc Yˆ i > 1
Đặt wˆi Yˆi(1Yˆi)
Sau đó đổi biến số và ước lượng mô hình sau:
i
i i
i i
i
i
w
u w
X w
w
Y
ˆˆˆ
Từ kết quả ước lượng OLS mô hình trên (phương pháp GLS), ta suy ra ước lượng của 1và
2và biết được mô hình dùng để ước lượng cho mô hình (2.1)
4- Thí dụ
Thí dụ 1:Bảng số liệu sau cho 21 quan sát về thời gian trên đường đến nơi làm việc củacông nhân bằng phương tiện cá nhân (X1), bằng phương tiện giao thông công cộng (X2) vàlựa chọn của công nhân về các phương tiện này (Y)
1 nếu đi bằng phương tiện cá nhân
Yi=
0 nếu đi bằng phương tiện công cộng
X = X2– X1(chênh lệch thời gian giữa pt công cộng so với pt cá nhân)
Trang 4Với kết quả tính ở bảng (2.1) ta thấy có 2 giá trị Yˆ i lớn hơn 1 và có 3 giá trị Yˆ i nhỏ hơn
0 Bỏ các quan sát tương ứng, đổi biến số sau đó ước lượng hàm:
i
i i
i i
i
i
w
u w
X w
w
Y
ˆˆˆ
Trang 5Kết quả ước lượng cho ở bảng sau:
Dependent Variable: Y/SQR(U)
Method: Least Squares
S.E of regression 0.867564 Akaike info criterion 2.670214
Kết quả trên cho thấy: Ước lượng của 1là 0,50047 và ước lượng của 2là 0,008199
CÁCH LÀM TRÊN EVIEWS 5.0
Trang 6Kết quả như sau:
Trang 7Duøng leänh genr
Trang 8Chạy hồi quy
Trang 9Kết quả như sau:
Thí dụ 2:Ký hiệu X (triệu đ/người-năm) là thu nhập
Y là tình trạng xe máy của 1 người
1 có xe máy
Y =
0 không có xe máy
Trang 10Các số liệu của các biến Y và X cho ở bảng sau:
Trang 11Hồi qui Y theo X ta được kết quả cho ở bảng sau:
S.E of regression 0.226385 Akaike info criterion -0.084453
Sau khi ước lượng được hàm hồi quy của Y đối với X ta tính được Yˆ i và wˆ i và loại bỏ cácgiá trị của wˆ i ứng với Yˆ i> 1 hoặc Yˆ i< 0 (có 12 giá trị loại bỏ)
Ước lượng mô hình với các biến số đã biến đổi, kết quả cho ở bảng dưới đây:
Dependent Variable: Y/SQR(U)
Method: Least Squares
S.E of regression 0.498942 Akaike info criterion 1.516095
Bài tập: số liệu ở c2-baitap1
Chúng ta xét mô hình sau đây:
Trong đó: X : thu nhập gia đình (ngàn $)
Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà
Y là biến ngẫu nhiên
Hãy ước lượng các hệ số ?
Trang 12II- MÔ HÌNH LOGIT
Mô hình LPM có nhược điểm:
(1) phương sai không đồng đều,
(2) sai số ngẫu nhiên Uikhông phân phối theo quy luật chuẩn;
(3) Yˆ i có thể nằm ngoài khoảng (0, 1),
(4) R2thường thấp
Chúng ta có thể dùng một số kỹ thuật (như WLS) hoặc tăng kích thước mẫu để khắc phụcnhững điều nói trên
Nhưng vấn đề cơ bản của mô hình này là chúng ta đã giả thiết pilà một hàm tuyến tính của
X Điều này là không đúng
Để giải quyết vấn đề này người ta dùng mô hình LOGIT và mô hình PROBIT (còn gọi làNORMIT)
1- Mô hình Logit – phương pháp Goldberger (1964)
Ta có 2 biến Y, X2
Mô hình LOGIT, các piđược xác định bằng:
)]
(exp[
1
1)
exp(
1
)exp(
)/
1
(
2 2 1 2
2 1
2 2 1
i i
i i
X X
1
1)
exp(
1
)exp(
1
1
2 2 1 2
2 1
2 2 1
i i
i
X p
1
).exp(
1
) ( 2 2 1
2 2 1
X i X i
X i X
X e
e e
e p
Trong mô hình trên, pikhông phải là hàm tuyến tính của biến độc lập
Phương trình (2.2) được gọi là hàm phân phối (tích lũy) Logistic
Trong hàm này khi (X.) nhận các giá trị từ đến thì pinhận giá trị từ 0 đến 1
piphi tuyến với cả X và các tham số Điều này có nghĩa là ta không thể áp dụng trực tiếpOLS để ước lượng Người ta dùng phương pháp ước lượng hợp lý tối đa để ước lượng
Vì Y chỉ nhận một trong hai giá trị 0 hoặc 1, Y có phân phối nhị thức, nên hàm hợp lý vớimẫu kích thước n như sau:
Trang 13X L
11 exp( )
).exp(
1
*)).exp(
1(
)exp(
i i 2
n 1
*
Y X
Y t
Lưu ý: e x ye x.y ; e x.e y e xy
)ln(
)ln(
i
*
)L(Ln
X t
S L Ln
1
).exp(
1
).exp(
)()(
X t
1
).exp(
Phương trình trên phi tuyến đối với
Để giải hệ phương trình này, người ta dùng phương pháp Newton–Raphson để tìm ˆ
Sau khi tìm được ˆ, ta có thể tính được ước lượng xác suất pi= P(Y =1/X2i)
) X exp(
1
) X exp(
pˆ
i
i i
Kết hợp với (2.3) ta có: pˆi X it*X i Y i (dùng để kiểm nghiệm lại các pˆ i)
Như vậy trong mô hình LOGIT chúng ta không nghiên cứu ảnh hưởng trực tiếp của
biến độc lập X2đối với Y mà xem xét ảnh hưởng của X2đến xác suất Y nhận giá trị bằng 1
hay kỳ vọng toán của Y
Trang 14Ảnh hưởng của X2đến piđược tính như sau:
2 2
2 2
)1())
.exp(
1(
).exp(
i
X
X X
1(
).exp(
i
X
X X
Trang 15Dạng hàm của mô hình Logit.
CÁCH LÀM TRONG EVIEWS
Trang 16Lưu ý: Ta không thể gõ công thức sau vào phần Equation specification được:
y=c(1)+c(2)*x
Từ kết quả ước lượng trên, ta có:
i X
i X i
e
e p
2 ˆ 1 ˆ 2 ˆ 1 ˆ1
Nhớ lại: X= X2(thời gian đi bằng ptiện công cộng) - X1(thời gian đi bằng ptiện cá nhân)
Giả sử rằng đi bằng phương tiện công cộng chậm hơn đi bằng phương tiện cá nhân 30 phút
(X=30), thì khả năng phương tiện cá nhân được lựa chọn và mức gia tăng khả năng được lựachọn là bao nhiêu?
-0,237 + 0,053* Xi = -0,237 + 0,053* 30 = 1,353
7946,0869,4
869,31
ˆ
353 , 1
353 , 1
Trang 17
i i
i p p X
008649,0)053,0).(
7946,01(7946,0
2- Mô hình Logit – phương pháp Berkson (1953)
Trong thực tế, ta có thể gặp dữ liệu được gom nhóm (grouped) hoặc lặp lại (replicated)
Thí dụ Mum mum: Siêu thị Coop Mart Cống Quỳnh nghiên cứu hiệu lực của phiếu mua
hàng giảm giá (PMHGG) cho 1 sản phẩm được chọn (kẹo mút trái cây Mum Mum) 1000 giađình được chọn, phiếu mua hàng giảm giá và tờ quảng cáo được gởi tới mỗi nhà PMHGGcó các mức giá giảm khác nhau, từ 5, 10, 15, 20, đến 30 $ Với mỗi mức giảm giá, có 200nhà được chọn ngẫu nhiên
Biến X là lượng giảm giá
Biến Y là biểu thị khách hàng có/không sử dụng phiếu giảm giá trong khoảng thời gian 6tháng
Y= 1 nếu khách hàng có sử dụng phiếu giảm giá
Mức Giá giảm (X) Số hộ gia đình (Ni) Số phiếu được sử
Ta có 2 biến Y và X
Phương pháp này xác định pinhư sau:
i X i X i
e
e p
2 1
2 1
X
i X i
e e
e p
2 1 2
1
2 1
1
11
i e p
Trang 18i i i
Do chưa biết pinên chúng ta có thể sử dụng ước lượng của pi
Giả sử rằng mẫu có Ni giá trị Xi, trong Ni quan sát chỉ có ni giá trị mà Yi = 1, khi đó ướclượng điểm của pilà pˆi= ni/Ni
Chúng ta có thể dùng pˆiđể thu được mô hình:
i i
i
p
p Ln
ˆ1
E(Yi) = Nipivà phương sai: var(Yi) = Nipi(1-pi)
Theo định lý giới hạn trung tâm, khi Nikhá lớn thì Yisẽ tiệm cận chuẩn:
1 ,
0 N
i i i
Như vậy mô hình (2.5) có phương sai của sai số thay đổi
Với mỗi Xithì ước lượng của phương sai này là:
Trang 19Bước 2:Thực hiện đổi biến số và dùng OLS để ước lượng mô hình:
i i i i i
L*1 ˆ 2 *
Lˆ*i ˆ1 wˆi ˆ2X i*
Thí dụ: X – Thu nhập;
Ni– số hộ gia đình có thu nhập là Xi
ni– Số hộ có nhà riêng với mức thu nhập là Xi
0 nếu hộ không có nhà riêng
Yi=
1 ngược lạiCác số liệu quan sát của X, Ni, nivà các cột tính toán được cho ở bảng sau:
Trang 20Từ kết quả của bảng trên, ta có:
*
* 2 1
*
078669,0ˆ593238,1
ˆˆˆˆ
i i
i i
i
X w
X w
* 10
* 078669 ,
0 6 , 12
* 593238 ,
1 ) 10 X
(
Suy ra:
6 , 12
8629 , 2 ) 10 X (
446 , 0 e
446,0ˆ
i
Trang 21Ý nghĩa của hệ số hồi quy 2:
2
ˆ = 0,078669 là mức thay đổi của L có trọng số wˆ i do thay đổi một đơn vị có trọng số
wˆ i của X
ˆ2 wˆ ilà mức thay đổi của L có trọng số wˆ i do X thay đổi một đơn vị
III- MÔ HÌNH PROBIT
Phương pháp này do Goldberger (1964) đề xuất với giả thiết rằng: Y sẽ nhận giá trị 0hoặc 1 tùy thuộc vào độ thỏa dụng I được xác định bởi các biến độc lập Độ thỏa dụng cànglớn thì xác suất để Y = 1 càng lớn
I*không quan sát được
Ta giả thiết rằng I*= I + u hay:
I*i= 1+ 2X2i + uiGiả thiết rằng u phân phối theo quy luật chuẩn N(0, 1)
Khi đó ta có thể ước lượng được (2.6):
pi= P(Y=1/X2i) = P(I*i< Ii) = F(Ii)trong đó F là hàm phân phối xác suất tích lũy của u
Vì u có phân phối chuẩn N(0, 1) nên:
2/2dttexp2
1
Đặt: Xi= (1, X2i)
f là hàm mật độ xác suất của phân phối chuẩn N(0, 1)
Khi đó hàm hợp lý có dạng:
Y 1 i
Y
i )) i(1 F(X )) iX
(F(L
n 1 i
i i
i
Y)
L(Ln
Trang 22X F Y L
Ln S
))(()
()(
F
X F Y L
Ln S
1 ( ˆ)(1 ( ˆ))
))ˆ((ˆ
)()(
T i i i i
2
)) X ( F 1 )(
X ( F
f )
(Nếu ˆ là nghiệm của S(ˆ) = 0, thì với các trong lân cận của ˆ ta có:
)ˆ()()
()
Chúng ta bắt đầu với = 0, tính được S(0) và I(0),
mới tìm được bằng công thức sau:
= 0+ I(0)-1S(0)I() là xác định dương ở mỗi bước lặp, nên quá trình sẽ hội tụ đến ước lượng hợp lý tối đadù 0như thế nào
Cũng như mô hình LOGIT, mô hình PROBIT không nghiên cứu ảnh hưởng trực tiếp của
biến độc lập X2đối với Y mà xem xét ảnh hưởng của X2đến xác suất để Y nhận giá trị 1
hay kỳ vọng toán của Y
Ảnh hưởng của X2đến piđược tính như sau:
2
2 2
2 2
.2
)(exp2
1)
()
X f X
X F X p
Trang 23Đồ thị của phần dư, giá trị thực Y và giá trị ước lượng Yˆ
Trang 24CÁCH LÀM TRÊN EVIEWS
Từ kết quả trên ta có ước lượng của độ khả dụng:
*
ˆI = - 0,064331 + 0,03 X
Trang 25Để trả lời câu hỏi trên, trước hết ta cần tính độ khả dụng khi X = 30.
2
= - 0,064331 + 0,03* 30 = 0,83669Tính: pˆiF(X i)F Iˆ*)F(0,83669)
83669
, 0
2/2exp2
1
dt t
Như vậy khi chênh lệch thời gian đi bằng phương tiện công cộng và phương tiện cá nhân là
30 phút thì xác suất chọn phương tiện cá nhân (Y=1) là 0,7986
Cách tính tích phân trong Eviews:
dùng lệnh Genr
2
2 2
2
ˆ.2
)(exp2
1ˆ)
ˆ(
03,0.2
)83669,0(exp2
CÁCH LÀM DỰ BÁO TRÊN EVIEWS
Nhấp đúp chuột vào Range và Sample để tăng cỡ mẫu lên 22
tp= 1-@cnorm(-0.83669)
Trang 26Thêm giá trị X=30 vào dòng 22.
Trang 27Mở yf ra, kết quả ở dòng 22.
Trang 28Cách khác:
Nhấp đúp chuột vào Range và Sample để tăng cỡ mẫu lên 22
Thêm giá trị X=30 vào dòng 22
Dùng lệnh Genr để tạo biến ydb.
Trang 29HÀM Extreme Value (loại I-munimum)
Ngoài hàm Logit và Probit, người ta còn dùng hàm Extreme Value (loại I-munimum) để tínhxác suất pi= P(Y=1/Xi)
Kết quả bằng hàm Extreme Value (loại I-munimum) như sau:
Đồ thị của phần dư, giá trị thực Y và giá trị ước lượng Yˆ
Trang 30Hồi quy Polytomous Logistic
Giả sử trong kinh doanh, ta xét quy mô công ty có 3 loại (lớn, vừa, nhỏ) theo số lượng người,doanh thu,… ; hoặc trong y khoa ta xét 3 mức độ bệnh (nhẹ, vừa phải, nặng) theo tuổi, giớitính,… của bệnh nhân Mô hình Logistic nhị phân không dùng được, ta phải dùng mô hìnhPolytomous Logistic Mô hình này phức tạp, nên ta không học !!!
Bài tập: dữ liệu ở thí dụ mum mum
2) Vẽ đồ thị của pˆ i theo X
3) Hãy xác định mô hình hồi quy Logit (Berkson)
Trang 311) Hãy tìm mô hình LPM?
2) Hàm tìm mô hình Logit?
3) Hàm tìm mô hình Probit?
4) Hãy dự báo xác suất (Y=1) khi X=55 theo 3 mô hình, so sánh kết quả nhận được?
Bài tập: file c2-baitap3
X: thu nhập của hộ gia đình
N: số hộ gia đình có thu nhập X
n: số hộ gia đình có nhà, có thu nhập X
Y= 1: hộ gia đình có nhà
1) Hãy xác định hàm hồi quy Logit?
2) Hãy tính xác suất (Y=1) khi X= 35?