Kinh tế lượng ứng dụng chương 2 hồi qui với biến phụ thuộc là rời rạc mô hình LPM, logit và probit

Chương 2 HỒI QUI VỚI BIẾN PHỤ THUỘC LÀ RỜI RẠCMÔ HÌNH LPM, LOGIT VÀ PROBIT Dichotomous: lưỡng phân Binary: nhị phân Discrete: rời rạc Các mô hình hồi quy mà ta đề cập từ trước tới nay đề

Trang 1

Chương 2 HỒI QUI VỚI BIẾN PHỤ THUỘC LÀ RỜI RẠC

MÔ HÌNH LPM, LOGIT VÀ PROBIT

Dichotomous: lưỡng phân

Binary: nhị phân

Discrete: rời rạc

Các mô hình hồi quy mà ta đề cập từ trước tới nay đều có biến phụ thuộc (DependentVariable) là biến định lượng (quantitative variable) Tuy nhiên trong thực tế chúng ta có thểgặp trường hợp biến phụ thuộc là biến định tính (qualitative variable)

Chẳng hạn học sinh sau khi tốt nghiệp phổ thông trung học cần phải lựa chọn học tiếptrường đại học hoặc học trường nghề Một người có thể đến nơi làm việc bằng phương tiện

xe máy riêng hoặc xe ô tô buýt Một người trưởng thành phải quyết định có lập gia đìnhhoặc không Biến biểu thị quyết định được lựa chọn trường của một học sinh, hay biến biểuthị quyết định chọn phương tiện giao thông mà một người sử dụng, hay biến biểu thị quyếtđịnh “đại đăng khoa” của 1 người trưởng thành là các biến định tính

Để lượng hóa các biến định tính, như ta đã biết ở phần kinh tế lượng cơ bản, người ta sử

dụng biến giả (Dummy Variable) Biến giả có thể có hơn 2 giá trị Ở đây ta chỉ xét biến giả

nhị phân (Binary Dummy Variable) có hai giá trị là 0 hoặc 1

Để nghiên cứu các mô hình trong đó biến phụ thuộc là biến giả nhị phân người tathường sử dụng các mô hình sau đây:

Mô hình xác suất tuyến tính LPM (The linear probability model)

Trong đó: X : thu nhập gia đình, biến độc lập

Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà

Y là biến ngẫu nhiên

Gọipi= P(Y= 1/Xi) : xác suất để Y = 1 với điều kiện X = Xi

1pi= P( Y= 0/Xi)

Như vậy YiB(1,pi)

P 1-pi pi

Trang 2

Với giả thiết E(ui) = 0, (trong phần KTL cơ bản) ta có: E(Y/Xi) = 1+ 2Xi (a)

Theo định nghĩa kỳ vọng ta có: E(Yi)= E(Y/Xi) = 1*pi+ 0* (1- pi) =pi (b)

Từ (a) và (b) ta có : E(Y/Xi) = 1+ 2Xi=pi

Khi đó mô hình (2.1) được gọi là mô hình xác suất tuyến tính (LPM)

Mặt khác do 0  pi 1, nên 0  E(Y/Xi)  1

2- Các giả thiết của OLS trong mô hình xác suất tuyến tính.

Trong mô hình hồi quy tuyến tính cổ điển, các yếu tố ngẫu nhiên thỏa mãn các giả thiếtnhất định, trong đó có các giả thiết sau:

E(ui) = 0;

cov(ui, uj) = 0 (i  j);

var(ui) =2(i)

Ta hãy xem các giả thiết trên có thỏa mãn hay không trong mô hình xác suất tuyến tính

a- Trong LPM các sai số ngẫu nhiên không thuần nhất, phương sai của chúng thay đổi.

b- Sai số ngẫu nhiên không phân phối theo qui luật chuẩn.

Phương pháp OLS không đòi hỏi uiphải có phân phối chuẩn, khi kiểm định giả thiết và

Trang 3

Như vậy ui không phân phối theo quy luật chuẩn, nhưng các ước lượng nhận được bằngphương pháp OLS vẫn là các ước lượng không chệch Khi kích thước mẫu tăng lên, các ướclượng sẽ tiệm cận chuẩn (asymptotic normality) Trong trường hợp này có thể dùng OLS đểước lượng LPM.

c- Ước lượng của E(Y/Xi) là Yˆ i chưa chắc đã thỏa mãn điều kiện: 0  Yˆ i  1

Ta đã chứng minh E(Y/Xi) = pivà 0  pi1 Nhưng khi dùng OLS để ước lượng mô hìnhLPM thì không có gì đảm bảo để: 0  Yˆ i 1

Chúng ta có thể khắc phục bằng cách đặt Yˆ i = 0 nếu Yˆ i nhận được nhỏ hơn 0, và đặt

i

Yˆ = 1 nếu Yˆ i nhận được lớn hơn 1 Tuy nhiên người ta có thể sử dụng mô hình LOGIT vàPROBIT để khắc phục hiện tượng này

3- Ước lượng mô hình LPM

Để ước lượng mô hình LPM, ta cần thực hiện các bước sau đây:

Bước 1: Dùng phương pháp OLS để ước lượng mô hình (2.1), từ đó thu được Yˆ i

Do uikhông thuần nhất, var(ui) = pi(1- pi), nên cần phải thực hiện phép đổi biến số

Bước 2: Đổi biến số

Do pichưa biết, ta dùng ước lượng của pilà Yˆ i.

Chúng ta sẽ bỏ các quan sát có Yˆ i < 0 hoặc Yˆ i > 1

Đặt wî Yî(1Yî)

Sau đó đổi biến số và ước lượng mô hình sau:

i

i i

i

w

u w

X w

w

Y

ˆˆˆ

Từ kết quả ước lượng OLS mô hình trên (phương pháp GLS), ta suy ra ước lượng của 1và

2và biết được mô hình dùng để ước lượng cho mô hình (2.1)

4- Thí dụ

Thí dụ 1:Bảng số liệu sau cho 21 quan sát về thời gian trên đường đến nơi làm việc củacông nhân bằng phương tiện cá nhân (X1), bằng phương tiện giao thông công cộng (X2) vàlựa chọn của công nhân về các phương tiện này (Y)

1 nếu đi bằng phương tiện cá nhân

Yi=

0 nếu đi bằng phương tiện công cộng

X = X2– X1(chênh lệch thời gian giữa pt công cộng so với pt cá nhân)

Trang 4

Với kết quả tính ở bảng (2.1) ta thấy có 2 giá trị Yˆ i lớn hơn 1 và có 3 giá trị Yˆ i nhỏ hơn

0 Bỏ các quan sát tương ứng, đổi biến số sau đó ước lượng hàm:

i

i i

i

w

u w

X w

w

Y

ˆˆˆ

Trang 5

Kết quả ước lượng cho ở bảng sau:

Dependent Variable: Y/SQR(U)

Method: Least Squares

S.E of regression 0.867564 Akaike info criterion 2.670214

Kết quả trên cho thấy: Ước lượng của 1là 0,50047 và ước lượng của 2là 0,008199

CÁCH LÀM TRÊN EVIEWS 5.0

Trang 6

Kết quả như sau:

Trang 7

Duøng leänh genr

Trang 8

Chạy hồi quy

Trang 9

Kết quả như sau:

Thí dụ 2:Ký hiệu X (triệu đ/người-năm) là thu nhập

Y là tình trạng xe máy của 1 người

1 có xe máy

Y =

0 không có xe máy

Trang 10

Các số liệu của các biến Y và X cho ở bảng sau:

Trang 11

Hồi qui Y theo X ta được kết quả cho ở bảng sau:

S.E of regression 0.226385 Akaike info criterion -0.084453

Sau khi ước lượng được hàm hồi quy của Y đối với X ta tính được Yˆ i và wˆ i và loại bỏ cácgiá trị của wˆ i ứng với Yˆ i> 1 hoặc Yˆ i< 0 (có 12 giá trị loại bỏ)

Ước lượng mô hình với các biến số đã biến đổi, kết quả cho ở bảng dưới đây:

Dependent Variable: Y/SQR(U)

Method: Least Squares

S.E of regression 0.498942 Akaike info criterion 1.516095

Bài tập: số liệu ở c2-baitap1

Chúng ta xét mô hình sau đây:

Trong đó: X : thu nhập gia đình (ngàn $)

Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà

Y là biến ngẫu nhiên

Hãy ước lượng các hệ số ?

Trang 12

II- MÔ HÌNH LOGIT

Mô hình LPM có nhược điểm:

(1) phương sai không đồng đều,

(2) sai số ngẫu nhiên Uikhông phân phối theo quy luật chuẩn;

(3) Yˆ i có thể nằm ngoài khoảng (0, 1),

(4) R2thường thấp

Chúng ta có thể dùng một số kỹ thuật (như WLS) hoặc tăng kích thước mẫu để khắc phụcnhững điều nói trên

Nhưng vấn đề cơ bản của mô hình này là chúng ta đã giả thiết pilà một hàm tuyến tính của

X Điều này là không đúng

Để giải quyết vấn đề này người ta dùng mô hình LOGIT và mô hình PROBIT (còn gọi làNORMIT)

1- Mô hình Logit – phương pháp Goldberger (1964)

Ta có 2 biến Y, X2

Mô hình LOGIT, các piđược xác định bằng:

)]

(exp[

1

1)

exp(

1

)exp(

)/

1

(

2 2 1 2

2 1

2 2 1

i i

X X

1

1)

exp(

1

)exp(

1

2 2 1 2

2 1

2 2 1

i i

i

X p

1

).exp(

1

) ( 2 2 1

2 2 1

X i X i

X i X

X e

e e

e p

Trong mô hình trên, pikhông phải là hàm tuyến tính của biến độc lập

Phương trình (2.2) được gọi là hàm phân phối (tích lũy) Logistic

Trong hàm này khi (X.) nhận các giá trị từ  đến  thì pinhận giá trị từ 0 đến 1

piphi tuyến với cả X và các tham số  Điều này có nghĩa là ta không thể áp dụng trực tiếpOLS để ước lượng Người ta dùng phương pháp ước lượng hợp lý tối đa để ước lượng 

Vì Y chỉ nhận một trong hai giá trị 0 hoặc 1, Y có phân phối nhị thức, nên hàm hợp lý vớimẫu kích thước n như sau:

Trang 13

X L

11 exp( )

).exp(

1

*)).exp(

1(

)exp(

i i 2

n 1

*

Y X

Y t

Lưu ý:  e x ye x.y ; e x.e y e xy

)ln(

i

*

)L(Ln

X t

S L Ln

1

).exp(

1

).exp(

)()(

X t

1

).exp(

Phương trình trên phi tuyến đối với 

Để giải hệ phương trình này, người ta dùng phương pháp Newton–Raphson để tìm ˆ

Sau khi tìm được ˆ, ta có thể tính được ước lượng xác suất pi= P(Y =1/X2i)

) X exp(

1

) X exp(

pˆ

i

i i









Kết hợp với (2.3) ta có: pˆi X it*X i Y i (dùng để kiểm nghiệm lại các pˆ i)

Như vậy trong mô hình LOGIT chúng ta không nghiên cứu ảnh hưởng trực tiếp của

biến độc lập X2đối với Y mà xem xét ảnh hưởng của X2đến xác suất Y nhận giá trị bằng 1

hay kỳ vọng toán của Y

Trang 14

Ảnh hưởng của X2đến piđược tính như sau:

2 2

)1())

.exp(

1(

).exp(

i

X

X X

1(

).exp(

i

X

X X

Trang 15

Dạng hàm của mô hình Logit.

CÁCH LÀM TRONG EVIEWS

Trang 16

Lưu ý: Ta không thể gõ công thức sau vào phần Equation specification được:

y=c(1)+c(2)*x

Từ kết quả ước lượng trên, ta có:

i X

i X i

e

e p

2 ˆ 1 ˆ 2 ˆ 1 ˆ1

Nhớ lại: X= X2(thời gian đi bằng ptiện công cộng) - X1(thời gian đi bằng ptiện cá nhân)

Giả sử rằng đi bằng phương tiện công cộng chậm hơn đi bằng phương tiện cá nhân 30 phút

(X=30), thì khả năng phương tiện cá nhân được lựa chọn và mức gia tăng khả năng được lựachọn là bao nhiêu?

-0,237 + 0,053* Xi = -0,237 + 0,053* 30 = 1,353

7946,0869,4

869,31

ˆ

353 , 1

Trang 17



i i

i p p X



008649,0)053,0).(

7946,01(7946,0

2- Mô hình Logit – phương pháp Berkson (1953)

Trong thực tế, ta có thể gặp dữ liệu được gom nhóm (grouped) hoặc lặp lại (replicated)

Thí dụ Mum mum: Siêu thị Coop Mart Cống Quỳnh nghiên cứu hiệu lực của phiếu mua

hàng giảm giá (PMHGG) cho 1 sản phẩm được chọn (kẹo mút trái cây Mum Mum) 1000 giađình được chọn, phiếu mua hàng giảm giá và tờ quảng cáo được gởi tới mỗi nhà PMHGGcó các mức giá giảm khác nhau, từ 5, 10, 15, 20, đến 30 $ Với mỗi mức giảm giá, có 200nhà được chọn ngẫu nhiên

Biến X là lượng giảm giá

Biến Y là biểu thị khách hàng có/không sử dụng phiếu giảm giá trong khoảng thời gian 6tháng

Y= 1 nếu khách hàng có sử dụng phiếu giảm giá

Mức Giá giảm (X) Số hộ gia đình (Ni) Số phiếu được sử

Ta có 2 biến Y và X

Phương pháp này xác định pinhư sau:

i X i X i

e

e p

2 1

X

i X i

e e

e p

2 1 2

1

2 1

1

11

i e p

Trang 18

i i i

Do chưa biết pinên chúng ta có thể sử dụng ước lượng của pi

Giả sử rằng mẫu có Ni giá trị Xi, trong Ni quan sát chỉ có ni giá trị mà Yi = 1, khi đó ướclượng điểm của pilà pˆi= ni/Ni

Chúng ta có thể dùng pˆiđể thu được mô hình:

i i

i

p

p Ln

ˆ1

E(Yi) = Nipivà phương sai: var(Yi) = Nipi(1-pi)

Theo định lý giới hạn trung tâm, khi Nikhá lớn thì Yisẽ tiệm cận chuẩn:

1 ,

0 N

i i i

Như vậy mô hình (2.5) có phương sai của sai số thay đổi

Với mỗi Xithì ước lượng của phương sai này là:

Trang 19

Bước 2:Thực hiện đổi biến số và dùng OLS để ước lượng mô hình:

i i i i i

L*1 ˆ 2 *

Lˆ*i ˆ1 wˆi ˆ2X i*

Thí dụ: X – Thu nhập;

Ni– số hộ gia đình có thu nhập là Xi

ni– Số hộ có nhà riêng với mức thu nhập là Xi

0 nếu hộ không có nhà riêng

Yi=

1 ngược lạiCác số liệu quan sát của X, Ni, nivà các cột tính toán được cho ở bảng sau:

Trang 20

Từ kết quả của bảng trên, ta có:

*

* 2 1

*

078669,0ˆ593238,1

ˆˆˆˆ

i i

i

X w

* 10

* 078669 ,

0 6 , 12

* 593238 ,

1 ) 10 X

(

Suy ra:

6 , 12

8629 , 2 ) 10 X (

446 , 0 e

446,0ˆ





i

Trang 21

Ý nghĩa của hệ số hồi quy 2:

2

ˆ = 0,078669 là mức thay đổi của L có trọng số  wˆ i do thay đổi một đơn vị có trọng số

 wˆ i của X

ˆ2 wˆ ilà mức thay đổi của L có trọng số  wˆ i do X thay đổi một đơn vị

III- MÔ HÌNH PROBIT

Phương pháp này do Goldberger (1964) đề xuất với giả thiết rằng: Y sẽ nhận giá trị 0hoặc 1 tùy thuộc vào độ thỏa dụng I được xác định bởi các biến độc lập Độ thỏa dụng cànglớn thì xác suất để Y = 1 càng lớn

I*không quan sát được

Ta giả thiết rằng I*= I + u hay:

I*i= 1+ 2X2i + uiGiả thiết rằng u phân phối theo quy luật chuẩn N(0, 1)

Khi đó ta có thể ước lượng được (2.6):

pi= P(Y=1/X2i) = P(I*i< Ii) = F(Ii)trong đó F là hàm phân phối xác suất tích lũy của u

Vì u có phân phối chuẩn N(0, 1) nên:

2/2dttexp2

1

Đặt: Xi= (1, X2i)

f là hàm mật độ xác suất của phân phối chuẩn N(0, 1)

Khi đó hàm hợp lý có dạng:

Y 1 i

Y

i )) i(1 F(X )) iX

(F(L

n 1 i

i i

i

Y)

L(Ln

Trang 22

X F Y L

Ln S

))(()

()(

F

X F Y L

Ln S

1 ( ˆ)(1 ( ˆ))

))ˆ((ˆ

)()(

T i i i i

2

)) X ( F 1 )(

X ( F

f )

(Nếu ˆ là nghiệm của S(ˆ) = 0, thì với các  trong lân cận của ˆ ta có:

)ˆ()()

()

Chúng ta bắt đầu với  = 0, tính được S(0) và I(0),

mới tìm được bằng công thức sau:

= 0+ I(0)-1S(0)I() là xác định dương ở mỗi bước lặp, nên quá trình sẽ hội tụ đến ước lượng hợp lý tối đadù 0như thế nào

Cũng như mô hình LOGIT, mô hình PROBIT không nghiên cứu ảnh hưởng trực tiếp của

biến độc lập X2đối với Y mà xem xét ảnh hưởng của X2đến xác suất để Y nhận giá trị 1

hay kỳ vọng toán của Y

Ảnh hưởng của X2đến piđược tính như sau:

2

2 2

.2

)(exp2

1)

()

X f X

X F X p

Trang 23

Đồ thị của phần dư, giá trị thực Y và giá trị ước lượng Yˆ

Trang 24

CÁCH LÀM TRÊN EVIEWS

Từ kết quả trên ta có ước lượng của độ khả dụng:

*

ˆI = - 0,064331 + 0,03 X

Trang 25

Để trả lời câu hỏi trên, trước hết ta cần tính độ khả dụng khi X = 30.

2

= - 0,064331 + 0,03* 30 = 0,83669Tính: pˆiF(X i)F Iˆ*)F(0,83669)





83669

, 0

2/2exp2

1

dt t

Như vậy khi chênh lệch thời gian đi bằng phương tiện công cộng và phương tiện cá nhân là

30 phút thì xác suất chọn phương tiện cá nhân (Y=1) là 0,7986

Cách tính tích phân trong Eviews:

dùng lệnh Genr

2

2 2

2

ˆ.2

)(exp2

1ˆ)

ˆ(

03,0.2

)83669,0(exp2

CÁCH LÀM DỰ BÁO TRÊN EVIEWS

Nhấp đúp chuột vào Range và Sample để tăng cỡ mẫu lên 22

tp= 1-@cnorm(-0.83669)

Trang 26

Thêm giá trị X=30 vào dòng 22.

Trang 27

Mở yf ra, kết quả ở dòng 22.

Trang 28

Cách khác:

Nhấp đúp chuột vào Range và Sample để tăng cỡ mẫu lên 22

Thêm giá trị X=30 vào dòng 22

Dùng lệnh Genr để tạo biến ydb.

Trang 29

HÀM Extreme Value (loại I-munimum)

Ngoài hàm Logit và Probit, người ta còn dùng hàm Extreme Value (loại I-munimum) để tínhxác suất pi= P(Y=1/Xi)

Kết quả bằng hàm Extreme Value (loại I-munimum) như sau:

Đồ thị của phần dư, giá trị thực Y và giá trị ước lượng Yˆ

Trang 30

Hồi quy Polytomous Logistic

Giả sử trong kinh doanh, ta xét quy mô công ty có 3 loại (lớn, vừa, nhỏ) theo số lượng người,doanh thu,… ; hoặc trong y khoa ta xét 3 mức độ bệnh (nhẹ, vừa phải, nặng) theo tuổi, giớitính,… của bệnh nhân Mô hình Logistic nhị phân không dùng được, ta phải dùng mô hìnhPolytomous Logistic Mô hình này phức tạp, nên ta không học !!!

Bài tập: dữ liệu ở thí dụ mum mum

2) Vẽ đồ thị của pˆ i theo X

3) Hãy xác định mô hình hồi quy Logit (Berkson)

Trang 31

1) Hãy tìm mô hình LPM?

2) Hàm tìm mô hình Logit?

3) Hàm tìm mô hình Probit?

4) Hãy dự báo xác suất (Y=1) khi X=55 theo 3 mô hình, so sánh kết quả nhận được?

Bài tập: file c2-baitap3

X: thu nhập của hộ gia đình

N: số hộ gia đình có thu nhập X

n: số hộ gia đình có nhà, có thu nhập X

Y= 1: hộ gia đình có nhà

1) Hãy xác định hàm hồi quy Logit?

2) Hãy tính xác suất (Y=1) khi X= 35?

Định dạng
Số trang	31
Dung lượng	815,88 KB