j S e t
5.2 Mơ hình cĩ chứa biến độc lập là biến giả
Xét tình huống: Để xem tác động của phân bĩn lên sản lượng lúa ở 1 vùng, người ta thu thập số liệu từ các mảnh ruộng khác nhau gồm năng suất lúa, lượng phân bĩn sử dụng và
53 các yếu tố khác liên quan. Ta biết rằng sản lượng lúa khơng chỉ phụ thuộc vào lượng phân bĩn mà cịn phụ thuộc vào giống lúa sử dụng gieo trồng: cao sản hay khơng cao sản. Khi đĩ người ta sử dụng mơ hình hồi quy thể hiện mối liên hệ giữa năng suất lúa NS với giống lúa GL và lượng phân bĩn PB như sau:
1 2 3 NS GL PB U Trong đĩ 1 0 GL
nếu giống cao sản
nếu giống không cao sản
Vì GL là biến định tính nên khơng thể giải thích như phương pháp thơng thường đã làm ở những chương trước, mà lý luận như sau:
Với ruộng lúa thuộc giống cao sản: NS 1 23PB U Với ruộng lúa thuộc giống khơng cao sản: NS 1 3PB U
Vẫn với giả thiết E U GL( | ) 0 , ta cĩ các kết luận là: Khi lượng phân bĩn bằng 0 thì năng suất trung bình của giống lúa khơng phải cao sản là 1 đơn vị; khi lượng phân bĩn trên 1ha tăng 1 đơn vị thì năng suất lúa trung bình của giống lúa khơng phải cao sản tăng 3 đơn vị; khi lượng phân bĩn như nhau thì năng suất lúa trung bình của giống lúa cao sản cao hơn so với giống lúa khơng cao sản là 2 đơn vị; nếu 2 0 thì năng suất lúa trung bình của giống cao sản cao hơn so với giống khơng cao sản khi cùng lượng phân bĩn; nếu 2 0 thì yếu tố giống lúa khơng tác động tới năng suất lúa; cịn nếu 2 0 thì yếu tố giống lúa cĩ tác động tới năng suất lúa.
Một cách tổng quát, giả sử biến định tính Z cĩ hai phạm trù và cĩ tác động đến biến phụ thuộc Y. Gọi D là biến giả thể hiện biến định tính Z được xác định như sau:
1 0
D
nếu quan sát thuộc nhóm 1 của Z nếu quan sát thuộc nhóm còn lại của Z
Xét mơ hình hồi quy bội với biến giả D như sau:
1 2 3 3 k k
54 Khi đĩ hệ số 2 thể hiện sự khác biệt giữa giá trị trung bình của Y trong nhĩm các quan sát thuộc nhĩm 1 với giá trị này trong nhĩm các quan sát thuộc nhĩm cịn lại khi các biến
j
X là như nhau. Chú ý rằng mơ hình trên vẫn tuyến tính theo các biến số (bao gồm D) nên phương pháp OLS vẫn cho các ước lượng tốt nhất khi các giả thiết được thỏa mãn.
Ví dụ 5.2.1: Cĩ số liệu khảo sát ngẫu nhiên tại 12 của hàng thuộc các điểm bán hàng ở
vùng nơng thơn và thành phố như sau
Giá bán (1000 đ) Địa điểm bán hàng Số lượng hàng bán (kg sản phẩm/tháng) 42 TP 1 1350 46 NT 0 750 41 NT 0 820 44 TP 1 1540 40 NT 0 890 45 NT 0 780 43 TP 1 1280 40 TP 1 1420 42 TP 1 1400 44 TP 1 1500 45 NT 0 780 43 NT 0 850
Hỏi với cùng mức giá, doanh số bán hàng cĩ khác nhau hay khơng giữa thành thị và nơng thơn?
Ta đưa vào biến giả D như sau: 1
0
D
nếu bán ở thành thị
nếu bán ở nông thôn (phạm trù cơ sở)
Bảng kết quả hồi quy từ phần mềm Eviews:
Dependent Variable: SOLUONGHANGBAN Method: Least Squares
Date: Time: Sample: 1 12
Included observations: 12
Variable Coefficient Std. Error t-Statistic Prob. DIEMBAN 597.4490 47.10327 12.68381 0.0000 GIABAN -7.061224 12.45371 -0.566998 0.5846
55
C 1117.653 540.6377 2.067287 0.0687
R-squared 0.950483 Mean dependent var 1113.333 Adjusted R-squared 0.939479 S.D. dependent var 323.4848 S.E. of regression 79.58039 Akaike info criterion 11.80373 Sum squared resid 56997.35 Schwarz criterion 11.92496 Log likelihood -67.82238 Hannan-Quinn criter. 11.75885 F-statistic 86.37791 Durbin-Watson stat 1.591562 Prob(F-statistic) 0.000001
Mơ hình hồi quy từ số liệu mẫu:
2
1117.653- 7.061224 597.4490
Y X D
Kết quả hồi quy cho thấy:
Hệ số xác định R2 0.950483chứng tỏ mơ hình cĩ mức độ phù hợp cao, các giá trị
p-value chỉ ra rằng chỉ cĩ biến DIEMBAN ảnh hưởng lên
SOLUONGHANGBAN, biến GIABAN khơng tác động lên biến phụ thuộc SOLUONGHANGBAN.
3 597.4490: Cho thấy với cùng mức giá, lượng hàng bán được bình quân ở thành thị cao hơn ở nơng thơn 597.4490 kg/tháng.
Giả sử ứng với cùng một mức giáX 45000đồng/kg, lượng hàng bán được bình quân trong một tháng như sau:
- Điểm bán ở thành thị: YTT 1117.653- 7.061224 45 597.4490 1 1397.34692 - Điểm bán ở nơng thơn: YNT 1117.653- 7.061224 45 597.4490 0 799.89792