famine Thu nhap gia dinh Family income cigtax Thuế thuốc lá Cigarette tax cigprice Giá thuốc la Cigarette price bweht Trọng lượng khi sinh Birth weight, don vi: gam fatheduc Trình độ họ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ - TÀI CHÍNH THÀNH PHÓ HÒ CHÍ MINH
( a )
ÁrÌ
UNIVERSITY OF ECONOMICS & FINANCE
BÀI BẢO CÁO NHÓM
“CAC YEU TO ANH HUONG DEN CAN NANG CUA TRE SO SINH”
Tên môn học: Kinh tế lượng
Mã môn học: ECOI104 Mã lớp: A10
Giảng viên: NGUYÊN PHÚ QUỚI
Chon best model, ra soat
Trang 2MÔ HÌNH HỘI QUY MIỚI -.- 5 21 1SE11112112712112217111211 711121110121 8 KIẾM ĐỊNH PHƯƠNG SAI SAI SỐ THAY ĐÔỒI 0 S1 E212 rrg 10 KIÊM ĐỊNH TỰ TƯƠNG QUAN CỦA SAI SỐ 5c 2121221221221 2Erxee 11
3 Mô hình 2: tuyến tính — logarit (lin — Ïog) - 5-5221 S2E121821212712712112222111 2 cce 12 KIÊM ĐỊNH GIÁ THUYẾT VẺ HỆ SỐ HỎI QUY 5-2 222122 set 12 KIẾM ĐỊNH HIỆN TƯỢNG DA CỘNG TUYỂN -2 222221221222 rceg 13 KIÊM ĐỊNH THỪA BIẾN (WALD TEST) -s scSs 2 2212122121271E7211 222 rrre 14 KIÊM ĐỊNH BỎ SÓT BIẾN (RAMSEY TEST) 52 22221 EE2212127121122121 221 2xe 14
MÔ HÌNH HỘI QUY MỚI - 5 51 SS E1 2127127121121111111 1 1111211121 15 KIẾM ĐỊNH PHƯƠNG SAI SAI SỐ THAY ĐÔỒI 0 S1 E212 rrg 17 KIÊM ĐỊNH TỰ TƯƠNG QUAN CỦA SAI SỐ 5c 2121221221221 2Erxee 18
4 Mô hình 3: losarlt — lopartt ([op — ÏO) - 2 22212212221 121 112221 1121111111 111821 tre 19
KIÊM ĐỊNH GIÁ THUYẾT VẺ HỆ SỐ HỎI QUY 5-2 222122 set 19 KIẾM ĐỊNH HIỆN TƯỢNG DA CỘNG TUYỂN -2 222221221222 rceg 20 KIÊM ĐỊNH THỪA BIẾN (WALD TEST) -s scSs 2 2212122121271E7211 222 rrre 21 KIÊM ĐỊNH BỎ SÓT BIẾN (RAMSEY TEST) 52 22221 EE2212127121122121 221 2xe 21
Trang 3MÔ HÌNH HỘI QUY MỚI - 5 51 SS E1 2127127121121111111 1 1111211121 22 KIẾM ĐỊNH PHƯƠNG SAI SAI SỐ THAY ĐÔỒI 0 S1 E212 rrg 24 KIÊM ĐỊNH TỰ TƯƠNG QUAN CỦA SAI SỐ 5c 2121221221221 2Erxee 25
5 Mô hình 4: logarit — tuyến tính (log — lĩn) 5s 21 5 2E1219211127127121122211 112 cre 26
KIÊM ĐỊNH GIÁ THUYẾT VẺ HỆ SỐ HỎI QUY 5-2 222122 set 26 KIÊM ĐỊNH HIỆN TƯỢNG ĐA CỘNG TUYỂN 522cc 27 KIÊM ĐỊNH THỪA BIẾN (WALD TEST) -s scSs 2 2212122121271E7211 222 rrre 28 KIÊM ĐỊNH BỎ SÓT BIẾN (RAMSEY TEST) 52 22221 EE2212127121122121 221 2xe 28
MÔ HÌNH HỘI QUY MỚI - 5 51 SS E1 2127127121121111111 1 1111211121 29 KIẾM ĐỊNH PHƯƠNG SAI SAI SỐ THAY ĐÔỒI 0 S1 E212 rrg 31 KIÊM ĐỊNH TỰ TƯƠNG QUAN CỦA SAI SỐ 5c 2121221221221 2Erxee 32
6 Mô hình được chọn trong 4 đạng c1 22 211121121111 1112111511111 51 1132115181118 tk 33
Trang 4famine Thu nhap gia dinh (Family income)
cigtax Thuế thuốc lá (Cigarette tax)
cigprice Giá thuốc la (Cigarette price)
bweht Trọng lượng khi sinh (Birth weight, don vi: gam)
fatheduc Trình độ học vẫn của cha (Father's education level)
motheduc Trình độ học vẫn của me (Mother's education level)
parity Số lần sinh con (Number of children)
male Giới tính (1 = nam, 0 = nữ)
white Chung téc (1 = trăng, 0 = không trang)
cigs Số lượng thuốc lá hút hàng ngày (Cigarettes smoked per day)
Ibwpht Log trong lueng khi sinh (Log of birth weight)
bwphtlbs Trọng lượng khi sinh tinh bang pounds (Birth weight in pounds)
packs Số gói thuốc lá tiéu thy mdi ngay (Packs of cigarettes smoked per day) lfaminc Log thu nhap gia dinh (Log of family income)
LIA lbwght (Log trong lượng khi sinh) Đây là logarithm cua trong long khi sinh (bién bwght), tire 1a logarit cua giá trị trọng luong khi sinh Viéc str dung logarithm (log) giúp biến đôi dữ liệu để làm cho phân phối trở nên bình thường hơn, đặc biệt trong trường hợp dữ liệu có phân phối lệch hoặc trải dài quá rộng
1.1.2 [uưminc (Log thu nhập gia đình)
- Tương tự như cột lbwpht, lfaminc là loparithm cua thu nhap gia đình
- Logarithm của thu nhập gia đình (biến famincome) cũng giúp điều chỉnh sự bất đối xứng trong phân phối thu nhập, bởi vì thu nhập thường không phân phối đều mà có thể
bị kéo dài ở một phía do sự chênh lệch lớn siữa các hộ gia đình
Trang 1
Trang 5- Sử dụng log thu nhập trong mơ hình hỗồi quy sẽ giúp làm mịn phân phối và cho phép phân tích rõ hơn tác động của thu nhập gia đình lên các yếu tơ khác (ví dụ: trọng lượng
khi sinh, thĩi quen hút thuốc, .)
- Ví dụ: Nếu thu nhập gia đình là 50.000 USD/năm, giá trị log của thu nhập này sẽ là log(50000) Giá trị lò này sẽ được sử dụng trong phân tích hồi quy hoặc mơ hình thơng kê khác
1.1.3 Tại sao sử dung logarithm trong phan tích Cân bằng sự phân bố: Đối với dữ liệu cĩ sự khác biệt lớn về giá trị (như thu nhập cĩ
thé trai dai tir vai tram đến hàng triệu), việc sử dụng log giúp làm giảm tác động của
các giá trị lớn, làm cho phân phối dữ liệu gần với phân phối chuân hơn
Các biến logarit được: faminc, cigtax, cigprice, bwght, fatheduc, motheduc
Các biến khơng logarit được: khơng cĩ
Các biến đã được logarit: lbwpht, bwghtlbs, lfaminc
Trang 2
Trang 6*Bién packs bi da cộng tuyến vì 20 điều = 1 gói
- Chuyên đơn vị từ ounces sang gram:
- 1 ounces = 28.3595 gram
- _ Đối trên Python
# Chuyển đổi giá trị từ ounce sang gam
Trang 7+ Có khá nhiều giá tri outliers cả ở hai phía, đặc biệt là phía dưới (các chấm nhỏ bên ngoài giới hạn đưới), điều này cho thấy một số trẻ sơ sinh có cân nặng rất thấp, dưới
2000 pram (trẻ sinh nhẹ cân)
+ Ở phía trên cũng có một số ít outliers đại diện cho các trường hợp trẻ có cân nặng cao hơn bình thường, vượt qua 4800 gram (trẻ sinh quá cân) Và đắc biệt hơn, khi có 1 tré sinh gan 7600 gram, l mức cân nặng cao gấp đôi so với trung vị
+ Biểu đồ cho thấy sự phân phối hơi lệch xuống dưới, có thể do tỷ lệ trẻ sơ sinh nhẹ cân cao hơn so với trẻ sinh quá cân
Bảng phân phối cua bien “male”:
- C6 1.191 quan sat trong tong sé
- Bién male gém hai giá trị:
+0 đại điện cho nữ với 573 quan sat (chiém 48.11%)
+ 1 đại diện cho nam véi 618 quan sat (chiém 51.89%)
=> Tý lệ nam và nữ tương đối cân bằng, với nam chiếm tỷ lệ lớn hơn một chút Bảng phân phối của biến “white”:
- C6 1.191 quan sát trong tổng số
Trang 4
Trang 8- Bién white gom hai gia tri:
+ 0 đại diện cho không phải người da trắng với 186 quan sát (chiém 15.62%)
+ 1 đại diện cho người da trắng với 1.005 quan sát (chiém 84.38%)
=> Tý lệ người da trắng chiếm ưu thế, với 84.38%, trong khi tỷ lệ không phải
người da trắng là 15.62%
Kết luận:
- _ Dữ liệu cho thấy tý lệ nam và nữ khá đồng đều, với số nam chiếm khoảng 52%
- Trong nhóm đối tượng nghiên cứu, phần lớn là người da trắng, chiếm đến hơn
84% tong s6 quan sat
2 Mô hình 1: tuyến tính — tuyến tinh (lin — lin)
reg bwght faminc cigtax cigprice fatheduc motheduc parity maLe white cigs
KIEM DINH GIA THUYET VE HE SO HOI QUY
Giả thuyết: Hạ: B; = 0 (biến độc lập không có ảnh hưởng đến biến phụ thuộc)
H¡: B¿ z 0 (biến độc lập có ảnh hướng đến biến phụ thuộc)
Trang 5
Trang 9
Kết luận: Loại các biến độc lập không ảnh hưởng tới biến phụ thuộc, bao gồm 5 biến
“faminc, cigtax, cigprice, fatheduc, motheduc” và giữ lại 4 biến độc lập có ảnh hướng tới biên phụ thuộc, bao g6m “parity, male, white, cigs”
KIEM DINH HIEN TUQNG DA CỘNG TUYẾN
VIF là chỉ số để đo mức độ tương quan giữa một biến độc lập với các biến độc lập khác trong mô hình Nếu VIF > 10, có khả năng xảy ra hiện tượng đa cộng tuyến
nghiêm trọng
Trang 6
Trang 10không tương quan mạnh với nhau và không ảnh hưởng đến tính ôn định của các hệ số
ước lượng trong mô hình hồi quy
KIEM DINH THUA BIEN (WALD TEST) Giả thuyết: Hạ: Mô hình có thừa biến
Trang 11=> Mô hình có thừa biến bao gồm 5 biến “faminc, cigtax, cigprice, fatheduc, motheduc”
KIEM DINH BO SOT BIEN (RAMSEY TEST)
Giả thuyết: Họ: Mô hình không bị sót biến nào
Ramsey RESET test using powers of the fitted values of bwght
“Prob > F” = 0.4400 > a = 0.05
> Chap nhận Hạ,
=> Mô hình không bị sót biến nảo
MÔ HÌNH HÒI QUY MỚI
reg bwght parity maLe white cigs
Phương trình hồi quy và ý nghĩa các hệ số:
bwght = 3149.206 + 54.24259 x parity + 105.9987 x male + 152.0941 x white - 17.79096 x cigs + e
Ý nghĩa
Trang 8
Trang 12¢ cons: Khi s6 lan sinh con, số lần hút thuốc hằng ngày bằng 0 và là giới tính nữ,
đồng thời là chủng tộc không trắng thì trọng lượng trung bình khi sinh là 3149.206 gam (Không có ý nghĩa trong thực tế)
® parity: Khi số lần sinh con tăng 1 thì trọng lượng trung bình khi sinh tăng 54.24259 gam
e male: (la s6 dong), chứng tỏ trọng lượng trung bình khi sinh của nam nặng hon nit 105.9987 gam
e white: (la số đương), chứng to trọng lượng trung bình khi sinh của em bé chủng tộc da trắng nặng hơn các chủng tộc khác 152.0941 gam
® cios: Khi số lượng thuốc lá hút hằng ngày tăng I1 thì trọng lượng trung bình khi sinh giảm 17.79096 gam
Danh gid R’:
R? = 0.0503 = 5.03% Co nghia 5.03% sy biến thiên của trọng lượng trung bình khi
sinh (đơn vị đo: gam) phụ thuộc vào số lần sinh con (parity), gidi tinh (male) (nam hoặc nữ), chủng tộc (white) (da trắng hoặc không trắng), và số lượng thuốc lá hút hằng ngay (cigs); con lai 94.97% sự biến thiên của trọng lượng trung bình khi sinh được giải
thích bởi các yếu tô khác ngoải mô hình
Niểm định mô hình:
Giả thuyết Hạ: R?=0 (mô hình không phủ hợp)
Hi: RÝ # 0 (mô hình là phù hợp)
“Prob > F” = 0.000 <a =0.05
= Bac bo Ho Vậy mô hình phủ hợp
Khoảng tin cậy 95%
® cons: Khi số lần sinh con = 0, số lần hút thuốc hằng ngày bằng 0 và là giới tính
nữ, đồng thời là chủng tộc không trắng thì trọng lượng trung bình khi sinh trong
khoảng từ 3041.136 đến 3257.276 gam (Không có ý nghĩa trong thực tế)
® parity: Khi số lần sinh con tăng 1 thì trọng lượng trung bình khi sinh tăng từ
17.91603 đến 90.56915 gam
Trang 9
Trang 13male: Trọng lượng trung bình khi sinh của nam nặng hơn nữ từ 42.5046 đến
169 4929 gam
white: Trọng lượng trung bình khi sinh của em bé chủng tộc da trắng nặng hơn
các chủng tộc khác từ 64.65578 đến 239.5324 gam
cigs: Khi số lượng thuốc lá hút hằng ngày tăng I thì trọng lượng trung bình khi
sinh giảm từ 23.73184 đến 11.85008 gam
Trang 10
Trang 14KIEM DINH PHƯƠNG SAI SAI SO THAY DOI
Giả thuyết: Họ: Phương sai của sai số không đổi
imtest, white White's test for Ho:
against Ha:
homoskedasticity unrestricted heteroskedasticity
Ta có: Mô hình gốc không có phương sai sai số thay đôi
Mô hình sốc có phương sai sai số thay đổi
P _value = 0,9847 > ø =0.05
=> Chấp nhận Hụ
=> Mô hình gốc không có phương sai sai số thay đổi
Trang 11
Trang 15KIEM DINH TU TUONG QUAN CUA SAI SO
Giả thuyết: Hạ: Không tồn tại tự tương quan
gen t=_n
tsset t
delta: 1 unit estat durbin
Hô: no serial correlation estat bgodfrey, Lag(3)
Breusch-Godfrey LM test for autocorrelation
Trang 163 Mô hình 2: tuyến tinh — logarit (lin — log)
reg bwght lLfaminc cigtax cigprice fatheduc motheduc parity male white cigs
KIEM DINH GIA THUYET VE HE SO HOI QUY
Giả thuyết: Hạ: B; = 0 (biến độc lập không có ảnh hưởng đến biến phụ thuộc)
Hi: B¿ # 0 (biến độc lập có ảnh hướng đến biến phụ thuộc)
Trang 17“In (famine), cigtax, cigprice, fatheduc, motheduc” va giữ lại 4 biến độc lập có ảnh hưởng tới biến phụ thuộc, bao gồm “parity, male, white, cigs”
KIÊM ĐỊNH HIỆN TƯỢNG ĐA CỘNG TUYẾN
Trong trường hợp này, với các gia tri VIF rat thấp (gần 1 đến gan 4), kết luận rằng
không có hiện tượng đa cộng tuyến đáng kế trong mô hình Điều này có nghĩa là các
biến độc lập
KIEM DINH THUA BIEN (WALD TEST) Giả thuyết: Hạ: Mô hình có thừa biến
Trang 14
Trang 18test Lfaminc cigtax cigprice fatheduc motheduc
KIEM DINH BO SOT BIEN (RAMSEY TEST)
Giả thuyết: Họ: Mô hình không bị sót biến nào
Ramsey RESET test using powers of the fitted values of bwght
Prob > F = @.2485
“Prob > F” = 0.0825 > a =0.05
< Chap nhan Ho,
< M6 hinh kh6ng bi sót biến nao
Trang 15
Trang 19MÔ HÌNH HÒI QUY MỚI
reg bwght parity male white cigs
Phương trình hồi quy và ý nghĩa các hệ số:
bwght — 3149.206 + 54.24259 x parity + 105.9987 x male + 152.0941 x white - 17.79096 x cigs + e
Ý nghĩa
® cons: Khi số lần sinh con = 0, số lần hút thuốc hằng ngày bằng 0 và là giới tính
nữ, đồng thời là chủng tộc không trắng thì trọng lượng trung bình khi sinh là
3149.206 gam (Không có ý nghĩa trong thực tế)
® parity: Khi số lần sinh con tăng 1 thì trọng lượng trung bình khi sinh tăng 54.24259 gam
e male: (la s6 dong), chứng tỏ trọng lượng trung bình khi sinh của nam nặng hon nit 105.9987 gam
e white: (la số đương), chứng to trọng lượng trung bình khi sinh của em bé chủng tộc da trắng nặng hơn các chủng tộc khác 152.0941 gam
® cios: Khi số lượng thuốc lá hút hằng ngày tăng I1 thì trọng lượng trung bình khi sinh piảm 17.79096 sam
Đứnh giá R?:
= 0.0503 = 5.03% Có nghĩa 5 03% sự biến thiên của trọng lượng trung bình khi
sinh (đơn vị đo: gam) phụ thuộc vào số lan sinh con (parity), giới tính (male) (nam hoặc nữ), chủng tộc (white) (da trắng hoặc không trắng), và số lượng thuốc lá hút hằng ngay (cigs); còn lại 94.97% sự biến thiên của trọng lượng trung bình khi sinh được giải
thích bởi các yếu tô khác ngoải mô hình
Trang 16
Trang 20Niểm định mô hình:
Giả thuyết Hạ: R? =0 (mô hình không phủ hợp)
Hi: R? 4 0 (m6 hình là phù hợp)
“Prob > F” = 0.000 <a =0.05
= Bac bo Ho Vậy mô hình phủ hợp
Khoảng tin cậy 95%
® cons: Khi số lần sinh con = 0, số lần hút thuốc hằng ngày bằng 0 và là giới tính
nữ, đồng thời là chủng tộc không trắng thì trọng lượng trung bình khi sinh trong
khoảng từ 3041.136 đến 3257.276 gam (Không có ý nghĩa trong thực tế)
® parity: Khi số lần sinh con tăng I thì trọng lượng trung bình khi sinh tăng từ
® cios: Khi số lượng thuốc lá hút hằng ngày tăng I1 thì trọng lượng trung bình khi
sinh giảm từ 23.73184 đến 11.85008 gam
Trang 17