Câu hỏi bài tập nhóm Câu 1: 1.1) Hồi quy chi tiêu theo số phụ cấp> Phucap < lm(chitieu ~ phucap, data = dulieu)> summary(Phucap)Call:lm(formula = chitieu ~ phucap, data = dulieu)Residuals: Min 1Q Median 3Q Max 2.4341 0.7341 0.1381 0.4718 3.8639 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.94003 0.22069 8.791 1.79e14 phucap 0.59803 0.05877 10.176 < 2e16 Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.141 on 114 degrees of freedomMultiple Rsquared: 0.476, Adjusted Rsquared: 0.4714 Fstatistic: 103.6 on 1 and 114 DF, pvalue: < 2.2e16Nếu phụ cấp tăng 1 triệu thì chi tiêu tăng 0.59803 triệu trong điều kiện các yếu tố khác không đổi1.2) Hồi quy chi tiêu theo số thu nhập làm thêm>Thunhap < lm(chitieu ~ thunhap, data = dulieu)> summary(Thunhap)Call:lm(formula = chitieu ~ thunhap, data = dulieu)Residuals: Min 1Q Median 3Q Max 3.1815 1.0395 0.0297 1.1296 5.2928 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.70720 0.17698 20.95 Chiphish < lm(chitieu ~ chiphish, data = dulieu) > summary(Chiphish)Call:lm(formula = chitieu ~ chiphish, data = dulieu)Residuals: Min 1Q Median 3Q Max 2.0081 0.6980 0.0513 0.4595 3.3622 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.33516 0.22554 5.92 3.47e08 chiphish 1.08647 0.08637 12.58 < 2e16 Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.02 on 114 degrees of freedomMultiple Rsquared: 0.5813, Adjusted Rsquared: 0.5776 Fstatistic: 158.2 on 1 and 114 DF, pvalue: < 2.2e16Nếu chi phí sinh hoạt tăng 1 triệu thì chi tiêu tăng 1.08647 triệu trong điều kiện các yếu tố khác không đổi1.4) Hồi quy chi tiêu theo chi phí trọ>Chiphitro < lm(chitieu ~ chiphitro, data = dulieu) > summary(Chiphitro)Call:lm(formula = chitieu ~ chiphitro, data = dulieu)Residuals: Min 1Q Median 3Q Max 2.5322 1.0322 0.0397 0.9397 3.5004 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.9574 0.1938 15.261 < 2e16 chiphitro 1.0749 0.1668 6.445 2.87e09 Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.35 on 114 degrees of freedomMultiple Rsquared: 0.2671, Adjusted Rsquared: 0.2607 Fstatistic: 41.54 on 1 and 114 DF, pvalue: 2.868e09Nếu chi phí trọ tăng thêm 1 triệu thì chi tiêu tăng 1.0749 triệu trong điều kiện các yếu tố khác không đổi1.1.5) Hồi quy chi tiêu theo tiết kiệm>Dedanh < lm(chitieu ~ dedanh, data = dulieu) > summary(Dedanh)Call:lm(formula = chitieu ~ dedanh, data = dulieu)Residuals: Min 1Q Median 3Q Max 2.8403 1.1415 0.1630 0.8144 5.6210 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.3790 0.1724 19.596 < 2e16 dedanh 0.8066 0.1662 4.853 3.89e06 Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 1.436 on 114 degrees of freedomMultiple Rsquared: 0.1712, Adjusted Rsquared: 0.164 Fstatistic: 23.55 on 1 and 114 DF, pvalue: 3.892e06Nếu tiết kiệm tăng 1 triệu thì chi tiêu tăng 0.8066 triệu trong điều kiện các yếu tố khác không đổi1.6) Chọn ra mô hình có R2lớn nhất, đó là mô hình ở câu 3)Mô hình Câu 1)Câu 2) Câu 3)Câu 4) Câu 5)R2 0,476 0,032920,5813 0,2671 0,1712Mô hình câu 3) có R2 hiệu chỉnh lớn nhất
Khảo sát: Chi tiêu trung bình tháng sinh viên UEH Bảng khảo sát: Người khảo sát trả lời Câu hỏi (Bạn cho biết…) Biến phụ thuộc Chi tiêu tháng (triệu đ/tháng) Biến độc lập 1) Giới tính ( nam/ nữ/ khác) 2) Nơi ( trọ, KTX/ người thân, gia đình) 3) Việc làm thêm ( có/ khơng) 4) Tính cách chi tiêu ( tiết kiệm/ hợp lí/ thoải mái) 5) Chi tiêu cho học tập ( có/ khơng) 6) Phụ cấp gia đình tháng ( triệu đồng) 7) Thu nhập từ việc làm thêm ( triệu đồng) 8) Chi phí sinh hoạt ( triệu đồng) 9) Chi phí trọ ( triệu đồng) 10) Số tiền lại để dành tiết kiệm ( triệu đồng) Số Loại biến biến dùng Ghi Đặt biến Ghi Định lượng Định tính Biến giả nam, nu Định tính Biến giả otroKTX Định tính Biến giả lamthem Định tính Biến giả tietkiem, hopli So sánh với thoải mái Định tính Biến giả cochi So sánh với khơng Định lượng Định lượng Định lượng Định lượng Định lượng chitieu phucap thunhap chiphish chiphitro dedanh So sánh với khác So sánh với người thân, gia đình So sánh với khơng Câu hỏi tập nhóm Câu 1: 1.1) Hồi quy chi tiêu theo số phụ cấp > Phucap summary(Phucap) Call: lm(formula = chitieu ~ phucap, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.4341 -0.7341 -0.1381 0.4718 3.8639 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.94003 0.22069 8.791 1.79e-14 *** phucap 0.59803 0.05877 10.176 < 2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.141 on 114 degrees of freedom Multiple R-squared: 0.476, Adjusted R-squared: 0.4714 F-statistic: 103.6 on and 114 DF, p-value: < 2.2e-16 Nếu phụ cấp tăng triệu chi tiêu tăng 0.59803 triệu điều kiện yếu tố khác không đổi 1.2) Hồi quy chi tiêu theo số thu nhập làm thêm >Thunhap summary(Thunhap) Call: lm(formula = chitieu ~ thunhap, data = dulieu) Residuals: Min 1Q Median 3Q Max -3.1815 -1.0395 -0.0297 1.1296 5.2928 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 3.70720 0.17698 20.95 Chiphish summary(Chiphish) Call: lm(formula = chitieu ~ chiphish, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.0081 -0.6980 -0.0513 0.4595 3.3622 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.33516 0.22554 5.92 3.47e-08 *** chiphish 1.08647 0.08637 12.58 < 2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.02 on 114 degrees of freedom Multiple R-squared: 0.5813, Adjusted R-squared: 0.5776 F-statistic: 158.2 on and 114 DF, p-value: < 2.2e-16 Nếu chi phí sinh hoạt tăng triệu chi tiêu tăng 1.08647 triệu điều kiện yếu tố khác không đổi 1.4) Hồi quy chi tiêu theo chi phí trọ >Chiphitro summary(Chiphitro) Call: lm(formula = chitieu ~ chiphitro, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.5322 -1.0322 -0.0397 0.9397 3.5004 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 2.9574 0.1938 15.261 < 2e-16 *** chiphitro 1.0749 0.1668 6.445 2.87e-09 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.35 on 114 degrees of freedom Multiple R-squared: 0.2671, Adjusted R-squared: 0.2607 F-statistic: 41.54 on and 114 DF, p-value: 2.868e-09 Nếu chi phí trọ tăng thêm triệu chi tiêu tăng 1.0749 triệu điều kiện yếu tố khác không đổi 1.1.5) Hồi quy chi tiêu theo tiết kiệm >Dedanh summary(Dedanh) Call: lm(formula = chitieu ~ dedanh, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.8403 -1.1415 -0.1630 0.8144 5.6210 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 3.3790 0.1724 19.596 < 2e-16 *** dedanh 0.8066 0.1662 4.853 3.89e-06 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.436 on 114 degrees of freedom Multiple R-squared: 0.1712, Adjusted R-squared: 0.164 F-statistic: 23.55 on and 114 DF, p-value: 3.892e-06 Nếu tiết kiệm tăng triệu chi tiêu tăng 0.8066 triệu điều kiện yếu tố khác khơng đổi 1.6) Chọn mơ hình có R2 lớn nhất, mơ hình câu 3) Mơ hình R2 Câu 1) 0,476 Câu 2) 0,0329 Câu 3) 0,5813 Câu 4) Câu 5) 0,2671 0,1712 Mô hình câu 3) có R2 hiệu chỉnh lớn => chọn câu 3) 1.7) > full_model initStd standards = data.frame(Standar = c("AIC", "BIC","CP cua Mallows", "R^2 hieu chinh")) > library(olsrr) Mơ hình tuyến tính – tuyến tính >lin_lin standards$Tuyentinh print(summary(lin_lin)) Call: lm(formula = chitieu ~ chiphish, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.0081 -0.6980 -0.0513 0.4595 3.3622 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.33516 0.22554 5.92 3.47e-08 *** chiphish 1.08647 0.08637 12.58 < 2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.02 on 114 degrees of freedom Multiple R-squared: 0.5813, Adjusted R-squared: 0.5776 F-statistic: 158.2 on and 114 DF, p-value: < 2.2e-16 Nếu chi phí sinh hoạt tăng triệu mà thu nhập làm thêm, phụ cấp, chi phí trọ, tiết kiệm giữ nguyên giá trị trung bình biến chi tiêu tăng 1.08647 triệu điều kiện yếu tố khác không đổi Mơ hình tuyến tính - Logarit >lin_log standards$LinLog print(summary(lin_log)) Call: lm(formula = chitieu ~ log(chiphish), data = dulieu) Residuals: Min 1Q Median 3Q Max -2.3239 -0.8239 -0.0823 0.6410 5.8794 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 2.5274 0.1838 13.752 < 2e-16 *** log(chiphish) 1.8704 0.1992 9.387 7.44e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.184 on 114 degrees of freedom Multiple R-squared: 0.436, Adjusted R-squared: 0.431 F-statistic: 88.12 on and 114 DF, p-value: 7.436e-16 Nếu chi phí sinh hoạt tăng triệu mà thu nhập làm thêm, phụ cấp, chi phí trọ, tiết kiệm giữ nguyên giá trị trung bình biến chi tiêu tăng 0.018704 triệu điều kiện yếu tố khác không đổi Hồi quy qua gốc tọa độ >Quagoctoado standards$Quagoctoado print(summary(Quagoctoado)) Call: lm(formula = chitieu ~ + chiphish, data = dulieu) Residuals: Min 1Q Median 3Q Max -3.0027 -0.3911 0.1739 0.9117 3.9450 Coefficients: Estimate Std Error t value Pr(>|t|) chiphish 1.5505 0.0413 37.54 hambac2 standards$Hambac2 print(summary(hambac2)) Call: lm(formula = chitieu ~ chiphish + I(chiphish^2), data = dulieu) Residuals: Min 1Q Median 3Q Max -2.0615 -0.7436 -0.0852 0.4199 3.2984 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 0.87566 0.43027 2.035 0.0442 * chiphish 1.48551 0.32995 4.502 1.64e-05 *** I(chiphish^2) -0.07129 0.05690 -1.253 0.2129 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.018 on 113 degrees of freedom Multiple R-squared: 0.587, Adjusted R-squared: 0.5797 F-statistic: 80.3 on and 113 DF, p-value: < 2.2e-16 Nếu chi phí sinh hoạt tăng triệu mà thu nhập làm thêm, phụ cấp, chi phí trọ, tiết kiệm giữ nguyên giá trị trung bình biến chi tiêu tăng 1.48551 triệu điều kiện yếu tố khác không đổi b) > print(standards) Standar Tuyentinh LinLog Quagoctoado Hambac2 AIC 337.865085 372.4104 366.9574 338.2649 BIC 346.125856 380.6712 372.4646 349.2793 CP cua Mallows 54494.758449 73437.75 71280.65 53748.65 R^2 hieu chinh 0.577581 0.4310445 0.9238917 0.5796811 Hàm bậc có mơ hình tốt (chọn mơ hình có AIC, BIC, CP Mallows nhỏ nhất, R^2 hiệu chỉnh lớn nhất) 1.8) Tuyến tính log (log-log) >standard2 = data.frame(Standar2 = c("AIC", "BIC","CP cua Mallows", "R^2 hieu chinh")) >log_log standard2$LogLog print(summary(log_log)) Call: lm(formula = log(chitieu) ~ log(chiphish), data = dulieu) Residuals: Min 1Q Median 3Q Max -0.86095 -0.15112 0.03365 0.16930 1.77217 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 0.87700 0.05155 17.013 standard2$LogLin print(summary(log_lin)) Call: lm(formula = log(chitieu) ~ chiphish, data = dulieu) Residuals: Min 1Q Median 3Q Max -1.08171 -0.18311 0.03831 0.17606 0.80348 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 0.57812 0.06785 8.521 7.46e-14 *** chiphish 0.29383 0.02598 11.309 < 2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 0.307 on 114 degrees of freedom Multiple R-squared: 0.5287, Adjusted R-squared: 0.5246 F-statistic: 127.9 on and 114 DF, p-value: < 2.2e-16 Nếu chi phí sinh hoạt tăng đơn vị mà thu nhập làm thêm, phụ cấp, chi phí trọ, tiết kiệm giữ nguyên giá trị trung bình biến chi tiêu tăng 35.056 điều kiện yếu tố khác không đổi b) >print(standard2) Standar2 LogLog LogLin AIC 77.4816964 59.1737270 BIC 85.7424670 67.4344976 CP cua Mallows 5674.1855107 4829.3864314 R^2 hieu chinh 0.4433256 0.5246016 Mơ hình tuyến tính log - lin có mơ hình tốt mơ hình (chọn mơ hình có AIC, BIC, CP Mallows nhỏ nhất, R^2 hiệu chỉnh lớn nhất) Câu 2: Chitieu: chi tiêu tháng (triệu đồ ng/ tháng) Phucap: phụ cấp gia đình tháng (triệu đồng) Thunhap: thu nhập từ việc làm thêm (triệu đồng) Chiphish: chi phí sinh hoạt (triệu đồng) Nam = 1: sinh viên nam Lamthem = 1: có làm > ketqua summary(ketqua) Call: lm(formula = chitieu ~ phucap + thunhap + chiphish + nam + lamthem, data = dulieu) Residuals: Min 1Q Median 3Q Max -2.66292 -0.29405 0.03135 0.39944 1.81091 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) -0.006849 0.173429 -0.039 0.969 phucap 0.694215 0.054688 12.694 < 2e-16 *** thunhap 0.353602 0.065139 5.428 3.43e-07 *** chiphish 0.357103 0.080798 4.420 2.33e-05 *** nam 0.067178 0.125343 0.536 0.593 lamthem 0.789634 0.189566 4.165 6.20e-05 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 0.629 on 110 degrees of freedom Multiple R-squared: 0.8465, Adjusted R-squared: 0.8395 F-statistic: 121.3 on and 110 DF, p-value: < 2.2e-16 Thực kiểm định 1.1 kiểm định t theo giá trị tới hạn, p-value H0: β1=0 H1: β1≠0 > kiemdinh_t bác bỏ H0 • Phương pháp p-value p-value(2P)= 2.7636e-23< = 0.05 => bác bỏ H0 => Với mức ý nghĩa 5%, biến phucap có ý nghĩa thống kê 1.2 kiểm định t theo giá trị tới hạn, p-value H0: β1=0 H1: β1>0 > kiemdinh_t bác bỏ 𝐻0 • Phương pháp p-value p-value(1p)=2.7636e-23< 𝑏á𝑐 𝑏ỏ 𝐻0 => Vậy với mức ý nghĩa 5%, biến phucap có ý nghĩa thống kê 1.3 kiểm định t theo giá trị tới hạn, p-value H0: δ1=0.4 H1: δ1≠0.4 > kiemdinh_t #CV for alpha=5% using the t distribution with 110 d.f > alpha qt(1-alpha/2,110) [1] 1.981765 • Phương pháp giá trị tới hạn |t|=2.655288 > 𝑡0.025 (110)= 1.98 => bác bỏ 𝐻0 • Phương pháp p-value p-value(2p)= 0.0091 < =0.05 => bác bỏ H0 => Vậy với mức ý nghĩa 5%, biến phucap có ý nghĩa thống kê 1.4 kiểm định t theo giá trị tới hạn, p-value H0: δ1=0.4 H1: δ1>0.4 > t.test(nam,alt="greater",mu=0.4) One Sample t-test data: nam t = 0.11299, df = 115, p-value = 0.4551 alternative hypothesis: true mean is greater than 0.4 95 percent confidence interval: 0.3292611 Inf sample estimates: mean of x 0.4051724 Từ bảng ta thấy p-value =0.4551 > 5% => Chấp nhận H0 Vậy bác bỏ giả thuyết H1 δ1 (nam)> 0,4 1.5 kiểm định F theo giá trị tới hạn, p-value H0: δ1=0.4 H1: δ1≠0.4 > library(carData) > linearHypothesis(ketqua,c("=0.4")) Linear hypothesis test Hypothesis: nam = 0.4 Model 1: restricted model Model 2: chitieu ~ phucap + thunhap + chiphish + nam + lamthem Res.Df RSS Df Sum of Sq F Pr(>F) 111 46.310 110 43.521 2.7895 7.0506 0.009101 ** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ • F= 7.0506 > F 0.05(1,110)= 1.658 • => Bác bỏ H0 • P-value = 0.009101 < =0.05 • Bác bỏ H0 => Vậy với mức ý nghĩa 5%, biến nam có ý nghĩa thống kê Thực kiểm định (kiểm định F) H0: β1=2, β2=0, δ1=4 H1: H0 sai > library(car) > linearHypothesis(ketqua,c("phucap=2", "thunhap=0", "nam=4")) Linear hypothesis test Hypothesis: phucap = thunhap = nam = Model 1: restricted model Model 2: chitieu ~ phucap + thunhap + chiphish + nam + lamthem Res.Df RSS Df Sum of Sq F Pr(>F) 113 777.10 110 43.52 733.58 618.05 < 2.2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ > anova(ketqua) Analysis of Variance Table Response: chitieu Df Sum Sq Mean Sq F value Pr(>F) phucap 134.931 134.931 341.0418 < 2.2e-16 *** thunhap 89.233 89.233 225.5395 < 2.2e-16 *** chiphish 8.053 8.053 20.3553 618e-05 *** nam 0.868 0.868 2.1935 0.1414 lamthem 6.865 6.865 17.3513 6.204e-05 *** Residuals 110 43.521 0.396 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Ta có: F = 618.05 > 𝐹0.05 (3,110) = 2.68 => bác bỏ 𝐻0 Thực kiểm định (kiểm định F) H0: β1 + 3β2 = H1: H0 sai > library(carData) > linearHypothesis(ketqua, c("phucap + 3*thunhap = 4")) Linear hypothesis test Hypothesis: phucap + thunhap = Model 1: restricted model Model 2: chitieu ~ phucap + thunhap + chiphish + nam + lamthem Res.Df RSS Df Sum of Sq F Pr(>F) 111 83.657 110 43.521 40.137 101.45 < 2.2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Ta có: F= 101.45 > F 0.05(2,110) = 3.07 => bác bỏ H0 Kiểm định tất hệ số góc mơ hình 0? Ý nghĩa kiểm định này? H0: β1=β2=β3=δ1=δ2=0 H1: H0 sai > library(carData) > linearHypothesis(ketqua, c("phucap=0", "thunhap=0", "chiphish=0", "nam=0", "lamthem =0")) Linear hypothesis test Hypothesis: phucap = thunhap = chiphish = nam = lamthem = Model 1: restricted model Model 2: chitieu ~ phucap + thunhap + chiphish + nam + lamthem Res.Df RSS Df Sum of Sq F Pr(>F) 115 283.471 110 43.521 239.95 21.3 < 2.2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Ta có: F=21.3 > F 0.05(5,110)=2.29 => bác bỏ H0 Xác định khoảng tin cậy 96% cho β3 > confint(ketqua, level = 0.96) % 98 % (Intercept) -0.3673021 0.3536032 phucap 0.5805526 0.8078776 thunhap 0.2182166 0.4889867 chiphish 0.1891737 0.5250333 nam -0.1933337 0.3276896 lamthem 0.3956433 1.1836250 Ta có: 0.1892-2.5*0.5250 ≤ β0 ≤ 0.1892+2.5*0.5250 => -1.1233 ≤ β0 ≤ 1.5017 Vậy khoảng tin cậy 96% chi phí từ -1.1233 đến 1.5017 Tìm giá trị trung bình biến phucap, thunhap, chiphish Dự đốn giá trị trung bình chi tiêu biến: phụ cấp = , thu nhập làm thêm = , chi phí sinh hoạt = , nam = 0, otroKTX = 1, với độ tin cậy 95% (dùng phần mềm) Tùy vào liệu bạn mà chọn số cho hợp lý a) Giá trị trung bình biến phucap, thunhap, chiphish > mean(thunhap) [1] 1.1 > mean(phucap) [1] 3.293966 > mean(chiphish) [1] 2.369828 Giá trị trung bình biến phucap, thunhap, chiphish 3.2939; 1.1; 2.3698 b) Dự đoán biến >predict(hoiquy,newdata=data.frame(phucap=6,thunhap=4,chiphish=5,nam=1,la mthem=1),interval="confidence",level=0.94) fit lwr upr 8.215178 7.823276 8.60708 Bằng hàm predict ta có giá trị dự đốn fit = 8.2151 cho thấy mức chi tiêu dự đoán 8.2151 với điều kiện phụ cấp= 6, thu nhập =4, chi phí sinh hoạt = 5, nam =1, làm thêm =1 Xác định VIF để xem có đa cộng tuyến biến độc lập không > library(car) > vif(ketqua) phucap thunhap chiphish nam lamthem 2.851987 2.946711 2.303218 1.110161 2.621456 Ta thấy: VIF phandu1=resid(ketqua) > library(fBasics) > jarqueberaTest(phandu1) Title: Jarque - Bera Normalality Test Test Results: STATISTIC: X-squared: 57.6706 P VALUE: Asymptotic p Value: 2.999e-13 Ta có: H0: phần dư có phân phối chuẩn H1: phần dư khơng có phân phối chuẩn P-value=2.999e-13 hqc3 summary(hqc3) Call: lm(formula = chitieu ~ (phucap + thunhap + chiphish) * nam, data = dulieu) Residuals: Min 1Q Median 3Q Max -3.1084 -0.5808 -0.1895 0.5220 4.4998 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.2608 0.4383 2.876 0.00485 ** phucap 0.4640 0.1524 3.044 0.00293 ** thunhap 0.3262 0.1075 3.035 0.00301 ** chiphish 0.5796 0.1858 3.120 0.00232 ** nam -0.4962 0.6913 -0.718 0.47442 phucap:nam 0.3205 0.2124 1.509 0.13410 thunhap:nam 0.4240 0.2005 2.115 0.03675 * chiphish:nam -0.4622 0.2911 -1.588 0.11521 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 1.186 on 108 degrees of freedom Multiple R-squared: 0.5648, Adjusted R-squared: 0.5366 F-statistic: 20.02 on and 108 DF, p-value: < 2.2e-16 H0: 𝛿 1=0, 𝛿 2=0, 𝛿 3=0, 𝛿 4=0; Kiểm định giả thuyết H1: H0 sai > library(carData) > linearHypothesis(hqc3, c("nam=0","phucap:nam=0","thunhap:nam=0","chiphish:nam=0")) Linear hypothesis test Hypothesis: nam = phucap:nam = thunhap:nam = chiphish:nam = Model 1: restricted model Model 2: chitieu ~ (phucap + thunhap + chiphish) * nam Res.Df RSS Df Sum of Sq F Pr(>F) 112 159.27 108 152.03 7.2374 1.2853 0.2803 Ý nghĩa kiểm định giải thuyết : kiểm định xem mơ hình nam nữ có khác hay khơng? Theo mơ hình trên: F = 1.2853 < F(4,116) = 2.45 => Chấp nhận H0 Vậy mơ hình khơng khác nam nữ Câu 4: Sử dụng mơ hình câu Kiểm định Breusch-Pagan: > library(zoo) > bptest(hqc3) studentized Breusch-Pagan test data: hqc3 BP = 10.152, df = 7, p-value = 0.1801 Vì p-value = 0.1801 > 𝛼 = 0.05 => Chấp nhận H0 Vậy phương sai không thay đổi Kiểm định White: > library(zoo) > bptest(hqc3, ~ fitted(hqc3) + I(fitted(hqc3)^2)) studentized Breusch-Pagan test data: hqc3 BP = 4.2436, df = 2, p-value = 0.1198 Vì p-value > 𝛼 = 0.05 => Chấp nhận H0 Vậy phương sai không thay đổi Câu 5: Sử dụng mơ hình câu Kiểm định RESET với y^2, y^3: > hqc5 library(carData) > linearHypothesis(hqc5, matchCoefs(hqc5, "fitted")) Linear hypothesis test Hypothesis: I(fitted(hqc3)^2) = I(fitted(hqc3)^3) = Model 1: restricted model Model 2: chitieu ~ (phucap + thunhap + chiphish) * nam + I(fitted(hqc3)^2) + I(fitted(hqc3)^3) Res.Df RSS Df Sum of Sq F Pr(>F) 108 152.03 106 148.04 3.995 1.4302 0.2438 Vì p-value = 0.2438 > 𝛼 = 0.05 => Chấp nhận H0 Nên dạng hàm Kiểm định RESET với y^2, y^3, y^4: > hqc5b library(carData) > linearHypothesis(hqc5b, matchCoefs(hqc5b, "fitted")) Linear hypothesis test Hypothesis: I(fitted(hqc3)^2) = I(fitted(hqc3)^3) = I(fitted(hqc3)^4) = Model 1: restricted model Model 2: chitieu ~ (phucap + thunhap + chiphish) * nam + I(fitted(hqc3)^2) + I(fitted(hqc3)^3) + I(fitted(hqc3)^4) Res.Df RSS Df Sum of Sq F Pr(>F) 108 152.03 105 146.96 5.0732 1.2082 0.3105 Vì p-value = 0.3105 > 𝛼 = 0.05 => Chấp nhận H0 Nên dạng hàm Câu 6: Chạy mơ hình có tất biến khảo sát: > hqc6 summary(hqc6) Call: lm(formula = chitieu ~ phucap + thunhap + chiphish + chiphitro + dedanh + nam + otroKTX + lamthem + tietkiem + hopli + cochi, data = dulieu) Residuals: Min 1Q Median 3Q Max -1.3014 -0.3920 -0.1132 0.2836 3.0490 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.15339 0.33906 3.402 0.000954 *** phucap 0.07021 0.08171 0.859 0.392172 thunhap -0.02262 0.07659 -0.295 0.768317 chiphish 0.76393 0.10311 7.409 3.65e-11 *** chiphitro 1.06571 0.15813 6.739 9.38e-10 *** dedanh 0.81329 0.07383 11.016 < 2e-16 *** nam -0.13779 0.14919 -0.924 0.357842 otroKTX -0.36617 0.25027 -1.463 0.146478 lamthem 0.36061 0.20573 1.753 0.082599 tietkiem -0.06235 0.20879 -0.299 0.765811 hopli -0.25128 0.16847 -1.492 0.138873 cochi -0.02482 0.22347 -0.111 0.911770 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 0.7461 on 103 degrees of freedom (1 observation deleted due to missingness) Multiple R-squared: 0.8347, Adjusted R-squared: 0.8171 F-statistic: 47.29 on 11 and 103 DF, p-value: < 2.2e-16 Có nên bỏ biến khỏi mơ hình khơng? Tại sao? a Dùng R^2: Khi chạy hồi quy biến phụ thuộc theo biến độc lập ta được: Các biến độc lập Phucap 0.4743 Các biến độc lập OtroKTX 0.07153 Thunhap 0.03436 Lamthem 0.02224 Chiphish 0.601 Tietkiem 0.02039 Chiphitro 0.2696 Hopli 0.001934 Dedanh 0.1756 Cochi 0.002305 Nam 0.02977 R2 R2 R2 giúp ta xác định biến độc lập giải thích phần trăm biến phụ thuộc (hay xét xem biến độc lập có thuộc mơ hình hay khơng) Vì vậy, R2 biến độc lập nhỏ nên bỏ biến khỏi mơ hình Theo mơ hình hồi quy ta nên bỏ biến hopli cochi khỏi mơ hình mơ hình hồi quy có tất biến giải thích 83.47% biến phụ thuộc mà: Biến hopli giải thích 0.19% biến phụ thuộc Biến cochi giải thích 0.23% biến phụ thuộc b Dùng đa cộng tuyến: > library(carData) > vif(hqc6) phucap thunhap chiphish chiphitro dedanh nam otroKTX lamthem 3.888868 2.858626 2.704746 2.860164 1.371117 1.111011 2.782223 2.172205 tietkiem hopli cochi 1.736226 1.465471 1.102947 Dựa vào bảng kết kiểm định đa cộng tuyến mơ hình, ta thấy tất biến có tình trạng đa cộng tuyến thấp có hệ số 1< VIF < Vì nên cân nhắc việc chỉnh sửa lại liệu bỏ biến có hệ số VIF > 10 khỏi mơ hình để mơ hình tốt Trong mơ hình khơng nên bỏ biến khỏi mơ hình.(1) Dạng hàm phù hợp với liệu: > library(zoo) > resettest(hqc6) RESET test data: hqc6 RESET = 0.22317, df1 = 2, df2 = 101, p-value = 0.8004 H0: mơ hình khơng sai dạng hàm, khơng bỏ sót biến H1: H0 sai Vì p-value = 0.8004 > 𝛼 = 0.05 => Chấp nhận H0 Nên mơ hình khơng có sai dạng hàm, khơng có bỏ sót biến mức ý nghĩa 5% Ta chọn dạng hàm cho liệu (2) Chọn mơ hình cuối cùng? sao? > AIC(hq) [1] -362.1292 > BIC(hq) [1] -326.5587 Từ (1) (2) ta chọn mơ hình mơ hình cuối Dựa vào hàm hồi quy mẫu ta thấy tất biến độc lập phần giải thích cho biến phụ thuộc, xem xét mơ hình có bị đa cộng tuyến hay khơng xuất tình trạng đa cộng tuyến thấp mơ hình, xem xét việc chỉnh sửa lại liệu bỏ biến có hệ số VIF > 10 khỏi mơ hình để mơ hình tốt Dựa vào việc kiểm định xem mơ hình có bị bỏ sót biến hay sai dạng hàm hay khơng (2) ta nhận kết mơ hình khơng bị bỉ sót biến sai dạng hàm Chúng ta cịn nhìn vào hệ số xác định R2 =0.9992 giải thích 99.92% độ phù hợp mơ hình, nhìn vào tiêu chuẩn xác định độ phù hợp mơ hình khác AIC, BIC, ̅̅̅̅̅̅ R^2 từ lần khẳng định việc chọn mơ hình mơ hình cuối ... triệu chi tiêu tăng 1.08647 triệu điều kiện yếu tố khác không đổi 1.4) Hồi quy chi tiêu theo chi phí trọ >Chiphitro summary(Chiphitro) Call: lm(formula... Std Error t value Pr(>|t|) chiphish 1.5505 0.0413 37.54