1.Giới thiệu Chúng ta đều biết ăn, mặc, ở, đi lại, học tập, giải trí… là những nhu cầu cơ bản của con người hiện nay. Trong đó nhu cầu nhà ở là một nhu cầu thiết yếu và hiện tại có rất nhiều người chưa có được một ngôi nhà thuộc quyền sở hữu của mình vì giá nhà ở vượt quá khả năng tài chính của họ. Vậy những nhân tố nào tác động đến giá nhà, ở đây xin đưa ra một mô hình kinh tế lượng về giá nhà tại quận Cam, California, Mỹ. Tuy mô hình có thể chưa hoàn hảo nhưng sẽ góp phần giải thích sự biến thiên của giá nhà của quận Cam, cũng như mở ra hướng xây dựng mô hình về giá nhà ở Việt Nam khi có điều kiện. 2.Công thức mô hình Ta sử dụng phần mềm Stata tiến hành ước lượng, phân tích về hàm hồi quy cho mô hình chứa dữ liệu chéo là giá bán nhà tại quận Cam, bang California (Price) theo các biến độc lập là diện tích nhà (square) và tuổi của ngôi nhà (age): Price = β1 + β2 *square + β3 *age + u price: giá bán nhà (USD) square: diện tích ngôi nhà (feet vuông) age: tuổi của ngôi nhà (năm) 3. Mô tả dữ liệu và số liệu Dữ liệu gồm 150 quan sát của giá nhà, diện tích nhà và tuổi nhà tại một khu vực quận Cam, California. Nguồn dữ liệu được lấy từ một bài viết về kinh tế lượng, trong đó tác giả sử dụng phần mềm Eview. obs price square age 1 350000 2583 5 2 360000 3308 3 3 365000 2926 2 4 372000 3050 8 5 373000 3528 3 6 373000 2830 4 7 375000 3521 7 8 349000 3003 4 9 380000 3230 8 10 380000 3230 7 11 380000 3230 7 12 380000 2900 7 13 380000 3080 3 14 370000 3080 3 15 380000 3525 4 16 385000 3050 7 17 385000 3050 8 18 389000 3528 4 19 390000 2680 3 20 390000 3500 8 21 390000 3521 7 22 390000 2700 2 23 392000 2662 4 24 392000 3371 3 25 392000 3371 4 26 393000 3371 3 27 395000 2900 4 28 395000 3275 8 29 399000 3080 2 1 30 400000 3155 3 31 400000 3155 3 32 400000 3308 7 33 399900 3371 2 34 400000 3050 7 35 401000 2789 4 36 402500 3275 7 37 405000 3180 8 38 405000 3512 8 39 407000 3275 6 40 410000 3512 8 41 410000 2789 4 42 412000 3371 3 43 412000 3275 6 44 415000 3115 3 45 416000 3757 2 46 418000 3275 7 47 419500 3879 2 48 425000 3275 5 49 425000 3515 2 50 426000 3700 5 51 430000 3110 9 52 430000 3770 9 53 432000 3512 7 54 432000 3371 2 55 434000 3367 8 56 435000 3700 5 57 439000 3515 2 58 440000 3770 7 59 440000 3413 2 60 565000 3500 3 61 605000 3757 2 62 609000 3757 7 63 620000 3879 3 64 653000 4035 2 65 670000 4035 2 66 440000 3525 4 67 445000 3308 6 68 459900 3528 4 69 449960 3515 2 70 450000 3371 4 71 450000 3528 4 72 459500 3757 2 73 460000 2600 3 74 549000 2879 3 75 460000 4000 5 76 462000 3757 2 77 449900 3500 3 78 464820 3515 2 79 464900 3308 6 80 465000 3100 8 81 457325 3879 2 82 449950 3515 3 83 475000 3929 5 84 475000 4000 6 85 419950 3879 2 86 479950 4136 2 2 87 480000 3512 9 88 482750 3879 2 89 489950 3879 2 90 490000 4035 2 91 495000 3500 4 92 497500 3770 8 93 499900 4035 2 94 500000 3800 8 95 510000 4035 2 96 510000 3500 4 97 514900 4018 8 98 514900 3308 8 99 527500 3757 2 100 535000 4035 2 101 535000 3879 3 102 539000 3854 3 103 539000 3500 4 104 547000 4035 2 105 552000 4136 3 106 556700 3700 3 107 480000 2865 11 108 485000 3384 5 109 485000 3568 8 110 487000 3384 4 111 490000 3305 9 112 492000 3227 4 113 495000 3295 8 114 504000 3259 5 115 505000 3668 7 116 517000 3685 9 117 520000 3350 3 118 525000 2800 11 119 526000 3170 8 120 529000 3300 9 121 530000 3475 11 122 530000 3380 9 123 531050 3620 1 124 532500 3305 9 125 535000 3475 19 126 535000 3305 8 127 535000 3900 8 128 540000 4389 8 129 540000 3305 9 130 545000 3500 11 131 547500 3369 10 132 571000 3485 11 133 550000 3920 6 134 555000 3475 10 135 555000 3781 8 136 560000 2735 11 137 560000 3390 8 138 560000 3700 9 139 562000 3668 7 140 565000 4089 8 141 565000 4170 1 142 570000 2812 10 143 570000 4010 9 3 144 570000 3379 9 145 575000 3920 5 146 575000 3865 12 147 575000 4579 8 148 580000 2968 2 149 580000 3750 8 150 583000 4000 8 Sử dụng câu lệnh Sum trong Stata ta thu được kết quả: . sum Variable | Obs Mean Std. Dev. Min Max + price | 150 473414.7 72390.79 349000 670000 square | 150 3471.88 387.9313 2583 4579 age | 150 5.513333 3.051541 1 19 4.Ước lượng và kiểm định a.Ước lượng tham số Ta sử dụng câu lệnh trong Stata . reg price square age Thu được kết quả: Source | SS df MS Number of obs = 150 + F( 2, 147) = 33.47 Model | 2.4429e+11 2 1.2215e+11 Prob > F = 0.0000 Residual | 5.3653e+11 147 3.6499e+09 R-squared = 0.3129 + Adj R-squared = 0.3035 Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60414 price | Coef. Std. Err. t P>|t| [95% Conf. Interval] + square | 97.55019 12.83215 7.60 0.000 72.19086 122.9095 age | 6233.351 1631.305 3.82 0.000 3009.512 9457.191 _cons | 100365.6 46647.43 2.15 0.033 8179.397 192551.8 Ta có: β1=100365.6 β2= 97.55019 β3=6233.351 Các giá trị P>|t| đều nhỏ hơn 0.05 chứng tỏ các biến đều có ý nghĩa thông kê. b.Kiểm tra các lỗi có thể mắc phải của mô hình - Kiểm tra vấn đề đa cộng tuyến. Ta sử dụng câu lệnh: . vif Variable | VIF 1/VIF + age | 1.01 0.988509 square | 1.01 0.988509 + Mean VIF | 1.01 Chỉ số VIF của 2 tham số đều bằng 1.01 nhỏ hơn 10 rất nhiều, như vậy vấn đề đa cộng tuyến của mô hình là không đáng kể, có thế bỏ qua - Kiểm định giả thiết mô hình có phương sai thay đổi, dùng câu lệnh: . imtest, white White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(5) = 6.25 4 Prob > chi2 = 0.2825 Cameron & Trivedi's decomposition of IM-test Source | chi2 df p + Heteroskedasticity | 6.25 5 0.2825 Skewness | 15.71 2 0.0004 Kurtosis | -37562.29 1 1.0000 + Total | -37540.33 8 1.0000 Giá trị Prob > chi2 = 0.2825 lớn hơn 0.05 nên ta chấp nhận giả thiết H 0 : Mô hình không có phương sai thay đổi. - Kiểm tra xem mô hình có bỏ sót biến phi tuyến hay không, dùng câu lệnh: . ovtest Ramsey RESET test using powers of the fitted values of price Ho: model has no omitted variables F(3, 144) = 1.55 Prob > F = 0.2051 Prob > F = 0.2051 lớn hơn 0.05, ta chấp nhận giả thiết mô hinh không bỏ sót biến phi tuyến Hoặc ta dùng câu lệnh: . linktest Source | SS df MS Number of obs = 150 + F( 2, 147) = 33.96 Model | 2.4677e+11 2 1.2339e+11 Prob > F = 0.0000 Residual | 5.3405e+11 147 3.6330e+09 R-squared = 0.3160 + Adj R-squared = 0.3067 Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60274 price | Coef. Std. Err. t P>|t| [95% Conf. Interval] + _hat | 5516817 1.882592 -0.29 0.770 -4.272123 3.16876 _hatsq | 1.64e-06 1.99e-06 0.83 0.410 -2.29e-06 5.58e-06 _cons | 363584.7 443993 0.82 0.414 -513849 1241018 Ở đây các biến mới đều không có ý nghĩa thông kê nên mô hình không bỏ sót biến phi tuyến -Kiểm định MDW Bước1: . reg price square age Source | SS df MS Number of obs = 150 + F( 2, 147) = 33.47 Model | 2.4429e+11 2 1.2215e+11 Prob > F = 0.0000 Residual | 5.3653e+11 147 3.6499e+09 R-squared = 0.3129 + Adj R-squared = 0.3035 Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60414 price | Coef. Std. Err. t P>|t| [95% Conf. Interval] + square | 97.55019 12.83215 7.60 0.000 72.19086 122.9095 age | 6233.351 1631.305 3.82 0.000 3009.512 9457.191 _cons | 100365.6 46647.43 2.15 0.033 8179.397 192551.8 . predict hai (option xb assumed; fitted values) Bước 2: . gen lnprice=log( price) . gen lnsquare=log( square) . gen lnage=log( age) . reg lnprice lnsquare lnage 5 Source | SS df MS Number of obs = 150 + F( 2, 147) = 28.71 Model | .975733472 2 .487866736 Prob > F = 0.0000 Residual | 2.49777528 147 .016991669 R-squared = 0.2809 + Adj R-squared = 0.2711 Total | 3.47350875 149 .023312139 Root MSE = .13035 lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval] + lnsquare | .7016549 .0950507 7.38 0.000 .5138125 .8894973 lnage | .048984 .0177739 2.76 0.007 .0138587 .0841093 _cons | 7.265007 .7787713 9.33 0.000 5.725973 8.804041 . predict lnhai (option xb assumed; fitted values) Bước 3: . gen z1=log( hai)- lnhai Bước 4: . reg price square age z1 Source | SS df MS Number of obs = 150 + F( 3, 146) = 28.20 Model | 2.8644e+11 3 9.5479e+10 Prob > F = 0.0000 Residual | 4.9439e+11 146 3.3862e+09 R-squared = 0.3668 + Adj R-squared = 0.3538 Total | 7.8082e+11 149 5.2404e+09 Root MSE = 58191 price | Coef. Std. Err. t P>|t| [95% Conf. Interval] + square | 83.29237 13.004 6.41 0.000 57.59196 108.9928 age | -610.5794 2496.511 -0.24 0.807 -5544.548 4323.389 z1 | 1848571 524003.8 3.53 0.001 812958.1 2884183 _cons | 173022.5 49426.53 3.50 0.001 75338.58 270706.4 Bước 5: . gen z2=hai-exp( lnhai+0.01699/2) Bước 6: . reg lnprice lnsquare lnage z2 Source | SS df MS Number of obs = 150 + F( 3, 146) = 27.87 Model | 1.26470315 3 .421567715 Prob > F = 0.0000 Residual | 2.2088056 146 .015128806 R-squared = 0.3641 + Adj R-squared = 0.3510 Total | 3.47350875 149 .023312139 Root MSE = .123 lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval] + lnsquare | .6132391 .0919424 6.67 0.000 .4315291 .7949491 lnage | 0006875 .0202595 -0.03 0.973 0407273 .0393523 z2 | 7.63e-06 1.75e-06 4.37 0.000 4.18e-06 .0000111 _cons | 8.062178 .7571418 10.65 0.000 6.565804 9.558552 Nhận xét: Cả hai biến z1 và z2 đều có ý nghĩa thống kê nên ta kết luận cả hai mô hình tuyến tính và log-log đều không đủ c.Mở rộng Ta có thể sử dụng mô hình log-log thay cho mô hinh tuyến tính. Lnprice = β1 + β2*lnsquare + β3*lnage Tạo ra biến mới bằng các câu lệnh: . gen lnprice=log(price) 6 . gen lnsquare=log(square) . gen lnage =log(age) Hồi quy trên các biến mới thu được kết quả sau: . reg lnprice lnsquare lnage Source | SS df MS Number of obs = 150 + F( 2, 147) = 28.71 Model | .975733472 2 .487866736 Prob > F = 0.0000 Residual | 2.49777528 147 .016991669 R-squared = 0.2809 + Adj R-squared = 0.2711 Total | 3.47350875 149 .023312139 Root MSE = .13035 lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval] + lnsquare | .7016549 .0950507 7.38 0.000 .5138125 .8894973 lnage | .048984 .0177739 2.76 0.007 .0138587 .0841093 _cons | 7.265007 .7787713 9.33 0.000 5.725973 8.804041 Ở đây các biến đều có ý nghĩa thống kê Tiếp tục kiểm tra các lỗi của mô hình log-log như cách đã thực hiện với mô hình tuyến tính ta thu được các kết luận là mô hình đang xét có đa cộng tuyến không đáng kể, không có phương sai thay đổi và không bỏ sót biến phi tuyến. 5.Giải thích kết quả thu được Ở mô hình tuyến tính ta có: β1=100365.6 β2= 97.55019 β3=6233.351 điều đó có nghĩa khi diện tích nhà tăng 1 feet vuông thì giá nhà tăng thêm 97.55 USD, khi tuổi của ngôi nhà tăng thêm 1 năm thì giá nhà tăng thêm 6233.351 USD. Mô hình có R 2 hiệu chỉnh bằng 0.3035 cho thấy mô hình giải thích được 30.35% sự biến thiên của giá nhà Ở mô hình log-log: β1= 7.265007 β2= 0.7016549 β3= 0.048984 khi diện tích nhà tăng thêm 1% thì giá nhà tăng thêm 0.7%, khi tuổi của ngôi nhà tăng thêm 1% thì giá nhà tăng thêm 0.05%. Mô hình log-log giải thích được 27.11% sự biến thiên của giá nhà. Vậy khi phải lựa chọn giữa mô hình tuyến tính và mô hình log-log thì ta sẽ chọn mô hình tuyến tính vì mô hình này đơn giản hơn và giải thích được nhiều hơn. 6.Kết luận Qua kiêm tra ta thấy mô hình mà ta đưa ra lúc đầu là mô hình tốt, không mắc các lỗi đã nêu ở trên, có thể sử dụng mô hình để dự báo giá nhà trong tương lai. 7.Mở rộng Trong phần dữ liệu của mô hình thì các quan sát là những ngôi nhà trong cùng một khu vực và có cùng số chỗ để ô tô, ta có thêm các quan sát khác và mở rộng mô hình bằng cách thêm các biến về ví trí nhà và số chỗ để xe trong garage. 7 . nhà và tuổi nhà tại một khu vực quận Cam, California. Nguồn dữ liệu được lấy từ một bài viết về kinh tế lượng, trong đó tác giả sử dụng phần mềm Eview. obs price square age 1 350000 2583 5 2. chính của họ. Vậy những nhân tố nào tác động đến giá nhà, ở đây xin đưa ra một mô hình kinh tế lượng về giá nhà tại quận Cam, California, Mỹ. Tuy mô hình có thể chưa hoàn hảo nhưng sẽ góp phần. cũng như mở ra hướng xây dựng mô hình về giá nhà ở Việt Nam khi có điều kiện. 2.Công thức mô hình Ta sử dụng phần mềm Stata tiến hành ước lượng, phân tích về hàm hồi quy cho mô hình chứa dữ liệu