Phương pháp nghiên cứu
PHÂN TÍCH TƯƠNG QUAN VÀ HOI QUY MỤC TIÊU Sau hoàn thành phần nầy, học viên co khả năng: Tính tốn phân tích hệ số tương quan giàn đơn hai biến Xác định mức độ tin cậy thống kê hệ số tương quan Tính tốn giải thích hàm tương quan tuyến tính đơn biến Thơng hiểu giả thuyết xây dựng hàm tương quan Biết cách kiểm định hàm tương quan Sơ đồ phân tán hệ số tương quan Sơ đồ phân tán thể mối quan hệ giửa hai biến Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến Hệ số tương quan mối quan hệ nhân Sơ đồ phân tán (scatter plot) Quan hệ tuyến tính Quan hệ phi tuyến y y x y x y x x Sơ đồ phân tán (scatter plot) (continued) Strong relationships y Weak relationships y x y x y x x Sơ đồ phân tán (scatter plot) (continued) X y khơng có quan hệ y x y x Hệ số tương quan (continued) Hệ số tương quan đám đông ký hiệu ρ (rho) thể đồng hành hai biến Hệ số tương quan mẩu r dùng ước lượng cho rho thể tương quan tuyến tính dựa phần tử quan sát từ mẩu Đặc điểm ρ and r Khơng có đơn vị đo lường Biến động phạm vi -1 và1 Càng gần -1, mối quan hệ nghịch biến cao Càng gần +1, mối quan hệ đồng biến cao Càng gần 0, mối quan hệ tuyến tính yếu Một số ví dụ giá trị r y y y x r = -1 r = -.6 y x x r=0 y r = +.3 x r = +1 x Cách tính hệ số tương quan r (x x )( y y ) [ ( x x) ][ ( y y) ] 2 Cách tính tương đương r n xy x y [n( x ) ( x )2 ][n( y ) ( y)2 ] Các ký hiệu: r = Hệ số tương quan mẩu n = Cở mẩu x = giá trị biến độc lập y = Các giá trị biến phụ thuộc Ví dụ tình đặc biệt R2 y < R2 < x y x Mối quan hệ tuyến tính yếu: Một phận biến thiên y giải thích biến thiên x Ví dụ tình đặc biệt R2 R2 = y Khơng có mối quan hệ tuyến tính giửa x y R2 = x Kết Excel ESS 18934.9348 R 0.58082 TSS 32600.5000 Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 58.08% of the variation in house prices is explained by variation in square feet 41.33032 Observations 10 ANOVA df SS MS F 11.0848 Regression 18934.9348 18934.9348 Residual 13665.5652 1708.1957 Total Significance F 32600.5000 Coefficients Intercept Square Feet Standard Error t Stat P-value 0.01039 Lower 95% Upper 95% 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Độ lệch tiêu chuẩn ước lượng Độ lệch tiêu chuẩn biến thiên biến phụ thuộc xoay quanh đường tương quan ước lượng côg thức RSS s n k 1 Các ký hiệu RSS = Tổng biến thiên sai lệch (phần dư) n = Cở mẩu k = Số lượng biến độc lập Độ lệch chuẩn hệ số góc hàm tương quan Độ lệch chuẩn hệ số góc hàm tương quan (b1) tính theo cơng thức sau: sb1 sε (x x) sε ( x) x n where: sb1 = sai lệch tiêu chuẩn hệ số góc hàm tương quan sε RSS = Sai lệch chuẩn ước lượng n2 Kết Excel Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square s ε 41.33032 0.52842 Standard Error sb1 0.03297 41.33032 Observations 10 ANOVA df SS MS F 11.0848 Regression 18934.9348 18934.9348 Residual 13665.5652 1708.1957 Total Significance F 32600.5000 Coefficients Intercept Square Feet Standard Error t Stat P-value 0.01039 Lower 95% Upper 95% 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 So sánh sai lệch chuẩn ước lượng hệ số góc hàm tương quan y Biến thiên giá trị quan sát y khỏi đường tương quan small s y x y Biến thiên hệ số góc đường tương quan từ mẩu khác small sb1 x large s b1 x y large s x Kiểm định t cho hệ số góc với hàm tương quan biến Kiểm định t Có mối quan hệ tuyến tính giửa x y hay không? Thiết lập giả thuyết H0: β1 = 0 H1: β1 Test statistic b1 β1 t sb1 d.f n Inference about the Slope: t Test (continued) House Price in $1000s (y) Square meter (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 Estimated Regression Equation: house price 98.25 0.1098 (m2) Kiểm định t cho hệ số góc Test Statistic: t = 3.329 H0: β1 = HA: β1 From Excel output: Coefficients Intercept Square Feet b1 Standard Error sb1 t t Stat P-value 98.24833 58.03348 1.69296 0.12892 0.10977 0.03297 3.32938 0.01039 d.f = 10-2 = a/2=.025 Reject H0 a/2=.025 Do not reject H0 -tα/2 -2.3060 Reject H tα/2 2.3060 3.329 Decision: Từ chối Ho Reject H0 Kết luận Có đủ chứng cho thấy diện tích hộ tác động đến giá bán affects house price Phân tích mơ tả với hàm tương quan Khoảng ước lượng hệ số góc b1 t a/2 sb1 d.f = n - Excel Printout for House Prices: Coefficients Intercept Square meter Standard Error t Stat P-value Lower 95% Upper 95% 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 At 95% level of confidence, the confidence interval for the slope is (0.0337, 0.1858) Phân tích mơ tả với hàm tương quan Coefficients Intercept Standard Error t Stat P-value Lower 95% Upper 95% 98.24833 Square meter 58.03348 1.69296 0.12892 -35.57720 232.07386 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Since the units of the house price variable is $1000s, we are 95% confident that the average impact on sales price is between $33.70 and $185.80 per square meter of house size This 95% confidence interval does not include Conclusion: There is a significant relationship between house price and square feet at the 05 level of significance Residual Analysis Purposes Examine for linearity assumption Examine for constant variance for all levels of x Evaluate normal distribution assumption Graphical Analysis of Residuals Can plot residuals vs x Can create histogram of residuals to check for normality Residual Analysis for Linearity y y x x Not Linear residuals residuals x x Linear Residual Analysis for Constant Variance y y x x Non-constant variance residuals residuals x x Constant variance ... hàm tương quan Biết cách kiểm định hàm tương quan Sơ đồ phân tán hệ số tương quan Sơ đồ phân tán thể mối quan hệ giửa hai biến Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng... số tương quan Giả thuyết H0: ρ = (Khơng có quan hệ tương quan) HA: ρ ≠ (Có quan hệ tương quan) Cơng thức tính t r (with n – degrees of freedom) 1 r n2 Ví dụ Có mối quan hệ tương quan. .. tốn phân tích hệ số tương quan giàn đơn hai biến Xác định mức độ tin cậy thống kê hệ số tương quan Tính tốn giải thích hàm tương quan tuyến tính đơn biến Thơng hiểu giả thuyết xây dựng hàm tương