Bài 4a. (Chapter 9) Dùng ngôn ngữ R và SPSS thực hiện các phép tính Hồi quy tuyến tính (Linear Regression) với tập tin dữ liệuHome Market ValueColleges and UniversitiesBài 4b Dữ liệu thực tế tùy chọn của Việt Nam
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng viên hướng dẫn: TS Nguyễn Đình Thn Nhóm thực hiện: Nhóm 8: Nguyễn Thị Cẩm Hoài – 17520499 Phạm Huỳnh Mỹ Hạnh – 17520443 Hồ Thị Ngọc Huyền – 17520596 Trương Thị Mỹ Linh – 17520692 Trà Thảo Nguyên - 17520831 TP HCM, ngày 03 tháng 05 năm 2020 Mục lục A.BÀI TẬP I Dữ liệu Home Market Value Sử dụng SPSS 1.1 Hồi quy đơn biến Chúng ta muốn phân tích, Square Feet có ảnh hưởng Market Value khơng mức độ ảnh hưởng Vào Analyze → Regression → Linear… Cửa sổ Linear Regression mở thực thiết lập sau: Đưa biến Market Value vào ô Dependent, Đưa biến Square Feet vào ô Independent(s) Xong bấm OK, kết sau: Hệ số tương quan R đo lường mức độ tương quan hai biến Hệ số tương quan R=0,731 Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) biến thiên biến phụ thuộc giải thích biến độc lập Hệ số R bình phương hiệu chỉnh Adjusted R Square 0.523 Có thể nói 52,3%sự biến đổi giá trị ngơi nhà giải thích biến đổi diện tích ngơi nhà Giá trị Sig( P-value) bảng ANOVA dùng để đánh giá phù hợp (tồn tại) mơ hình Giá trị Sig nhỏ (thường hệ số biến diện tích ngơi nhà có ý nghĩa thống kê 1.2 Hồi quy đa biến Chúng ta muốn phân tích Home Age, Square Feet có ảnh hưởng Market Value khơng mức độ ảnh hưởng Giải vấn đề dùng hồi quy tuyến tính đa biến, với biến phụ thuộc Market Value biến giải thích (độc lập) Home Age, Square Feet Trên SPSS, thực hồi quy tuyến tính đa biến sau: Vào Analyze → Regression → Linear… Cửa sổ Linear Regression mở thực thiết lập sau: Đưa biến Market Value vào ô Dependent, Đưa biến Home Age, Square Feet vào ô Independent(s) Xong bấm vào Statistics chọn Collinearity diagnostics (để tính hệ số VIF – hệ số phóng đại phương sai- để đánh giá tượng đa cộng tuyến) Xong bấm OK, kết sau: Bảng dùng để đánh giá độ phù hợp mơ hình hồi quy đa biến Hệ số tương quan R đo lường mức độ tương quan hai biến Hệ số tương quan R=0,745 Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) biến thiên biến phụ thuộc giải thích biến độc lập Hệ số R bình phương hiệu chỉnh Adjusted R Square 0.533 Nghĩa 53,3% biến thiên biến phụ thuộc giá trị ngơi nhà giải thích nhân tố độc lập độ tuổi diện tích ngơi nhà cịn lại ảnh hưởng sai số tự nhiên biến ngồi mơ hình Kiểm định giả thuyết độ phù hợp với tổng thể mơ hình Ta dùng giá trị F bảng phân tích ANOVA để kiểm định độ phù hợp Giá trị F= 24.395 với Sig kiểm định F =0.000 < 0.05 ta kết luận R bình phương tổng thể khác 0-> mơ hình hồi quy tuyến tính phù hợp với tập liệu suy rộng áp dụng cho toàn tổng thể Bảng Coefficients trình bày hệ số phương trình hồi quy tuyến tính giản đơn bao gồm số cắt αα tham số ββ ước lượng Phương trình hồi qui tuyến tính đa biến viết sau Giá trị nhà = 47331,382 + -825,161*(tuổi ngơi nhà) + 40,911*(diện tích ngơi nhà) Hệ số B diện tích 40.911, nghĩa biến diện tích tăng đơn vị biến Markert tăng 40.911 đơn vị Sig độ tuổi nhà > 0,05 sig diện tích ngơi nhà 0.000 => hệ số biến diện tích ngơi nhà có ý nghĩa thống kê cịn biến độ tuổi ngơi nhà khơng có ý nghĩa thống kê Hệ số hồi quy chuẩn hóa Beta, tất hệ số hồi quy, biến độc lập có Beta lớn biến ảnh hưởng nhiều đến thay đổi biến phụ thuộc =>Diện tích ngơi nhà ảnh hưởng nhiều đến thay đổi giá trị nhà Cột Collinearity Statistics kiểm tra mức độ đa cộng tuyến biến giải thích Theo quy tắc kinh nghiệm hệ số phóng đại phương sai (VIF) lớn 10 xem có tượng đa cộng biến Hệ số phóng đại phương sai VIF bé 2, chứng tỏ tượng đa cộng tuyến Sử dụng R Nhập liệu: Hệ số tương quan Giữa House.Age Square.Feet r1 = 0.6456685, ta thấy < r