Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
1 MB
Nội dung
1 TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MƠN TỐN LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC HỒI QUY TUYẾN TÍNH VÀ ỨNG DỤNG GIÁO VIÊN HƯỚNG DẪN SINH VIÊN THỰC HIỆN ThS VÕ VĂN TÀI LÊ THỊ DIỆU HIỀN BỘ MƠN TỐN – KHOA KHTN NGÀNH: TỐN ỨNG DỤNG Cần Thơ, Tháng 05/2010 LỜI CẢM ƠN - Tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy Võ Văn Tài, người tận tình hướng dẫn, bảo, khích lệ động viên tơi suốt q trình làm đề tài Bên cạnh Thầy giúp tơi hiểu thêm vấn đề liên quan đến đề tài mà thân tơi cịn chưa rõ, từ giúp mở rộng kiến thức thêm yêu ngành Để đạt kết ngày hơm nay, tơi xin gửi lời cảm ơn đến tồn thể q thầy Bộ mơn tốn – Khoa Khoa học tự nhiên trường Đại học Cần Thơ trang bị cho kiến thức bản, kỹ cần thiết suốt bốn năm học tập trường, hành trang quý báu, giúp không thực tốt đề tài tốt nghiệp mà cịn giúp tơi tự tin vững bước đường nghiệp tới Tôi xin cảm ơn quý thầy cô Hội đồng bảo vệ dành thời gian xem xét, chỉnh sửa sai sót đóng góp ý kiến mặt cịn hạn chế đề tài để đề tài hoàn chỉnh Xin chân thành gửi lời cảm ơn đến quý Cô Chú, anh chị làm việc Cục Thống kê thành phố Cần Thơ nhiệt tình giúp đỡ tơi, cung cấp cho số liệu, thông tin cần thiết suốt thời gian thực đề tài Tôi xin cảm ơn bạn, người sát cánh tôi, giúp đỡ động viên suốt thời gian qua Cuối cùng, tơi xin kính lời cảm ơn đến gia đình tơi, người dạy dỗ, khuyến khích, động viên tạo điều kiện tốt cho tơi suốt q trình học tập Dù cố gắng với tận tâm Thầy hướng dẫn song trình độ cịn hạn chế nên khó tránh khỏi thiếu sót Rất mong nhận thơng cảm góp ý Thầy Cơ bạn Cần Thơ, tháng năm 2010 Lê Thị Diệu Hiền DANH MỤC CÁC TỪ VIẾT TẮT/ KÍ HIỆU PRF Hàm hồi quy tổng thể OLS Phương pháp bình phương bé SST Tổng biến thiên biến phụ thuộc SSR Biến thiên hồi quy SSE Biến thiên phần dư MSE Bình phương trung bình thặng dư MSR Bình phương trung bình hồi quy DANH MỤC CÁC BẢNG Trang Bảng 1.1 Mức độ quan hệ tuyến tính hai biến thực tế Bảng 1.2 Bảng tóm tắt kiểm định giả thuyết = Bảng 1.3 Kiểm định giả thuyết hệ số độ dốc 26 Bảng 1.4 Kiểm định giả thuyết hệ số tự 27 Bảng 1.5 Bảng phân tích phương sai hồi quy 28 Bảng 1.6 Bảng phân tích phương sai cho ví dụ 1.4 29 Bảng 2.1 Bảng ANOVA cho phân tích hồi quy bội 48 Bảng 2.2 Tóm tắt kiểm định giả thuyết biến độc lập 49 Bảng 2.3 Ý nghĩa tùy chọn nút lệnh hộp thoại Regression 58 DANH MỤC CÁC HÌNH Trang Hình 1.1 Số liệu rời rạc ví dụ 1.1 trục Oxy Hình 1.2 Biểu diễn ý nghĩa hệ số tự 14 Hình 1.3 Độ lệch trị quan sát so với giá trị ước lượng 17 Hình 1.4 Đồ thị phân tán doanh số bán số năm kinh nghiệm 20 Hình 1.5 Minh họa tổng bình phương sai lệch 25 Hình 1.6 Biểu diễn đường hồi quy mẫu, khoảng tin cậy giá trị trung bình giá trị cụ thể 32 Hình 2.1 Thực add phần mềm xử lý vào Excel 57 Hình 2.2 Tạo hộp thoại Data Analysis 57 Hình 2.3 Hộp thoại Regression 58 MỤC LỤC PHẦN MỞ ĐẦU 1 Vấn đề dự báo Giới thiệu vấn đề nghiên cứu Bố cục luận văn Chương 1: HỒI QUY TUYẾN TÍNH ĐƠN 1.1 Giới thiệu 1.2 Hệ số tương quan 1.2.1 Công thức 1.2.2 Tính chất ý nghĩa 1.2.3 Hệ số tương quan mẫu 1.2.4 Kiểm định hệ số tương quan 1.3 Tỷ tương quan 1.3.1 Tỷ số tương quan tổng thể 10 1.3.2 Tỷ số tương quan mẫu 11 1.4 Xây dựng đường hồi quy tuyến tính đơn 12 1.4.1 Mơ hình hồi quy tuyến tính đơn tổng thể 13 1.4.2 Sai số ngẫu nhiên chất 14 1.4.3 Phương trình hồi quy tuyến tính mẫu 15 1.5 Các tham số liên quan đến hồi quy tuyến tính đơn 20 1.5.1 Tham số đặc trưng hệ số đường hồi quy mẫu 20 1.5.2 Thặng dư sai số chuẩn 22 1.5.3 Hệ số xác định 24 1.6 Kiểm định hồi quy tuyến tính đơn 26 1.6.1 Kiểm định giả thuyết hệ số đường hồi quy 26 1.6.2 Kiểm định tương quan tuyến tính qua hệ số hồi quy 27 1.7 Khoảng ước lượng hồi quy 29 1.7.1 Khoảng tin cậy cho hệ số hồi quy 29 1.7.2 Khoảng tin cậy việc dự báo 30 Chương 2: HỒI QUY TUYẾN TÍNH BỘI 33 2.1 Giới thiệu 33 2.2 Sự tương quan nhiều biến định lượng 33 2.2.1 Ma trận hệ số tương quan 33 2.2.2 Hệ số tương quan riêng phần 34 2.2.3 Hệ số xác định hệ số xác định điều chỉnh 34 2.3 Hệ số tương quan biến định tính 37 2.3.1 Hệ số tương quan hạng Spearman 37 2.3.2 Hệ số tương quan hạng Kendall 39 2.4 Xây dựng đường hồi quy tuyến tính bội 41 2.4.1 Phương trình hồi quy tổng thể 41 2.4.2 Giả thuyết để xây dựng mơ hình hồi quy tuyến tính bội 41 2.4.3 Đường hồi quy mẫu 42 2.5 Một số vấn đề liên quan đến hồi quy tuyến tính bội 46 2.5.1 Các tham số đặc trưng 46 2.5.2 Kiểm định giả thuyết hồi quy bội 47 2.5.3 Khoảng tin cậy hệ số hồi quy bội 49 2.6 Hồi quy có biến độc lập định tính 50 2.6.1 Bản chất biến giả 50 2.6.2 Xây dựng đường hồi quy 51 2.7 Ứng dụng phần mềm Excel 55 2.7.1 Tổng quát phần mềm Microsoft Excel 56 2.7.2 Các bước thực phân tích tương quan hồi quy 57 2.8 Một số mơ hình hồi quy phi tuyến đưa tuyến tính 62 2.8.1 Dạng log - tuyến tính 62 2.8.2 Mơ hình hồi quy dạng hàm mũ 63 2.8.3 Mơ hình Cob-Douglas 64 2.8.4 Một số mơ hình khác 65 Chương 3: MỘT SỐ VÍ DỤ ỨNG DỤNG 68 3.1 Giới thiệu 68 3.2 Phương pháp thực 69 3.3 Ví dụ 69 3.3.1 Dữ liệu 69 3.3.2 Các bước thực 71 3.3.3 Một số nhận xét 72 3.4 Ví dụ 74 3.4.1 Dữ liệu 74 3.4.2 Các bước thực 75 3.4.3 Một số nhận xét 76 KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 79 PHẦN MỞ ĐẦU Vấn đề dự báo Dự báo công việc quan trọng, thiếu lĩnh vực Nó khoa học nghệ thuật tiên đoán việc xảy tương lai, sở phân tích khoa học liệu thu thập Khi tiến hành dự báo ta vào việc thu thập xử lý số liệu khứ để xác định xu hướng vận động tượng tương lai nhờ vào số mơ hình tốn học Dự báo dự đốn chủ quan khách quan tương lai Nhưng dự báo xác hơn, người ta cố loại trừ tính chủ quan người dự báo Dự báo thống kê dự báo thỏa mãn điều kiện Dự báo thống kê phương pháp thống kê dùng để lượng hóa tiên đốn nhân tố ảnh hưởng, mối quan hệ nhân quả, trạng thái hay trình mới, chiều hướng biến động tượng sở phân tích thực trạng đối tượng khứ cách khoa học Dự báo tốt giúp tổ chức hình dung tương lai để hoạch định hướng phù hợp Dự báo xem tập hợp công cụ giúp người ta định thực phán đốn tốt có kiện xảy tương lai Dự báo có độ xác cao cung cấp sở tin cậy cho hoạch định sách xây dựng chiến lược kinh doanh Các tổ chức hoạt động giới liên tục thay đổi định phải thực hơm ảnh hưởng sống cịn tới tương lai Vì vậy, dự báo ln ln cần thiết nhu cầu thiếu hoạt động kinh tế - xã hội, khoa học - kỹ thuật, tất ngành khoa học quan tâm nghiên cứu Giới thiệu vấn đề nghiên cứu Cho đến có nhiều phương pháp dự báo khác nhau, người ta thường sử dụng phương pháp sau: - Dự báo phương pháp chuyên gia 10 - Dự báo theo phương trình hồi quy - Dự báo dựa vào dãy số thời gian Trong phân tích hoạt động kinh doanh nhiều lĩnh vực khác, hồi quy công cụ phân tích đầy sức mạnh khơng thể thay Nó phương pháp thống kê dùng để ước lượng, dự báo kiện xảy tương lai dựa vào quy luật khứ Hồi quy dùng đường lý thuyết để mô tả luật biến thiên điểm liệu quan sát, giúp nhìn thấy mối liên hệ biến nghiên cứu diễn theo quy luật Cụ thể hơn, phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc biến (gọi biến phụ thuộc) vào hay nhiều biến khác (gọi biến độc lập) Thuật ngữ “hồi quy” nhà nghiên cứu Francis Galton sử dụng lần vào cuối kỷ 19 nghiên cứu nhằm tìm hiểu có ổn định chiều cao trung bình dân số, nguyên văn cụm từ “regression to mediocrity”-“hồi quy trung bình”, kể từ trở vấn đề hồi quy nhiều người quan tâm hoàn thiện qua ứng dụng có nội dung rộng nhiều so với nghiên cứu ban đầu mà sử dụng Trong mơ hình hồi quy, hồi quy tuyến tính xem tảng, sở để xây dựng đường hồi quy khác, mơ hình mơ hình phổ biến để diễn tả mối quan hệ đại lượng thực tế Vì vậy, luận văn nghiên cứu tất vấn đề liên quan đến hồi quy tuyến tính Bố cục luận văn Nội dung luận văn gồm có phần mở đầu, phần nội dung, phần kết luận danh mục tài liệu tham khảo Phần nội dung gồm có chương: Chương 1, chương chương Chương 1: Hồi quy tuyến tính đơn Chương nghiên cứu vấn đề liên quan đến hồi quy tuyến tính đơn hệ số tương quan, xây dựng đường hồi quy, thống kê liên quan đến hệ số tương quan đường hồi quy, chương giới thiệu tỷ tương quan hệ số xác định 71 Các mơ hình hàm mũ đưa dạng hàm log cách lấy logragit hóa hai vế 2.8.3 Mơ hình Cob-Douglas Mơ hình hồi quy có dạng yi x11 x 2 xi j xk k (2.26) Trong y kết sản xuất x11 , x 2 , , xi j , , xk k mức đầu tư yếu tố sản xuất (đất đai, lao động, công nghệ…) cho sản xuất , 1 , ,…, k tham số chưa biết cố định Đây mối liên hệ phi tuyến, ta biến đổi quan hệ cách logarit hóa hai vế phương trình : ln y ln 1 ln x1 ln x k ln x k Mơ hình tuyến tính theo logarit biến số Mơ hình gọi mơ hình logarit-logarit, logarit kép hay tuyến tính logarit Ta sử dụng phương pháp bình phương bé để ước lượng cho tham số mô hình Mơ hình thường sử dụng để dự báo sản suất 2.8.4 Một số mơ hình khác a) Hồi quy dạng đa thức yi 1 x x k x k (2.27) Đặt x v1 , x v , …, x k vk ta có mơ hình tuyến tính yi 1v1 v2 k vk b) Hồi quy dạng hyperbol bội y 0 Đặt 1 k x1 x x3 xk (2.28) vi , phương trình viết lại xi y 1v1 v v3 k v k Chú ý: Ngồi mơ hình hồi quy phi tuyến phổ biến đưa dạng tuyến tính, cịn có nhiều mơ hình khác làm điều 72 Sau ví dụ xây dựng đường hồi quy theo mơ hình Cob-Douglas từ mơ hình tuyến tính logarit Ví dụ 2.10 Nghiên cứu mối tương quan đại lượng y nhân tố x1 , x , x3 , x theo quan hệ y i x11 x 2 x3 x 4 Ta có bảng số liệu sau để xây dựng hàm cần nghiên cứu độ tin cậy 95% y x1 x2 x3 x4 34 34 35 36 33 38 31 37 32 39 36 12 12.5 12.5 12.8 11 14 13 12.7 12.6 14 13 8.1 8.1 8.2 8.3 8.8 7.5 7.4 8.9 8.1 5 6 7 6.5 6.4 4.3 4.3 4.5 4.6 4.6 4.8 4.1 4.9 4.5 Nhập số liệu vào Excel Sau sử lý Excel ta kết xuất sau: SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 0.959088858 0.919851437 0.866419062 0.026098779 11 ANOVA Regression df SS MS F Significance F 0.0469044 0.0117261 17.21524515 0.001935636 73 Residual 0.004086878 Total 10 0.050991277 0.000681146 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 2.039738146 0.323327941 6.308573697 0.000740196 1.248583176 2.830893115 lnx1 -0.689290788 0.558649951 -1.23385098 0.263394208 -2.056257971 0.677676396 lnx2 1.061019785 0.798356798 1.329004509 0.232148957 -0.892488923 3.014528493 lnx3 0.21271394 0.193509538 1.099242666 0.313801041 -0.26078684 0.686214721 lnx4 0.454850848 0.412545789 1.102546336 0.312472841 -0.55461233 1.464314025 Phương trình hồi quy tìm ln y 2.0397 0.689 ln x1 1.061ln x2 0.213 ln x3 0.455 ln x Hay y e 2.0397 x1 0.689 x 1.061 x3 0.213 x 0.455 74 Chương MỘT SỐ VÍ DỤ ỨNG DỤNG CỦA HỒI QUY TUYẾN TÍNH 3.1 GIỚI THIỆU Dự báo công việc quan trọng, thiếu lĩnh vực Hiện có nhiều phương pháp dự báo, dự báo cách xây dựng đường hồi quy phương pháp quan trọng Trong mơ hình hồi quy hồi quy tuyến tính xem tảng, sở mô hình hồi quy khác Dự đốn mơ hình hồi quy tuyến tính xem thơng dụng đơn giản Nó áp dụng hầu hết lĩnh vực sống từ đơn giản đến phức tạp Trong chương chương tổng kết đầy đủ chi tiết hồi quy tuyến tính đơn bội Trong chương sử dụng kết vào vấn đề cụ thể Chương xét hai liệu thật Dữ liệu thứ điểm thi đầu vào đại học năm 2006 điểm trung bình tích lũy năm học tất sinh viên ngành Tốn ứng dụng K32 niên khóa 2006-2010, trường Đại học Cần Thơ Mục đích ví dụ xem xét tương quan điểm trung bình tích lũy năm học sau với điểm trung bình tích lũy năm học trước với điểm tuyển sinh đầu vào để từ thiết lập đường hồi quy tuyến tính cụ thể Dữ liệu thứ hai xét tỷ lệ sinh viên tốt nghiệp trung bình năm số trường đại học Mỹ có chuẩn đầu vào với số vấn đề liên quan điểm để nhập học vào trường, chi phí học tập, loại trường học theo giới tính Dữ liệu lấy sách Introduction to Statistics and Data Analysis nhà xuất Trust năm 2008 có trang web (www.collegeresults.org) Mục đích ví dụ tìm đường hồi quy tuyến tính thể mối quan hệ tỷ lệ sinh 75 viên tốt nghiệp đại học trung bình năm với điểm đầu vào, chi phí học tập loại trường học theo giới tính 3.2 PHƯƠNG PHÁP THỰC HIỆN Để xây dựng đường hồi quy tuyến tính từ số liệu cụ thể ta thực theo bước sau: Bước 1: Xác định rõ ràng mục đích cơng việc, chọn biến phụ thuộc biến độc lập ảnh hưởng đến biến phụ thuộc Bước 2: Chọn mẫu từ tổng thể, quan sát biến phụ thuộc, biến độc lập từ mẫu, loại bỏ mẫu bất thường (mẫu có khác biệt nhiều so với đa số mẫu), mã hóa liệu cần Bước 3: Tính hệ số tương quan đôi biến độc lập với biến phụ thuộc Những biến độc lập có hệ số tương quan với biến phụ thuộc nhỏ loại khỏi danh sách biến độc lập thiết lập đường hồi quy Chỉ giữ lại biến độc lập có hệ số tương quan với biến phụ thuộc tương đối lớn với mức độ Bước 4: Trong biến độc lập giữ lại, tính đơi hệ số tương quan chúng Nếu cặp biến có hệ số tương quan lớn, ta giữ lại biến có hệ số tương quan với biến phụ thuộc lớn Bước 5: Nhập liệu mẫu với biến phụ thuộc biến độc lập giữ lại vào phần mềm Trong luận văn sử dụng phần mềm Excel để xử lý Bước 6: Ghi nhận kết tính tốn, kiểm tra tiến hành dự báo cần thiết 3.3 VÍ DỤ 3.3.1 Dữ liệu Nguồn liệu lấy điểm thi đầu vào Đại học điểm trung bình tích lũy năm học tất sinh viên ngành Tốn ứng dụng K32 niên khóa 2006-2010 trường đại học Cần Thơ Các số liệu Phòng đào tạo Trường cung cấp Số liệu chi tiết cho bảng sau: 76 Bảng 3.1 Điểm thi tuyển sinh điểm trung bình tích lũy sinh viên ngành Tốn ứng dụng K32 niên khóa 2006-2010 Trường đại học Cần Thơ DIEM TT NAM NAM NAM 2006 2007 2008 STT MSSV HO TEN 1066260 Trần Thị Chọn 12.00 5.955 1.981 2.475 1066261 Nguyễn Thị Thuý Diễm 12.00 6.445 1.873 2.910 1066262 Phạm Tường Duy 13.50 4.950 1.693 2.525 1066263 Lê Mỹ Giang 13.50 6.205 1.895 2.805 1066264 Chung Văn Giang 12.00 5.970 1.466 1.905 1066265 Nguyễn Đặng Long Hải 12.00 6.515 2.902 3.615 1066266 Cao Lệ Hân 14.00 7.070 2.887 3.110 1066267 Lê Thị Diệu Hiền 16.00 7.180 2.407 3.480 1066268 Nguyễn Thị Minh Hiền 15.50 6.475 2.464 2.510 10 1066269 Trần Ngọc Hiền 14.00 6.935 2.198 3.025 11 1066271 Phạm Văn Hiếu 14.00 5.455 1.561 2.665 12 1066272 Nguyễn Văn Hiếu 12.50 6.510 1.668 2.945 13 1066274 Trần Thị Tuyết Hoa 12.50 5.750 1.479 2.995 14 1066275 Nguyễn Hồ Tường Huy 13.00 5.020 1.773 2.415 15 1066276 Nguyễn Thị Bích Huyền 11.00 6.560 2.510 3.685 16 1066277 Ngô Nguyễn Thanh Hương 14.00 6.205 2.135 2.975 17 1066278 Huỳnh Quốc Khoa 12.50 6.035 1.401 2.250 18 1066279 Võ Văn Khoa 13.50 6.605 2.290 2.725 19 1066281 Huỳnh Thúy Kiều 12.50 5.430 5.690 2.400 20 1066282 Huỳnh Tú Lá 13.00 5.885 1.661 2.600 21 1066283 Lương Thị Mỹ Lệ 13.00 6.900 1.970 2.350 22 1066284 La Thị Thùy Linh 13.00 6.395 2.245 3.000 23 1066285 Đặng Chí Linh 12.00 6.180 2.118 2.950 24 1066286 Phan Thùy Linh 14.00 6.990 2.831 3.420 25 1066288 Lê Hoàng Long 12.00 6.180 1.949 2.200 26 1066289 Trần Thị Ngọc Mai 12.50 6.665 2.495 3.545 27 1066290 Nguyễn Thị Chúc Mai 13.00 6.475 2.159 2.300 28 1066291 Trang Tú Mạnh 12.00 6.930 3.175 3.560 29 1066293 Lương TịÞ Kim Ngân 11.50 6.195 1.847 3.130 30 1066294 Trần Thị Hải Nguyên 13.50 6.175 2.045 3.085 31 1066296 Nguyễn Thị Kim Nhiên 14.50 5.080 1.579 2.730 32 1066297 Trần Văn Nhớ 14.00 5.995 1.575 2.335 33 1066299 Nguyễn Văn Pha 14.00 7.260 2.471 3.065 34 1066300 Lê Hoàng Phước 14.50 6.225 2.138 3.000 35 1066301 Huỳnh Ngọc Quý 14.50 6.765 2.041 2.085 36 1066302 Phạm Thị Thu Quỳnh 12.00 6.430 2.546 2.975 77 37 1066304 Lê Kim Sang 12.50 7.435 2.457 3.195 38 1066305 Huỳnh Thanh Siêng 14.00 6.990 2.383 3.250 39 1066306 Đỗ Thành Tài 14.00 6.590 2.051 2.880 40 1066307 Huỳnh Phước Tâm 11.00 5.645 1.959 2.425 41 1066308 Trần Mỹ Tâm 15.50 7.365 2.767 3.500 42 1066309 Trần Duy Tấn 12.00 5.865 1.731 2.650 43 1066310 Trần Tấn Thanh 14.50 6.910 1.948 2.775 44 1066311 Võ Thị Kiều Thanh 12.00 7.720 2.665 3.635 45 1066312 Bành Hiếu Thảo 13.50 5.705 1.501 1.775 46 1066313 Trần Như Thảo 15.50 7.635 2.320 2.985 47 1066314 Nguyễn Thị Nguyệt Thắm 13.50 7.360 1.995 3.535 48 1066315 Trần Thị Xuân Thắm 14.50 7.695 3.285 3.835 49 1066316 Nguyễn Hồng Thơng 12.00 6.015 2.743 3.280 50 1066317 Nguyễn Thanh Thủy 11.50 6.330 2.107 2.985 51 1066320 Huỳnh Mỹ Tiên 14.00 7.820 3.367 3.850 52 1066321 Bùi Nguyễn Quốc Toàn 13.50 7.400 2.539 1.875 53 1066322 Quách Thị Thùy Trang 11.50 5.480 1.848 2.750 54 1066323 Nguyễn Thị Trang 12.00 5.690 1.554 2.475 55 1066327 Trần Phúc Vinh 11.50 6.420 2.257 3.195 Gọi x điểm trúng tuyển đại học (TT), y1, y2, y3 điểm trung bình tích lũy năm 2006, 2007 năm 2008 Với số liệu cần thiết lập mơ hình hồi quy tuyến tính sau: y1 1 x , y 1 x y1 , y3 1 x y1 y 3.3.2 Các bước thực a) Tính hệ số tương quan biến Ta có bảng kết tóm tắt hệ số tương quan đôi biến bảng sau: x x y1 y2 y3 y1 y2 y3 0.345511026 0.365652621 0.3613511 0.591649012 0.5375715 0.394121932 78 b) Lựa chọn biến phù hợp Từ bảng ta thấy hệ số tương quan điểm thi đại học với điểm trung bình tích lũy năm mức độ trung bình yếu, cao điểm trung bình tích lũy năm 2008 Hệ số tương quan điểm trung bình tích lũy năm trước năm sau mức độ trung bình yếu Mơ hình hồi quy tuyến tính phù hợp mơ hình dự báo điểm trung bình tích lũy năm thứ (2008) vào điểm trúng tuyển ( x ), điểm trung bình tích lũy năm thứ 2006 ( y1 ) , năm thứ hai 2007 ( y ), có hệ số tương quan nhìn chung Như mơ hình hồi quy phù hợp để xây dựng y x y1 y c) Tính hệ số hồi quy Nhập số liệu biến phụ thuộc biến độc lập vào phần mềm Excel hướng dẫn phần 2.7 ta được đường hồi quy tuyến tính sau y3 0.898 0.054 x 0.362 y1 0.167 y 3.2.4 Một số nhận xét a) Ta có bảng tổng hợp sai số kết dự báo kết thực sinh viên sau: Thứ tự sinh viên 10 11 12 13 14 15 16 17 18 19 20 21 Kết dự báo yˆ 2.737 2.896 2.244 2.732 2.656 3.093 3.183 3.035 2.816 3.020 2.377 2.858 2.551 2.309 3.098 2.745 2.642 2.942 3.139 2.604 3.023 Kết thực y3 2.475 2.91 2.525 2.805 1.905 3.615 3.11 3.48 2.51 3.025 2.665 2.945 2.995 2.415 3.685 2.975 2.25 2.725 2.4 2.6 2.35 Sai số ei -0.262 0.014 0.281 0.073 -0.751 0.522 -0.073 0.445 -0.306 0.005 0.288 0.087 0.444 0.106 0.587 0.230 -0.392 -0.217 -0.739 -0.004 -0.673 79 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 2.886 2.841 3.145 2.813 3.052 2.901 3.289 2.828 2.746 2.218 2.575 3.183 2.725 2.905 3.003 3.325 3.070 2.870 2.675 3.189 2.662 2.942 3.490 2.485 3.212 3.166 3.449 2.886 2.920 3.535 3.272 2.569 2.569 2.978 2.95 3.42 2.2 3.545 2.3 3.56 3.13 3.085 2.73 2.335 3.065 2.085 2.975 3.195 3.25 2.88 2.425 3.5 2.65 2.775 3.635 1.775 2.985 3.535 3.835 3.28 2.985 3.85 1.875 2.75 2.475 3.195 0.114 0.109 0.275 -0.613 0.493 -0.601 0.271 0.302 0.339 0.512 -0.240 -0.118 0.275 -0.820 -0.028 -0.130 0.180 0.010 -0.250 0.311 -0.012 -0.167 0.145 -0.710 -0.227 0.369 0.386 0.394 0.065 0.315 -1.397 0.181 -0.094 0.217 Nhận xét: i) Kết dự báo kết thực có sai lệch trung bình 0.312 ii) Kết điểm dự báo sai lệch 0.004 kết dự báo sai lệch nhiều 1.397 b) Hệ số xác định mơ hình 0.35 mơ hình thiết lập xem phù hợp mức độ trung bình c) Phân tích ANOVA mơ hình hồi quy tuyến tính ta có bảng tóm tắt sau: 80 ANOVA df SS MS F Significance F Regression 4.8551 1.618378 9.1557999 5.9849E-05 Residual 51 9.0148 0.17676 Total 54 13.87 Nhìn vào bảng kết phân tích ANOVA ta thấy Fqs 9.156 Với mức ý nghĩa 5%, tính Fk ,n k 1, F3;51;0.05 2.7862 Vì Fqs > F3;51; 0.05 nên ta bác bỏ H chấp nhận H Như có tương quan hay tồn mối quan hệ biến mơ hình (mơ hình hồi quy phù hợp) Chú ý: Ta kiểm định cách so sánh giá trị significance F mơ hình với mức ý nghĩa Trong ví dụ F quan sát 9.156 ứng với xác suất 5.9849E-05 nhỏ mức ý nghĩa 0.05 nên phương trình hồi quy tuyến tính chấp nhận 3.4 VÍ DỤ 3.4.1 Dữ liệu Sự thành công trường Đại học đo lường tỷ lệ tốt nghiệp Nhà xuất Trust công bố kết nghiên cứu nhóm sinh viên tỷ lệ tốt nghiệp sáu năm với số đặc điểm trang web (www.collegeresults.org) Chúng ta xem xét biến sau y = tỷ lệ tốt nghiệp trung bình sáu năm x1 = Điểm trung bình sinh viên nhận vào trường x = Chi phí suốt thời gian học sinh viên x3 = trường Đại học có sinh viên nữ có sinh viên nam, x3 = trường Đại học có sinh viên nam sinh viên nữ Dữ liệu sau đại diện cho mẫu ngẫu nhiên 22 trường Cao đẳng, Đại học lựa chọn từ 1037 trường cao đẳng, đại học Hoa Kỳ với mức tuyển sinh 5000 sinh viên Các liệu bao gồm 22 quan sát biến 81 STT College y 10 11 12 13 14 15 16 17 18 19 20 21 22 Cornerstone University Barry University Wilkes University Colgate University Lourdes College Concordia University at Austin Carleton College Letourneau University Ohio Valley Coolege Chadron State College Meredith College Tougaloo College Hawaii pacific university University Of Michigan-dearborn Whittier College Wheaton College Southampton college Of Long Island Keene state College Mount St Mary’s College Wellesley College Fort Lewis College Bowdoin College 0.391 0.389 0.532 0.893 0.313 0.315 0.896 0.545 0.288 0.469 0.679 0.495 0.41 0.497 0.533 0.845 0.465 0.541 0.579 0.912 0.298 0.891 x1 1065 950 1090 1350 930 985 1390 1170 950 990 1035 845 1000 1065 1065 1325 1035 1005 918 1370 970 1375 x2 9482 13149 9418 26969 8489 8329 29605 13154 10887 6046 14889 11694 9911 9371 14051 18420 13302 898 12999 35393 5518 35669 x3 0 0 0 0 0 0 0 0 1 0 3.4.2 Các bước thực a) Tính hệ số tương quan cặp biến y x1 x2 x3 y 0.8742 0.8444 0.3294 x1 x2 x3 0.838 0.054 0.2906 b) Lựa chọn biến cho mơ hình hồi quy Qua ma trận tương quan ta có số nhận xét sau: Hệ số tương quan y với biến x1, x2 lớn, với biến x3 mức độ trung bình Hệ số tương quan hai biến độc lập x1 x3 nhỏ, hệ số tương quan x1 x2 lớn Vì hệ số tương quan y với x1 lớn hệ số tương quan y với x2 nên ta loại bỏ x2 mơ hình xây dựng đường hồi quy tuyến tính Như mơ hình hồi quy xây dựng y 1 x1 x3 82 c) Tính hệ số hồi quy Nhập số liệu biến phụ thuộc biến độc lập vào phần mềm Excel hướng dẫn phần 2.7 ta được đường hồi quy tuyến tính sau: y 0.49 0.0009 x1 0.1429 x3 3.4.3 Một số nhận xét a) Ta có bảng tổng hợp sai số kết dự báo kết thực trường Đại học sau: Thứ tự trường Đại học Kết dự báo Kết thực yˆ y3 10 11 12 13 14 15 16 17 18 19 20 21 22 0.496 0.408 0.518 0.819 0.372 0.420 0.866 0.604 0.399 0.415 0.634 0.309 0.440 0.495 0.514 0.763 0.484 0.408 0.522 1.014 0.395 0.876 0.391 0.389 0.532 0.893 0.313 0.315 0.896 0.545 0.288 0.469 0.679 0.495 0.41 0.497 0.533 0.845 0.465 0.541 0.579 0.912 0.298 0.891 Sai số ei -0.105 -0.019 0.014 0.074 -0.059 -0.105 0.030 -0.059 -0.111 0.054 0.045 0.186 -0.030 0.002 0.019 0.082 -0.019 0.133 0.057 -0.102 -0.097 0.015 Nhận xét: i) Kết dự báo kết thực có sai lệch trung bình 0.064 ii) Kết tỷ lệ tốt nghiệp dự báo sai lệch 0.002 kết dự báo sai lệch nhiều 0.186 iii) Hệ số tương quan biến phụ thuộc y với biến độc lập x1 x3 cao nên sai lệch kết dự báo kết quan sát ví dụ b) Hệ số xác định mơ hình 0.844 Vì vậy, mơ hình thiết lập xem phù hợp mức độ chặt chẽ 83 c) Phân tích ANOVA mơ hình hồi quy tuyến tính ta có bảng tóm tắt sau: ANOVA df SS MS F Significance F Regression 0.787 0.26217 34.42 1.14759E-07 Residual 18 0.137 0.00762 Total 21 0.924 Nhìn vào bảng kết phân tích ANOVA ta thấy Fqs 34.42 Với mức ý nghĩa 5%, tính Fk ,n k 1, F3;18; 0.05 = 3.16 Vì Fqs > F3;18;0.05 nên ta bác bỏ H chấp nhận H Như có tương quan hay tồn mối quan hệ biến mơ hình (mơ hình hồi quy phù hợp) Chú ý: Ta kiểm định theo phương pháp p-giá trị, cách so sánh giá trị significance F mơ hình với mức ý nghĩa Trong ví dụ 2, F quan sát 34.42 ứng với xác suất 1.14759E-07 nhỏ mức ý nghĩa 0.05 nên phương trình hồi quy tuyến tính chấp nhận 84 KẾT LUẬN Luận văn tổng kết đầy đủ chi tiết vấn đề liên quan đến hồi quy tuyến tính, mơ hình xem tảng, sở cho mơ hình hồi quy khác Về mặt lý thuyết Trình bày đầy đủ vấn đề sau: i) Sự tương quan biến định lượng định tính thơng qua việc xác định hệ số tương quan, tỷ tương quan, tương quan hạng, hệ số xác định thống kê liên quan đến chúng ii) Xây dựng hồi quy tuyến tính đơn thống kê liên quan iii) Xây dựng hồi quy tuyến tính bội bao gồm liệu định tính định lượng thống kê liên quan Về mặt tính tốn i) Trình bày chi tiết việc sử dụng phần mềm Excel phân tích tương quan hồi quy ii) Ngồi ví dụ minh họa cho phần lý thuyết, luận văn sử dụng liệu thật để minh họa cho bước xây dựng phân tích hồi quy thực tế Luận văn chưa xem xét hết ứng dụng nhiều lĩnh vực khác hồi quy tuyến tính, chưa tìm hiểu sâu mơ hình hồi quy phi tuyến đưa mơ hình tuyến tính Những vấn đề hạn chế phần tơi tiếp tục tìm hiểu thời gian tới 85 TÀI LIỆU THAM KHẢO 1 Phan Hiếu Hiền, Phương pháp bố trí thí nghiệm xử lý số liệu (thống kê thực nghiệm), NXB Nông nghiệp TP.HCM 2 Phạm Văn Kiều, NXB Giáo dục, 11-2008 3 Trần Văn Minh, Xác suất thống kê tính tốn Excel, NXB Giao thông vận tải, 09-2001 4 Mai Văn Nam, Giáo trình nguyên lý thống kê kinh tế, NXB Văn hóa thơng tin, 2008 5 Hồng Ngọc Nhậm, Giáo trình xác suất thống kê, Trường ĐH kinh tế TP.HCM, 2004 6 Tống Đình Quỳ, Giáo trình xác suất thống kê, NXB ĐHQG Hà Nội, 03-2003 7 8 Đặng Hùng Thắng, Thống kê ứng dụng, NXB Giáo dục, 08-2008 Hoàng Trọng – Chu Nguyễn Mộng Ngọc, Thống kê ứng dụng kinh tế - xã hội, NXB Thống kê, 2008 9 Nguyễn Văn Tuấn, Phân tích số liệu biểu đồ R, Garvan Institute of Medical Reseach Sydney, Australia, 2002 10 Nguyễn Phú Vinh, Giáo trình xác suất thống kê ứng dụng, NXB Thống kê 2008 ... 1.4.3 Phương trình hồi quy tuyến tính mẫu a) Giới thiệu Hồi quy tuyến tính hiểu hồi quy tuyến tính theo tham số, ta xem xét trường hợp đặc biệt vừa tuyến tính với biến, vừa tuyến tính với tham số... xét mơ hình hồi quy có nhiều biến độc lập Đó mơ hình hồi quy bội hay cịn gọi mơ hình hồi quy đa biến Trong chương tìm hiểu hồi quy tuyến tính bội, mơ hình hồi quy phổ biến có nhiều ứng dụng dự báo... mediocrity”-? ?hồi quy trung bình”, kể từ trở vấn đề hồi quy nhiều người quan tâm hoàn thiện qua ứng dụng có nội dung rộng nhiều so với nghiên cứu ban đầu mà sử dụng Trong mơ hình hồi quy, hồi quy tuyến tính