Xây dựng mô hình hồi quy tuyến tính sử dụng một mô hình hổi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến chi phí bán chung cư thực tế

61 8 0
Xây dựng mô hình hồi quy tuyến tính sử dụng một mô hình hổi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến chi phí bán chung cư thực tế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM 2 MỤC LỤC Tiêu đề Trang MỤC LỤC 2 DANH MỤC BẢNG 4 I CƠ SỞ LÝ THUYẾT 5 1 1 Hồi quy tuyến tính bội 5 1 1 1 Hàm hồi quy tổng thể (PRF Population Regression Function[.]

MỤC LỤC Tiêu đề Trang MỤC LỤC .2 DANH MỤC BẢNG .4 I CƠ SỞ LÝ THUYẾT 1.1 Hồi quy tuyến tính bội 1.1.1 Hàm hồi quy tổng thể (PRF- Population Regression Function) .5 1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function) .5 1.1.3 Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội 1.1.4 Độ phù hợp mô hình .6 1.1.5 Khoảng tin cậy kiểm định hệ số hồi quy .7 1.1.6 Kiểm định mức độ ý nghĩa chung mơ hình (trường hợp đặc biệt kiểm định WALD) 1.2 Phân tích phương sai yếu tố 11 1.2.1 Lý thuyết ANOVA (Phân tích phương sai) 11 1.2.2 Phân tích phương sai yếu tố 11 II HOẠT ĐỘNG 18 2.1 Đề 18 2.2 Thực 19 2.2.1 Đọc liệu (Impost data) 19 2.2.2 Làm sữ liệu (Data cleaning) 19 2.2.3 Làm rõ liệu (Data visualization) .21 2.2.4 ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay .28 TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM 2.2.5 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay ………………………………………………………………………… 44 III HOẠT ĐỘNG 53 3.1 Đề bài: 53 3.2 Thực hiện: 54 3.2.1 Đọc liệu: 54 3.2.2 Làm liệu: 55 3.2.3 Làm rõ liệu: .55 3.2.4 Xây dựng mơ hình hồi quy tuyến tính: Sử dụng mơ hình hổi quy tuyến tính phù hợp để đánh giá nhân tố tác động đến chi phí bán chung cư thực tế 60 TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM DANH MỤC BẢNG Bảng Bảng tóm tắt giả thuyết miền bác bỏ tương ứng Bảng Bảng số liệu tổng quát thực phân tích phương sai 12 Bảng Bảng kết tổng quát ANOVA phân tích Excel hay SPSS….15 TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM I CƠ SỞ LÝ THUYẾT 1.1 Hồi quy tuyến tính bội Hồi quy tuyến tính bội phần mở rộng hồi quy tuyến tính đơn Nó sử dụng muốn dự đoán giá trị biến phản hồi dựa giá trị hai nhiều biến giải thích Biến muốn dự đoán gọi biến phản hồi (hoặc biến phụ thuộc) Các biến mà sử dụng để dự đoán giá trị biến phản hồi gọi biế giải thích (hoặc biến dự báo, biến phụ thuộc) Mơ hình hồi quy tuyến tính bội có dạng tổng quát sau: Y = β1 + β2X2 + β3X3 + + βkXk + u Trong đó: + βi: Hệ số hồi quy riêng +Y: Biến phụ thuộc + Xi: Biến độc lập + β1:Hệ số tự (hệ số chặn) Như vậy, "Hồi quy tuyến tính" phương pháp để dự đốn giá trị biến phụ thuộc (Y) dựa giá trị biến độc lập (X) 1.1.1 Hàm hồi quy tổng thể (PRF- Population Regression Function) Với Y biến phụ thuộc X2, X3, ,Xk biến độc lập, Y ngẫu nhiên có phân phối xác suất Suy ra: Tồn E(Y | X2,X3, ,Xk) = giá trị xác định Do vậy, F(X2,X3, ,Xk)=E(Y | X2,X3, ,Xk) hàm hồi quy tổng thể Y theo X2, X3, ,Xk Với cá thể i, tồn (X2,i,X3,i, ,Xk,i,Yi) Ta có: Yi ≠ F(X2,X3, ,Xk) ⇒ ui = Yi – F Do vậy: Yi = E(Y | X2,X3, ,Xk)+ui Hồi quy tổng thể PRF: + Y = E(Y| X)+ U + E(Y | X) =F(X) 1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function) TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM Do tổng thể, nên khơng biết giá trị trung bình tổng thể biến phụ thuộc mức độ Do phải dựa vào liệu mẫu để ước lượng Trên mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂ (𝑋2 , 𝑋3 , … 𝑋𝑘 ) hồi quy mẫu Với cá thể mẫu 𝑌𝑖 ≠ 𝐹̂ (𝑋2,𝑖 , 𝑋3,𝑖 , … 𝑋𝑘,𝑖 ) sinh 𝑒𝑖 − 𝑌𝑖 − 𝐹̂ (𝑋2 , 𝑋3 , … 𝑋𝑘 ); 𝑒𝑖 gọi phần dư SRF Ta có hàm hồi quy mẫu tổng quát viết dạng sau: ̂1 + 𝛽 ̂2 𝑥2,𝑖 + 𝛽 ̂3 𝑥3,𝑖 + … 𝛽 ̂𝑘 𝑥𝑘,𝑖 𝑦̂𝑖 = 𝛽 ̂ Phần dư sinh ra: 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 Ký hiệu: 𝛽̂ 𝑚 ước lượng 𝛽𝑚 Chúng ta trông đợi 𝛽𝑚 ước lượng không chệch 𝛽𝑚 , phải ước lượng hiệu Ước lượng SRF: chọn phương pháp để ước lượng tham số F qua việc tìm tham số 𝐹̂ lấy giá trị quan sát tham số làm giá trị xấp xỉ cho tham số F 1.1.3 Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội Trong xây dựng mơ hình hồi quy đa biến cần kiểm tra giả thiết sau: a Hàm hồi quy tuyến tính theo tham số Điều có nghĩa q trình thực hành hồi quy thực tế miêu tả mối quan hệ dạng: y = β1 + β2x2 + β3x3 + β4x4 + + βkxk + u mối quan hệ thực tế viết lại ví dụ dạng lấy loga hai vế b Kỳ vọng yếu tố ngẫu nhiên ui Trung bình tổng thể sai số Điều có nghĩa có số giá trị sai số mang dấu dương số sai số mang dấu âm Do hàm xem đường trung bình nên giả định sai số ngẫu nhiên bị loại trừ nhau, mức trung bình, tổng thể c Các sai số độc lập với d Các sai số có phương sai Tất giá trị u phân phối giống với phương sai 𝜎 , cho: 𝑉𝑎𝑟(𝑢𝑖 ) = 𝐸 (𝑢𝑖2 ) = 𝜎 e Các sai số có phân phối chuẩn Điều quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không quan trọng 1.1.4 Độ phù hợp mơ hình TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM Để biết mơ hình giải thích hay % biến động biến phụ thuộc, người ta sử dụng 𝑅2 Ta có: +∑(𝑦𝑖 − 𝑦)2 : TSS – Total Sum of Squares + ∑(𝑦̂𝑖 − 𝑦)2 : ESS – Explained Sum of Squares +∑ 𝑒𝑖2 : RSS – Residual Sum of Squares Ta viết: TSS = ESS + RSS Ý nghĩa thành phần: + TSS tổng bình phương tất sai lệch giá trị quan sát Yi giá trị trung bình + ESS tổng bình phương tất sai lệch giá trị biến phụ thuộc Y nhận từ hàm hồi quy mẫu giá trị trung bình chúng Phần đo độ xác hàm hồi quy + RSS tổng bình phương tất sai lệch giá trị quan sát Y giá trị nhận từ hàm hồi quy + TSS chia thành phần: phần ESS phần RSS gây 𝑅2 xác định theo công thức: 𝑅2 = 𝐸𝑆𝑆 𝑅𝑆𝑆 =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 Tỷ số tổng biến thiên giải thích mơ hình cho tổng bình phương cần giải thích gọi hệ số xác định, trị thống kê “good of fit” Từ định nghĩa 𝑅2 thấy 𝑅2 đo tỷ lệ hay số % toàn sai lệch Y với giá trị trung bình giải thích mơ hình Khi người ta sử dụng 𝑅2 để đo phù hợp hàm hồi quy: + ≤ 𝑅2 ≤ + 𝑅2 cao nghĩa mơ hình ước lượng giải thích mức độ cao biến động biến phụ thuộc + Nếu 𝑅2 = 1, nghĩa đường hồi quy giải thích 100% thay đổi y + Nếu 𝑅2 = 0, nghĩa mơ hình khơng đưa thơng tin thay đổi biến phụ thuộc y 1.1.5 Khoảng tin cậy kiểm định hệ số hồi quy a Ước lượng khoảng tin cậy hệ số hồi quy: TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM Mục đích phân tích hồi quy khơng phải suy đốn 𝛽1 , 𝛽1 , … 𝛽𝑘 mà phải kiểm tra chất phụ thuộc Do cần phải biết phân bố xác suất 𝛽1 , 𝛽1 , … 𝛽𝑘 Các phân bố phụ thuộc vào phân bố 𝑢𝑖 Với giả thiết OLS, 𝑢𝑖 có phân phối 𝑁(0, 𝜎 ) Các hệ số ước lượng tuân theo phân phối chuẩn: 𝛽̂𝑗 ~𝑁 (𝛽̂𝑗 , 𝑆𝑒(𝛽̂𝑗 )) 𝛽̂𝑗 − 𝛽𝑗 ~𝑇(𝑛 − 𝑘) 𝑆𝑒(𝛽̂𝑗 ) Ước lượng phương sai sai số dựa vào phần dư bình phương tối thiểu Trong k số hệ số có phương trình hồi quy đa biến: 𝜎̂ = ∑ 𝑒𝑖2 𝑛−𝑘 + Ước lượng phía, ta tìm 𝑡𝛼 (𝑛 − 𝑘) thỏa mãn: 𝑃 (−𝑡𝛼 (𝑛 − 𝑘 )) ≤ 𝛽̂𝑗 − 𝛽𝑗 ≤ 𝑃 (𝑡𝛼 (𝑛 − 𝑘 )) = − 𝛼 𝑆𝑒(𝛽̂𝑗 ) + Khoảng tin cậy 1− 𝛼 𝛽𝑗 là: [𝛽̂𝑗 − 𝑡𝛼 (𝑛 − 𝑘 )𝑆𝑒(𝛽̂𝑗 ); 𝛽̂𝑗 + 𝑡𝛼 (𝑛 − 𝑘 )𝑆𝑒(𝛽̂𝑗 )] 2 b Kiểm định giả thiết 𝜷𝒋 Kiểm định ý nghĩa thống kê hệ số hồi quy có ý nghĩa hay khơng: kiểm định biến giải thích có thực ảnh hưởng đến biến phụ thuộc hay khơng Nói cách khác hệ số hồi quy có ý nghĩa thống kê hay khơng Có thể đưa giả thiết 𝛽𝑗 , chẳng hạn 𝛽𝑗 = 𝛽𝑗 ∗ Nếu giả thiết thì: 𝛽̂𝑗 − 𝛽𝑗 ~𝑇(𝑛 − 𝑘) 𝑆𝑒(𝛽̂𝑗 ) TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM Ta có bảng 1: Bảng Bảng tóm tắt giả thuyết miền bác bỏ tương ứng Loại giả thiết Giả thiết 𝐇𝟎 Giả thiết 𝐇𝟏 Miền bác bỏ Hai phía 𝛽1 = 𝛽𝑖∗ 𝛽𝑖 ≠ 𝛽𝑖∗ |𝑡 | > 𝑡𝛼/2 ; 𝑛 − 𝑘 Phía phải 𝛽1 ≤ 𝛽𝑖∗ 𝛽𝑖 > 𝛽𝑖∗ 𝑡 > 𝑡𝛼 ; 𝑛 − 𝑘 Phía trái 𝛽1 ≥ 𝛽𝑖∗ 𝛽1 < 𝛽𝑖∗ 𝑡 < −𝑡𝛼 ; 𝑛 − 𝑘 Ta sử dụng giá trị P-value: P-value < mức ý nghĩa bác bỏ giả thiết H0 Kiểm định βj: Giả thuyết H0 : 𝛽𝑗 = ⇔ xj không tác động Giả thuyết H1 : 𝛽𝑗 ≠ ⇔ xj có tác động 𝛽𝑗 < ⇔ xj có tác động ngược 𝛽𝑗 > ⇔ xj có tác động thuận 1.1.6 Kiểm định mức độ ý nghĩa chung mơ hình (trường hợp đặc biệt kiểm định WALD) a Khái quát kiểm định WALD Giả sử có mơ hình đây: (U) : Y = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4 + 𝑢 (R) : Y = 𝛽1 + 𝛽2 𝑋2 + 𝑣 Mơ hình U gọi mơ hình khơng giới hạn (Unrestrict), mơ hình R gọi mơ hình giới hạn (Restrict) Đó 𝛽3 𝛽4 buộc phải mơ hình R Ta kiểm định giả thuyết liên kết 𝛽3 = 𝛽4 = với giả thuyết đối hệ số không Kiểm định giả thuyết liên kết gọi kiểm định Wald, thủ tục sau Đặt mơ hình giới hạn khơng giới hạn là: (U) : Y = β1 + β2 X + + βm X m + βm+1 X m+1 + + 𝛽𝑘 𝑋𝑘 + u TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM (R) : Y = β1 + β2 X + + βm X m +v Mơ hình (R) có cách bỏ bớt số biến mơ hình (U), là: X m+1 , X m+1 , X 𝑘 Giả thiết H0 : βm+1 =…= βk =0 Giả thuyết H1 : “Không phải đồng thời tham số 0” Lưu ý (U) chứa k hệ số hồi quy chưa biết (R) chứa m hệ số hồi quy chưa biết Do đó, mơ hình R có (k−m) thơng số so với U Câu hỏi nêu (k−m) biến bị loại có ảnh hưởng liên kết có ý nghĩa Y hay không Trị thống kê kiểm định giả thiết là: 𝐹𝑐 = [𝑅𝑆𝑆𝑅 − 𝑅𝑆𝑆𝑈 ]/(𝑘 − 𝑚) 𝑅𝑈2 − 𝑅𝑅2 /(𝑘 − 𝑚) ~𝐹 (𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘 ) = 𝑅𝑆𝑆𝑈 /(𝑛 − 𝑘) − 𝑅𝑈2 /(𝑛 − 𝑘) Với 𝑅2 số đo độ thích hợp khơng hiệu chỉnh Với giả thuyết khơng, Fc có phân phối F với (k−m) bậc tự tử số (n−k) bậc tự mẫu số Bác bỏ giả thuyết H0 khi: 𝐹𝑐 > 𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘) Hoặc giá trị p-value thống kê F nhỏ mức ý nghĩa cho trước b Kiểm định ý nghĩa mơ hình Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho mơ hình khơng có ý nghĩa hiểu tất hệ số hồi quy riêng Ứng dụng kiểm định Wald (thường gọi kiểm định F) tiến hành cụ thể sau: Bước 1: Giả thuyết H0 : β2 = β3 = = βk = Giả thuyết H1 : “có giá trị β khác không” Bước 2: Trước tiên hồi quy Y theo số hạng không đổi X , X , , X k , sau tính tổng bình phương sai số 𝑅𝑆𝑆𝑈 , 𝑅𝑆𝑆𝑅 Phân phối F tỷ số hai biến ngẫu nhiên phân phối bình phương độc lập Điều cho ta trị thống kê: 𝐹𝑐 = [𝑅𝑆𝑆𝑅 − 𝑅𝑆𝑆𝑈 ]/(𝑘 − 𝑚) ~𝐹 (𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘 ) 𝑅𝑆𝑆𝑈 /(𝑛 − 𝑘) Vì H0 : β2 = β3 = = βk = 0, nhận thấy trị thống kê kiểm định giả thuyết là: TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM 10 𝐹𝐶 = 𝐸𝑆𝑆/(𝑘 − 1) ~𝐹 (𝛼, 𝑘 − 1, 𝑛 − 𝑘 ) 𝑅𝑆𝑆/(𝑛 − 𝑘) Bước 3: Tra số liệu bảng F tương ứng với bậc tự (k−1) cho tử số (n−k) cho mẫu số, với mức ý nghĩa α cho trước Bước 4: Bác bỏ giả thuyết H0 mức ý nghĩa α 𝐹𝐶 > 𝐹 (𝛼, 𝑘 − 1, 𝑛 − 𝑘 ) Đối với phương pháp giá trị p-value, tính giá trị p = P (F >𝐹𝐶 |H0 ) bác bỏ giả thuyết H0 p bé mức ý nghĩa α 1.2 Phân tích phương sai yếu tố 1.2.1 Lý thuyết ANOVA (Phân tích phương sai) Mục tiêu phân tích phương sai (Analysis of Variance - ANOVA) so sánh trung bình nhiều nhóm (tổng thể) dựa trị trung bình mẫu quan sát từ nhóm thơng qua kiểm định giả thuyết củaa kết luận trung bình tổng thể ANOVA thực mở rộng phương pháp kiểm định t cho mẫu độc lập so sánh trung bình nhóm gồm quan sát độc lập Không phương pháp kiểm định t, ANOVA so sánh nhiều hai nhóm Lưu ý ANOVA khơng so sánh phương sai, mà phân tích phương sai để so sai để so sánh kỳ vọng Ta có mơ hình phân tích phương sai: phân tích phương sai yếu tố hai yếu tố Cụm từ yếu tố ám số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết nghiên cứu 1.2.2 Phân tích phương sai yếu tố Phân tích phương sai dùng trắc nghiệm để so sánh giá trị trung bình hai hay nhiều mẫu lấy từ phân số Đây xem phần mở rộng trắc nghiệm t hay z (so sánh hai giá trị trung bình) a Trường hợp k tổng thể có phân phối chuẩn phương sai Giả sả muốn so sánh trung bình k tổng thể (với ví dụ k = 3) dựa mẫu ngẫu nhiên độc lập gồm n1, n2, n3, , nk quan sát từ k tổng thể Cần ghi nhớ ba giả định sau nhóm tổng thể tiến hành phân tích ANOVA + Các tổng thể có phân phối bình thường + Các phương sai tổng thể + Các quan sát lấy mẫu độc lập TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM 11 ... Thống kê mô tả: dùng thống kê mẫu dùng đồ thị ANOVA nhân tố: đánh giá khác biệt việc lệch bay (dep_delay) hãng bay Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh... dựng mơ hình hồi quy tuyến tính: Sử dụng mơ hình hổi quy tuyến tính phù hợp để đánh giá nhân tố tác động đến chi phí bán chung cư thực tế 60 TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM DANH MỤC BẢNG Bảng...2.2.5 Mơ hình hồi quy tuyến tính: Sử dụng mơ hình hồi quy phù hợp để phân tích yếu tố ảnh hưởng đến việc lệch đến (arr_delay) chuyến bay ………………………………………………………………………… 44 III HOẠT ĐỘNG

Ngày đăng: 13/11/2022, 12:02

Tài liệu cùng người dùng

Tài liệu liên quan