Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
2,53 MB
Nội dung
DANH SÁCH THÀNH VIÊN STT Họ tên MSSV Phân cơng Đóng góp 2012018 Viết code sơ lược nội dung hoạt 20% Trần Minh Tân động 1, thuyết trình, làm slide Powerpoint Vũ Mai Hồi Nam 1914260 Nguyễn Hòa An 2010821 (NT) 2012908 Bùi Quốc Đạt Viết nội dung chỉnh sửa code hoạt động 2, tổng hợp file Word Viết code hoạt động 2, làm slide 20% 20% 20% Powerpoint 2010103 Nguyễn Quốc An Viết hoàn chỉnh nội dung hoạt động Viết nội dung sở lí thuyết nội dung hoạt động 20% MỤC LỤC DANH SÁCH HÌNH ẢNH iii I Cơ sở lý thuyết 1.1 Giới thiệu mơ hình hồi quy tuyến tính bội 1.2 Ước lượng tham số mơ hình hồi quy tuyến tính bội II Phần tính tốn 2.1 Hoạt động 1: 2.2 Hoạt động 20 i PHỤ LỤC A – HOẠT ĐỘNG PHỤ LỤC B – HOẠT ĐỘNG ii DANH SÁCH HÌNH ẢNH Hình 1 Biểu đồ histogram thể phân phối biến price trước chuyển sang dạng log(x+1) Hình Biểu đồ histogram thể phân phối biến price sau chuyển sang dạng log(x+1) Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến price theo phân loại biến floors 10 Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến log(price +1) theo phân loại biến floors 10 Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến price theo phân loại biến condition 11 Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến log(price +1) theo phân loại biến condition 11 Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến price theo phân loại biến view 12 Hình Biểu đồ boxplot thể hiển phân phối chuẩn biến log(price +1) theo phân loại biến view 12 iii Hình Đồ thị plot thể độ phân tán biến price theo biến sqft_above trước sau chuyển hai biến sang dạng log(x+1) 13 Hình 10 Đồ thị plot thể độ phân tán biến price theo biến sqft_living trước sau chuyển hai biến sang dạng log(x+1) 14 Hình 11 Đồ thị plot thể độ phân tán biến price theo biến sqft_basement trước sau chuyển hai biến sang dạng log(x+1) 14 Hình 12 Đồ thị Residuals vs Fitted 17 Hình 13 Đồ thị Normal Q-Q 17 Hình 14 Đồ thị Scale-Location 18 Hình 15 Đồ thị Residuals vs Leverage 18 Hình Đồ thị phân phối biến roughness 24 Hình 2 Biểu đồ Boxplot biến roughness cho nhóm phân loại biến infill_pattern 25 Hình Biểu đồ Boxplot biến roughness cho nhóm phân loại biến material 26 Hình Phân phối biến roughness theo biến Print Speed 27 iv Hình Phân phối biến roughness theo biến Bed Temperature 27 Hình Phân phối biến roughness theo biến Nozzle Temperature 27 Hình Phân phối biến roughness theo biến Layer Height 27 Hình Đồ thị biểu thị sai số hồi quy giá trị dự báo 31 Hình Biểu đồ kiểm định giả định phân phối chuẩn sai số 32 Hình 10 Biểu đồ kiểm tra đồng phương sai 32 Hình 11 Biểu đồ xác định điểm có ảnh hưởng cao mơ hình 33 v I Cơ sở lý thuyết 1.1 Giới thiệu mơ hình hồi quy tuyến tính bội Mơ hình hồi quy tuyến tính bội có dạng tổng quát sau: Y = β1 + β2X2 + β3X3 + … + βkXk + 𝜀 Trong đó: o Y: biến phụ thuộc o Xi: biến độc lập o β1: hệ số tự (hệ số chặn) o βi: hệ số hồi quy riêng βi đo lường tác động riêng phần biến Xi lên Y với điều kiện biến số khác mơ hình khơng đổi Cụ thể hơn, biến khác mơ hình khơng đổi, giá trị kỳ vọng Y tăng βi đơn vị Xi tăng đơn vị 𝜀: sai số ngẫu nhiên Như vậy, "Hồi quy tuyến tính" phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa giá trị biến độc lập (X) Nó sử dụng cho trường hợp muốn dự đoán số lượng liên tục Ví dụ: dự đốn thời gian người dùng dừng lại trang số người truy cập vào website v.v Bằng liệu thu thập được, ta ước lượng hàm hồi quy tổng thể, ước lượng tham số tổng thể: β1, β2, …, βk 1.2 Ước lượng tham số mơ hình hồi quy tuyến tính bội 1.2.1 Hàm hồi quy Do khơng biết tổng thể, nên khơng biết giá trị trung bình tổng thể biến phụ thuộc mức độ Do phải dựa vào liệu mẫu để ước lượng Trên mẫu có n cá thể, gọi 𝑌̂= 𝐹̂(X2, X3,…, Xk) hồi quy mẫu Với cá thể mẫu Yi ≠ 𝐹̂ (X2,i, X3,i,…, Xk,i) sinh ei = Yi – 𝐹̂(X2, X3,…, Xk); ei gọi phần dư SRF Ta có hàm hồi quy mẫu tổng quát viết dạng sau: Phần dư sinh ra: ei = yi – ŷi Ký hiệu: 𝛽̂m ước lượng βm Chúng ta trông đợi 𝛽̂m ước lượng không chênh lệch nhiều βm, phải ước lượng hiệu 1.2.2 Phương pháp bình phương nhỏ (Ordinary Least Squares) Phương pháp bình phương nhỏ đưa nhà Toán học Đức Carl Friedrich Gauss Tư tưởng phương pháp cực tiểu tổng bình phương phần dư ei = yi – ŷi Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội sau: a Hàm hồi quy tuyến tính theo tham số Điều có nghĩa q trình hồi quy thực tế miêu tả mối quan hệ dạng y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + 𝜀, mối quan hệ thực tế viết lại ví dụ dạng lấy loga hai vế b E(𝜀i) = 0: Kỳ vọng yếu tố ngẫu nhiên 𝜺i Trung bình tổng thể sai số Điều có nghĩa có số giá trị sai số mang dấu dương số sai số mang dấu âm Do hàm xem đường trung bình nên giả định sai số ngẫu nhiên bị loại trừ nhau, mức trung bình, tổng thể c Cov(𝜀i, 𝜀j) = 0: Khơng có tương quan 𝜀i Khơng có tương quan quan sát yếu tố sai số Nếu ta xem xét chuỗi số liệu thời gian (dữ liệu thu thập từ nguồn nhiều khoảng thời gian khác nhau), yếu tố sai số 𝜀i khoảng thời gian khơng có tương quan với yếu tố sai số khoảng thời gian trước d Var(𝜀i) = σ2: Phương sai với 𝜀i Tất giá trị 𝜀 phân phối giống với phương sai σ2, cho: Var(𝜀i) = E(𝜀i2) = σ2 f 𝜀i có phân phối chuẩn Điều quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không quan trọng g Giữa x2, x3,…, xk khơng có quan hệ tuyến tính Nếu x2, x3,…, xk có quan hệ tuyến tính người ta nói có tượng đa cộng tuyến 1.2.3 Độ phù hợp mơ hình Để biết mơ hình giải thích hay % biến thiên liệu, người ta sử dụng R2 Ta viết SST = SSE + SSR Ý nghĩa thành phần: - SST tổng bình phương tất sai lệch giá trị quan sát Yi giá trị trung bình - SSE tổng bình phương tất sai lệch giá trị biến phụ thuộc Y nhận từ hàm hồi quy mẫu giá trị trung bình chúng Phần đo độ xác hàm hồi quy - SSR tổng bình phương tất sai lệch giá trị quan sát Y giá trị nhận từ hàm hồi quy +1) plot(new_GiaNha2[,"sqft_above"], new_GiaNha2[,"price"], xlab = "log(sqft_above +1)", ylab = "log(price+1)", main = "log(price+1) and log(sqft_above +1) ", cex.main = 0.8,col=4) Phụ lục A 17 Vẽ đồ thị plot thể độ phân tán biến price theo biến sqft_above trước sau chuyển hai biến sang dạng log(x+1) par(mfrow=c(1,2)) xlab plot(new_GiaNha[,"sqft_living"], = "sqft_living", ylab new_GiaNha[,"price"], = "price", main = "price and sqft_living", cex.main =0.8,col=2) plot(new_GiaNha2[,"sqft_living"], new_GiaNha2[,"price"], xlab = "log(sqft_living +1) ", ylab = "log(price+1)", main = "log(price+1) and log(sqft_living +1)",cex.main = 0.8, col = 4) Phụ lục A 18 Vẽ đồ thị plot thể độ phân tán biến price theo biến sqft_living trước sau chuyển hai biến sang dạng log(x+1) par(mfrow=c(1,2)) xlab plot(new_GiaNha[,"sqft_basement"], = "sqft_basement", ylab sqft_basement", cex.main = new_GiaNha2[,"price"], new_GiaNha[,"price"], = "price", main = "price and 0.8,col=2) plot(new_GiaNha2[,"sqft_basement"], xlab = "log(sqft_basement +1)", ylab = "log(price+1)", main = "log(price+1) and log(sqft_basement +1) ", cex.main = 0.8,col=4) Phụ lục A 19 Vẽ đồ thị plot thể độ phân tán biến price theo biến sqft_basement trước sau chuyển hai biến sang dạng log(x+1) lm_model_1 |t|) ## (Intercept) 7.168351 0.051868 138.202 < 2e-16 *** ## floors 0.102574 0.005832 17.587 < 2e-16 *** ## condition 0.075131 0.004012 18.728 < 2e-16 *** ## view 0.125203 0.003403 36.788 < 2e-16 *** ## sqft_above 0.544601 0.029261 18.612 < 2e-16 *** ## sqft_living 0.172785 0.029210 ## sqft_basement 0.042919 0.001975 5.915 3.37e-09 *** 21.736 < 2e-16 *** ## ## Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' ## ## Residual standard error: 0.3671 on 21606 degrees of freedom ## Multiple R-squared: ## F-statistic: 0.5136, Adjusted R-squared: 3802 on and 21606 DF, 0.5134 p-value: < 2.2e-16 Phụ lục A 20 Ước lượng hệ số βi, i=0,…,6 dựa tệp tin new_GiaNha2 GiaNha_tt