Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
1,18 MB
Nội dung
lOMoARcPSD|22494962 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA o0o BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 🙡🙡🙡 GVHD: Ngũn Đình Huy Thực Hiện: Nhóm 7, Khoa Máy Tính STT HỌ VÀ TÊN MSSV Lê Anh Thi 201248 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) LỚP/ TỔ L03 NGÀNH Kỹ thuật máy tính lOMoARcPSD|22494962 MỤC LỤC PHẦẦN CHUNG PHẦẦN RIÊNG 18 Đọc liệu .19 Làm liệu .19 Làm rõ liệu 21 Xây dựng mơ hình hơồi quy tuyếến tnh 29 Dự đoán 35 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 PHẦẦN CHUNG CHƯƠNG 1: CƠ SỞ LÝ THUYÊẾT I Phân tích hồồi quy Định nghĩa: Bản châất 2.1 Biếấn phụ thuộc Y 2.2 Biếấn ngâẫu nhiến X 2.3 Sai sồấ ngâẫu nhiến (nhiếẫu) 2.4 Tham sồấ hồồi quy Ý nghĩa hồồi quy tuyếấn tính II Mồ hình hồồi quy bội CHƯƠNG 2: HOẠT ĐỘNG 2.1 Đếồ Tập tn "house_price.csv" chứa thồng tn vếồ giá bán thị trường (đơn v ị đồ la) 21613 ngồi nhà quận King nước Myẫ khoảng thời gian từ tháng 5/2014 đếấn 5/2015 Bến c ạnh giá nhà, d ữ li ệu bao gồồm thuộc tính mồ tả châất lượng ngồi nhà D ữ li ệu gồấc đ ược cung câấp t ại: Các biếấn liệu: • price: Giá nhà bán • floors: Sồấ tâồng ngồi nhà phân loại từ - 3.5 • condition: Điếồu kiện kiếấn trúc ngồi nhà từ - 5, 1: râất t ệ 5: râất tồất • view: Đánh giá cảnh quan xung quanh nhà theo m ức đ ộ t thâấp đếấn cao: - • sqft_above: Diện tích ngồi nhà • sqft_living: Diện tích khuồn viến nhà • sqft_basement: Diện tích tâồng hâồm Các bước thực hiện: Đọc liệu (Import data): "house_price.csv" Làm liệu (Data cleaning): NA (dữ liệu khuyếất) Làm rõ liệu: (Data visualizaton) Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 (a) Chuyển đổi biếấn (nếấu câồn thiếất) b) Thồấng kế mồ tả: dùng thồấng kế mâẫu dùng đồồ th ị Xây dựng mồ hình hồồi quy tuyếấn tính đ ể đánh giá nhân tồấ có th ể ảnh h ưởng đếấn giá nhà qu ận King Thực dự báo cho giá nhà quận King 2.2 Đọc liệu Sử dụng lệnh read.csv () để đọc tệp tn head () để xem dòng đâồu tến c d ữ li ệu ch ứa t ệp tn 2.3 Làm liệu 2.3.1 Trích liệu Vì liệu ban đâồu có chứa râất nhiếồu biếấn, nến ta câồn t ạo m ột d ữ li ệu m ới ch ỉ bao gồồm biếấn mà ta quan tâm lưu với tến new_HP 2.3.2 Kiểm tra liệu khuyếết Để kiểm tra liệu khuyếất, ta dùng lệnh khác nhằồm thồấng kế v ị trí dịng ch ứa d ữ li ệu khuyếất, thồấng kế sồấ lượng liệu khuyếất biếấn thồấng kế t ỷ l ệ d ữ li ệu khuyếất biếấn Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Nhận xét: Từ kếất thu thực kiểm tra d ữ liệu khuyếất new_HP, ta nhận thâấy có 20 liệu khuyếất biếấn price Tuy nhiến, sồấ lượng liệu khuyếất chiếấm t ỷ l ệ râất thâấp so v ới t th ể (|t|): Giá trị t tính bằồng cách lâấy h ệ sồấ chia cho sai sồấ chuẩn Sau đó, sử dụng để kiểm tra xem hệ sồấ có khác đáng kể hay khồng Nếấu khồng đáng kể, hệ sồấ th ực s ự khồng thếm bâất điếồu vào mồ hình bị lo ại bỏ ho ặc kh ảo sát thếm Pr(>|t|) mức ý nghĩa Residual Standard Error: Đây độ lệch chuẩn phâồn dư Nhỏ h ơn tồất Mutple/Adjust R-squared: Hệ sồấ xác định R cho biếất phâồn trằm biếấn phụ thuộc giải thích mồ hình R hiệu chỉnh có tính đếấn sồấ lượng biếấn hữu ích nhâất cho hồồi quy bội F-statstc: Kiểm tra phân phồấi Fisher (F-test), ch ỉ sồấ đ ể giúp đánh giá toàn mồ hình Nếấu p-value >0,05 vếồ bản, mồ hình seẫ khồng có ý nghĩa - Đồấi với Y1: model_y1 = lm(Y1~X1+X2+X3+X4+X5+X6+X7+X8, data = analytc_data) summary(model_y1) Kếất 29 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Giải thích kếất quả: o X4 khồng xác định hệ sồấ biếấn X4 khồng độc lập tuyếấn tính, ta lo ại bỏ X4 khỏi mồ hình vâẫn thu kếất qu ả t ương t ự nh trến, thồng tn biếấn X4 biểu diếẫn thồng qua biếấn khác, v ậy thếm biếấn X4 khồng câồn thiếất o Trong hệ sồấ, hệ sồấ X6 có Pr(>|t|) > 0,05 nến v ới m ức ý nghĩa 5%, ta xem hệ sồấ X6 bằồng 0, tức loại X6 khỏi mồ hình o Hệ sồấ xác định R2=0,9162 cho biếất 91,62% biếấn phụ thuộc giải thích bằồng mồ hình o Có thể nhận thâấy, giá trị p-value F-test xâấp xỉ 0, nhỏ h ơn m ức ý nghĩa 5% nến nói mồ hình có ý nghĩa vếồ mặt dự đoán giá trị Y1 - Đồấi với Y2: model_y2 = lm(Y2~X1+X2+X3+X4+X5+X6+X7+X8, data = analytc_data) summary(model_y2) Kếất quả: 30 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Giải thích kếất quả: o X4 khồng xác định hệ sồấ biếấn X4 khồng độc lập tuyếấn tính, ta lo ại bỏ X4 khỏi mồ hình vâẫn thu kếất qu ả t ương t ự nh trến, thồng tn biếấn X4 biểu diếẫn thồng qua biếấn khác, v ậy thếm biếấn X4 khồng câồn thiếất o Trong hệ sồấ, hệ sồấ X6 X8 có Pr(>|t|) > 0,05 nến v ới m ức ý nghĩa 5%, ta xem hệ sồấ X6 X8 bằồng 0, t ức lo ại X6 X8 kh ỏi mồ hình o Hệ sồấ xác định R2=0,8878 cho biếất 88,78% biếấn phụ thuộc giải thích bằồng mồ hình o Có thể nhận thâấy, giá trị p-value F-test xâấp xỉ 0, nhỏ h ơn m ức ý nghĩa 5% nến nói mồ hình có ý nghĩa vếồ mặt dự đốn giá trị Y1 (b) Xét mồ hình bao gồồm biếấn Y1 biếấn phụ thuộc o Mồ hình model_y1a chứa tâất biếấn lại biếấn độc lập o Mồ hình model_y1b loại bỏ biếấn X6 từ mồ hình model_y1a Dùng lệnh anova() để đếồ xuâất mồ hình hồồi quy hợp lý model_y1a = lm(Y1~X1+X2+X3+X5+X6+X7+X8, data = analytc_data) model_y1b = lm(Y1~X1+X2+X3+X5+X7+X8, data = analytc_data) 31 anova(model_y1a, model_y1b) Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Dựa vào kếất quá, ta thâấy Pr(>F) = 0,8055 > 0,05 Vì thếấ mồ hình phù h ợp mồ hình rút gọn model_y1b, tức mồ hình loại bỏ biếấn X6 (c) Xét mồ hình bao gồồm biếấn Y2 biếấn phụ thuộc o Mồ hình model_y2a chứa tâất biếấn cịn lại biếấn độc lập o Mồ hình model_y2b loại bỏ biếấn X6 từ mồ hình model_y2a o Mồ hình model_y2c loại bỏ biếấn X8 từ mồ hình model_y2a o Mồ hình model_y2d loại bỏ biếấn X6 X8 từ mồ hình model_y2a Dùng lệnh anova() để đếồ xuâất mồ hình hồồi quy hợp lý model_y2a = lm(Y2~X1+X2+X3+X5+X6+X7+X8, data = analytc_data) model_y2b = lm(Y2~X1+X2+X3+X5+X7+X8, data = analytc_data) model_y2c = lm(Y2~X1+X2+X3+X5+X6+X7, data = analytc_data) model_y2d = lm(Y2~X1+X2+X3+X5+X7, data = analytc_data) - So sánh model_y2a với model_y2b model_y2c: anova(model_y2a, model_y2b) anova(model_y2a, model_y2c) 32 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Kếất so sánh đếồu có Pr(>F) lớn 0,05 nến c ả mồ hình model_y2b model_y2c đếồu hiệu model_y2a - So sánh model_y2b model_y2c với model_y2d anova(model_y2b, model_y2d) anova(model_y2c, model_y2d) Kếất so sánh đếồu có Pr(>F) lớn 0,05 nến mồ hình model_y2d hi ệu model_y2b model_y2c (d) Chọn mồ hình hợp lý từ câu (b) (c) suy luận tác động biếấn đếấn cồng suâất làm mát cồng suâất sưởi âấm 33 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Qua phân tích ta nhận thâấy biếấn X1, X2, X3, X5, X7 tác động m ạnh meẫ tới cồng suâất sưởi âấm cồng suâất làm mát Cụ thể h ơn nh ững yếấu tồấ ảnh h ướng l ớn đếấn cồng suâất làm mát cồng suâất sưởi âấm là: o X1: Độ nhỏ gọn tương đồấi o X2: Diện tích bếồ mặt o X3: Diện tích tường o X5: Chiếồu cao tổng thể o X7: Diện tích kính - Đồấi với cồng suâất sưởi âấm, biếấn X6 (sự định hướng) dường khồng có tác động - Đồấi với cồng suâất làm mát, biếấn X6 (sự đính hướng) X8 (phân bồấ di ện tích kính) dường đếồu khồng có tác động (e) Từ mồ hình hồồi quy chọn câu (b) (c), dùng lệnh plot() đ ể veẫ đồồ th ị bi ểu thị sai sồấ hồồi quy (residuals) giá trị dự báo (ftted values) Nếu ý nghĩa nhận xét đồồ thị - Đồấi với mồ hình dự đốn cồng suâất sưởi âấm model_y1b: plot(model_y1b) 34 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Ý nghĩa nhận xét: o Đồồ thị sử dụng để kiểm tra giả định vếồ mồấi quan h ệ tuyếấn tính Nếấu phâồn dư trải đếồu xung quanh đường ngang mà khồng có mâẫu khác biệt, dâấu hiệu tồất cho thâấy khồng có mồấi quan hệ phi tuyếấn tính o Đồồ thị trến cho thâấy giá trị phâồn dư t ập trung xung quanh đ ường y=0 nến mồ hình model_y1b xem thỏa mãn gi ả đ ịnh vếồ mồấi quan h ệ tuyếấn tính 35 Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 - Đồấi với mồ hình dự đốn cồng sưởi âấm model_y2d: plot(model_y2d) Ý nghĩa nhận xét: o Đồồ thị sử dụng để kiểm tra giả định vếồ mồấi quan h ệ tuyếấn tính Nếấu phâồn dư trải đếồu xung quanh đường ngang mà khồng có mâẫu khác biệt, dâấu hiệu tồất cho thâấy khồng có mồấi quan hệ phi tuyếấn tính o Đồồ thị trến cho thâấy giá trị phâồn dư t ập trung xung quanh đ ường y=0 nến mồ hình model_y2d xem thỏa mãn gi ả đ ịnh vếồ mồấi quan h ệ tuyếấn tính Dự đốn Từ mồ hình câu (b), (c), dùng lệnh predict() để dự đoán cồng suâất s ưởi âấm cồng suâất làm mát nhóm sau Xa: Xi = mean(Xi) () Xb: Xi = max(Xi) () So sánh khoảng tn cậy cho dự đốn nhóm 36 Xa = data.frame(X1 = mean(analytc_data$X1), X2 = mean(analytc_data$X2), Downloaded by Hoc Vu (vuchinhhp7@gmail.com) X3 = mean(analytc_data$X3), lOMoARcPSD|22494962 Cồng suâất sưởi âấm: predict(model_y2d, Xa, interval = 'confdence') predict(model_y2d, Xb, interval = 'confdence') Kếất Khoảng tn cậy dự đoán Xa hẹp Xb, tức giá trị dự đoán c Xa seẫ đáng tn cậy giá trị dự đoán Xb Cồng suâất làm mát: predict(model_y1b, Xa, interval = 'confdence') predict(model_y1b, Xb, interval = 'confdence') Kếất Khoảng tn cậy dự đoán Xa hẹp Xb, tức giá trị dự đoán c Xa seẫ đáng tn cậy giá trị dự đoán Xb 37 Downloaded by Hoc Vu (vuchinhhp7@gmail.com)