BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ

38 45 0
BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - ỨNG DỤNG BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THÔNG KÊ ĐỀ TÀI LỚP: L06 NHĨM: 1, HK211 GVHD: PGS.TS NGUYỄN ĐÌNH HUY SVTH: Nguyễn Minh Thiện TP HỒ CHÍ MINH, NĂM 2021 I Hoạt động 1: .2 Giới thiệu liệu 2 Câu hỏi: II Hoạt động 22 Giới thiệu liệu 22 Câu hỏi 23 Tổng kết 36 III TÀI LIỆU THAM KHẢO 37 I Hoạt động 1: Giới thiệu liệu Bài tập 1: Tập tin “gia_nha.csv” chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả đặc tính ngơi nhà Truy cập: https://www.kaggle.com/harlfoxem/housesalesprediction Chi tiết liệu sau: - Tổng số nhà: 21613 - Tổng số biến: 21 - Các biến liệu:  price: Giá nhà bán  floors: Số tầng cảu nhà phân loại từ - 3.5  condition: Điều kiện kiến trúc nhà từ - 5, 1: tệ, 5: tốt  view: Đánh giá cảnh quan xung quanh nhà từ thấp đến cao: -  sqft_above: Diện tích ngơi nhà  sqft_living: Diện tích khn viên nhà  sqft_basement: Diện tích tầng hầm Câu hỏi: 2.1 Đọc liệu (Import data) Input: Hình Code đính kèm thích Import data Output: Hình File data tạo sau chạy code 2.2 Làm liệu (Data cleaning) [a] Tạo liệu đặt tên “new_DF”, bao gồm biến cần quan tâm là: price, floors, condition, view, sqft_above, sqft_living, sqft_basement Input: Hình Code tạo liệu từ liệu gốc Output: Hình Enviroment sau chạy code Hình Dữ liệu new_DF [b] Kiểm tra liệu bị khuyết tập tin Input: Hình Code kiểm tra liệu khuyết theo dịng Output: Hình Console kết kiểm tra liệu khuyết theo dòng Input: Hình Code thống kê số lượng giá trị khuyết theo biến Output: Hình Console số lượng giá trị khuyết theo biến Nhận xét: Dựa vào kết trên, liệu bị khuyết thuộc biến price Và số liệu bị khuyết 20 | |) > 0,05 nên loại, có hệ số temp, cloud_all có ý nghĩa thống kê [c] Dùng lệnh anova() để đề xuất mơ hình hồi quy hợp lý Input: Hình 67 Code xây dựng thống kê mơ hình M2 Output: Hình 68 Console thống kê mơ hình M2 Nhận xét: Dựa vào kết trên, ta có: - Phương trình hồi quy tuyến tính với traffic_volume biến phụ thuộc là: traffic_volume = - 2749.0607 + 20.6425*temp + 4.1343*counds_all 31 - Trong biến độc lập: temp, rain_1h có Pr(>| |) < 0,05 nên hệ số biến có ý nghĩa Input: Hình 69 Code phân tích anova Output: Hình 70 Console phân tích anova Đặt giả thiết: H: M2 không hợp lý M1 ̅ : M2 hợp lý M1 Nhận xét: Vì kết thu bảng Anova cho mơ hình M1 M2 Pr(>F) < 0.05 nên chấp nhận ̅ , có nghĩa M2 hợp lý M1 [d] Chọn mơ hình hợp lý từ câu [c], qua kết luận tác động biến lên lưu lượng giao thơng Input: Hình 71 Code nhận xét tác động đến lưu lượng giao thơng Output: 32 Hình 72 Console nhận xét tác động đến lưu lượng giao thơng Theo kết quả, ta thấy mơ hình M2 mô tả 2.35% tác động biến đến lưu lượng giao thơng Trong temp chiếm 1,7991%, clouds_all chiếm 0.5509% [e] Từ mơ hình hồi quy mà bạn chọn câu [c] dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) Nêu ý nghĩa nhận xét đồ thị Input: Hình 73 Code vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) 33 Output: Hình 74 Đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values)của mơ hình M2 Nhận xét: Đường màu đỏ (Residuals) gần giá trị nên ó thể kết luận mơ hình M2 có độ hiệu hợp lý ao Các giá trị dự báo (Fitted values) tập trung khoảng từ 230 đến 380 Trong đồ thị tồn giá trị ngoại lai, ta xử lý giá trị ngoại lai cách triệt để có mơ hình hiệu hợp lý cao 2.5 ự ctions): [a] Từ mơ hình chọn câu [c], ta dùng lệnh predict() để dự báo lưu lượng giao thơng thuộc tính sau: X1: temp = mean(temp), clouds_all = mean(clouds_all), holiday = Christmas Day, weather_main= Clear X2: temp = max(temp), clouds_all = max(clouds_all), holiday = Christmas Day, weather_main= Clear 34 Input: Hình 75 Code tạo thuộc tính Output: Hình 76 Console thuộc tính X1, X2 Input: Hình 77 Code dự báo lưu lượng giao thơng theo thuộc tính X1, X2 Output: Hình 78 Console dự báo lưu lượng giao thơng theo thuộc tính X1, X2 35 Input: Hình 79 Code tạo bảng so sánh khoảng tin cậy cho giá trị dự báo Output: Hình 80 Console bảng so sánh khoảng tin cậy cho giá trị dự báo Nhận xét: Khoảng tin cậy giá trị dự báo Khoảng tin cậy giá trị dự báo Khoảng tin cậy nên thuộc tính X1 đáng tin X2 Tổng kết Chúng ta tìm hiểu vấn đề liệu yếu tố thời tiết có ảnh hưởng đến lưu lượng xe ngày hay khơng Qua việc phân tích liệu, chúng tơi cho yếu tố thời tiết có ảnh hưởng đến lưu lượng xe ngày, với điều kiện thời tiết khác lưu lượng xe ngày khác Từ ta giải nhiều vấn đề sống như: xây dựng sở vật chất phù hợp với lưu lượng xe kiểu thời tiết nơi đó, đề phương án điều tiết giao thông nhằm giảm thiểu tình trạng kẹt xe, tai nạn giao thơng lưu lượng giao thơng q dày đặc, dự đốn kiểu thời tiết biết lưu lượng xe nhằm đề 36 phương án giải kịp thời đối mặt với thời tiết xấu, đảm bảo an toàn cho người điều khiển phương tiện giao thông… III TÀI LIỆU THAM KHẢO [1] Douglas C Montgomery, George C Runger Hoboken Applied Statistics and Probability for Engineers NJ: Wiley, (2007) [2] Peter Dalgaard Introductory Statistics with R Springer, (2008) [3] Phân tích số liệu biểu đồ bằng, Truy cập từ: https://cran.rproject.org/doc/contrib/Intro_to_R_Vietnamese.pdf [4] Giới thiệu phân tích phương sai (ANOVA), Truy cập từ https://www.youtube.com/watch?v=I19vEdaM1eY&list=LL&index=6&t=2s [5] Giáo trình xác suất thống kê – Nguyễn Đình Huy [6] Multiple regression, Truy cập từ: https://rstudio-pubsstatic.s3.amazonaws.com/233905_8c9601100a364df0a9972f955ab1dc14.html [7] Hồi quy tuyến tính, Truy cập từ: https://www.youtube.com/watch?v=L15RellDWvk&t=6s 37

Ngày đăng: 14/03/2022, 05:55

Tài liệu cùng người dùng

Tài liệu liên quan