ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC KỸ THUẬT MÁY TÍNH BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn Nguyễn Bá Thi Lớp L02,nhóm 16, HK 212 Sinh viên thực hiện Nguyễn Thành Công 2012752 Ngày 16 tháng 4 năm 2022 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học và kỹ thuật máy tính Contents A PHẦN CHUNG 3 I Hồi quy tuyến tính 3 1 Đề bài 3 2 Câu hỏi 3 2 1 Đọc dữ liệu (Import data) 3 2 2 Làm sạch dữ liệu (Data cleaning) 3 2 3 Làm rõ dữ liệu (Data vis.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn: Nguyễn Bá Thi Lớp: L02,nhóm 16, HK 212 Sinh viên thực hiện: Nguyễn Thành Công - 2012752 Ngày 16 tháng năm 2022 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính Contents A PHẦN CHUNG I Hồi quy tuyến tính Đề Câu hỏi 2.1 Đọc liệu (Import data): 2.2 Làm liệu (Data cleaning): 2.3 Làm rõ liệu (Data visualization): 2.4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): 2.5 Dự báo (Predictions): Xử lý số liệu 3.1 Đọc liệu (Import data): 3.2 Làm liệu (Data cleaning): 3.3 Làm rõ liệu (Data visualization): 3.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 13 3.5 Dự báo (Predictions): 18 II ANOVA Đề Câu hỏi 2.1 Nhập làm 2.2 Phân tích phương Xử lý số liệu 3.1 Nhập làm 3.2 Phân tích phương liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) 20 20 20 20 21 21 21 31 B PHẦN RIÊNG 46 III Hồi quy tuyến tính Đề Câu hỏi 2.1 Đọc liệu (Import data) 2.2 Làm liệu (Data cleaning) 2.3 Làm rõ liệu (Data visualization) 2.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 2.5 Dự báo (Predictions): Xử lý số liệu 3.1 Đọc liệu (Import data): 3.2 Làm liệu (Data cleaning): 3.3 Làm rõ liệu (Data visualization): 3.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 3.5 Dự báo (Predictions): 46 46 46 46 46 47 47 47 48 48 48 49 55 61 IV ANOVA Đề Câu hỏi 2.1 Nhập làm 2.2 Phân tích phương 62 62 62 62 63 liệu, thực thống kê mô tả sai nhân tố (one way ANOVA) Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 1/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính Xử lý số liệu 63 3.1 Nhập làm liệu, thực thống kê mô tả 63 3.2 Phân tích phương sai nhân tố (one way ANOVA) 70 Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 2/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính A PHẦN CHUNG I Hồi quy tuyến tính Đề Tập tin "gia_nha.csv"chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến tháng 5/2015 Bên cạnh giá nhà, liệu bao gồm thuộc tính mơ tả chất lượng ngơi nhà Dữ liệu gốc cung cấp (https://www.kaggle.com/harlfoxem/housesalesprediction) Các biến liệu: ❼ price: Giá nhà bán ❼ sqft_living15: Diện tích trung bình 15 ngơi nhà gần khu dân cư ❼ floors: Số tầng nhà phân loại từ 1-3.5 ❼ condiiton: Điều kiện kiến trúc nhà từ – 5, 1: tệ 5: tốt ❼ sqft_above: Diện tích ngơi nhà ❼ sqft_living: Diện tích khn viên nhà Câu hỏi 2.1 Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin 2.2 Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF (b) Kiểm tra liệu bị khuyết tập tin ( Các câu lệnh tham khảo: is.na(), which(), apply() ) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết 2.3 Làm rõ liệu (Data visualization): (a) Chuyển đổi biến price, sqft_living15, sqft_above, sqft_living thành log(price), log(sqft_living15), log(sqft_above), log(sqft_living) Từ tính tốn với biến hiểu qua đổi biến dạng log (b) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá tị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean() , median() , sd() , min() , max() , apply() , as.data.frame() , rownames() ) (c) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table() ) Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 3/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính (d) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến price (e) Hãy dùng hàm boxplot() vẽ phân phối biến price cho nhóm phân loại biến floors biến condition (f) Dùng lệnh pairs() vẽ phân phối biến price theo biến sqft_living15, sqft_above sqft_living 2.4 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Chúng ta muốn khám phá có nhân tố tác động đến giá nhà quận King (a) Xét mơ hình hồi quy tuyến tính bao gồm biến price biến phụ thuộc, tất biến lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quy tuyến tính bội (b) Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bạn loại khỏi mơ hình tương ứng với mức tin cậy 5% ? (c) Xét mơ hình tuyến tính bao gồm biến price biến phụ thuộc nhưng: • Mơ hình M1 chứa tất biến cịn lại biến độc lập • Mơ hình M2 loại bỏ biến condition từ mơ hình M1 Hãy dùng lệnh anova() để đề xuất mơ hình hồi quy hợp lý (d) Chọn mơ hình hợp lý từ câu (c) suy luận tác động biến lên giá nhà (e) Từ mơ hình hồi quy mà bạn chọn câu (c) dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) Nêu ý nghĩa nhận xét đồ thị 2.5 Dự báo (Predictions): (a) Từ mơ hình bạn chọn câu (c), dùng lệnh predict() để dự báo giá nhà thuộc tính sau: x1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqtf_living = mean(sqtf_living), floor = 2, condition = x2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqtf_living = max(sqtf_living), floor = 2, condition = So sánh khoảng tin cậy cho giá trị dự báo 3.1 Xử lý số liệu Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin Báo cáo môn Xác suất thống kê - Học kỳ 212, năm học 2021-2022 Trang 4/75 Đại học Bách Khoa thành phố Hồ Chí Minh Khoa khoa học kỹ thuật máy tính gia_nha = read.csv("D:/gia_nha.csv") Giải thích: dùng lệnh read.csv() để đọc liệu gia_nha.csv, sau lưu vào gia_nha 3.2 Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF new_DF