Bài tập lớn 2 xác suất thống kê

lOMoARcPSD|20597457 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA  BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: Nguyễn Kiều Dung Khoa Kỹ thuật hóa học – Nhóm Danh sách thành viên: STT Họ tên Trần Đức Hoàng Huy Thới Lê Nhật Bình Đặng Ngọc Tân Lê Tiến Anh Ngơ Thị Phương Thùy Trần Song Khôi Lâm Thanh Ngân Phan Nguyên Minh Đinh Trung Hiếu Mã thứ tự báo cáo nhóm: B42 MSSV 1913558 1912737 1912008 1910754 1915402 1911433 1914273 1911617 1911140 Lớp L16 L16 L04 L13 L16 L09 L16 L09 L09 Kí tên lOMoARcPSD|20597457 MỤC LỤC Lời mở đầu Phần đề A Phần chung B Phần riêng Phần lời giải A Phần chung Đọc liệu Làm liệu (Data cleaning) Làm rõ liệu (Data visualization) Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 12 Dự báo (Predictions) 15 B Phần riêng Đọc liệu 17 Làm liệu (Data cleaning) 17 Làm rõ liệu (Data visualization) 17 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 27 Dự báo (Predictions) 32 lOMoARcPSD|20597457 LỜI MỞ ĐẦU Thống kê nghiên cứu tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày tổ chức liệu Trong thực tiễn, thống kê có nhiều ứng dụng vào nhiều lĩnh vực khác nhau, đặc biệt cần thiết cho sinh viên ngành khoa học, kỹ thuật Môn học Xác suất & thống kê cung cấp kiến thức lý thuyết, giới thiệu số hàm phân phối xác suất thông dụng, kiểm định giả thuyết, ước lượng khoảng tin cậy, v.v…Thông qua thống kê, liệu thu thập phân tích theo nhiều tiêu chí khác giúp người sử dụng có nhìn tổng quan liệu họ, đưa ước lượng tổng thể lớn hay dự đốn mơ hình kiểm định lại giả thuyết theo mức ý nghĩa khác Trong riêng lĩnh vực Kỹ thuật Hóa học, nhiều nghiên cứu cần có liệu từ thực nghiệm để nghiên cứu tính chất hợp chất, tính hiệu sản phẩm, hiệu suất phản ứng điều kiện phản ứng khác nhau, v.v Vì tính ứng dụng Xác suất & thống kê Kỹ thuật Hóa học cao, tảng, tiền đề cho việc nghiên cứu Báo cáo nhóm tập trung vào việc tìm hiểu hai phương pháp sử dụng phổ biến Thống kê Phân tích phương sai Hồi quy tuyến tính bội Từ vận dụng chúng vào việc xử lý tệp liệu cho sẵn, đưa giá trị thống kê mô tả, đánh giá đặc điểm, tính chất đối tượng thống kê, vẽ đồ thị để có nhìn trực quan,.v.v.bằng phần mềm R/Rstudio lOMoARcPSD|20597457 PHẦN ĐỀ BÀI A PHẦN CHUNG Tập tin “diem_so.csv” chứa thơng tin điểm tốn em học sinh trung học thuộc hai trường học Bồ Đào Nha Các thuộc tính liệu bao gồm điểm học sinh, nơi cư trú, số hoạt động xã hội khác Dữ liệu thu thập cách sử dụng báo cáo trường kết khảo sát sinh viên Dữ liệu gốc cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance Các biến liệu: • G1: Điểm thi học kì • G2: Điểm thi học kì • G3: Điểm cuối khố • studytime: Thời gian tự học tuần (1 – giờ, – từ đến giờ, – từ đến 10 giờ, or – lớn 10 giờ) • failures: số lần khơng qua môn (1,2,3, nhiều lần) • absences: số lần nghỉ học • higher: Có muốn học cao hay khơng (yes: có, no: khơng) • age: Tuổi học sinh Câu hỏi: Đọc liệu: Hãy dùng lệnh read.csv() để đọc tệp tin Làm liệu (Data cleaning): (a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF (b) Kiểm tra liệu bị khuyết tập tin (Các câu lênh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Làm rõ liệu (Data visualization): (a) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()) (b) Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (c) Hãy dùng hàm hist() để vẽ đồ thị phân phối biến G3 (d) Hãy dùng hàm boxplot() vẽ phân phối biến G3 cho nhóm phân loại biến studytime, failures, biến higher (e) Dùng lệnh pairs() vẽ phân phối biến G3 theo biến G1, G2, age absences Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): lOMoARcPSD|20597457 Chúng ta muốn khám phá có nhân tố tác động đến điểm cuối khố mơn Tốn em học sinh (a) Xét mơ hình hồi quy tuyến tính bao gồm biến G3 biến phụ thuộc, tất biến lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quy tuyến tính bội (b) Dựa vào kết mơ hình hồi quy tuyến tính trên, biến bạn loại khỏi mơ hình tương ứng với mức tin cậy 5% 1%? (c) Xét mơ hình tuyến tính bao gồm biến G3 biến phụ thuộc nhưng: • Mơ hình M1 chứa tất biến cịn lại biến độc lập • Mơ hình M2 loại bỏ biến higher từ M1 • Mơ hình M3 loại bỏ biến failure từ M2 Hãy dùng lệnh anova() để đề xuất mơ hình hồi quy hợp lý (d) Từ mơ hình hồi quy hợp lý từ câu (c) suy luận tác động biến lên điểm thi cuối kì (e) Từ mơ hình hồi quy hợp lý từ câu (c) dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy giá trị dự báo Nêu ý nghĩa nhận xét Dự báo (Predictions): (a) Trong liệu bạn, tạo thêm biến đặt tên evaluate, biến biểu diễn tỷ lệ đạt (G3 >= 10) không đạt (G3 < 10) sinh viên điểm thi cuối kì Hãy thống kê tỷ lệ đạt/không đạt (Hàm gợi ý: cbind()) (b) Xét mơ hình hồi quy hợp lý mà bạn chọn câu 4(c) Hãy lập bảng số liệu đặt tên new_X bao gồm toàn biến độc lập mơ hình này, dùng lênh predict() để đưa số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi kết dự báo biến pred_G3 (c) Khảo sát độ xác kết dự báo câu cách lập bảng so sánh kết dự báo pred_G3 với kết thực tế biến G3 Đạt Không đạt Quan sát Dự báo B PHẦN RIÊNG Tập tin “PRSA_Data_Wanshouxigong_20130301-20170228.csv” Bộ liệu bao gồm liệu chất nhiễm khơng khí hàng từ 12 địa điểm giám sát chất lượng khơng khí kiểm sốt tồn quốc Dữ liệu chất lượng khơng khí lấy từ Trung tâm Giám sát Môi trường Thành phố Bắc Kinh Dữ liệu khí tượng địa điểm chất lượng khơng khí khớp với trạm thời tiết gần Cục Khí tượng Trung Quốc Khoảng thời gian từ ngày tháng năm 2013 đến ngày 28 tháng năm 2017 Dữ liệu bị thiếu ký hiệu NA Dữ liệu gốc cung cấp https://archive.ics.uci.edu/ml/datasets/student+performance lOMoARcPSD|20597457 Các biến d liu: ã PM2.5: nng PM2.5 (àg/m3) ã PM10: Nng PM10 (àg/m3) ã CO: Nng CO (àg/m3) • TEMP: nhiệt độ (oC) • PRES: áp suất (hPa) • DEWP: nhiệt độ điểm sương (oC) • RAIN: lượng mưa (mm) • wd: hướng gió • WSPM: tốc độ gió (m/s) lOMoARcPSD|20597457 PHẦN LỜI GIẢI A PHẦN CHUNG Đọc liệu: Input: diem_so=82)) evaluate_PM10 = prop.table(table(PM10>=110)) evaluate_O3 = prop.table(table(O3>=56)) evaluate = cbind(evaluate_PM2.5, evaluate_PM10, evaluate_O3) evaluate Output: b Hãy lập bảng số liệu đặt tên new_X bao gồm biến TEMP, PRES, DEWP, WSPM, wd và dùng lênh predict() để đưa số liệu dự báo cho biến PM2.5, PM10, O3 phụ thuộc vào new_X Input: New_X = data.frame(TEMP, PRES, DEWP, WSPM, wd) New_X$pred_PM2.5 = predict(m1,New_X) New_X$pred_PM10 = predict(m2,New_X) New_X$pred_O3 = predict(m3,New_X) attach(New_X) evaluate_PM2.5_2 = prop.table(table(pred_PM2.5>=82)) evaluate_PM10_2 = prop.table(table(pred_PM10G3>=110)) evaluate_O3_2 = prop.table(table(pred_O3>=56)) 32 Downloaded by hong chinh (vuchinhhp5@gmail.com) lOMoARcPSD|20597457 evaluate = cbind(evaluate_PM2.5_2, evaluate_PM10_2, evaluate_O3_2) evaluate_2 Output: c Khảo sát độ xác kết dự báo câu cách lập bảng so sánh kết dự báo với kết thực tế biến PM2.5, PM10, O3 – Đối với biến PM2.5: Input: Ket_qua = cbind(evaluate_PM2.5,evaluate_PM2.5_2) colnames(Ket_qua)=c("Quan sát","Dự báo") rownames(Ket_qua)=c("Không đạt","Đạt") t(Ket_qua) Output: – Đối với biến PM10: Input: Ket_qua = cbind(evaluate_PM10,evaluate_PM10_2) colnames(Ket_qua)=c("Quan sát","Dự báo") rownames(Ket_qua)=c("Không đạt","Đạt") t(Ket_qua) Output: – Đối với biến O3: Input: Ket_qua = cbind(evaluate_O3,evaluate_O3_2) colnames(Ket_qua)=c("Quan sát","Dự báo") rownames(Ket_qua)=c("Không đạt","Đạt") t(Ket_qua) Output: 33 Downloaded by hong chinh (vuchinhhp5@gmail.com)

Định dạng
Số trang	34
Dung lượng	649,78 KB