Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,95 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA XÁC SUẤT VÀ THỐNG KÊ (MT2013) BÁO CÁO BÀI TẬP LỚN SỐ GVHD: Sinh viên thực hiện: Nguyễn Đình Huy 1912190 – Nguyễn Mai Thy (Nhóm - Khoa Khoa học Kỹ thuật Máy tính) Thành viên nhóm 4: 1910597 1912190 1910610 1912205 1912216 1912408 1910699 1912457 1912463 1912479 - Huỳnh Ngọc Anh Thư Nguyễn Mai Thy (nhóm trưởng) Kiều Trung Tín Nguyễn Ngọc Tín Bùi Khánh Tồn Lê Nguyễn Hồng Un Đặng Trường Vũ Mai Hoàng Anh Vũ Phạm Hoàng Vũ Nguyễn Thị Thuý Vy Tp Hồ Chí Minh, Tháng 04/2021 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Mục lục A PHẦN CHUNG (Đề số 2) Đọc liệu (Import data): 1.1 Yêu cầu 1.2 Lời giải R 1.3 Kết thực nghiệm 5 5 Làm liệu (Data cleaning): 2.1 Câu a 2.1.1 Yêu cầu 2.1.2 Lời giải R 2.1.3 Kết thực nghiệm 2.2 Câu b 2.2.1 Yêu cầu 2.2.2 Lời giải R 2.2.3 Kết thực nghiệm 6 6 6 6 Làm rõ liệu (Data visualization): 3.1 Câu a 3.1.1 Yêu cầu 3.1.2 Lời giải R 3.1.3 Kết thực nghiệm 3.2 Câu b 3.2.1 Yêu cầu 3.2.2 Lời giải R 3.2.3 Kết thực nghiệm 3.3 Câu c 3.3.1 Yêu cầu 3.3.2 Lời giải R 3.3.3 Kết thực nghiệm 3.4 Câu d 3.4.1 Yêu cầu 3.4.2 Lời giải R 3.4.3 Kết thực nghiệm 3.5 Câu e 3.5.1 Yêu cầu 3.5.2 Lời giải R 3.5.3 Kết thực nghiệm 7 8 8 8 9 9 10 10 10 10 11 11 11 11 models): 13 13 13 13 13 13 13 13 14 14 14 15 15 15 15 Xây dựng mơ hình hồi quy 4.1 Câu a 4.1.1 Yêu cầu 4.1.2 Lời giải R 4.1.3 Kết thực nghiệm 4.2 Câu b 4.2.1 Yêu cầu 4.2.2 Lời giải 4.3 Câu c 4.3.1 Yêu cầu 4.3.2 Lời giải R 4.3.3 Kết thực nghiệm 4.4 Câu d 4.4.1 Yêu cầu 4.4.2 Lời giải R Báo cáo Bài tập lớn môn Xác suất thống kê tuyến tính (Fitting linear regression Trang 1/41 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Kết thực nghiệm Yêu cầu Lời giải R Kết thực nghiệm 15 16 16 16 16 Dự báo (Predictions): 5.1 Câu a 5.1.1 Yêu cầu 5.1.2 Lời giải R 5.1.3 Kết thực nghiệm 5.2 Câu b 5.2.1 Yêu cầu 5.2.2 Lời giải R 5.2.3 Kết thực nghiệm 5.3 Câu c 5.3.1 Yêu cầu 5.3.2 Lời giải R 5.3.3 Kết thực nghiệm 17 17 17 17 17 18 18 18 18 19 19 19 19 4.5 B 4.4.3 Câu e 4.5.1 4.5.2 4.5.3 PHẦN CHUNG (Đề số 4) Nhập, làm liệu, thực 1.1 Câu a 1.1.1 Yêu cầu 1.1.2 Lời giải R 1.1.3 Kết thực nghiệm 1.2 Câu b 1.2.1 Yêu cầu 1.2.2 Lời giải R 1.2.3 Kết thực nghiệm 1.3 Câu c 1.3.1 Yêu cầu 1.3.2 Lời giải R 1.3.3 Kết thực nghiệm 1.3.4 Đề xuất phương pháp 1.4 Câu d 1.4.1 Yêu cầu 1.4.2 Lời giải R 1.4.3 Kết thực nghiệm 1.5 Câu e 1.5.1 Yêu cầu 1.5.2 Lời giải R 1.5.3 Kết thực nghiệm 1.6 Câu f 1.6.1 Yêu cầu 1.6.2 Lời giải R 1.6.3 Kết thực nghiệm Phân tích 2.1 Câu a 2.1.1 2.1.2 2.2 Câu b 2.2.1 2.2.2 phương sai Yêu cầu Lời giải Yêu cầu Lời giải 19 thống nhân tố Báo cáo Bài tập lớn môn Xác suất thống kê kê mô tả 20 20 20 20 20 20 20 20 21 21 21 21 21 21 22 22 22 23 23 23 23 23 24 24 24 25 26 26 26 26 26 26 27 Trang 2/41 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh 2.3 2.4 Câu c 2.3.1 2.3.2 2.3.3 Câu d 2.4.1 2.4.2 2.4.3 Yêu cầu Giả định phân phối chuẩn Tính đồng phương sai Yêu cầu Lời giải R Kết thực nghiệm 27 27 27 28 29 29 29 29 C PHẦN RIÊNG (Khoa Khoa học Kỹ thuật Máy tính) 30 Đọc liệu 1.1 Lời giải R 1.2 Kết thực nghiệm 30 30 30 Làm liệu 2.1 Lọc liệu 2.1.1 Lời giải R 2.1.2 Kết thực nghiệm 2.2 Thay liệu bị khuyết 2.2.1 Phương pháp thay 2.2.2 Lời giải R 2.2.3 Kết thực nghiệm 31 31 31 31 31 31 31 32 Làm rõ liệu 3.1 Tính giá trị thống kê mơ tả biến liên tục 3.1.1 Lời giải R 3.1.2 Kết thực nghiệm 3.2 Lập bảng thống kê số lượng cho biến phân loại 3.2.1 Lời giải R 3.2.2 Kết thực nghiệm 3.3 Đồ thị phân phối biến Views 3.3.1 Lời giải R 3.3.2 Kết thực nghiệm 3.4 Đồ thị phân phối biến Views cho nhóm phân loại biến Genre, Sequel 3.4.1 Lời giải R 3.4.2 Kết thực nghiệm 3.5 Đồ thị phân phối biến Views theo biến liên tục Budget, Screens, Aggregate_Followers 3.5.1 Lời giải R 3.5.2 Kết thực nghiệm 32 32 32 32 32 32 33 33 33 33 33 33 34 34 34 35 Xây dựng mơ hình hồi quy tuyến tính 4.1 Mơ hình gồm Views biến phụ thuộc, tất biến 4.1.1 Lời giải R 4.1.2 Kết thực nghiệm 4.2 Loại bỏ số biến dựa mức tin cậy 4.3 Đề xuất mơ hình hồi quy tuyến tính hợp lý 4.3.1 Lời giải R 4.3.2 Kết thực nghiệm 4.4 Suy luận tác động biến đến số lượt xem 4.4.1 Lời giải R 4.4.2 Kết thực nghiệm 4.5 Đồ thị biểu thị sai số hồi quy giá trị dự báo 4.5.1 Lời giải R 4.5.2 Kết thực nghiệm 36 36 36 36 36 37 37 37 37 37 38 38 38 38 Báo cáo Bài tập lớn môn Xác suất thống kê lại độc lập Trang 3/41 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Dự báo 5.1 Đánh giá lượt xem phim 5.1.1 Lời giải R 5.1.2 Kết thực nghiệm 5.2 Đưa lượt xem dự báo cho biến mơ hình hồi quy 5.2.1 Lời giải R 5.2.2 Kết thực nghiệm 5.3 Khảo sát độ xác kết dự báo 5.3.1 Lời giải R 5.3.2 Kết thực nghiệm Báo cáo Bài tập lớn môn Xác suất thống kê hợp lý 39 39 39 39 39 40 40 40 40 40 Trang 4/41 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Phần A PHẦN CHUNG (Đề số 2) Tập tin diem_so.csv chứa thông tin điểm toán em học sinh trung học thuộc hai trường học Bồ Đào Nha Các thuộc tính liệu bao gồm điểm học sinh, nơi cư trú, số hoạt động xã hội khác Dữ liệu thu thập cách sử dụng báo cáo trường kết khảo sát sinh viên Dữ liệu gốc cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance Các biến liệu: – G1: Điểm thi học kì – G2: Điểm thi học kì – G3: Điểm cuối khoá – studytime: Thời gian tự học tuần – failures: số lần không qua môn – absences: số lần nghỉ học – higher: Có muốn học cao hay không – age: Tuổi học sinh 1.1 Đọc liệu (Import data): Yêu cầu Hãy dùng lênh read.csv() để đọc tệp tin 1.2 Lời giải R diem_so % select(G1, G2, G3, studytime, failures, absences, higher, age) View(new_DF) 2.1.3 Kết thực nghiệm Sau chạy câu lệnh R, ta bảng new_DF gồm biến ta quan tâm: 2.2 2.2.1 Câu b Yêu cầu Kiểm tra liệu bị khuyết tập tin Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết 2.2.2 Lời giải R Kiểm tra liệu bị khuyết tập tin câu lệnh sau: apply(is.na(new_DF), 2, which) Báo cáo Bài tập lớn môn Xác suất thống kê Trang 6/41 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh 2.2.3 Kết thực nghiệm Sau chạy câu lệnh R, ta kết kiểm tra: Nhận xét – Trong bảng liệu trích lọc new_DF cịn giá trị bị khuyết (NA) Nhận thấy giá trị khuyết nằm cột G2, vị trí hàng thứ 2, 6, 9, 80, 100 Do số lượng NA (chiếm tỷ lệ < 10%) nên ta xử lý cách xóa quan sát bị khuyết G2 – Lời giải R: new_DF