THÔNG TIN TÀI LIỆU
ĐẠI HOC QUOC GIA THÀNH PHO HO CHÍ MINH TRƯ NG ĐẠI HOC BÁCH KHOA XÁC SUAT VÀ THONG KÊ (MT2013) BÁO CÁO BÀI T P L N SO GVHD: Sinh viên thực hi¾n: Nguyen Đình Huy 1912190 – Nguyen Mai Thy (Nhóm - Khoa Khoa hoc Kỹ thu¾t Máy tính) Thành viên nhóm 4: 1910597 - Huỳnh Ngoc Anh Thư 1912190 - Nguyen Mai Thy (nhóm trưởng) 1910610 - Kieu Trung Tín 1912205 - Nguyen Ngoc Tín 1912216 - Bùi Khánh Tồn 1912408 - Lê Nguyen Hoàng Uyên 1910699 - Đ ng Trường Vũ 1912457 - Mai Hoàng Anh Vũ 1912463 - Phạm Hoàng Vũ 1912479 - Nguyen Thị Thuý Vy Tp Ho Chí Minh, Tháng 04/2021 Trưịng Đại Hoc Bách Khoa Tp.Ho Chí Minh Mnc lnc A PHAN CHUNG (Đe so 2)5 Đoc 1.1 1.2 1.3 dfi li u (Import data):5 Yêu cau Lời giải R .5 Ket thực nghi¾m Làm dfi li u (Data cleaning):6 2.1 Câu a .6 2.1.1 Yêu cau 2.1.2 Lời giải R 2.1.3 Ket thực nghi¾m 2.2 Câu b 2.2.1 Yêu cau 2.2.2 Lời giải R 2.2.3 Ket thực nghi¾m Làm rõ dfi li u (Data visualization):7 3.1 Câu a .7 3.1.1 Yêu cau 3.1.2 Lời giải R 3.1.3 Ket thực nghi¾m 3.2 Câu b 3.2.1 Yêu cau 3.2.2 Lời giải R 3.2.3 Ket thực nghi¾m 3.3 Câu c 3.3.1 Yêu cau 3.3.2 Lời giải R 3.3.3 Ket thực nghi¾m 3.4 Câu d .10 3.4.1 Yêu cau 10 3.4.2 Lời giải R 10 3.4.3 Ket thực nghi¾m 10 3.5 Câu e .11 3.5.1 Yêu cau 11 3.5.2 Lời giải R 11 3.5.3 Ket thực nghi¾m 11 Xây dfing mơ hình hoi quy tuyen tính (Fitting linear regression models):13 4.1 Câu a .13 4.1.1 Yêu cau 13 4.1.2 Lời giải R 13 4.1.3 Ket thực nghi¾m 13 4.2 Câu b .13 4.2.1 Yêu cau 13 4.2.2 Lời giải .13 4.3 Câu c .14 4.3.1 Yêu cau 14 4.3.2 Lời giải R 14 4.3.3 Ket thực nghi¾m 15 4.4 Câu d .15 4.4.1 Yêu cau 15 4.4.2 Lời giải R 15 Báo cáo Bài t p lớn mơn Xác suat thong Trang Trưịng Đại Hoc Bách Khoa Tp.Ho Chí Minh 4.4.3 Ket thực nghi¾m 15 4.5 Câu e .16 4.5.1 Yêu cau 16 4.5.2 Lời giải R 16 4.5.3 Ket thực nghi¾m 16 Dfi báo (Predictions):17 5.1 Câu a .17 5.1.1 Yêu cau 17 5.1.2 Lời giải R 17 5.1.3 Ket thực nghi¾m 17 5.2 Câu b .18 5.2.1 Yêu cau 18 5.2.2 Lời giải R 18 5.2.3 Ket thực nghi¾m 18 5.3 Câu c .19 5.3.1 Yêu cau 19 5.3.2 Lời giải R 19 5.3.3 Ket thực nghi¾m 19 B PHAN CHUNG (Đe so 4)19 Nh p, làm dfi li u, thfic hi n thong kê mô ta20 1.1 Câu a .20 1.1.1 Yêu cau 20 1.1.2 Lời giải R 20 1.1.3 Ket thực nghi¾m 20 1.2 Câu b .20 1.2.1 Yêu cau 20 1.2.2 Lời giải R 20 1.2.3 Ket thực nghi¾m 21 1.3 Câu c .21 1.3.1 Yêu cau 21 1.3.2 Lời giải R 21 1.3.3 Ket thực nghi¾m 21 1.3.4 Đe xuat phương pháp 21 1.4 Câu d .22 1.4.1 Yêu cau 22 1.4.2 Lời giải R 22 1.4.3 Ket thực nghi¾m 23 1.5 Câu e .23 1.5.1 Yêu cau 23 1.5.2 Lời giải R 23 1.5.3 Ket thực nghi¾m 23 1.6 Câu f 24 1.6.1 Yêu cau 24 1.6.2 Lời giải R 24 1.6.3 Ket thực nghi¾m 25 Phân tích phương sai m t nhân to26 2.1 Câu a .26 2.1.1 Yêu cau 26 2.1.2 Lời giải .26 2.2 Câu b .26 2.2.1 Yêu cau 26 2.2.2 Lời giải .27 Báo cáo Bài t p lớn mơn Xác suat thong Trang Trưịng Đại Hoc Bách Khoa Tp.Ho Chí Minh 2.3 Câu c .27 2.3.1 Yêu cau 27 2.3.2 Giả định ve phân phoi chuȁn 27 2.3.3 Tính đong nhat phương sai .28 2.4 Câu d .29 2.4.1 Yêu cau 29 2.4.2 Lời giải R 29 2.4.3 Ket thực nghi¾m .29 C PHAN RIÊNG (Khoa Khoa hoc Kj thu t Máy tính)30 Đoc dfi li u 30 1.1 Lời giải R .30 1.2 Ket thực nghi¾m 30 Làm dfi li u 31 2.1 Loc dã li¾u 31 2.1.1 Lời giải R 31 2.1.2 Ket thực nghi¾m .31 2.2 Thay the dã li¾u bị khuyet 31 2.2.1 Phương pháp thay the .31 2.2.2 Lời giải R 31 2.2.3 Ket thực nghi¾m .32 Làm rõ dfi li u 32 3.1 Tính giá trị thong kê mơ tả bien liên tục 32 3.1.1 Lời giải R 32 3.1.2 Ket thực nghi¾m .32 3.2 L¾p bảng thong kê so lượng cho bien phân loại .32 3.2.1 Lời giải R 32 3.2.2 Ket thực nghi¾m .33 3.3 Đo thị phân phoi bien Views 33 3.3.1 Lời giải R 33 3.3.2 Ket thực nghi¾m .33 3.4 Đo thị phân phoi bien Views cho tàng nhóm phân loại bien Genre, Sequel .33 3.4.1 Lời giải R 33 3.4.2 Ket thực nghi¾m .34 3.5 Đo thị phân phoi bien Views theo bien liên tục Budget, Screens, Aggregate_Followers34 3.5.1 Lời giải R 34 3.5.2 Ket thực nghi¾m .35 Xây dfing mơ hình hoi quy tuyen tính36 4.1 Mơ hình gom Views bien phụ thu c, tat bien cịn lại đ c l¾p 36 4.1.1 Lời giải R 36 4.1.2 Ket thực nghi¾m .36 4.2 Loại bỏ m t so bien dựa mác tin c¾y .36 4.3 Đe xuat mơ hình hoi quy tuyen tính hợp lý 37 4.3.1 Lời giải R 37 4.3.2 Ket thực nghi¾m .37 4.4 Suy lu¾n tác đ ng bien đen so lượt xem .37 4.4.1 Lời giải R 37 4.4.2 Ket thực nghi¾m .38 4.5 Đo thị bieu thị sai so hoi quy giá trị dự báo 38 4.5.1 Lời giải R 38 4.5.2 Ket thực nghi¾m .38 Báo cáo Bài t p lớn môn Xác suat thong Trang Trưịng Đại Hoc Bách Khoa Tp.Ho Chí Minh Dfi báo 39 5.1 Đánh giá lượt xem moi b phim 39 5.1.1 Lời giải R 39 5.1.2 Ket thực nghi¾m 39 5.2 Đưa lượt xem dự báo cho bien mơ hình hoi quy hợp lý nhat 39 5.2.1 Lời giải R 40 5.2.2 Ket thực nghi¾m 40 5.3 Khảo sát đ xác ket dự báo .40 5.3.1 Lời giải R 40 5.3.2 Ket thực nghi¾m 40 Báo cáo Bài t p lớn môn Xác suat thong Trang Trưòng Đại Hoc Bách Khoa Tp.Ho Chí Minh Phan A PHAN CHUNG (Đe so 2) T¾p tin diem_so.csv cháa thơng tin ve điem tốn em hoc sinh trung hoc thu c hai trường hoc Bo Đào Nha Các thu c tính dã li¾u bao gom điem hoc sinh, nơi cư trú, m t so hoạt đ ng xã h i khác Dã li¾u thu th¾p bang cách sả dụng báo cáo trường ket khảo sát sinh viên Dã li¾u goc cung cap tại: https://archive.ics.uci.edu/ml/datasets/student+performance Các bien b dã li¾u: –G1: Điem thi hoc kì –G2: Điem thi hoc kì –G3: Điem cuoi khoá –studytime: Thời gian tự hoc tuan –failures: so lan không qua môn –absences: so lan nghỉ hoc –higher: Có muon hoc cao hay khơng –age: Tuői hoc sinh 1.1 Đoc dfi li u (Import data): Yêu cau Hãy dùng lênh read.csv() đe đoc t¾p tin 1.2 L i giải R diem_so % select(G1, G2, G3, studytime, failures, absences, higher, age) View(new_DF) 2.1.3 Ket qua thfic nghi m Sau chạy câu l¾nh R, ta bảngnew_DFchỉ gom nhãng bien ta quan tâm: 2.2 2.2.1 Câu b Yêu cau Kiem tra dã li¾u bị khuyet t¾p tin Neu có dã li¾u bị khuyet, đe xuat phương pháp thay the cho nhãng dã li¾u bị khuyet 2.2.2 L i giai R Kiem tra dã li¾u bị khuyet t¾p tin bang câu l¾nh sau: apply(is.na(new_DF), 2, which) Báo cáo Bài t p lớn mơn Xác suat thong Trang Trưịng Đại Hoc Bách Khoa Tp.Ho Chí Minh 2.2.3 Ket qua thfic nghi m Sau chạy câu l¾nh R, ta ket kiem tra: Nh¾n xét –Trong bảng dã li¾u trích locnew_DFvan cịn nhãng giá trị bị khuyet (NA) Nh¾n thay nhãng giá trị khuyet nam c tG2, vị trí hàng thá 2, 6, 9, 80, 100 Do so lượng NA (chiem t l¾ < 10%) nên ta xả lý bang cách xóa quan sát bị khuyet củaG2 –Lời giải R: new_DF
Ngày đăng: 29/03/2023, 23:14
Xem thêm: