ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ BÀI TẬP LỚN SỐ 2 LỚP L01 NHÓM 6 HK 202 Tập tin diem_so.csv chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại: https:archive.ics.uci.edumldatasetsstudent+performance. Các biến chính trong bộ dữ liệu: • G1: Điểm thi học kì 1. • G2: Điểm thi học kì 2. • G3: Điểm cuối khoá. • studytime: Thời gian tự học trên tuần ( 1 ít hơn 2 giờ, 2 từ 2 đê 5 giờ, 3 từ 5 10 giờ, or 4 lớn hơn 10 giờ). • failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần). • absences: số lần nghỉ học. • paid Có tham gia các lớp học thêm môn Toán ngoài trường (cókhông). • sex: Giới tính của học sinh. (Namnữ). Các bước thực hiện: 1. Đọc dữ liệu (Import data): grade.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của sinh viên. 5. Thực hiện dự báo cho điểm Toán của học sinh. Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin kho_du_lieu_BTL_xstk.xlsx
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ BÀI TẬP LỚN SỐ LỚP L01 - NHÓM - HK 202 Giảng viên hướng dẫn: Phần chung Bài 1: Tập tin chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến tháng 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mơ tả chất lượng nhà: + price: Giá nhà bán + sqft_living15: diện tích trung bình 15 nhà gần khu dân cư + floors: số từ nhà phân loại từ 1-3.5 + condition: điều kiện kiến trúc nhà từ – 5, 1: tệ 5: tốt + sqft_above: diện tích ngơi nhà + sqft_living: diện tích khuôn viên nhà Đọc liệu: - Mở Rstudio - Sử dụng lệnh read.csv() để đọc liệu ban đầu - Ta thu tập liệu gia.nha ban đầu Làm liệu a) Trích liệu new_DF gồm biến mà ta quan tâm từ gia.nha - Sử dụng lệnh attach(gia.nha) để gắn tập liệu gia.nha vào đường dẫn tìm kiếm R - Sử dụng lệnh data.frame để tạo liệu - Thu kết b) Kiểm tra liệu bị khuyết: - Để kiểm tra liệu bị khuyết, ta sử dụng lệnh: - Kết thu được: Vậy tập tin khơng có liệu bị khuyết Làm rõ liệu a) Chuyển đổi liệu biến thành dạng log: - Sử dụng câu lệnh sau, ta thu tập liệu dạng log mơ tả b) Tính giá trị thống kê biến liên tục - Trước tiên, ta cài đặt package psych - Khai báo thư viện psych, dùng hàm describe(), ta thu bảng giá trị thống kê cần tìm hình: c) Bảng thống kê số lượng cho chủng loại với biến phân loại: - Sử dụng lệnh table(), ta thu kết hình dưới: d) Vẽ đồ thị phân phối biến price - Ta sử dụng lệnh hist() để vẽ: - Đồ thị thu hình dưới: e) Vẽ phân phối biến price cho nhóm phân loại biến floors condition: + Biến price theo nhóm phân loại biến floors: Từ đồ thị ta thấy số tầng tăng giá tiền tăng, ngoại trừ số trường hợp + Biến price theo nhóm phân loại biến condition: Ta thấy trạng nhà tốt giá tiền có xu hướng cao f) Vẽ phân phối biến “price” cho nhóm phân loại biến “floors” biến “condition” Thu kết Ta xét hàng đầu, xu hướng chung diện tích ( sqft_living15, sqft_living, sqft_above) tăng giá nhà tăng theo Xây dựng mơ hình hồi quy tuyến tính a) Thực thi mơ hình hồi quy tuyến tính bội với biến “price” biến phụ thuộc: Ta thu mơ hình sau: b) Dựa vào mơ hình hồi quy câu a, quan sát giá trị Pr(>|t|) tương ứng với biến, thấy giá trị nhỏ, nhỏ mức tin cậy 5%, ta giữ lại tất biến c) Chọn mơ hình hồi quy hợp lí + Mơ hình M1: mh1 câu a) + Mơ hình M2: ta chạy lệnh sau Thu kết quả: - Dùng lệnh anova() để đề xuất mơ hình hồi quy hợp lí hơn: d) - Đề xuất mơ hình hợp lí hơn: + Số liệu Pr(>F) mơ hình cho thấy có ý nghĩa việc dự báo biến phụ thuộc, nhiên giá trị Adjusted R-square mơ hình bé mơ hình => chọn mơ hình - Suy luận tác động biến lên giá nhà + Thấy hệ số ứng với “sqft_living15”, “floors”, “condition”, “sqft_living” dương => biến tăng “price” tăng + Riêng hệ số ứng với “sqft_above” âm nên “sqft_above” tăng “price” giảm e) Vẽ đồ thị biểu thị sai số hồi quy giá trị dự báo Ta dùng lệnh: Thu đồ thị Nhận xét: Đường màu đỏ sát với đường residuals = 0, sai số hồi quy xếp ngẫu nhiên quanh trục 0, mối quan hệ xem tuyến tính Dự đốn a) Từ mơ hình (mh1) chọn trên, ta tiến hành dự đoán: + Với x1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living = mean(sqft_living), floor = 2, condition = 3: Ta dùng lệnh hình thu kết quả: + Với x2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living = max(sqft_living), floor = 2, condition = 3: Ta dùng lệnh hình thu kết quả: Upr hạn tin cậy trên, lwr giới hạn tin cậy giá trị kỳ vọng Ta thấy khoảng tin cậy kết có độ rộng tương đương nhau, x1 có giá trị tiên đoán nhỏ x2 Bài tập 2: Tập tin "diem_so.csv" chứa thơng tin điểm tốn em học sinh trung học thuộc hai trường học Bồ Đào Nha Các thuộc tính liệu bao gồm điểm học sinh, nơi cư trú, số hoạt động xã hội khác Dữ liệu thu thập cách sử dụng báo cáo trường kết khảo sát sinh viên Dữ liệu gốc cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance Các biến liệu: • G1: Điểm thi học kì • G2: Điểm thi học kì • G3: Điểm thi cuối khóa • studytime: Thời gian tự học tuần (1 – giờ, – từ đến giờ, – từ đến 10 giờ, or – lớn 10 giờ) • failures: Số lần không qua môn (1, 2, 3, nhiều lần) • absences: Số lần nghỉ học • higher: Có muốn học cao hay khơng (yes: có, no: khơng) • age: Tuổi học sinh Câu hỏi: Đọc liệu: Hãy dùng lệnh read.csv( ) để đọc tệp tin Input: diem_so = read.csv(“C:/Users/Admin/Desktop/btl xstk/diem_so.csv",header=T) Giải thích: Đọc tệp tin lưu liệu với tên là: “diem_so” attach(diem_so) Giải thích: Gán tệp tin vừa đọc vào hệ thống R phép tính thực tệp tin liệu vừa gán “diem_so” Làm liệu (Data cleaning): a) Hãy trích liệu đặt tên new_DF bao gồm biến mà ta quan tâm trình bày phần giới thiệu liệu Từ câu hỏi sau, yêu cầu xử lý dựa tập liệu new_DF Input: new_DF = data.frame(G1,G2,G3,studytime,failures,absences,higher,age) Giải thích: Trích liệu từ phần liệu “diem_so” đặt tên “new_DF” bao gồm biến chính: G1, G2, G3, studytime, failures, absences, higher, age Output: Nhận xét: Tỷ lệ đạt là: 67,44%, tỷ lệ khơng đạt là: 32,56% b) Xét mơ hình hồi quy hợp lý mà bạn chọn câu 4c Hãy lập bảng số liệu đặt tên new_X bao gồm toàn biến độc lập mơ hình dùng lệnh predict( ) để đưa số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi kết dự báo biến pred_G3 ❖ Mơ hình hợp lý chọn câu 4c M2 bao gồm biến: G1, G2, studytime, failures,absences, age Input: new_X = data.frame(G1,G2,studytime,failures,absences,age) Giải thích: Tạo liệu bao gồm biến độc lập mơ hình M2 đặt tên liệu “new_X” attach(new_X) Giải thích: Thơng báo cho phần mềm biết từ dòng lệnh trở sau phép tính thực liệu “new_X” new_X$pred_G3 = predict(M2,new_X) Giải thích: Tính giá trị dự báo biến G3 phụ thuộc vào liệu “new_X”, sau lưu kết vào biến “pred_G3”, đồng thời thêm biến “pred_G3” vào liệu “new_X” attach(new_X) Giải thích: Thơng báo cho phần mềm biết từ trở sau phép tính thực liệu “new_X” c) Khảo sát độ xác kết dự báo câu cách lập bảng so sánh kết dự báo pred-G3 với kết thực tế G3 Đạt Không đạt 26 Quan sát Dự báo Input: evaluate1 = prop.table(table(pred_G3>=10)) Giải thích: Tính tỷ lệ đạt khơng đạt biến dự báo “pred_G3” lưu vào biến “evaluate1” Ket_qua = cbind(evaluate,evaluate1) Giải thích: Xuất kết dạng bảng giá trị hai biến “evaluate” “evaluate1” lưu vào biến “Ket_qua” colnames(Ket_qua)=c('Quan sát', 'Dự báo') rownames(Ket_qua)=c('Không đạt', 'Đạt') Giải thích: Lần lượt đổi tên cột hàng biến “Ket_qua” t(Ket_qua) Giải thích: Đổi cột thành hàng biến “Ket_qua” in kết hình Output: Nhận xét: Dựa vào kết quả, nhận thấy giá trị dự báo cho tỷ lệ đạt khơng đạt diểm thi cuối khóa sai lệch khơng q nhiều so với giá trị quan sát Vì vậy, mơ hình hồi quy tuyến tính M2 tương đối tốt 27 PHẦN RIÊNG Đề tài: Ngành công nghiệp rượu cho thấy gần có tăng trưởng đột biến nhu cầu sử dụng rượu Nhưng giá rượu lại phụ thuộc vào yếu tố trừu tượng dựa đánh giá chất lượng người nếm rượu Vì nhà khoa học bắt đầu tiến hành phân tích Hóa Lý nhiều yếu tố để đánh giá chất lượng rượu cách xác hơn, cụ thể rượu vang trắng (White wine) Dữ liệu lấy từ: https://online.stat.psu.edu/stat508/lesson/analysis-wine-quality-data Các biến liệu: • fixed.acidity: Độ chua • volatile.acidity: Tính axit dễ bay • citric.acid: Nồng độ axit citric • residual.sugar: Lượng đường dư • chlorides: Nồng độ Cl- • free.sulfur.dioxide: Số lượng SO2 tự • total.sulfur.dioxide: Tổng SO2 • density: Tỉ trọng • pH: Độ pH • sulphates: Nồng độ ion SO42- • alcohol: Độ cồn • quality: Chất lượng rượu (Thang điểm từ tới 10) Câu hỏi: Đọc liệu: Hãy dùng lệnh read.csv( ) để đọc tệp tin Input: wine_data = read.csv("C:/Users/Admin/Desktop/btl xstk/wine_data.csv",header=T) Giải thích: Đọc tệp tin lưu liệu với tên “wine_data” Output: 28 Làm liệu (Data cleaning): Hãy kiểm tra liệu bị khuyết tập tin Nếu có liệu bị khuyết đề xuất phương pháp thay cho liệu bị khuyết Input: apply(is.na(wine_data),2,which) Giải thích: Kiểm tra liệu bị khuyết theo cột attach(wine_data) Giải thích: Gán liệu “wine_data” vào hệ thống R từ dịng lệnh sau phép tính thực liệu “wine_data” Output: ➔ Kết luận: Tập tin khơng có liệu bị khuyết Làm rõ liệu (Data visualization): a) Đối với biến liên tục, tính giá trị thống kê mơ tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết dạng bảng (Hàm gợi ý: mean( ), median( ), sd( ), mean( ), max( ), apply( ), as.data.frame( )) ❖ Các biến liên tục liệu biến sau: fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol tương ứng với cột từ đến 11 liệu Input: mean = apply(wine_data[,c(1,2,3,4,5,6,7,8,9,10,11)],2,mean) Giải thích: Tính giá trị trung bình biến liên tục (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) lưu vào biến “mean” sd = apply(wine_data[,c(1,2,3,4,5,6,7,8,9,10,11)],2,sd) Giải thích: Tính giá trị độ lệch chuẩn biến liên tục fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) lưu vào biến “sd” median = apply(wine_data [,c(1,2,3,4,5,6,7,8,9,10,11)],2,median) Giải thích: Tính giá trị trung vị biến liên tục (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) lưu vào biến “median” = apply(wine_data[,c(1,2,3,4,5,6,7,8,9,10,11)],2,min) Giải thích: Tính giá trị nhỏ biến liên tục (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) lưu vào biến “min” max = apply(wine_data[,c(1,2,3,4,5,6,7,8,9,10,11)],2,max) 29 Giải thích: Tính giá trị lớn biến liên tục (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) lưu vào biến “max” des = cbind(mean,sd,median,min,max) Giải thích: Chuyển kết quả: mean, sd, median, min, max vừa tính thành dạng bảng ứng với biến liên tục (fixed.acidity,volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) des1 = as.data.frame(des) Giải thích: Chuyển “des” thành bảng liệu hệ thống R lưu vào biến “des1” Output: Input: colnames(des1) = c("trung bình","độ lệch chuẩn","trung vị","GTNN","GTLN") Giải thích: Đổi tên “mean, sd, median, min,max” thành “trung bình","độ lệch chuẩn","trung vị","GTNN","GTLN" “des1” Output: b) Hãy vẽ biểu đồ phân phối biến “quality” Input: barplot(table(quality),xlab="Chất lượng rượu",ylab="Tần số xuất hiện",col="red") Giải thích: Dùng hàm barplot( ) đề vẽ đồ thị phân phối biến phân loại “quality” 30 Output: Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): a) Xét mơ hình hồi quy tuyến tín bao gồm biến quality biến phụ thuộc, tất biến lại biến độc lập, dùng lệnh lm( ) để thực thi mơ hình hồi quy tuyến tính bội Các biến có liệu: ➢ Biến liên tục: fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol ➢ Biến phân loại: quality Input: M1=lm(quality~fixed.acidity+volatile.acidity+citric.acid+residual.sugar+chlorides+ free.sulfur.dioxide+ total.sulfur.dioxide+ density+ pH+ sulphates+ alcohol) Giải thích: Xây dựng mơ hình hồi quy tuyến tính bội với “quality” biến phụ thuộc tất biến lại biến độc lập lưu kết vào biến “M1” summary(M1) Giải thích: Tính giá trị thống kê mơ tả mơ hình “M1” Output: 31 b) Dựa vào kết mơ hình hồi quy tuyến tính trên, cho biết biến bị loại bỏ khỏi mơ hình với mức ý nghĩa 5% Đặt giả thiết: H: Các hệ số hồi quy khơng có ý nghĩa thống kê ̅ : Hệ số hồi quy có ý nghĩa thống kê H Dựa vào kết có câu a: biến: citric.axit, chlorides, total.sulfur.dioxide có Pr (>|t|) > 0,05 nên ta chấp nhận giả thiết H, có nghĩa biến bị loại bỏ khỏi mô hình với mức ý nghĩa 5% c) Xét mơ hình tuyến tính bao gồm biến quality biến phụ thuộc nhưng: • Mơ hình M1 chứa chất biến cịn lại biến độc lập • Mơ hình M2 loại bỏ biến fixed.acidity từ mơ hình M1 • Mơ hình M3 loại bỏ biến chlorides từ mơ hình M2 Hãy dùng lệnh anova( ) để đề xuất mơ hình hợp lý mơ hình Input: M2=lm(quality~volatile.acidity+citric.acid+residual.sugar+chlorides+free.sulfur.dioxi de+total.sulfur.dioxide+ density+ pH+ sulphates+ alcohol) Giải thích: Xây dựng mơ hình hồi quy tuyến tính M2 loại bỏ biến “fixed.acidity” từ mơ hình M1 summary(M2) 32 Giải thích: Tính tốn giá trị thống kê mơ tả biến M2 Output: Input: M3=lm(quality~volatile.acidity+citric.acid+residual.sugar+free.sulfur.dioxide+total.sul fur.dioxide+density+ pH+ sulphates+ alcohol) Giải thích: Xây dựng mơ hình hồi quy tuyến tính M3 loại bỏ biến “chlorides” từ mơ hình M2 summary(M3) Giải thích: Tính tốn giá trị thống kê mơ tả mơ hình M3 Output: 33 ❖ Phân tích ANOVA: • Xét mơ hình M1 M2: Input: anova(M1,M2) Giải thích: Phân tích ANOVA mơ hình hồi quy tuyến tính M1 M2 Output: Nhận xét: Dựa vào kết phân tích ANOVA hai mơ hình M1 M2, ta thu giá trị Pr (>|t|) = 0,001706 Chọn mức ý nghĩa 0,05, Pr (>|t|) < 0,05 mà biến ta loại bỏ từ mơ hình M1 biến “fixed.acidity” có ý nghĩa thống kê (dựa vào kết thống kê mơ tả xây đựng mơ hình M1) Vì vậy, mơ hình M1, M2 khác mơ hình M1 34 tốt mơ hình M2 • Xét mơ hình M2 M3: Input: anova(M2,M3) Giải thích: Phân tích ANOVA mơ hình hồi quy tuyến tính M2 M3 Output: Nhận xét: Dựa vào kết phân tích ANOVA mơ hình M2 M3, ta thu giá trị Pr (>|t) = 0,316 Chọn mức ý nghĩa 0,05, Pr (>|t|) > 0,05 Mặt khác, biến ta loại bỏ từ mô hình M2 biến “chlorides” khơng có ý nghĩa thống kê (dựa vào kết tính tốn thống kê mơ tả xây dựng mơ hình hồi quy tuyến tính M2) Vì vậy, ta kết luận mơ hình M2 M3 giống biến ta loại bỏ khơng có ý nghĩa thống kê khơng thể đưa kết luận mơ hình tốt mơ hình ➔ Kết luận: Sau thực phân tích ANOVA, kết thu mơ hình M2 giống với mơ hình M3 mơ hình M1 tốt M3 Vì vậy, ta chọn mơ hình M1 mơ hình hồi quy tuyến tính hợp lý d) Từ mơ hình hồi quy hợp lý câu c suy luận tác động biến đến chất lượng rượu Mơ hình hợp lý câu 4c mơ hình M1 Kết thống kê mô tả: 35 Nhận xét: Các biến: volatile.acidity, residual.sugar, freesulfur.dioxide, density, pH, sulphates, alcohol có ý nghĩa thống kê cao, có nghĩa thay đổi biến: volatile.acidity, residual.sugar, free.sulfur.dioxide, density, pH, sulphates, alcohol có ảnh hưởng nhiều tới thay đổi chất lượng rượu (quality), tiếp đến biến fixed.acidity có ảnh hưởng e) Từ mơ hình hợp lý câu c dùng lệnh plot( ) để vẽ đồ thị biểu thi sai số hồi quy dự báo Nêu ý nghĩa nhận xét Input: plot(fitted(M1),resid(M1)) plot(M1,which=1) Giải thích: Vẽ biểu đồ biểu thị quan hệ giá trị dự báo sai số hồi quy mơ hình M1 Output: 36 Nhận xét: Đường hồi quy (đường màu đỏ) gần gần sát với đường Residuals = Ý nghĩa: Đường hồi quy gần gần với đường Residuals = chứng tỏ mơ hình M1 chọn mơ hình tốt câu 4c hoàn toàn hợp lý Dự báo: a) Trong liệu bạn, tạo thêm biến đặt tên evaluate, biến biểu diễn tỷ lệ rượu ngon (quality >= 5) rượu không ngon (quality < 5) Hãy thống kê tỷ lệ rượu ngon/ không ngon Input: evaluate = prop.table(table(quality>=5)) evaluate Giải thích: Tính tỷ lệ rượu ngon lưu kết vào biến “evaluate”, sau in kết hình Output: ➔ Vậy tỷ lệ rượu ngon khoảng 96,26% ty lệ rượu khơng ngon khoảng 3,74% 37 b) Xét mơ hình hồi quy hợp lý mà bạn chọn câu 4c Hãy lập bảng số liệu đặt tên new_X bao gồm toàn biến độc lập mơ hình dùng lệnh predict( ) để đưa số liệu dự báo cho biến G3 phụ thuộc vào new_X Gọi kết dự báo biến pred_quality Input: new_X=data.frame(fixed.acidity,volatile.acidity,citric.acid,residual.sugar,chlorides ,fre e.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) Giải thích: Tạo liệu bao gồm biến độc lập mơ hình M1 đặt tên liệu “new_X” attach(new_X) Giải thích: Gán liệu “new_X” vào hệ thống R từ dịng lệnh trở sau phép tính thực liệu “new_X” new_X$pred_quality = predict(M1,new_X) Giải thích: Tính số liệu dự báo biến quality phụ thuộc vào liệu “new_X”, sau lưu kết vào biến “pred_quality”, đồng thời thêm biến “pred_quality” vào liệu “new_X” attach(new_X) Giải thích: Gán liệu “new_X” vừa xử lý vào hệ thống R từ dịng lệnh trở sau phép tính thực liệu “new_X” Output: 38 c) Khảo sát độ xác kết dự báo câu cách lập bảng so sánh kết dự báo pre_quality với kết thực tế quality Không ngon Ngon Quan sát Dự báo Input: evaluate1 = prop.table(table(pred_quality>=5)) Giải thích: Tính tỷ lệ đạt biến dự báo “pred_quality” lưu vào biến “evaluate1” Ket_qua = cbind(evaluate,evaluate1) Giải thích: Xuất kết dạng bảng giá trị hai biến “evaluate” “evaluate1” lưu vào biến “Ket_qua” colnames(Ket_qua)=c('Quan sát', 'Dự báo') rownames(Ket_qua)=c('Không ngon', 'Ngon') Giải thích: Lần lượt đổi tên cột hàng biến “Ket_qua” t(Ket_qua) Giải thích: Đổi cột thành hàng biến “Ket_qua” in kết hình Output: 39 Nhận xét: Dựa vào kết quả, nhận thấy giá trị dự báo cho tỷ lệ rượu ngon không ngon sai lệch không nhiều so với giá trị quan sát Vì vậy, mơ hình hồi quy tuyến tính M1 tương đối tốt 40 ... chia tập liệu thành hai tập: Một tập khơng có giá trị bị thiếu cho biến tập khác có giá trị bị thiếu Tập liệu trở thành tập liệu huấn luyện mơ hình tập liệu thứ hai có giá trị bị thiếu tập liệu... 14 Giải thích: Tạo bảng thống kê số lượng biến “failures” table(higher) Giải thích: Tạo bảng thống kê số lượng biến “higher” table(absences) Giải thích: Tạo bảng thống kê số lượng cho biến “absences”... khơng có ý nghĩa thống kê (dựa vào kết tính tốn thống kê mơ tả xây dựng mơ hình hồi quy tuyến tính M2) Vì vậy, ta kết luận mơ hình M2 M3 giống biến ta loại bỏ khơng có ý nghĩa thống kê khơng thể