Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
1,59 MB
Nội dung
HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ GVHD: TS Nguyễn Bá Thi Thực hiện: Nguyễn Việt Ngân - 1914289 (Lớp: L11 – Nhóm: 04) TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Mục lục PHẦN CHUNG .3 BÀI BÀI 16 PHẦN RIÊNG .33 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat PHẦN CHUNG BÀI Câu hỏi: Đọc liệu (Import data): gia_nha = 10) không đạt (G3 < 10) sinh viên điểm thi cuối kì Hãy thống kê tỷ lệ đạt/khơng đạt (Hàm gợi ý: cbind() ) evaluate=prop.table(table(new_DF$G3=10)) TIEU LUAN MOI download : skknchat123@gmail.com moi nhat evaluate1 ## ## FALSE TRUE ## 0.4717949 0.5282051 Ket_qua = data.frame(cbind(evaluate,evaluate1)) colnames(Ket_qua)=c("Quan sat","Du bao") rownames(Ket_qua)=c("Khong dat", "Dat") t(Ket_qua) ## Khong dat Dat ## Quan sat 0.6743590 0.3256410 ## Du bao 0.4717949 0.5282051 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat PHẦN RIÊNG Đề bài: Tập liệu “Wine_data.csv” chứa thông tin rượu vang trắng gồm 4898 mẫu sản xuất Bồ Đào Nha Dữ liệu gồm 12 đặc tính khác rượu vang trắng, quality liệu dựa cảm quan, biến rời rạc xếp thứ tự từ (tệ) đến 10 (tốt) Phần cịn lại tính chất hóa học rượu biến liên tục Dữ liệu gốc cung cấp bởi: https://online.stat.psu.edu/stat508/lesson/analysis-wine-quality-data? fbclid=IwAR0HG40PF2YK8Sios0COmeT6gPAOSNLLS3yQPkBKjSx11xgyIyXONwM8rY • fixed.acidity: độ chua cố định • volatile.acidity: nồng độ acid dễ bay • citric.acid: nồng độ citric acid • residual.sugar: lượng đường dư • free.sulfur.dioxide: lượng SO2 tự • density: khối lượng riêng • pH: pH rượu • alcohol: độ cồn • quality: chất lượng rượu Đọc liệu: Wine_data=read.csv("C:/Users/DELL/Desktop/Wine_data.csv") Làm liệu: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat a) Trích liệu đặt tên là ruou chỉ bao gồm biến phần giới thiệu liệu Từ câu trở sau yêu cầu xử lý dựa tập liệu con ruou ruou=data.frame(Wine_data[,c(1,2,3,4,6,8,9,11,12)]) #trich_xuat_du_lieu_can_quan_tam head(ruou) #doc_du_lieu_voi_ten_la_ruou ## fixed.acidity volatile.acidity citric.acid residual.sugar free.sulfur.dioxide ## 45 7.0 0.27 0.36 20.7 ## 14 6.3 0.30 0.34 1.6 ## 30 8.1 0.28 0.40 6.9 ## 47 7.2 0.23 0.32 8.5 ## 47 7.2 0.23 0.32 8.5 ## 30 8.1 0.28 0.40 6.9 ## density pH alcohol quality ## 1.0010 3.00 8.8 ## 0.9940 3.30 9.5 ## 0.9951 3.26 10.1 ## 0.9956 3.19 9.9 ## 0.9956 3.19 9.9 ## 0.9951 3.26 10.1 b) Kiểm tra liệu bị khuyết tập tin Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu khuyết apply(is.na(ruou),2,which) ## integer(0) Nhận xét: Khơng có liệu khuyết tập tin ruou Làm rõ liệu: a) Tính giá trị: trung bình, trung vị, giá trị nhỏ nhất, giá trị lớn độ lệch chuẩn, cho biến liên tục Sau xuất kết tính dạng bảng TIEU LUAN MOI download : skknchat123@gmail.com moi nhat mean=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,mean) #tim_trung_binh_cua_du_lieu_duoc_trich median=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,median) #tim_trung_vi_cua_du_lieu_duoc_trich min=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,min) #tim_min_cua_du_lieu_duoc_trich max=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,max) #tim_max_cua_du_lieu_duoc_trich sd=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,sd) #tim_do_lech_chuan_cua_du_lieu_duoc_trich gia_tri_tinh_duoc=data.frame(mean,median,max,min,sd) #bang_tong_hop_du_lieu_tim_duoc gia_tri_tinh_duoc #xuat_bang_tong_hop_du_lieu ## sd mean median max ## fixed.acidity 0.843868228 6.8547877 6.80000 14.20000 3.80000 ## volatile.acidity 0.100794548 0.2782411 0.26000 1.10000 0.08000 ## citric.acid 0.121019804 0.3341915 0.32000 1.66000 0.00000 ## residual.sugar 5.072057784 6.3914149 5.20000 65.80000 0.60000 ## free.sulfur.dioxide 35.3080849 34.00000 289.00000 2.00000 17.007137325 ## density 0.002990907 0.9940274 0.99374 1.03898 0.98711 ## pH 0.151000600 3.1882666 3.18000 3.82000 2.72000 10.5142670 10.40000 14.20000 8.00000 ## alcohol 1.230620568 ## quality 0.885638575 5.8779094 6.00000 9.00000 3.00000 b) Vẽ đồ thị phân phối biến quality Thống kê số lượng biến quality: table(ruou$quality) ## ## ## 20 163 1457 2198 880 175 Vẽ đồ thị phân phối biến quality: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat hist(ruou$quality,labels = T) c) Dùng lệnh pairs() vẽ phân phối biến alcohol theo fixed.acidity, volatile.acidity, citric.acid, residual.sugar,density, pH, free.sulfur.doxide Các biểu đồ đặt tên từ đến pairs(alcohol~fixed.acidity, main="1",data=ruou) #bieu_do_phan_phoi_alcohol_theo_fixed.acidity TIEU LUAN MOI download : skknchat123@gmail.com moi nhat pairs(alcohol~volatile.acidity,main="2",data=ruou) #bieu_do_phan_phoi_alcohol_theo_volatile.acidity pairs(alcohol~citric.acid,main="3",data=ruou) #bieu_do_phan_phoi_alcohol_theo_citric.acid TIEU LUAN MOI download : skknchat123@gmail.com moi nhat pairs(alcohol~residual.sugar,main="4",data=ruou) #bieu_do_phan_phoi_alcohol_theo_residual.sugar pairs(alcohol~density,main="5",data=ruou) #bieu_do_phan_phoi_alcohol_theo_density TIEU LUAN MOI download : skknchat123@gmail.com moi nhat pairs(alcohol~pH,main="6",data=ruou) #bieu_do_phan_phoi_alcohol_theo_pH pairs(alcohol~free.sulfur.dioxide,main="7",data=ruou) #bieu_do_phan_phoi_alcohol_theo_free.sulfur.dioxide TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Nhận xét: Biểu đồ 5,7 ta thấy có quan hệ tuyến tính rõ rệt alcohol với biến density,free.sulfur.dioxide, cụ thể quan hệ nghịch biến Các biến lại phân tán ổn định theo đường thẳng nhiên chưa đủ sở để ta dựa vào quan sát để kết luận đồng biến hay nghịch biến Xây dựng mơ hình hồi quy tuyến tính: Khi tung sản phẩm rượu vang thị trường nhà sản xuất cần quan tâm đến quy định độ cồn quy định thị trường Đồng thời đứng phía người tiêu dùng độ cồn có sản phẩm yếu tố quan tâm chọn sản phẩm liên quan đến thị hiếu, sức khỏe,… khách hàng Do ta tìm hiểu nhân tố hóa học tác động đến độ cồn rượu vang trắng a) Xét mơ hình hồi quy tuyến tính bao gồm biến alcohol là biến phụ thuộc, tất biến thuộc tính chất hóa học lại biến độc lập Hãy dùng lệnh lm() để thực thi mơ hình hồi quy tuyến tính bội m1=lm(alcohol~ fixed.acidity + volatile.acidity + citric.acid + residual.sugar + density + pH + free.sulfur.dioxide, data=ruou) summary(m1) ## ## Call: ## lm(formula = alcohol ~ fixed.acidity + volatile.acidity + citric.acid + TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ## residual.sugar + density + pH + free.sulfur.dioxide, data = ruou) ## ## Residuals: ## Min 1Q Median ## -3.3157 -0.2622 -0.0329 3Q Max 0.2305 16.0732 ## ## Coefficients: ## Estimate Std Error t value Pr(>|t|) ## (Intercept) *** 6.754e+02 4.461e+00 151.395 < 2e-16 ## fixed.acidity *** 5.168e-01 9.892e-03 52.247 < 2e-16 ## volatile.acidity *** 8.759e-01 6.645e-02 13.181 < 2e-16 ## citric.acid *** 4.433e-01 5.768e-02 ## residual.sugar *** 2.357e-01 2.647e-03 7.685 1.83e-14 89.057 < 2e-16 4.584e+00 -148.887 < 2e-16 2.568e+00 5.160e-02 49.766 < 2e-16 ## free.sulfur.dioxide -2.323e-03 *** 4.123e-04 -5.634 1.86e-08 ## density *** -6.825e+02 ## pH *** ## ## Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' ## ## Residual standard error: 0.4587 on 4890 degrees of freedom ## Multiple R-squared: ## F-statistic: 0.8613, Adjusted R-squared: 4338 on and 4890 DF, 0.8611 p-value: < 2.2e-16 b) Dựa vào mơ hình hồi quy tuyến tính trên, biến bị loại khỏi mơ hình với mức ý nghĩa 5%? Ta đặt giả thiết: H0: Các hệ số hồi quy khơng có ý nghĩa thống kê H1: Các hệ số hồi quy có ý nghĩa thống kê Nhận xét: Dựa vào kết mơ hình hồi quy, ta nhận thấy Pr(>|t|) tất biến < mức ý nghĩa 0.05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số TIEU LUAN MOI download : skknchat123@gmail.com moi nhat góc tương ứng với tất biến (fixed.acidity,volatile.acidity,citric.acid,residual.sugar,density,pH,free.sulfur.di oxide) có ý nghĩa thống kê Do ta khơng loại bỏ biến khỏi mơ hình c) Từ mơ hình vừa thành lập suy luận ảnh ảnh hưởng biến lên độ cồn Nhận xét: Dựa vào kết mơ hình hồi quy m1 ta nhận thấy biến fixed.acidity,volatile.acidity,residual.sugar,density,pH đều có Pr(>|t|) bé (***), tức khả bác bỏ H0 cao, tức hệ số ứng với biến có ý nghĩa thống kê cao, có nghĩa thay đổi biến có ảnh hưởng nhiều đến thay đổi độ cồn Tiếp đến biến citric.acid có Pr(>|t|) = 1.83e-14 free.sulfur.dioxide có Pr(>|t|) = 1.86e-08 thấp ảnh hưởng nhiều đến độ cồn biến cịn lại.Mặt khác hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc độ cồn tăng giảm đơn vị biến dự báo đó, giả sử biến dự báo khác khơng đổi Ví dụ: hệ số hồi quy biến pH 2.568e+00 pH tăng lên đơn vị (giả sử biến dự báo cịn lại khơng đổi) ta kì vọng độ rượu tăng thêm 2.568 đơn vị Tương tự hệ số hồi quy biến free.sulfur.dioxide -2.323e-03 free.sulfur.dioxide tăng lên đơn vị ta kì vọng độ rượu giảm 0.002323 đơn vị d) Hãy vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) plot(m1,which = 1) TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đồ thị đường thẳng nằm ngang, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính liệu Ngồi giá trị thặng dư (sai số) phân tán tương đối xung quanh đường thẳng y = (ngoài trừ số giá trị ngoại lai), chứng tỏ phương sai sai số số Dự báo: Từ mơ hình bạn chọn câu 4, dùng lệnh predict() để dự báo độ cồn: X1: fixed.acidity = mean(fixed.acidity), volatile.acidity = mean(volatile.acidity), citric.acid = mean(citric.acid), residual.sugar = mean(residual.sugar), density = mean(density), pH = mean (pH), pH = mean(pH), free.sulfur.dioxide = mean(free.sulfur.dioxide) X2: fixed.acidity = max(fixed.acidity), volatile.acidity = max(volatile.acidity), citric.acid = max(citric.acid), residual.sugar = max(residual.sugar), density = max(density), pH = mean(pH), pH = max(pH), free.sulfur.dioxide = max(free.sulfur.dioxide) #Tạo thuộc tính X1 dự báo: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat X1=data.frame(fixed.acidity=mean(ruou$fixed.acidity), volatile.acidity=mean(ruou$volatile.acidity), citric.acid=mean(ruou$citric.acid), residual.sugar=mean(ruou$residual.sugar), density=mean(ruou$density), pH=mean(ruou$pH), free.sulfur.dioxide=mean(ruou$free.sulfur.dioxide)) predict_X1=predict(m1,X1,interval="confidence") predict_X1 ## fit lwr upr ## 10.51427 10.50142 10.52712 #Tạo thuộc tính X2 dự báo: X2=data.frame(fixed.acidity=max(ruou$fixed.acidity), volatile.acidity=max(ruou$volatile.acidity), citric.acid=max(ruou$citric.acid), residual.sugar=max(ruou$residual.sugar), density=max(ruou$density), pH=max(ruou$pH), free.sulfur.dioxide=max(ruou$free.sulfur.dioxide)) predict_X2= predict(m1,X2,interval="confidence") predict_X2 ## fit lwr upr ## -0.02581995 -0.3509751 0.2993352 So sánh khoảng tin cậy hai dự báo trên: #Tạo bảng thể độ cồn hai thuộc tính X1 X2: pred=data.frame(rbind(predict_X1,predict_X2)) #Đổi tên dòng thành X1 X2 rownames(pred) = c("X1","X2") #Tính khoảng tin cậy thuộc tính X1 X2, sau xuất kết dạng bảng thống kê: pred$range =pred$upr - pred$lwr pred ## fit lwr upr range ## X1 10.51426705 10.5014189 10.5271151 0.0256962 ## X2 -0.02581995 -0.3509751 0.2993352 0.6503102 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu từ X1, ta thu giá trị dự báo xác so với X2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ... 5.65 321 3 0 .22 868 82 6.886491 4.875061 ## sqft_living15 3 .27 4340 3 .26 4818 0.1 422 124 3.7930 92 2.600973 ## sqft_above 3 .21 1557 3.193 125 0.185 723 1 3.973590 2. 4 623 98 ## sqft_living 3 .27 9066 3 .28 1033... floors1.5 0.084 520 0.004136 20 .437 < 2e-16 *** ## floors2 0. 021 291 0.003 128 ## floors2.5 0.161796 0.013061 12. 388 < 2e-16 *** ## floors3 0.154575 0.006887 22 .444 < 2e-16 *** ## floors3.5 0 .21 220 4 0.057134... skknchat 123 @gmail.com moi nhat ## mean median sd max ## G1 10. 925 641 11 3 .29 0886 19 ## G2 10.717949 11 3.737868 19 ## G3 10.4 128 21 11 4.5689 62 20 5.715385 8.03 421 5 75 16.705 128 17 1 .27 9751 22 15