(TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

49 4 0
(TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HO CHI MINH CITY UNIVERSITY OF BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ GVHD: TS Nguyễn Bá Thi Thực hiện: Nguyễn Việt Ngân - 1914289 (Lớp: L11 – Nhóm: 04) Mục lục PHẦN CHUNG BÀI BÀI 16 PHẦN RIÊNG 33 PHẦN CHUNG BÀI Câu hỏi: Đọc liệu (Import data): gia_nha = 10) không đạt (G3 < 10) sinh viên điểm thi cuối kì Hãy thống kê tỷ lệ đạt/khơng đạt (Hàm gợi ý: cbind() ) evaluate=prop.table(table(new_DF$G3=10)) evaluate1 ## ## FALSE TRUE ## 0.4717949 0.5282051 Ket_qua = data.frame(cbind(evaluate,evaluate1)) colnames(Ket_qua)=c("Quan sat","Du bao") rownames(Ket_qua)=c("Khong dat", "Dat") t(Ket_qua) ## ## Quan sat ## Du bao PHẦN RIÊNG Đề bài: Tập liệu “Wine_ data.csv” chứa thông tin rượu vang trắng gồm 4898 mẫu sản xuất Bồ Đào Nha Dữ liệu gồm 12 đặc tính khác rượu vang trắng, quality liệu dựa cảm quan, biến rời rạc xếp thứ tự từ (tệ) đến 10 (tốt) Phần lại tính chất hóa học rượu biến liên tục Dữ liệu gốc cung cấp bởi: https://online.stat.psu.edu/stat508/lesson/analysis-wine-quality-data? fbclid=IwAR0HG40PF2YK8Sios0COmeT6gPAOSNLLS3yQPkBKjSx11xgyIyXONwM8rY • fixed.acidity: độ chua cố định • volatile.acidity: nồng độ acid dễ bay • citric.acid: nồng độ citric acid • residual.sugar: lượng đường dư • free.sulfur.dioxide: lượng SO2 tự • density: khối lượng riêng • pH: pH rượu • alcohol: độ cồn • quality: chất lượng rượu Đọc liệu: Wine_data=read.csv("C:/Users/DELL/Desktop/Wine_data.csv") Làm liệu: a) Trích liệu đặt tên ruou bao gồm biến phần giới thiệu liệu Từ câu trở sau yêu cầu xử lý dựa tập liệu ruou ruou=data.frame(Wine_data[,c(1,2,3,4,6,8,9,11,12)]) #trich_xuat_du_lieu_can_quan_tam head(ruou) #doc_du_lieu_voi_ten_la_ruou # fixed.acidity volatile.acidity citric.acid residual.sugar free.sulfur.dioxide ## 45 ## 14 ## 30 ## 47 ## 47 ## 30 ## ## ## ## ## ## ## b) Kiểm tra liệu bị khuyết tập tin Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu khuyết apply(is.na(ruou),2,which) ## integer(0) Nhận xét: Khơng có liệu khuyết tập tin ruou Làm rõ liệu: a) Tính giá trị: trung bình, trung vị, giá trị nhỏ nhất, giá trị lớn độ lệch chuẩn, cho biến liên tục Sau xuất kết tính dạng bảng mean=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,mean) #tim_trung_binh_cua_du_lieu_duoc_trich median=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,median) #tim_trung_vi_cua_du_lieu_duoc_trich min=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,min) #tim_min_cua_du_lieu_duoc_trich max=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,max) #tim_max_cua_du_lieu_duoc_trich sd=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,sd) #tim_do_lech_chuan_cua_du_lieu_duoc_trich gia_tri_tinh_duoc=data.frame(mean,median,max,min,sd) #bang_tong_hop_du_lieu_tim_duoc gia_tri_tinh_duoc #xuat_bang_tong_hop_du_lieu ## sd ## fixed.acidity 0.843868228 ## volatile.acidity 0.100794548 ## citric.acid 0.121019804 ## residual.sugar 5.072057784 # free.sulfur.dioxide 35.3080849 34.00000 289.00000 2.00000 17.007137325 ## density 0.002990907 ## pH 0.151000600 ## alcohol 1.230620568 ## quality 0.885638575 b) Vẽ đồ thị phân phối biến quality Thống kê số lượng biến quality: table(ruou$quality) ## ## ## Vẽ đồ thị phân phối biến quality: hist(ruou$quality,labels = T) c) Dùùng lệnh pairs() vẽ phân phối biến alcohol theo fixed.acidity, volatile.acidity, citric.acid, residual.sugar,density, pH, free.sulfur.doxide Các biểu đồ đặt tên từ đến pairs(alcohol~fixed.acidity, main="1",data=ruou) #bieu_do_phan_phoi_alcohol_theo_fixed.acidity pairs(alcohol~volatile.acidity,main="2",data=ruou) #bieu_do_phan_phoi_alcohol_theo_volatile.acidity pairs(alcohol~citric.acid,main="3",data=ruou) #bieu_do_phan_phoi_alcohol_theo_citric.acid pairs(alcohol~residual.sugar,main="4",data=ruou) #bieu_do_phan_phoi_alcohol_theo_residual.sugar pairs(alcohol~density,main="5",data=ruou) #bieu_do_phan_phoi_alcohol_theo_density pairs(alcohol~pH,main="6",data=ruou) #bieu_do_phan_phoi_alcohol_theo_pH pairs(alcohol~free.sulfur.dioxide,main="7",data=ruou) #bieu_do_phan_phoi_alcohol_theo_free.sulfur.dioxide Nhận xét: Biểu đồ 5,7 ta thấy có quan hệ tuyến tính rõ rệt alcohol với biến density,free.sulfur.dioxide, cụ thể quan hệ nghịch biến Các biến lại phân tán ổn định theo đường thẳng nhiên chưa đủ sở để ta dựa vào quan sát để kết luận đồng biến hay nghịch biến Xây dựng mơ hình hồi quy tuyến tính: Khi tung sản phẩm rượu vang thị trường nhà sản xuất cần quan tâm đến quy định độ cồn quy định thị trường Đồng thời đứng phía người tiêu dùng độ cồn có sản phẩm yếu tố quan tâm chọn sản phẩm liên quan đến thị hiếu, sức khỏe,… khách hàng Do ta tìm hiểu nhân tố hóa học tác động đến độ cồn rượu vang trắng a) Xét mơ hình hồi quy tuyến tính bao gồm biến alcohol biến phụ thuộc, tất biến thuộc tính chất hóa học cịn lại biến độc lập Hãy dùùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội m1=lm(alcohol~ fixed.acidity + volatile.acidity + citric.acid + residual.sugar + density + pH + free.sulfur.dioxide, data=ruou) summary(m1) ## # # Call: lm(formula = alcohol ~ fixed.acidity + volatile.acidity + citric.acid + # residual.sugar + density + pH + free.sulfur.dioxide, data = ruou) ## ## Residuals: ## Min # -3.3157 -0.2622 -0.0329 # Coefficients: 0.2305 16.0732 # ## ## (Intercept) *** ## fixed.acidity *** ## volatile.acidity *** ## citric.acid *** ## residual.sugar *** ## density *** ## pH *** # free.sulfur.dioxide -2.323e-03 4.123e-04 -5.634 1.86e-08 *** # - # Signif codes: # Residual standard error: 0.4587 on 4890 degrees of freedom # Multiple R-squared: # F-statistic: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' ## 0.8613, Adjusted R-squared: 4338 on and 4890 DF, 0.8611 p-value: < 2.2e-16 b) Dựa vào mơ hình hồi quy tuyến tính trên, biến bị loại khỏi mơ hình với mức ý nghĩa 5%? Ta đặt giả thiết: H0: Các hệ số hồi quy khơng có ý nghĩa thống kê H1: Các hệ số hồi quy có ý nghĩa thống kê Nhận xét: Dựa vào kết mơ hình hồi quy, ta nhận thấy Pr(>|t|) tất biến < mức ý nghĩa 0.05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số góc tương ứng với tất biến (fixed.acidity,volatile.acidity,citric.acid,residual.sugar,density,pH,free.sulfur.di oxide) có ý nghĩa thống kê Do ta khơng loại bỏ biến khỏi mơ hình c) Từ mơ hình vừa thành lập suy luận ảnh ảnh hưởng biến lên độ cồn Nhận xét: Dựa vào kết mơ hình hồi quy m1 ta nhận thấy biến fixed.acidity,volatile.acidity,residual.sugar,density,pH có Pr(>|t|) bé (***), tức khả bác bỏ H0 cao, tức hệ số ứng với biến có ý nghĩa thống kê cao, có nghĩa thay đổi biến có ảnh hưởng nhiều đến thay đổi độ cồn Tiếp đến biến citric.acid có Pr(>|t|) = 1.83e- 14 free.sulfur.dioxide có Pr(>|t|) = 1.86e-08 thấp ảnh hưởng nhiều đến độ cồn biến cịn lại.Mặt khác hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc độ cồn tăng giảm đơn vị biến dự báo đó, giả sử biến dự báo khác khơng đổi Ví dụ: hệ số hồi quy biến pH 2.568e+00 pH tăng lên đơn vị (giả sử biến dự báo cịn lại khơng đổi) ta kì vọng độ rượu tăng thêm 2.568 đơn vị Tương tự hệ số hồi quy biến free.sulfur.dioxide -2.323e -03 free.sulfur.dioxide tăng lên đơn vị ta kì vọng độ rượu giảm 0.002323 đơn vị d) Hãy vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) plot(m1,which = 1) Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đồ thị đường thẳng nằm ngang, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính liệu Ngoài giá trị thặng dư (sai số) phân tán tương đối xung quanh đường thẳng y = (ngoài trừ số giá trị ngoại lai), chứng tỏ phương sai sai số số Dự báo: Từ mơ hình bạn chọn câu 4, dùng lệnh predict() để dự báo độ cồn: X1: fixed.acidity = mean(fixed.acidity), volatile.acidity = mean(volatile.acidity), citric.acid = mean(citric.acid), residual.sugar = mean(residual.sugar), density = mean(density), pH = mean (pH), pH = mean(pH), free.sulfur.dioxide = mean(free.sulfur.dioxide) X2: fixed.acidity = max(fixed.acidity), volatile.acidity = max(volatile.acidity), citric.acid = max(citric.acid), residual.sugar = max(residual.sugar), density = max(density), pH = mean(pH), pH = max(pH), free.sulfur.dioxide = max(free.sulfur.dioxide) #Tạo thuộc tính X1 dự báo: X1=data.frame(fixed.acidity=mean(ruou$fixed.acidity), volatile.acidity=mean(ruou$volatile.acidity), citric.acid=mean(ruou$citric.acid), residual.sugar=mean(ruou$residual.sugar), density=mean(ruou$density), pH=mean(ruou$pH), free.sulfur.dioxide=mean(ruou$free.sulfur.dioxide)) predict_X1=predict(m1,X1,interval="confidence") predict_X1 ## fit lwr upr ## 10.51427 10.50142 10.52712 #Tạo thuộc tính X2 dự báo: X2=data.frame(fixed.acidity=max(ruou$fixed.acidity), volatile.acidity=max(ruou$volatile.acidity), citric.acid=max(ruou$citric.acid), residual.sugar=max(ruou$residual.sugar), density=max(ruou$density), pH=max(ruou$pH), free.sulfur.dioxide=max(ruou$free.sulfur.dioxide)) predict_X2= predict(m1,X2,interval="confidence") predict_X2 ## fit lwr upr ## -0.02581995 -0.3509751 0.2993352 So sánh khoảng tin cậy hai dự báo trên: #Tạo bảng thể độ cồn hai thuộc tính X1 X2: pred=data.frame(rbind(predict_X1,predict_X2)) #Đổi tên dịng thành X1 X2 rownames(pred) = c("X1","X2") #Tính khoảng tin cậy thuộc tính X1 X2, sau xuất kết dạng bảng thống kê: pred$range =pred$upr - pred$lwr pred ## fit lwr upr range # X1 10.51426705 10.5014189 10.5271151 0.0256962 # X2 -0.02581995 -0.3509751 0.2993352 0.6503102 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu từ X1, ta thu giá trị dự báo xác so với X2 ... # X1 10.51 426 705 10.5014189 10. 527 1151 0. 025 69 62 # X2 -0. 025 81995 -0.3509751 0 .29 933 52 0.65031 02 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết... 5.65 720 3 5.665577 Dự báo giá nhà thuộc tính X2: predict_X2=predict(m1,X2,interval = "confidence") predict_X2 ## fit lwr upr ## 6.364003 6.3533 82 6.374 624 So sánh khoảng tin cậy hai dự báo X1 X2:... 5.661390 5.65 720 3 5.665577 0.008374017 # X2 6.364003 6.3533 82 6.374 624 0. 021 2 421 60 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu

Ngày đăng: 01/12/2022, 09:37

Hình ảnh liên quan

 Xuất các giá trị vừa tìm được dưới dạng bảng descriptive = data.frame(mean,median,sd,max,min) descriptive - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

u.

ất các giá trị vừa tìm được dưới dạng bảng descriptive = data.frame(mean,median,sd,max,min) descriptive Xem tại trang 6 của tài liệu.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

4..

Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models) Xem tại trang 11 của tài liệu.
mô hình m1 chứa tất cả các biến cịn lại là biến độc lập mơ hình m2 là loại bỏ biến condition từ mơ hình M1 - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

m.

ô hình m1 chứa tất cả các biến cịn lại là biến độc lập mơ hình m2 là loại bỏ biến condition từ mơ hình M1 Xem tại trang 13 của tài liệu.
e) Từ mơ hình hồi quy hợp lý nhất từ câu (c) hãy d ng lệnh plot() ùù - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

e.

Từ mơ hình hồi quy hợp lý nhất từ câu (c) hãy d ng lệnh plot() ùù Xem tại trang 15 của tài liệu.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

4..

Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression Xem tại trang 26 của tài liệu.
Giả thiết H: Mơ hình M1 và M2 giống nhau. Giả thiết H: Mơ hình M1 và M2 khác nhau. - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

i.

ả thiết H: Mơ hình M1 và M2 giống nhau. Giả thiết H: Mơ hình M1 và M2 khác nhau Xem tại trang 31 của tài liệu.
Giả thiết H: Mơ hình M2 và M3 giống nhau. Giả thiết H: Mơ hình M2 và M3 khác nhau. - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

i.

ả thiết H: Mơ hình M2 và M3 giống nhau. Giả thiết H: Mơ hình M2 và M3 khác nhau Xem tại trang 31 của tài liệu.
 Do mơ hình M2 và M3 khác nhau nên ta phải cân nhắc việc lựa chọn mơ hình nào tốt hơn giữa M2 và M3, ta nên thực hiện vẽ biểu đồ sai số hồi quy và giá trị dự báo của mơ hình M2 và M3. - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

o.

mơ hình M2 và M3 khác nhau nên ta phải cân nhắc việc lựa chọn mơ hình nào tốt hơn giữa M2 và M3, ta nên thực hiện vẽ biểu đồ sai số hồi quy và giá trị dự báo của mơ hình M2 và M3 Xem tại trang 32 của tài liệu.
Nhận xét: Nhìn vào 2 đồ thị của mơ hình M2 và M3, ta nhận thấy đường màu - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

h.

ận xét: Nhìn vào 2 đồ thị của mơ hình M2 và M3, ta nhận thấy đường màu Xem tại trang 33 của tài liệu.
4. Xây dựng mơ hình hồi quy tuyến tính: - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

4..

Xây dựng mơ hình hồi quy tuyến tính: Xem tại trang 44 của tài liệu.
a) Xét mơ hình hồi quy tuyến tính bao gồm biến alcohol là một biến phụ thuộc, và tất cả các biến thuộc về tính chất hóa học cịn lại là biến độc lập - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

a.

Xét mơ hình hồi quy tuyến tính bao gồm biến alcohol là một biến phụ thuộc, và tất cả các biến thuộc về tính chất hóa học cịn lại là biến độc lập Xem tại trang 44 của tài liệu.
b) Dựa vào mơ hình hồi quy tuyến tính trên, những biến nào sẽ bị loại khỏi mơ hình với mức ý nghĩa là 5%? - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

b.

Dựa vào mơ hình hồi quy tuyến tính trên, những biến nào sẽ bị loại khỏi mơ hình với mức ý nghĩa là 5%? Xem tại trang 45 của tài liệu.
Nhận xét: Dựa vào kết quả của mơ hình hồi quy, ta nhận thấy Pr(&gt;|t|) của tất - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

h.

ận xét: Dựa vào kết quả của mơ hình hồi quy, ta nhận thấy Pr(&gt;|t|) của tất Xem tại trang 45 của tài liệu.
Từ mơ hình bạn chọn trong câu 4, hãy dùng lệnh predict() để dự báo độ cồn: - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

m.

ơ hình bạn chọn trong câu 4, hãy dùng lệnh predict() để dự báo độ cồn: Xem tại trang 47 của tài liệu.
#Tạo bảng thể hiện độ cồn ở hai thuộc tính X1 và X2: pred=data.frame(rbind(predict_X1,predict_X2)) #Đổi tên dòng thành X1 và X2 - (TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

o.

bảng thể hiện độ cồn ở hai thuộc tính X1 và X2: pred=data.frame(rbind(predict_X1,predict_X2)) #Đổi tên dòng thành X1 và X2 Xem tại trang 48 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan