(TIỂU LUẬN) báo cáo bài tập lớn 2 môn xác SUẤT THỐNG kê

HO CHI MINH CITY UNIVERSITY OF BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ GVHD: TS Nguyễn Bá Thi Thực hiện: Nguyễn Việt Ngân - 1914289 (Lớp: L11 – Nhóm: 04) Mục lục PHẦN CHUNG BÀI BÀI 16 PHẦN RIÊNG 33 PHẦN CHUNG BÀI Câu hỏi: Đọc liệu (Import data): gia_nha = 10) không đạt (G3 < 10) sinh viên điểm thi cuối kì Hãy thống kê tỷ lệ đạt/khơng đạt (Hàm gợi ý: cbind() ) evaluate=prop.table(table(new_DF$G3=10)) evaluate1 ## ## FALSE TRUE ## 0.4717949 0.5282051 Ket_qua = data.frame(cbind(evaluate,evaluate1)) colnames(Ket_qua)=c("Quan sat","Du bao") rownames(Ket_qua)=c("Khong dat", "Dat") t(Ket_qua) ## ## Quan sat ## Du bao PHẦN RIÊNG Đề bài: Tập liệu “Wine_ data.csv” chứa thông tin rượu vang trắng gồm 4898 mẫu sản xuất Bồ Đào Nha Dữ liệu gồm 12 đặc tính khác rượu vang trắng, quality liệu dựa cảm quan, biến rời rạc xếp thứ tự từ (tệ) đến 10 (tốt) Phần lại tính chất hóa học rượu biến liên tục Dữ liệu gốc cung cấp bởi: https://online.stat.psu.edu/stat508/lesson/analysis-wine-quality-data? fbclid=IwAR0HG40PF2YK8Sios0COmeT6gPAOSNLLS3yQPkBKjSx11xgyIyXONwM8rY • fixed.acidity: độ chua cố định • volatile.acidity: nồng độ acid dễ bay • citric.acid: nồng độ citric acid • residual.sugar: lượng đường dư • free.sulfur.dioxide: lượng SO2 tự • density: khối lượng riêng • pH: pH rượu • alcohol: độ cồn • quality: chất lượng rượu Đọc liệu: Wine_data=read.csv("C:/Users/DELL/Desktop/Wine_data.csv") Làm liệu: a) Trích liệu đặt tên ruou bao gồm biến phần giới thiệu liệu Từ câu trở sau yêu cầu xử lý dựa tập liệu ruou ruou=data.frame(Wine_data[,c(1,2,3,4,6,8,9,11,12)]) #trich_xuat_du_lieu_can_quan_tam head(ruou) #doc_du_lieu_voi_ten_la_ruou # fixed.acidity volatile.acidity citric.acid residual.sugar free.sulfur.dioxide ## 45 ## 14 ## 30 ## 47 ## 47 ## 30 ## ## ## ## ## ## ## b) Kiểm tra liệu bị khuyết tập tin Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu khuyết apply(is.na(ruou),2,which) ## integer(0) Nhận xét: Khơng có liệu khuyết tập tin ruou Làm rõ liệu: a) Tính giá trị: trung bình, trung vị, giá trị nhỏ nhất, giá trị lớn độ lệch chuẩn, cho biến liên tục Sau xuất kết tính dạng bảng mean=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,mean) #tim_trung_binh_cua_du_lieu_duoc_trich median=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,median) #tim_trung_vi_cua_du_lieu_duoc_trich min=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,min) #tim_min_cua_du_lieu_duoc_trich max=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,max) #tim_max_cua_du_lieu_duoc_trich sd=apply(ruou[,c(1,2,3,4,5,6,7,8,9)],2,sd) #tim_do_lech_chuan_cua_du_lieu_duoc_trich gia_tri_tinh_duoc=data.frame(mean,median,max,min,sd) #bang_tong_hop_du_lieu_tim_duoc gia_tri_tinh_duoc #xuat_bang_tong_hop_du_lieu ## sd ## fixed.acidity 0.843868228 ## volatile.acidity 0.100794548 ## citric.acid 0.121019804 ## residual.sugar 5.072057784 # free.sulfur.dioxide 35.3080849 34.00000 289.00000 2.00000 17.007137325 ## density 0.002990907 ## pH 0.151000600 ## alcohol 1.230620568 ## quality 0.885638575 b) Vẽ đồ thị phân phối biến quality Thống kê số lượng biến quality: table(ruou$quality) ## ## ## Vẽ đồ thị phân phối biến quality: hist(ruou$quality,labels = T) c) Dùùng lệnh pairs() vẽ phân phối biến alcohol theo fixed.acidity, volatile.acidity, citric.acid, residual.sugar,density, pH, free.sulfur.doxide Các biểu đồ đặt tên từ đến pairs(alcohol~fixed.acidity, main="1",data=ruou) #bieu_do_phan_phoi_alcohol_theo_fixed.acidity pairs(alcohol~volatile.acidity,main="2",data=ruou) #bieu_do_phan_phoi_alcohol_theo_volatile.acidity pairs(alcohol~citric.acid,main="3",data=ruou) #bieu_do_phan_phoi_alcohol_theo_citric.acid pairs(alcohol~residual.sugar,main="4",data=ruou) #bieu_do_phan_phoi_alcohol_theo_residual.sugar pairs(alcohol~density,main="5",data=ruou) #bieu_do_phan_phoi_alcohol_theo_density pairs(alcohol~pH,main="6",data=ruou) #bieu_do_phan_phoi_alcohol_theo_pH pairs(alcohol~free.sulfur.dioxide,main="7",data=ruou) #bieu_do_phan_phoi_alcohol_theo_free.sulfur.dioxide Nhận xét: Biểu đồ 5,7 ta thấy có quan hệ tuyến tính rõ rệt alcohol với biến density,free.sulfur.dioxide, cụ thể quan hệ nghịch biến Các biến lại phân tán ổn định theo đường thẳng nhiên chưa đủ sở để ta dựa vào quan sát để kết luận đồng biến hay nghịch biến Xây dựng mơ hình hồi quy tuyến tính: Khi tung sản phẩm rượu vang thị trường nhà sản xuất cần quan tâm đến quy định độ cồn quy định thị trường Đồng thời đứng phía người tiêu dùng độ cồn có sản phẩm yếu tố quan tâm chọn sản phẩm liên quan đến thị hiếu, sức khỏe,… khách hàng Do ta tìm hiểu nhân tố hóa học tác động đến độ cồn rượu vang trắng a) Xét mơ hình hồi quy tuyến tính bao gồm biến alcohol biến phụ thuộc, tất biến thuộc tính chất hóa học cịn lại biến độc lập Hãy dùùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội m1=lm(alcohol~ fixed.acidity + volatile.acidity + citric.acid + residual.sugar + density + pH + free.sulfur.dioxide, data=ruou) summary(m1) ## # # Call: lm(formula = alcohol ~ fixed.acidity + volatile.acidity + citric.acid + # residual.sugar + density + pH + free.sulfur.dioxide, data = ruou) ## ## Residuals: ## Min # -3.3157 -0.2622 -0.0329 # Coefficients: 0.2305 16.0732 # ## ## (Intercept) *** ## fixed.acidity *** ## volatile.acidity *** ## citric.acid *** ## residual.sugar *** ## density *** ## pH *** # free.sulfur.dioxide -2.323e-03 4.123e-04 -5.634 1.86e-08 *** # - # Signif codes: # Residual standard error: 0.4587 on 4890 degrees of freedom # Multiple R-squared: # F-statistic: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' ## 0.8613, Adjusted R-squared: 4338 on and 4890 DF, 0.8611 p-value: < 2.2e-16 b) Dựa vào mơ hình hồi quy tuyến tính trên, biến bị loại khỏi mơ hình với mức ý nghĩa 5%? Ta đặt giả thiết: H0: Các hệ số hồi quy khơng có ý nghĩa thống kê H1: Các hệ số hồi quy có ý nghĩa thống kê Nhận xét: Dựa vào kết mơ hình hồi quy, ta nhận thấy Pr(>|t|) tất biến < mức ý nghĩa 0.05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số góc tương ứng với tất biến (fixed.acidity,volatile.acidity,citric.acid,residual.sugar,density,pH,free.sulfur.di oxide) có ý nghĩa thống kê Do ta khơng loại bỏ biến khỏi mơ hình c) Từ mơ hình vừa thành lập suy luận ảnh ảnh hưởng biến lên độ cồn Nhận xét: Dựa vào kết mơ hình hồi quy m1 ta nhận thấy biến fixed.acidity,volatile.acidity,residual.sugar,density,pH có Pr(>|t|) bé (***), tức khả bác bỏ H0 cao, tức hệ số ứng với biến có ý nghĩa thống kê cao, có nghĩa thay đổi biến có ảnh hưởng nhiều đến thay đổi độ cồn Tiếp đến biến citric.acid có Pr(>|t|) = 1.83e- 14 free.sulfur.dioxide có Pr(>|t|) = 1.86e-08 thấp ảnh hưởng nhiều đến độ cồn biến cịn lại.Mặt khác hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc độ cồn tăng giảm đơn vị biến dự báo đó, giả sử biến dự báo khác khơng đổi Ví dụ: hệ số hồi quy biến pH 2.568e+00 pH tăng lên đơn vị (giả sử biến dự báo cịn lại khơng đổi) ta kì vọng độ rượu tăng thêm 2.568 đơn vị Tương tự hệ số hồi quy biến free.sulfur.dioxide -2.323e -03 free.sulfur.dioxide tăng lên đơn vị ta kì vọng độ rượu giảm 0.002323 đơn vị d) Hãy vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values) plot(m1,which = 1) Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đồ thị đường thẳng nằm ngang, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem tuyến tính, thoả mản giả định tuyến tính liệu Ngoài giá trị thặng dư (sai số) phân tán tương đối xung quanh đường thẳng y = (ngoài trừ số giá trị ngoại lai), chứng tỏ phương sai sai số số Dự báo: Từ mơ hình bạn chọn câu 4, dùng lệnh predict() để dự báo độ cồn: X1: fixed.acidity = mean(fixed.acidity), volatile.acidity = mean(volatile.acidity), citric.acid = mean(citric.acid), residual.sugar = mean(residual.sugar), density = mean(density), pH = mean (pH), pH = mean(pH), free.sulfur.dioxide = mean(free.sulfur.dioxide) X2: fixed.acidity = max(fixed.acidity), volatile.acidity = max(volatile.acidity), citric.acid = max(citric.acid), residual.sugar = max(residual.sugar), density = max(density), pH = mean(pH), pH = max(pH), free.sulfur.dioxide = max(free.sulfur.dioxide) #Tạo thuộc tính X1 dự báo: X1=data.frame(fixed.acidity=mean(ruou$fixed.acidity), volatile.acidity=mean(ruou$volatile.acidity), citric.acid=mean(ruou$citric.acid), residual.sugar=mean(ruou$residual.sugar), density=mean(ruou$density), pH=mean(ruou$pH), free.sulfur.dioxide=mean(ruou$free.sulfur.dioxide)) predict_X1=predict(m1,X1,interval="confidence") predict_X1 ## fit lwr upr ## 10.51427 10.50142 10.52712 #Tạo thuộc tính X2 dự báo: X2=data.frame(fixed.acidity=max(ruou$fixed.acidity), volatile.acidity=max(ruou$volatile.acidity), citric.acid=max(ruou$citric.acid), residual.sugar=max(ruou$residual.sugar), density=max(ruou$density), pH=max(ruou$pH), free.sulfur.dioxide=max(ruou$free.sulfur.dioxide)) predict_X2= predict(m1,X2,interval="confidence") predict_X2 ## fit lwr upr ## -0.02581995 -0.3509751 0.2993352 So sánh khoảng tin cậy hai dự báo trên: #Tạo bảng thể độ cồn hai thuộc tính X1 X2: pred=data.frame(rbind(predict_X1,predict_X2)) #Đổi tên dịng thành X1 X2 rownames(pred) = c("X1","X2") #Tính khoảng tin cậy thuộc tính X1 X2, sau xuất kết dạng bảng thống kê: pred$range =pred$upr - pred$lwr pred ## fit lwr upr range # X1 10.51426705 10.5014189 10.5271151 0.0256962 # X2 -0.02581995 -0.3509751 0.2993352 0.6503102 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu từ X1, ta thu giá trị dự báo xác so với X2 ... # X1 10.51 426 705 10.5014189 10. 527 1151 0. 025 69 62 # X2 -0. 025 81995 -0.3509751 0 .29 933 52 0.65031 02 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết... 5.65 720 3 5.665577 Dự báo giá nhà thuộc tính X2: predict_X2=predict(m1,X2,interval = "confidence") predict_X2 ## fit lwr upr ## 6.364003 6.3533 82 6.374 624 So sánh khoảng tin cậy hai dự báo X1 X2:... 5.661390 5.65 720 3 5.665577 0.008374017 # X2 6.364003 6.3533 82 6.374 624 0. 021 2 421 60 Nhận xét: Với khoảng tin cậy 95%, ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu

Tiêu đề	(TIỂU LUẬN) Báo Cáo Bài Tập Lớn 2 Môn Xác Suất Thống Kê
Tác giả	Nguyễn Việt Ngân
Người hướng dẫn	TS. Nguyễn Bá Thi
Trường học	Ho Chi Minh City University
Chuyên ngành	Xác Suất Thống Kê
Thể loại	báo cáo
Thành phố	Ho Chi Minh City

Định dạng
Số trang	49
Dung lượng	2,46 MB