1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

31 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 1,7 MB

Nội dung

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo BÁO CÁO BÀI TẬP MÔN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn : Nguyễn Kiều Dung Lớp: L15 Nhóm 36 Đề tài Số TT Họ tên MSSV Ngành Lớp Nguyễn Ngọc Vinh Hiển (NT) 2013185 Cơ khí L14 Ngơ Hồng Sơn 2010584 Xây dựng L14 Triệu Thành Tài 2014421 Xây dựng L14 Nguyễn Hữu Bảo 2010904 Xây dựng L14 Đỗ Trí Thắng 2014532 Xây dựng L14 TP HỒ CHÍ MINH, NĂM 2021 Mục lục I Phần chung: Đọc liệu (Import data): Làm liệu (Data cleaning): Làm rõ liệu (Data visualization): t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) giới tính ( gender ) có ảnh hưởng đến việc giảm cân weight.loss 14 II Phần riêng: 19 Đọc liệu (Import data): 20 Làm liệu (Data cleaning) 20 Làm rõ liệu (Data visualization): 21 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 25 Nhận xét III Tài liệu tham khảo 34 IV Nguồn liệu 34 I Phần chung: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu:  Person = số thứ tự người tham gia thử nghiệm  gender = giới tính người tham gia (1 = nam, = nữ)  Age = tuổi (năm)  Height = chiều cao (cm)  pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg)  Diet = chế độ ăn kiêng (3 chế độ khác nhau)  weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: 2 Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Kiểm tra liệu khuyết: Input: Output: Dịng lệnh >colSums(is.na(Diet)) để kiểm tra có liệu khuyết Dòng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí liệu khuyết Dịng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ liệu khuyết so với số liệu đề bài, bé qua bỏ qua Dòng lệnh >Diet_new 0.05 nên nhóm mà ta khảo sát tuân theo luật phân phối chuẩn b) Nhóm thực chế độ ăn kiêng (diet2) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Input: Output:  Ảnh hưởng giới tính (độ tin cậy 1) H0: cân nặng giảm trung bình giới tính H1: cân nặng giảm trung bình giới tính khác Pr(>F)= 0.820623 > 0.05 (mức ý nghĩa) ==> chấp nhận H0 Kết luận: Giới tính khơng ảnh hưởng đến việc giảm cân  Ảnh hưởng chế độ ăn kiêng (độ tin cậy 0.01) H0: cân nặng giảm trung bình phương pháp ăn kiêng giống H1: cân nặng giảm trung bình phương pháp ăn kiêng khác Pr(>F)=0,005456 < 0.05🡪 bác bỏ H0, chấp nhận H1 Kết luận: Chế độ ăn kiêng có ảnh hưởng đến việc giảm cân  Ảnh hưởng tổng hợp giới tính chế độ ăn kiêng H0: cân nặng giảm trung bình phương pháp ăn kiêng giới tính giống H1: cân nặng giảm trung bình phương pháp ăn kiêng giới tính khác Pr(>F)=0,048842 < 0.05 🡪 bác bỏ H0, chấp nhận H1 Kết luận: Có ảnh hưởng tổng hợp hai yếu tố giới tính chế độ ăn kiêng lên giảm cân c Một số so sánh bội để làm rõ ảnh hưởng hai yếu tố giới tính chế độ ăn kiêng lên giảm cân Sau thực phân tích ANOVA hai chiều ta kết luận có ảnh hưởng tổng hợp hai yếu tố giới tính chế độ ăn kiêng lên giảm cân Để có nhìn rõ sức ảnh hưởng tương tác gender*Diet ta thực so sánh bội nhóm (được tạo nên từ gender(Nam;Nữ)*Diet(1;2;3)) Từ đó, ta quan sát nhóm, nhóm chịu tác động tương tác gender*Diet nhiều hay (thơng qua so sánh bình nhóm) 16 Thực Tukey HSD (Tukey Honest Significant Differences) Sử dụng hàm TukeyHSD() để so sánh theo cặp nhóm đối tượng (có nhóm) Code R: TukeyHSD(aov(model1))  Diff: khác biệt trung bình cặp nhóm  Lwr, upr: Cận cận khoảng tin cậy 95% (default)  Từ bảng trên, ta thấy khác biệt cặp Fe:Diet3 – Fe:Diet2 (3.27) cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) có ý nghĩa đáng kể => thấy rằng: Chế độ ăn kiêng áp dụng cho đối tượng nữ đem lại hiệu cao nhất, trái lại chế độ kiêng áp dụng cho nữ đem lại hiệu thấp Để có nhìn trực quan hơn, ta sử dụng đồ thị: plot(TukeyHSD(res.aov3)) d Thực việc kiểm tra giả định mơ hình TH2: Giả định phân phối chuẩn - # Sử dụng Q-Q plot - # Nếu ta thu đồ thị xấp xỉ theo đường thẳng tuyến tính khơng bác bỏ giả định phân phối chuẩn plot(res.aov3, 2) 17 - Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số phân phối chuẩn # Có thể sử dụng kiểm định Shapiro-Wilk aov_residuals mức ý nghĩa α= 0.05 Vậy khơng có chứng để khẳng định phương sai nhóm có khác biệt đáng kể mặt thống kê, nên giả định tính đồng phương sai 18 B Phần riêng: • Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Các nhóm u cầu xử lý số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG Tập tin “Concrete_Data.csv” chứa số liệu thành phần có khối bê tơng từ tìm sức chịu nén bê tơng Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Cement (kg/m3) - Xi măng Blast Furnace Slag (kg/m3) - Xỉ lò cao Fly Ash (kg/m3) - Tro bay Water (kg/m3) - Nước Superplasticizer (kg/m3) - Phụ gia siêu dẻo Coarse Aggregate (kg/m3) - Cốt liệu thô Fine Aggregate (kg/m3) - Cốt liệu nhỏ Age (Day) - Tuổi Concrete compressive strength (MPa) - Cường độ nén bê tông THỰC HIỆN TRÊN RSTUDIO Trước hết phải chuyển file thành “ Concrete_Data.csv” 1.Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin > setwd('E:/xstk') > library(readr) > library(mice) > library(psych) > library(relaimpo) > cuongdo View(cuongdo) 19 2.Làm liệu (Data cleaning): Gán biến cho gọn hơn: > Ce BFS FA Water Super CA Fine Age CCS new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS) > names(new_cd) Kiểm tra liệu khuyết > anyNA(new_cd) Vậy khơng có liệu khuyết 3.Làm rõ liệu (Data visualization): a Đối với biến liên tục, tính giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết với dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) 20 Tạo tập “mota” để chứa biến liên tục Tạo tập “motacuthe” để chứa yếu tố cần mơ tả trung bình, trung vị, độ lệch chuẩn, min,max “mota” > new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS) > mota=describe(new_cd2) > attach(mota) > motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max) > detach(mota) > motacuthe b Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) > table(Age) c Vẽ đồ thị phân phối CCS hàm hist() > hist(CCS,col="red") 21 Nhận xét: Cường độ nén bê tông mẫu số liệu tập trung nhiều khoảng 20 – 50 (MPa) xem khoảng ước lượng d Vẽ phân phối biến CCS cho nhóm phân loại biến Age > boxplot(CCS~Age) 22 Nhận xét: Từ biểu đồ cho ta thấy trung vị cường độ nén bê tông với độ tuổi 91(ngày) lớn thấp độ tuổi (ngày).Các giá trị trung vị cường độ nén bê tông tăng dần từ độ tuổi 1(ngày) 91 (ngày) sau giảm dần cácđộ tuổi (ngày) lớn e vẽ phân phối biến CCS theo biến Ce, BFS, FA, Super, CA, Fine lệnh pairs() > pairs(CCS~Ce) Nhận xét: Hàm lượng Xi măng Cường độ nén bê tông không tuân theo qui luật > pairs(CCS~BFS) 23 Nhận xét: Nhìn chung hàm lượng Xỉ lị cao tăng cường độ nén bê tơng giảm > pairs(CCS~FA) Nhận xét: Hàm lượng tro bay cường độ nén bê tông không tuân theo qui luật > pairs(CCS~Water) 24 Nhận xét: Hàm lượng nước cường độ nén bê tông không tuân theo qui luật > pairs(CCS~Super) Nhận xét: Hàm lượng chất siêu dẻo cường độ nén bê tông không tuân theo qui luật > pairs(CCS~CA) 25 Nhận xét: Hàm lượng Cốt liệu thô cường độ nén bê tông không tuân thủ theo quy luật > pairs(CCS~Fine) Nhận xét: Hàm lượng Cốt liệu nhỏ cường độ nén bê tông không tuân thủ theo quy luật 26 Câu 4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): a Lập mơ hình hồi quy tuyến tính bao gồm biến “CCS” biến phụ thuộc, tất biến lại biến độc lập lệnh lm() > M1=lm(CCS~Ce+BFS+FA+Water+Super+CA+Fine+as.factor(Age)) > summary(M1) Đặt giả thiết H: không mang ý nghĩa thống kê H : mang ý nghĩa thống kê Theo mơ hình M1, mức ý nghĩa lớn 5% khơng có dấu nên loại biến “Super” b.Lập mơ hình tuyến tính M2 loại biến “Super” > M2=lm(CCS~Ce+BFS+FA+Water+CA+Fine+as.factor(Age)) > summary(M2) 27 Đặt giả thiết H: không mang ý nghĩa thống kê H : mang ý nghĩa thống kê Theo mơ hình M2, mức tin cậy lớn 5% khơng có dấu nên khơng loại biến c Phân tích phương sai mơ hình M1, M2 > anova(M1,M2) Đặt giả thiết : H: M1, M2 có độ phù hợp H : M1, M2 có độ phù hợp khác Ta thấy Pr(>F) = 0.4289 lớn mức ý nghĩa 5% nên mô hình M1, M2 có độ phù hợp Mà ta thấy M2 không loại biến nên M2 phù hợp d Tạo tập “ tacdong” với hàm calc.relimp() 28 > tacdong=calc.relimp(M2) > tacdong e Vẽ đồ thị biểu sai số hồi quy giá trị dự báo lệnh plot() > plot(M2) Ta thấy đường màu đỏ ( Residuals) gần giá trị nên sai số nhỏ => M2 hiệu hợp lí Các giá trị dự báo (Fitted values) tập trung chủ yếu khoảng từ 10 đến 50, 50 đến 60 thưa thớt Trong đồ thị có giá trị ngoại lai, khắc phục xử lí giá trị mơ hình hiệu III Tài liệu tham khảo [1] Ngôn ngữ R xử lý thống kê https://timoday.edu.vn/ngon-ngu-r-va-xu-ly-thong-ke/ [2] Nguyễn Văn Tuấn Phân tích số liệu tạo biểu đồ R https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf [3]  Rebecca Bevans, ANOVA in R: A step-by-step guide, https://www.scribbr.com/statistics/anova-in-r/, truy cập ngày 25/11/2021 29 [4] Cẩm nang R https://epirhandbook.com/vn/basics.html IV Nguồn liệu [1] Diet.csv - Truy cập từ: https://www.sheffield.ac.uk/mash/statistics/datasets [2] “Concrete_Data.csv” Truy cập từ: "kho_du_lieu_BTL_xstk.xlsx" 30 ... Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu... xóa liệu khuyết chiếm nhỏ liệu đề nên bỏ không ảnh hưởng Dữ liệu Diet sau loại bỏ liệu khuyết ta Diet_new: Làm rõ liệu (Data visualization):  Chuyển đổi liệu: (không cần thiết)  Thống kê mô... weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: 2 Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các

Ngày đăng: 19/04/2022, 09:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w