(TIỂU LUẬN) báo cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo Số TT I Phần chung: Đọc liệu (Import data): Làm liệu (Data cleaning): Làm rõ liệu (Data visualization): t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) giới tính ( gender ) có ảnh hưởng đến việc giảm cân weight.loss II Phần riêng: Đọc liệu (Import data): Làm liệu (Data cleaning) Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Nhận xét III Tài liệu tham khảo IV Nguồn liệu I Phần chung: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu:  Person = số thứ tự người tham gia thử nghiệm  gender = giới tính người tham gia (1 = nam, = nữ)  Age = tuổi (năm)  Height = chiều cao (cm)  pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg)  Diet = chế độ ăn kiêng (3 chế độ khác nhau)  weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: 2 Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Kiểm tra liệu khuyết: Input: Output: Dịng lệnh >colSums(is.na(Diet)) để kiểm tra có liệu khuyết Dòng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí liệu khuyết Dịng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ liệu khuyết so với số liệu đề bài, bé qua bỏ qua Dịng lệnh >Diet_new 0.05 nên nhóm mà ta khảo sát tuân theo luật phân phối chuẩn b) Nhóm thực chế độ ăn kiêng (diet2) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Input: Output: - Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số phân phối chuẩn # Có thể sử dụng kiểm định Shapiro-Wilk aov_residuals mức ý nghĩa α= 0.05 Vậy khơng có chứng để khẳng định phương sai nhóm có khác biệt đáng kể mặt thống kê, nên giả định tính đồng phương sai 18 B Phần riêng: • Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Các nhóm yêu cầu xử lý số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG Tập tin “Concrete_Data.csv” chứa số liệu thành phần có khối bê tơng từ tìm sức chịu nén bê tơng Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Cement (kg/m3) Blast Furnace Slag (kg/m3) - Xi măng - Xỉ lò cao Fly Ash (kg/m3) - Tro bay Water (kg/m3) - Nước Superplasticizer (kg/m3) - Phụ gia siêu dẻo Coarse Aggregate (kg/m3) - Cốt liệu thô Fine Aggregate (kg/m3) - Cốt liệu nhỏ Age (Day) Concrete compressive strength (MPa) - Tuổi - Cường độ nén bê tông THỰC HIỆN TRÊN RSTUDIO Trước hết phải chuyển file thành “ Concrete_Data.csv” 1.Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin > setwd('E:/xstk') > library(readr) > library(mice) > library(psych) > library(relaimpo) > cuongdo View(cuongdo) 19 2.Làm liệu (Data cleaning): Gán biến cho gọn hơn: > Ce BFS FA Water Super CA Fine Age CCS new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS) > names(new_cd) Kiểm tra liệu khuyết > anyNA(new_cd) Vậy khơng có liệu khuyết 3.Làm rõ liệu (Data visualization): a Đối với biến liên tục, tính giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết với dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) 20 Tạo tập “mota” để chứa biến liên tục Tạo tập “motacuthe” để chứa yếu tố cần mô tả trung bình, trung vị, độ lệch chuẩn, min,max “mota” > new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS) > mota=describe(new_cd2) > attach(mota) > motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max) > detach(mota) > motacuthe b Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) > table(Age) c Vẽ đồ thị phân phối CCS hàm hist() > hist(CCS,col="red") 21 Nhận xét: Cường độ nén bê tông mẫu số liệu tập trung nhiều khoảng 20 – 50 (MPa) xem khoảng ước lượng d Vẽ phân phối biến CCS cho nhóm phân loại biến Age > boxplot(CCS~Age) 22 Nhận xét: Từ biểu đồ cho ta thấy trung vị cường độ nén bê tông với độ tuổi 91(ngày) lớn thấp độ tuổi (ngày).Các giá trị trung vị cường độ nén bê tông tăng dần từ độ tuổi 1(ngày) 91 (ngày) sau giảm dần cácđộ tuổi (ngày) lớn e vẽ phân phối biến CCS theo biến Ce, BFS, FA, Super, CA, Fine lệnh pairs() > pairs(CCS~Ce) Nhận xét: Hàm lượng Xi măng Cường độ nén bê tông không tuân theo qui luật > pairs(CCS~BFS) 23 Nhận xét: Nhìn chung hàm lượng Xỉ lị cao tăng cường độ nén bê tông giảm > pairs(CCS~FA) Nhận xét: Hàm lượng tro bay cường độ nén bê tông không tuân theo qui luật > pairs(CCS~Water) 24 Nhận xét: Hàm lượng nước cường độ nén bê tông không tuân theo qui luật > pairs(CCS~Super) Nhận xét: Hàm lượng chất siêu dẻo cường độ nén bê tông không tuân theo qui luật > pairs(CCS~CA) 25 Nhận xét: Hàm lượng Cốt liệu thô cường độ nén bê tông không tuân thủ theo quy luật > pairs(CCS~Fine) Nhận xét: Hàm lượng Cốt liệu nhỏ cường độ nén bê tông không tuân thủ theo quy luật 26 Câu 4: Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): a Lập mơ hình hồi quy tuyến tính bao gồm biến “CCS” biến phụ thuộc, tất biến lại biến độc lập lệnh lm() > M1=lm(CCS~Ce+BFS+FA+Water+Super+CA+Fine+as.factor(Age)) > summary(M1) Đặt giả thiết H: không mang ý nghĩa thống kê H : mang ý nghĩa thống kê Theo mơ hình M1, mức ý nghĩa lớn 5% khơng có dấu nên loại biến “Super” b.Lập mơ hình tuyến tính M2 loại biến “Super” > M2=lm(CCS~Ce+BFS+FA+Water+CA+Fine+as.factor(Age)) > summary(M2) 27 Đặt giả thiết H: không mang ý nghĩa thống kê H : mang ý nghĩa thống kê Theo mơ hình M2, mức tin cậy lớn 5% khơng có dấu nên khơng loại biến c Phân tích phương sai mơ hình M1, M2 > anova(M1,M2) Đặt giả thiết : H: M1, M2 có độ phù hợp H : M1, M2 có độ phù hợp khác Ta thấy Pr(>F) = 0.4289 lớn mức ý nghĩa 5% nên mơ hình M1, M2 có độ phù hợp Mà ta thấy M2 không loại biến nên M2 phù hợp d Tạo tập “ tacdong” với hàm calc.relimp() 28 > tacdong=calc.relimp(M2) > tacdong e Vẽ đồ thị biểu sai số hồi quy giá trị dự báo lệnh plot() > plot(M2) Ta thấy đường màu đỏ ( Residuals) gần giá trị nên sai số nhỏ => M2 hiệu hợp lí Các giá trị dự báo (Fitted values) tập trung chủ yếu khoảng từ 10 đến 50, 50 đến 60 thưa thớt Trong đồ thị có giá trị ngoại lai, khắc phục xử lí giá trị mơ hình hiệu III Tài liệu tham khảo [1] Ngôn ngữ R xử lý thống kê https://timoday.edu.vn/ngon-ngu-r-va-xu-ly-thong-ke/ [2] Nguyễn Văn Tuấn Phân tích số liệu tạo biểu đồ R https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf [3] Rebecca Bevans, ANOVA in R: A step-by-step guide, https://www.scribbr.com/statistics/anova-in-r/, truy cập ngày 25/11/2021 29 [4] Cẩm nang R https://epirhandbook.com/vn/basics.html IV Nguồn liệu [1] Diet.csv - Truy cập từ: https://www.sheffield.ac.uk/mash/statistics/datasets [2] “Concrete_Data.csv” Truy cập từ: "kho_du_lieu_BTL_xstk.xlsx" 30 ... Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu... xóa liệu khuyết chiếm nhỏ liệu đề nên bỏ không ảnh hưởng Dữ liệu Diet sau loại bỏ liệu khuyết ta Diet_new: Làm rõ liệu (Data visualization):  Chuyển đổi liệu: (không cần thiết)  Thống kê mô... weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: 2 Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các

Tiêu đề	Làm sạch dữ liệu (data cleaning)
Tác giả	Nguyễn Ngọc Vinh Hiển (NT), Ngô Hoàng Sơn, Triệu Thành Tài, Nguyễn Hữu Bảo, Đỗ Trí Thắng
Người hướng dẫn	PTS. Nguyễn Kiều Dung
Trường học	Trường Đại học Bách Khoa
Chuyên ngành	Xác Suất Thống Kê
Thể loại	Báo cáo bài tập
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	33
Dung lượng	2,33 MB