BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo Số TT I Phần chung: Đọc liệu (Import data): download by : skknchat@gmail.com Làm liệu (Data cleaning): Làm rõ liệu (Data visualization): t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) giới tính ( gender ) có ảnh hưởng đến việc giảm cân weight.loss II Phần riêng: Đọc liệu (Import data): Làm liệu (Data cleaning) Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Nhận xét III Tài liệu tham khảo IV Nguồn liệu I Phần chung: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu:  Person = số thứ tự người tham gia thử nghiệm  gender = giới tính người tham gia (1 = nam, = nữ)  Age = tuổi (năm)  Height = chiều cao (cm)  pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg) download by : skknchat@gmail.com   Diet = chế độ ăn kiêng (3 chế độ khác nhau) weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Kiểm tra liệu khuyết: Input: Output: download by : skknchat@gmail.com Dòng lệnh >colSums(is.na(Diet)) để kiểm tra có liệu khuyết Dịng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí liệu khuyết Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ liệu khuyết so với số liệu đề bài, bé qua bỏ qua Dòng lệnh >Diet_new 0.05 nên nhóm mà ta khảo sát tuân theo luật phân phối chuẩn b) Nhóm thực chế độ ăn kiêng (diet2) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Input: Output: download by : skknchat@gmail.com Thực Tukey HSD (Tukey Honest Significant Differences) Sử dụng hàm TukeyHSD() để so sánh theo cặp nhóm đối tượng (có nhóm) Code R: TukeyHSD(aov(model1))   Diff: khác biệt trung bình cặp nhóm  Lwr, upr: Cận cận khoảng tin cậy 95% (default) Từ bảng trên, ta thấy khác biệt cặp Fe:Diet3 – Fe:Diet2 (3.27) cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) có ý nghĩa đáng kể => thấy rằng: Chế độ ăn kiêng áp dụng cho đối tượng nữ đem lại hiệu cao nhất, trái lại chế độ kiêng áp dụng cho nữ đem lại hiệu thấp Để có nhìn trực quan hơn, ta sử dụng đồ thị: plot(TukeyHSD(res.aov3)) d Thực việc kiểm tra giả định mơ hình TH2: Giả định phân phối chuẩn - # Sử dụng Q-Q plot - # Nếu ta thu đồ thị xấp xỉ theo đường thẳng tuyến tính khơng bác bỏ giả định phân phối chuẩn plot(res.aov3, 2) 17 download by : skknchat@gmail.com - Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số phân phối chuẩn # Có thể sử dụng kiểm định Shapiro-Wilk aov_residuals mức ý nghĩa α= 0.05 Vậy khơng có chứng để khẳng định phương sai nhóm có khác biệt đáng kể mặt thống kê, nên giả định tính đồng phương sai 18 download by : skknchat@gmail.com B Phần riêng: • Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Các nhóm yêu cầu xử lý số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG Tập tin “Concrete_Data.csv” chứa số liệu thành phần có khối bê tơng từ tìm sức chịu nén bê tơng Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Cement (kg/m3) - Xi măng Blast Furnace Slag (kg/m3) - Xỉ lò cao Fly Ash (kg/m3) - Tro bay Water (kg/m3) - Nước Superplasticizer (kg/m3) - Phụ gia siêu dẻo Coarse Aggregate (kg/m3) - Cốt liệu thô Fine Aggregate (kg/m3) - Cốt liệu nhỏ Age (Day) - Tuổi Concrete compressive strength (MPa) - Cường độ nén bê tông THỰC HIỆN TRÊN RSTUDIO Trước hết phải chuyển file thành “ Concrete_Data.csv” 1.Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin > setwd('E:/xstk') > library(readr) > library(mice) > library(psych) > library(relaimpo) > cuongdo View(cuongdo) 19 download by : skknchat@gmail.com 2.Làm liệu (Data cleaning): Gán biến cho gọn hơn: > Ce BFS FA Water Super CA Fine Age CCS new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS) > names(new_cd) Kiểm tra liệu khuyết > anyNA(new_cd) Vậy liệu khuyết 3.Làm rõ liệu (Data visualization): a Đối với biến liên tục, tính giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết với dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) 20 download by : skknchat@gmail.com Tạo tập “mota” để chứa biến liên tục Tạo tập “motacuthe” để chứa yếu tố cần mơ tả trung bình, trung vị, độ lệch chuẩn, min,max “mota” > new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS) > mota=describe(new_cd2) > attach(mota) > motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max) > detach(mota) > motacuthe b Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) > table(Age) c Vẽ đồ thị phân phối CCS hàm hist() > hist(CCS,col="red") 21 download by : skknchat@gmail.com Nhận xét: Cường độ nén bê tông mẫu số liệu tập trung nhiều khoảng 20 – 50 (MPa) xem khoảng ước lượng d Vẽ phân phối biến CCS cho nhóm phân loại biến Age > boxplot(CCS~Age) 22 download by : skknchat@gmail.com ... Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu... riêng: Đọc liệu (Import data): Làm liệu (Data cleaning) Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Nhận xét III Tài liệu tham khảo... Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu

Định dạng
Số trang	33
Dung lượng	2,33 MB