BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

31 63 0
BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo BÁO CÁO BÀI TẬP MÔN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn : Nguyễn Kiều Dung Lớp: L15 Nhóm 36 Đề tài Số TT Họ tên MSSV Ngành Lớp Nguyễn Ngọc Vinh Hiển (NT) 2013185 Cơ khí L14 Ngơ Hồng Sơn 2010584 Xây dựng L14 Triệu Thành Tài 2014421 Xây dựng L14 Nguyễn Hữu Bảo 2010904 Xây dựng L14 Đỗ Trí Thắng 2014532 Xây dựng L14 TP HỒ CHÍ MINH, NĂM 2021 Mục lục I Phần chung: Đọc liệu (Import data): download by : skknchat@gmail.com Làm liệu (Data cleaning): Làm rõ liệu (Data visualization): t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) giới tính ( gender ) có ảnh hưởng đến việc giảm cân weight.loss 14 II Phần riêng: 19 Đọc liệu (Import data): 20 Làm liệu (Data cleaning) 20 Làm rõ liệu (Data visualization): 21 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 25 Nhận xét III Tài liệu tham khảo 34 IV Nguồn liệu 34 I Phần chung: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu:  Person = số thứ tự người tham gia thử nghiệm  gender = giới tính người tham gia (1 = nam, = nữ)  Age = tuổi (năm)  Height = chiều cao (cm)  pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg) download by : skknchat@gmail.com  Diet = chế độ ăn kiêng (3 chế độ khác nhau)  weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Kiểm tra liệu khuyết: Input: Output: download by : skknchat@gmail.com Dòng lệnh >colSums(is.na(Diet)) để kiểm tra có liệu khuyết Dịng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí liệu khuyết Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ liệu khuyết so với số liệu đề bài, bé qua bỏ qua Dịng lệnh >Diet_new 0.05 nên nhóm mà ta khảo sát tuân theo luật phân phối chuẩn b) Nhóm thực chế độ ăn kiêng (diet2) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Input: Output: download by : skknchat@gmail.com  Ảnh hưởng giới tính (độ tin cậy 1) H0: cân nặng giảm trung bình giới tính H1: cân nặng giảm trung bình giới tính khác Pr(>F)= 0.820623 > 0.05 (mức ý nghĩa) ==> chấp nhận H0 Kết luận: Giới tính khơng ảnh hưởng đến việc giảm cân  Ảnh hưởng chế độ ăn kiêng (độ tin cậy 0.01) H0: cân nặng giảm trung bình phương pháp ăn kiêng giống H1: cân nặng giảm trung bình phương pháp ăn kiêng khác Pr(>F)=0,005456 < 0.05🡪 bác bỏ H0, chấp nhận H1 Kết luận: Chế độ ăn kiêng có ảnh hưởng đến việc giảm cân  Ảnh hưởng tổng hợp giới tính chế độ ăn kiêng H0: cân nặng giảm trung bình phương pháp ăn kiêng giới tính giống H1: cân nặng giảm trung bình phương pháp ăn kiêng giới tính khác Pr(>F)=0,048842 < 0.05 🡪 bác bỏ H0, chấp nhận H1 Kết luận: Có ảnh hưởng tổng hợp hai yếu tố giới tính chế độ ăn kiêng lên giảm cân c Một số so sánh bội để làm rõ ảnh hưởng hai yếu tố giới tính chế độ ăn kiêng lên giảm cân Sau thực phân tích ANOVA hai chiều ta kết luận có ảnh hưởng tổng hợp hai yếu tố giới tính chế độ ăn kiêng lên giảm cân Để có nhìn rõ sức ảnh hưởng tương tác gender*Diet ta thực so sánh bội nhóm (được tạo nên từ gender(Nam;Nữ)*Diet(1;2;3)) Từ đó, ta quan sát nhóm, nhóm chịu tác động tương tác gender*Diet nhiều hay (thơng qua so sánh bình nhóm) 16 download by : skknchat@gmail.com Thực Tukey HSD (Tukey Honest Significant Differences) Sử dụng hàm TukeyHSD() để so sánh theo cặp nhóm đối tượng (có nhóm) Code R: TukeyHSD(aov(model1))  Diff: khác biệt trung bình cặp nhóm  Lwr, upr: Cận cận khoảng tin cậy 95% (default)  Từ bảng trên, ta thấy khác biệt cặp Fe:Diet3 – Fe:Diet2 (3.27) cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) có ý nghĩa đáng kể => thấy rằng: Chế độ ăn kiêng áp dụng cho đối tượng nữ đem lại hiệu cao nhất, trái lại chế độ kiêng áp dụng cho nữ đem lại hiệu thấp Để có nhìn trực quan hơn, ta sử dụng đồ thị: plot(TukeyHSD(res.aov3)) d Thực việc kiểm tra giả định mơ hình TH2: Giả định phân phối chuẩn - # Sử dụng Q-Q plot - # Nếu ta thu đồ thị xấp xỉ theo đường thẳng tuyến tính khơng bác bỏ giả định phân phối chuẩn plot(res.aov3, 2) 17 download by : skknchat@gmail.com - Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số phân phối chuẩn # Có thể sử dụng kiểm định Shapiro-Wilk aov_residuals mức ý nghĩa α= 0.05 Vậy khơng có chứng để khẳng định phương sai nhóm có khác biệt đáng kể mặt thống kê, nên giả định tính đồng phương sai 18 download by : skknchat@gmail.com B Phần riêng: • Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Các nhóm yêu cầu xử lý số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG Tập tin “Concrete_Data.csv” chứa số liệu thành phần có khối bê tơng từ tìm sức chịu nén bê tơng Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Cement (kg/m3) - Xi măng Blast Furnace Slag (kg/m3) - Xỉ lò cao Fly Ash (kg/m3) - Tro bay Water (kg/m3) - Nước Superplasticizer (kg/m3) - Phụ gia siêu dẻo Coarse Aggregate (kg/m3) - Cốt liệu thô Fine Aggregate (kg/m3) - Cốt liệu nhỏ Age (Day) - Tuổi Concrete compressive strength (MPa) - Cường độ nén bê tông THỰC HIỆN TRÊN RSTUDIO Trước hết phải chuyển file thành “ Concrete_Data.csv” 1.Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin > setwd('E:/xstk') > library(readr) > library(mice) > library(psych) > library(relaimpo) > cuongdo View(cuongdo) 19 download by : skknchat@gmail.com 2.Làm liệu (Data cleaning): Gán biến cho gọn hơn: > Ce BFS FA Water Super CA Fine Age CCS new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS) > names(new_cd) Kiểm tra liệu khuyết > anyNA(new_cd) Vậy khơng có liệu khuyết 3.Làm rõ liệu (Data visualization): a Đối với biến liên tục, tính giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết với dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) 20 download by : skknchat@gmail.com Tạo tập “mota” để chứa biến liên tục Tạo tập “motacuthe” để chứa yếu tố cần mơ tả trung bình, trung vị, độ lệch chuẩn, min,max “mota” > new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS) > mota=describe(new_cd2) > attach(mota) > motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max) > detach(mota) > motacuthe b Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) > table(Age) c Vẽ đồ thị phân phối CCS hàm hist() > hist(CCS,col="red") 21 download by : skknchat@gmail.com Nhận xét: Cường độ nén bê tông mẫu số liệu tập trung nhiều khoảng 20 – 50 (MPa) xem khoảng ước lượng d Vẽ phân phối biến CCS cho nhóm phân loại biến Age > boxplot(CCS~Age) 22 download by : skknchat@gmail.com Nhận xét: Từ biểu đồ cho ta thấy trung vị cường độ nén bê tông với độ tuổi 91(ngày) lớn thấp độ tuổi (ngày).Các giá trị trung vị cường độ nén bê tông tăng dần từ độ tuổi 1(ngày) 91 (ngày) sau giảm dần cácđộ tuổi (ngày) lớn e vẽ phân phối biến CCS theo biến Ce, BFS, FA, Super, CA, Fine lệnh pairs() > pairs(CCS~Ce) Nhận xét: Hàm lượng Xi măng Cường độ nén bê tông không tuân theo qui luật > pairs(CCS~BFS) 23 download by : skknchat@gmail.com Nhận xét: Nhìn chung hàm lượng Xỉ lị cao tăng cường độ nén bê tông giảm > pairs(CCS~FA) Nhận xét: Hàm lượng tro bay cường độ nén bê tông không tuân theo qui luật > pairs(CCS~Water) 24 download by : skknchat@gmail.com ... Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu... 19 Đọc liệu (Import data): 20 Làm liệu (Data cleaning) 20 Làm rõ liệu (Data visualization): 21 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): 25 Nhận xét III Tài liệu tham... Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu

Ngày đăng: 19/04/2022, 15:40

Hình ảnh liên quan

Để xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau: - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

xem.

dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau: Xem tại trang 3 của tài liệu.
Nhìn vào bảng số liệu ta thấy có 2 biến cần được phân tích gồm: biến rời rạc và biến liên tục: +Biến rời rạc gồm: gender, Diet - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

h.

ìn vào bảng số liệu ta thấy có 2 biến cần được phân tích gồm: biến rời rạc và biến liên tục: +Biến rời rạc gồm: gender, Diet Xem tại trang 6 của tài liệu.
Sau đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới. - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

au.

đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới Xem tại trang 7 của tài liệu.
Xây dựng mô hình phân tích ANOVA hai chiều với 2 factor là giới tính và chế độ ăn kiêng. - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

y.

dựng mô hình phân tích ANOVA hai chiều với 2 factor là giới tính và chế độ ăn kiêng Xem tại trang 16 của tài liệu.
 Từ bảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) là có ý nghĩa đáng kể. - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

b.

ảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) là có ý nghĩa đáng kể Xem tại trang 18 của tài liệu.
d. Thực hiện việc kiểm tra các giả định của mô hình trong TH2: - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

d..

Thực hiện việc kiểm tra các giả định của mô hình trong TH2: Xem tại trang 18 của tài liệu.
b. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()) - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

b..

Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()) Xem tại trang 22 của tài liệu.
Câu 4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

u.

4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): Xem tại trang 28 của tài liệu.
Theo mô hình M2, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào  c - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

heo.

mô hình M2, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào c Xem tại trang 29 của tài liệu.

Từ khóa liên quan

Mục lục

  • reli

  • TRƯỜNG ĐẠI HỌC BÁCH KHOA

  • --oOo--

  • BÁO CÁO BÀI TẬP MÔN

  • XÁC SUẤT THỐNG KÊ

  • Giảng viên hướng dẫn : Nguyễn Kiều Dung

  • Lớp: L15 Nhóm 36

  • Đề tài 3

  • Số TT

  • Họ và tên

  • MSSV

  • Ngành

  • Lớp

  • 1

  • Nguyễn Ngọc Vinh Hiển (NT)

  • 2013185

  • Cơ khí

  • L14

  • 2

Tài liệu cùng người dùng

Tài liệu liên quan