1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

33 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 2,33 MB

Nội dung

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo Số TT I Phần chung: Đọc liệu (Import data): download by : skknchat@gmail.com Làm liệu (Data cleaning): Làm rõ liệu (Data visualization): t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) giới tính ( gender ) có ảnh hưởng đến việc giảm cân weight.loss II Phần riêng: Đọc liệu (Import data): Làm liệu (Data cleaning) Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Nhận xét III Tài liệu tham khảo IV Nguồn liệu I Phần chung: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu:  Person = số thứ tự người tham gia thử nghiệm  gender = giới tính người tham gia (1 = nam, = nữ)  Age = tuổi (năm)  Height = chiều cao (cm)  pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg) download by : skknchat@gmail.com   Diet = chế độ ăn kiêng (3 chế độ khác nhau) weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu bị khuyết tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có liệu bị khuyết, đề xuất phương pháp thay cho liệu bị khuyết Kiểm tra liệu khuyết: Input: Output: download by : skknchat@gmail.com Dòng lệnh >colSums(is.na(Diet)) để kiểm tra có liệu khuyết Dịng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí liệu khuyết Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ liệu khuyết so với số liệu đề bài, bé qua bỏ qua Dòng lệnh >Diet_new 0.05 nên nhóm mà ta khảo sát tuân theo luật phân phối chuẩn b) Nhóm thực chế độ ăn kiêng (diet2) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Input: Output: download by : skknchat@gmail.com Thực Tukey HSD (Tukey Honest Significant Differences) Sử dụng hàm TukeyHSD() để so sánh theo cặp nhóm đối tượng (có nhóm) Code R: TukeyHSD(aov(model1))   Diff: khác biệt trung bình cặp nhóm  Lwr, upr: Cận cận khoảng tin cậy 95% (default) Từ bảng trên, ta thấy khác biệt cặp Fe:Diet3 – Fe:Diet2 (3.27) cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) có ý nghĩa đáng kể => thấy rằng: Chế độ ăn kiêng áp dụng cho đối tượng nữ đem lại hiệu cao nhất, trái lại chế độ kiêng áp dụng cho nữ đem lại hiệu thấp Để có nhìn trực quan hơn, ta sử dụng đồ thị: plot(TukeyHSD(res.aov3)) d Thực việc kiểm tra giả định mơ hình TH2: Giả định phân phối chuẩn - # Sử dụng Q-Q plot - # Nếu ta thu đồ thị xấp xỉ theo đường thẳng tuyến tính khơng bác bỏ giả định phân phối chuẩn plot(res.aov3, 2) 17 download by : skknchat@gmail.com - Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số phân phối chuẩn # Có thể sử dụng kiểm định Shapiro-Wilk aov_residuals mức ý nghĩa α= 0.05 Vậy khơng có chứng để khẳng định phương sai nhóm có khác biệt đáng kể mặt thống kê, nên giả định tính đồng phương sai 18 download by : skknchat@gmail.com B Phần riêng: • Mỗi nhóm bắt buộc tự tìm liệu thuộc chuyên ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin "kho_du_lieu_BTL_xstk.xlsx" • Các nhóm yêu cầu xử lý số liệu mà chọn Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: Làm rõ liệu (data visualization) mơ hình liệu (model fitting) CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG Tập tin “Concrete_Data.csv” chứa số liệu thành phần có khối bê tơng từ tìm sức chịu nén bê tơng Nguồn: kho_du_lieu_BTL_xstk.xlsx Chú thích: Cement (kg/m3) - Xi măng Blast Furnace Slag (kg/m3) - Xỉ lò cao Fly Ash (kg/m3) - Tro bay Water (kg/m3) - Nước Superplasticizer (kg/m3) - Phụ gia siêu dẻo Coarse Aggregate (kg/m3) - Cốt liệu thô Fine Aggregate (kg/m3) - Cốt liệu nhỏ Age (Day) - Tuổi Concrete compressive strength (MPa) - Cường độ nén bê tông THỰC HIỆN TRÊN RSTUDIO Trước hết phải chuyển file thành “ Concrete_Data.csv” 1.Đọc liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin > setwd('E:/xstk') > library(readr) > library(mice) > library(psych) > library(relaimpo) > cuongdo View(cuongdo) 19 download by : skknchat@gmail.com 2.Làm liệu (Data cleaning): Gán biến cho gọn hơn: > Ce BFS FA Water Super CA Fine Age CCS new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS) > names(new_cd) Kiểm tra liệu khuyết > anyNA(new_cd) Vậy liệu khuyết 3.Làm rõ liệu (Data visualization): a Đối với biến liên tục, tính giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn giá trị nhỏ Xuất kết với dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) 20 download by : skknchat@gmail.com Tạo tập “mota” để chứa biến liên tục Tạo tập “motacuthe” để chứa yếu tố cần mơ tả trung bình, trung vị, độ lệch chuẩn, min,max “mota” > new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS) > mota=describe(new_cd2) > attach(mota) > motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max) > detach(mota) > motacuthe b Đối với biến phân loại, lập bảng thống kê số lượng cho chủng loại (Hàm gợi ý: table()) > table(Age) c Vẽ đồ thị phân phối CCS hàm hist() > hist(CCS,col="red") 21 download by : skknchat@gmail.com Nhận xét: Cường độ nén bê tông mẫu số liệu tập trung nhiều khoảng 20 – 50 (MPa) xem khoảng ước lượng d Vẽ phân phối biến CCS cho nhóm phân loại biến Age > boxplot(CCS~Age) 22 download by : skknchat@gmail.com ... Đọc liệu (Import data): house_price.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu... riêng: Đọc liệu (Import data): Làm liệu (Data cleaning) Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Nhận xét III Tài liệu tham khảo... Đọc liệu Data (Import data) Để đọc liệu vào R, ta dùng lệnh sau: Để xem liệu vừa nhập ta dùng lệnh diet, R xuất bảng sau: download by : skknchat@gmail.com Làm liệu (Data cleaning): Kiểm tra liệu

Ngày đăng: 19/04/2022, 15:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] “Concrete_Data.csv” Truy cập từ: "kho_du_lieu_BTL_xstk.xlsx&#34 Sách, tạp chí
Tiêu đề: Concrete_Data.csv” Truy cập từ
[1] Ngôn ngữ R và xử lý thống kê https://timoday.edu.vn/ngon-ngu-r-va-xu-ly-thong-ke/ Link
[2] Nguyễn Văn Tuấn. Phân tích số liệu và tạo biểu đồ bằng R.https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf Link
[3] Rebecca Bevans, ANOVA in R: A step-by-step guide, https://www.scribbr.com/statistics/anova-in-r/, truy cập ngày 25/11/2021 Link
[4] Cẩm nang R cơ bản https://epirhandbook.com/vn/basics.htmlIV. Nguồn dữ liệu Link
[1] Diet.csv - Truy cập từ: https://www.sheffield.ac.uk/mash/statistics/datasets Link

HÌNH ẢNH LIÊN QUAN

Để xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau: - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau: (Trang 3)
Đối với các biến phân loại ( rời rạc), hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()). - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
i với các biến phân loại ( rời rạc), hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()) (Trang 6)
Sau đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới. - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
au đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới (Trang 7)
với dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()). - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
v ới dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) (Trang 7)
d. Thực hiện việc kiểm tra các giả định của mô hình trong TH2: - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
d. Thực hiện việc kiểm tra các giả định của mô hình trong TH2: (Trang 19)
 Từ bảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) là có ý nghĩa đáng kể. - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
b ảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma: Diet1 (2.23) là có ý nghĩa đáng kể (Trang 19)
quả với dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()). - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
qu ả với dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()) (Trang 23)
Câu 4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
u 4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): (Trang 30)
Theo mô hình M2, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
heo mô hình M2, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào (Trang 31)
trong khoảng từ 10 đến 50, còn 50 đến 60 là thưa thớt. Trong đồ thị có những giá trị ngoại lai, nếu khắc phục xử lí được các giá trị đó thì mô hình sẽ hiệu quả hơn nữa - BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)
trong khoảng từ 10 đến 50, còn 50 đến 60 là thưa thớt. Trong đồ thị có những giá trị ngoại lai, nếu khắc phục xử lí được các giá trị đó thì mô hình sẽ hiệu quả hơn nữa (Trang 32)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w