Làm rõ dữ liệu Data visualization a Chuyển đổi biến nếu cần thiết b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.. Mô hình hồi quy tuyến tính : Sử dụng một mô hình hồi quy tuyến tính
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP LỚN: XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn: Nguyễn Đình Huy
Sinh viên: Lưu Hồng Phúc Hưng
MSSV:2013385 Lớp: L06 Khoa Kỹ thuật xây dựng
Hồồ Chí Minh, ngày 12 tháng 11 năm 2021.
Trang 21 Đọc dữ liệu (Import data): heat_date.csv
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 Mô hình hồi quy tuyến tính : Sử dụng một mô hình hồi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà
5 t.test: Đề suất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt
và tỏa nhiệt của các ngôi nhà
Thực hiện bằng Rstudio
1.Đọc dữ liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin
Khai báo các thư viện (library) được sử dụng trong toàn bộ quá trình thực hiện bài tập (cần phải cài đặt các thư viện này thông qua Install package(s) của R
Trang 4#Kiem tra du lieu khuyet
>apply(is.na(EG), 2,which)
Output:
Dòng lệnh >apply(is.na(new_DF),2,which) để kiểm tra vị trí các dữ liệu khuyết
Đề xuất phương án xóa dữ liệu khuyết vì nó chiếm quá nhỏ trên dữ liệu đề bài nên bỏ sẽ không ảnh hưởng
3 Làm rõ dữ liệu (Data visualization)
Trang 5Tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn
nhất và giá trị nhỏ nhất Xuất kết quả với dưới dạng bảng bằng hàm: mean(),
median(), sd(), min(), max(), apply(), as.data.frame()
Input:
> #Bien lien tuc
> mean = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, mean, na.rm = T)
> median = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, median, na.rm = T)
> sd = apply(EG[,c(1,2,3,4,5,7,9,10)], 2,sd, na.rm = T)
> max = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, max, na.rm = T)
> min = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, min, na.rm = T)
> Bangthongtin = cbind(mean, median, sd, max, min)
> as.data.frame(Bangthongtin)
Output:
Dùng hàm boxplot() vẽ phân phối của biến X1 cho từng nhóm phân loại
Trang 6Thống kê mô tả
Thống kê các biến rời rạc:
Đầu tiên tạo khung dữ liệu data.frame sau đó tạo bảng thống kê cho các biến bằng
Trang 8(theo thứ tự X1, X2, X3, X4, X5, X6, X7, X8)
Trang 9Vẽ đồ thị phân phối của mức độ thu và tỏa nhiệt bằng “ hist ” Input:
> #hist Y1 Y2
> hist(EG$Y1,col = "blue", main = "Phan bo cua Y1")
> hist(EG$Y2,col = "yellow", main = "Phan bo cua Y2")
Trang 10Thay đổi kiểu dữ liệu: chuyển đổi cột dữ liệu sang định dạng số của các biếnInput:
>pairs(Y1 ~ X1, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X1")
>pairs(Y1 ~ X2, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X2")
>pairs(Y1 ~ X3, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X3")
>pairs(Y1 ~ X4, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X4")
>pairs(Y1 ~ X5, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X5")
>pairs(Y1 ~ X6, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X6")
>pairs(Y1 ~ X7, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X7")
>pairs(Y1 ~ X8, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X8")
Trang 11Output:
Trang 14Phân phối mức độ tỏa nhiệt: y2
Trang 15#pairs Y2
>pairs(Y2 ~ X1, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X1")
>pairs(Y2 ~ X2, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X2")
>pairs(Y2 ~ X3, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X3")
>pairs(Y2 ~ X4, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X4")
>pairs(Y2 ~ X5, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X5")
>pairs(Y2 ~ X6, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X6")
>pairs(Y2 ~ X7, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X7")
>pairs(Y2 ~ X8, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X8")
Output:
Trang 19Mối quan hệ từng đôi một (hệ số tương quan R)
Input:
> corX1=cbind(cor(EG$X1,EG$X1),cor(EG$X1,EG$X2),cor(EG$X1,EG$X3),+ cor(EG$X1,EG$X4),cor(EG$X1,EG$X5),
Trang 214 Mô hình hồi quy tuyến tính
Xây dựng mô hình hồi quy tuyến tính bao gồm biến X4 là một biến phụ thuộc, và tất cả các biến còn lại là biến độc lập
#Hồi quy X4
> MX4 = lm(X4~X1+X2+X3+X5+X6+X7+X8)
> summary(MX4)
Trang 22Theo mô hình hồi quy tuyến tính “MX4”, mức tin cậy lớn hơn 5% thì sẽ không có dấu sao nên X5, X63, X64, X65, X7 không mang ý nghĩa thống kê=> loại khỏi môhình Các biến còn lại đều có ý nghĩa thống kê.
#Tong ket C.E Y1
Trang 24Theo mô hình hồi quy tuyến tính “M1”, mức tin cậy lớn hơn 5% thì sẽ không có dấu sao nên X6 không mang ý nghĩa thống kê=> loại khỏi mô hình Các biến còn lại đều có ý nghĩa thống kê
Trang 25Đồ thị biểu hiện sai số hồi quy và giá trị dự báo bằng lệnh plot()
> #plot fitted
> plot(fitted(m2), resid(m2), xlab = "fitted values", ylab = "residuals", main = "Plot
of residuals and fitted values of Y1")
> plot(fitted(m22), resid(m22), xlab = "fitted values", ylab = "residuals", main =
"Plot of residuals and fitted values of Y2")
Trang 26sosanh2=cbind(pred_Y2,origin_Y2)as.data.frame(sosanh2)
Trang 27Hoạt động 2