Báo cáo bài tập lớn xác suất thống kê

Làm rõ dữ liệu Data visualization a Chuyển đổi biến nếu cần thiết b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.. Mô hình hồi quy tuyến tính : Sử dụng một mô hình hồi quy tuyến tính

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN: XÁC SUẤT THỐNG KÊ

Giáo viên hướng dẫn: Nguyễn Đình Huy

Sinh viên: Lưu Hồng Phúc Hưng

MSSV:2013385 Lớp: L06 Khoa Kỹ thuật xây dựng

Hồồ Chí Minh, ngày 12 tháng 11 năm 2021.

Trang 2

1 Đọc dữ liệu (Import data): heat_date.csv

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 Mô hình hồi quy tuyến tính : Sử dụng một mô hình hồi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà

5 t.test: Đề suất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt

và tỏa nhiệt của các ngôi nhà

Thực hiện bằng Rstudio

1.Đọc dữ liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin

Khai báo các thư viện (library) được sử dụng trong toàn bộ quá trình thực hiện bài tập (cần phải cài đặt các thư viện này thông qua Install package(s) của R

Trang 4

#Kiem tra du lieu khuyet

>apply(is.na(EG), 2,which)

Output:

Dòng lệnh >apply(is.na(new_DF),2,which) để kiểm tra vị trí các dữ liệu khuyết

Đề xuất phương án xóa dữ liệu khuyết vì nó chiếm quá nhỏ trên dữ liệu đề bài nên bỏ sẽ không ảnh hưởng

3 Làm rõ dữ liệu (Data visualization)

Trang 5

Tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn

nhất và giá trị nhỏ nhất Xuất kết quả với dưới dạng bảng bằng hàm: mean(),

median(), sd(), min(), max(), apply(), as.data.frame()

Input:

> #Bien lien tuc

> mean = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, mean, na.rm = T)

> median = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, median, na.rm = T)

> sd = apply(EG[,c(1,2,3,4,5,7,9,10)], 2,sd, na.rm = T)

> max = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, max, na.rm = T)

> min = apply(EG[,c(1,2,3,4,5,7,9,10)], 2, min, na.rm = T)

> Bangthongtin = cbind(mean, median, sd, max, min)

> as.data.frame(Bangthongtin)

Output:

Dùng hàm boxplot() vẽ phân phối của biến X1 cho từng nhóm phân loại

Trang 6

Thống kê mô tả

Thống kê các biến rời rạc:

Đầu tiên tạo khung dữ liệu data.frame sau đó tạo bảng thống kê cho các biến bằng

Trang 8

(theo thứ tự X1, X2, X3, X4, X5, X6, X7, X8)

Trang 9

Vẽ đồ thị phân phối của mức độ thu và tỏa nhiệt bằng “ hist ” Input:

> #hist Y1 Y2

> hist(EG$Y1,col = "blue", main = "Phan bo cua Y1")

> hist(EG$Y2,col = "yellow", main = "Phan bo cua Y2")

Trang 10

Thay đổi kiểu dữ liệu: chuyển đổi cột dữ liệu sang định dạng số của các biếnInput:

>pairs(Y1 ~ X1, pch = 1,col="blue", main = "Phan phoi cua Y1 voi X1")

Trang 11

Output:

Trang 14

Phân phối mức độ tỏa nhiệt: y2

Trang 15

#pairs Y2

>pairs(Y2 ~ X1, pch = 1,col="yellow", main = "Phan phoi cua Y2 voi X1")

Output:

Trang 19

Mối quan hệ từng đôi một (hệ số tương quan R)

Input:

> corX1=cbind(cor(EG$X1,EG$X1),cor(EG$X1,EG$X2),cor(EG$X1,EG$X3),+ cor(EG$X1,EG$X4),cor(EG$X1,EG$X5),

Trang 21

4 Mô hình hồi quy tuyến tính

Xây dựng mô hình hồi quy tuyến tính bao gồm biến X4 là một biến phụ thuộc, và tất cả các biến còn lại là biến độc lập

#Hồi quy X4

> MX4 = lm(X4~X1+X2+X3+X5+X6+X7+X8)

> summary(MX4)

Trang 22

Theo mô hình hồi quy tuyến tính “MX4”, mức tin cậy lớn hơn 5% thì sẽ không có dấu sao nên X5, X63, X64, X65, X7 không mang ý nghĩa thống kê=> loại khỏi môhình Các biến còn lại đều có ý nghĩa thống kê.

#Tong ket C.E Y1

Trang 24

Theo mô hình hồi quy tuyến tính “M1”, mức tin cậy lớn hơn 5% thì sẽ không có dấu sao nên X6 không mang ý nghĩa thống kê=> loại khỏi mô hình Các biến còn lại đều có ý nghĩa thống kê

Trang 25

Đồ thị biểu hiện sai số hồi quy và giá trị dự báo bằng lệnh plot()

> #plot fitted

> plot(fitted(m2), resid(m2), xlab = "fitted values", ylab = "residuals", main = "Plot

of residuals and fitted values of Y1")

> plot(fitted(m22), resid(m22), xlab = "fitted values", ylab = "residuals", main =

"Plot of residuals and fitted values of Y2")

Trang 26

sosanh2=cbind(pred_Y2,origin_Y2)as.data.frame(sosanh2)

Trang 27

Hoạt động 2

Tiêu đề	Hoạt động 1: Tập tin heat_data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ thu nhiệt và tỏa nhiệt của ngôi nhà
Tác giả	Lưu Hồng Phúc Hưng
Người hướng dẫn	Nguyễn Đình Huy
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa
Chuyên ngành	Kỹ thuật xây dựng
Thể loại	Báo cáo bài tập lớn
Năm xuất bản	2021
Thành phố	Hồ Chí Minh

Định dạng
Số trang	27
Dung lượng	2,47 MB