bài tập lớn xác suất thống kê nhóm 11 chủ Đề 0

Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu.. Nó được sử dụng để hiểu hệ thống đo lường biến động, kiểm soát quá trình như trong kiểm soát quá t

Trang 1

ĐẠI HỌC QUỐC GIA ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH KHOA KỸ THUẬT CƠ KHÍ

BÀI TẬP LỚN XÁC SUẤT - THỐNG KÊ

NHÓM 11 - CHỦ ĐỀ 05

Giảng viên hướng dẫn: HOÀNG VĂN HÀ

Danh sách nhóm:

ST

T

Họ và tên MSSV Lớp Ngành học Ký tên 1

2

3

4

5 Chử Đức Hà 201249

7 L11 Kỹ thuật Cơ khí

Thành phố Hồ Chí Minh – 2021

Trang 2

Lời cảm ơn Thống kê là một phần toán học của khoa học, gắn liền với tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về một vấn đề nào đó, và trình bày dữ liệu, hay là một nhánh của toán học Còn xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện (biến cố)

Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích

dữ liệu Thống kê đóng vai trò là một công cụ quan trọng Nó được sử dụng để hiểu hệ thống đo lường biến động, kiểm soát quá trình (như trong kiểm soát quá trình thống kê hoặc thông qua hệ thống), cho dữ liệu tóm tắt, và đưa ra quyết định dựa trên dữ liệu

Và đó cũng là lý do việc thực hiện Bài tập lớn mà thầy cô đã mang đến nhằm giúp sinh có thể hiểu hơn và ứng dụng kiến thức đã học để phân tích các dữ liệu trong cuộc sống

Trong suốt quá trình học tập và thực hiện vừa qua, chúng em đã nhận được sự quan tâm, dạy dỗ rất tận tình từ quý thầy cô bộ môn khoa Khoa học ứng dụng Đặc biệt, chúng em xin bày tỏ lòng biết ơn sâu sắc đến cô - người thầy hướng dẫn: Thầy Hoàng Văn Hà - Khoa khoa học ứng dụng đã trang bị cho chúng em những kiến thức bổ ích cũng như những kỹ năng cơ bản để có thể hoàn thành đề tài Bài tập lớn này

Trong quá trình tiến hànhthực hiện đề tài, có thể do kiến thức chuyên ngành còn nhiều hạn chế nên sẽ khó tránh khỏi việc mắc phải những sai sót khi tìm hiểu, trình bày và đánh giá kết quả Chúng em rất mong nhận được sự quan tâm, đánh giá và góp ý của thầy cô bộ môn để đề tài của chúng em đầy đủ và hoàn thiện hơn

Xin chân thành cảm ơn!

Trang 3

MỤC LỤC

Lời cảm ơn

Danh sách bảng

Danh sách hình vẽ

A LÝ THUYẾT ……… 4

1 Hồi quy tuyến tính bội ……… 4

1.1 Hàm hồi quy tổng thế ……… 4

1.2 Hàm hồi quy mẫu ……… 4

1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội ……… 4

1.4 Độ phù hợp của mô hình ……… 4

2 Lý thuyết hồi quy tuyến tính bội ……… 4

2.1 Tổng quan về phân tích hồi quy ……… 4

2.2 Hồi quy tuyến tính bộ……… 5

2.3 Hồi quy phi tuyến ……… 7

2.4 Phân tích tương quan ……… 7

2.5 Hệ số tương quan ( Correlation coefﬁcient) ……… 7

2.6 Hệ số tương quan riêng phần ( partial correlation coefﬁcient) ……… 8

2.7 Sai số hồi quy ( Regression Residual) ……… 8

2.8 Mục đích sử dụng hồi quy tuyến tính bội ……… 8

2.9 Kiểm định giả thuyết ……… 9

3 Các lệnh dùng trong Rstudio ………10

B BÀI TẬP ( Phần chung ) ……… 11

Phần 1: Nhập và làm sạch dữ liệu, thực hiện thống kê mô tả ……… 11

Phần 2: Phân tích phương sai 1 nhân tố (one way anova) ……….19

Phần 3: Phân tích phương sai 2 nhân tố (two way anova) ……… 28

C BÀI TẬP ( Phần riêng ) ……… 31

Dữ liệu ……… 31

1 Nhập dữ liệu vào Rstudio ……… 31

2 Làm sạch dữ liệu ……… 32

3 Làm rõ dữ liệu ……… 32

Trang 4

4 Xây dựng các mô hình hồi quy tuyến tính ……… 38

5 Dự báo……… 42

D Tài liệu tham khảo……… 43

A LÝ THUYẾT

1 Hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y

Trong đó:

+ Y: Biến phụ thuộc

+ : Biến độc lập

+ : Hệ số tự do (hệ số chặn)

+ : Hệ số hồi quy riêng

Như vậy, “Hồi quy tuyến tính” là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị biến độc lập (X)

PHẦN RIÊNG : KHOA CƠ KHÍ

Dữ liệu:

Combined cycle power plant

Dữ liệu chính để xử lý là Sheet 1 – ﬁle Folds5x2_pp khi tải về

Tệp dữ liệu bao gồm 9568 điểm dữ liêu được thu thập từ một nhà máy điện chu trình hỗn hợp

(CCPP) thông qua 6 năm (2006 - 2011), khi nhà máy hoạt động hết công suất Các biến quan sát gồm:

Average ambient variables Temperature - Nhiệt độ môi trường trung bình (AT) Ambient Pressure - Áp suất môi trường xung quanh (AP)

Relative Humidity - Độ ẩm tương đối (HR)

Exhaust Vacuum - Độ chân không (V)

Net hourly electrical Energy output - Lượng điện năng sinh ra mỗi giờ (PE)

Trang 5

Nguyên lý hoạt động của CCPP:

Có 2 thành phần chính:

Gas Turbines - (GT)

Chịu ảnh hưởng bởi 3 yếu tố môi trường (AT, AP, HR)

Steam Turbines - (ST)

Chịu ảnh hưởng bới yếu tố Độ chân không (V)

Mục tiêu của dữ liệu là sử dụng 4 yếu tố (AT, AP, HR, V) để dự đoán PE

Dữ liệu giữa các sheet là được xáo trộn tuy nhiên không thay đổi Nên chỉ sử dụng dữ liệu từ sheet 1 để phân tích

1 Nhập dữ liệu vào Rstudio (import data)

Dùng lệnh: read.csv () gán dữ liệu vào biến “BK”

Input:

Output:

Một tab mới tên BK chứa dữ liệu ta muốn xử lý.Làm rõ dữ liệu (BK)

2 Làm sạch dữ liêu:

Câu lệnh:

Output

Kết quả hiện integer(0) tức không có giá trị bị khuyết

Gán dữ liệu “BK” vào biến “read_BK”

Input:

Trang 6

3 Làm rõ dữ liệu:

3.1 Lập bảng giá trị thống kê:

Sử dụng các hàm: mean(), median(), sd(), min(), max()

Để tính các giá trị: Trung bình, Trung vị, Độ lệch chuẩn, Min , Max của các biến

Sau đó đưa các giá trị này vào một bảng thông qua vecto ma trận

Input:

mean<-c(mean(BK$AT),mean(BK$V),mean(BK$AP),mean(BK$RH),mean(BK$PE))

#trung_binh

median<-c(median(BK$AT),median(BK$V),median(BK$AP),median(BK$RH),median(B K$PE)) #trung_vi

sd<-c(sd(BK$AT),sd(BK$V), sd(BK$AP),sd(BK$RH), sd(BK$PE))

#do_lenh_chuan

min<-c(min(BK$AT),min(BK$V), min(BK$AP),min(BK$RH), min(BK$PE))

#gtnn

max<-c(max(BK$AT),max(BK$V), max(BK$AP),max(BK$RH), max(BK$PE))

#gtln

thongke<-data.frame(mean,median,sd,min,max)

ﬁeld<-c("AT","V","AP","RH","PE")

thongke<-data.frame(ﬁeld,thongke)

# Trong đó (thong_ke) là tên của ma trận tạo ra

# (Gia_tri) đóng vai trò tương tự một cột trong ma trận

Output:

Trang 7

Một tab mới có tên là thongke chứa các giá trị vừa tính:

• Câu lệnh (cách 2)

AT=summary(BK$AT)

V=summary(BK$V)

AP=summary(BK$AP)

RH=summary(BK$RH)

PE=summary(BK$PE)

summarystats=cbind(AT,V,AP,RH,PE)

as.data.frame(summarystats)

• Kết quả (cách 2)

3.2 Kiểm tra sự phân bố của giá trị PE bằng biểu đồ tần số "Histogram"

Sử dụng hàm: hist() để vẽ biểu đồ cột thể hiện tần suất xuất hiện các giá trị của

Trang 8

Input:

hist(read_BK$PE, xlab = "PE" , ylab = "Tần số",

main = "Tần số xuất hiện của giá trị PE")

Output: Biểu đồ cột thể hiện tần suất xuất hiện các giá trị PE:

Nhận xét:

- Biểu đồ cột Năng lượng điện ròng theo giờ (PE) dường như phân bố không đều, có xu hướng

giảm tần số khi tăng PE

- Tần số cao nhất là 1200 tại PE xấp xỉ 440

- Tần số thấp nhất là 0 tại PE xấp xỉ 500

3.3 Kiểm tra sự phân bố của giá trị PE bằng đồ thị nến "Boxplot"

Sử dụng hàm: boxplot() để vẽ biểu đồ nến thể hiện tần suất của giá trị PE Input:

boxplot(read_BK$PE, horizontal= TRUE, xlab = "Giá trị PE", ylab = "PE", main = "Biểu đồ phân phân phối PE")

Output:

Biểu đồ nến thể hiện dải phân bố tập trung của giá trị PE từ 440 – 470

Trang 9

3.4 Vẽ đồ thị mối liên hệ giữa các biến khảo sát:

Sử dụng hàm: ggpairs() trong thư viện “GGally” Input:

Library(GGally)

ggpairs(read_BK)

Output:

Trang 10

Biểu đồ mối liên hệ giữa các biến khảo sát:

Trong đó:

+ Corr: “Corrolation” là hệ số chỉ sự tương quan giữa 1 cặp số liệu

+ Đường chéo là đồ thị thể hiện sự tần số giá trị của từng biến

+ |Corr| càng gần “1” thì sự ràng buộc nhau giữa cặp giá trị càng lớn

Nhận xét:

+ PE: có ràng buộc mạnh với các biến:

AT (Corr PE ~ AT = -0,948)

V (Corr PE ~ V = -0,87)

+ AT: có ràng buộc mạnh với V (Corr AT ~ V = 0,844)

=> Thành phần GT (Gas Turbines) có hiệu suất làm việc phụ thuộc mạnh vào AT (Average Temperature)

Trang 11

=> Thành phần ST (Steam Turbines) có hiệu suất làm việc phụ thuộc mạnh vào

V (Exhaust Vacuum)

=> Giá trị V (Exhaust Vacuum) có gây ảnh hưởng lên hiệu suất của GT (Gas Turbines) thông qua ràng buộc với AT (Average Temperature)

+ Mối liên hệ này cũng được thể hiện thông qua đồ thị tần số của 3 biến AT, PE,

V 3 biến này có đồ thị tần số có hình dạng tương đối giống nhau, đều có xu hướng phân ly về 2 cực

3.5 Vẽ đồ thị chi tiết các biến có ràng buộc mạnh với nhau:

Sử dụng hàm ggplot để vẽ đồ thị:

Input:

ggplot(data = read_BK, aes(x = AT , y = PE)) +

ggtitle("Mối liên hệ giữa PE và AT") +

labs(x = "Nhiệt độ môi trường trung bình AT ", y = "Năng lượng đầu ra PE") + geom_point(color = "#2c8f47") + geom_smooth(formula = y ~ x , colour =

"#f77225")

Trang 12

Input:

ggplot(data = read_BK, aes(x = AT , y = V)) +

ggtitle("Mối liên hệ giữa AT và V") +

abs(x = "Nhiệt độ môi trường trung bình AT ", y = "Độ chân không V") + geom_point(color = "#186bd9") +

Trang 13

geom_smooth(formula = y ~ x , colour = "#f77225") Output:

Input:

Trang 14

ggplot(data = read_BK, aes(x = PE , y = V)) +

ggtitle("Mối liên hệ giữa PE và V") +

labs(x = "Năng lượng đầu ra PE ", y = "Độ chân không V") + geom_point(color = "#0b7d99") +

geom_smooth(formula = y ~ x , colour = "#f77225")

Output:

4 Xây dựng các mô hình hồi quy tuyến tính

4.1 Tạo mô hình hồi quy tuyến tính

• Câu lệnh:

M1 = lm(PE~AT + V + AP + RH , data = New_DF)

summary(M1)

Trang 15

• Kết quả:

4.2 Dựa vào kết quả mô hình hồi quy tuyến tính trên, những biến nào sẽ bị bạn loại khỏi mô hìnhvới mức tin cậy 5%

Giả thuyết:

H0 : Các hệ số hồi quy đều không có ý nghĩa thống kê

H1 Các hệ số hồi quy đều có ý nghĩa thống kê

Dựa vào kết quả từ mô hình tuyến tính, ta thấy các giá trị Pr(>|t|) của các biến

AT, V, AP, RH lần lượt là < 2e-16, < 2e-16, < 2e-16, = 5.51e-11, < 2e-16 Ta thấy tất cả đều rất nhỏ(Pr(>|t|)<0.05) => Bác bỏ giả thuyết H0 ,các hệ số hồi quy ứng với các biến đều có ý nghĩa thống kê Vì vậy không có biến nào bị loại khỏi

mô hình

4.3 Xét 2 mô hình tuyến tính gồm PE biến phụ thuộc nhưng:

Mô hình M1 chứa tất cả các biến còn lại là biến độc lập

Mô hình M2 là loại bỏ biến RH từ M1

Trang 16

• Tạo mô hình

• Dùng lệnh anova() cho 2 mô hình

• Kết quả:

Lệnh anova() sẽ giúp đề xuất mô hình hồi quy hợp lý hơn

Giả thuyết:

H0: Mô hình M1 và M2 hiệu quả như nhau

H1: Mô hình M1 và M2 có hiệu quả khác nhau

Nhận thấy giá trị Pr(>F) < 2.2e-16 < 0.05 nên bác bỏ giả thuyết H0, chấp nhận H1

Nhận xét: Từ bảng summary(M1), ta biết được các hệ số hồi quy ứng với các biến của mô hình M1 đều có ý nghĩa thống kê, tức là các biến đều ảnh hưởng đến giá trị PE

Như kết luận ở trên thì mô hình M1 cho biết nhiều yếu tố tác động lên PE Vì vậy mô hình M2 loại bỏ biến RH nên sẽ gây ra sai số lên PE

Kết luận: Mô hình M1 hợp lý hơn

4.4 Từ mô hình hồi quy hợp lý nhất từ câu (3) hãy suy luận sự tác động của các biến đến Sảnlượng năng lượng điện ròng theo giờ (PE)

Trang 17

Dùng lệnh calc.relimp(M1, type = c(“lmg”)) (trước khi sử dụng phải tải và thêm package relaimpo

calc.relimp(M1, type = c("lmg") )

• Kết quả:

Theo kết quả, ta thấy được mô hình M1 mô tả được 92.87% tác động của các biến đến PE

Trong đó, AT chiếm 45.46% và chiếm 32.43% và V AP chiếm 9.22%

4.5 Từ mô hình hồi quy hợp lý nhất từ câu (3) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồiquy và giá trị dự báo Nêu ý nghĩa và nhận xét

Câu lệnh:Click vào dòng lệnh trên màn hình console và nhấn Enter, màn hình xuất hiện đồ thị biểu thị mối liên hệ giữa Sai số hồi quy (Residuals) và Giá trị

dự báo (Fitted value)

Ý nghĩa:

- Sự tương quan giữa Residuals và Fitted values được biểu thị dường như là một đường cong parabol

Trang 18

- Đường hồi quy ko quá chênh lệch so với đường Residuals = 0.

Nhận xét

- Các giá trị Residuals dương khi Fitted Values nhỏ và lớn ở hai đầu

- Các giá trị Residuals âm khi Fitted Values ở giữa

- Nên các vùng sai số xấp xỉ là hằng số, nhưng các giá trị dự đoán thì không Đường hồi quy không thể hiện được sự biến thiên của Residuals khi Fitted Values thay đổi khi mà sự tương quan của chúng là đường cong parabol

- Fitted values tại điểm xấp xỉ 440 và 165 thì giá trị Residuals xấp xỉ 0

5 Dự báo

Từ mô hình đã chọn trong câu 4, hãy dùng lệnh predict () để dự báo sản lượng năng lượng điện ròng theo giờ (PE):

x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean (RH) x2: AT = max (AT), V = max (V), AP = max (AP), RH = max (RH)

• Câu lệnh:

- Dự báo Sản lượng năng lượng điện ròng theo giờ (PE) tại thuộc tính x1 là: 454.3650, khoảng ước lượng (454.2737; 454.4564)

- Dự báo Sản lượng năng lượng điện ròng theo giờ (PE) tại thuộc tính x2 là: 410.4651, khoảng ước lượng (409.7346; 411.1957)

- Độ dài khoảng dự báo x1< x2 (0,1827 < 1,4611) nên thuộc tính x1 đáng tin cậy hơn

Trang 19

D TÀI LIỆU THAM KHẢO

1 Nguồn dữ liệu: Từ kho dữ liệu được cung cấp bởi giáo viên hướng dẫn

2 Sách tham khảo: Nguyễn Đình Huy (chủ biên), giáo trình Xác suất thống kê

Tiêu đề	Bài Tập Lớn Xác Suất - Thống Kê
Tác giả	Chử Đức Hà
Người hướng dẫn	Thầy Hoàng Văn Hà
Trường học	Đại Học Bách Khoa TP Hồ Chí Minh
Chuyên ngành	Kỹ thuật Cơ khí
Thể loại	Bài tập lớn
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	19
Dung lượng	2,77 MB