Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu.. Nó được sử dụng để hiểu hệ thống đo lường biến động, kiểm soát quá trình như trong kiểm soát quá t
Trang 1ĐẠI HỌC QUỐC GIA ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH KHOA KỸ THUẬT CƠ KHÍ
BÀI TẬP LỚN XÁC SUẤT - THỐNG KÊ
NHÓM 11 - CHỦ ĐỀ 05
Giảng viên hướng dẫn: HOÀNG VĂN HÀ
Danh sách nhóm:
ST
T
Họ và tên MSSV Lớp Ngành học Ký tên 1
2
3
4
5 Chử Đức Hà 201249
7 L11 Kỹ thuật Cơ khí
Thành phố Hồ Chí Minh – 2021
Trang 2Lời cảm ơn Thống kê là một phần toán học của khoa học, gắn liền với tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về một vấn đề nào đó, và trình bày dữ liệu, hay là một nhánh của toán học Còn xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện (biến cố)
Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích
dữ liệu Thống kê đóng vai trò là một công cụ quan trọng Nó được sử dụng để hiểu hệ thống đo lường biến động, kiểm soát quá trình (như trong kiểm soát quá trình thống kê hoặc thông qua hệ thống), cho dữ liệu tóm tắt, và đưa ra quyết định dựa trên dữ liệu
Và đó cũng là lý do việc thực hiện Bài tập lớn mà thầy cô đã mang đến nhằm giúp sinh có thể hiểu hơn và ứng dụng kiến thức đã học để phân tích các dữ liệu trong cuộc sống
Trong suốt quá trình học tập và thực hiện vừa qua, chúng em đã nhận được sự quan tâm, dạy dỗ rất tận tình từ quý thầy cô bộ môn khoa Khoa học ứng dụng Đặc biệt, chúng em xin bày tỏ lòng biết ơn sâu sắc đến cô - người thầy hướng dẫn: Thầy Hoàng Văn Hà - Khoa khoa học ứng dụng đã trang bị cho chúng em những kiến thức bổ ích cũng như những kỹ năng cơ bản để có thể hoàn thành đề tài Bài tập lớn này
Trong quá trình tiến hànhthực hiện đề tài, có thể do kiến thức chuyên ngành còn nhiều hạn chế nên sẽ khó tránh khỏi việc mắc phải những sai sót khi tìm hiểu, trình bày và đánh giá kết quả Chúng em rất mong nhận được sự quan tâm, đánh giá và góp ý của thầy cô bộ môn để đề tài của chúng em đầy đủ và hoàn thiện hơn
Xin chân thành cảm ơn!
Trang 3MỤC LỤC
Lời cảm ơn
Danh sách bảng
Danh sách hình vẽ
A LÝ THUYẾT ……… 4
1 Hồi quy tuyến tính bội ……… 4
1.1 Hàm hồi quy tổng thế ……… 4
1.2 Hàm hồi quy mẫu ……… 4
1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội ……… 4
1.4 Độ phù hợp của mô hình ……… 4
2 Lý thuyết hồi quy tuyến tính bội ……… 4
2.1 Tổng quan về phân tích hồi quy ……… 4
2.2 Hồi quy tuyến tính bộ……… 5
2.3 Hồi quy phi tuyến ……… 7
2.4 Phân tích tương quan ……… 7
2.5 Hệ số tương quan ( Correlation coefficient) ……… 7
2.6 Hệ số tương quan riêng phần ( partial correlation coefficient) ……… 8
2.7 Sai số hồi quy ( Regression Residual) ……… 8
2.8 Mục đích sử dụng hồi quy tuyến tính bội ……… 8
2.9 Kiểm định giả thuyết ……… 9
3 Các lệnh dùng trong Rstudio ………10
B BÀI TẬP ( Phần chung ) ……… 11
Phần 1: Nhập và làm sạch dữ liệu, thực hiện thống kê mô tả ……… 11
Phần 2: Phân tích phương sai 1 nhân tố (one way anova) ……….19
Phần 3: Phân tích phương sai 2 nhân tố (two way anova) ……… 28
C BÀI TẬP ( Phần riêng ) ……… 31
Dữ liệu ……… 31
1 Nhập dữ liệu vào Rstudio ……… 31
2 Làm sạch dữ liệu ……… 32
3 Làm rõ dữ liệu ……… 32
Trang 44 Xây dựng các mô hình hồi quy tuyến tính ……… 38
5 Dự báo……… 42
D Tài liệu tham khảo……… 43
A LÝ THUYẾT
1 Hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y
Trong đó:
+ Y: Biến phụ thuộc
+ : Biến độc lập
+ : Hệ số tự do (hệ số chặn)
+ : Hệ số hồi quy riêng
Như vậy, “Hồi quy tuyến tính” là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị biến độc lập (X)
PHẦN RIÊNG : KHOA CƠ KHÍ
Dữ liệu:
Combined cycle power plant
Dữ liệu chính để xử lý là Sheet 1 – file Folds5x2_pp khi tải về
Tệp dữ liệu bao gồm 9568 điểm dữ liêu được thu thập từ một nhà máy điện chu trình hỗn hợp
(CCPP) thông qua 6 năm (2006 - 2011), khi nhà máy hoạt động hết công suất Các biến quan sát gồm:
Average ambient variables Temperature - Nhiệt độ môi trường trung bình (AT) Ambient Pressure - Áp suất môi trường xung quanh (AP)
Relative Humidity - Độ ẩm tương đối (HR)
Exhaust Vacuum - Độ chân không (V)
Net hourly electrical Energy output - Lượng điện năng sinh ra mỗi giờ (PE)
Trang 5Nguyên lý hoạt động của CCPP:
Có 2 thành phần chính:
Gas Turbines - (GT)
Chịu ảnh hưởng bởi 3 yếu tố môi trường (AT, AP, HR)
Steam Turbines - (ST)
Chịu ảnh hưởng bới yếu tố Độ chân không (V)
Mục tiêu của dữ liệu là sử dụng 4 yếu tố (AT, AP, HR, V) để dự đoán PE
Dữ liệu giữa các sheet là được xáo trộn tuy nhiên không thay đổi Nên chỉ sử dụng dữ liệu từ sheet 1 để phân tích
1 Nhập dữ liệu vào Rstudio (import data)
Dùng lệnh: read.csv () gán dữ liệu vào biến “BK”
Input:
Output:
Một tab mới tên BK chứa dữ liệu ta muốn xử lý.Làm rõ dữ liệu (BK)
2 Làm sạch dữ liêu:
Câu lệnh:
Output
Kết quả hiện integer(0) tức không có giá trị bị khuyết
Gán dữ liệu “BK” vào biến “read_BK”
Input:
Trang 6
3 Làm rõ dữ liệu:
3.1 Lập bảng giá trị thống kê:
Sử dụng các hàm: mean(), median(), sd(), min(), max()
Để tính các giá trị: Trung bình, Trung vị, Độ lệch chuẩn, Min , Max của các biến
Sau đó đưa các giá trị này vào một bảng thông qua vecto ma trận
Input:
mean<-c(mean(BK$AT),mean(BK$V),mean(BK$AP),mean(BK$RH),mean(BK$PE))
#trung_binh
median<-c(median(BK$AT),median(BK$V),median(BK$AP),median(BK$RH),median(B K$PE)) #trung_vi
sd<-c(sd(BK$AT),sd(BK$V), sd(BK$AP),sd(BK$RH), sd(BK$PE))
#do_lenh_chuan
min<-c(min(BK$AT),min(BK$V), min(BK$AP),min(BK$RH), min(BK$PE))
#gtnn
max<-c(max(BK$AT),max(BK$V), max(BK$AP),max(BK$RH), max(BK$PE))
#gtln
thongke<-data.frame(mean,median,sd,min,max)
field<-c("AT","V","AP","RH","PE")
thongke<-data.frame(field,thongke)
# Trong đó (thong_ke) là tên của ma trận tạo ra
# (Gia_tri) đóng vai trò tương tự một cột trong ma trận
Output:
Trang 7Một tab mới có tên là thongke chứa các giá trị vừa tính:
• Câu lệnh (cách 2)
AT=summary(BK$AT)
V=summary(BK$V)
AP=summary(BK$AP)
RH=summary(BK$RH)
PE=summary(BK$PE)
summarystats=cbind(AT,V,AP,RH,PE)
as.data.frame(summarystats)
• Kết quả (cách 2)
3.2 Kiểm tra sự phân bố của giá trị PE bằng biểu đồ tần số "Histogram"
Sử dụng hàm: hist() để vẽ biểu đồ cột thể hiện tần suất xuất hiện các giá trị của
Trang 8Input:
hist(read_BK$PE, xlab = "PE" , ylab = "Tần số",
main = "Tần số xuất hiện của giá trị PE")
Output: Biểu đồ cột thể hiện tần suất xuất hiện các giá trị PE:
Nhận xét:
- Biểu đồ cột Năng lượng điện ròng theo giờ (PE) dường như phân bố không đều, có xu hướng
giảm tần số khi tăng PE
- Tần số cao nhất là 1200 tại PE xấp xỉ 440
- Tần số thấp nhất là 0 tại PE xấp xỉ 500
3.3 Kiểm tra sự phân bố của giá trị PE bằng đồ thị nến "Boxplot"
Sử dụng hàm: boxplot() để vẽ biểu đồ nến thể hiện tần suất của giá trị PE Input:
boxplot(read_BK$PE, horizontal= TRUE, xlab = "Giá trị PE", ylab = "PE", main = "Biểu đồ phân phân phối PE")
Output:
Biểu đồ nến thể hiện dải phân bố tập trung của giá trị PE từ 440 – 470
Trang 93.4 Vẽ đồ thị mối liên hệ giữa các biến khảo sát:
Sử dụng hàm: ggpairs() trong thư viện “GGally” Input:
Library(GGally)
ggpairs(read_BK)
Output:
Trang 10Biểu đồ mối liên hệ giữa các biến khảo sát:
Trong đó:
+ Corr: “Corrolation” là hệ số chỉ sự tương quan giữa 1 cặp số liệu
+ Đường chéo là đồ thị thể hiện sự tần số giá trị của từng biến
+ |Corr| càng gần “1” thì sự ràng buộc nhau giữa cặp giá trị càng lớn
Nhận xét:
+ PE: có ràng buộc mạnh với các biến:
AT (Corr PE ~ AT = -0,948)
V (Corr PE ~ V = -0,87)
+ AT: có ràng buộc mạnh với V (Corr AT ~ V = 0,844)
=> Thành phần GT (Gas Turbines) có hiệu suất làm việc phụ thuộc mạnh vào AT (Average Temperature)
Trang 11=> Thành phần ST (Steam Turbines) có hiệu suất làm việc phụ thuộc mạnh vào
V (Exhaust Vacuum)
=> Giá trị V (Exhaust Vacuum) có gây ảnh hưởng lên hiệu suất của GT (Gas Turbines) thông qua ràng buộc với AT (Average Temperature)
+ Mối liên hệ này cũng được thể hiện thông qua đồ thị tần số của 3 biến AT, PE,
V 3 biến này có đồ thị tần số có hình dạng tương đối giống nhau, đều có xu hướng phân ly về 2 cực
3.5 Vẽ đồ thị chi tiết các biến có ràng buộc mạnh với nhau:
Sử dụng hàm ggplot để vẽ đồ thị:
Input:
ggplot(data = read_BK, aes(x = AT , y = PE)) +
ggtitle("Mối liên hệ giữa PE và AT") +
labs(x = "Nhiệt độ môi trường trung bình AT ", y = "Năng lượng đầu ra PE") + geom_point(color = "#2c8f47") + geom_smooth(formula = y ~ x , colour =
"#f77225")
Trang 12Input:
ggplot(data = read_BK, aes(x = AT , y = V)) +
ggtitle("Mối liên hệ giữa AT và V") +
abs(x = "Nhiệt độ môi trường trung bình AT ", y = "Độ chân không V") + geom_point(color = "#186bd9") +
Trang 13geom_smooth(formula = y ~ x , colour = "#f77225") Output:
Input:
Trang 14ggplot(data = read_BK, aes(x = PE , y = V)) +
ggtitle("Mối liên hệ giữa PE và V") +
labs(x = "Năng lượng đầu ra PE ", y = "Độ chân không V") + geom_point(color = "#0b7d99") +
geom_smooth(formula = y ~ x , colour = "#f77225")
Output:
4 Xây dựng các mô hình hồi quy tuyến tính
4.1 Tạo mô hình hồi quy tuyến tính
• Câu lệnh:
M1 = lm(PE~AT + V + AP + RH , data = New_DF)
summary(M1)
Trang 15• Kết quả:
4.2 Dựa vào kết quả mô hình hồi quy tuyến tính trên, những biến nào sẽ bị bạn loại khỏi mô hìnhvới mức tin cậy 5%
Giả thuyết:
H0 : Các hệ số hồi quy đều không có ý nghĩa thống kê
H1 Các hệ số hồi quy đều có ý nghĩa thống kê
Dựa vào kết quả từ mô hình tuyến tính, ta thấy các giá trị Pr(>|t|) của các biến
AT, V, AP, RH lần lượt là < 2e-16, < 2e-16, < 2e-16, = 5.51e-11, < 2e-16 Ta thấy tất cả đều rất nhỏ(Pr(>|t|)<0.05) => Bác bỏ giả thuyết H0 ,các hệ số hồi quy ứng với các biến đều có ý nghĩa thống kê Vì vậy không có biến nào bị loại khỏi
mô hình
4.3 Xét 2 mô hình tuyến tính gồm PE biến phụ thuộc nhưng:
Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
Mô hình M2 là loại bỏ biến RH từ M1
Trang 16• Tạo mô hình
• Dùng lệnh anova() cho 2 mô hình
• Kết quả:
Lệnh anova() sẽ giúp đề xuất mô hình hồi quy hợp lý hơn
Giả thuyết:
H0: Mô hình M1 và M2 hiệu quả như nhau
H1: Mô hình M1 và M2 có hiệu quả khác nhau
Nhận thấy giá trị Pr(>F) < 2.2e-16 < 0.05 nên bác bỏ giả thuyết H0, chấp nhận H1
Nhận xét: Từ bảng summary(M1), ta biết được các hệ số hồi quy ứng với các biến của mô hình M1 đều có ý nghĩa thống kê, tức là các biến đều ảnh hưởng đến giá trị PE
Như kết luận ở trên thì mô hình M1 cho biết nhiều yếu tố tác động lên PE Vì vậy mô hình M2 loại bỏ biến RH nên sẽ gây ra sai số lên PE
Kết luận: Mô hình M1 hợp lý hơn
4.4 Từ mô hình hồi quy hợp lý nhất từ câu (3) hãy suy luận sự tác động của các biến đến Sảnlượng năng lượng điện ròng theo giờ (PE)
Trang 17Dùng lệnh calc.relimp(M1, type = c(“lmg”)) (trước khi sử dụng phải tải và thêm package relaimpo
calc.relimp(M1, type = c("lmg") )
• Kết quả:
Theo kết quả, ta thấy được mô hình M1 mô tả được 92.87% tác động của các biến đến PE
Trong đó, AT chiếm 45.46% và chiếm 32.43% và V AP chiếm 9.22%
4.5 Từ mô hình hồi quy hợp lý nhất từ câu (3) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồiquy và giá trị dự báo Nêu ý nghĩa và nhận xét
Câu lệnh:Click vào dòng lệnh trên màn hình console và nhấn Enter, màn hình xuất hiện đồ thị biểu thị mối liên hệ giữa Sai số hồi quy (Residuals) và Giá trị
dự báo (Fitted value)
Ý nghĩa:
- Sự tương quan giữa Residuals và Fitted values được biểu thị dường như là một đường cong parabol
Trang 18- Đường hồi quy ko quá chênh lệch so với đường Residuals = 0.
Nhận xét
- Các giá trị Residuals dương khi Fitted Values nhỏ và lớn ở hai đầu
- Các giá trị Residuals âm khi Fitted Values ở giữa
- Nên các vùng sai số xấp xỉ là hằng số, nhưng các giá trị dự đoán thì không Đường hồi quy không thể hiện được sự biến thiên của Residuals khi Fitted Values thay đổi khi mà sự tương quan của chúng là đường cong parabol
- Fitted values tại điểm xấp xỉ 440 và 165 thì giá trị Residuals xấp xỉ 0
5 Dự báo
Từ mô hình đã chọn trong câu 4, hãy dùng lệnh predict () để dự báo sản lượng năng lượng điện ròng theo giờ (PE):
x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean (RH) x2: AT = max (AT), V = max (V), AP = max (AP), RH = max (RH)
• Câu lệnh:
- Dự báo Sản lượng năng lượng điện ròng theo giờ (PE) tại thuộc tính x1 là: 454.3650, khoảng ước lượng (454.2737; 454.4564)
- Dự báo Sản lượng năng lượng điện ròng theo giờ (PE) tại thuộc tính x2 là: 410.4651, khoảng ước lượng (409.7346; 411.1957)
- Độ dài khoảng dự báo x1< x2 (0,1827 < 1,4611) nên thuộc tính x1 đáng tin cậy hơn
Trang 19D TÀI LIỆU THAM KHẢO
1 Nguồn dữ liệu: Từ kho dữ liệu được cung cấp bởi giáo viên hướng dẫn
2 Sách tham khảo: Nguyễn Đình Huy (chủ biên), giáo trình Xác suất thống kê