1 Tổng quan dữ liệu Dữ liệu ta dùng đối với bài tập lớn được dùng để tính sức nén của hỗn hợp có độ tuổi xác định.. fineage kg /ern® Cốt liệu nhỏ là hỗn hợp các hạt cốt liệu kích thước c
Trang 1TRUONG DAI HOC BACH KHOA
Ạ
eo
BAO CAO BAI TẬP LỚN
Khoa Kỹ thuật Xây dựng
XÁC SUẤT THỐNG KÊ
GVHD: PHAN THỊ HƯỜNG LỚP L13 - NHÓM 20
Trang 2PHAN CONG CONG VIEC
2 Hồ Anh Quân 10% Soạn phần kiến thức
Trang 3
3.1 Đọc dữ liệu Q Q Q Q Q Q22 và và 3.2 Loại trừ dữ liệu không cần thết Thống kê tả
41 Tổng hợp dữ liệu c Q Q Q Q Q o
42 Biểu diễn dữ liệu c c Q Q Q v2
Thống kê suy diễn
5
5
Thảo luận và mở rộng
Tài liệu tham khảo
1 Mô hình Hồi quy tuyến tính đabiến 2_ Dự đoán với mẫu thử nghiệm
Trang 41 Tổng quan dữ liệu
Dữ liệu ta dùng đối với bài tập lớn được dùng để tính sức nén của hỗn hợp
có độ tuổi xác định Sau đây là các thông tin cụ thể của dữ liệu
e Giá trị quan trắc: Gồm 1030 giá trị
Trang 5
superplastic kg /ern®
Phu gia siêu dễo hay còn gọi là phụ gia giảm nước tầm cao là phụ gia dùng để chế tạo bê tông cường
độ cao hoặc để đổ bê tông tự lèn, biến liên tục
fineage kg /ern®
Cốt liệu nhỏ là hỗn hợp các hạt cốt liệu kích thước chủ yêu từ 0,14
Mpa Sức nén của hỗn hợp đã trộn với
độ tuổi nhất định, biến liên tục
Bảng 1.1 Các biến của bộ dữ liệu
Trang 62
2.1
2.2
Kiên thức nền
Các khái niệm cơ bản
Trung bình cộng: Trung bình cộng trong thống kê là một đại lượng
mô tả thống kê, được tính ra bằng cách lấy tổng các giá trị cuả toàn
bộ các quan sát trong tập chia cho số lượng quan sát trong tập
Trung vị: Trong xác suất và thống kê, số trung vị một số tách giữa
nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân
bố xác suất
Độ lệch chuẩn: Độ lệch chuẩn, hay độ lệch tiêu chuẩn là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu
đã được lập thành bảng tầng số Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai
Gia trị lớn nhất: Là giá trị lớn nhất trong toàn bộ các giá trị của một tập mẫu
Gia trị nhỏ nhất: Là giá trị nhỏ nhất trpng toàn bộ các giá trị của một tập mẫu
Hồi quy tuyến tính đa biến
Phân tích hồi quy được sử dụng để xác định mối liên hệ giữa: một biến phụ
thuộc Y (biến đấp ứng), và một hay nhiều biến độc lậpXo, X\, Xa, (Các
biến này còn được gọi là biến giải thích) Biến phụ thuộc Y phải là biến liên
tục, các biến độc lập Xo, Xị, Xa, có thể là biến liên tục, hoặc phân loại
Mối liên hệ giữa Xe, Xị, X¿, và Y được biểu diễn bởi một hàm tuyến tính với sự thay đổi trong Y được giả sử do những thay đổi trong Xo, Xi, Xa, gay ra
Tiên cơ sở xác định mối liên hệ giữa biến phụ thuộc Y và các biến giải thích Xo, X\,X2, , ta có thể: dự đoán, dự báo giá trị của Y, giải thích tác động của sự thay đổi trong các biến giải thích lên biến phụ thuộc
Trang 7Mô hình hồi quy tuyến tính đa biến (mô hình phân tích hồi quy tuyến tính đa biến) của 1 biến ngẫu nhiên và nhiều biến giải thích là phương trình
có dạng:
Y= Bo + 3X4 toc + BX; +e
Trong đó:
Bo, Bos Öẹ, là các tham số hồi quy
Xo, X1, X¿, là các biến độc lập giải thích cho Y
c là thành phần sai số và được giả sử có phân phối chuẩn
Điều kiện sử dụng mô hình hồi quy tuyến tính đa biến:
e Tính tuyến tính của dữ liệu mối quan hệ giữa biến giải thích và biến phụ thuộc Y được giả sử là tuyến tính
e Sai số có phân phối chuẩn
e Phương sai của các sai số là hằng số
e Các sai số thì độc lập với nhau
Trang 8i Use ‘spec()” to retrieve the full column specification for this data
Hình 3.1.1 Dộ dữ liệu sau khi được dưa 0uào Rstudio
3.2 Loại trừ dữ liệu không cần thiết
Sau khi ta nhập và đọc dữ liệu, ta tiến hành đếm dữ liệu bị thuyết trong mẫu dữ liệu và loại bỏ chúng Bằng cách dùng lệnh sum(is.na(tên bộ đữ liệu ))
> Su(1s.na(Cconcrete)) [1] 0
Hinh 8.2.1 Kết quả sau khi nhập lệnh tàm dữ liệu khuyết
Ta thấy không có dữ liệu khuyết ta qua bước tiếp theo đó là tìm dữ liệu bị
trùng Dùng lệnh sum(duplicated(tên bộ đữ liệu))
Trang 9> sum(dup] jicated(concrete))
[1] 25,
Hinh 8.2.2 Kết quả sau khi nhập lệnh tàm dữ bị trùng
Bộ dữ liệu đang có 25 mẫu giá trị trắc quan bị trùng với nhau
Ta tiến hành loại trừ các mẫu này để cho từ mẫu hoàn toàn khác biệt với nhau và đồng thời sẽ đổi tên bộ dữ liệu qua 1A df
Ta sử dụng lệnh đŸ <- concrete[tduplicated(ten bộ dữ liệu), |
O concrete 1030 obs of 9 variables
O df 1005 obs of 9 variables
Hinh 9.9.9 Kêt quả sau khi loại trừ giá trị bị trùng uà đổi tên
Từ sau về đi ta sẽ sử dụng bộ dữ liệu df để khảo sát và nghiên cứu cho đề tài này
Trang 104 Thong ké ta
4.1 Tổng hợp dữ liệu
Dùng lệnh summary (bộ đỡ liệu) để có thể nhìn các giá trị thống kẽ của
từng biến một cách bao quát hơn
> summary (df)
ist Qu :190.7 ist Qu.: 0.00 ist Qu.: 0.00 ist Qu :166.6 ist Qu.: 0.000
3rd qu :349.0 3rd qu :142.50 3rd Qu :118 30 3rd Qu.:192.9 3rd qu :10.000
3rd Qu :1031.0 3rd Qu :822.2 3rd Qu.: 56.00 3rd Qu :44.87
Hinh 4.1.1 Các giá trị thông kê của từng biến
Ta sẽ nhìn vào phân phối của 9 biến bằng cách dùng biểu đồ boxplot và historgram với từng biến
e Biểu đồ boxplot sẽ cho ta những giá trị rõ ràng của các biến như là đại lượng lớn nhất, nhỏ nhất, điểm phân vị, trung vị và miền ngoại lai
e Biểu đồ Historgram cho ta hình dung các dữ liệu dễ dàng
Trang 13e Cement: Giá trị của xi măng nằm trong khoảng 102 đến 540 Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phôi cua bién cement 1A léch phai
e slag: Giá trị của xỉ hạt lò cao nằm trong khoang tit 0 dén 359,40 Gid trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phôi cua bién cement 1A léch phai
Trang 12
Trang 14ash: Giá trị của tro bay nằm trong khoảng 0đến 200.10 Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của bién ash 1A léch phải
water: Gid tri cha nước nằm trong khoảng 121.8 đến 247.0 Gia tri của trung bình nhỏ hơn giá trị của trung vị nên hình dáng phân phơi của biến œøter là lệch trái
superplastic: Giá trị của phụ gia siêu dẻo nằm trong khoảng 0 đến 32.2 Giá trị của trung bình nhỏ hơn giá trị của trung vị nên hình dáng phân phơi của biến superplastic 1A léch trai
coarseagg: Giá trị của cốt liệu thơ nằm trong khoảng 801 đến 1145
Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của biến coarseagg 1A léch phải
fineagg: Giá trị của cốt liệu mịn nằm trong khoảng 594 đến 992.6 Giá trị của trung bình nhỏ hơn giá trị của trung vị nên hình đáng phân phơi của biến #neàg là lệch trái
age: Giá trị của tuổi nằm trong khoảng I ngày đến 365 ngày Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của biến /2èøg là lệch phải Vậy những hỗn hợp da phần cĩ thời gian
Trang 15Hình 4.1.18 Biểu đồ hệ số tương quan
Qua biểu đồ ta thấy được rằng:
e CEMENT: Bién có mối quan hệ tuyến tinh 4m so véi bién slag, ash, ấneagg nhưng lại có mỗi quan hệ tuyến tính dương rất cao so với strength Ta nhan thấy rằng lượng xi măng sử dụng tăng ảnh hưởng đến sự tăng của sức chịu nén
Trang 16với superplastic, ta thây một hỗn hợp có nhiều bay thì có nhiều phụ gia siêu dẻo
WATER: Bién này có mối quan hệ tuyến tính âm cao nhất so với biến superplastic Thây rằng mẫu hỗn hợp nào có nhiều nước thì có rất ít phụ gia siêu dẻo
SUPERPLASTIC: Mỗi quan hệ tuyến tính dương khá cao với 2 biến
đó là ash và sirength, cho thây rằng các mẫm có nhiều phụ gia siêu dảo
sẽ có l lượng tro bay nhiều và sức chịu nén cũng cao
COARSEAGG:Biên có mối quan hệ tuyến tính âm rất ít so với các biến Nên sự thay đối về cốt liệu thô ảnh thưởng không nhiều đến các vật liệu còn lại kể cả sức chịu nến của hỗn hợp
FINEAGG: Hau hét là biến có mối quan hệ tuyến tính âm với các biến còn lại, lớn nhất là với biến œzfer Những hỗn hợp mà có lương cốt liệu mịn nhiều thì sẽ có ít các loại vật liệu khác nhưng sẽ có lượng nước thấp
AGE: Bién có mối quan hệ tuyến tính ít âm lẫn dương với nhiều biến
Có thể thấy rằng độ tuổi của hỗn hợp càng cao thì ko ảnh hưởng đến các vật liệu khác
STRENGTH: Bién c6 méi quan hệ tuyến tính dương lớn nhất với biến cemenmf Các hỗn hợp có sức chịu nén càng cao thì dẫn đến có nhiều lượng xi măng trong hỗn hợp hơn
Trang 175_ Thống kê suy diễn
Việc trước tiên ta cần làm đó là thêm gói Cavet và chia tổng thể mẫu ra làm 2 mẫu riêng( 1 mẫu thử nghiệm và 1 mẫu để xây dựng mô hình)
Ta chia theo tỷ lệ 7:3 với 7 là mẫu xây dựng mô hình và 3 là mẫu thử nghiệm
Ta sẽ tiến hành Lập mô hình hồi quy tuyến tính dựa vào 8 biến độc lập
và l phụ thuộc
e Biến độc lập: cement, slag, ash, superplastic, coarseagg, fineagg, age
e Bién phu thuée: strength
Tién hanh ding Lénh Im() va dé dimg summary() dé kiểm tra số liệu
chung của mô hình
Trang 18Như ta đã thấy các p-value của các biến như là superplastic, coarseage, fineagg có giá trị lớn hơn 0.05 Nên các biến cho ta một dự đoán không đáng tin cậy nên ta tiến hành loại bỏ các biến đó và làm lại mô hình lần 2
call:
ImCformula = traindata$strength ~ traindataScement + traindataSslag +
traindata$ash + traindata$water + traindata$age)
Residual standard error: 10.27 on 699 degrees of freedom
Multiple R-squared: 0.6184, Adjusted R-squared: 0.6157
F-statistic: 226.6 on 5 and 699 DF, p-value: < 2.2e-16
Hinh 5.1.2 Số liệu của mô hành hồi quy tuyến tính da biến lần 2
Từ đó ta thấy được #2 mang giá trị 0.6184 dù có giảm đi 0,0008 do với
mô hình đầu tiên (0,6192) Nhưng đây vẫn là giá trị lớn vì nó miêu tả các biến có thể giải thích được 61, 84% sự thay đổi cửa sức chịu nén của hỗn hợp Với p-value nhỏ hơn 0.05 nên ta có thể tự tin khẳng định Mô hình hồi quy tuyến tính lần 2 này phụ hợp hơn so với mô hình lần 1
Ta tiến thành sử dụng mô hình 2 để dự đoán ta dùng lệnh predict() và sử dụng mẫu thử nghiệm để cho ra được kết quả dự đoán
Trang 19Thịnh 5.9.1 Kết quả dự doán của mô hành
Sau đó ta sẽ đem so sánh kết quả của mô hình dự đoán và kết quả của mẫu thử nghiệm
Trang 20Ta thất rằng mô hình lần 2 phù hợp với các số liệu trên những mà kết quả
dự đoán thì lệch rất nhiều so với mẫu thử nghiệm
Ta sẽ coi giá trị MSBE của mô hình
Hinh 5.9.3 Sai số toàn phương của 2 mẫu
Nhận thầy giá trị MSE rất là cao đồng nghĩ với việt sai số của kết quả dự
đoán rất là lớn
Vậy ta có thể rút ra là mô hình hồi quy tuyến tính đa biến còn xây sai
số khá nhiều đề có thể tin cậy vào sử dụng trong ngành kỹ thuật xây dựng
đề dự đoán sức bền bê tông
Trang 21Tối ru hóa thành phần hỗn hợp:
Mô hình có thể hỗ trợ trong việc tối ưu hóa lượng các thành phần như
xi măng, bột thạch anh và chất làm đặc để đảm bảo hiệu suất tốt nhất của bê tông Điều này có thể giúp giảm chi phí vật liệu và cải thiện
tính chất cơ học của bê tông
Đánh giá ảnh hưởng của các yếu tố độc lập:
Phân tích trọng số hồi quy của mỗi biến độc lập (như lượng xi măng, bột thạch anh, chất làm đặc) có thể giúp hiểu rõ hơn về ảnh hưởng của từng yếu tố đối với sức mạnh nén của bê tông Điều này có thể hữu ích để quyết định mức độ ưu tiên của các thành phần trong quá trình
thiết kế hỗn hợp bê tông
Y nghĩa và giá trị của mô hình:
e Tối wu hóa kỹ thuật xây dựng: Hiểu rõ về cách các thành phần ảnh hưởng đến sức mạnh nén của bê tông có thể giúp xây dựng các công trình với chất lượng cao hơn và chi phí thấp hơn, do có thể giảm lượng vật liệu cần thiết
Tiết kiệm tài nguyên: Mô hình giúp tối ưu hóa sự sử dụng các nguyên liệu xây dựng, giúp giảm lượng chất thải và tối wu hda sự
sử dụng tài nguyên tự nhiên
Trang 227
Tài liệu tham khảo
Nguyễn Đình Huy(2019), Giáo trình Xác suất và thống kê, Nxb Đại
học Quốc gia TP Hồ Chí Minh
Nguyễn Huy Hoàng (Chủ biên) (2021) Lý thuyết xác suât và thống kê
ứng dụng (Dành
Nguyễn Văn Tuần, Phân tích số liệu và biểu đồ bằng R, Garvan In-
stitute of Medical Research Sydney, Australia cho chuong trình chất
lượng cao), Nxb Đại học Quốc gia TP Hồ Chí Minh
Đai số toàn phương, truy cập tại https://vi.wikipedia.org/wiki/
Sai_s⁄E1⁄ZBB⁄91_to%C3⁄A0n_ph%C6%B0%C6%A1ng_trung_b⁄C3⁄%ACnh
Linear Regression in R, Step by Step, truy cập tại https://Www
youtube com/watch?v=wsi0]g_gH28&t=2s
- Topica, Mô hình hồi quy tuyến tính bội, truy cập bại hEps://eldata11
topica edu vn/HocLieu/v1.0/5TA301/Giao20trinh/06_TVU_STA301_ Bai4_v1.00131012140.pdf?fbcl1d=TwAR1pUr08itKr3sfuA9V4tu1PFsaiogXtzgy_ UgZncy3dvi vFay1uRheTLV0, ngŨày16/11/2023