1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Chu Dể Nhóm 20'.Pdf

22 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xác Suất Thống Kê
Tác giả Trần Tuấn Khang, Hồ Anh Quân, Hòa Duy Thông, Võ Hạnh Nguyên
Người hướng dẫn Phan Thị Hương
Trường học Trường Đại học Bách Khoa, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Xây dựng
Thể loại bài tập lớn
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 22
Dung lượng 2,48 MB

Nội dung

1 Tổng quan dữ liệu Dữ liệu ta dùng đối với bài tập lớn được dùng để tính sức nén của hỗn hợp có độ tuổi xác định.. fineage kg /ern® Cốt liệu nhỏ là hỗn hợp các hạt cốt liệu kích thước c

Trang 1

TRUONG DAI HOC BACH KHOA

eo

BAO CAO BAI TẬP LỚN

Khoa Kỹ thuật Xây dựng

XÁC SUẤT THỐNG KÊ

GVHD: PHAN THỊ HƯỜNG LỚP L13 - NHÓM 20

Trang 2

PHAN CONG CONG VIEC

2 Hồ Anh Quân 10% Soạn phần kiến thức

Trang 3

3.1 Đọc dữ liệu Q Q Q Q Q Q22 và và 3.2 Loại trừ dữ liệu không cần thết Thống kê tả

41 Tổng hợp dữ liệu c Q Q Q Q Q o

42 Biểu diễn dữ liệu c c Q Q Q v2

Thống kê suy diễn

5

5

Thảo luận và mở rộng

Tài liệu tham khảo

1 Mô hình Hồi quy tuyến tính đabiến 2_ Dự đoán với mẫu thử nghiệm

Trang 4

1 Tổng quan dữ liệu

Dữ liệu ta dùng đối với bài tập lớn được dùng để tính sức nén của hỗn hợp

có độ tuổi xác định Sau đây là các thông tin cụ thể của dữ liệu

e Giá trị quan trắc: Gồm 1030 giá trị

Trang 5

superplastic kg /ern®

Phu gia siêu dễo hay còn gọi là phụ gia giảm nước tầm cao là phụ gia dùng để chế tạo bê tông cường

độ cao hoặc để đổ bê tông tự lèn, biến liên tục

fineage kg /ern®

Cốt liệu nhỏ là hỗn hợp các hạt cốt liệu kích thước chủ yêu từ 0,14

Mpa Sức nén của hỗn hợp đã trộn với

độ tuổi nhất định, biến liên tục

Bảng 1.1 Các biến của bộ dữ liệu

Trang 6

2

2.1

2.2

Kiên thức nền

Các khái niệm cơ bản

Trung bình cộng: Trung bình cộng trong thống kê là một đại lượng

mô tả thống kê, được tính ra bằng cách lấy tổng các giá trị cuả toàn

bộ các quan sát trong tập chia cho số lượng quan sát trong tập

Trung vị: Trong xác suất và thống kê, số trung vị một số tách giữa

nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân

bố xác suất

Độ lệch chuẩn: Độ lệch chuẩn, hay độ lệch tiêu chuẩn là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu

đã được lập thành bảng tầng số Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai

Gia trị lớn nhất: Là giá trị lớn nhất trong toàn bộ các giá trị của một tập mẫu

Gia trị nhỏ nhất: Là giá trị nhỏ nhất trpng toàn bộ các giá trị của một tập mẫu

Hồi quy tuyến tính đa biến

Phân tích hồi quy được sử dụng để xác định mối liên hệ giữa: một biến phụ

thuộc Y (biến đấp ứng), và một hay nhiều biến độc lậpXo, X\, Xa, (Các

biến này còn được gọi là biến giải thích) Biến phụ thuộc Y phải là biến liên

tục, các biến độc lập Xo, Xị, Xa, có thể là biến liên tục, hoặc phân loại

Mối liên hệ giữa Xe, Xị, X¿, và Y được biểu diễn bởi một hàm tuyến tính với sự thay đổi trong Y được giả sử do những thay đổi trong Xo, Xi, Xa, gay ra

Tiên cơ sở xác định mối liên hệ giữa biến phụ thuộc Y và các biến giải thích Xo, X\,X2, , ta có thể: dự đoán, dự báo giá trị của Y, giải thích tác động của sự thay đổi trong các biến giải thích lên biến phụ thuộc

Trang 7

Mô hình hồi quy tuyến tính đa biến (mô hình phân tích hồi quy tuyến tính đa biến) của 1 biến ngẫu nhiên và nhiều biến giải thích là phương trình

có dạng:

Y= Bo + 3X4 toc + BX; +e

Trong đó:

Bo, Bos Öẹ, là các tham số hồi quy

Xo, X1, X¿, là các biến độc lập giải thích cho Y

c là thành phần sai số và được giả sử có phân phối chuẩn

Điều kiện sử dụng mô hình hồi quy tuyến tính đa biến:

e Tính tuyến tính của dữ liệu mối quan hệ giữa biến giải thích và biến phụ thuộc Y được giả sử là tuyến tính

e Sai số có phân phối chuẩn

e Phương sai của các sai số là hằng số

e Các sai số thì độc lập với nhau

Trang 8

i Use ‘spec()” to retrieve the full column specification for this data

Hình 3.1.1 Dộ dữ liệu sau khi được dưa 0uào Rstudio

3.2 Loại trừ dữ liệu không cần thiết

Sau khi ta nhập và đọc dữ liệu, ta tiến hành đếm dữ liệu bị thuyết trong mẫu dữ liệu và loại bỏ chúng Bằng cách dùng lệnh sum(is.na(tên bộ đữ liệu ))

> Su(1s.na(Cconcrete)) [1] 0

Hinh 8.2.1 Kết quả sau khi nhập lệnh tàm dữ liệu khuyết

Ta thấy không có dữ liệu khuyết ta qua bước tiếp theo đó là tìm dữ liệu bị

trùng Dùng lệnh sum(duplicated(tên bộ đữ liệu))

Trang 9

> sum(dup] jicated(concrete))

[1] 25,

Hinh 8.2.2 Kết quả sau khi nhập lệnh tàm dữ bị trùng

Bộ dữ liệu đang có 25 mẫu giá trị trắc quan bị trùng với nhau

Ta tiến hành loại trừ các mẫu này để cho từ mẫu hoàn toàn khác biệt với nhau và đồng thời sẽ đổi tên bộ dữ liệu qua 1A df

Ta sử dụng lệnh đŸ <- concrete[tduplicated(ten bộ dữ liệu), |

O concrete 1030 obs of 9 variables

O df 1005 obs of 9 variables

Hinh 9.9.9 Kêt quả sau khi loại trừ giá trị bị trùng uà đổi tên

Từ sau về đi ta sẽ sử dụng bộ dữ liệu df để khảo sát và nghiên cứu cho đề tài này

Trang 10

4 Thong ké ta

4.1 Tổng hợp dữ liệu

Dùng lệnh summary (bộ đỡ liệu) để có thể nhìn các giá trị thống kẽ của

từng biến một cách bao quát hơn

> summary (df)

ist Qu :190.7 ist Qu.: 0.00 ist Qu.: 0.00 ist Qu :166.6 ist Qu.: 0.000

3rd qu :349.0 3rd qu :142.50 3rd Qu :118 30 3rd Qu.:192.9 3rd qu :10.000

3rd Qu :1031.0 3rd Qu :822.2 3rd Qu.: 56.00 3rd Qu :44.87

Hinh 4.1.1 Các giá trị thông kê của từng biến

Ta sẽ nhìn vào phân phối của 9 biến bằng cách dùng biểu đồ boxplot và historgram với từng biến

e Biểu đồ boxplot sẽ cho ta những giá trị rõ ràng của các biến như là đại lượng lớn nhất, nhỏ nhất, điểm phân vị, trung vị và miền ngoại lai

e Biểu đồ Historgram cho ta hình dung các dữ liệu dễ dàng

Trang 13

e Cement: Giá trị của xi măng nằm trong khoảng 102 đến 540 Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phôi cua bién cement 1A léch phai

e slag: Giá trị của xỉ hạt lò cao nằm trong khoang tit 0 dén 359,40 Gid trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phôi cua bién cement 1A léch phai

Trang 12

Trang 14

ash: Giá trị của tro bay nằm trong khoảng 0đến 200.10 Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của bién ash 1A léch phải

water: Gid tri cha nước nằm trong khoảng 121.8 đến 247.0 Gia tri của trung bình nhỏ hơn giá trị của trung vị nên hình dáng phân phơi của biến œøter là lệch trái

superplastic: Giá trị của phụ gia siêu dẻo nằm trong khoảng 0 đến 32.2 Giá trị của trung bình nhỏ hơn giá trị của trung vị nên hình dáng phân phơi của biến superplastic 1A léch trai

coarseagg: Giá trị của cốt liệu thơ nằm trong khoảng 801 đến 1145

Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của biến coarseagg 1A léch phải

fineagg: Giá trị của cốt liệu mịn nằm trong khoảng 594 đến 992.6 Giá trị của trung bình nhỏ hơn giá trị của trung vị nên hình đáng phân phơi của biến #neàg là lệch trái

age: Giá trị của tuổi nằm trong khoảng I ngày đến 365 ngày Giá trị của trung bình lớn hơn giá trị của trung vị nên hình dáng phân phơi của biến /2èøg là lệch phải Vậy những hỗn hợp da phần cĩ thời gian

Trang 15

Hình 4.1.18 Biểu đồ hệ số tương quan

Qua biểu đồ ta thấy được rằng:

e CEMENT: Bién có mối quan hệ tuyến tinh 4m so véi bién slag, ash, ấneagg nhưng lại có mỗi quan hệ tuyến tính dương rất cao so với strength Ta nhan thấy rằng lượng xi măng sử dụng tăng ảnh hưởng đến sự tăng của sức chịu nén

Trang 16

với superplastic, ta thây một hỗn hợp có nhiều bay thì có nhiều phụ gia siêu dẻo

WATER: Bién này có mối quan hệ tuyến tính âm cao nhất so với biến superplastic Thây rằng mẫu hỗn hợp nào có nhiều nước thì có rất ít phụ gia siêu dẻo

SUPERPLASTIC: Mỗi quan hệ tuyến tính dương khá cao với 2 biến

đó là ash và sirength, cho thây rằng các mẫm có nhiều phụ gia siêu dảo

sẽ có l lượng tro bay nhiều và sức chịu nén cũng cao

COARSEAGG:Biên có mối quan hệ tuyến tính âm rất ít so với các biến Nên sự thay đối về cốt liệu thô ảnh thưởng không nhiều đến các vật liệu còn lại kể cả sức chịu nến của hỗn hợp

FINEAGG: Hau hét là biến có mối quan hệ tuyến tính âm với các biến còn lại, lớn nhất là với biến œzfer Những hỗn hợp mà có lương cốt liệu mịn nhiều thì sẽ có ít các loại vật liệu khác nhưng sẽ có lượng nước thấp

AGE: Bién có mối quan hệ tuyến tính ít âm lẫn dương với nhiều biến

Có thể thấy rằng độ tuổi của hỗn hợp càng cao thì ko ảnh hưởng đến các vật liệu khác

STRENGTH: Bién c6 méi quan hệ tuyến tính dương lớn nhất với biến cemenmf Các hỗn hợp có sức chịu nén càng cao thì dẫn đến có nhiều lượng xi măng trong hỗn hợp hơn

Trang 17

5_ Thống kê suy diễn

Việc trước tiên ta cần làm đó là thêm gói Cavet và chia tổng thể mẫu ra làm 2 mẫu riêng( 1 mẫu thử nghiệm và 1 mẫu để xây dựng mô hình)

Ta chia theo tỷ lệ 7:3 với 7 là mẫu xây dựng mô hình và 3 là mẫu thử nghiệm

Ta sẽ tiến hành Lập mô hình hồi quy tuyến tính dựa vào 8 biến độc lập

và l phụ thuộc

e Biến độc lập: cement, slag, ash, superplastic, coarseagg, fineagg, age

e Bién phu thuée: strength

Tién hanh ding Lénh Im() va dé dimg summary() dé kiểm tra số liệu

chung của mô hình

Trang 18

Như ta đã thấy các p-value của các biến như là superplastic, coarseage, fineagg có giá trị lớn hơn 0.05 Nên các biến cho ta một dự đoán không đáng tin cậy nên ta tiến hành loại bỏ các biến đó và làm lại mô hình lần 2

call:

ImCformula = traindata$strength ~ traindataScement + traindataSslag +

traindata$ash + traindata$water + traindata$age)

Residual standard error: 10.27 on 699 degrees of freedom

Multiple R-squared: 0.6184, Adjusted R-squared: 0.6157

F-statistic: 226.6 on 5 and 699 DF, p-value: < 2.2e-16

Hinh 5.1.2 Số liệu của mô hành hồi quy tuyến tính da biến lần 2

Từ đó ta thấy được #2 mang giá trị 0.6184 dù có giảm đi 0,0008 do với

mô hình đầu tiên (0,6192) Nhưng đây vẫn là giá trị lớn vì nó miêu tả các biến có thể giải thích được 61, 84% sự thay đổi cửa sức chịu nén của hỗn hợp Với p-value nhỏ hơn 0.05 nên ta có thể tự tin khẳng định Mô hình hồi quy tuyến tính lần 2 này phụ hợp hơn so với mô hình lần 1

Ta tiến thành sử dụng mô hình 2 để dự đoán ta dùng lệnh predict() và sử dụng mẫu thử nghiệm để cho ra được kết quả dự đoán

Trang 19

Thịnh 5.9.1 Kết quả dự doán của mô hành

Sau đó ta sẽ đem so sánh kết quả của mô hình dự đoán và kết quả của mẫu thử nghiệm

Trang 20

Ta thất rằng mô hình lần 2 phù hợp với các số liệu trên những mà kết quả

dự đoán thì lệch rất nhiều so với mẫu thử nghiệm

Ta sẽ coi giá trị MSBE của mô hình

Hinh 5.9.3 Sai số toàn phương của 2 mẫu

Nhận thầy giá trị MSE rất là cao đồng nghĩ với việt sai số của kết quả dự

đoán rất là lớn

Vậy ta có thể rút ra là mô hình hồi quy tuyến tính đa biến còn xây sai

số khá nhiều đề có thể tin cậy vào sử dụng trong ngành kỹ thuật xây dựng

đề dự đoán sức bền bê tông

Trang 21

Tối ru hóa thành phần hỗn hợp:

Mô hình có thể hỗ trợ trong việc tối ưu hóa lượng các thành phần như

xi măng, bột thạch anh và chất làm đặc để đảm bảo hiệu suất tốt nhất của bê tông Điều này có thể giúp giảm chi phí vật liệu và cải thiện

tính chất cơ học của bê tông

Đánh giá ảnh hưởng của các yếu tố độc lập:

Phân tích trọng số hồi quy của mỗi biến độc lập (như lượng xi măng, bột thạch anh, chất làm đặc) có thể giúp hiểu rõ hơn về ảnh hưởng của từng yếu tố đối với sức mạnh nén của bê tông Điều này có thể hữu ích để quyết định mức độ ưu tiên của các thành phần trong quá trình

thiết kế hỗn hợp bê tông

Y nghĩa và giá trị của mô hình:

e Tối wu hóa kỹ thuật xây dựng: Hiểu rõ về cách các thành phần ảnh hưởng đến sức mạnh nén của bê tông có thể giúp xây dựng các công trình với chất lượng cao hơn và chi phí thấp hơn, do có thể giảm lượng vật liệu cần thiết

Tiết kiệm tài nguyên: Mô hình giúp tối ưu hóa sự sử dụng các nguyên liệu xây dựng, giúp giảm lượng chất thải và tối wu hda sự

sử dụng tài nguyên tự nhiên

Trang 22

7

Tài liệu tham khảo

Nguyễn Đình Huy(2019), Giáo trình Xác suất và thống kê, Nxb Đại

học Quốc gia TP Hồ Chí Minh

Nguyễn Huy Hoàng (Chủ biên) (2021) Lý thuyết xác suât và thống kê

ứng dụng (Dành

Nguyễn Văn Tuần, Phân tích số liệu và biểu đồ bằng R, Garvan In-

stitute of Medical Research Sydney, Australia cho chuong trình chất

lượng cao), Nxb Đại học Quốc gia TP Hồ Chí Minh

Đai số toàn phương, truy cập tại https://vi.wikipedia.org/wiki/

Sai_s⁄E1⁄ZBB⁄91_to%C3⁄A0n_ph%C6%B0%C6%A1ng_trung_b⁄C3⁄%ACnh

Linear Regression in R, Step by Step, truy cập tại https://Www

youtube com/watch?v=wsi0]g_gH28&t=2s

- Topica, Mô hình hồi quy tuyến tính bội, truy cập bại hEps://eldata11

topica edu vn/HocLieu/v1.0/5TA301/Giao20trinh/06_TVU_STA301_ Bai4_v1.00131012140.pdf?fbcl1d=TwAR1pUr08itKr3sfuA9V4tu1PFsaiogXtzgy_ UgZncy3dvi vFay1uRheTLV0, ngŨày16/11/2023

Ngày đăng: 14/11/2024, 20:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w