1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài Tập Lớn Xác Suất Thống Kê (Mt2013) Đề Tài 5.Pdf

17 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn Xác Suất Thống Kê (MT2013) Đề Tài 5
Tác giả Ts. Nguyễn Thị Mong Ngọc, Vũ Khánh Hoàng, Định Phúc Khang, Vũ Nhị Hàn, Nguyễn Anh Trường, Trần Hải
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật xây dựng
Thể loại bài tập lớn
Năm xuất bản 2023-2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 17
Dung lượng 1,95 MB

Nội dung

— Để chọn sử dụng loại xi măng cho phù hợp với từng loại công trình — Các phương pháp thi công phù hợp Các thông số biến chính liên quan đến giá trị khảo sát: e Cement: xi măng, được tín

Trang 1

qa |

DAI HOC QUOC GIA THANH PHO HO CHi MINH TRUONG DAI HOC BACH KHOA

KHOA KI THUAT XAY DUNG

đề

BÀI TẬP LỚN

XÁC SUAT THONG KE (MT2013)

DE TAI 5

Giảng viên hướng dẫn: Ts Nguyén Thi Mong Ngoc

Lớp: LI1 - Nhóm 3

Đinh viên thực hiện: Vũ Khánh Hoàng 2211126

Định Phúc Khang 2211423

Vũ Nhị Hàn 2210854 Nguyễn Anh Trường 2213740

Võ Trần Hải 2210906

TP Hồ Chí Minh, Tháng 11/2023

Trang 2

BANG DONG GOP

vu công

2213740 |LN Anh Hoàn thành

2210906 Võ Hải Hoàn thành

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 1/16

Trang 3

c2 Khoa Kỹ thuật Xây dựng

Mục lục

Tổng quan dữ liệu

1.1 Trình bày ngữ cảnh dữ lệu Q Q Q Q ee eee 1.2 Các giá trị quan tIẮC ee

13 Cách thu thập dữ lệu ee eee

Kiến thức nền

2.1 Phan tich phuong sai (ANOVA) 2 ee k kg

2.1.1 Khái nệm ANOVA nu gà ng g kg k kg k va

2.1.2 Phân tích phương sai một nhân tố Qua

2.12a Khái nệm ee

212b Giã thuyết môhình Lo

2.1.2c Các bước thực hiện bài toán ee eee 2.1.2.d Phân tích sâu ANOVA một nhân lố

2.2 Hồi quy tuyến tính eee 2.2.1 Khái niệm hồi quy eee 2.2.2 Hối quy tuyến tính đơn c Q c Q Q Q ng Q HQ ng g v và và ána

2.22.aa Khái nệm ee

2.2.2b Cac gid dinh vésais6 2.2 ee ee eee

2.2.2.c Độ đo sự biến thiên của dữ liệu

2.2.2.0 Hés6xdcdinh 2 0.000000 ee 2.2.2.e Ước lượng phương sai và các hệ số hồi quy 2.2.3 Hối quy tuyến tính bội ee ky và

2.2.3.a Khái nệm cv và v22 y2

2.2.3.b_ Các giả định về sai số Q Q Q Q Q Q ee eee 2.2.3.c Phương pháp tìm hệ số hồi quy ẶẶ So Tiền xử lý số liệu

3.1 Làm sạch dữ lệu QC LH ng vn vn vn v Vv v.v và

3.1.0.a Đọc và hiển thị dữ liệu ee ee 3.1.0.b_ Truy xuất và hiển thị hình dạng của DataErame để xác định kích

thuéc cdanéd 2 2 ee

3.1.0.c Truy xuất và in tên cột của DataFrame 3.1.0.d Hién thi thong tin dit lieu 2 ee een

3.1.0e Kiểm tra trùng lặp dữ liệu ee 3.1.0.6 Loaibé tring lip ee,

3.2 Truc quandiligu 2.2 ee eee

3.2.0.a Vé heatmap kiém tra tuong quan ee 3.2.0.b Kiểm tra tương quan với biểu đồ barplot với biến strength

3.3 Kết luận và thảo luận về giai đoạn làm sạch dữ liệu .cẶ

Thống kê tả

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 2/16

Trang 4

1 Tổng quan dữ liệu

Bê tông là một thành phần quan trọng trong lĩnh vực xây dựng Cường độ chịu nén của bê tông là một hàm phi tuyến tính dựa vào giá trị cao theo tuổi và thành phần Những thành phan này bao gồm xỉ măng, xỉ lò cao, tro bay, nước, chất siêu dẻo, cốt liệu thô và cốt liệu mịn

e Cường độ chịu nén của bê tông là gì?

— Cường độ chịu nén của bê tông được định nghĩa là khả năng của bê tông chống lại sự phá hoại của ứng suât xuất hiện trong vật liệu do ngoại lực hoặc yêu tỗ môi trường bên ngoài

e Cường độ chịu nén của bê tông phụ thuộc vào những yếu tố nào?

— Lufợgng nước nhào trộn xi măng

— Độ cứng của xi măng

— Chất lượng và loại xi măng

e Xác định cường độ chịu nén của bê tông để làm gì?

— Để chọn sử dụng loại xi măng cho phù hợp với từng loại công trình

— Các phương pháp thi công phù hợp

Các thông số biến chính liên quan đến giá trị khảo sát:

e Cement: xi măng, được tính bằng kg trong hỗn hợp mở

e Blast furnace: luồng hơi sinh ra từ vụ phá nổ đá, được tính bằng kg trong hỗn hợp mồ tly ash: tro bay, được tính bằng kg trong hỗn hợp mŠ

Water: nước, được tính bằng kg trong hỗn hợp mŠ

Superplasticizer: phụ gia kị nước, được tính bằng kg trong hỗn hợp mồ

Coarse Aggregate: cốt liệu thô, được tính bằng kg trong hỗn hợp mổ

Fine Aggregate: cốt liệu mịn, được tính bằng kg trong hỗn hợp mồ

Age: số ngày bê tong được dưỡng hộ trong điều kiện tiêu chuẩn (từ 1 đến 365 ngày) Concrete compressive strength don vị tính là MPa

Sử dụng dữ liệu trên kaggle: https://www.kaggle.com/datasets/vinayakshanawad/ cement-manufacturing-concrete-dataset để đáp ứng yêu cầu của bài toán khảo sất những thành phần sản xuất của xi măng và thời gian dưỡng hộ trong điều kiện tiêu chuẩn (ngày) bằng phương pháp xác suất theo hàm phân phối chuẩn

Giải thích thí nghiệm: từ một khối bê tông có dạng hình lập phương với kích thước 15 em x l5 em được dưỡng hộ với điều kiện tiêu chuẩn trong 28 ngày, biết khối bê tông được tạo thành từ các thành phan sau đây, với giá trị đó là khối lượng riêng (kg/m)

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 3/16

Trang 5

c2 Khoa Kỹ thuật Xây dựng

Từ bộ dữ liệu "Cement: Manufaeturing Conerete Dataset" trên Kaggle, không có yêu cầu eụ thể được cung cấp trong thông tỉn mô tả dataset Tuy nhiên, thông qua việc phân tích dữ liệu, chúng ta có thể

đặt ra một số câu hỏi hoặc yêu cầu có thể được thực hiện:

1 Phân tích chất lượng bê tông: Có thể yêu cầu kiểm tra sự ảnh hưởng của các yêu tố như thành phần, tỉ lệ, hoặc quy trình sẵn xuất đến chất lượng bê tông Ví dụ: Liệu có mối quan hệ nào giữa lượng phụ gia và cường độ bê tông?

t5 Hiệu suất của quy trình sản xuất: Có thể yêu cầu phân tích sự ảnh hưởng của các thông số quy trình sản xuất (như nhiệt độ, thời gian, áp suất) đối với hiệu suất của quy trình sẵn xuất bê tông

wo Di đoán hoặc tối ưu hóa: Yêu cần dự đoán hiệu suất hoặc tính chất của bê tông dựa trên các thông

số đầm vào cụ thể từ quá trình sẵn xuất

i Tối ưu hóa công thức bê tông: Yêu cầu tìm ra công thức tối ưu cho bê tông dựa trên dữ liệu về hiệu suất và các yêu tố sản xuất

5 Tìm hiểu về biến động của dữ liệu: Yêu cần đơn giản là khám phá và mô tả dữ liệu, tìm hiểu về phân phối, phương sai, và mối quan hệ giữa các biến

Từ đó ta có thể dùng ANOVA với phân tích hồi quy (ANOVA with Regression Analysis) để xem xét

sự ảnh hưởng của các yêu tố độc lập đến một biến phụ thuộc cụ thể (ví dụ: cường độ bê tông), có thể

áp dụng phân tích hồi quy kết hợp với ANOVA để xem xét mức độ ảnh hưởng của từng yếu tố đến biến

phụ thuộc

2.1.1 Khái nệm ANOVA

Phân tích phương sai là một mô hình dùng để xem xét sự biến động của một biến ngẫu nhiên định lượng z chịu tác động trực tiếp của một hay nhiều yếu tố nguyên nhân Nghiên cứu ảnh hưởng của biên nguyên nhân định tính lên biến kết quả định lượng

Anova là một phần của “Kiểm định giả thuyết thống kế”, Anova là một phương pháp kiểm định các mẫn độc lập, có thể so sánh từ hai tổng thể (nhóm) trở lên Anova không so sánh các phương sai mà là phân tích phương sai để so sánh các kỳ vọng

Anova gồm có 3 mô hình: “Phân tích phương sai 1 yên tế”, “Phân tích phương sai 2 yếu tố không lặp”

và “Phân tích phương sai 2 yêu tố có lặp”

Nguyên lý cơ bản của ANOVA:

e So sánh giữa các nhóm: ANOVA thực hiện so sánh giữa các nhóm để xem xét xem liệu sự khác biệt

giữa các nhóm có đủ lớn để được coi là ý nghĩa thống kê hay không

e Biến thể giữa và trong nhóm: Nó xem xét biến thể trong dữ liệu và phân loại nó thành hai loại chính: biến thể giữa các nhóm và biến thể trong cùng một nhóm

e Kiểm định giá trị F: ANOVA sử dụng kiểm định giá trị F để xem xét xem có sự khác biệt ý nghĩa

giữa các nhóm hay không Giá trị F cao hơn chỉ ra rằng sự khác biệt giữa các nhóm lớn hơn so với

sự khác biệt bên trong các nhóm

2.1.2 Phân tích phương sai một nhân tố

2.1.2.a Khái niệm

Trong mô hình này, ta kiểm định so sánh trung bình của biến ngẫu nhiên x ở những tổng thể (nhóm) khác nhan dựa vào mẫu quan sát lấy từ những tổng thể này Các tổng thể được phân biệt bởi các mức

độ khác nhau của yêu tố đang xem xét

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 4/16

Trang 6

2.1.2.b Giả thuyết mô hình

Các tổng thể có phân phối chuẩn W(/„›;,Ø2), ý — 1,2, ,k; k là số tổng thể (thông thường k > 3) Phương sai các tổng thể bằng nhan (ø? — ø3 —= — øÿ) Các mẫu quan sát từ các tổng thể được lấy độc lập

2.1.2.c Các bước thực hiện bài toán

Bước 1: Đặt giả thuyết kiểm định

Bước 2: Tính giá trị kiểm định thống kê

Bước 3: Kiểm định giả thiết

2.1.2.d Phân tích sâu ANOVA một nhân tố

Mục đích ban đầu của bài toán là kiểm định giả thiết fạ so với giả thiết 7 Khi kết luận bài toán Anova, sé xảy ra 2 trường hợp:

e Chưa thể bác bỏ giả thiết ạ, chưa có bằng chứng về sự khác biệt của các trung bình

e Giả thiết Họ bị bác bỏ, chấp nhận ?¡ Suy ra rằng trung bình của các nhóm không bằng nhau (hay là sự khác biệt có ý nghĩa thống kê) Nói chung thì chúng ta không biết được sự khác biệt đó

là từ một hay từ những nhóm nào Do đó ta có thể phân tích thêm: nhóm nào đó có trung bình lớn hơn, bằng, hay nhỏ hơn so với những nhóm khác?

Có nhiều phương pháp đưa đến kết quả mong muốn Chúng ta cồn gọi đó là các phương pháp so sánh boi (Multiple comparison methods) Fisher’s Least Significant Difference LSD là một trong các phương pháp so sánh bội

2.2 Hồi quy tuyến tính

2.2.1 Khái niệm hồi quy

Phân tích hồi quy là một phương pháp thống kê sử dụng để tìm mối quan hệ giữa một biến phụ thuộc (cồn gọi là biến mục tiêu) và một hoặc nhiều biến độc lập (các yêu tố hay biến giải thích)

2.2.2 Hối quy tuyến tính đơn

2.2.2.a Khái niệm

Hồi quy tuyến tính đơn là một phương pháp trong thống kê được sử dụng để xác định mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập Trong trường hợp hồi quy tuyến

tính đơn, chúng ta chỉ xem xét mối quan hệ giữa một biến phụ thuộc với duy nhất một biến độc lập

Mục tiêu của hồi quy tuyến tính đơn là tìm ra một đường thẳng tốt nhất để dự đoán hoặc giải thích biến phụ thuộc dựa trên biến độc lập Phương trình của đường thẳng này có thể được biển diễn dưới

Y=g+8¡X+£

Đồ thi phan tan của n cặp giá trị quan sát (#;, ;):

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 5/16

Trang 7

QB thoa tý thuật Xây dựng

Y 'Y; =Bạ +¡X;¡ +£¡

Giá trị quan trắc ——®

của Y ứng với x,

ej

Giá trị dự báo Sai số ngẫu nhiên của Y ứng với x, tương ứng với x,

Hệ số góc = B;

Hệ số chặn =

Bo

X

2.2.2.b_ Các giả định về sai số

Các sai số ngẫn nhiên £; trong mô hình hồi quy được giả sử thỏa các điều kiện sau:

e Các sai số c¡ độc lập với nhau,

e E(e;) = 0 và Var(s¡) = 0”,

e Các sai số có phân phối chuẩn: ¢; ~ (0, ø?) và có phương sai không đổi

e Với quan trắc đã biết, E(Y|z) = Ø0 + Ø¡# nên Y ~ N(fo + đi#,ø2)

2.2.2.c Độ đo sự biến thiên của dữ liệu

SST: Tổng bình phương toàn phan (Total Sum of Squares) - đo sự biến thiên của các giá trị yi xung quanh giá trị trung tâm của dữ liệu y

SST = Ÿ `(, — y) — 98R + 9E

i=l

SSR: Tổng bình phương hồi quy (Regression Sum of Squares) - giải thích sự biến thiên liên quan đến mối quan hệ tuyến tính của X và Y,

TE

SST = Si - 9)

i=l SSE: Tổng bình phương sai số (Error Sum of Squares) - giải thích sự biến thiên của các nhân tố khác (không liên quan đến mối quan hệ tuyến tính của X và Y)

n

SSE = ` (u — 9)”

i=l

Y,

§STE \y,- ⁄}

y

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 6/16

Trang 8

2.2.2.d_ Hệ số xác định

Hệ số xác định (Coefficient of Determination) 1A ty 1é cha tổng sự biến thiên trong biến phụ thuộc

gây ra bởi sự biến thiên của các biếnđộc lập (biến giải thích) so với tổng sự biến thiên toàn phần Hẹ số xác định thường được gọi là R - bình phương (R-squared), ký hiệu là R2

Công thức tính:

> SSR ,

R= (0<R <1

SST (Os —

Hệ số xác định của một mô hình hồi quy cho phép ta đánh giá mô hình tìm được có giải thích tốt cho mối liên hệ giữa biến phụ thuộc Y và biến phụ thuộc X hay không

2.2.2.e Ước lượng phương sai và các hệ số hồi quy

sai z2 — 22(G) — SSE Phương sai o* = 6°(S) = “25

n—2

=> Sai s6 chuan ctia G? : SE(@) =

Công thức ước lượng hệ số chặn By = Bo + 15%) ự L +

=> Sai số chuẩn của ước lượng đụ : $E (40) =

(2-2)

a /2

=> Sai số chuẩn của ước lượng By [SE (ô.) =

Công thức ước lượng hệ số góc đị = A +t

2.2.3 Hối quy tuyến tính bội

2.2.3.a Khai niệm

Hồi quy tuyến tính bội (multivariate linear regression) là một phương pháp trong thống kê và khai

phá dữ liệu để dự đoán giá trị của một biến phụ thuộc dựa trên nhiều biến độc lập Nó là một phương

pháp mạnh mẽ và phổ biến trong phân tích dữ liệu và được sử dụng rộng rãi trong nhiều lĩnh vực như

kinh tế học, tài chính, y học và khoa học xã hội

Trong hồi quy tuyến tính bội, chúng ta giả định rằng mối quan hệ giữa biến phụ thuộc (y) và các biến độc lập (#i,#a, ,#„) có thể được mô tả bằng một phương trình tuyến tính Phương trình hồi quy tuyến tính bội có dạng:

Y =đIiÄi +aXa¿ + + Ø„X¿ +£

2.2.3.b_ Các giả định về sai số

Độc lập tuyến tính: Mỗi biến độc lập không có mối quan hệ tuyến tính hoàn hảo với biên phụ thuộc Đồng nhất phương sai: Phương sai của sai số không đổi qua các mức độ của biến độc lập Không có tương quan hoàn hảo: Không có mối tương quan hoàn hảo giữa các biến độc lập Không có sai số đa cộng tuyến: Sai số giữa các quan sát không có mối tương quan

2.2.3.c Phương pháp tìm hệ số hồi quy

1 Phương pháp đạo hàm: đầu tiên, chúng ta cần tính đạo hàm riêng của hàm SSE theo từng hệ

số hồi quy đ¿ Đạo hàm riêng này được tính bằng cách lấy đạo hàm của hàm SSE theo 6; và đặt bằng 0

2 Phương pháp ma trận: chúng ta có thể biểu diễn phương trình hồi quy tuyến tính bội dưới dạng

ma trận như san:

Y=Xö+e

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 7/16

Trang 9

G Khoa Kỹ thuật Xây dựng

3 Tiền xử lý số liệu

3.1 Làm sạch dữ liệu

>

> # Đọc dữ liệu từ file CSV

> file path <- "D:/HK23l/concrete.csv"

> data <- read.csv(file_path)

>

> # Hiển thị toàn bộ DataFrame

> print (data)

cement slag ash water superplastic coarseagg fineagg age strength

266.0 114.0 0.0 228.0 0.0 932.0 670.0 28 45.85 154.8 183.4 0.0 193.3 9.1 1047.4 696.7 28 18.29

3.1.0.b Truy xudt và hiển thị hình dạng của DataErame để xác định kích thước của nó

> dim(data)

[1] 1030 Sg

3.1.0.c Truy xuất và in tên cột của DataErame

> # Hiển thị tên cột của DataFrame 'data!

> names (data)

{1] "cement" "slag" "ash" "water" "superplastic" [6] "coarseagg" "fineagg" "age" "strength"

aa eee

> str (data)

‘data.frame': 1030 obs of 9Y variables:

$ cement : mum 141 169 250 266 155

$ slag : mum 212 42.2 0 114 183.4

$ ash : mum O 124.3 95.700

$ water : mum 204 158 187 228 193

$ superplastic: num 0 10.8 5.5 0 9.1006.409

$ coarseagg : num 972 1081 957 932 1047

$ fineagg : mum 748 796 861 670 697

$ age : int 28 14 28 28 28 90 7 56 28 28

9 strength : num 29.9 23.5 29.2 45.9 18.3

3.1.0.e Kiém tra trùng lặp dữ liệu

> # Kiểm tra và đêm số lượng quan sát trùng lặp trong DataFrame data

> sum(duplicated(data), na.rm = TRUE)

[1] 25

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 8/16

Trang 10

3.1.0.f£ Loại bỏ trùng lặp

> # Loại bỏ các hàng trùng lặp

> data <- unique (data)

> dim(data)

[1] 1005 9

3.2 Trực quan dữ liệu

3.2.0.a Vẽ heatmap kiểm tra tương quan

fineagg

ash

superplastic

slag

water

age coarseagg

cement

Biéu dé heatmap (Heat Map) là một công cụ trực quan hóa dữ liệu sử dụng màu sắc để hiển thị độ

tương quan giữa các biến trong một ma trận Ý nghĩa chính của biểu đồ heatmap là làm cho người đọc

có thể dé dang nhận biết và hiểu thông tỉn từ một lượng lớn dữ liệu Dưới đây là một số ý nghĩa chính của biểu dé heatmap:

1 Hiển Thị Tương Quan: Heatmap thường được sử dụng để biểu diễn mức độ tương quan giữa các biến trong một tập dữ liệu Các giá trị tương quan thấp có thể được biểu diễn bằng màu nhạt, trong khi giá trị tương quan cao có thể được biểu diễn bằng màu sắc đậm

2 Phân Loại Dữ Liệu: Heatmap có thể được sử dụng để phân loại dữ liệu thành các nhóm hoặc phân

khúc dựa trên giá trị của chúng Điều này giúp người đọc nhanh chóng nhận ra các mô hình hoặc

xu hướng trong dữ liệu

3 So Sánh Nhanh Chóng: Do sự sắp xếp màu sắc dễ nhìn và hiển, heatmap giúp người đọc so sánh giữa các phần tử trong ma trận một cách nhanh chóng Điều này hữu ích khi muốn xác định sự

khác biệt giữa các điểm dữ liệu Phân Loại Độ Chệch: Heatmap cũng có thể được sử dụng để phân

loại mức độ chệch giữa các giá trị Bằng cách này, người đọc có thể dễ dàng xác định các giá trị

nổi bật hoặc những vùng có độ chệch cao

Bài tập lớn môn Xác suất thống kẽ (MT2013) - Năm học 2023-2024 Trang 9/16

Ngày đăng: 13/12/2024, 23:58