Báo cáo bài tập lớn môn học xác suất & thống kê chứa bộ dữ liệu của nhóm nghiên cứu khoa cơ khí Đại học selcuk

Mục lục3.1 Phân tích phương sai một yếu tố One-Way Analysis of Variance 9 4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 15 4.3 Phương pháp bình phương nhỏ nhất Ordinary Le

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA



BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT & THỐNG KÊ

Giảng viên hướng dẫn: ThS Nguyễn Thị Kiều Ân

Danh sách sinh viên thực hiện

Trang 2

Mục lục

3.1 Phân tích phương sai một yếu tố (One-Way Analysis of Variance) 9

4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 15 4.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) 16

Trang 3

I Tổng quan dữ liệu

Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk.Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnhtrong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in

Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đolường

Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter

Các biến chính trong bộ dữ liệu gồm:

 layer_height (mm): Độ cao mỗi lớp in

 infill_density (%): độ rỗng bên trong chi tiết

 infill_pattern: Dạng lưới bên trong chi tiết

 wall_thickness (mm): Bề dày tường

 nozzle_temperature (ºC): Nhiệt độ của mũi in

 tension strenght: Sức căng bề mặt

 elongation: Độ giãn dài

Các biến liên tục: layer_height, nozzle_temperature, bed_temperature, print_speed,roughness, tension strenght, elongation

Các biến phân loại: infill_pattern và material

Trang 4

II Kiến thức nền

1 Khoảng tin cậy

1.1 Ước lượng điểm

Là sử dụng một tham số thống kê từ mẫu đơn để ước lượng giá trị của tham số tương ứngtrong tổng thể Ví dụ, ta có thể sử dụng giá trị cụ thể của trung bình mẫu để ước lượngtrung bình tổng thể μ

Tuy nhiên, phương pháp này có nhược điểm khi kích thước mẫu quá lớn, dẫn đến ướclượng có thể có sai lệch đáng kể so với giá trị tham số cần ước lượng Hơn nữa, mặc dùmọi phương pháp ước lượng đều có thể mắc phải sai lầm, nhưng ước lượng điểm khôngcung cấp thông tin về khả năng mắc sai lầm của nó là bao nhiêu

1.2 Ước lượng khoảng

Đối với vấn đề ước lượng thông qua khoảng tin cậy, quy trình thực hiện như sau: Xácđịnh một khoảng ước lượng (G_1, G_2) cho tham số θ trong tổng thể sao cho xác suất tincậy (confidence) được xác định trước là γ, tức là P(G_1 < θ < G_2) = γ

Phương pháp ước lượng bằng khoảng tin cậy mang lại nhiều ưu điểm hơn so với phươngpháp ước lượng điểm, vì nó gia tăng độ chính xác của ước lượng và đồng thời đánh giáđược mức độ tin cậy của ước lượng đó

Khả năng mắc sai lầm của phương pháp được thể hiện qua giá trị α = 1 - γ Trong thống

kê, biểu diễn α thường được sử dụng để chỉ một giá trị xác suất nhỏ Do đó, ký hiệu 1 - αcũng được dùng để thể hiện độ tin cậy của khoảng ước lượng

Trang 5

+ H0 : Tỉ lệ nảy mầm của 1 loại hạt giống là 70%

+ H0 : Thời gian công nhân hoàn thành 1 sản phẩm là BNN có pp chuẩn với kỳ vọng là 20phút và phương sai là 9 phút2

+ H0 : Mức độ yêu thích của khán giả với chương trình truyền hình “Tìm kiếm tài năng ”không phụ thuộc vào lứa tuổi

Giả thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể hiện

xu hướng cần kiểm định

Vì ta sẽ dựa vào thông tin thực nghiệm của mẫu để kết luận xem có thừa nhận các giảthiết nêu trên hay không nên công việc này gọi là kiểm định thống kê

Trang 6

Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu ngẫunhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặt ra với thống kê G

là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định

Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(GRR /H0 đúng) = 

 là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định

Một ký hiệu khác của miền bác bỏ được dùng trong bài: W

- Miền chấp nhận AR: phần bù của miền bác bỏ RR

+ Nếu gqs  RR thì bác bỏ H0 , thừa nhận giả thiết H1

+ Nếu gqs  RR : ta chưa đủ dữ liệu khẳng định H0 sai

Vì vậy ta chưa thể chứng minh được H1 đúng

2.2 Bài toán kiểm định tỷ lệ

Trang 7

2.3 Bài toán kiểm định trung bình

Trang 8

Bài toán có thể mở rộng hơn với H0: µ1= µ2 + d0

Khi đó TCKĐ thay đổi tương ứng: Z qs=(X1− X2− d0) /√σ12

3.1 Phân tích phương sai một yếu tố (One-Way Analysis of Variance)

Trong mô hình phân tích phương sai 1 yếu tố, chúng ta kiểm định so sánh trung bình củabiến ngẫu nhiên X ở những tổng thể (còn gọi là nhóm) khác nhau dựa vào các mẫu quan

Trang 9

sát lấy từ những tổng thể này Các tổng thể được phân biệt bởi các mức độ khác nhau củayếu tố đang xem xét.

a/ Giả thuyết của bài toán ANOVA một yếu tố (điều kiện bài toán hay là giả thuyết môhình)

Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể dựa trên những mẫu ngẫunhiên độc lập gồm 𝑛1, 𝑛2, 𝑛3, , 𝑛𝑘 quan sát tà k tổng thể Cần ghi nhớ ba giả định sauđây về các nhóm tổng thế được tiến hành phân tích ANOVA

- Các tổng thể này có phân phối chuẩn N (µ; i2); i = 1; 2; …; k k là số tổng thể(thông thường k≥3)

- Các phương sai các tổng thể bằng nhau (1 = 2=… =k )

- Các mẫu quan sát (từ các tổng thể) được lấy độc lập

b/ Các bước thực hiện bài toán

Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = = µ𝑘 thì khi các giả địnhtrên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được đặt giảthuyết kiểm định như sau:

Giả thuyết không H0: µ1 = µ2=…= µk

Giả thiết đối H1: ∃ µ i ≠ µ j; với i≠ j hay tồn tại ít nhất một cặp trung bình tổng thể khácnhau

Tính các giá trị kiểm định thống kê:

Trang 10

Trong đó trung bình mẫu ´x1,´x2,´x k ,được tính theo công thức:

Trang 11

Tổng các độ lệch bình phương giữa các nhóm (SSB):

Tổng các độ lệch bình phương của toàn bộ tổng thể (SST):

Hay

Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các nhóm):

Các phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự

do tương ứng

MSW: Là phương sai nội bộ nhóm (mẫu)

SSB: Là phương sai giữa các nhóm (mẫu)

Trang 12

k: là số nhóm (mẫu)

N: là tổng số quan sát của các nhóm

Miền bác bỏ: RR = (fα (k-1; N-k); +∞)

Kiểm định giả thuyết:

Tính tiêu chuẩn kiểm định F (F thực nghiệm)

Nếu: Fqs ∈RR => Bác bỏ giả thuyết H0, chấp nhận H1 Nghĩa là các số trung bình của ktổng thể không bằng nhau

Fqs không thuộc RR => chưa bác bỏ được giả thuyết H0

Hệ số xác định: R 2

Hệ số xác định R2 của mô hình Phân tích phương sai được sử dụng để đo mức độ ảnhhưởng của yếu tố được xem xét trong mô hình đối với sự biến động của các giá trị củabiến ngẫu nhiên X quanh giá trị trung bình của nó

R2 càng lớn thì mô hình càng gọi là thích hợp

3.2 Phân tích sâu ANOVA một yếu tố

Mục đích của phân tích phương sai là kiểm định giả thuyết 𝐻0 rằng trung bình của tổngthể bằng nhau Sau khi phân tích và kết luận cho bài toán Anova, có hai trường hợp xảy

ra ra:

Trang 13

+ Chưa bác bỏ được giả thiết H0, hay là chưa có bằng chứng về sự khác biệt của các trungbình

+ Bác bỏ H0, chấp nhận H1 => Trung bình của các nhóm không bằng nhau (hay là sựkhác biệt có ý nghĩa thống kê) Nói chung thì chúng ta không biết được sự khác biệt đó là

từ một hay từ những nhóm nào Do đó ta có thể muốn phân tích thêm: nhóm nào đó cótrung bình lớn hơn, bằng, hay nhỏ hơn so với những nhóm khác?

Có nhiều phương pháp đưa đến kết quả mong muốn Chúng ta còn gọi đó là các phươngpháp so sánh bội (Multiple comparison methods)

Cách 1: Dùng LSD test: Kiểm định so sánh lần lượt tất cả các cặp trung bình của 2 nhómkhác nhau (C k2 cặp); với các giả thuyết tương ứng:

Nếu khoảng tin cậy chứa số 0 thì ta không kết luận được có sự khác biệt giữa µi và µj

Trang 14

Số khoảng tin cậy cần tìm: C2.

4 Hồi quy đa biến

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụthuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với haihoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)

Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thunhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bìnhquân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinhnghiệm, độ tuổi,…

4.1 Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y = β1 + β2X2 + β3X3 + … + βkXk + uTrong đó: Y: biến phụ thuộc

Xi: biến độc lập

β1: hệ số tự do (hệ số chặn)

βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiệncác biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hìnhkhông đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫunhiên

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y)dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất củacác thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng chocác trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gianngười dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đóv.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ướclượng các tham số của tổng thể: β1, β2,…, βk

4.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội

a Hàm hồi quy tổng thể (PRF – Population Regression Function)

Trang 15

Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phânphối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2,

X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk

Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)

b Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụthuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.Trên một mẫu có n cá thể, gọi ^Y = F^(X2, X3,…, Xk) làhồi quy mẫu

Với một cá thể mẫu Yi ≠ F^(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F^ (X2, X3,…, Xk); ei gọi làphần dư SRF

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

^yi = ^β1 + ^β2x2,i + ^β3x3,i + … + ^βkxk,iPhần dư sinh ra: ei = yi – ŷi

Ký hiệu: ^βm là ước lượng của βm Chúng ta trông đợi^βm là ước lượng không chệch của βm,hơn nữa phải là một ước lượng hiệu quả

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việctìm các tham số của F^ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ chotham số của F

4.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl FriedrichGauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do

đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độgốc và độ dốc sao cho phần dư là nhỏ

Trang 16

a Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việcước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giảthiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượngtuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLSđưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS làBLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS cóphương sai bé nhất Các giả thiết như sau:

1 Hàm hồi quy là tuyến tính theo các hệ số

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan

hệ dưới dạng:

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + uhoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế

2 E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mangdấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên cóthể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trongtổng thể

3 Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui

Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:

Var(ui) = E(ui2) = σ2

.

4 ui phân phối chuẩn

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyếttrong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên khôngmấy quan trọng

5 Giữa các ui thì độc lập với nhau

4.3.1 Ước lượng

Trang 17

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i

ŷi ký hiệu giá trị của hàm hồi quy mẫu

Trang 18

 Σ(yi – ӯ))2 : TSS – Total Sum of Squares

 Σ(ŷi – ӯ))2 : ESS – Explained Sum of Squares

 Σei2 : RSS – Residual Sum of Squares

 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giátrị nhận được từ hàm hồi quy

 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

Trang 19

 Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụthuộc y.

rong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến

x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2

R2 = ^β2Σ( yi- ´y )( x2i- ´x2)+ ^β 3 Σ( yi- ´y )( x3i- ´x3)

2

Σ( yi- ´y )2

4.5 Khoảng tin cậy và kiểm định các hệ số hồi quy

a Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn phảikiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk.Các phân bố này phụ thuộc vào phân bố của các ui

Với các giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phốichuẩn:

^βj N(βj, Se(^βj))

^β j -β j

Se ( ^β j) ~T (n − k)

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số

hệ số có trong phương trình hồi quy đa biến:

Trang 20

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ

số hồi quy có ý nghĩa thống kê hay không

Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj* Nếu giả thiết này đúng thì:

c Kiểm định ý nghĩa của mô hình

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩađược hiểu là tất cả các hệ số hồi quy riêng đều bằng 0

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể nhưsau:

 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”

 Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk, sau đótính tổng bình phương sai số RSSU, RSSR Phân phối F là tỷ số của hai biến ngẫu nhiênphân phối khi bình phương độc lập Điều này cho ta trị thống kê:

Fc = [RSS R − RSS U]/(k −m)

RSS U/(n −k ) ~ F(α, k – m, n – k)

Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này

sẽ là:

Trang 21

III Tiền xử lý số liệu

- Đọc dữ liệu vào R và xem 6 dòng đầu tiên của dữ liệu:

- Tạo một tệp con bao gồm các biến chính cần phân tích:

Trang 22

Kiểm tra dữ liệu khuyết trong tệp tin:

Nhận xét: Tệp tin không chứa dữ liệu khuyết

IV Thống kê mô tả

- Tạo function và lập bảng tính thống kê mô tả và độ lệch chuẩn cho các biến liên

tục

- Lập bảng phân phối tần số cho các biến phân loại:

Tiêu đề	Báo cáo Bài tập lớn môn học Xác suất & Thống kê
Tác giả	Lớp, Khoa Cơ Khí
Người hướng dẫn	ThS. Nguyễn Thị Kiều Ân
Trường học	Trường Đại học Bách Khoa
Chuyên ngành	Xác suất & Thống kê
Thể loại	Bài tập lớn
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	29
Dung lượng	1,65 MB