1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo bài tập lớn môn học xác suất thống kê học kỳ 222

32 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích hồi quy tuyến tính bội để đánh giá các nhân tố ảnh hưởng đến độ bền kéo
Tác giả Nguyễn Vũ Anh Khoa, Võ Tấn Lộc, Phạm Thành Tài, Lê Trường Thái, Phùng Đặng Phương Thảo
Người hướng dẫn T.S Nguyễn Tiến Dũng
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa, Khoa Cơ khí
Chuyên ngành Xác suất Thống kê
Thể loại Bài tập lớn
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 867,06 KB

Nội dung

, Xk,i, Yi 1.1.2 Hàm hồi quy mẫu SRF - Sample Regression Function: Bởi vì không biết tổng thể nên không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào.Do vậy ch

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA CƠ KHÍ

BÁO CÁO BÀI TẬP LỚN

MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 222

5 Phùng Đặng Phương Thảo 2112318 L05 Cơ khí

Tp Hồ Chí Minh, 27/04/2022

Trang 2

PHÂN CÔNG LÀM VIỆC

Nhóm trưởng(Ký và ghi rõ họ tên)

Nguyễn Vũ Anh Khoa

Trang 3

Mục lục

1.1 Giới thiệu mô hình hồi quy tuyến tính bội 6

1.1.1 Hàm hồi quy tổng thể (PRF - Population Regression Function) 6

1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function): 6

1.1.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) 6

1.1.4 Độ phù hợp của mô hình 7

1.1.5 Khoảng tin cậy và kiểm định các hệ số hồi quy 7

1.1.6 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định WALD) 8

2 HOẠT ĐỘNG 10 2.1 Đề bài 10

2.2 Yêu cầu 10

2.3 Thực hiện 11

2.3.1 Đọc dữ liệu (Import data) 11

2.3.2 Làm sạch dữ liệu (Data cleaning) 11

2.3.3 Làm rõ dữ liệu: (Data visualization) 11

2.3.4 Xây dựng các mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến độ bền kéo 19

Trang 4

Danh sách bảng

1.1 Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng 8

Trang 5

Danh sách hình vẽ

2.1 Code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin 11

2.2 Code R và kết quả khi trích dữ liệu gồm các biến chính và đổi tên các cột 11

2.3 code R và kết quả khi thực hiện thống kê mô tả cho các biến 12

2.4 code R và số lần xuất hiện biến infill_pattern 12

2.5 code R và số lần xuất hiện biến material 12

2.6 code R và kết quả khi vẽ đồ thị Histogram cho biến tension_strength 13

2.7 code R và đồ thị phụ thuộc giữa tension_strength và infill_pattern 14

2.8 code R và đồ thị phụ thuộc giữa tension_strength và material 15

2.9 code R và đồ thị phụ thuộc giữa tension_strength và layer_height 16

2.10 code R và đồ thị phụ thuộc giữa tension_strength và wall_thickness 16

2.11 code R và đồ thị phụ thuộc giữa tension_strength và infill_density 17

2.12 code R và đồ thị phụ thuộc giữa tension_strength và nozzle_temperature 17

2.13 code R và đồ thị phụ thuộc giữa tension_strength và bed_temperature 18

2.14 code R và đồ thị phụ thuộc giữa tension_strength và print_speed 18

2.15 code R và đồ thị phụ thuộc giữa tension_strength và fan_speed 19

2.16 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính M1 20

2.17 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính M1 21

2.18 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính M2 23

2.19 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính M6 24

2.20 code R và kết quả khi xét 2 mô hình M2 và M6 24

2.21 code R và kết quả đồ thị Residual vs Fitted 25

2.22 code R và kết quả đồ thị Normal Q-Q 26

2.23 code R và kết quả hàm ols_test_normality 27

2.24 code R và kết quả đồ thị Scale - Location 28

2.25 code R và kết quả hàm kiểm định 29

Trang 6

LỜI CẢM ƠNLời đầu tiên, nhóm 3 - L05 gửi đến thầy Nguyễn Tiến Dũng ,người hướng dẫn cho nhóm hoànthành đề tài này một lời tri ân sâu sắc Nhờ có những bài giảng cùng sự tâm huyết của thầy trên lớp

mà tụi em nắm được cơ sở lí thuyết một cách khoa học, cụ thể nhất để giải quyết bài báo cáo trêntheo đúng thời hạn đã giao

Bên cạnh đó, nhóm 3 - L05 cũng xin trân trọng cám ơn những ý kiến đóng góp, giúp đỡ và chỉbảo tận tình của thầy cô, bạn bè, đã giúp cho bài báo cáo trở nên hoàn thiện hơn

Nhóm L05 xin chân thành cám ơn sự hỗ trợ, tương tác lẫn nhau của từng cá nhân trong nhóm.Qua quá trình làm việc nhóm, chúng em đã hiểu rõ hơn về ANOVA đồng thời tăng đoàn kết tronghọc tập lẫn công việc

Do chưa có nhiều kinh nghiệm làm việc với phần mềm RStudio, cũng như những hạn chế về mặtkiến thức chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhận xét, ý kiếnđóng góp, phê bình từ phía cô để bài báo cáo được hoàn thiện hơn

Lời cuối cùng, nhóm 3 - L05 xin gửi lời cám ơn chân thành nhất tới những người đã hỗ trợ nhómtrong quá trình làm bài báo cáo Mong nhận được sự góp ý từ thầy và các bạn

Trang 7

1 CƠ SỞ LÝ THUYẾT

1.1 Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y = β1+ β2X2+ β3X3+ + βkXk+ u Trong đó:

+ Y: Biến phụ thuộc

+ Xi: Biến độc lập

+ β1: Hệ số tự do (hệ số chặn)

+ βi: Hệ số hồi quy riêng

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y )dựa trên giá trị của biến độc lập (X) Nó có thể sử dụng cho các trường hợp chúng ta muốn dự đoánmột số lượng liên tục Ví dụ dự đoán thời gian người đọc dừng lại một trang nào đó hay số người đãtruy cập vào một website, Thông qua việc thu thập dữ liệu thực tế, chúng ta ước lượng hàm hồiquy của tổng thể, đó là ước lượng các tham số của tổng thể

1.1.1 Hàm hồi quy tổng thể (PRF - Population Regression Function)

Với Y là biến phụ thuộc X2, X3, ,Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xácsuất nào đó Suy ra tồn tại E (Y | X2, X3, , Xk) = giá trị xác định

Do vậy, F (X2, X3, , Xk)=E (Y | X2, X3, , Xk) là hàm hồi quy tổng thể của Y theo X2, X3, ,Xk.Với một cá thể i, tồn tại (X2,i, X3,i, , Xk,i, Yi)

1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function):

Bởi vì không biết tổng thể nên không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng

ở mức độ nào.Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng

Trên một mẫu có n cá thể, gọi ˆY = ˆF (X2, X3, , Xk) là hồi quy mẫu Với một cá thể mẫu

Yi̸= ˆF (X2,i, X3,i, , Xk,i) sinh ra ei− Yi− ˆF (X2, X3, , Xk); ei gọi là phần dư SRF

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

ˆi= ˆβ1+ ˆβ2x2,i+ ˆβ3x3,i+ + ˆβkxk,iPhần dư sinh ra: ei = yi− ˆyi, ký hiệu: ˆβm là ước lượng của βm Chúng ta mong đợi ˆβm là ướclượng không chênh lệch của βm, hơn nữa phải là một ước lượng hiệu quả Ước lượng SRF: chọn mộtphương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của ˆF và lấy giá trịquan sát của các tham số này làm giá trị xấp xỉ cho tham số của F

1.1.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Các giả thuyết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội nhưsau:

a Hàm hồi quy là tuyến tính theo các tham số:

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dướidạng: y = β1+ β2x2+ β3x3+ β4x4+ + βkxk+ u hoặc mối quan hệ thực tế có thể được viết lại ví

dụ như dưới dạng lấy loga cả hai vế

b Kỳ vọng của các yếu tố ngẫu nhiên: ui= 0

Trung bình tổng thể sai số bằng 0 Nghĩa là có một số giá trị sai số mang dấu dương và một sốsai số mang dấu âm Do hàm xem là đường trung bình nên giả định các sai số ngẫu nhiên trên sẽ loại

Trang 8

trừ lẫn nhau ở mức trung bình trong tổng thể.

c Cov(ui,uj) = 0: Các sai số độc lập với nhau

d Var (ui) = σ2: Các sai số có phương sai bằng nhau

Tất cả các giá trị u được phân phối giống nhau với cùng phương sai σ2sao cho Var (ui) = E u2i =

σ2

e Các sai số có phân phối chuẩn

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trongnhững phạm vị mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không còn quan trọng.1.1.4 Độ phù hợp của mô hình

Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụthuộc, người ta sử dụng R2

Ta có:

- Σ (yi− ¯y)2: TSS - Total Sum of Squares

- Σ (ˆyi− ¯y)2: ESS - Explained Sum of Squares

- Σe2i : RSS - Residual Sum of Squares

Có thể viết lại: TSS = ESS + RSS

Ý nghĩa của các thành phần:

- TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trungbình

- ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được

từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy

- RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhậnđược từ hàm hồi quy

- TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra

R2 được xác định theo công thức:

sử dụng R2 để đo sự phù hợp của hàm hồi quy:

- 0 ≤ R2≤ 1

- R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biếnphụ thuộc

- Nếu R2= 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y

- Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y.1.1.5 Khoảng tin cậy và kiểm định các hệ số hồi quy

a Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Với các giả thiết OLS, ui có phân phối N 0, σ2 Các hệ số ước lượng tuân theo phân phối chuẩn:

ˆ

σ2= P e2

i

n − k

Trang 9

- Ước lượng 2 phía, tìm được t α

2(n − k) thỏa mãn:

P

−t α2(n − k)

≤ βj − βjˆSe( ˆβj) ≤ P

t α2(n − k)

b Kiểm định giả thuyết đối với βj

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giảithích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩathống kê hay không

Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj∗ Nếu giả thiết này đúng thì:

Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0

Bảng 1.1 Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng

Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏHai phía β1 = βi∗ βi ̸= β∗i |t| > tα/2;n−kPhía phải β1 ≤ βi∗ βi > β∗i t > tα;n−k

a Khái quát về kiểm định WALD

Giả sử chúng ta có 2 mô hình sau:

(U) : Y = β1+ β2X2+ β3X3+ β4X4+ u

(R) : Y = β1+ β2X2+ v

Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được gọi là mô hìnhgiới hạn (Restrict) Đó là do β3 và β4 buộc phải bằng 0 trong mô hình R Ta có thể kiểm định giảthuyết liên kết β3 = β4 = 0 với giả thuyết đối là ít nhất một trong những hệ số này không bằng 0.Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald, thủ tục như sau

Đặt các mô hình giới hạn và không giới hạn là:

(U) : Y = β1+ β2X2+ + βmXm+ βm+1Xm+1+ + βkXk+ u

(R) : Y = β1+ β2X2+ + βmXm+ v

Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là:Xm+1, Xm+1, Xk

Trang 10

Giả thuyết H0 : βm+1 = = βk= 0

Giả thuyết H1 : “Không phải đồng thời các tham số bằng 0”

Lưu ý rằng (u) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết Do đó, môhình R có ít hơn thông số so với U Câu hỏi chúng ta nêu ra là biến bị loại ra có ảnh hưởng liên kết

có ý nghĩa đối với Y hay không

Trị thống kê kiểm định đối với giả thuyết là:

Bác bỏ giả thuyết H0 khi:

Fc> F (α, k − m, n − k)Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước

b Kiểm định ý nghĩa của mô hình

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu

là tất cả các hệ số hồi quy riêng đều bằng 0

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:Bước 1: Giả thuyết Ho: β2 = β3 = = βk= 0

Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”

Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, , Xk, sau đó tính tổngbình phương sai số RSSU, RSSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bìnhphương độc lập Điều này cho ta trị thống kê:

Fc= [RSSR− RSSU] /(k − m)

RSSU/(n − k) ∼ F (α, k − m, n − k)

Vì H0 : β2 = β3 = = βk= 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này sẽ là:

Fc= ESS/(k − 1)RSS/(n − k) ∼ F (α, k − 1, n − k)Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k˘1) cho tử số và (n˘k) cho mẫu số,

và với mức ý nghĩa α cho trước

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc> F (α, k − 1, n − k)

Đối với phương pháp giá trị p-value, tính giá trị p = P (F > Fc| H0) và bác bỏ giả thuyết H0 nếu p

bé hơn mức ý nghĩa α

Trang 11

2 HOẠT ĐỘNG

2.1 Đề bài

Tập tin data.csv chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk Mục đíchcủa nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến chấtlượng in, độ chính xác và độ giãn của bản in Trong đó có 9 thông số cài đặt và 3 thông số đầu rađược đo lường Dữ liệu gốc được cung cấp tại:https://www.kaggle.com/datasets/afumetto/3dprinter

Các biến chính trong bộ dữ liệu gồm:

ˆ layer_height: Độ cao mỗi lớp in (mm)

ˆ wall_thickness: Độ dày mỗi lớp in (mm)

ˆ infill_density: mật đô thẩm thấu (%)

ˆ infill_pattern: Dạng lưới bên trong chi tiết (gồm 2 lựa chọn grid hoặc honeycomb)

ˆ nozzle_temperature: Nhiệt độ của mũi in (oC)

ˆ bed_temperature: Nhiệt độ của bàn in (oC)

2.2 Yêu cầu

Các bước thực hiện:

a Đọc dữ liệu (Import data): data.csv

b Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

c Làm rõ dữ liệu: (Data visualization)

- Chuyển đổi biến (nếu cần thiết)

- Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

d Xây dựng các mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến độ bền kéo

Trang 12

2.3 Thực hiện

2.3.1 Đọc dữ liệu (Import data)

Đọc tệp tin data.csv và xuất 10 dòng đầu tiên của dữ liệu

Hình 2.1 Code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin

2.3.2 Làm sạch dữ liệu (Data cleaning)

Kiểm tra các dữ liệu bị khuyết trong tập tin

Hình 2.2 Code R và kết quả khi trích dữ liệu gồm các biến chính và đổi tên các cột

Nhận xét:: Dữ liệu data không có giá trị bị khuyết

2.3.3 Làm rõ dữ liệu: (Data visualization)

a Tính các thông số thống kê đặc trưng với các biến liên tục (trung bình, trung vị, độ lệch chuẩn, giátrị lớn nhất và giá trị nhỏ nhất

Đối với các biến liên tục, ta tính những giá trị thống kê mô tả đặc trưng bao gồm: trung bình,trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất của các biến liên tục layer_height,nozzle_temperature,bed_temperature,print_speed, tension_strength và lần lượt lưu vàobiến có tên mean,median,sd, max, min

Tạo bảng giá trị thống kê của tất cả các biến

Trang 13

Hình 2.3 code R và kết quả khi thực hiện thống kê mô tả cho các biến.

b.Thống kê số lần xuất hiện đối với biến phân loại (infill_pattern và material)

• Đối với biến infill_pattern

Hình 2.4 code R và số lần xuất hiện biến infill_pattern

• Đối với biến material

Hình 2.5 code R và số lần xuất hiện biến material

c Vẽ đồ thị Histogram cho biến tension_strength

Trang 14

Hình 2.6 code R và kết quả khi vẽ đồ thị Histogram cho biến tension_strength

Nhận xét: Biểu đồ có phân phối gần bên trái và một chút bên phải, độ bền kéo bề mặt tậptrung phần lớn ở mức 10 MPa đến 35 MPa, cao nhất ở mức 25 MPa đến 30 MPa, thấp nhất ở mức ởmức 35 MPa đến 40 MPa Đặc biệt, đồ thị này có dạng phân phối chuẩn

d Vẽ đồ thị phân tán thể hiện phân phối của biến tension_strength theo các biến infill_pattern,material

infill_pattern: Vẽ biểu đồ Boxplot của biến tension_strength cho từng nhóm của biến fill_pattern

Trang 15

in-Hình 2.7 code R và đồ thị phụ thuộc giữa tension_strength và infill_pattern

Nhận xét: Dựa trên đồ thị boxplot giữa biến tension_strength và 2 biến phân loại của fill_pattern có thể thấy:

in Ở loại dạng lưới (grid):

+ +Độ bền kéo cao nhất khoảng 37 và thấp nhất khoảng 5

+ Có 25 % mẫu dạng lưới (grid) ở khoảng độ bền kéo dưới 12

+ Có 50 % mẫu dạng lưới (grid) ở khoảng độ bền kéo dưới 18

+ Có 75 % mẫu dạng lưới (grid) ở khoảng độ bền kéo dưới 27

- Ở loại dạng tổ ong (honeycomb):

+ Độ bền kéo cao nhất khoảng 34 và thấp nhất khoảng 4

+ Có 25 % mẫu dạng lưới (honeycomb) ở khoảng độ bền kéo dưới 12

+ Có 50 % mẫu dạng lưới (honeycomb) ở khoảng độ bền kéo dưới 19

+ Có 75 % mẫu dạng lưới (honeycomb) ở khoảng độ bền kéo dưới 27

Nhận xét: Độ bền kéo của grid so với độ bền kéo của honeycomb không chênh lệch nhiều, không

có ngoại lai Quan trọng là đồ thị không chênh lệch nhiều nên các nhóm giá trị của biến phân loạiinfill_pattern không ảnh hưởng nhiều đến biến tension_strength

material: Vẽ biểu đồ Boxplot của biến tension_strength cho từng nhóm của biến material

Trang 16

Hình 2.8 code R và đồ thị phụ thuộc giữa tension_strength và material

Nhận xét: Dựa trên đồ thị boxplot giữa biến tension_strength và material có thể thấy:

- Ở loại vật liệu (abs):

+ Độ bền kéo cao nhất khoảng 37 và thấp nhất khoảng 5

+ Có 25 % vật liệu loại abs có độ bền kéo dưới 10

+ Có 50 % vật liệu loại abs có độ bền kéo dưới 16

+ Có 75 % vật liệu loại abs có độ bền kéo dưới 21

- Ở loại dạng vật liệu (pla):

+ Độ bền kéo cao nhất khoảng 33 và thấp nhất khoảng 4

+ Có 25 % vật liệu loại pla có độ bền kéo dưới 14

+ Có 50 % vật liệu loại pla có độ bền kéo dưới 25

+ Có 75 % vật liệu loại pla ở khoảng độ bền kéo dưới 27

Nhận xét: Độ bền kéo của abs tương đối cao so với độ bền kéo của pla và không có ngoại lai.Quan trọng là đồ thị có sự chênh lệch nên các nhóm giá trị của biến material ảnh hưởng đến ten-sion_strength

e Vẽ phân phối của biến tension_strength theo các biến layer_height, wall_thickness,infill_density, nozzle_temperature, bed_temperature, print_speed

Ngày đăng: 16/11/2024, 15:12

w