KAA MIB ccccccsscssssssssnsessessssvessvessssssesssesntvesstensiesstenetnstieneteetientieeeieeeiensieetsenesiesseseee 6 2.2 Ước lượng các tham số của mô hình hải quy tuyến tính bậi....
Trang 1Nguyễn Nhật Khang 2311453 Cơ khí
Hồ Vĩnh Khang 2211426 Cơ khí
Thái Tài Nguyên 2212324 Cơ khí
Giảng viên hướng dẫn: ThS Nguyễn Thị Kiều Ân
Thành phố Hồ Chí Minh, tháng 11 năm 2024
Trang 2
KHOA CƠ KHÍ XAC SUAT THONG KE
BANG PHAN CONG CONG VIEC
Nhóm trưởng: Võ Ngọc Tâm - tam.vongoc2550@hcmut.edu.vn
Nguyên Nhật Kh guy ậ ang 25% 6 Word
Trang 3
KHOA CƠ KHÍ XAC SUAT THONG KE
MUC LUC
PHAN 1: TONG QUAN DỮ LIỆU 222222222222222222211212222 111 ee 5 PHAN 2: KIEN THUC NEN cccccsccscsssssssssssessssssssscesssssneessiessiestiessieesiessiestieesteesie 6 2.1 KAA MIB ccccccsscssssssssnsessessssvessvessssssesssesntvesstensiesstenetnstieneteetientieeeieeeiensieetsenesiesseseee 6
2.2 Ước lượng các tham số của mô hình hải quy tuyến tính bậi 6
2.2.1 Hàm hài quy tông thê (PRF —- Population Regression Function) 6
2.2.2 Hàm hài quy mẫu (SRF - Sample Regression Function) - 7
2.3 Phương pháp bình phương nhé nhat (Ordinary Least Squares) 7
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội - 2222¿-+222222222E15E1212711511217711E277111E22T11E -T1EE 1E E02 cee 7 II 2ð v00 ôn d4 8
2.4 Độ phù hợp của mô hình c2 erie 9 2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy . 2222222cccccccrrrrre 1Í 2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy -cc -+: 1Í 2.5.2 Kiểm định giả thiết đối với fj -22222 222222222cEEEEE22122 2222111111111 12
2.6 Kiểm định ý nghĩa của mô hình -+22EEE2222222+++t22EEEEEEEE1322212c 2EEEEEE ecce 12 PHẢN 3: TIỀN XỬ LÝ SỞ LIỆU 2- 2522522212222 2112112212212211221211 22122 xe 14 SoD Be an 14
3.2 Kiểm tra đữ liệu bị khuyết -2-22+2222EE221112222 E122 crrre 15 PHAN 4: THONG KE MÔ TA ooccccsscscccccccccccsssssssssssscssecessesssssssssssssessessssssssssssssscsssessseesssssesseees 16
4.1 Tính thống kê mô tả cho các biến liên tục -222222222ccccccrrrtrEEEErrkrreeerrea 16
4.2 Vẽ đồ thị histogram thế hiện phân phối của 3 biến roughness,
tension_ strenght, elongat†ion -:c-c ca 21eree 17
Trang 4KHOA CƠ KHÍ XAC SUAT THONG KE
4.3 Vé biéu dé boxplot thé hién phan phối của 3 biến roughness, tension_ strenght,
elongation theo các biến phân loại c222222:+++2222222E21112222222111111122 2.2 cce 18
4.4 Vẽ biểu đồ pairs thể hiện phân phối của 3 biến roughness, tension_strenght,
elongation lần lượt theo các biến liên tục . -:++222222222222222E 2222111.Eeecce 21
4.5 Vẽ đồ thị ma trận tương quan giữa các biến trong bộ dữ liệu 24
PHẢN 5: THÓNG KẾ SUY DIỄN 2222222222222 25
5.1 Xây dựng các MO NINN Noi QUY « ccceececsccceccsssssssssseeessesseseessssseesseeessesestenesssnetmensseeeenssnesaneees 25 5.2 Tác động của các biến đối với roughness -222222cc++t22EE222222222222ecrrrrrrrer 28 5.3 Các giả định trong mô hình hồi QUy -22222EEV22222222++222EEEEE22222222 rrrrrrrrkk 28 5.4 Thực hiện vẽ đồ thị kiểm tra các giả định (kiểm tra điều kiện mô hình hồi
ð0 0 29
PHẢN 6: THẢO LUẬN VÀ MỞ RỌNG 222222222.ee 31
PHAN 7: NGUON DỮ LIỆU VÀ NGUỎN CODE R sec 32 TÀI LIỆU THAM KHẢO 2222222222222 ae 33
Trang 5KHOA CƠ KHÍ XAC SUAT THONG KE
PHAN 1: TONG QUAN DU LIEU
Đề bài: Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số
điều chỉnh trong máy ¡in 3D đến chất lượng in, độ chính xác và độ giãn của bản in
Trong đó có 9 thông số cài đặt và 3 thông só đầu ra được đo lường Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến trong bộ dữ liệu gồm:
layer_height lién tuc mm độ cao mỗi lớp ín
infill_density liên tục % độ rộng peg trang chí infill_pattern phân loại Honeycomb độ đặc rong cua chi
wall_thickness lién tuc mm bé day tuong
nozzle_temperature lién tuc °C nhiệt độ mũi In
bed_temperature liên tục °C nhiét d6 ban in
print_speed liên tục mm/s tốc độ in
fan_speed liên tục mm/s tốc độ quạt
material phân loại Abs & Pla chat liệu in
roughness liên tục um độ nhằm
Trang 6
KHOA CƠ KHÍ XAC SUAT THONG KE PHAN 2: KIEN THUC NEN
2.1 Khái niệm
Hài quy chính là một phương pháp thống kê đề thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với
hai hoặc nhiều biến độc lập được gọi là hỏi quy bội (hay còn gọi là hỏi quy đa biến)
Mô hình hài quy tuyến tính bội có dạng tổng quát như sau:
8,: hệ số hồi quy riêng
8, đo lường tác động riêng phân của biến X¡ lên Y với điều kiện các biến số khác
trong mô hình không đôi Qụ thẻ hơn, nêu các biến khác trong mô hình không đôi, giá
trị kỳ vọng của Y sẽ tăng ji đơn vị nếu Xi tăng I đơn vị u: sai số ngẫu nhiên
Như vậy, "Hồi quy tuyến tính" là một phương pháp đề dự đoán giá trị biến phụ
thuộc (Y) dựa trên giá tri của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng
ban chat của các thông số của tông thê : và ÿ¡ là tuyến tính (bậc nhát) Nó có thê được
Sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Băng dữ liệu thu thập được, ta đi ước lượng hàm hỏi quy của
tổng thẻ, đó là ước lượng các tham só của tông thê: /à, ;, ,
2.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.2.1 Ham hoi quy tông thê (PRF — Population Regression Function)
Với Y là biến phụ thuộc, X:, Xa , X¿ là biến độc lập, Y là ngẫu nhiên và có một
phân phối xác suất nào đó Suy ra: Tồn tại E(YIX+, Xa, , X¿) = giá trị xác định Do vậy, F(X1, X2, , Xk) = E(YIX1, X2, , Xk) là hàm hài quy tông thê của Y theo X:, Xa, ,X‹ Voi mot ca thé i, ton tại (X+¡, X2i, ., Xki, Yi)
Ta có: Y¡ #£ F(X1, Xe, , Xk) > U = Yi-F
Trang 7KHOA CƠ KHÍ XAC SUAT THONG KE
Do vay: Yi = E(YIXi, Xa, , Xk) + Ui
Hài quy tông thẻ PRF:
" Y=E(YIX)+U
# E(YIX) = F(X)
2.2.2 Ham hoi quy mau (SRF — Sample Regression Function)
Do không biết tông thẻ, nên chúng ta không biết giá trị trung bình tông thẻ của biến
phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu đề ước
lượng
Trên một mẫu có n cá thẻ, gọi # Ê(Xa, Xa , Xx) là hồi quy mẫu
Với một cá thẻ mẫu Y¡zZXXa¡, Xa¡ , Xxj) sinh ra ei = Y¡ Xa, Xa , Xk); Đị gọi
la phan dur SRF
Ta có hàm hỏi quy mẫu tông quát được viết dưới dạng như sau:
Ji = Br + Poxoi + Poxait + xxi
Phần dư sinh ra: e¡ = Y¡ — Ệ¡
Ký hiệu: Bm là ước lượng của m Chúng ta trông đợiÌä là ước lượng không chệch
của Bm, hơn nữa phải là một ước lượng hiệu quả
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham só củâ Wa lay giá trị quan sát của các tham số này làm giá tri x4p xi cho tham só của F
2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hài quy tuyên tính bậi
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa
mãn 7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS)
là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế
phương pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhát (BLUE)
Trang 8KHOA CƠ KHÍ XAC SUAT THONG KE
Kết quả này được gọi là Định lý Gauss - Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tat cả các tổ hợp tuyến tính không chệch của Y, ước
lượng OLS có phương sai bé nhất Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số
Điều này có nghĩa là quá trình thực hành hỏi quy trên thực tế được miêu tả bởi mối
2/ E(u) = 0 : Kỳ vọng của các yếu tô ngấu nhiên u¡ bằng 0
Trung bình tông thẻ sai số là băng 0 Điều này có nghĩa là có một Số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thẻ giả định răng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thê
3/ Var(ui) = ø2 : Phương sai bằng nhau và thuan nhat voi moi ui
Tat ca gia tri u được phân phối giống nhau với cùng phương sai ø2, saO cho:
Var(ui) = E(u?) = o?
4/ ui phan phéi chuan
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết
trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không
máy quan trọng
5/ Giữa các u¡ thi độc lập với nhau
2.3.2 Ước lượng
Ta đặt:
y¡ ký hiệu giá trị thực của biến y tai quan sat i
$¡ ký hiệu giá trị của hàm hỏi quy mẫu
e¡ ký hiệu phần dư y¡ — ộ¡
Trang 9KHOA CƠ KHÍ XAC SUAT THONG KE
Ta có: Xe2 = X(y¡- (+ |bXz¡ + ÈXa¡ + Xá¡ + + Bux)?
Chúng ta có thiết lập các điều kiện bậc nhát cho phép tính tối thiểu này như sau:
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu
Chúng ta có thẻ giải k phương trình chuẩn này để tìm k hệ số đhưa biết fhị, Bo, , fk
được gọi là các ước lượng bình phương nhỏ nhất
2.4 Độ phù hợp của mô hình
Đề có thê biết mô hình giải thích được như thế nào hay bao nhiêu % biến động cua
biến phụ thuộc, người ta sử dụng R?
Ta có: 3Áý¡ - ÿ) = Z(yi — Hi) + (ði — ÿ)ÏŸ = 3[ei + (ÿ¡ — ÿ)]Ÿ
= >6 + 23@i(Š¡ - ÿ) + X(Š¡ — ÿÝ
Đặt:
* Y(yi-y)* : TSS — Total Sum of Squares
" >(ÿ¡ - ÿ}° : ESS — Explained Sum of Squares
9
Trang 10KHOA CƠ KHÍ XAC SUAT THONG KE
" Yer : RSS — Residual Sum of Squares
Do Sei(9¡ - ÿ) = 0 = (Dewi = 0; Lew = 0)
Ta co thé viét: TSS = ESS + RSS
Y nghia cua cac thanh phan:
= TSS là tông bình phương của tất cả các sai lệch giữa các giá trị quan sát Y; và giá tri
trung bình
« ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hỏi quy mẫu và giá trị trung bình của chúng Phản này đo độ chính xác của hàm hồi quy
“_RSS là tông bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được từ hàm hồi quy
» TSS duoc chia thanh 2 phan: mét phan do ESS và một phan do RSS gây ra Tir TTS = ESS + RSS, ta chia ca hai vé cho TSS, ta co:
Tỷ sô giữa tông biên thiên được giải thích bởi mô hình cho tông bình phương cân
được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of ft” Từ định
nphĩa R2 chúng ta thấy R2 đo ty lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm
hồi quy:
0 <R2<1
" RẺ cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc
“ Nếu R2 = I, nghĩa là đường hồi quy giải thích 100% thay đổi của y
= Nếu R2=0, nghĩa là mô hình không đưa ra thông tin nào về Sự thay đổi của biến phụ thuộc y
10
Trang 11KHOA CƠ KHÍ XAC SUAT THONG KE
Trong mô hình hỏi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các
biến xa và Xa gây ra được gọi là hệ số xác định bội, ký hiệu là R2:
R2= ỀXW,- y)Gai- Xa)+tfŠXG¡- ÿ)Gxai Xã) = — 1 - xế
XWi- y) X(y¡-ÿ)
2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy
2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hỏi quy không phải chỉ suy đoán về +, Ba , P mà còn phải
kiêm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bé xac suat cua Bi, a « Các phân bó này phụ thuộc vào phân bó của các ui
Với các giả thiết OLS, u¡ có phân phối N (0, ø2) Các hệ số ước lượng tuân theo phân phối chuẩn:
Bi ~ N(B;, Se(R)) Bi-Bi
Trang 12KHOA CƠ KHÍ XAC SUAT THONG KE
[8 — te(n-3)Se(B)] : [Bj + te(n-3)Se(B})
2.5.2 Kiém dinh gia thiết đối với Bj
Kiểm định ý nghĩa thông kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách
khác là hệ số hỏi quy có ý nghĩa thống kê hay không
Có thê đưa ra giả thiét nao do déi voi Bj, chang han Bj = Bị" Nếu giả thiết này đúng
thì:
T=-È— ~T(n —k)
Se(h,)
Ta có bảng sau:
Loại gi thiết Gi¿ thiết Ho Giá thiết H¡ Miễn bác bá
2.6 Kiểm định ý nghĩa của mô hình
Trong mô hình hỏi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiệu là tất cả các hệ số hồi quy riêng đều băng 0
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thê như sau:
12
Trang 13KHOA CƠ KHÍ XAC SUAT THONG KE
" Bước 1: Gia thuyét “khong” la Ho: B2 =Bs = =Bx = 0
Giả thuyết đối là H-: “có ít nhất một trong những giá trị B khac khéng”
" Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và Xa, Xa, , X, sau đó tính tông bình phương sai số RSSu, RSSa Phân phối F là tý số của hai biến ngấu nhiên
phân phối khi bình phương độc lập Điều này cho ta trị thống kê:
Trang 14KHOA CƠ KHÍ XAC SUAT THONG KE
PHAN 3: TIEN XU LY SO LIEU
40 honeycomb 200
al fan_speed roughness tension strenght
abs 25 32 1€
abs 20 4 abs 75 68 1
ab 100 pla 0 60 24
Hinh 2 Két qua xem 6 dong dau tiên của dữ liệu Tạo một tệp con new_ data bao gồm các biến chính cần phân tích:
Ta dùng hàm new_ data <- data[,c(các biến chính)] và head(new_ data) đề xem dữ liệu
Trang 15KHOA CƠ KHÍ XAC SUAT THONG KE
3.2 Kiểm tra dữ liệu bị khuyết
Kiêm tra các dữ liệu bị khuyết trong tệp tin:
Ta dùng hàm colSums(is.na(new_ data)) đề kiếm tra dữ liệu khuyết trong tệp tin:
Trang 16KHOA CƠ KHÍ XAC SUAT THONG KE
PHAN 4: THONG KE MO TA
4.1 Tính thống kê mô tả cho các biến liên tục
Tạo function và lập bảng tính thông kê mô tả cho các biến liên tục:
conts_var<-data[,c("Layer_hoight", "wall_thickness","infill_donsity"
“bed_temperature","print_speed",
"fan sp ] des_function<-function (x) summary (x) ,s=sd{x))}
apply (conts_var, 2,des_function)
Hinh 6 Két qua phan logi cho bién infill pattern
Hinh 7 Két qua phan loai cho bién material
16