Tổng quan dữ liệu
Tập tin "data.csv" chứa dữ liệu của nhóm nghiên cứu Khoa Cơ khí - Đại học Selcuk Nghiên cứu này nhằm xác định ảnh hưởng của các thông số điều chỉnh trong máy in 3D lên chất lượng in, độ chính xác và độ giãn của sản phẩm in.
Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đo lường.
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
layer_height (mm): Độ cao mỗi lớp in
infill_pattern: Dạng lưới bên trong chi tiết
nozzle_temperature (ºC): Nhiệt độ của mũi in
bed_temperature (ºC): Nhiệt độ bàn in
print_speed (mm/s): Tốc độ in
material: Chất liệu (pla hoặc abs)
Các biến liên tục: layer_height, nozzle_temperature, bed_temperature, print_speed, roughness, tension strenght, elongation.
Các biến phân loại: infill_pattern và material
Kiến thức nền
Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Trong đó: Y: biến phụ thuộc
Xi: biến độc lập β1: hệ số tự do (hệ số chặn) βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β 1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β 1 , β2,…, βk
Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk. Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:
2.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) là hồi quy mẫu.
Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷi = β̂ 1 + β̂ 2 x2,i + β̂ 3 x3,i + … + β̂ k xk,i
Phần dư sinh ra: ei = yi – ŷi
Ký hiệu: β̂ m là ước lượng của βm Chúng ta trông đợi β̂ m là ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả. Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.
2.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.
2.2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương phápOLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng
OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
2/ E(u i ) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên u i bằng 0
Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
3/Var(u i ) = σ2 : Phương sai bằng nhau và thuần nhất với mọi u i
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ 2 , sao cho:
4/ u i phân phối chuẩn Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng.
5/ Giữa các u i thì độc lập với nhau
Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm hồi quy mẫ
7 i i ei ký hiệu phần dư yi – ŷi
Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei 2 từ đó tìm ra β̂ 0 , β̂ 1 ,…, β̂ k
Ta có: Σei 2 = Σ(yi – (β̂ 1 + β̂ 2 x2,i + β̂ 3 x3,i + β̂ 4 x4,i + … + β̂ k xk,i))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
+β̂ kxki ))xi = 0 kxki )) x2i= 0 kxki )) xki = 0
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu.
Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β̂ chưa biết β̂ 1 , β̂ 2 ,…, β̂ k được gọi là các ước lượng bình phương nhỏ nhất.
2.2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R 2
Ta có: Σ(yi – ӯ)2)2 = Σ[(yi – ŷi) + (ŷi – ӯ)2)]2 = Σ[ei + (ŷi – ӯ)2)]2
= Σei 2 + 2Σei(ŷi – ӯ)2) + Σ(ŷi – ӯ)2)2 Đặt:
Σ(yi – ӯ)2)2 : TSS – Total Sum of Squares
Σ(ŷi – ӯ)2)2 : ESS – Explained Sum of Squares
Σei 2 : RSS – Residual Sum of Squares i
Do Σei(ŷi – ӯ)2) = 0 ⇐ (Σeiŷi = 0; Σeiӯ)2 = 0)
Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.
Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
1 = ESS TSS + RSS TSS = Σe(ŷ i – ӯ)2)2 + Σe(y i - y̅) 2 Σee 2 Σe(y i - y̅) 2
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit” Từ định nghĩa R 2 chúng ta thấy R 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R 2 để đo sự phù hợp của hàm hồi quy: 0 ≤ R 2 ≤ 1.
R 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc.
Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
Nếu R 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y.
Trong mô hình hồi quy đa biến, hệ số xác định bội (R2) cho biết tỷ lệ toàn bộ sự khác biệt của biến y được giải thích bởi sự thay đổi của các biến độc lập x2 và x3 R2 được tính bằng cách chia tổng bình phương lỗi do các biến độc lập gây ra cho tổng bình phương lỗi.
2.2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy
2.2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy không chỉ dừng lại ở việc ước đoán giá trị các hệ số hồi quy β1, β2,…, βk mà còn tiến hành kiểm tra bản chất sự phụ thuộc giữa biến phụ thuộc và các biến độc lập Vì vậy, cần phải xác định phân bố xác suất của các hệ số này Phân bố này phụ thuộc chặt chẽ vào phân bố của lỗi nhiễu u.
Với các giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phối chuẩn: β̂ j ~ N(βj, Se(β̂ j )) β̂ j -βj
Se(β̂ ) ~ T(n − k) Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến: Σee 2 σ̂ 2 = i n - k
Ước lượng 2 phía, ta tìm được t α (n-3)=1- α thỏa mãn:
Khoảng tin cậy 1 - α của βj là:
2.2.5.2 Kiểm định giả thiết đối với β j
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj* Nếu giả thiết này đúng thì:
Loại giả thiết Giả thiết H 0 Giả thiết H 1 Miền ác bỏ
H1: βj ≠ 0 ⇔ xj có tác động βj < 0 ⇔ xj có tác động ngược βj > 0 ⇔ xj có tác động thuận
2.2.6 Kiểm định ý nghĩa của mô hình
Thống kê mô tả
Thực hiện tích thống kê mô tả cho các biến trong bộ dữ liệu
Dựa trên kết quả, ta nhận thấy có 2 biến phân loại là infill_pattern và material
- Lập bảng thống kê số lượng cho infill_pattern, material: hist(data_BTL$tension_strenght,xlab="tension_strenght",main="Biểu đồ histogram của biến tension_strenght",col="cyan3") hist(data_BTL$elongation,xlab="elongation",main="Biểu đồ histogram của biến elongation",col="darkorange3")
Vẽ biểu đồ thể hiện phân phối cho các biến
- Biểu đồ Histogram của các biến “tension strenght”, “elongation”, “roughness” boxplot(data_BTL$roughness~data_BTL$infill_pattern,xlab="infill_pattern",ylab="roughness", col="red") boxplot(data_BTL$roughness~data_BTL$material,xlab="material",ylab="roughness",col="red")
- Biểu đồ boxplot thể hiện phân phối của biến roughness: hist(data_BTL$roughness,xlab="roughness",main="Biểu đồ histogram của biến roughness
",ylim=c(0,10),col="aquamarine3") boxplot(data_BTL$tension_strenght~data_BTL$infill_pattern,xlab="infill_pattern", ylab="tension_strenght",col="blue3") boxplot(data_BTL$tension_strenght~data_BTL$material,xlab="material",ylab="tension_strenght", col="blue3") boxplot(data_BTL$elongation~data_BTL$infill_pattern,xlab="infill_pattern",ylab="elongation", col="green3") boxplot(data_BTL$elongation~data_BTL$material,xlab="material",ylab="elongation",col="green3")
- Biểu đồ boxplot thể hiện phân phối của biến tension strenght:
- Biểu đồ boxplot thể hiện phân phối của biến elongation: data_cor