Hệ số xác định Ta có: SSE Sum of Squares Explained là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình c
TỔNG QUAN DỮ LIỆU
Tập tin "data.csv" chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk
Nghiên cứu này xác định tác động của các thông số máy in 3D tới chất lượng, độ chính xác và độ bền sản phẩm in.
Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt đầu vào và 3 thông số đầu ra được đo lường và ghi chép
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/datasets/afumetto/3dprinter Các thông số đầu vào bao gồm:
• Layer height (mm): Độ cao lớp
• Wall thickness (mm): Độ dày lớp ngoài
• Infill density (%): Phần trăm độ điền đầy
• Infill pattern: Kiểu điền đầy
• Nozzle temperature (C°): Nhiệt độ đầu đùn
• Bed temperature (C°): Nhiệt độ bàn in
• Print speed (mm/s): Tốc độ in
• Fan speed (%): Độ mạnh của quạt
Các thông số đầu ra bao gồm:
• Ultimate tension strength (MPa): Độ bền kéo lớn nhất
• Elongation (%): Độ giãn dài Đề tài nghiên cứu được thực hiện trên máy in Ultimaker S5 3-D
Kiểm nghiệm sức bền của vật liệu và sản phẩm in được thực hiện trên máy kéo Sinotec GMBH với khả năng kéo 20kN.
KIẾN THỨC NỀN
Tổng quát về mô hình hồi quy tuyến tính bội
Hồi quy tuyến tính bội là mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập:
• β 0 : là hệ số tung độ góc
• β 1 : là hệ dốc của Y theo biến X 1 và giữa các biến X 2 , X 3 , , X k không đổi
• β 2 : là hệ dốc của Y theo biến X 2 và giữa các biến X 1 , X 3, , X k không đổi
• β 3 : là hệ dốc của Y theo biến X 3 và giữa các biến X 1 , X 2 , , X k không đổi
• β k : là hệ dốc của Y theo biến X k và giữa các biến X 1 , X 2 , , X k không đổi
• ϵi: là thành phần ngẫu nhiên (yếu tố nhiễu), có kì vọng bằng 0 và phương sai không đổi σ 2
Hồi quy tuyến tính dự đoán giá trị biến phụ thuộc (Y) từ biến độc lập (X) dựa trên mối quan hệ tuyến tính giữa các tham số Phương pháp này áp dụng cho biến phụ thuộc liên tục, ví dụ dự đoán thời gian sử dụng trang web hay số lượt truy cập Dữ liệu thu thập được dùng để ước lượng các tham số β1, β2, , βk của hàm hồi quy.
Hàm hồi quy tổng thể (PRF - Population Regression Function)
Mô hình hồi quy giả định biến phụ thuộc Y là ngẫu nhiên, có phân phối xác suất, và giá trị kỳ vọng có điều kiện E(Y|X1, X2,…, Xk) là xác định, với X1, X2,…, Xk là các biến độc lập.
Do vậy F (X1, X2,…, Xk) = E (Y|X1, X2,…, Xk) là hàm hồi quy tổng thể của Y theo X1, X2,…, Xk
Ta có: Yi ≠ F (X1, X2,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E (Y|X1, X2,…, Xk) + ui
Hồi quy tổng thể PRF:
Hàm hồi quy mẫu (SRF – Sample Regression Function)
Việc thiếu dữ liệu tổng thể khiến việc xác định giá trị trung bình chính xác trở nên khó khăn Do đó, dữ liệu mẫu được sử dụng để ước lượng giá trị trung bình của biến phụ thuộc.
Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂ (𝑋 1 ,𝑋 2 …𝑋 𝑘 ) là hồi quy mẫu
Với một cá thể mẫu có thể 𝑌 ≠ 𝐹̂ (𝑋 1 ,𝑋 2 …𝑋 𝑘 ) sinh ra 𝜀𝑖 = 𝑌 − 𝐹̂ (𝑋 1 ,𝑋 2 …𝑋 𝑘 ) với 𝜀𝑖 gọi là phần dư SRF
Từ mẫu quan sát (X₁ᵢ, X₂ᵢ, Xₖᵢ) (i = 1, 2, 3, k), ta ước lượng các hệ số βₘ (m = 1, 2, 3, k).
Từ các giá trị ước lượng này có thể viết thành hàm hồi quy
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
Trong đó, 𝛽̂ 𝑚 là ước lượng của 𝛽 𝑚 Chúng ta trông đợi 𝛽̂ 𝑚 là ước lượng không chệch của
Để ước lượng mô hình, cần tìm tham số βm hiệu quả Sai lệch giữa giá trị thực tế Yi và giá trị ước lượng Ŷl là phần dư εi = Yi - Ŷl Ước lượng mô hình SRF được thực hiện bằng cách ước lượng các tham số của F̂ từ đó xấp xỉ tham số của F.
Các giả thuyết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội
Xét mô hình hồi quy bội:
Giống như mô hình hồi quy đơn, mô hình hồi quy bội này có các tính chất sau: Đường hồi quy bội đi qua điểm (𝑌̅, 𝑋̅ 1⋅ , … , 𝑋̅ 𝑘 )
= 0 ϵi không tương quan với Xpi, (p = 1,2, … , k), ∑ 𝑛 𝑢 𝑖 𝑋 𝑝𝑖
Các 𝜀𝑖 không tương quan với 𝑌̂: ∑ 𝑛 𝑖=1 𝜀 1 ∗𝑌̂ 𝑙
𝛽̂ 𝑙 là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất cho các 𝛽 𝑖 (𝑖 = 1, 𝑘̅̅̅̅̅)
Phân tích phương sai
R² được sử dụng để đánh giá mức độ phù hợp của mô hình hồi quy, thể hiện phần trăm biến động của biến phụ thuộc được giải thích bởi mô hình.
SSE (Tổng bình phương sai lệch) đo độ chính xác của hàm hồi quy bằng tổng bình phương sai lệch giữa giá trị dự đoán của biến phụ thuộc Y từ mô hình và giá trị trung bình của Y Chỉ số này càng nhỏ, mô hình càng chính xác.
SSR (Tổng bình phương sai lệch) là tổng bình phương của sai số giữa giá trị quan sát và giá trị dự đoán từ mô hình hồi quy.
SST (Tổng bình phương toàn phần) là tổng bình phương độ lệch giữa các giá trị quan sát và giá trị trung bình SST được phân tích thành hai thành phần: SSE (Tổng bình phương sai số) và SSR (Tổng bình phương hồi quy).
Khi đó hệ số xác định R 2 được xác định theo công thức:
Hệ số xác định (R²) là tỷ số giữa tổng phương sai được mô hình giải thích và tổng phương sai cần giải thích, phản ánh mức độ "thích hợp" của mô hình.
R bình phương (R²) đo tỷ lệ phần trăm sai lệch của biến phụ thuộc (Y) so với giá trị trung bình được mô hình giải thích Chỉ số này đánh giá mức độ phù hợp của mô hình hồi quy.
• R 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc
• Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y
Hệ số R² = 0 cho thấy mô hình không giải thích được biến phụ thuộc Mục tiêu là tối đa hóa R², nhưng việc thêm nhiều biến độc lập có thể làm tăng R² giả tạo Vì vậy, cần cân nhắc kỹ lưỡng để tránh sai lệch.
𝑅̅̅̅̅ 2 và R² về cơ bản có ý nghĩa tương đương và thường cho kết quả gần như nhau Tuy nhiên, khi số biến X lớn hơn nhiều so với số mẫu n, hệ số xác định điều chỉnh (𝑅̅̅̅̅ 2) là chỉ số phù hợp hơn để đánh giá mô hình hồi quy bội.
Phân tích phương sai (ANOVA) một nhân tố xác định ảnh hưởng của biến độc lập định tính lên biến phụ thuộc định lượng Giả thuyết được đặt ra để kiểm định ảnh hưởng này.
Tổng bình phương Bậc tự do df
Bình phương trung bình MS
Kiểm định Fligner-Killeen kiểm tra tính đồng nhất phương sai giữa các nhóm dữ liệu mà không cần giả định phân phối chuẩn, khác với kiểm định Bartlett Do đó, nó phù hợp hơn với dữ liệu không chuẩn.
Dưới đây là các bước và lý thuyết cơ bản về kiểm định Fligner-Killeen:
- Giả thuyết không thuyết phục (null hypothesis, H0)**: Các nhóm dữ liệu có phương sai bằng nhau
- Giả thuyết thay thế (alternative hypothesis, H1)**: Có ít nhất một cặp nhóm dữ liệu có phương sai khác nhau
2 Thống kê kiểm định: Thống kê kiểm định được tính dựa trên sự khác biệt giữa phương sai của các nhóm Trong kiểm định Fligner-Killeen, thống kê thường là một loại biến đổi của phương sai giữa các nhóm
3 Phân phối của thống kê kiểm định: Dưới giả định H0 (tức là các nhóm có cùng phương sai), thống kê kiểm định tuân theo một phân phối chi-bình phương (chi-square distribution) với số bậc tự do là số nhóm dữ liệu trừ 1
4 Tính toán giá trị p: Giá trị p được tính toán dựa trên phân phối của thống kê kiểm định Nếu giá trị p nhỏ hơn một ngưỡng chấp nhận được (thường là 0.05), chúng ta có đủ bằng chứng để bác bỏ giả thuyết không thuyết phục và kết luận rằng có ít nhất một cặp nhóm dữ liệu có phương sai khác nhau
5 Giải thích kết quả: Nếu giá trị p nhỏ, chúng ta có thể kết luận rằng có sự khác biệt về phương sai giữa các nhóm dữ liệu Ngược lại, nếu giá trị p lớn, chúng ta không có đủ bằng chứng để bác bỏ giả thuyết không thuyết phục và chấp nhận rằng các nhóm có thể có phương sai bằng nhau
Kiểm định Fligner-Killeen kiểm tra tính đồng nhất của phương sai mà không cần giả định dữ liệu tuân theo phân phối chuẩn, mang lại sự linh hoạt trong phân tích.
Khoảng tin cậy và kiểm định các hệ số hồi quy
6.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Phân tích hồi quy không chỉ nhằm ước lượng các hệ số hồi quy (β₁, β₂, , βₖ) mà còn kiểm tra mối quan hệ phụ thuộc giữa các biến Việc này đòi hỏi hiểu biết về phân bố xác suất của các hệ số hồi quy, vốn phụ thuộc vào phân bố của phần dư (uᵢ).
Mô hình OLS giả định sai số uᵢ tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai ² Do đó, các hệ số ước lượng cũng có phân phối chuẩn.
𝛽̂ 𝐽 − 𝛽 𝑗 𝑠ⅇ(𝛽̂ 𝐽 ) ~𝑇(𝑛 − 𝑘) Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến:
• Ước lượng 2 phía, ta tìm được
• Khoảng tin cậy 1 −của j là:
6.2 Kiểm định giả thiết đối với 𝜷 𝒋
Bài viết này trình bày phương pháp kiểm định ý nghĩa thống kê của hệ số hồi quy, nhằm xác định liệu biến giải thích có ảnh hưởng thực sự đến biến phụ thuộc hay không Kiểm định này giúp đánh giá ý nghĩa thống kê của hệ số hồi quy.
Có thể đưa ra giả thiết bất kỳ đối với j , ta có thể giả định j = * j Nếu như giả thiết đúng thì ta sẽ có:
Và ta có được bảng sau:
Loại giả thiết H 0 H 1 Miền bác bỏ Đối xứng j = * j j * j
Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định
7.1 Khái quát về kiểm định WALD
Giả sử chúng ta có 2 mô hình dưới đây:
Mô hình U (không giới hạn) và mô hình R (giới hạn) khác nhau ở việc mô hình R ép buộc β3 = β4 = 0 Kiểm định Wald giúp kiểm tra giả thuyết β3 = β4 = 0 (mô hình R) so với giả thuyết ít nhất một trong hai hệ số này khác 0 (mô hình U).
Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: X m + 1 X k
H1: Các tham số không đồng thời bằng 0
Mô hình R có ít tham số hơn mô hình U (k-m tham số) Việc loại bỏ k-m biến này có ảnh hưởng đáng kể đến biến phụ thuộc Y hay không cần được kiểm định.
Trị thống kê kiểm định đối với giả thiết này là:
7.1 Khái quát về kiểm định WALD
Kiểm định ý nghĩa của mô hình
Giả thuyết không trong hồi quy đa biến khẳng định tất cả hệ số hồi quy đều bằng 0, nghĩa là mô hình không có ý nghĩa thống kê.
Sử dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:
Bước đầu tiên là kiểm định giả thuyết H0: βm+1 = βm+2 = = βk = 0, ngược lại, giả thuyết H1 cho rằng ít nhất một trong các β khác không.
Bước 2: Hồi quy Y theo một biến không đổi X X 1, 2 , X k và tính tổng bình phương sai số
SSR SSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập
Ta có được trị thống kê
Trong mô hình thật giới hạn, chúng ta có giả thiết H0: 2 = 3 = = k =0, từ đó ta có trị thống kê từ giả thiết này:
Bước 3: Từ số liệu trong bảng F tương ứng với bậc tự do k-m cho tử số và n-k cho mẫu số, và với mức ý nghĩa cho trước (gọi là )
Bước 4: Bác bỏ giả thiết H0 ở mức ý nghĩa nếu F F ( , k − − 1, n k ) , đối với phương pháp giá trị p, tính giá trị p P F= ( F H C | 0 ).
Đa cộng tuyến (Multicollinearity)
Mô hình hồi quy tuyến tính cổ điển (CLRM) giả định không có mối quan hệ tuyến tính chính xác giữa các biến giải thích Sự hiện diện của một hoặc nhiều mối quan hệ này được gọi là đa cộng tuyến (multicollinearity).
TIỀN XỬ LÝ SỐ LIỆU
Dùng hàm read.csv để đọc dữ liệu vào R và hàm head(data) để xem 6 dòng đầu tiên của dữ liệu:
Tạo một tệp con bao gồm các biến chính cần phân tích
3 Kiểm tra dữ liệu khuyết
Nhận xét : Tệp tin không chứa dữ liệu khuyết.
THỐNG KÊ TẢ
1 Thực hiện thống kê tổng thể cho các biến
Sử dụng hàm Summary() để tóm tắt dữ liệu:
2 Tính toán giá trị thống kê của các biến liên tục
## Mean wall_thickness infill_density infill_pattern Min : 1.00 Min :10.0 Length:50
1st Qu.: 3.00 1st Qu.:40.0 Class
## nozzle_temperature bed_temperature print_speed material ## Min :200.0 Min
## 1st Qu.:210.0 1st Qu.:65 1st Qu.: 40 Class :character
• Thực hiện tính toán giá trị các biến liên tục rồi lần lượt gán vào trung_binh, do_lech_chuan, GTNN, GTLN, trung_vi, Q1, Q3
• Xuất kết quả dưới dạng bảng
3 Thống kê số lượng cho các biến định tính
Lập bảng thống kê số lượng cho biến infill_pattern và biến material trung_binh