Bước 4: Phân tích mối quan hệ giữa các biến để hiểu cách chúng ảnh hưởng đến chất lượng và tính chất của sản phẩm in 3D.. Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà t
TỔNG QUAN DỮ LIỆU
Mục đích của nghiên cứu
Xác định mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến chất lượng in, độ chính xác và độ bền Trong đó có chín thông số cài đặt và ba thông số đầu ra được đo.
Nguồn dữ liệu
Dự liệu được cung cấp tại: https://www.kaggle.com/datasets/afumetto/3dprinter.
Mô tả các biến
1 layer_height Chiều cao lớp (mm)
2 wall_thickness Độ dày tường (mm)
3 infill_density Tỷ lệ điểm đổ (%)
5 nozzle_temperature Nhiệt độ đầu phun (Cº)
6 bed_temperature Nhiệt độ bàn in (Cº)
7 print_speed Tốc độ in (mm/s)
9 fan_speed Tốc độ làm mát (%)
11 tension_strenght Cường độ chịu kéo giới hạn (MPa)
- Biến số liên tục: các biến như layer_height, wall_thickness,infill_density, nozzle_temperature, print_speed,fan_speed, roughness, tension_strenght và elongation
- Biến số rời rạc: infill_pattern, material
Bước 1: Đọc dữ liệu (Import data)
Bước 2: Làm sạch dữ liệu ( Data cleaning)
Bước 3: Làm rõ dữ liệu ( Data visualization)
(a) Chuyển đổi biến ( nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
Bước 4: Phân tích mối quan hệ giữa các biến để hiểu cách chúng ảnh hưởng đến chất lượng và tính chất của sản phẩm in 3D Chúng em sẽ dùng mô hình hồi quy bội vào bộ dữ liệu này
KIẾN THỨC NỀN
Phân tích hồi quy
Phân tích hồi quy (Regression Analysis) là một phương pháp thống kê được sử dụng để nghiên cứu mối quan hệ giữa một biến phụ thuộc (Y) và một hoặc nhiều biến ngẫu nhiên (X) hay còn gọi là biến giải thích Mục tiêu chính của phân tích hồi quy là là đưa ra các dự đoán hoặc mô tả biến phụ thuộc dựa trên các biến ngẫu nhiên Các mối quan hệ giữa X và Y có thể được biểu diễn dưới dạng hàm tuyến tính hoặc phương trình Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số F(X1,…,Xs ) của các biến ngẫu nhiên X1,…,Xs khác (gọi là các biến điều khiển control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc ( dependent variable), tức là khi ta có các giá trị của X1,…,Xs , thì ta muốn từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham số 𝜃 (𝜃 1 , , 𝜃 𝑘 ) nào đó Ta có thể viết Y như sau:
𝑌 = 𝐹 𝜃 (𝑋 1 , , 𝑋 𝑠 )+ ∈ Trong đó ∈ là phần sai số (cũng là một biến ngẫu nhiên) Ta muốn chọn hàm F một cách thích hợp nhất có thể, và các tham số , sao cho sai số là nhỏ nhất có thể Đại lượng:
√Ε(|𝜖| 2 ) được gọi là sai số chuẩn (standard error) của mô hình hồi qui Mô hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác
Trong mối liên hệ hàm số, với mỗi một giá trị X ta tìm được duy nhất một giá trị Y Tuy nhiên trong thống kê, một giá trị X có thể cho tương ứng nhiều giá trị Y khác nhau, bởi vì ngoài biến chính là X, biến Y có thể còn chịu tác động bởi một số yếu tố khác
2.1.2 Mô hình hồi quy tuyến tính đơn:
Một mô hình hồi quy tuyến tính đơn liên quan đến một biến phụ thuộc Y và một biến ngẫu nhiên X là phương trình:
- 𝛽 0 và 𝛽 1 là các tham số chưa biết (được gọi là hệ số chặn ( intercept) và hệ số góc (slope) của đường thẳng hồi quy);
- Y là biến phụ thuộc và X là biến ngẫu nhiên
- 𝜀 là thành phần sai số, 𝜀 được giả sử có phân phối chuẩn 𝒩 (0, 𝜎 2 )
Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression coefficients) và không phải tuyến tính ở các biến Y và X
Mô hình hồi quy bội
Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích khác Biến mà chúng ta muốn dự đoán được gọi là biến phản hồi (biến phụ thuộc) Các biến mà ta đang sử dụng để dự đoán giá trị của biến phản hồi được gọi là các biến giải thích (biến dự báo, biến phụ thuộc)
Mô hình hồi quy tuyến tính bội có dạng tổng quát:
- 𝛽 𝑖 là hệ số tự do
- 𝑢 là sai số ngẫu nhiên
Các 𝛽 𝑖 là các hệ số hồi quy riêng, là tác động riêng phần của biến 𝑋 𝑖 lên 𝑌 với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi giá trị kỳ vọng của 𝑌 sẽ tăng 𝛽 𝑖 đơn vị nếu 𝑋 𝑖 tăng 1 đơn vị
➢ Hệ số 𝛽 𝑖 > 0 : khi đó mối quan hệ giữa 𝑌 và 𝑋 𝑖 là thuận chiều, nghĩa là khi 𝑋 𝑖 tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì 𝑌 cũng sẽ tăng (hoặc giảm)
➢ Hệ số 𝛽 𝑖 < 0 : khi đó mối quan hệ giữa 𝑌 và 𝑋 𝑖 là ngược chiều, nghĩa là khi 𝑋 𝑖 tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì 𝑌 cũng sẽ giảm (hoặc tăng)
➢ Hệ số 𝛽 𝑖 = 0 : có thể cho rằng giữa 𝑌 và 𝑋 𝑖 không có sự tương quan với nhau, cụ thể là 𝑌 có thể không phụ thuộc vào 𝑋 𝑖 hay là 𝑋 𝑖 không thực sự ảnh hưởng đến 𝑌
2.2.2 Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0 Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:
B2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2 , X 3 , …, X i , sau đó tính tổng bình phương sai số RSSU, RSSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập
B3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k) cho mẫu số, và với mức ý nghĩa α cho trước
B4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k) Đối với phương pháp giá trị p, tính giá trị p = P (F>Fc|𝐻 0 ) và bác bỏ giả thuyết 𝐻 0 nếu p < α
2.2.3 Kiểm tra các giả thuyết của mô hình hồi quy bội:
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: : Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: : Phương sai của các sai số là hằng số
- Giả thuyết 4: : Các sai số u có kỳ vọng = 0
- Giả thuyết 5: Các sai số 𝑢 1 , , 𝑢 𝑛 thì độc lập với nhau
Phân tích phương sai
Phân tích phương sai ( Analysis of Variance) hay còn gọi là kiểm định ANOVA là kỹ thuật thống kê tham số được sử dụng để so sánh các nhóm dữ liệu dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thuyết để đánh giá và kết luận sự bằng nhau của các trung bình nhóm dữ liệu này Trong nghiên cứu, phân tích phương sai được sử dụng như một công cụ để xem xét ảnh hưởng của một yếu tố ngẫu nhiên đến một yếu tố kết quả Phân tích phương sai được phát triển bởi Ronald Fisher năm 1918
ANOVA thật ra là một mở rộng của phương pháp kiểm định T cho các mẫu độc lập khi so sánh trung bình của các nhóm gồm các quan sát độc lập Không như phương pháp kiểm định T, ANOVA có thể so sánh nhiều hơn hai nhóm Lưu ý rằng ANOVA không so sánh các phương sai, mà là phân tích các phương sai để so sánh với các kỳ vọng
- Phân tích phương sai được dùng để kiểm định giả thuyết các tổng thể nhóm có giá trị trung bình bằng nhau
- Kỹ thuật này được dựa trên cơ sở tính toán mức độ biến thiên trong nội bộ các nhóm và biến thiên giữa trung bình các nhóm
- Có hai thủ tục phân tích phương sai: ANOVA một nhân tố ( One way ANOVA) và ANOVA hai nhân tố (Two way ANOVA)
2.3.2 Phân tích phương sai hai nhân tố:
ANOVA hai nhân tố một phần mở rộng của phân tích phương sai một nhân tố Với One way, ta có một biến độc lập ảnh hưởng đến biến phụ thuộc Còn với Two way ANOVA, sẽ có
Giả thuyết phân tích phương sai hai yếu tố:
- Tổng thể có phân phối chuẩn
- Mỗi mẫu được quan sát 1 lần không lặp
Các bước tiến hành kiểm định giả thuyết: ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của nhân tố ngẫu nhiên thứ nhất xếp thành K nhóm (cột), các đơn vị mẫu của nhân tố ngẫu nhiên thứ hai sắp xếp thành H khối (hàng) Như vậy ta có bảng kết hợp hai nhân tố nguyên nhân gồm K cột và H hàng và (K x H) ô dữ liệu Tổng số mẫu quan sát là n= (K x H)
B1: Tính các số trung bình mẫu của các nhóm
Trung bình riêng của từng nhóm ( K cột):
𝐻 (𝜄 = 1,2, … , 𝐾) Trung bình riêng của từng khối ( H hàng):
𝐾 (𝑗 = 1,2, … , 𝐻) Trung bình chung của toàn bộ mẫu quan sát:
B2: Tính tổng các độ lệch bình phương
Tổng các độ lệch bình phương chung (SST): Phản ánh biến động của nhân tố kết quả do ảnh hưởng của tất cả các nhân tố
Tổng các độ lệch bình phương giữa các nhóm (SSK): Phản ánh biến động của nhâ tố kết quả do ảnh hưởng của nhân tố nguyên tố thứ nhất ( xếp theo cột)
Tổng các độ lệch bình phương giữa các nhóm ( SSH): ): Phản ánh biến động của nhâ tố kết quả do ảnh hưởng của nhân tố nguyên tố thứ hai ( xếp theo hàng)
Tổng các độ lệch bình phương phần dư (ERROR): Phản ánh biến động của nhân tố kết quả do ảnh hưởng của nhân tố nguyên nhân khác không nghiên cứu
Công thức: SSE = SST – SSK – SSH
Phương sai giữa các nhóm (cột) (MSK)
Phương sai giữa các khối (hàng) (MSH)
Phương sai phần dư (MSE)
Tính tiêu chuẩn kiểm định F ( F thực nghiệm)
- MSK là phương sai giữa các nhóm (cột)
- MSE là phương sai phần dư
- F 1 dùng để kiểm định cho nhân tố nguyên nhân thứ nhất
- MSH là phương sai giữa các khối ( hàng)
- MSE là phương sai phần dư
- F 2 dùng để kiểm định cho nhân tố nguyên nhân thứ hai
Tìm F lý thuyết cho 2 nhân tố nguyên nhân
- Nhân tố nguyên nhân thứ nhất:
F tiêu chuẩn = F (k-1; (k-1)(h-1), 𝛼) là giá trị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý nghĩa 𝛼
- Nhân tố nguyên nhân thứ hai:
F tiêu chuẩn = F (h-1; (k-1)(h-1), 𝛼) là giá trị giới hạn tra từ bảng phân phối F với h-1 bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý nghĩa 𝛼
Nếu F 1 thực nghiệm > F 1 lý thuyết, bác bỏ H 0 , nghĩa là số trung bình của k tổng thể nhóm (cột) không bằng nhau
Nếu F 2 thực nghiệm > F 2 lý thuyết, bác bỏ H 0 , nghĩa là số trung bình của k tổng thể khối (hàng) không bằng nhau
Bảng 2.1 Bảng phân tích phương sai hai yếu tố:
Nguồn biến động Tổng độ lệch bình phương(SS) Bậc tự do
Giữa các cột SSH (h-1) MSH F 1
Giữa các hàng SSK (k-1) MSK F 2
TIỀN XỬ LÝ SỐ LIỆU
Đọc dữ liệu
Đọc dữ liệu trong tệp tin và gán vào R với tên data Đoạn code:
- Đọc dữ liệu và lưu với tên data
- Trích 10 dòng đầu tiên của bộ dữ liệu
Hình 3.1 Kết quả khi xem 10 dòng đầu tiên của tệp tin “data.csv”
Xử lý dữ liệu khuyết
Kiểm tra dữ liệu khuyết trong data
Không có dữ liệu khuyết trong dữ liệu.
Chuyển đổi biến
2 biến: “infill_pattern”,”material” về dạng factor
THỐNG KÊ MÔ TẢ
Thống kê dữ liệu dưới dạng bảng
Cột mean biểu thị cho giá trị trung bình, sd là độ lệch chuẩn, p0, p25, p50, p75, p100 lần lượt ứng với các giá trị min, điểm tứ phân vị Q1, median, điểm tứ phân vị Q3, max, và cột histogram
Cột hist biểu thị biểu đồ histogram đơn giản cho biến Qua hình dạng, ta có thể thấy một số biến quan trọng không có phân phối chuẩn như infill density.
Một số đồ thị
Hình 4.1 Đồ thị Boxplot của infill_pattern và roughness
Nhận xét: Ở hình trên ta có thể tháya mức trung vị của grid cao hơn một chút so với mức trung vị của honeycomb Tuy nhiên nhìn chung hai đồ thị là tương đương nhau và không có điểm cụ thể nào phân biệt rõ mức độ ảnh hường của infill_pattern đến roughness
Hình 4.2 Đồ thị Boxplot của material và roughness
Nhận xét: Ở “abs” các giá trị roughness phân bố từ khoảng 90 đến 290 Trong khi đó
“pla” chỉ phân bố đến bé hơn mức trung vị của “abs”
Hình 4.3 Đồ thị Boxplot của infill_pattern và tension_strenght
Nhận xét: Ở hình 4.3 ta có thể thấy được 2 đồ thị gần như giống nhau chỉ có sự chênh lệch nhỏ về mức trung vị của 2 đồ thị khi mức trung vị của “honeycomb” chỉ cao hơn một chút so với trung vị của “grid”
Hình 4.4 Đồ thị Boxplot của material và tension_strenght
Nhận xét: Ở hình 4.4, ta có thể thấy cả hai đều có phân bố lệch so với trung vị Với
“pla” các giá trị phân phối từ 14 đến 27 Còn “abs” đa số phân phối bé hơn mức trung vị của
Hình 4.5 Đồ thị Boxplot của infill_pattern và elongation
Nhận xét: Nhìn hình 4.5, ta thấy mức trung vị của “honeycomb” cao hơn so với “grid” và giá trị của cả hai đa số phân phối từ 1,2 đến 2,3
Hình 4.6 Đồ thị Boxplot của material và elongation
Nhận xét: Về boxplot của dữ liệu material Cả hai boxplot đều phân bố lệch so với trung vị Ở “abs” có điểm ngoại lai và hầu như các giá trị của “pla” đều lớn hơn các giá trị của
Hình 4.7 Đồ thị histogram của roughness
Hình 4.8 Đồ thị histogram của tension_strenght
Hình 4.9 Đồ thị histogram của elongation
Từ 3 hình trên ta có thể thấy các đồ thị phân bố không đều Như ở đồ thị histogram của roughness các giá trị lớn thường tập trung trong khoảng từ 50 đến 200 Trong khi đó ở đồ thị histogram của elongation các giá trị lớn lại tập trung về giữa từ 1 đến 2 Còn đồ thị histogram của tension_strenght thì lại tập trung về phía bên phải từ 25 đến 30
4.2.3 Hệ số tương quan của các biến
Trước khi biểu diễn, ta phải chuyển hai biến “material” và “infill_pattern” sang dạng số Code: Để thấy mối quan hệ tuyến tính giữa từng biến, ta sẽ vẽ hệ số tương quan của tất cả các biến
Hình 4.10 Hình biểu diễn hệ số tương quan của tất cả các biến
THỐNG KÊ SUY DIỄN
Xây dựng mô hình và anova tìm mô hình lí tưởng nhất
Dùng lệnh lm () để xây dựng mô hình hồi quy tuyến tính bội và dùng lệnh summary để tóm tắt kết quả thu được:
Code và kết quả của model_1
Hình 5.1 kết quả mô hình hồi quy tuyến tính model_1
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát): + Nếu p-value < α ⇒ bác bỏ H0, chấp nhận H1
+ Nếu p-value ≥ α ⇒ chưa bác bỏ H0
+ Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê ( 𝛽𝑖= 0)
+ Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0)
- Đối với mức tin cậy 5%:
+ Pr (>|𝑡|) của các hệ số ứng với biến layer_height, nozzle_temperature, bed_temperature, print_speed, materia, bé hơn mức ý nghĩa 𝛼 = 0,05 nên ta bác bỏ H0 và chấp nhận H1 Do đó các hệ số ứng với biến này có ý nghĩa thống kê đối với mô hình hồi quy mà ta xây dựng
+ Pr (>|t|) của các hệ số ứng với biến infill_pattern, wall_thickness, infill_density, lớn hơn mức ý nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H0 Do đó các hệ số này ứng với các biến này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây dựng, có thể cân nhắc để loại bỏ các biến wall_thickness, infill_density, infill_pattern
Code và kết quả của model_2 (bỏ các biến wall_thickness, infill_density, infill_pattern)
Hình 5.2 : kết quả mô hình hồi quy tuyến tính model_2
So sánh Mode_1 và Model_2
Hình 5.3 kết quả So sánh Model_1 và Model_2
Giả thuyết H0: model_2 hiệu quả hơn
Giả thuyết H1: model_1 hiệu quả hơn
→ Ta nhận thấy giá trị Pr (>F) bằng 0.7627 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên chưa bác bỏ được giả thuyết H0, nên model_2 hiệu quả hơn.
Kiểm tra các giả định của mô hình model_2
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: Phương sai của các sai số là hằng số
- Giả thuyết 4: Các sai số ε có kỳ vọng = 0
- Giả thuyết 5: Các sai số ε1, , εn thì độc lập với nhau
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Hình 5.4 Kết quả khi vẽ các đồ thị phân tích thặng dư
- Đồ thị Residuals vs Fitted là đường cong có độ dóc chưa thỏa được giả thuyết 1
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số Nếu các điểm sai số nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2 phân phối chuẩn được thoả
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
- Đồ thị Residuals vs Leverage: Các điểm thứ 5, 23 và 25 là những điểm ảnh hưởng cao trong bộ dữ liệu Tuy nhiên những điểm ảnh hưởng cao này chưa vượt qua đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không phải là các điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu
Cách 2: Kiểm tra các gải thiết dựa vào các kiểm định:
Giả thiết 2: Sai số có phân phối chuẩn
H0: Các sai số hồi quy có phân phối chuẩn
H1: Dữ liệu không có phân phối chuẩn
Hình 5.5 kết quả kiểm tra giả thiết sai số có phân phối chuẩn
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 1 > 𝛼 = 5%, nên không bác bỏ H0 Vậy giả thiết 2: Sai số có phân phối chuẩn thỏa mãn
Giả thiết 4: Các sai số ε có kỳ vọng = 0
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Hình 5.6 Kết quả kiểm tra giả thiết sai số hồi quy
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Cách 2.1: Kiểm định theo tiêu chuẩn kiểm định
Từ kết quả R cho ta thấy z0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết H0 nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
Cách 2.2: Kiểm định theo p-value
Ta nhận thấy p-value =1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
Xây dựng mô hình và anova tìm mô hình lý tưởng nhất
Code và kết quả model_3
Hình 5.7 Hình 5.2.1 Kết quả mô hình hồi quy tuyến tính model_3
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát) + Nếu p-value < α ⇒ bác bỏ H0, chấp nhận H1
+ Nếu p-value ≥ α ⇒ chưa bác bỏ H0
+ Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê (𝛽𝑖 = 0)
+ Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0)
- Đối với mức tin vậy 5%
+ Pr (>|𝑡|) của các hệ số ứng với biến: layer_height, materia, wall_thickness, infill_density,nozzle_temperature, bed_temperature , bé hơn mức ý nghĩa 𝛼 0,05 nên ta bác bỏ H0 và chấp nhận H1 Do đó các hệ số ứng với biến này có ý nghĩa thống kê đối với mô hình hồi quy mà ta xây dựng
+ Pr (>|t|) của các hệ số ứng với biến: infill_pattern, print_speed, lớn hơn mức ý nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H0 Do đó các hệ số này ứng với các biến này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây dựng, có thể cân nhắc để loại bỏ các biến :infill_pattern, print_speed
Code và kết quả model_4 (bỏ các biến infill_pattern, print_speed)
Hình 5.8 Kết quả mô hình hồi quy tuyến tính model_4
Hình 5.9 Kết quả so sánh model_3 và model_4
Giả thuyết H0: model_4 hiệu quả hơn
Giả thuyết H1: model_3 hiệu quả hơn
➔ Ta nhận thấy giá trị Pr (>F) bằng 0.6745 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên chưa bác bỏ được giả thuyết H0, nên model_4 hiệu quả hơn
Kiểm tra các giả định của mô hình model_4
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: Phương sai của các sai số là hằng số
- Giả thuyết 4: Các sai số ε có kỳ vọng = 0
- Giả thuyết 5: Các sai số ε1, , εn thì độc lập với nhau
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Hình 5.10 Kết quả khi vẽ các đồ thị phân tích thặng dư
- Đồ thị Residuals vs Fitted: Ta nhận thấy đường màu đỏ gần như là đường thẳng nên giả định tuyến tính của dữ liệu thỏa mãn
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số, các điểm sai số không nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2 phân phối chuẩn không được thoả
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
- Đồ thị Residuals vs Leverage: Các điểm thứ 3, 11 và 40 là những điểm ảnh hưởng cao trong bộ dữ liệu Tuy nhiên những điểm ảnh hưởng cao này chưa vượt qua đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không phải là các điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu
Cách 2: Kiểm tra các gải thiết dựa vào các kiểm định:
Giả thiết 2: Sai số có phân phối chuẩn
H0: Các sai số hồi quy có phân phối chuẩn
H1: Dữ liệu không có phân phối chuẩn
Hình 5.11 Kết quả kiểm tra giả thiết sai số có phân phối chuẩn
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 0.3517> 𝛼 = 5%, nên không bác bỏ H0, Vậy giả thiết 2: Sai số có phân phối chuẩn thỏa mãn
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Hình 5.12 Kết quả kiểm tra giả thiết sai số hồi quy
Cách 1: Kiểm định theo tiêu chuẩn kiểm định
Từ kết quả R cho ta thấy z0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết H0 nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
Cách 2: Kiểm định theo p-value
Ta nhận thấy p-value =1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
Xây dựng mô hình và ANOVA tìm mô hình lý tưởng nhất
Code và kết quả của model_5
Hình 5.13 Kết quả mô hình hồi quy tuyến tính model_5
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát)
+ Nếu p-value < α ⇒ bác bỏ H 0 , chấp nhận H 1
+ Nếu p-value ≥ α ⇒ chưa bác bỏ H 0
+ Giả thuyết H 0 : Hệ số hồi quy không có ý nghĩa thống kê (𝛽 𝑖 = 0)
+ Giả thuyết H 1 : Hệ số hồi quy có ý nghĩa thống kê (𝛽 𝑖 ≠ 0)
- Đối với mức tin vậy 5%
+ Pr (>|𝑡|) của các hệ số ứng với biến: layer_height ,nozzle_temperature, materia, infill_density, bed_temperature, bé hơn mức ý nghĩa 𝛼 = 0,05 nên ta bác bỏ H 0 và chấp nhận H 1 Do đó các hệ số ứng với biến này có ý nghĩa thống kê đối với mô hình hồi quy mà ta xây dựng
+ Pr (>|t|) của các hệ số ứng với biến: infill_pattern, print_speed, lớn hơn mức ý nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H 0 Do đó các hệ số này ứng với các biến này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây dựng, có thể cân nhắc để loại bỏ các biến :infill_pattern, print_speed
Code và kết quả model_6
Hình 5.14 Kết quả mô hình hồi quy tuyến tính model_6
So sánh model_5 và model_6
Hình 5.15 Kết quả so sánh model_5 và model_6
➢ Giả thuyết H 0 : model_6 hiệu quả hơn
➢ Giả thuyết H 1 : model_5 hiệu quả hơn
→ Ta nhận thấy giá trị P r : (>F) bằng 0.1396 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên chưa bác bỏ được giả thuyết H 0 : , nên model_6 hiệu quả hơn
Kiểm định giả định của mô hình model_6
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: : Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
- Giả thuyết 2: Sai số có phân phối CHUẨN
- Giả thuyết 3: Phương sai của các sai số là hằng số
- Giả thuyết 4 : Các sai số u có kỳ vọng = 0
- Giả thuyết 5: Các sai số 𝑢 1 , , 𝑢 𝑛 thì độc lập với nhau
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Hình 5.16 Kết quả khi vẽ các đồ thị phân tích thặng dư
- Đồ thị Residuals vs Fitted là đường cong có độ dóc chưa thỏa được giả thuyết 1
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số, các điểm sai số không nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2 phân phối chuẩn không được thoả
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
- Đồ thị Residuals vs Leverage: Các điểm thứ 15,41 là những điểm ảnh hưởng cao trong bộ dữ liệu Tuy nhiên những điểm ảnh hưởng cao này chưa vượt qua đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không phải là các điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu
Cách 2: : Kiểm tra các giả thiết dựa vào các kiểm định:
Giả thuyết 2: Sai số có phân phối chuẩn
H 0 : Các sai số hồi quy có phân phối chuẩn
H 1 : Dữ liệu không có phân phối chuẩn
Hình 5.17 Kết quả kiểm tra giả thuyết sai số có phân phối chuẩn
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 0.4972 >𝛼 = 5%, nên không bác bỏ H 0 Vậy giả thiết 2: Sai số có phân phối chuẩn thỏa mãn
H 0 : : Các sai số có kỳ vọng μ = 0
H 1 : : Các sai số có kỳ vọng μ ≠ 0
Hình 5.18 Kết quả kiểm tra giả thuyết sai số hồi quy
Cách 2.1: Kiểm định theo tiêu chuẩn kiểm định
Từ kết quả R cho ta thấy 𝑧 0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết H 0 nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
Cách 2.2: Kiểm định theo p-value
Ta nhận thấy p-value =1 chưa bác bỏ được giả thuyết H 0 , nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn
THẢO LUẬN VÀ MỞ RỘNG
Mở rộng
6.1.1 Phân Tích Phương Sai (ANOVA)
+ Kiểm tra sự khác biết của nhiều nhóm: ANOVA rất hiệu quả khi muốn biết dữ liệu có sự khác biệt ý nghĩa nào đó giữa ba hoặc nhiều nhóm về các yếu tố như layer height, wall thickness, infill density, vv Điều này có thể hữu ích nếu muốn so sánh hiệu suất của máy in 3D trong các điều kiện khác nhau
+ Phân Tích Phương Sai: ANOVA cho phép bạn phân tích mức độ biến động giữa các nhóm và mức độ biến động bên trong các nhóm Có thể cung cấp thông tin về độ đồng nhất hoặc độ chệch lệch giữa chúng
+ Phân loại các yếu tố ảnh hưởng: ANOVA cho phép xác định xem yếu tố nào (ví dụ: nhiệt độ nozzle, tốc độ in) có ảnh hưởng đáng kể đến các biến đo lường
- Nhược Điểm: Giới hạn về tuyến tính: ANOVA giả định về tuyến tính giữa biến độc lập và biến phụ thuộc, và nếu mối quan hệ không tuyến tính, phương pháp này có thể không hiệu quả Phụ thuộc vào giả định: ANOVA đòi hỏi các giả định như phân phối chuẩn và đồng nhất của phương sai giữa các nhóm ANOVA có thể mở rộng để xử lý nhiều biến độc lập nếu cần thiết
- Hạn chế: Phương pháp ANOVA giả định rằng các nhóm có phân phối chuẩn Nếu dữ liệu không tuân theo phân phối chuẩn, kết quả có thể không chính xác ANOVA chỉ phản ánh mối quan hệ thống kê giữa các biến mà không thể xác định được mối quan hệ nguyên nhân - hiệu quả giữa chúng
+ Hồi quy tuyến tính giúp mô hình hóa mối quan hệ tuyến tính giữa các biến, giúp bạn hiểu rõ hơn về cách các yếu tố ảnh hưởng đến kết quả các biến như nhiệt độ, tốc độ in và chất lượng in
+ +Dự Đoán Giá Trị: Hồi quy tuyến tính sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên giá trị của các biến độc lập Dự đoán chất lượng in dựa trên các giá trị cụ thể của các yếu tố đầu vào
+ + Xác Định Mức Độ Ảnh Hưởng Của Từng Biến: Hồi quy tuyến tính cung cấp thông tin về mức độ ảnh hưởng của từng yếu tố lên chất lượng in, giúp xác định yếu tố nào quan trọng nhất
- Hạn chế: Hồi quy tuyến tính cho rằng mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính Nếu mối quan hệ này không tuyến tính, mô hình có thể không phản ánh đúng mối quan hệ thực tế Mô hình hồi quy tuyến tính yêu cầu dữ liệu độc lập và đồng đều, tức là các quan sát không ảnh hưởng lẫn nhau và có cùng phương sai Nếu không thỏa mãn, kết quả có thể không chính xác Khi số lượng biến tăng lên, mô hình có thể trở nên không ổn định và dễ làm giảm hiệu xuất, đặc biệt nếu kích thước mẫu nhỏ
NGUỒN DỮ LIỆU VÀ NGUỒN CODE
Nguồn dữ liệu
https://www.kaggle.com/datasets/afumetto/3dprinter
Nguồn code
https://drive.google.com/file/d/1pOQr-8vVNtDtrohlRcqiDrRcGlD0L5RX/view?usp=sharing