1.2 Mô tả về biếnBảng 1 Danh sách các biến trong bộ dữ liệu 4 Infill Pattern IP- Hình dạng lưới Phân loại 5 Nozzle TemperatureNT - Nhiệt độ vòi phun Liên tục ℃ Trong Error: Reference sou
Mô tả về bộ dữ liệu
Dữ liệu này là sản phẩm của một nghiên cứu thực nghiệm trong lĩnh vực in 3D sử dụng máy in 3D Maker Pro230 với các loại chất liệu in và các thông số cài đặt khác nhau Như vậy tổng thể của bộ dữ liệu này là tất cả các bản in được in từ máy in 3D Ultimaker S5, 1 giá trị quan trắc là 1 mẫu in của máy in này.
Hình 1.1 Máy in 3D Maker Pro230
Nghiên cứu tập trung vào việc xác định tác động của các tham số cài đặt trên chất lượng, độ chính xác và độ bền của sản phẩm in Bộ dữ liệu bao gồm 50 quan sát với 9 tham số cài đặt và 3 thông số đầu ra được đo lường. Để đạt được mục tiêu này, các thử nghiệm về chất liệu và độ bền đã được thực hiện trên máy thử nghiệm Sincotec GMBH có khả năng kéo 20 kN.
Nguồn của dữ liệu: Dữ liệu này là một tập hợp các thông tin được thu thập từ một nghiên cứu trong lĩnh vực Kỹ thuật Cơ học tại Đại học TR/Selcuk.
Mô tả về biến
Bảng 1 Danh sách các biến trong bộ dữ liệu
STT Biến Loại dữ liệu Đơn vị
1 Layer Height(LH - Độ dày lớp in) Phân loại mm
2 Wall Thickness(WT- Độ dày thành) Liên tục mm
3 Infill Density(ID- Mật độ lấp đầy) Liên tục %
4 Infill Pattern (IP- Hình dạng lưới) Phân loại
5 Nozzle Temperature(NT - Nhiệt độ vòi phun) Liên tục ℃
6 Bed Temperature(BT - Nhiệt độ bàn in) Phân loại ℃
7 Print Speed(PS - Tốc độ in) Phân loại mm/s
8 Material(M - Nguyên liệu) Phân loại
9 Fan Speed(FS - Tốc độ quạt) Phân loại %
10 Roughness(R- Độ nhám) Liên tục μmm
11 Tension Strenght(TS- Độ căng) Liên tục MPa
12 Elongation(E- Độ giãn dài) Liên tục %
Trong Error: Reference source not found, 9 biến đầu tiên từ là các biến cài đặt (biến hồi quy),
3 biến còn lại xác định chất lượng của bản in (biến phản hồi) Vì vậy chúng ta sẽ dự đoán 3 biến về chất lượng bản in dựa trên 9 biến cài đặt Ở đây có 6 biến phân loại là LH, IP, BT, PS,
Với mục tiêu là xác định sự ảnh hưởng của các thông số điều chỉnh của máy in 3D đến chất lượng bản in nhóm tác giả quyết định sử dụng mô hình “Hồi quy tuyến tính đa biến”
Giới thiệu về hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội giả sử rằng giá trị phản hồi Y liên quan đến các giá trị đầu vào (biến hồi quy) x 1 , x 2 , … , x k thông qua mối liên hệ:
Trong đó, β j là các tham số hồi quy, ε là lỗi ngẫu nhiên với giả định ε N (0,σ 2 ).
Các giả định của hồi quy tuyến tính bội
Trong hồi quy tuyến tính bội, có 3 giả định cần được đáp ứng:
- Phần dư (độ lệch giữa giá trị dự báo kết quả thực tế) tuân theo phân phối chuẩn.
- Không có sự đa cộng tuyến trong các biến dự báo.
- Mỗi quan hệ giữa biến phụ thuộc và biến độc lập là tuyến tính
Phương pháp bình phương cực tiểu cho hồi quy bội
Giả sử rằng có n>k quan sát có sẵn, x ij biểu thị quan sát thứ i của biến j Những quan sát là:
Thông thường sẽ được trình bày dưới dạng bảng như Bảng 1
Bảng 1 Dữ liệu cho hồi quy bội y x 1 x 2 ⋯ x k y 1 x 11 x 12 ⋯ x 1 k y 2 x 21 x 22 ⋯ x 2 k
Mỗi quan sát ( x i 1 , x i 2 , x i3 , … , x ik , y i ) phù hợp với mô hình Công thức (1) y i =β 0 +β 1 x i 1 +β 2 x i2 +…+β k x ik +ε i =β 0 +∑ j=1 k β j x ik +ε i Để ước tính các giá trị hồi quy, ta sử dụng phương pháp bình phương nhỏ nhất, khi đó ta được bộ các hệ số ước tính ^β j , j=1,2,… k.
Với một bộ giá trị các tham số dự báo đầu vào x i 1 , x i2 , … x ik , ta được giá trị ước tính:
Các chỉ số hiệu suất của mô hình hồi quy
R-squared (R 2) và R-squared điều chỉnh ( Radj 2)
Một thước đo tính đầy đủ của mô hình hồi quy là R 2 , được gọi là hệ số xác định đo lường mức độ giải thích của mô hình đối với biến phụ thuộc Nó biết tỷ lệ phần trăm biến thay đổi của biến phụ thuộc được giải thích bởi mô hình Trong mô hình hồi quy tuyến tính bội hệ số R adj 2 thường được sử dụng hơn, do R adj 2 xu hướng giảm giá trị nếu thêm vào mô hình những biến không đóng góp thêm vào sự giải thích.
Tổng sai số bình phương
Tổng sai số bình phương (SSE – Sum of Squared Errors) là một phần quan trọng trong phân tích hồi quy SSE đo lường tổng của bình phương của các sai số dư (errors) trong mô hình hồi quy, SSE càng nhỏ thì mô hình càng tổt.
SSE được xác định bằng công thức:
Hay có thể áp dụng RMSE(model , data)=√ MSE= √ SSE n
Trong đó, y i là giá trị thực tế và ^y i là giá trị được dự báo từ mô hình.
3 Tiền xử lý dữ liệu
Đọc và xử lý biến phân loại
Nhập các thư viện cần thiết: library(readr) Đọc dữ dữ liệu sử dụng hàm: read_csv("…./data.csv"), nhóm tác giả sẽ lưu giá trị này là “data”.
Hình 3.2 Hiển thị 10 giá trị đầu của tập dữ liệu
Như đã trình bày ở trên, ở dữ liệu có 6 biến là phiến phân loại, cần sử dụng hàm as.factor() để định nghĩa cho 6 biến này và không có dữ liệu khuyết trong bộ dữ liệu (Hình
Hình 3.2 Xử lý 6 biến phân loại
Chia dữ liệu
Nhóm tác giả chia dữ liệu thành 2 phần, 80% quan sát để xây dựng mô hình hồi quy và 20% còn lại để kiểm định Tập dữ liệu dùng để xây dụng mô hình được đặt tên là “train” gồm
40 quan sát và dùng để kiểm dịnh là “test” gồm 10 quan sát.
Sử dụng hàm Summary() để tóm tắt dữ liệu như Hình 4 3 :
Hình 4.3 Tóm tắt bộ dữ liệu
Hình 4.4 Biểu đồ hệ số tương quan giữa các biến liên tục
Sự tương quan giữa các biến được thể hiện trong Hình 4 4, ở đây nhóm tác giả nhận thấy rằng, 2 biến phản hồi elongation and tension strength tương quan dương với nhau(0.84), các biến còn lại đa số có sự tương quan với nhau không đáng kể.
Sử dụng hàm Boxplot(y~x) để vẽ biểu đồ Boxplot của 3 biến phản hồi so với các biến phân loại được kết quả như Hình 4 5Đối với biến phân loại infill pattern , ở 3 biến phản hồi dường như không có sự khác biệt, còn đối với các biến còn lại có thể dễ dàng thấy được sự khác biệt, cho thấy có sự ảnh hưởng đối với các biến phản hồi.
Tương tự, để xem sự phân phối của 3 biến phản hồi ta sử dụng hàm hist() , lần lượt và được kết quả như Hình 4 6.Hình 4 6
Hình 4.6 Biểu đồ histogram của 3 biến phản hồi
5 Sử dụng hồi quy tuyến tính bội để xây dựng mô hình
Với bộ dữ liệu này, nhóm tác giả sử dụng “hồi quy tuyến tính bội” để xác định xem sự phụ thuộc của 3 biến phản hồi phụ thuộc như thế nào vào 9 biến dự báo Nhóm tác giả đặt tên lại các biến như các ký hiệu viết tắt đã trình bày trong Error: Reference source not found, lần lượt xem xét phương trình hồi quy cho từng biến phản hồi (phụ thuộc).
Hối quy tuyến tính bội cho Roughness
Thành lập mô hình với tất cả các biến
Nhóm thực hiện hồi quy tuyến tính bội cho Roungness bằng cách sử dụng hàm lm() nhưHình 5 7:
Stepwise Regression cho Rounghess
Để xem xét những biến nào cần được loại bỏ ra khỏi mô hình ban đầu ( R_model1 ), nhóm tác giả sẽ ứng dụng Stepwise Regression để lựa chọn mô hình tốt nhất Roungness:
Hình 5.8 Kết quả Stepwise Regression cho Roughness
Hồi quy từng bước áp dụng với mô hình ban đầu có đầy đủ tất cả các biến, sau đó sử dụng chỉ số đánh giá AIC để lựa chọn biến được loại sau từng bước, với chỉ số AIC càng nhỏ thì càng tốt Tiếp tục cho đến khi AIC không thể giảm được nữa thì dừng lại Kết quả cuối cùng theo stepwise trong phương trình hồi quy chỉ còn lại 4 biến: LH, NT, BT và M.
Như kết quả ở Hình 5 7 và Hình 5 8, giá trị R adj 2 tăng một lượng nhỏ từ 88.5% lên89.3% và giá trị này cho thấy rằng 4 biến hồi quy trên có thể ảnh hưởng đáng kể đếnRoughness Giá trị p value mô hình là rất nhỏ so với 0 nên mô hình có ý nghĩ về mặt thống kê.
Kiểm tra giả định phần dư
Về giả định ban đầu của phần dư ε N(0,1), nhóm tác giả sử dụng kiểm tra Shapiro- Wilk để kiểm tra phân phối và vẽ biểu đồ cho phần dư được kết quả như Hình 5 9, Hình
Hình 5.9 Kết quả kiểm tra phần dư của hồi quy cho Roughness
Hình 5.10 Biểu đồ Q-Q residuals của Roughness
Từ kết quả nhận được nhóm tác giả nhận thấy rằng:
- W=1: Giá trị thống kê từ kiểm tra Shapiro-Wilk là 1 Đây là giá trị tối đa có thể đạt
- Các điểm dữ liệu trên Hình 5 10 xấp xỉ với đường phân phối chuẩn.
Dự báo và kết luận cho Roughness
Trước đó, bộ dữ liệu đã được tách thành 2 phần: “train” và “test”, sau đây sẽ sử dụng bộ dữ liệu “test” để kiểm định lại mô hình hồi quy.
Với bộ dữ liệu kiểm định, thấy rằng cho ra kết quả dự báo khác biệt lớn so với giá trị thực, ví dụ ở hàng thứ 2, kết quả thực tế là 92 nhưng dự báo cho ra kết quả gấp đôi.
Hồi quy tuyến tính bội cho Tension Strenght
Tương tự như phần của Roughness, kết quả cuối cùng cho mô hình hồi quy tuyến tính bội của Tension Strenght như Hình 5 12Hình 5 12, ở đây chỉ còn lại 5 biến dự báo: LH,
Giá trị R adj 2 =0.71cho thấy mô hình giải thích được khoảng 72% giá trị thực và giá trị p value rất nhỏ so với 0 cho thấy có ý nghĩa về mặt thống kê.
Hình 5.12 Phương trình hồi quy tuyến tính bội tốt nhất cho Tension Strenght
Hình 5.13 Dự báo kết quả cho Tension
Từ Hình 5 13Hình 5 13, cho thấy giữa giá trị thực tế và giá trị dự báo của Tension Strenght cũng có khác biệt đáng kể, nên cần xây dựng một mô hình khác thích hợp hơn.
Hình 5.14 Kết quả kiểm tra phần dư của hồi quy cho Tension Strenght
Hình 5.15 Biểu đồ Q-Q residuals của Tension Strenght
Với Hình 5 14 tương tự như với kết luận của Roughness, tuy nhiên ở Hình 5 15 các điểm dữ liệu không xấp xỉ thành đường thẳng với phân phối chuẩn.
Hồi quy tuyến tính bội cho Elongation
Tương tự, kết quả cuối cùng của hồi quy tuyến tính bội cho Elongation như Hình 5 16,
Hình 5.16 Phương trình hồi quy tuyến tính bội tốt nhất cho Elongation Hình 5.17 Dự báo kết quả cho Elongation
Hình 5.18 Kết quả kiểm tra phần dư của hồi quy cho Elongation
Hình 5.19 Biểu đồ Q-Q residuals của Elongation Ở kiểm tra Shapiro-Wilk cho kết quả tương tự với Roughness và Tension Strenght Biểu đồ Q-Q các điểm dữ liệu xấp xỉ thành đường thẳng với phân phối chuẩn, cho thấy rằng phần dư tuân theo phân phối chuẩn.
Ta tạo thêm biến group phân loại nozzle_temperature thành 3 nhóm:
Nhóm C: vì phải dùng t-test để so sánh 2 trung bình với nhau, thì phân tích phương sai có thể kết luận sự bằng nhau của nhiều trung bình cùng lúc, giúp ta giảm bớt số lần kiểm định.
Các giả định cần kiểm tra của mô hình:
• Giả định về phân phối chuẩn: elongation ở các nhóm phải tuân theo phân phối chuẩn.
• Giả định về tính đồng nhất của phương sai: Phương sai elongation ở các nhóm phải bằng nhau
Kiểm tra giả định về phân phối chuẩn
Vẽ đồ thị QQ-plot và hàm shapiro.test để kiểm tra giả định về phân phối chuẩn của biến elongation theo từng nhóm. Đối với nhóm A
Giả thiết H0: elongation ở nhóm A tuân theo phân phối chuẩn.
Giả thiết H1: elongation ở nhóm A không tuân theo phân phối chuẩn.
Nhận xét: Dựa trên đồ thị QQ-plot ta thấy các quan trắc nằm trên đường thẳng , có nghĩa là elongation ở nhóm A tuân theo phân phối chuẩn.
Ngoài ra, ta dựa vào ta thấy pvalue = 0,2815 ở kiểm định shapiro.test lớn hơn mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H0 Vậy elongation ở nhóm A tuân theo phân phối chuẩn. Đối với nhóm B:
Giả thiết H0: elongation ở nhóm B tuân theo phân phối chuẩn.
Giả thiết H1: elongation ở nhóm B không tuân theo phân phối chuẩn. chuẩn. Đối với nhóm C: shapiro.test(C$elongation)
Nhận xét: Dựa trên đồ thị QQ-plot ta thấy các quan trắc nằm trên đường thẳng Tức là, elongation ở nhóm C tuân theo phân phối chuẩn.
Ngoài ra, ta dựa vào ta thấy pvalue = 0,2607 ở kiểm định shapiro.test lớn hơn mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H0 Vậy elongation ở nhóm C tuân theo phân phối chuẩn.
Kiểm tra giả định về tính đồng nhất của phương sai:
Giả thiết H0: Phương sai elongation ở các nhóm bằng nhau.
Giả thiết H1: Có ít nhất 2 nhóm có phương sai elongation khác nhau.
Nhận xét: Dựa vào pvalue = 0,02409 ở kiểm định LeveneTest bé hơn mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H1 Vậy phương sai elongation ở các nhóm khác nhau.
Kết luận: Có sự khác biệt về ảnh hưởng của elongation của các nhóm.
Thực hiện phân tích phương sai 1 nhân tố:
Nhận xét: Dựa vào pvalue = 0,000241 ở kiểm định Anova bé hơn mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1 Suy ra , có ít nhất 2 nhóm có trung bình elongation khác nhau Vậy có sự khác biệt về trung bình elongation của các nhóm.
Thực hiện so sánh bội:
Nhận xét: Đối với cặp nhóm B-A:
Giả thiết H0: trung bình elongation ở nhóm A và nhóm B bằng nhau
Giả thiết H1: trung bình elongation ở nhóm A và nhóm B khác nhau
Vì p-value =0,9864270(p-adj) > mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H0
Trung bình elongation ở nhóm A và nhóm B bằng nhau.
Mà diff = -0,3466667 < 0 (có nghĩa là x nhóm B ´ < x nhóm A ´ ) nên trung bình elongation ở nhóm B bé hơn trung bình elongation ở nhóm A Tức nhóm A có tác động lớn hơn nhóm B đến elongation. Đối với cặp nhóm C-A:
Giả thiết H0: trung bình elongation ở nhóm C và nhóm A bằng nhau
Giả thiết H1: trung bình elongation ở nhóm C và nhóm A khác nhau
Vì p-value =0,0007527(p-adj) < mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Trung bình elongation ở nhóm C và nhóm A khác nhau.
Mà diff = -0,3466667 < 0 (có nghĩa là x nhómC ´ < x nhóm A ´ ) nên trung bình elongation ở nhóm C bé hơn trung bình elongation ở nhóm A Tức nhóm A có tác động lớn hơn nhóm C đến elongation. Đối với cặp nhóm C-B:
Giả thiết H0: trung bình elongation ở nhóm C và nhóm B bằng nhau
Giả thiết H1: trung bình elongation ở nhóm C và nhóm B khác nhau
Vì p-value =0,0003751(p-adj) < mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Trung bình elongation ở nhóm C và nhóm B khác nhau.
Mà diff = -1,052 < 0 (có nghĩa là x nhómC ´ < x nhóm B ´ ) nên trung bình elongation ở nhóm C bé hơn trung bình elongation ở nhóm B Tức nhóm B có tác động lớn hơn nhóm C đến elongation.
Kết luận: Dựa vào việc so sánh bội sau anova, có thể nhận thấy 3 nhóm A, B,C có sự tác động đến elongation theo thứ tự giảm dần.
Tương tự đối với biến roughness và tension_strenght:
Nhận xét: Đối với cặp nhóm B-A:
Giả thiết H: trung bình roughness ở nhóm A và nhóm B bằng nhau Đối với cặp nhóm C-A:
Giả thiết H0: trung bình roughness ở nhóm C và nhóm A bằng nhau
Giả thiết H1: trung bình roughness ở nhóm C và nhóm A khác nhau
Vì p-value =0,0268506(p-adj) < mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Trung bình roughness ở nhóm C và nhóm A khác nhau.
Mà diff = 98,20 > 0 (có nghĩa là x nhómC ´ > x nhóm A ´ ) nên trung bình roughness ở nhóm C lớn hơn trung bình roughness ở nhóm A Tức nhóm C có tác động lớn hơn nhóm A đến roughness. Đối với cặp nhóm C-B:
Giả thiết H0: trung bình roughness ở nhóm C và nhóm B bằng nhau
Giả thiết H1: trung bình roughness ở nhóm C và nhóm B khác nhau
Vì p-value =0,0027162(p-adj) < mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Trung bình roughness ở nhóm C và nhóm B khác nhau.
Mà diff = 118,32 > 0 (có nghĩa là x nhómC ´ > x nhóm B ´ ) nên trung bình roughness ở nhóm C lớn hơn trung bình roughness ở nhóm B Tức nhóm C có tác động lớn hơn nhóm B đến roughness.
Kết luận: Dựa vào việc so sánh bội sau anova, có thể nhận thấy 3 nhóm A, B,C có sự tác động đến roughness theo thứ tự C > A > B.
Nhận xét: Đối với cặp nhóm B-A:
Giả thiết H0: trung bình tension_strenght ở nhóm A và nhóm B bằng nhau
Giả thiết H1: trung bình tension_strenght ở nhóm A và nhóm B khác nhau
Vì p-value =0,9793470(p-adj) > mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H0
Trung bình tension_strenght ở nhóm A và nhóm B bằng nhau.
Mà diff = 0,5333333 > 0 (có nghĩa là x nhóm B ´ > x nhóm A ´ ) nên trung bình tension_strenght ở nhóm
B lớn hơn trung bình tension_strenght ở nhóm A Tức nhóm B có tác động lớn hơn nhóm A đến tension_strenght. Đối với cặp nhóm C-A:
Giả thiết H0: trung bình tension_strenght ở nhóm C và nhóm A bằng nhau
Giả thiết H1: trung bình tension_strenght ở nhóm C và nhóm A khác nhau
Vì p-value =0,0508086(p-adj) > mức ý nghĩa α=0,05 nên ta chấp nhận giả thiết H0
Trung bình tension_strenght ở nhóm C và nhóm A bằng nhau.
Mà diff = -8,2666667 < 0 (có nghĩa là x nhómC ´ < x nhóm A ´ ) nên trung bình tension_strenght ở nhóm C bé hơn trung bình tension_strenght ở nhóm A Tức nhóm A có tác động lớn hơn nhóm C đến tension_strenght. Đối với cặp nhóm C-B:
Giả thiết H0: trung bình tension_strenght ở nhóm C và nhóm B bằng nhau
Giả thiết H1: trung bình tension_strenght ở nhóm C và nhóm B khác nhau
Vì p-value =0,0197127(p-adj) < mức ý nghĩa α=0,05 nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1.
Trung bình tension_strenght ở nhóm C và nhóm B khác nhau.
7 Thảo luận và mở rộng
Từ những kết quả hồi quy ở trên, có thể nhận thấy rằng mô hình hồi quy tuyến tính bội không thật sự phù hợp để xác định mức độ ảnh hưởng các thông số cài đặt đến chất lượng bản in Vì vậy cần xây dựng một một hình khác thích hợp hơn, trong phần này sẽ trình bày về hồi quy đa thức, với công thức được trình bày như sau: y=β 0 +β 1 x+β 2 x 2 +β 3 x 3 +…+β n x n +ε
Với bộ dữ liệu này, nhóm tác giả sẽ xem xét đến bậc 5 cho các biến liên tục, sau đó so sánh kết quả RMSE được kiểm định bằng bộ dữ liệu “test”
Hồi quy đa thức cho Roughness
Hình 7.20 Kết quả kiểm tra RMSE hồi quy đa thức của Roughness Hình 7.21 Kết quả hồi quy đa thức bậc 4 cho mô hình Roughness
Với kết quả sau khi thử với từng bậc của đa thức khác nhau (Hình 7.20) nhóm tác giả nhận thấy rằng khi bậc của đa thức là 4 sẽ cho kết quả dự báo tốt nhất Trong đó RMSE khi i=1 là kết quả như của hồi quy tuyến tính bội cho Rounghess Từ kết quả đó cho thấy rằng hồi quy đa thức bậc 4 thích hơp hơn cho hồi quy tuyến tính bội (RMSE:39.2