2 CHƯƠNG II: KIẾN THỨC NỀN 2.1.1 Mô hình hồi quy tuyến tính đa biến Hồi quy tuyến tính là một phương pháp thống kê được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc biến mụ
TỔNG QUAN DỮ LIỆU
Bộ dữ liệu "data.csv" từ nhóm nghiên cứu Cơ khí Đại học Selcuk phân tích ảnh hưởng của 9 thông số điều chỉnh máy in 3D đến chất lượng in (độ chính xác và độ giãn), dựa trên 50 quan sát và 3 thông số đầu ra Dữ liệu gốc có sẵn tại: https://www.kaggle.com/afumetto/3dprinter.
1) Layer height (mm): Độ cao mỗi lớp in
2) Wall thickness (mm): Độ dày của tường
3) Infill density (%) :Mật độ lấp đầy
4) Infill pattern : Dạng lưới bên trong chi tiết
5) Nozzle temperature(ıC): Nhiệt độ mũi in
6) Bed temperature (ıC): Nhiệt độ bàn in
7) Print speed(mm=s): Tốc độ in
8) Material: Chất liệu (pla hoặc abs)
9) Fan speed (%) : Tốc độ quạt
11) Tension strength (MPa) :Sức căng
KIẾN THỨC NỀN
Mô hình hồi quy tuyến tính đa biến
Hồi quy tuyến tính phân tích mối quan hệ giữa biến phụ thuộc và một hoặc nhiều biến độc lập, nhằm xây dựng mô hình dự đoán Nghiên cứu này sử dụng mô hình hồi quy tuyến tính đa biến để dự đoán các thông số.
Mô hình hồi quy tuyến tính đa biến có dạng tổng quát như sau:
• 𝛽 0 : hệ số tự do (hệ số chặn)
• 𝛽 𝑘 :hệ số hồi quy riêng
Kết quả ước lượng mẫu cho phép đánh giá tương đối mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình.
Từ mẫu quan sát (𝑌𝑖, 𝑋2𝑖,…,𝑋𝑘𝑖), ta ước lượng các hệ số β𝑘 và xây dựng hàm hồi quy mẫu: Ŷ𝑖 = f(𝑋2𝑖,…,𝑋𝑘𝑖).
Hồi quy tuyến tính dự đoán giá trị biến phụ thuộc Y dựa trên biến độc lập X, với mối quan hệ tuyến tính giữa các tham số Phương pháp này áp dụng cho việc dự đoán giá trị liên tục, ví dụ: thời gian người dùng ở lại trang web hoặc số lượt truy cập.
Bài viết này sử dụng mô hình hồi quy tuyến tính đa biến để ước lượng các tham số tổng thể (𝛽₁, 𝛽₂, …, 𝛽ᵢ) từ dữ liệu thu thập được trên nhiều website Mục đích chính là trả lời các câu hỏi nghiên cứu cụ thể.
• Có mối quan hệ nào giữa 9 dữ liệu Input tới 3 dữ liệu Output không ?
• Những mối quan hệ đó cái nào mạnh cái nào nhẹ ?
• Chúng ta có thể dự đoán 3 giá trị Output tiếp theo chính xác đến mức nào ?
• Mối quan hệ đó tuyến tính hay theo một mô hình khác ?
• Có sự phối hợp nào giữa một nhóm các yếu tố Input đến một yếu tố Output không
Phương pháp bình phương nhỏ nhất (OLS)
Phương pháp bình phương nhỏ nhất, do nhà toán học Gauss phát triển, là phương pháp ước lượng hồi quy tuyến tính phổ biến nhất, dựa trên các giả thiết mô hình cụ thể.
• Mô hình hồi quy tuyến tính
• Các giá trị của 𝑋 được cố định trong việc lấy mẫu lặp lại 𝑋 được cho là không ngẫu nhiên
• Phương sai bằng nhau và thuần nhất
• Sai số có phân phối chuẩn
Từ mẫu quan sát (𝑌ᵢ, 𝑋₁ᵢ, …, 𝑋ₖᵢ) với i = 1,2,…,n, ta xây dựng ước lượng cho các hệ số mô hình.
𝛽 𝑗 (𝑗 = 1,2, … , 𝑘), ký hiệu là 𝛽̂ 𝑗 (𝑗 = 1,2, … , 𝑘) Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau:
Tại mỗi quan sát 𝑖, hàm hồi quy mẫu được viết thành:
Trong đó 𝑌̂ 𝑖 là giá trị ước lượng cho 𝑌̂ và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính:
𝑒 𝑖 = 𝑌 𝑖 − 𝑌̂ 1 Trong đó: 𝑌̂: Giá trị của hàm hồi quy mấu 𝑖
Tiêu chuẩn bình phương nhỏ nhất được tổng quát hóa cho mô hình hồi quy tuyến tính tổng quát nhu sau:
Khi đó, các giá trị 𝛽̂; 𝛽 0 ̂; 𝛽 1 ̂; … ; 𝛽 2 ̂ 𝑘 sẽ là nghiệm của hệ gồm 𝑘 phương trình sau:
Hệ phương trình chuẩn của hồi quy mẫu cho phép xác định k hệ số θ chưa biết thông qua việc giải k phương trình.
𝜃 1 , 𝜃 2 , … , 𝜃 𝑘 được gọi là các ước lượng bình phương nhỏ nhất
Chúng ta có thể kiểm định mô hình bằng cách vẽ đồ thị với hàm plot(), kết quả sẽ cho ra bốn đồ thị như sau:
Đồ thị Residuals and Fitted trực quan hóa mối quan hệ giữa giá trị dự báo và sai số (thặng dư) Đường hồi quy trên đồ thị giúp đánh giá tính tuyến tính của mô hình và giả định sai số có kỳ vọng bằng 0.
Đồ thị Normal Q-Q biểu diễn các giá trị dư chuẩn hóa; nếu các điểm phân bố gần đường thẳng, giả định sai số phân phối chuẩn được thỏa mãn.
Đồ thị Scale-Location kiểm tra giả định sai số có phương sai không đổi bằng cách vẽ đồ thị căn bậc hai của giá trị thặng dư đã được chuẩn hóa Đường màu đỏ trên đồ thị cho thấy liệu giả định này có được thỏa mãn hay không.
Đồ thị Residuals and Leverage trực quan hóa các điểm dữ liệu có ảnh hưởng cao Phân bố điểm quanh đường hồi quy giúp xác định các điểm dữ liệu ảnh hưởng mạnh đến mô hình.
Độ phù hợp của mô hình
2.1.3.1 Hệ số xác định bội
Hệ số xác định bội (R²) đo lường mức độ phù hợp của mô hình hồi quy với dữ liệu mẫu Chỉ số này cho biết phần trăm sự thay đổi của biến đáp ứng được giải thích bởi các biến dự báo trong mô hình R² càng cao, mô hình càng phù hợp với dữ liệu.
Cách xác định hệ số xác định bội: Đặt:
• SST (total sum of square): Tổng bình phương độ lệch toàn phần
• SSE (Explained sum of square): Tổng bình phương độ lệch phần hồi quy
• SSR (Residual sum of square): Tổng bình phương phần dư
Do ∑𝑒 𝑖 (𝑌̂ 𝑖 − 𝑌⃐ ) = 0 nên ta có được
𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅 Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:
Do các thành phần SST, SSE, SSR tều không âm, nên từ biểu thức trên có thể thấy
(0 ⩽ 𝑅 2 ⩽ 1) Ý nghĩa của hệ số xác định bội: Với mô hình hồi quy 𝑘 biến, 𝑅 2 có ý nghĩa như sau:
𝑅 2 là mức độ phù hợp của mô hình hồi quy tuyến tính trong việc mô tả dữ liệu thực tế Với điều kiện (0 ⩽ 𝑅 2 ⩽ 1), ta có:
Chỉ số R² càng cao, mô hình hồi quy càng chính xác trong việc dự đoán dữ liệu thực tế, thể hiện độ lệch giữa dữ liệu thực tế và kết quả hồi quy càng thấp.
• Nếu 𝑅 2 = 1, nghĩa là đường hồi quy giải thích 100% sự thay đổi của 𝑌
• Nếu 𝑅 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc 𝑌
Hệ số tương quan bội R: yếu tố nào có 𝑅 càng lớn thỉ ảnh hưởng càng nhiều
Hệ số hồi quy riêng: yếu tố nào có 𝛽 𝑘 cao thì ảnh hưởng nhiều hơn Nó có thể bằng
0 , lớn hơn 0 , bé hơn 0 , tương ứng Xk không tương quan, thuận chiều, ngược chiều với
Y khi các biến còn lại không đổi
Tuy nhiên các yếu tố có đơn vị khác nhau nên không thể so sánh mức ảnh hưởng giữa các yếu tố
P-value, cùng với hệ số xác định bội, là chỉ số thống kê đo lường mối tương quan giữa biến độc lập (output) và biến phụ thuộc (input), thường được tính toán bằng F-test hoặc t-test.
Hồi quy đa biến sử dụng p-value để đánh giá mối tương quan giữa mỗi biến độc lập và biến phụ thuộc P-value dưới 0.05 cho thấy mối tương quan mạnh giữa hai biến.
Hệ số tương quan
Hệ số tương quan (r) đo lường mối liên hệ giữa hai biến số, có giá trị từ -1 đến 1, với 0 thể hiện không có tương quan.
0 ) có nghĩa là hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay
Hệ số tương quan r = 1 thể hiện mối liên hệ tuyệt đối giữa hai biến Nếu r < 0, khi x tăng thì y giảm và ngược lại; nếu r > 0, x và y cùng tăng hoặc cùng giảm.
Bài viết này tập trung vào việc xác định hệ số tương quan sử dụng phương pháp Pearson và ma trận hệ số tương quan để tối ưu hóa tốc độ tính toán Cụ thể, chúng ta sẽ tìm hiểu về hệ số tương quan Pearson.
Cho 2 biến 𝑥 và 𝑦 từ 𝑛 mẫu, hệ số tuơng quan được tính bằng công thức sau:
Trong đó, như định nghĩa phần trên, 𝑥⃐ và 𝑦⃐ là giá trị trung bình của biến số 𝑥 và
𝑦 Hệ số tương quan Person có giá trị dao động từ -1 đến 1 Khi đó:
• Nếu 𝑟 càng tiến về (1, −1) : tương quan tuyến tính càng mạnh, càng chặt chẽ Tiến về 1 là tương quan dương, tiến về -1 là tương quan âm
• Nếu 𝑟 càng tiến về 0 : tương quan tuyến tính càng yếu
Hệ số tương quan r = 1 cho thấy mối tương quan tuyến tính hoàn hảo, thể hiện trên đồ thị phân tán bằng một đường thẳng.
Hệ số tương quan r = 0 cho thấy không có tương quan tuyến tính giữa hai biến, có thể do không có mối liên hệ nào hoặc tồn tại mối liên hệ phi tuyến Ma trận hệ số tương quan được sử dụng để phân tích.
Ma trận hệ số tương quan là ma trận vuông đo lường mối quan hệ giữa các biến, thể hiện mức độ và hướng tương quan (từ -1 đến 1) dựa trên công thức Pearson.
Ví dụ: chúng ta có ma trận của ba biến 𝑋 Y 𝑍 sau:
Phân tích ma trận tương quan cho thấy X có tương quan dương mạnh với Y (r = 0.5), tương quan âm yếu với Z (r = -0.3), và tương quan hoàn toàn với chính nó Y và Z có tương quan dương yếu (r = 0.2), trong khi X và Z có tương quan âm yếu (r = -0.3).
Ngoại lai (outliers)
Giá trị ngoại lai là dữ liệu khác biệt, không theo quy tắc chung, gây sai lệch phân tích và dự đoán Loại bỏ ngoại lai giúp kết quả chính xác hơn.
Phương pháp xác định ngoại lệ này dùng hàng rào đặt cách Q1 và Q3 khoảng 1.5IQR Dữ liệu ngoài phạm vi này được coi là ngoại lệ.
ANOVA
Phân tích phương sai (ANOVA) là kỹ thuật thống kê so sánh giá trị trung bình của các biến phụ thuộc.
Phân tích ANOVA so sánh trung bình của nhiều nhóm mẫu, đánh giá sự khác biệt giữa biến phụ thuộc (mức quy mô) và biến độc lập (danh nghĩa, từ 2 loại trở lên) ANOVA hữu ích trong nghiên cứu hồi quy để xác định ảnh hưởng của biến độc lập lên biến phụ thuộc.
• Tóm lại, ANOVA là phương pháp phân tích các phương sai của các biến phụ thuộc thông qua đó ta so sánh các kỳ vọng của chúng
2.3.1 Các bước kiểm định mô hình
Bài viết trình bày kiểm định ANOVA cho mẫu gồm n biến ngẫu nhiên, mỗi biến có cỡ m, nhằm kiểm tra giả thuyết về sự bằng nhau của kỳ vọng các biến.
Ta lập bảng ANOVA như sau:
Tác nhân Bậc tự do
Nghiệm thức (giữ các biến ngấu nhiên) 𝐼 − 1 𝑆𝑆𝑇𝑟 𝑀𝑆𝑇𝑟 𝐹
Sai số (trong từng biến ngấu nhiên) 𝐼(𝐽 − 1) 𝑆𝑆𝐸 𝑀𝑆𝐸
Miền bác bó 𝐻 0 (chấp nhận 𝐻 1 ):
𝐹 ⩽ 𝐹𝛼,𝐼−1,𝐼(𝐽−1) Để xây dựng thuật toán phân tích phương sai, ta định nghĩa các tổng bình phương sau:
Trung bình của tất cả 𝐼𝐽 biến quan sát (trung bình toàn thể):
• Tổng bình phương nghiệm thức:
• Tổng bình phương sai số:
• Tổng bình phương toàn thể:
Các trung bình bình phương:
• Trung bình bình phương nghiệm thức:
• Trung bình bình phương sai số:
MSTr đo độ phân tán giữa các biến ngẫu nhiên, MSE đo độ phân tán trong mỗi biến Nếu MSTr >> MSE, các nhóm được coi là rời nhau và có kỳ vọng khác nhau (F = MSTr/MSE).
𝑀𝑆𝐸 quá lớn Ta xem xét phân phối của 𝐹 :
𝑀𝑆𝐸 𝑆𝑆𝑇𝑟/𝜎2 𝐼−1 𝑆𝑆𝐸/𝜎2 𝐼(𝐽−1) thì 𝐹𝐹 𝐼−1,𝐼(𝐽−1) (phân phối Fisher với hai bậc tự do 𝐼 − 1 và 𝐼(𝐽 − 1)
TIỀN XỬ LÝ SỐ LIỆU
Nhập, đọc dữ liệu
Đọc dữ liệu của tệp tin vào R và xuất kết quả
Vẽ bảng phân phối ba biến định lượng: Roughness, Tension strengtht và Elongation:
Nhận xét: Theo đồ thị phân phối, ta thấy hai biến Tension_strenght và Elongation có quan hệ tuyến tính với nhau.
Làm sạch dữ liệu
Tạo data tên data_2 để lọc các dữ liệu output
Kiểm tra dữ liệu khuyết của dữ liệu vừa tạo
Nhận xét: Kết quả cho thấy dữ liệu không có ô nào trong bảng không có dữ liệu
Kiểm tra dữ liệu ngoại lai (Outlier)
Kiểm tra các dữ liệu ngoại lai bằng cách tạo data tên outlier_finding_data, sau đó tìm các giá trị
Q 1 , Q 3 , IQR và sau đó in ra kết quả có bao nhiêu biến ngoại lai
Sau đó lọc biến outlier khỏi data và data_2:
THỐNG KÊ MÔ TẢ
Thống kê mô tả
4.1.1 Tính thông kê mô tả cho các biện trong bộ dữ liệu:
Câu lệnh thực hiện: summary(dat)
Kết quả thu được như sau:
Có 2 biến phân loại trong bộ dữ liệu: infill_pattern và material Lập biểu đồ thể hiện số lượng cho 2 biến trên bằng :
Qua biểu đồ trên, có thể thấy:
- Với biến “material”: số lượng ABS = số lượng PLA = 25
- Với biến “infill_pattern”: số lượng kiểu grid = số lượng kiểu honeycomb = 50
4.1.2 Biểu đồ phân phối của các biến:
Biểu đồ Histogram của các biến “tension_strenght” (màu xanh lá), “elongation” (màu đỏ) , “roughness” (màu vàng) như sau:
Phân phối của biến “roughness” thể hiện bằng biểu đồ boxplot:
Phân phối của biến “tension_strenght” thể hiện bằng biểu đồ boxplot:
Phân phối của biến “elongation” thể hiện bằng biểu đồ boxplot:
Biểu đồ phân tán của biến “tension_strenght”:
Phân tích đồ thị phân tán cho thấy biến "tension_strenght" không có mối tương quan với các biến khác trong nghiên cứu.
Biểu đồ phân tán của biến “roughness”:
Nhận xét: Dựa vào những đồ thị phân tán của biến “roughness” như trên, có thể thấy “roughness” có quan hệ tuyến tính khá mạnh với biến “layer_height”
Biểu đồ phân tán của biến “elongation”:
Phân tích đồ thị phân tán cho thấy biến "elongation" không có mối tương quan với các biến khác trong nghiên cứu.
THỐNG KÊ SUY DIỄN
5.1 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ nhám của bản in như thế nào?
Biến dự báo ( biến độc lập): layer_height, wall_thickness, infill_desity, nozzle_temperature, bed_temperature, print_speed, infill_pattern, material
Mô hình được biểu diễn như sau: roughness = β0 + β1 layer_height+ β2 wall_thickness+ + β8.materialpla + ε
5.1.1 Ta thực hiện ước lượng các hệ số βi:
Mô hình hồi quy tuyến tính:
Phân tích cho thấy giá trị p (p-value = 3.834e-16) nhỏ hơn mức ý nghĩa (2.2e-16), chứng tỏ ít nhất một biến dự báo trong mô hình có ý nghĩa thống kê cao trong việc giải thích biến độ nhám (roughness).
Phân tích p-value cho thấy không đủ bằng chứng để bác bỏ giả thuyết H0 về ảnh hưởng của wall_thickness, infill_density, và infill_patternhoneycomb đến mô hình hồi quy (p-value > 0.05) Do đó, các biến này được loại bỏ khỏi mô hình.
Ta xây dựng mô hình 2 là mô hình loại bỏ biến infill_pattern từ mô hình 1:
Nhận xét: Mô hình 2 có R 2 hiệu chỉnh = 0.8544 cao hơn so với R 2 hiệu chỉnh ở mô hình
1 = 0.8509 nên có thể cho rằng mô hình 2 là mô hình hiệu quả hơn
Ta xây dựng mô hình 3 là mô hình loại bỏ infill_density từ mô hình 2:
Nhận xét: mô hình 3 có R 2 hiệu chỉnh = 0.8577 cao hơn so với R 2 hiệu chỉnh ở mô hình
2 = 0.8544 nên có thể co rằng mô hình 3 là mô hình hiệu quả hơn
Ta xây dựng mô hình 4 là mô hình loại bỏ biến wall_thickness từ mô hình 3:
Nhận xét: Mô hình 3 có R 2 hiệu chỉnh = 0.8577 cao hơn so với R 2 hiệu chỉnh ở mô hình
4 = 0.8571 nên có thể cho rằng mô hình 3 là mô hình hiệu quả hơn
=> Từ việc so sánh các mô hình, ta nhận thấy mô hình 3 có hiệu quả cao nhất
Phân tích sự ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ nhám của bản in
▪ Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố lên roughness:
Hệ số hồi quy và p-value (dưới 2e−16) của biến layer_height cho thấy ảnh hưởng cực kỳ đáng kể của biến này đến độ nhám bề mặt (roughness).
5.1.2 Kiểm tra các giả định của mô hình.
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
• Sai số có phân phối chuẩn
• Sai số ε có kỳ vọng bằng 0
• Phương sai các sai số là hằng số
• Các phương sai số ε1,…, en thì độc lập với nhau.
Vẽ đồ thị kiểm tra các giả định của mô hình
Phân tích đồ thị hồi quy cho thấy giả định tuyến tính không được đáp ứng (Đồ thị 1), trong khi giả định sai số có kỳ vọng bằng 0 và phương sai hằng số được thỏa mãn (Đồ thị 1, 3) Sai số gần đúng phân phối chuẩn (Đồ thị 2) Đồ thị 4 (Residuals vs Leverage) cho thấy điểm dữ liệu 5, 23, 24 có ảnh hưởng tiềm tàng nhưng chưa cần loại bỏ.
5.1.3 Kiểm tra các giả thiết dựa vào các kiểm định:
Giả thiết 2: sai số có phân phối chuẩn
H0: các sai số hồi quy có phân phối chuẩn
H1: dữ liệu không có phân phối chuẩn
Từ kết quả trên ta có p-value = 0,9288 > = 5%, nên không thể bác bỏ H0 Vậy giả thiết 2: sai số có phân phối chuẩn thỏa mãn
Giả thiết 4: các sai số có kỳ vọng =0
H0: các sai số có kì vọng =0
H1: các sai số có kì vọng ≠0
Cách 2.1: kiểm định theo tiêu chuẩn kiểm định
Phân tích kết quả R cho thấy tham số 𝑧0 độc lập với miền bác bỏ Do đó, giả thuyết H0 về kỳ vọng sai số bằng 0 chưa bị bác bỏ và được chấp nhận.
Các 2.2: kiểm định theo p-value
Ta nhận thấy p-value = 1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có kì vọng bằng 0 được thỏa mãn
5.2 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ căng của bản in như thế nào?
+Biến phụ thuộc: tension_strength
+Biến dự báo( biến độc lập): layer_height, wall_thickness, infill_density, nozzle_temperature, bed_temperature, print_speed, infill_pattern, material
-Mô hình được biểu diễn như sau: tension_strength = β0 + β1.layer_height + β2 wall_thickness + .+ β8.materialpla + ε
5.2.1 Ta thực hiện ước lượng các hệ số βi:
Mô hình hồi quy tuyến tính:
Kết quả kiểm định F (p = 6.91e-08 < 0.05) cho thấy mô hình hồi quy có ý nghĩa thống kê cao, ít nhất một biến dự báo ảnh hưởng đáng kể đến biến độ nhám tension_strength.
Phân tích p-value cho thấy các biến `print_speed` và `infill_patternhoneycomb` không có ý nghĩa thống kê (p > 0.05) trong mô hình hồi quy, do đó có thể loại bỏ khỏi mô hình.
Ta xây dựng mô hình 2 là mô hình loại bỏ biến print_speed từ mô hình 1:
Nhận xét: Mô hình 2 có R 2 hiệu chỉnh = 0.616 cao hơn so với R 2 hiệu chỉnh ở mô hình 1
= 0.6092 nên có thể cho rằng mô hình 2 là mô hình hiệu quả hơn
Ta xây dựng mô hình 3 là mô hình là loại bỏ biến infill_pattern từ mô hình 2:
Nhận xét: Mô hình 3 có R 2 hiệu chỉnh = 0.6201 cao hơn so với hiệu chỉnh ở mô hình 2 = 0.616 nên có thể cho rằng mô hình 3 là mô hình hiệu quả hơn
=> Từ việc xây dựng các mô hình thì ta nhận thấy mô hình 3 là mô hình hiệu quả nhất
5.2.2 Kiểm tra các giả định của mô hình:
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
• Sai số có phân phối chuẩn
• Sai số ε có kỳ vọng bằng 0
• Phương sai các sai số là hằng số
• Các phương sai số ε1,…, en thì độc lập với nhau
Vẽ đồ thị kiểm tra các giả định của mô hình:
Đồ thị 1 và 3 (Residuals vs Fitted & Scale-Location) cho thấy đường hồi quy gần ngang và các điểm sai số phân bố ngẫu nhiên, thỏa mãn giả định tính tuyến tính, kỳ vọng sai số bằng 0 và phương sai hằng Đồ thị 2 (Q-Q Residuals) xác nhận giả định sai số phân phối chuẩn Đồ thị 4 (Residuals vs Leverage) không phát hiện điểm ảnh hưởng cao cần loại bỏ.
5.2.3 Kiểm tra các giả thiết dựa vào các kiểm định:
Giả thiết 2: sai số có phân phối chuẩn
H0: các sai số hồi quy có phân phối chuẩn
H1: dữ liệu không có phân phối chuẩn
Từ kết quả trên ta có p-value = 0,3517 > = 5%, nên không thể bác bỏ H0 Vậy giả thiết 2: sai số có phân phối chuẩn thỏa mãn
Giả thiết 4: các sai số có kỳ vọng =0
H0: các sai số có kì vọng =0
H1: các sai số có kì vọng ≠0
Cách 1: kiểm định theo tiêu chuẩn kiểm định
Phân tích kết quả R cho thấy tham số 𝑧0 độc lập với vùng bác bỏ Do đó, giả thuyết H0 về kì vọng bằng 0 của sai số chưa bị bác bỏ, thỏa mãn điều kiện đặt ra.
Cách 2: kiểm định theo p-value
Ta nhận thấy p-value = 1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có kì vọng bằng 0 được thỏa mãn
5.3 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ giãn dài của bản in như thế nào ?
This study uses a regression model (elongation = β0 + β1*layer_height + β2*wall_thickness +…+ β8*materialpla + ε) to predict elongation based on independent variables: layer height, wall thickness, infill density, infill pattern, nozzle temperature, bed temperature, print speed, and material.
5.3.1 Ta thực hiện ước lượng các hệ số βi:
Mô hình hồi quy tuyến tính:
Phân tích ANOVA cho thấy giá trị p (p-value = 4.765e-09) nhỏ hơn mức ý nghĩa 0.05, chứng tỏ ít nhất một biến dự báo trong mô hình có ý nghĩa thống kê cao đối với biến độ giãn dài (elongation).
• Ta đặt bài toán kiểm định giả thuyết :
H0: Hệ số hồi quy không có ý nghĩa thống kê ( = 0) H1: Hệ số hồi quy có ý nghĩa thống kê ( ≠ 0)
Phân tích hồi quy cho thấy các biến `wall_thickness`, `infill_patternhoneycomb`, và `print_speed` có p-value > 0.05, không đủ bằng chứng bác bỏ giả thuyết H0 Do đó, các biến này không có ý nghĩa thống kê và nên được loại bỏ khỏi mô hình.
Ta xây dựng mô hình 2 loại bỏ biến infill_pattern từ mô hình 1
Nhận xét: Ta thấy mô hình 2 có R 2 hiệu chỉnh = 0.6662 lớn hơn R 2 hiệu chỉnh ở mô hình
1 = 0.6598 nên có thể cho rằng mô hình 2 hiệu quả hơn mô hình 1
Ta xây dựng mô hình 3 loại bỏ biến wall_thickness từ mô hình 2
Nhận xét: Ta thấy mô hình 3 có R2 hiệu chỉnh = 0.6642 nhỏ hơn R2 hiệu chỉnh ở mô hình 2 = 0.6662 nên có thể cho rằng mô hình 2 hiệu quả hơn mô hình 3
Kết luận: Mô hình 2 là mô hình hiệu quả nhất
5.3.2 Kiểm tra các giả định của mô hình
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
• Sai số có phân phối chuẩn
• Sai số ε có kỳ vọng bằng 0
• Phương sai các sai số là hằng số
• Các phương sai số ε1,…, en thì độc lập với nhau
Vẽ đồ thị kiểm tra các giả định của mô hình:
Phân tích đồ thị hồi quy cho thấy: tính tuyến tính, kỳ vọng sai số bằng 0 và phương sai hằng số được đáp ứng (Đồ thị 1, 3) Sai số phân phối chuẩn (Đồ thị 2) Không có điểm dữ liệu nào ảnh hưởng đáng kể cần loại bỏ (Đồ thị 4).
5.3.3 Kiểm tra các giả thiết dựa vào các kiểm định:
Giả thiết 2: sai số có phân phối chuẩn
H0: các sai số hồi quy có phân phối chuẩn
H1: dữ liệu không có phân phối chuẩn
Từ kết quả trên ta có p-value = 0,55 > = 5%, nên không thể bác bỏ H0 Vậy giả thiết 2: sai số có phân phối chuẩn thỏa mãn
Giả thiết 4: các sai số có kỳ vọng =0
H0: các sai số có kì vọng =0
H1: các sai số có kì vọng ≠0
Cách 1: kiểm định theo tiêu chuẩn kiểm định
Kết quả R cho thấy z0 độc lập với miền bác bỏ Do đó, giả thuyết H0 về kỳ vọng sai số bằng 0 không bị bác bỏ.
Cách 2: kiểm định theo p-value
Ta nhận thấy p-value = 1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có kì vọng bằng 0 được thỏa mãn
CHƯƠNG VI THẢO LUẬN VÀ MỞ RỘNG
6.1 Phân Tích Phương Sai (ANOVA)
ANOVA giúp xác định ý nghĩa thống kê của sự khác biệt giữa ba nhóm trở lên về các yếu tố như chiều cao lớp, độ dày thành, mật độ infill, v.v., hữu ích khi so sánh hiệu suất máy in 3D trong điều kiện khác nhau.