Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối.. Do đó, giả thiết 4 được đưa r
Mô tả dữ liệu
Tên bộ dữ liệu:Bộ dữ liệu Máy in 3D dành cho Kỹ sư cơ khí.
Nguồn: Bộ dữ liệu được lấy từ website kaggle.com và xuất phát từ nghiên cứu của khoa Cơ khí thuộc Đại học TR/Selcuk.
Mục tiêu:Mục tiêu: Mục tiêu của nghiên cứu này là phân tích mức độ ảnh hưởng của các thông số cài đặt của máy in 3D đến độ nhám của sản phẩm Cụ thể, nhóm sẽ xác định mối quan hệ, giữa các thông số kỹ thuật in (độ cao của lớp in, độ dày của tường, nhiệt độ đầu phun, ) và các thuộc tính của sản phẩm in hoàn thiện là độ nhám.
Mục đích: Việc phân tích bộ dữ liệu này giúp xác định các yếu tố quan trọng nhất ảnh hưởng tới độ nhám của sản phẩm Từ đó hỗ trợ cho việc đề xuất các giải pháp để tối ưu hóa quá trình in 3D và đưa ra quyết định trong việc lựa chọn thông số kỹ thuật cho các dự án in cụ thể.
Số lượng mẫu thu thập: 51
Số lượng các biến (tham số): 12
Giới thiệu các biến
Trong bài tập lớn này, nhóm sẽ sử dụng R và R Studio để làm công cụ và môi trường cho việc phân tích dữ liệu
Tên biến Ý nghĩa Phạm Vi Đơn vị layer_height Độ cao của lớp in 3D x = {0.02, 0.06, 0.1, 0.15} mm wall_thickness Độ dày của bức tường trong mô hình in 3D
{x ∈ N| 1 ⩽ x ⩽ 10 } mm infill_density Mật độ lấp đầy bên trong mô hình
{x ∈ N| 10 ⩽ x ⩽ 100 } % infill_pattern Loại cấu trúc dùng để lấp đầy bên trong mô hình {0
= grid, 1= honeycomb} x =0 hoặc x =1 none nozzle_temperature Nhiệt độ đầu phun khi in x={200 + 5k| k ∈ N, 0 ⩽ x ⩽ 10 }
◦ C bed_temperature Nhiệt độ nền in x={60 + 5k| k ∈ N, 0 ⩽ x
◦ C print_speed Tốc độ in x={40 + 5k| k ∈ N, 0 ⩽ x
⩽ 16 } mm/s fan_speed Tốc độ quạt làm mát x = {0, 25, 50, 100} % roughness Độ nhỏm của bề mặt in {x ∈ N| 21 ⩽ x ⩽ 368 } àm tension_strength Sức căng của vật liệu sau khi in
{x ∈ N| 4 ⩽ x ⩽ 37 } MPa elongation Độ giãn dài của vật liệu sau khi in
{x ∈ R| 0.4 ⩽ x ⩽ 3.3 } % material Vật liệu được sử dụng để in {0= abs và 1 = pla} x=0 hoặc x=1 none
Bảng 3: Giới thiệu các biến
Hồi quy bội
2.1.1 Mô hình hồi quy bội
Mô hình hồi quy bội : là mô hình hồi quy trong đó biến phụ thuộc Y phụ thuộc vào (k − 1) biến độc lập X 1 , X 2 , , X kk có dạng như sau :
Hàm hồi quy tổng thể : E(Y |X 1 , , X k ) = β 1 + β 1 X 1 + β 2 X 2 + + β k X k
Mô hình hồi quy tổng thể Y = β 1 + β 1 X 1 + β 2 X 2 + + β k X k + ϵ
• ϵ là sai số ngẫu nhiên
• β 1 là hệ số tự do, bằng giá trị trung bình của Y khi X j = 0
• β j là hệ số hồi quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng biến độc lập X j lên trung bình của Y khi các biến khác được giữ không đổi.
Cụ thể, khi Xj tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay đổi β j đơn vị Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số góc:
• β j > 0 khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj tăng(hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm(hoặc tăng).
• β j = 0 có thể cho rằng giữa Y và X j không có tương quan với nhau, cụ thể là
Y có thể không phụ thuộc vào X j hay là X j không thực sự ảnh hưởng tới Y.
Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối.
Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến biến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có số liệu hoặc không muốn đưa vào) Do đó trong mô hình vẫn tồn tại sai số ngẫu nhiên ϵ đại diện cho các yếu tố khác ngoài các biến X j (j = 2, 3, , k) có tác động đến Y nhưng không đưa vào mô hình như là biến số.
2.1.2 Các giả thiết hồi quy bội
Giả thuyết 1 : Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên.
Giả thuyết 2 :Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị(X 2i , X 3i , , X ki = 0).
Giả thuyết 3 : Phương sai của sai số ngẫu nhiên tại các giá trị (X 2i , X 3i , , X ki ) đều bằng nhau.
Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên ϵ tuân theo phân phối chuẩn.
Giả thuyết 4 : Giữa các biến độc lập Xj không có quan hệ cộng tuyến hoàn hảo, nghĩa là không tồn tại hằng số λ 2 , λ 3 , , λ k không đồng thời bằng 0 sao cho:
Có thể nhận thấy nếu giữa các biến X j (j = 2, 3, , k) có quan hệ cộng tuyến hoàn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến còn lại Do đó, giả thiết 4 được đưa ra để loại trừ tình huống này.
2.1.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)
Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn đề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các hệ số β j này.
Cũng như với mô hình hồi quy hai biến, ta sẽ sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồi quy k biến.
Giả sử có một mẫu quan sát với giá trị thực tế là (Y 1 , X 2i , X 3i , , X ki ) với (i =
1, 2, , n) Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số β j (j = 1, 2, , k), ký hiệu là βc j (j = 1, 2, , k).
Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau:
Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành:
Trong đó Yb 1 là giá trị ước lượng cho Y ˆ và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính : e i = Yb 1 − Yb 2
Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị βb j (j = 1, 2, , k) sao cho tổng bình phương các phần dư là bé nhất: 22
Khi đó các giá trị βb 1 + βb 2 + + βb k sẽ là nghiệm của hệ gồm k phương trình sau:
Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất Việc giải hệ phương trình khá dễ dàng qua các phầm mềm thống kê nếu số biến không quá lớn Các giá trị ước lượng bằng phương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể.
Với mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm các ước lượng hệ sốj (j = 1, 2, 3 k) sẽ trở nên khó khăn hơn so với mô hình hồi quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của các phần mềm thống kê.
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy.
Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch Hay nói một cách khác, nếu giả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước lượng tuyến tính không chệch.
2.1.4 Đánh giá mức độ phù hợp mô hình hồi quy bội
Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ước lượng hệ số và độ lệch chuẩn của nó thì chưa đầy đủ Có một con số cũng góp phần không nhỏ khi đánh giá chất lượng mô hình đó là hệ số xác định.
Sau khi ước lượng được mô hình hồi quy trong một khoảng tin cậy, ta muốn biết hàm hồi quy mẫu phù hợp với số liệu mẫu đến mức nào Có thể đánh giá điều đó qua hệ số xác định bội.
SST (Sum Of Square Total ): Tổng bình phương độ lệch toàn phần Đo mức độ biến động các giá trị quan sátY i xung quanh các giá trị trung bình của chính mẫu. SST được tạo bởi hai thành phần: SST = SSE + SSR.
SSE (Sum Of Square For Error): Tổng bình phương phần dư do sự chệnh lệch giữa từng giá trị quan sát với giá trị dự đoán (ước lượng).
SSR (Sum Of Square in Regression): Tổng bình phương độ lệch phần hồi quy, là sai số do khác biệt giữa đường hồi quy mẫu và trung bình của Y.
Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:
Do các thành phần SST, SSE, SSR đều không âm, nên từ biểu thức trên có thể thấy 0 ≤ R 2 ≤ 1.
Giá trị R 2 là mối tương quan bình phương giữa giá trị kết quả thực tế và giá trị.
Phương pháp kiểm định Shapiro-Wilk
Kiểm định Shapiro-Wilk có thể được sử để xác định xem một mẫu có phân bố bình thường/phân bố chuẩn hay không.
• Giả thuyết H 0 (giả thuyết không): Dữ liệu tuân theo phân phối chuẩn.
• Giả thuyếtH 1 (giả thuyết thay thế): Dữ liệu không tuân theo phân phối chuẩn.
- Bước 2: Sử dụng thuật toán để kiểm định
P n i=1 (x i −¯ x) 2 x i giá trị nhỏ nhất của x a i = hằng số Shapiro-wilk ¯ x : giá trị trunng bình của biến cần kiểm định
0 < w < 1 ; w tương tự như hệ số tương quan
• Nếu giá trị p (p-value) nhỏ hơn ngưỡng ý nghĩa α (thường là 0.05), ta bác bỏ giả thuyết H 0 và kết luận rằng dữ liệu không tuân theo phân phối chuẩn.
• Ngược lại, nếu giá trị p lớn hơn ngưỡng ý nghĩa α, ta không đủ bằng chứng để bác bỏ giả thuyết H 0 và kết luận rằng dữ liệu tuân theo phân phối chuẩn.
Phương pháp kiểm định Breusch-Pagan
Phương pháp kiểm định Breusch-Pagan là một phương pháp kiểm định giả thiết thống kê về phương sai sai số thay đổi trong mô hình hồi quy tuyến tính cổ điển.
• Giả thiết H 0 : Phương sai sai số không thay đổi
• Giả thiết H 1 : là phương sai sai số thay đổi Đầu tiên ta tìm hàm hồi quy cho mô hình Y ˆ i = ˆ β 1 + ˆ β 2 X 2i + + ˆ β k X ki sau đó tính toán bình phương của các phần dư e 2 i = (Y i − Y ˆ i ) 2 Tiếp theo là tìm hàm hồi quy mới với e 2 i là biến phụ thuộc: e 2 i = a 1 + a 2 x 2i + + a k x ki + v i → R 2 e
Lúc này, ta có giả thuyết H 0: a 2 = a 3 = = a k = 0
Tính toán giá trị quan sát:F = R 2 e
Nếu có quá nhiều biến độc lập nhưng số quan sát lại hạn chế thì ta có thể sử dụng các biến được dự đoánY ˆ i = ˆ β 1 + ˆ β 2 X 2i + + ˆ β k X ki như một dạng thay thế của kiểm định này Khi đó: e 2 i = a 1 + a 2 Y ˆ i + v i → R 2 e với H 0 : a 2 = 0
Tính toán giá trị quan sát: F = 1− R 2 e
R 2 e × n − k hoặc LM = nR 2 e > χ 2 e (1) Tiếp đến ta tìm p-value dựa trên giá trị quan sát và cuối cùng là kết luận:
• Nếu giá trị p (p-value) nhỏ hơn ngưỡng ý nghĩa α, ta bác bỏ giả thuyết H 0 và kết luận rằng sai sai số thay đổi.
• Ngược lại, nếu giá trị p lớn hơn ngưỡng ý nghĩa α, ta không đủ bằng chứng để bác bỏ giả thuyếtH 0 và có thể kết luận rằng sai sai số không thay đổi.
3 PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU
Nhập file dữ liệu vào RStudio
data ← read.csv("D:/archive (1)/data.csv") với địa chỉ file là địa chỉ lưu project trong máy tính cá nhân.
Kiểm tra dữ liệu
Đầu tiên, ta sẽ kiểm tra xem dữ liệu có phù hợp cho việc thống kê chưa để đảm bảo không xảy ra sai sót khi phân tích dữ liệu Kiểm tra dữ liệu từng cột và toàn bộ:
Như vậy, dữ liệu cần phân tích không có giá trị rộng (NA) Ta có thể tiếp tục các bước tiếp theo.
Ta sẽ phải kiểm tra cấu trúc của khung dữ liệu, xem một số hàng đầu tiên của dữ liệu, và lấy một bản tóm tắt thống kê của dữ liệu Sử dụng str(date), head(data), summary(data) để xem xét tổng quan về bộ dữ liệu khi được nhập vào phần mềm
R Str(data) dùng để xem khung dữ liệu ban đầu, head(data) dùng để xem một số hàng đầu tiên, và summary(data) dùng để tóm tắt thống kê dữ liệu.
Vì sau khi thử nghiệm thì kết quả của các hàm str() và head() trả về là giống với bộ dữ liệu cho nên chúng ta sẽ chỉ xem xét kết quả của hàm summary() để từ đó đưa ra được một số đánh giá sơ bộ.
Thống kê mô tả
Variable name Mean Median Sd Var layer_height 0.106 0.10 0.06439673 4.146939e − 03 wall_thickness 5.220 5.00 2.92274682 8.542449e + 00 infill_density 53.400 50.00 25.36348009 6.433061e + 02 infill_pattern NA NA NA NA nozze_temperature 221.500 220.0 14.82035280 2.196429e + 02 bed_temperature 70.000 70.00 7.14285714 5.102041e + 01 print speed 64.000 60.00 29.69229956 8.816327e + 02 material NA NA NA NA fan speed 50.000 50.00 35.71428571 1.275510e + 03 roughness 170.580 165.50 99.03412935 9.807759e + 03 tension_strength 20.080 19.00 8.92563380 7.96694e + 01 elongation 1.672 1.55 0.78818831 6.212408e − 01
Trực quan hóa dữ liệu
Cả hai biến đều thể hiện mức độ tập trung và phân tán khác nhau trong dữ liệu, với wall_thickness tập trung chặt chẽ quanh một giá trị cụ thể, cho thấy một quy trình sản xuất có sự kiểm soát cao và chuẩn hóa Mặt khác, layer_height có phân phối rộng hơn và đa đỉnh, phản ánh sự đa dạng trong quy trình sản xuất hoặc thiết kế sản phẩm Đường KDE mượt mà của cả hai biến nêu bật những khác biệt này và cho thấy rằng trong khi chiều cao lớp có thể được kiểm soát một cách nhất quán, độ dày tường lại có sự biến thiên lớn hơn, có thể do sự lựa chọn kỹ thuật hoặc yêu cầu thiết kế đa dạng Những phát hiện này có thể hướng tới việc xác định các cơ hội cải tiến trong quy trình kiểm soát chất lượng và tối ưu hóa thiết kế sản phẩm.
Biểu đồ histogram với KDE choinf ill_density vànozzle_temperaturecho thấy các đặc điểm phân phối khác nhau:
• Infill Density: Phân phối có dạng đa đỉnh, với hai giá trị mật độ đổ đầy nổi bật, phản ánh việc sử dụng hai chuẩn mật độ thông dụng trong quy trình sản xuất Điều này có thể liên quan đến việc áp dụng các tiêu chuẩn khác nhau tùy thuộc vào đặc tính hoặc yêu cầu cụ thể của sản phẩm.
• Nozzle Temperature: Có một phân phối lệch phải với một đỉnh chính, cho thấy một nhiệt độ đầu phun phổ biến được sử dụng nhiều hơn các giá trị khác.
Sự giảm dần về bên phải có thể chỉ ra rằng việc sử dụng nhiệt độ cao hơn là ít phổ biến hoặc có thể bị hạn chế do các nguyên nhân kỹ thuật hoặc tiêu chuẩn an toàn.
Cả hai biểu đồ đều cung cấp thông tin quan trọng về các quyết định và chuẩn mực trong quy trình sản xuất, từ đó có thể đưa ra các khuyến nghị hoặc điều chỉnh để tối ưu hóa quy trình và cải thiện chất lượng sản phẩm.
Dựa trên các biểu đồ histogram và KDE cho bed_temperature và print_speed:
• Bed Temperature: Histogram cho thấy một sự tập trung rất cao của các quan sát ở khoảng nhiệt độ giường cụ thể, với ít biến đổi, điều này chỉ ra rằng nhiệt độ giường được kiểm soát nghiêm ngặt và có thể phản ánh một chuẩn mực hoặc thực hành tối ưu trong quá trình in Điều này thường quan trọng để đảm bảo độ bám dính và chất lượng bản in.
• Print Speed: Phân phối tốc độ in phản ánh một mô hình đặc biệt với hai đỉnh chính, cho thấy rằng có hai tốc độ in được ưa chuộng, có lẽ tương ứng với hai chế độ in khác nhau: một cho chất lượng cao (tốc độ chậm hơn) và một cho in nhanh Đây có thể là một chỉ báo của việc lựa chọn tốc độ dựa trên các yêu cầu đặc biệt của quy trình in hoặc các tiêu chuẩn sản phẩm.
Cả hai chỉ báo đều rất quan trọng đối với việc hiểu và tối ưu hóa quy trình in 3D,nơi mà cả nhiệt độ giường và tốc độ in đều có ảnh hưởng đáng kể đến kết quả cuối cùng và hiệu suất in.
Dựa trên các biểu đồ histogram và KDE cho roughness và tension_strength:
• Roughness: Biểu đồ cho thấy phân phối của độ nhám có dạng gần đối xứng và tập trung chủ yếu quanh một khoảng giá trị, điều này có thể phản ánh một quy trình sản xuất ổn định với độ nhám bề mặt có sự biến thiên giới hạn Sự phân bố này cũng cho thấy rằng độ nhám có xu hướng tập trung quanh một giá trị trung bình với một số biến thiên vừa phải.
• Tension Strength: Phân phối của sức căng có vẻ đa đỉnh, có thể chỉ ra rằng có sự biến đổi lớn hơn trong các giá trị sức căng, điều này có thể liên quan đến các loại vật liệu khác nhau hoặc các quy trình sản xuất đa dạng Sự xuất hiện của nhiều đỉnh có thể liên quan đến các nhóm sản phẩm có yêu cầu đặc tính kỹ thuật khác nhau.
Cả hai chỉ số đều quan trọng cho việc đánh giá chất lượng và độ tin cậy của sản phẩm in 3D.
Dựa trên biểu đồ histogram và KDE cho f an_speed và elongation:
• Fan Speed: Phân phối cho thấy một xu hướng tăng liên tục không có đỉnh rõ ràng, điều này có thể báo hiệu rằng tốc độ quạt được sử dụng qua nhiều cài đặt khác nhau, hoặc rằng tốc độ quạt không bị giới hạn bởi các tham số cụ thể trong quy trình sản xuất Điều này có thể phản ánh sự linh hoạt trong việc điều chỉnh tốc độ quạt để đáp ứng với các yêu cầu khác nhau của quy trình in 3D.
• Elongation: Phân phối có đỉnh cao và rộng, chỉ ra rằng giá trị kéo dài của vật liệu thường xuyên xảy ra trong một phạm vi hẹp Điều này có thể là kết quả của quy trình sản xuất tốt với sự kiểm soát chất lượng cao, đảm bảo tính đàn hồi và sức mạnh kéo của sản phẩm Độ lệch mạnh về phía giá trị thấp có thể liên quan đến việc ít sản phẩm đạt đến sự kéo dài cực đại do giới hạn của vật liệu hoặc thiết kế.
Cả hai biểu đồ đều cung cấp cái nhìn sâu sắc về đặc tính kỹ thuật của sản phẩm và quy trình sản xuất, từ đó có thể rút ra những hiểu biết về cách các tham số này ảnh hưởng đến chất lượng cuối cùng và đặc tính cơ học của sản phẩm in 3D.
Nhìn vào biểu đồ và bộ dữ liệu, đây là nhận xét về hai biến định tínhinf ill_pattern và material:
• Infill Pattern: Dữ liệu cho thấy có hai mẫu đổ đầy chính được sử dụng -
"grid" và "honeycomb" Cả hai đều phổ biến như nhau trong bộ dữ liệu này. Điều này có thể phản ánh sự ưa chuộng không rõ rệt cho một kiểu mẫu cụ thể, hoặc nó có thể cho thấy rằng lựa chọn mẫu đổ đầy phụ thuộc vào yêu cầu kỹ thuật cụ thể của từng đối tượng in 3D.
• Material:Có hai loại vật liệu được sử dụng là "abs" và "pla" Cả hai loại vật liệu này đều xuất hiện với tần suất tương đương nhau trong bộ dữ liệu, điều này cho thấy sự cân nhắc ngang nhau trong việc lựa chọn vật liệu cho các dự án in 3D Sự chia đều này có thể cho thấy rằng cả hai vật liệu đều được ưa chuộng bởi các thuộc tính đặc biệt hoặc đơn giản là sự sẵn có của chúng.
Tiền kiểm tra
Do tension_strenght và elongation là các biến đầu ra nên ta loại ra khỏi mô hình dự đoán roughness cùng với biến f an_speed: Ở đây, ta sẽ sử dụng nhân tử phóng đại phương sai (VIF) để kiểm tra sự đa cộng tuyến VIF là thước đo mức độ tăng lên của phương sai của các hệ số hồi quy do đa cộng tuyến gây ra Ta có các số liệu sau:
Ta quan sát đượcnozzle_temperature,bed_temperaturevàmaterial có VIF rất cao,nhưng do chúng cũng có ý nghĩa thống kê cao nên ta có thể chấp nhận các hệ số ước lượng này.
Có ba giả định ta cần kiểm tra:
- Sai số có kỳ vọng bằng 0: E (ϵ|X i ) = 0, ∀i
- Phương sai của sai số là hằng số: V ar (ϵ|X i ) = σ 2
- Sai số có phân phối chuẩn: ϵ ∼ N (0, σ 2 )
Kỳ vọng của sai số là −1.364533e − 15, mãn giả định.
Chúng ta có thể sử dụng phép kiểm định Shapiro-Wilk để kiểm tra phân phối chuẩn của sai số và vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) để phân tích.
Giả thuyết H 0 của thử nghiệm này là phần dư có phân bố chuẩn Do đó, nếu giá trị p nhỏ hơn mức alpha được chọn (0,05) thì giả thuyết H 0 bị bác bỏ và có bằng chứng cho thấy phần dư không có phân phối chuẩn Mặt khác, nếu giá trị p lớn hơn mức alpha được chọn thì giả thuyết H 0 không thể bị bác bỏ Ở đây, do p-value
= 0.9241 lớn hơn 0,05 nên ta không bác bỏ H 0 , tức là là phần dư có phân phối chuẩn.
Ngoài ra, biểu đồ thị Q - Q Residuals cũng cho thấy điều này khi đa số các điểm đều nằm sát với đường thằng
Ta có thể dựa vào kiểm định Breusch-Pagan để kiểm tra liệu phương sai của sai số có phải là hằng số hay không.
Dựa vào kết quả có được, ta không thể bác bỏ giả thuyếtH 0 (H 0: phương sai không đổi) nên ta có thể kết luân phương sai của sai số không đổi Ngoài ra, biểu đồ thị Scale - Location cũng cho thấy điều này khi giá trị của căn bặc hai cua sai số hiệu chỉnh đề nằm phân tán tương đối đồng đều xung quanh đường màu đỏ.
Trong hồi quy tuyến tính, hệ số xác định, thường được gọi là R bình phương (R 2 ), là thước đo thống kê để giải thích trong 100% sự biến động của biến phụ thuộc so với trung bình của nó thì có bao nhiêu % là do biến các biến độc lập gây ra R 2 có giá trị nằm trong khoảng từ 0 đến 1 Ở đây, ta cóR 2 = 0, 8752 (gần 1), có nghĩa là sự biến động của biến phụ thuộc có thể được giải thích bằng các biến độc lập có trong mô hình Vì vậy, chúng ta có thể kết luận rằng có mối quan hệ tuyến tính giữa roughness và các biến khác Ngoài ra sự phân bố của các giá trị của phân dư trong mô hình không theo môt hình mẫu cụ thể nào (parabol, hyperbol, ) mà nó có tính rải rác nên càng thêm khẳng định tính tuyến tính của dữ liệu.
4.1.4 Các điểm có ảnh hưởng cao Đồ thị cuối cùng về phân dư cho phép xác định những điểm có ảnh hưởng cao trong bộ dữ liệu, những điểm ảnh hưởng cao này có thể là các điểm outliers Nếu như có một số điểm vượt qua đường thẳng Cook’s distance, thì các điểm đó có ảnh hưởng rất đáng kể và cần được xem xét kỹ lưỡng Dựa vào biểu đồ ta thấy có các quan trắc 23, 5 và 24 gây ảnh hưởng mạnh đến bộ dữ liệu dự đoán Nhưng vì chúng chưa vượt qua đường Cook’s distance nên ta không cần phải loại bỏ chúng khi phân tích.
Hồi quy đa biến
Trong học máy, việc chia dữ liệu thành các bộ riêng biệt giúp ngăn chặn việc quá khớp điều này xảy ra khi một mô hình ghi nhớ dữ liệu huấn luyện quá tốt và không thể tạo những dữ liệu thuần mới, chưa được quan sát Vì vậy, nhóm chúng em chia dữ liệu thành thành hai phần là dữ liệu huấn luyện và dữ liệu kiểm tra với tỉ lệ
8 : 2. Đầu tiên, nhóm sẽ xáo trộn bộ dữ liệu, sau đó tách thành hai phần như đã đề cập. 4.2.2 Xây dựng mô hình hồi quy tuyến tính đa biến
Quan sát kết quả, ta thấy sai số có sự rải rác đáng kể, từ −62.386 là nhỏ nhất cho đến85.495 là lớn nhất Tuy vậy, trung so vị ở mức tương đối nhỏ Các hệ số (hoặc tham số) tự do của mô hình cho thấy hướng và độ lớn của mối quan hệ giữa các biến dự đoán và với biến được dự đoán roughness Hầu hết các hệ số có giá trị dương, biểu thị mối quan hệ đồng biến, chỉ trừ biến bed_temperature là có giá trị âm.
Với giả thuyết mức ý nghĩa 5% , đặt giả thuyết kiểm định hệ số hồi quy ta có:
• H 0 : Hệ số hồi quy không có ý nghĩa thống kê
• H 1: Hệ số hồi quy có ý nghĩa thống kê
Cột cuối cùng của phần hệ số cho ta thấy có ba biến làwall_thickness,inf ill_density và inf ill_pattern có p-value lớn hơn 0,05 – cho thấy chúng không có ý nghĩa về mặt thống kê Ta sẽ cân nhắc loại bỏ các biến này ra khỏi mô hình Các hệ số còn lại có hệ số p-value nhỏ, cho thấy chúng đóng vai trò thống kê quan trọng của mô hình Có biến layer_height có p-value là 1.02e − 05 cho thấy biến này có vị trí cực kỳ quan trọng trong việc dự đoán mô hình.
Sai số phần dư được chuẩn hoá (RSE) của mô hình là khoảng 37.97 Hệ số xác định R 2 (0.8908) và R ¯ 2 (0.8627) cho thấy mô hình giải thích một tỷ lệ đáng kể về sự thay đổi của biến dự đoán Giá trị F tổng thể (31.62) và giá trị p-value tương ứng của nó (nhỏ hơn 7.917e − 13) kiểm tra giả thuyết rằng ít nhất một trong các biến dự đoán hữu ích trong việc giải thích cho biến cần dự đoán Do giá trị p-value rất nhỏ, ta bác bỏ giả thuyết H 0 , cho thấy rằng có ít nhất một biến dự đoán có đóng góp đáng kể vào việc dự đoán đầu ra.
4.2.3 Xây dựng lại mô hình
Sau khi phân tích thông tin tổng lược về mô hình trước, ta xây dựng một mô hình đa biến mới đã loại bỏ các biến wall_thickness, inf ill_density và inf ill_pattern.
Ta sẽ sử dụng kiểm định F cho kết luận về việc loại bỏ ba biến khỏi mô hình ban đâu Với giả thuyết mức ý nghĩa 5% , đặt giả thuyết kiểm định độ phù hợp của hai mô hình hồi quy ta có:
• H 0 : Mô hình 2 phù hợp hơn
• H 1 : Mô hình 1 phù hợp hơn
Giá trị P r(> F ) = 0.953 >> 0.05nên ta không thể bác bỏ giả thiết H 0 , tức mô hình hai phù hợp hơn Hơn nữa, dựa vàoR ¯ 2 = 0.8734 ở mô hình 2 cao hơn R ¯ 2 = 0.8627 ở mô hình 1 nên ta cũng có thể nói mô hình 2 tốt hơn mô hình 1 Vì vậy, ba biến wall_thickness, inf ill_density và inf ill_pattern không cần thiết và ta có thể loại bỏ chúng.
Như vậy, ta đã tìm ra được mô hình hồi quy đa biến phù hợp để dự đoán độ thô (roughness) cho tập dữ liệu test còn lại.
Nhìn một cách tổng quan, ta thấy có sự chênh lệch không nhỏ giữa kết quả thực và kết quả được dự đoán Do mỗi seed sẽ cho ra các bộ giá trị dự đoán khác nhau nên để đưa ra độ chính xác trung bình, nhóm sẽ sử dụng nhiều seed ngẫu nhiên khác nhau để tính toán Cuối cùng, ta có kết quả sau: Độ chính xác trung bình của mô hình: 80.75%
Nhóm sử dụng mô hình hồi quy tuyến tính đa biến để đánh giá các biến dự đoán cho biến roughness Tuy nhiên, chỉ có năm biến là được dùng ở mô hình cuối cùng mà không bao gồmwall_thickness, inf ill_density và inf ill_patternvì chúng không có giá trị thống kê.
Năm biến được sử dụng có thể giải thích tới 87,34% sự biến thể của roughness,dựa trênR ¯ 2 Chất lượng dự đoán của mô hình rất khác nhau, cho thấy sự cần thiết của việc xem xét, đánh giá và điều chỉnh lại mô hình một cách so Tuy nhiên, kết quả dự đoán có sự chênh lệch tương đối lớn so với giá trị thực tế nên đòi hỏi cần có sự điều chỉnh và đánh giá lại mô hình.
5 BÀN LUẬN VÀ MỞ RỘNG
Hồi quy bội
5.1.1 Ưu điểm Ưu điểm nổi bật nhất của hồi quy tuyến tính đa biến là nó thể mô tả mối quan hệ giữa biến phụ thuộc và nhiều biến độc lập Trong hồi quy tuyến tính đơn biến, chỉ có một biến độc lập được sử dụng để mô tả mối quan hệ với biến phụ thuộc Điều này có thể không đủ để mô tả mối quan hệ phức tạp giữa hai biến này.
Ví dụ, giá nhà có thể bị ảnh hưởng bởi nhiều yếu tố, chẳng hạn như vị trí, diện tích, số phòng ngủ, số phòng tắm, Hồi quy tuyến tính đa biến có thể sử dụng tất cả các yếu tố này để mô tả mối quan hệ giữa giá nhà và các yếu tố đó.
Dựa vào các giả định: Yêu cầu mô hình dựa trên các giả định như độc lập tuyến tính, phương sai đồng nhất, không có đa cộng tuyến Nếu các giả định này không được đáp ứng, mô hình hồi quy có thể không chính xác Những giả định này có thể không được đáp ứng trong mọi tình huống Ví dụ, nếu các biến độc lập không độc lập với nhau, thì mô hình có thể phản ánh mối quan hệ giữa các biến độc lập thay vì mối quan hệ giữa các biến độc lập và biến phụ thuộc.
Nhạy cảm với nhiễu: Hồi quy tuyến tính đa biến có thể bị ảnh hưởng nhiều bởi dữ liệu nhiễu hoặc giá trị ngoại lai Dữ liệu nhiễu là dữ liệu không phù hợp với mô hình, và giá trị ngoại lai là dữ liệu nằm ngoài phạm vi giá trị bình thường Khi có dữ liệu nhiễu hoặc giá trị ngoại lai, mô hình hồi quy có thể không chính xác.
Không linh hoạt với mối quan hệ phi tuyến tính: Hồi quy tuyến tính đa biến chỉ có thể mô hình hóa mối quan hệ tuyến tính giữa các biến Trong thực tế, nhiều mối quan hệ giữa các biến là phi tuyến tính Khi mối quan hệ giữa các biến là phi tuyến tính, thì hồi quy tuyến tính đa biến có thể không chính xác Ví dụ, nếu giá nhà có mối quan hệ phi tuyến tính với số phòng ngủ, thì hồi quy tuyến tính đa biến có thể không thể mô tả chính xác mối quan hệ này.
Cần một lượng dữ liệu lớn và chất lượng để xây dựng mô hình Hồi quy tuyến tính đa biến cần một lượng dữ liệu lớn và chất lượng để xây dựng mô hình Nếu dữ liệu không đủ lớn hoặc không chất lượng, mô hình hồi quy có thể không chính xác Để đảm bảo dữ liệu đủ lớn và chất lượng, cần thu thập dữ liệu từ một mẫu đại diện và đảm bảo dữ liệu không có nhiễu hoặc giá trị ngoại lai.
Hồi quy đa thức
Trong thực tế, mối tương quan giữa biến phụ thuộc với các biến độc lập có thể không theo đường thẳng mà theo đường cong, khi đó mô hình hồi quy phi tuyến sẽ phát huy mức độ hữu dụng Ta có thể thiết lập mô hình tính toán giá trị cần dự đoán y dưới dạng đa thức bậc n, thông qua mô hình hồi quy đa thức tổng quát sau:
5.2.1 Triển khai mô hình bậc bốn
Kết quả này cho thấy biến mục tiêu “roughness” được mô hình hóa dưới dạng hàm bậc bốn của các biến: layer_height, wall_thickness, infill_density, nozzle_temperature, bed_temperature, print_speed và fan_speed Nhưng trong đó quan sát thấy chỉ có hai biến nozzle_ temperature và layer_height có mối quan hệ cực kỳ quan trọng đối với biến mục tiêu, khi các biến còn lại tỏ ra tương đối không quan trọng.
VớiR 2 = 0, 9586cho thấy khoảng 95,86% biến thể trong “roughness” được giải thích bằng các biến đã chọn Cùng vớiR 2 hiệu chỉnh là 91,02% đã cho thấy độ hiệu quả tương đối cao của mô hình “F-statistic” là 19.83 với “p” rất thấp cho thấy có một biến có mối quan hệ cực kỳ quan trong đối với biến mục tiêu ở mức ý nghĩa 5%.
Ta sẽ sử dụng hồi quy Stepwise để đưa ra mô hình có số biến phù hợp nhất.
Khi áp dụng hồi quy Stepwise, chương trình sẽ thực hiện các bước điều chỉnh với mô hình đa thức bậc bốn bằng cách tác động lên các biến của mô hình thông việc thêm bớt từng biến Căn cứ vào tiêu chuẩn thông tin Akaike AIC, mô hình có AIC thấp hơn sẽ được lựa chọn Ban đầu mô hình có AIC là 286,01 và R 2 hiệu chỉnh là 0.9102, sau đó quy trình điểu chỉnh sẽ thực hiện các bước loại bỏ, hay thêm bớt từng biến để đánh giá sự biến động của AIC.
Sau một loại các biến đổi, quy trình kết thúc với việc chỉ giữ lại 2 biến làlayer_height và nozzle_temperature, tại chỉ số AIC là 271,39 và R 2 hiệu chỉnh là 0.9307 – cao hơn so với mô hình ban đầu Điều cho thấy quy trình hồi quy Stepwise đã cung một mô hình hồi quy tốt hơn với 2 biến kể trên dựa theo tiêu chuẩn thông tin AIC.
Xem xét về mối quan hệ giữa các biến phụ thuộc và biến cần dự đoán ta dễ thấy rằng ở mô hình hồi quy bội đa có tới 5 biến có sức ảnh hưởng đến kết quả dự đoán của biến mục tiêu Nhưng ở mô hình hồi quy đa thức bậc bốn chỉ hai biến là “layer_height” và “nozzle_temperature” có mối quan hệ chặt chẽ đến biến
“roughness” đang dự đoán. Để đánh giá giữa hồi quy đa thức bậc bốn với hồi quy bội, mô hình nào hiệu quả hơn ta sẽ sử dụng lại tiêu chuẩn thông tin AIC lại một lần nữa.
Qua kết quả trên, ta thấy mô hình hồi quy đa thức bậc bốn hiệu quả hơn đối với mô hình hồi quy bội với Ngoài ra khi áp dụng vào việc dự đoán các thông tin. Độ chính xác của mô hình là PR là : 89.03% Điều này cho thấy vẫn tồn tại sự chênh lệch giữa giá trị thực và giá trị dự đoạn và sự chênh lệch nhìn đã giảm đi đáng kể, mà thậm chí còn đạt một mức khá cao.
Cụ thể hơn, độ chính xác đã tăng từ 80,75% lên 89,03% so mô hình trước đó Mặt khác, qua biểu đồ, ta có thể thấy độ chính xác cho từng seed của mô hình hồi quy đa thức (màu đỏ) hầu hết là cao hơn so với mô hình đa bội Ngoài ra giá trị độ chính xác của mô hình đa thức cũng thể hiện sự ổn định hơn, trong khi giá trị của mô hình kia có rất nhiều điểm lệch mạnh.
Sự so sánh cho ta một kết quả bất ngờ khi nó càng chứng tỏ thêm vai trò chủ yếu của hai thông số “layer_height” và “nozzle_temperature” trong việc quyết định độ nhám của sản phẩm in.
6 CODE VÀ CƠ SỞ DỮ LIỆU Đường link truy cập code dùng cho bài tập lớn: https://drive.google.com/ file/d/1_tYi2YGMhUJLooA5A34 nib69uh2igX/view?usp=drive_link Đường link truy cập cơ sở dữ liệu được sử dụng: https://www.kaggle.com/ datasets/afumetto/3dprinter
Như vậy, qua bài tập lớn này, nhóm đã kiểm tra tập dữ liệu để làm rõ liệu dữ liệu đã phù hợp cho việc thực hiện thông kê Sau đó, nhóm thực hiện một số thao tác tiền xử lý dữ liệu như chuyển đổi các dữ liệu định tính thành dữ liệu nhị phân và trực quan hóa kết quả bằng các biểu đồ và đường KDE cho các biến.
Trong phần xây dựng mô hình hồi quy tuyến tính đa bội, nhóm đã kiểm tra các giả thuyết cần thoả của mô hình như sự đa cộng tuyến hay sai số có phân phối chuẩn, và vẽ các đồ thị phần dư của mô hình hồi quy Kế tiếp là công việc cải thiện mô hình với bước đầu nhóm đã tách dữ liệu thành 2 bộ là bộ để huấn luyện và bộ để kiểm tra, rồi xây dựng lại mô hình với data mới Cuối cùng của phần này là sự đánh giá và so sánh độ chính xác của mô hình bằng cross-validation. Ở phần cuối cùng, nhóm đã nêu ra một số ưu và nhược điểm của mô hình đa bội và đi vào phân tích mô hình đa thức Ở đây, nhóm sử dụng hồi quy Stepwise để chọn mô hình có các biến phù hợp và so sánh mô hình đa bội và đa thức bằng chỉ số AIC Tương tự, nhóm cũng đưa ra đánh giá về độ chính xác của mô hình và so sánh kết quả với hồi quy đa bội.
Kết quả cho thấy mô hình đa thức có độ chính xác cao hơn và cũng làm nổi bật lên vai trò của 2 biến nozzle_temperature và layer_height đối với biến roughness (độ nhám) Nhóm cũng đã nhận thấy mô hình đa thức sẽ cho ra kết quả dự đoán ổn định hơn so với mô hình đa bội. Độ chính xác trung bình mô hình MLR (Hồi quy tuyến tính đa bội) :80.75 % Độ chính xác trung bình mô hình PR (Hồi quy đa thức): 89.03 %