TỔNG QUAN DỮ LIỆU
Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk.
Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnh của máy in 3D đến chất lượng in, độ chính xác và độ bền
Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt đầu vào và 3 thông số đầu ra được đo lường và ghi chép.
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/datasets/afumetto/ 3dprinter
Các thông số đầu vào bao gồm:
Layer height (mm): Độ cao lớp
Wall thickess (mm): Độ dày lớp ngoài
Infill density (%): Phần trăm độ điền đầy
Infill pattern: Kiểu điền đầy
Nozzle temperature (C o ): Nhiệt độ đầu đùn
Bed temperature (C o ): Nhiệt độ bàn in
Print speed (mm/s): Tốc độ in
Fan speed (%): Độ mạnh của quạt
Các thông số đầu ra bao gồm:
Ultimate tension strength (MPa): Độ bền kéo lớn nhất
Elongation (%): Độ giãn dài Đề tài nghiên cứu được thực hiện trên máy in Ultimaker S5 3-D.
Kiểm nghiệm sức bền của vật liệu và sản phẩm in được thực hiện trên máy kéo Sinotec GMBH với khả năng kéo 20kN.
HỒI QUY
Mô hình hồi quy tuyến tính bội
Công thức tổng quát của mô hình hồi quy đa biến:
β1: hệ số tự do (hệ số chặn)
βi: hệ số hồi quy riêng.
u: sai số ngẫu nhiên βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọn của Y sẽ tăng βi đơn nếu Xi tăng 1 đơn vị.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán lượng nước trung bình một người trưởng thành uống một năm v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng cáctham số của tổng thể: β1, β2,…, βk.
Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra, tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi).
Tuy vậy, giá trị thực tế của tổng thể có sự sai khác so với giá trị tính toán. Lượng sai khác ui đó được tính như sau: u i = Y i – F
Vậy hàm hồi quy tổng thể có dạng:
2.2 Hàm hồi quy mẫu (SRF - Sample Regression Function)
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một mẫu có n á thể, gọi Ŷ = F̂(X2, X3,…, Xk) là hồi quy mẫu.
Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
Phần dư sinh ra: ei = yi – ŷi.
Ký hiệu: β^ m là ước lượng của βm Chúng ta trông đợi β^ m là ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả. Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.
2.3 Phương pháp bình phương nhỏ nhất (OLS - Ordinary Least
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau:
2.3.1 Mô hình hồi quy tuyến tính.
Mô hình hồi quy là tuyến tính theo các tham số của mô hình. y = β1 + β2X2 + β3X3 + β4X4 + … + βkXk + u
2.3.2 Các giá trị của X được cố định trong việc lấy mẫu lặp lại.
Giá trị lấy ra từ biến X được coi là cố định trong các mẫu lặp lại X được cho là không ngẫu nhiên.
Đồng phương sai giữa ui và Xi bằng 0, cov(ui, Xi) = 0.
Sự biến thiên trong các giá trị của X.
Các giá trị Xi trong mẫu cho trước không thể tất cả đều bằng nhau, var
2.3.3 Phương sai của sai số không đổi var(u i | X i) = E [ u i - E ( u i | X i ) ] 2 = E ( u 2 i | X i ) = σ 2
Không có tương quan giữa các sai số. cov(u i, u j | X i, X j ) = 0
Mô hình hồi quy được xác định một cách đúng đắn (không có độ thiện lệch hoặc sai số đặc trưng)
Không có đa cộng tuyến hoàn toàn.
2.3.5 Phương pháp ước lượng các hệ số:
yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu.
ei ký hiệu phần dư yi – ŷi.
Do đó cực tiểu hóa Σ(y i – ӯ ^ i) 2 sẽ tương đương cực tiểu ∑ e i 2 từ đó tìm ra β^ 1 , β^ 2 ,…,β^ k
Chúng ta có thể thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β^ chưa biết β^ 1, β^ 2,…, β^ k được gọi là các ước lượng bình phương nhỏ nhất.
2.4 Độ phù hợp của mô hình. Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R 2
Ta có: Σ(yi – ӯ)) 2 = Σ[(yi – ŷi) + (ŷi – ӯ))] 2 = Σ[ei + (ŷi – ӯ))] 2
= Σei 2 + 2Σei(ŷi – ӯ)) + Σ(ŷi – ӯ)) 2 Với:
Σ(yi – ӯ)) 2 : TSS – Total Sum of Squares.
Σ(ŷi – ӯ)) 2 : ESS – Explained Sum of Squares.
Σei 2 : RSS – Residual Sum of Squares.
Do Σei(ŷi – ӯ)) = 0 ⇐ (Σeiŷi = 0; Σeiӯ) = 0)
Ta có thể viết: TSS= ESS + RSS Ý nghĩa của các thành phần:
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát
Yi và giá trị trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát
Y và các giá trị nhận được từ hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.
Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê
“good of fit” Từ định nghĩa R 2 chúng ta thấy R 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R 2 để đo sự phù hợp của hàm hồi quy:
R 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc.
Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
Nếu R 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y.
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R 2
2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy.
2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk Các phân bố này phụ thuộc vào phân bố của các ui.
Với các giả thiết OLS, ui có phân phối N (0, σ 2 ) Các hệ số ước lượng tuân theo phân phối chuẩn: β^ j ~ N( β j, Se( β ^ j ) ) β^ j - β j
Se( β ^ j ) ~ T(n - k) Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có trong phương trình hồi quy đa biến: σ^ 2 = ∑ e 2 i n - k
Ước lượng 2 phía, ta tìm được t α
Khoảng tin cậy 1 - α của βj là:
2.5.2 Kiểm định giả thiết đối với β j
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj* Nếu giả thiết đúng thì:
Loại giả thiết Giả thiết H0 Giả thiết H1 Miền bác bỏ Hai phía β j = β j * β j ≠ β j * |t| > t α
H1: βj < 0 ⇔ xj có tác động ngược
H1: βj > 0 ⇔ xj có tác động thuận
2.6 Kiểm định ý nghĩa của mô hình
ANOVA MỘT YẾU TỐ (One-way ANOVA)
Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Giả sử, muốn so sánh trung bình của k tổng thể trên những mẫu độc lập ngẫu nhiên gồm n1, n2,n3,…, nk quan sát từ k tổng thể này Để có thể tiến hành phân tích ANOVA, cần phải ghi nhớ 3 giả định sau về các nhóm tổng thể:
Các tổng thể có phân phối chuẩn.
Phương sai của các tổng thể bằng nhau.
Các quan sát được lấy mẫu từ tổng thể là độc lập nhau.
Nếu trung bỡnh của cỏc tổng thể được kớ hiệu là à1, à2, à3,…, àk thỡ khi cỏc giả định trờn được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
Giả thuyết H0 cho rằng trung bình của k tổng thể bằng nhau, xét về mặt nghiên cứu liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề đang nghiên cứu Ta có được giả thuyết đối của giả thuyết H0 là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Rõ ràng là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ H0 hay 3 tổng thể này có trị trung bình khác nhau.
Nhưng bạn chỉ có mẫu đại diện dược quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)
Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập (kí hiệu x ´ 1, x´ 2 , x´ 3 ,…, x´ k ) và trung bình chung của k mẫu quan sát (kí hiệu ´x ) từ trường hợp tổng quát như sau:
Bảng 1: Bảng số liệu tổng quát thực hiện phân tích phương sai
Tính trung bình mẫu của từng nhóm x ´ 1, x´ 2 , x´ 3 ,…, x´ k theo công thức: x´ 1 = ∑ j=1 n i x ij n i (i=1,2,3,…,k)
Và trung bình chung của k mẫu ( trung bình chung của toàn bộ mẫu khảo sát): ´x ∑ i=1 k n i x´ i
Ngoài ra, bạn có thể tính trung bình chung của k mẫu theo cách khác là cộng tất cả các x ij trên Bảng 1 lại rồi đem chia cho ∑ n i với (i=1,2,…,k).
Bước 2: Tính các tổng các chênh lệch bình phương ( hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổng các chênh lệch bình phương giữa các nhóm SSG.
Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tát cả các nhóm lại SSW phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so sánh).
Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức:
Tương tự như vậy ta tính cho đến nhóm thứ k được SSk Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau:
Hay viết tổng quát theo công thức ta có
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng của từng nhóm) SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu.
Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (x ij) với trung bình chung toàn bộ (´ x) SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của tất cả các nguyên nhân.
Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm.
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được phân tích thành 2 phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW) Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra căng "đáng kể” so với phần biến thiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ H0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả.
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)
Các phương sai được tính bằng cách lấy các tổng các chênh lệch bình phương chia cho bậc tự do tương ứng.
Tình phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bình phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n-k (n là số quan sát, k là số nhóm so sánh) MSW là ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra (hay giải thích).
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương giữa các nhóm chia cho bậc tự do tương ứng là k – 1 MSG là ước lượng phần biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra (hay giải thích được).
Bước 4: Kiểm định giả thuyết
Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết định dựa trên tỉ số của hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW), tỉ số này được gọi là tỷ số F vì nó tuần theo qui luật Fisher– Snedecor với bậc tự do là k - 1 ở tử số và n - k ở mẫu số.
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:
F ( k-1;n-k ) ; α là giá trị giới hạn tra từ bảng tra số 8 với bậc tự do tra theo cột số k-1 và hàng n-k, nhớ chọn bảng có mức ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả tổng quát của ANOVA khi phân tích bằng chương trình Excel hay SPSS.
Bảng 2: Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS
Tổng chênh lệch bình phương
(SS) Giữa các nhóm SSG k - 1 MSG = SSG k−1 F = MSG MSW
Trong nội bộ các nhóm
Toàn bộ SST n - 1 Ý nghĩa của công thức và logic của các tính toán trong bảng trên cần được hiểu rõ để có thể vận dụng và giải thích các kết quả phân tích một cách súc tích.
Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏi một số lượng quan sát khá lớn Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong tình huống số quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu đồ hộp râu cho tập dữ liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta Đồ thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối. Với số quan sát không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thể chấp nhận được. Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong trong mỗi tập dữ liệu mẫu không khác biệt nhau nhiều.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các tổng thể Kiểm định này xuất phát từ giả thuyết sau.
H 1 : Không phải tất cả các phương sai đều bằng nhau Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
Trong đó s max 2 là phương sai lớn nhất trong các nhóm nghiên cứu và s min 2 là phương sai nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị F ( k;df ) ; α tra được từ bảng phân phối Hartley Fmax (là bảng số 5 trong phần phụ lục) Trong đó k là số nhóm so sánh, bậc tự do df tính theo công thức df = (n ´ – 1) Trong tình huống các nhóm này khác nhau thì n = ´ ∑ i=1 k n i k
(chú ý nếu kết quả tính của n ´ là số thập phân thì ta lấy phần nguyên).
F max > F ( k;df ) ; α thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại.
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thì một phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định hi tham số Krusksl-Wallis sẽ được áp dụng Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giả định để tiến hành phân tích phương sai đã được thỏa mãn.
Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng thể bằng nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết H 0 hoặc bác bỏ giả thuyết H0 Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằng nhau Vì vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H 0 Trong chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences) Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau Nếu có k nhóm nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải so sánh là tổ hợp chập 2 của k nhóm.
Ví dụ : ta có k = 3, thì số cặp so sánh trong kiểm định là 3, vì
2!(3−2)! = 3 Các giả thuyết cần kiểm định sẽ là :
Giá trị giới hạn Tukey được tính theo công thức:
Trong đó: q α, k, n-k là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α, với bậc tự do k và n – k , với n là tổng số quan sát mẫu (n = ∑ n i)
MSW là phương sai trong nội bộ nhóm n i là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát n i khác nhau, sử dụng giá trị n i nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thiết H 0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T giới hạn.
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA Chúng ta có thể thực hiện phân tích này bằng chương trình SPSS Ngoài ra kết quả của SPSS còn cung cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tổng thể là kiểm định Levene. (Bạn đọc có thể xem cách thức tiến hành kiểm tra giả định của phân tích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiên cứu với SPSS của cùng tác giả).
Phân tích phướng sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh có phân phối bình thường và phương sai bằng nhau Trong trường hợp không thỏa điều kiện này, chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạng định tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phù hợp tên là Kruskal- Wallis Bạn đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiểm định phi tham số.
TIỀN XỬ LÝ SỐ LIỆU
2 Kiểm tra dữ liệu khuyết.
Tập tin không chứa dữ liệu khuyết.
THỐNG KÊ TẢ
1 Thực hiện tính thống kê mô tả cho các biến trong dữ liệu.
Dựa trên kết quả, ta nhận thấy có 2 biến phân loại là infill_pattern và material, còn lại đều là các biến liên tục.
Lập bảng thống kê số lượng cho 2 biến infill_pattern, material.
Lệnh và kết quả của 2 biến.
2 Vẽ biểu đồ biểu thị phân phối cho các biến.
Biểu đồ Histogram của các biến “tension strenght”, “elongation”, “roughness”.
Biểu đồ tension strenght. hist(data_BTL$tension_strenght,xlab="tension_strenght",main="Biểu đồ histogram của biến tension_strenght",col="cyan")
Biểu đồ elongation. hist(data_BTL$elongation,xlab="elongation",main="Biểu đồ histogram của biến elongation",col="yellow")
Biểu đồ roughness. hist(data_BTL$roughness,xlab="roughness",main="Biểu đồ histogram của biến roughness",ylim=c(0,10),col="green")
Biểu đồ boxplot thể hiện phân phối các biến.
Tension strength. boxplot(data_BTL$tension_strenght~data_BTL$infill_pattern,xlab="infill_pattern",ylab="tens ion_strenght",col="cyan") boxplot(data_BTL$tension_strenght~data_BTL$material,xlab="material",ylab="tension_stren ght",col="cyan")
Elogation. boxplot(data_BTL$elongation~data_BTL$infill_pattern,xlab="infill_pattern",ylab="elongation" ,col="yellow") boxplot(data_BTL$elongation~data_BTL$material,xlab="material",ylab="elongation",col="yel low")
Roughness. boxplot(data_BTL$roughness~data_BTL$infill_pattern,xlab="infill_pattern",ylab"roughness",col="green") boxplot(data_BTL$roughness~data_BTL$material,xlab="material",ylab="roughness"
Vẽ ma trận tương quan giữa các biến. data_cor