- Từ các PTN tham gia PTKiểm tra phương
3.4. Kiểm định Grubbs và ứng dụng (Grubbs’s–test)
Trước khi sử dụng một tập số liệu cho các mục đích cụ thể, cần phải xác định xem các giá trị lớn nhất hoặc nhỏ nhất của tập số liệu đang xét có thật sự là bất thường (outlier) và cần phải loại bỏ khỏi dữ liệu gốc hay không. Grubbs’s–test (G–test) là công cụ thống kê phổ biến được dùng cho mục đích này.
Về bản chất G–test tương tự như t–test và Z–test, tuy nhiên mức độ chắc chắn của kết luận thống kê của G–test thấp hơn so với t–test và Z– test. Do vậy, G–test thường được sử dụng đánh giá trị sơ bộ những giá trị nghi ngờ là sai số thô (giá trị lớn nhất hoặc nhỏ nhất) trong tập số liệu.
G–test có thể áp dụng cho một tập giá trị đơn lẻ (một chiều) hoặc cho một tập giá trị lớn bao gồm nhiều tập giá trị thành phần (hai chiều). G–test là công cụ rất hữu hiệu để loại bỏ những dãy số liệu thành phần bất thường so với toàn bộ tập dữ liệu lớn.
Giả sử tập số liệu gồm N tập số liệu thành phần với các giá trị trung bình tương ứng của từng tập là x̅1, x̅2, x̅3,..., x̅N trong đó x̅max và x̅min là giá trị trung bình lớn nhất và nhỏ nhất.
– G–test cho giá trị x̅max được thực hiện với giả thuyết thống kê như sau:
H0: x̅max không phải là giá trị bất thường trong tập số liệu. Ha: x̅max là giá trị bất thường trong tập số liệu.
Chuẩn G được tính theo biểu thức 3.30:
Gmax =x̅max−x̅
S (3.30)
Với x̅ là giá trị trung bình của toàn bộ tập số liệu lớn.
S là độ lệch chuẩn của tập dữ liệu lớn, S được tính từ phương sai tổng sau khi đã đánh giá tính đồng nhất phương sai theo Cochran’C test (loại trừ những tập số liệu không đồng nhất về phương sai)
Giá trị đối sánh Gcrit= G(α, n) có thể tra bảng (bảng A6 phần phụ lục) hoặc được tính theo công thức:
Gcrit= N−1 √N √ t (α N,N−2) 2 N−2+t (αN,N−2) 2 (3.31)
Nếu Gmax > Gcrit bác bỏ H0, x̅max là giá trị bất thường cần phải loại bỏ khỏi tập dữ liệu. Ngược lại nếu Gmax < Gcrit chấp nhận H0
– G–test cho giá trị x̅min được thực hiện tương tự như x̅max với giả thuyết thống kê:
H0: x̅min không phải là giá trị bất thường trong tập số liệu Ha: x̅min là giá trị bất thường trong tập số liệu
Gmin =x̅−x̅min
S (3.32)
Nếu Gmin > Gcrit bác bỏ H0, x̅min là giá trị bất thường cần phải loại bỏ khỏi tập dữ liệu và ngược lại.
– Có thể thực hiện phép kiểm định G cho các giá trị tiếp theo của tập số liệu nếu thấy nghi ngờ là giá trị bất thường.
Ví dụ 3.10: Kết quả kiểm tra về mức độ hụt khối lượng khi làm khô của một sản phẩm dượcđối với 10 mẫu thành phẩm. Mỗi mẫu được phân tích lặp 3 lần. Hãy đánh giá những giá trị bất thường ở độ tin cậy 95% biết rằng phương sai của các thực nghiệm là đồng nhất.
Mẫu x1 x2 x3 1 4.01 4.09 3.93 2 3.91 3.87 3.95 3 4.22 4.18 4.26 4 4.23 4.23 4.13 5 4.34 4.25 4.43 6 3.81 3.81 3.80 7 4.76 4.79 4.71 8 4.13 4.09 4.18 9 4.17 4.13 4.21 10 4.06 4.05 4.08 Giải:
Tập số liệu của bài toán này gồm 10 tập số liệu thành phần là kết quả phân tích của các mẫu sản phẩm. Việc xác định sản phẩm bất thường là công việc quan trọng của bộ phận QA. Công cụ G–test được lựa chọn để giải quyết vấn đề được đặt ra của bài toán.
Các thông số chính của tập giá trị và giá trị G được tính toán, tóm lược như trong bảng kết quả sau:
Mẫu M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 x̅i 4.01 3.91 4.22 4.20 4.11 3.84 4.75 4.13 4.16 4.06 S2. 102 0.64 0.16 0.16 0.33 0.81 0.37 0.16 0.20 0.31 0.02 x̅ 4.16 S 0.25 x̅max 4.75
x̅min 3.84
Gmax 2.355
Gmin 1.287
Gcrit=G(0.05,10) = 2.18 (bảng A6 phần phụ lục)
– Giá trị Gmax = 2.355 > Gcrit= 2.18, bác bỏ H0. Giá trị max là bất thường, mẫu số 7 có giá trị cao bất thường.
– Giá trị Gmin = 1.287 < Gcrit= 2.18, chấp nhận H0. Giá trị min không là giá trị bất thường.
Nếu tiếp tục xét giá trị lớn nhất tiếp theo sau khi loại bỏ giá trị bất thường của mẫu số 7:
x̅max= 4.22
Gmax = 0.938; Gcrit= G(0.05,9) = 2.11
Vì Gmax = 0.938 < Gcrit= 2.11, giá trị 4.22 không phải là bất thường. Kết luận chung: Kết quả phân tích của mẫu thứ 7 là giá trị bất thường, cần xem xét lại.