Trong quá trình thu thập dữ liệu, có những dữ liệu do bất cẩn khi thu thập không thể hiện đúng bản chất, nằm xa giá trị kỳ vọng. Các giá trị này được xem là giá trị sai(outlier). Do đó chúng ta phải kiểm tra để xác định nên loại bỏ dữ liệu này hay không.
Có nhiều phương pháp đánh giá để loại bỏ dữ liệu sai
Loại bỏ các dữ liệu nằm ngoài khoảng 2
Loại bỏ dữ liệu nằm ngoài khoảng phân vị (quantile) Q2 và Q3
Dùng kiểm nghiệm Dixon
Dùng kiểm nghiệm Grubbs
Kiểm nghiệm Dixon
Còn gọi là kiểm nghiệm Q
Dựa trên tỉ số các khoảng xác định của dữ liệu
Tùy thuộc số dữ liệu dự đoán là dữ liệu sai sẽ sử dụng các tỉ lệ khác nhau
Nhóm tỉ lệ thứ nhất, r10, dùng kiểm nghiệm khi dự đoán dữ liệu lớn nhất hoặc nhỏ nhất là dữ liệu sai
Nhóm tỉ lệ thứ hai, r11, dùng kiểm nghiệm khi dự đoán dữ liệu lớn thứ hai hoặc nhỏ thứ hai là dữ liệu sai
Nếu tỉ lệ tính được lớn hơn giá trị tương ứng ở bảng thì dữ liệu này sẽ bị loại bỏ
Kiểm nghiệm dữ liệu lớn nhất
Kiểm nghiệm dữ liệu nhỏ nhất
Kiểm nghiệm dữ liệu lớn nhất bỏ qua dữ liệu nhỏ nhất
Kiểm nghiệm dữ liệu nhỏ nhất bỏ qua dữ liệu lớn nhất
1 10
1
n n
n
x x
r x x
2 1
10
1 n
x x
r x x
1 11
2
n n
n
x x
r x x
2 1
11
1 1
n
x x
r x x
Giá trị kiểm nghiệm Dixon (=0.05)
Số dữ liệu R10 R11
3 0.941
4 0.765 0.955
5 0.642 0.807
6 0.560 0.689
7 0.507 0.610
8 0.468 0.554
9 0.437 0.512
10 0.412 0.477
Kiểm nghiệm Grubbs
Kiểm nghiệm Grubbs rất hiệu quả khi loại bỏ từng dữ liệu trong phân bố bình thường
Tính giá trị ESD (Extreme Studentized Deviate)
So sánh giá trị tính và giá trị bảng. Nếu giá trị tính lớn hơn giá trị bảng thì loại bỏ dữ liệu. Lập lại phép kiểm nghiệm với số liệu còn lai
xi x
ESD s
Giá trị dùng cho kiểm nghiệm Grubbs
Số dữ liệu N = 0.05 = 0.01
10 2.29 2.48
11 2.35 2.56
12 2.41 2.64
13 2.46 2.70
14 2.51 2.76
15 2.55 2.81
16 2.59 2.85
17 2.62 2.89
18 2.65 2.93
19 2.68 2.97
20 2.71 3.00
25 2.82 3.14
30 2.91 3.24
35 2.98 3.32
40 3.04 3.38
Thí dụ về kiểm nghiệm giả thuyết
Kiểm nghiệm phân bố Gauss
Thí dụ 1. Trong sản xuất rượu bia, hiệu suất trung bình là 500 đơn vị với độ lệch chuẩn là 96 đơn vị. Trong
một cải tiến qui trình sản xuất với 50 mẫu, giá trị trung bình của hiệu suất là 535 đơn vị. Có thể kết luận qui trình cải tiến có hiệu suất cao hơn hay không?
Thí dụ 2: Khảo sát trên một nhản hiệu máy bơm cho thấy tuổi thọ của máy bơm có độ lệch chuẩn là 2 năm.
Lấy 6 bơm hiệu này khảo sát cho kết quả tuổi thọ như sau: 2.0 ; 1.3 ; 6.0 ; 1.9 ; 5.1 ; 4.0 năm
Với mức ý nghĩa = 0.05 có thể bảo rằng tuổi thọ của nhản hiệu bơm này lớn hơn 2 năm hay không?
Thí dụ 3: Một báo cáo về giá trung bình của một món hàng gia dụng trên thị trường là 48 432 đồng. Tiến
hành khảo sát 400 điểm có bán món hàng này cho thấy giá trung bình là 48 574 đồng với độ lệch chuẩn là
2000. Kết luận như thế nào về báo cáo giá trung bình của món hàng này?
Kiểm nghiệm phân bố t
Thí dụ 4: Một công ty chế tạo xe hơi công bố xe của công ty chạy 31 miles chỉ tốn 1 galon xăng. Kiểm nghiện chạy thử 9 xe của công ty này cho thấy trung bình 1 galon chạy được 29.43 miles với độ lệch chuẩn là 3 miles. Ở mức ý nghĩa = 0.05 công bố của nhà sản xuất có khả tin không?
Do chỉ có độ lệch chuẩn của mẫu khảo sát và mẫu nhỏ nên áp dụng kiểm định theo tiêu chuẩn t
Tính giá trị tstat
tstat = (29.43 – 31.0)/(3/9) tstat = - 1.57
Ở mức ý nghĩa = 0.05 và độ tự do (9-1) Giá trị ttab là – 1.860
stat / t x
s n
tstat > ttab do đó không thể loại giả thuyết H0, có nghĩa là không đủ chứng cớ nghi ngờ công bố của nhà sản xuất
Thí dụ 5: Thầy chủ nhiệm lớp cho rằng điểm trung
bình của SV trong lớp lớn hơn 3.4 (thang điểm 4). Tuy nhiên khảo sát 9 sinh viên của lớp cho kết quả điểm trung bình như sau:
3.4 ; 3.6 ; 3.8 ; 3.3 ; 3.4 ; 3.5 ; 3.7 ; 3.6 ; 3.7
Hảy đánh giá nhận xét của giáo viên chủ nhiệm so với kết quả thăm dò trên.
Xác định khoảng tin cậy ở mức tin cậy 95%
Giả thuyết H0: = 3.4 H1: > 3.4
Từ số liệu thực nghiệm = 3.556
s = 0.167
= 2.80
Ở mức ý nghĩa = 0.05 và độ tự do (9-1) Giá trị ttab là – 1.860
x
stat / t x
s n
tstat > ttab
Loại bỏ giả thiết H0
Điều này có nghĩa là công bố của giáo viên chủ nhiệm lớp là đáng tin cậy
Khoảng tin cậy
- t0.025 (s/n) + t0.025(s/n) t0.025 = 2.306
3.427 3.684
Khoảng tin cậy không chứa giá trị 3.4 . Vậy việc loại bỏ giả thuyết H0: = 3.4 là phù hợp
x x
So sánh giá trị trung bình của 2 mẫu thí nghiệm
Giả thuyết H0: (1 - 2) = D0
Giả thuyết ngược H1: (1 - 2) < D0 (1 hướng) H1: (1 - 2) D0 (2 hướng)
Tiêu chí đánh giá
hay 1 2 0
2 2
1 2
1 2
stat
x x D
Z
n n
1 2
2 2
1 2
1 2
stat
x x Z
n n
Thí dụ 6. Kết quả khảo sát tính chất kháng kéo 2 mẫu vật liệu cho kết quả như sau:
Với mức ý nghĩa = 0.05, độ bền của 2 loại vật liệu này có khác nhau không?
Vật liệu Độ bền kéo
trung bình Độ lệch chuẩn Số mẫu khảo sát
A 20.75 2.25 40
B 19.80 1.90 45
Đối với mẫu nhỏ
Đối với mẫu nhỏ phải dùng ước lượng Sp gộp (pooled) thay cho độ lệch chuẩn
Tiêu chí đánh giá
Độ tự do df = n1 + n2 – 2
2 2
1 1 2 2
2
1 2
1 1
1 1
p
n s n s
s n n
1 2
1 2
1 1
stat
p
x x t
s n n
Thí dụ 7. Tính chất bền kéo của một loại vật liệu được tiến hành đo bởi hai phòng thí nghiệm cho kết quả như sau
Phân tích kết quả thu được của 2 PTN này ở mức ý nghĩa = 0.05
Phòng thí nghiệm Độ bền kéo (Mpa)
A 22.5 25.0 30.0 27.5 20.0
B 21.0 17.5 17.0 20.0 -
Đối cặp mẫu tương ứng (paired-sample)
Giả thuyết H0: (1 - 2) = d = D0 = 0
Giả thuyết ngược H1: d > 0 (một hướng) H1: d 0 (hai hướng)
Tiêu chí đánh giá
/
d d
stat
d
t x
s n
Thí dụ 8: Kết quả đo độ dãn đứt của 14 mẫu cao su trước và sau khi lão hóa cho bởi bảng sau. Phân tích kết quả về ảnh hưởng của sự lão hóa trên tính chất dãn đứt của mẫu cao su ở mức ý nghĩa = 0.05
Mẫu Độ dãn dứt (%)
Trước lão hóa Sau lão hóa Sai biệt
1 620 590 30
2 620 600 20
3 650 630 20
4 880 780 100
5 760 750 10
6 570 580 -10
7 600 600 00
8 590 520 70
9 540 520 20
10 680 650 30
11 650 660 -10
12 630 590 40
13 600 580 20
14 560 550 10
Chương 3
Phân tích biến lượng
Mục tiêu của ANOVA
ANOVA một chiều
ANOVA hai chiều
Qui hoạch hình vuông La tin
Qui hoạch hình vuông La tin- Hy lạp
Qui hoạch khối La Tin