Loại bỏ dữ liệu sai

 Trong quá trình thu thập dữ liệu, có những dữ liệu do bất cẩn khi thu thập không thể hiện đúng bản chất, nằm xa giá trị kỳ vọng. Các giá trị này được xem là giá trị sai(outlier). Do đó chúng ta phải kiểm tra để xác định nên loại bỏ dữ liệu này hay không.

 Có nhiều phương pháp đánh giá để loại bỏ dữ liệu sai

 Loại bỏ các dữ liệu nằm ngoài khoảng   2

 Loại bỏ dữ liệu nằm ngoài khoảng phân vị (quantile) Q2 và Q3

 Dùng kiểm nghiệm Dixon

 Dùng kiểm nghiệm Grubbs

Kiểm nghiệm Dixon

 Còn gọi là kiểm nghiệm Q

 Dựa trên tỉ số các khoảng xác định của dữ liệu

 Tùy thuộc số dữ liệu dự đoán là dữ liệu sai sẽ sử dụng các tỉ lệ khác nhau

 Nhóm tỉ lệ thứ nhất, r10, dùng kiểm nghiệm khi dự đoán dữ liệu lớn nhất hoặc nhỏ nhất là dữ liệu sai

 Nhóm tỉ lệ thứ hai, r11, dùng kiểm nghiệm khi dự đoán dữ liệu lớn thứ hai hoặc nhỏ thứ hai là dữ liệu sai

 Nếu tỉ lệ tính được lớn hơn giá trị tương ứng ở bảng thì dữ liệu này sẽ bị loại bỏ

 Kiểm nghiệm dữ liệu lớn nhất

 Kiểm nghiệm dữ liệu nhỏ nhất

 Kiểm nghiệm dữ liệu lớn nhất bỏ qua dữ liệu nhỏ nhất

 Kiểm nghiệm dữ liệu nhỏ nhất bỏ qua dữ liệu lớn nhất

1 10

n n

x x

r x x

 

 

2 1

1 n

x x

r x x

 



1 11

n n

x x

r x x

 

 

2 1

1 1

x x

r x  x

 



Giá trị kiểm nghiệm Dixon (=0.05)

Số dữ liệu R10 R11

3 0.941

4 0.765 0.955

5 0.642 0.807

6 0.560 0.689

7 0.507 0.610

8 0.468 0.554

9 0.437 0.512

10 0.412 0.477

Kiểm nghiệm Grubbs

 Kiểm nghiệm Grubbs rất hiệu quả khi loại bỏ từng dữ liệu trong phân bố bình thường

 Tính giá trị ESD (Extreme Studentized Deviate)

 So sánh giá trị tính và giá trị bảng. Nếu giá trị tính lớn hơn giá trị bảng thì loại bỏ dữ liệu. Lập lại phép kiểm nghiệm với số liệu còn lai

xi x

ESD s

 

Giá trị dùng cho kiểm nghiệm Grubbs

Số dữ liệu N  = 0.05  = 0.01

10 2.29 2.48

11 2.35 2.56

12 2.41 2.64

13 2.46 2.70

14 2.51 2.76

15 2.55 2.81

16 2.59 2.85

17 2.62 2.89

18 2.65 2.93

19 2.68 2.97

20 2.71 3.00

25 2.82 3.14

30 2.91 3.24

35 2.98 3.32

40 3.04 3.38

Thí dụ về kiểm nghiệm giả thuyết

Kiểm nghiệm phân bố Gauss

 Thí dụ 1. Trong sản xuất rượu bia, hiệu suất trung bình là 500 đơn vị với độ lệch chuẩn là 96 đơn vị. Trong

một cải tiến qui trình sản xuất với 50 mẫu, giá trị trung bình của hiệu suất là 535 đơn vị. Có thể kết luận qui trình cải tiến có hiệu suất cao hơn hay không?

 Thí dụ 2: Khảo sát trên một nhản hiệu máy bơm cho thấy tuổi thọ của máy bơm có độ lệch chuẩn là 2 năm.

Lấy 6 bơm hiệu này khảo sát cho kết quả tuổi thọ như sau: 2.0 ; 1.3 ; 6.0 ; 1.9 ; 5.1 ; 4.0 năm

Với mức ý nghĩa  = 0.05 có thể bảo rằng tuổi thọ của nhản hiệu bơm này lớn hơn 2 năm hay không?

 Thí dụ 3: Một báo cáo về giá trung bình của một món hàng gia dụng trên thị trường là 48 432 đồng. Tiến

hành khảo sát 400 điểm có bán món hàng này cho thấy giá trung bình là 48 574 đồng với độ lệch chuẩn là

2000. Kết luận như thế nào về báo cáo giá trung bình của món hàng này?

Kiểm nghiệm phân bố t

 Thí dụ 4: Một công ty chế tạo xe hơi công bố xe của công ty chạy 31 miles chỉ tốn 1 galon xăng. Kiểm nghiện chạy thử 9 xe của công ty này cho thấy trung bình 1 galon chạy được 29.43 miles với độ lệch chuẩn là 3 miles. Ở mức ý nghĩa  = 0.05 công bố của nhà sản xuất có khả tin không?

 Do chỉ có độ lệch chuẩn của mẫu khảo sát và mẫu nhỏ nên áp dụng kiểm định theo tiêu chuẩn t

Tính giá trị tstat

tstat = (29.43 – 31.0)/(3/9) tstat = - 1.57

Ở mức ý nghĩa  = 0.05 và độ tự do (9-1) Giá trị ttab là – 1.860

stat / t x

s n



 

 tstat > ttab do đó không thể loại giả thuyết H0, có nghĩa là không đủ chứng cớ nghi ngờ công bố của nhà sản xuất

 Thí dụ 5: Thầy chủ nhiệm lớp cho rằng điểm trung

bình của SV trong lớp lớn hơn 3.4 (thang điểm 4). Tuy nhiên khảo sát 9 sinh viên của lớp cho kết quả điểm trung bình như sau:

3.4 ; 3.6 ; 3.8 ; 3.3 ; 3.4 ; 3.5 ; 3.7 ; 3.6 ; 3.7

Hảy đánh giá nhận xét của giáo viên chủ nhiệm so với kết quả thăm dò trên.

Xác định khoảng tin cậy ở mức tin cậy 95%

 Giả thuyết H0:  = 3.4 H1:  > 3.4

 Từ số liệu thực nghiệm = 3.556

s = 0.167

= 2.80

Ở mức ý nghĩa  = 0.05 và độ tự do (9-1) Giá trị ttab là – 1.860

stat / t x

s n



 

tstat > ttab

Loại bỏ giả thiết H0

Điều này có nghĩa là công bố của giáo viên chủ nhiệm lớp là đáng tin cậy

Khoảng tin cậy

- t0.025 (s/n)    + t0.025(s/n) t0.025 = 2.306

3.427    3.684

Khoảng tin cậy không chứa giá trị 3.4 . Vậy việc loại bỏ giả thuyết H0:  = 3.4 là phù hợp

x x

So sánh giá trị trung bình của 2 mẫu thí nghiệm

 Giả thuyết H0: (1 - 2) = D0

 Giả thuyết ngược H1: (1 - 2) < D0 (1 hướng) H1: (1 - 2)  D0 (2 hướng)

 Tiêu chí đánh giá

hay  1 2  0

2 2

1 2

stat

x x D

n n

 

 





 1 2

2 2

1 2

stat

x x Z

n n

 

 



 Thí dụ 6. Kết quả khảo sát tính chất kháng kéo 2 mẫu vật liệu cho kết quả như sau:

Với mức ý nghĩa  = 0.05, độ bền của 2 loại vật liệu này có khác nhau không?

Vật liệu Độ bền kéo

trung bình Độ lệch chuẩn Số mẫu khảo sát

A 20.75 2.25 40

B 19.80 1.90 45

Đối với mẫu nhỏ

 Đối với mẫu nhỏ phải dùng ước lượng Sp gộp (pooled) thay cho độ lệch chuẩn 

Tiêu chí đánh giá

Độ tự do df = n1 + n2 – 2

   

2 2

1 1 2 2

1 2

1 1

n s n s

s n n

  

   

1 2

1 1

stat

x x t

s n n

 



 Thí dụ 7. Tính chất bền kéo của một loại vật liệu được tiến hành đo bởi hai phòng thí nghiệm cho kết quả như sau

Phân tích kết quả thu được của 2 PTN này ở mức ý nghĩa  = 0.05

Phòng thí nghiệm Độ bền kéo (Mpa)

A 22.5 25.0 30.0 27.5 20.0

B 21.0 17.5 17.0 20.0 -

Đối cặp mẫu tương ứng (paired-sample)

 Giả thuyết H0: (1 - 2) = d = D0 = 0

 Giả thuyết ngược H1: d > 0 (một hướng) H1: d  0 (hai hướng)

 Tiêu chí đánh giá

d d

stat

t x

s n



 

 Thí dụ 8: Kết quả đo độ dãn đứt của 14 mẫu cao su trước và sau khi lão hóa cho bởi bảng sau. Phân tích kết quả về ảnh hưởng của sự lão hóa trên tính chất dãn đứt của mẫu cao su ở mức ý nghĩa  = 0.05

Mẫu Độ dãn dứt (%)

Trước lão hóa Sau lão hóa Sai biệt

1 620 590 30

2 620 600 20

3 650 630 20

4 880 780 100

5 760 750 10

6 570 580 -10

7 600 600 00

8 590 520 70

9 540 520 20

10 680 650 30

11 650 660 -10

12 630 590 40

13 600 580 20

14 560 550 10

Chương 3

Phân tích biến lượng

 Mục tiêu của ANOVA

 ANOVA một chiều

 ANOVA hai chiều

 Qui hoạch hình vuông La tin

 Qui hoạch hình vuông La tin- Hy lạp

 Qui hoạch khối La Tin

Qui hoạch khối La tin

Phương pháp leo dốc đứng