Data Analysis Using R:
Phân tích phương sai
Analysis of Variance
1
ANOVA và quan niệm về “yếu tố ảnh hưởng”
A
B
C
40-2
40-2
40-2
40+6
40+6
40+6
40-4
40-4
40-4
• Có sự khác nhau giữa các
nhóm, nhưng không có sự khác
nhau trong nhóm.
• Mô hình lúc đó là:
– Yij = m + aj
A
B
C
• Trong đó m = 40; a1 = -2, a2
= 6 và a3 = -4.
38
38
38
46
46
46
36
36
36
• Chú ý rằng a1 + a2 + a3 = 0
2
ANOVA và quan niệm về “yếu tố ảnh hưởng”
A
B
C
40-2+5
40-2+2
40-2-3
40+6-5
40+6+1
40+6+8
40-4+3
40-4-2
40-4+1
A
B
C
43
40
35
41
47
54
39
34
37
39.3
47.3
overall mean: 41.1
• Thực tế, luôn có sự khác
nhau ngẫu nhiên trong tập
hợp, vì thế có sai số mẫu.
• Mô hình bao gồm yếu tố sai số:
Yij = m + aj + eij
• Ảnh hưởng của
Sản phẩm A: 39.3-41.1 = -1.8
Sản phẩm B: 47.3-41.1 = 5.8
Sản phẩm C: 36.7-41.1 = -4.4
36.7
3
1
Mô hình ANOVA
• Các phần tử tạo sự khác biệt
– Giữa các nhóm
– Trong nhóm
• Mô hình:
Yij = m + aj + e
ij
• Giả thiết:
Phân bố chuẩn
Gọi giá trị trung bình của ba
nhóm là m1, m2, và m3, và nói
theo ngôn ngữ của kiểm định
giả thiết thì giả thiết đảo là:
Ho: m1 = m2 = m3
Và giả thiết chính là:
HA: có một khác biệt giữa 3 mj
(j = 1,2,3)
Độc lập
Đồng nhất
• Var(Y) = Var(m) + Var(a) + Var(e)
= Var(a) + Var(e)
4
Sự khác nhau giữa các nhóm
A
B
C
43
40
35
41
47
54
39
34
37
47.3
36.7
Mean
39.3
Overall mean: 41.1
Tổng bình phương cho sự khác biệt giữa các nhóm:
(39.3 - 41.1)2 + (47.3 - 41.1)2 + (36.7 - 41.1)2 = 61.04
Nhưng giá trị trung bình của mỗi nhóm được tính từ 3 quan sát. Vì thế
tổng bình phương “thật sự” là:
SSB = 3*(39.3 - 41.1)2 + 3*(47.3 - 41.1)2 + 3*(36.7 - 41.1)2 = 184.8
5
Bậc tự do : (3 nhóm – 1) = 2.
Sự khác nhau trong các nhóm
Mean
A
B
C
43
40
35
41
47
54
39
34
37
39.3
47.3
36.7
SS cho nhóm A: SS1 = (43 – 39.3)2 + (40 – 39.3)2 + (35 – 39.3)2 = 32.7
SS cho nhóm B: SS2 = (41 – 47.3)2 + (47 – 47.3)2 + (54 – 47.3)2 = 84.7
SS cho nhóm C: SS3 = (39 – 36.7)2 + (34 – 36.7)2 + (37 – 36.7)2 = 12.7
SS cho sự khác biệt trong nhóm: SSW = SS1+SS2+SS3 = 130.0
Bậc tự do: (3 – 1) + (3 – 1) + (3 – 1) = 6
6
2
Tóm tắt về kết quả phân tích
Source of variation
DF
SS
MS
Among groups
2
184.8
92.4
Within groups
6
130.0
21.7
Total
8
314.8
• F statistic = MSB / MSW = 92.4 / 21.7 = 4.27
• P value associated with (2, 6) df: 0.07
MSB=SSB/k-1 = 184.8/(3-1)=92.4
MSW=SSW/N-k = 130/(9-3)=21.7
7
Phân tích ANOVA bằng R
A
B
C
43
40
35
41
47
54
39
34
37
Trước hết, chúng ta cần phải nhập dữ liệu vào R. Bước thứ nhất là
báo cho R biết rằng chúng ta có ba nhóm A, B,C
Định nghĩa biến group là một yếu tố - factor
group summary(analysis)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
39.333
2.687 14.636 6.39e-06 ***
group2
8.000
3.801
2.105
0.080 .
group3
-2.667
3.801 -0.702
0.509
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.655 on 6 degrees of freedom
Multiple R-Squared: 0.5872,
Adjusted R-squared: 0.4495
F-statistic: 4.267 on 2 and 6 DF, p-value: 0.07037
Intercept:
Để tính thông số j ta đặt 1=0, 2= 2- 1=8.000, SD= 3.801,
Kiểm định t =8/3.801=2.105, p=0.08, không có ý nghĩa thống kê
10
Tiêu chuẩn so sánh Turkey
Multiple Comparisons: Tukey’s Method
res ... Var(Y) = Var(m) + Var(a) + Var(e) = Var(a) + Var(e) Sự khác nhóm A B C 43 40 35 41 47 54 39 34 37 47 .3 36.7 Mean 39.3 Overall mean: 41 .1 Tổng bình phương cho khác biệt nhóm: (39.3 - 41 .1)2 + (47 .3... ' ' Residual standard error: 4. 655 on degrees of freedom Multiple R- Squared: 0.5872, Adjusted R- squared: 0 .44 95 F-statistic: 4. 267 on and DF, p-value: 0.07037 Intercept: Để tính thông số j... $pesticide diff lwr 2-1 19 4. 797136 3-1 -8.2028 64 4-1 25 10.797136 3-2 -13 -27.2028 64 4-2 -8.2028 64 4-3 19 4. 797136 upr 33.2028 64 20.2028 64 39.2028 64 1.2028 64 20.2028 64 33.2028 64 p adj 0.0 140 509 0.5106152