Power: Trong phân tích phương sai ANOVA với 2 nhân tố, lý thuyết Power đóng vai trò quan trọng để đo lường khả năng của một thí nghiệm phát hiện sự khác biệt thực sự giữa các nhóm được
Trang 1DAI HOC QUOC GIA TP HCM
TRUONG DAI HOC KINH TE LUAT
Trang 2I LY THUYET VE CAC KIEM DINH BO SUNG CHO PHAN TICH ANOVA
và chỉ số Omega bình phương (@2) cho các tương tác
Thông qua việc tính toán giá trị kích thước hiệu ứng, cầu lệnh effectsize trong Stata giúp đánh giá mức độ ảnh hưởng của từng nhân tố và tương tác trong mô hình ANOVA, và giúp năm bắt các yếu tổ quan trọng và đáng chú ý trong phân tích dữ liệu
2 Power:
Trong phân tích phương sai (ANOVA) với 2 nhân tố, lý thuyết Power đóng vai trò quan trọng để đo lường khả năng của một thí nghiệm phát hiện sự khác biệt thực sự giữa các nhóm được so sánh Power là xác suất đề loại bỏ sai lầm loại II (sai bỏ giả thuyết không phân biệt khi thực sự có sự khác biệt tồn tại)
Lý thuyết Power dựa trên một số yếu tố chính sau đây:
e Kích thước mẫu (Sample size): Power tăng khi kích thước mẫu tăng Một kích thước mẫu lớn giup giảm sai lầm loại II và tăng khả năng phát hiện sự khác biệt thực sự
e Hiệu ứng kích thích (Effect size): Power tăng khi hiệu ứng kích thích lớn hon Hiệu ứng kích thích thể hiện mức độ khác biệt giữa các nhóm được so sánh Khi hiệu ứng kích thích lớn hơn, Power sẽ tăng
e_ Độ biến thiên (Variance): Power giảm khi độ biến thiên lớn hơn Độ biến thiên
liên quan đến mức độ đồng nhất hoặc không đồng nhất của đữ liệu trong các nhóm Khi độ biến thiên lớn, Power giảm do khó phát hiện sự khác biệt giữa các nhóm
e© Mức ý nghĩa thông kê (Significance level): Power tăng khi mức ý nghĩa thống
kê (alpha) giảm Alpha là mức xác suất chấp nhận sai lầm loại I (ty lệ chấp
Trang 3nhận sai bỏ giả thuyết không phân biệt khi thực sự không có sự khác biệt tồn tại) Khi giảm alpha, Power tăng vì giảm khả năng chấp nhận sai lầm loại I Phân phối mẫu (Sampling distribution): Power phụ thuộc vào phân phối mẫu được sử dụng trong phân tích thống kê Các phân phối mẫu như phân phối chuẩn hoặc phân phối F được sử dụng trong ANOVA.
Trang 4BUOC 1 QUAN SAT DU LIEU ANOVA
1.Hiễn thị dữ liệu ANOVA dang thé
50rt machine operator
by machine operator : generate order = "
tabdisp order operator machine , cellvar{( output }
five brands of machine and operator nested in machine
|
| 1 2 3 4 5 order | 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 +
1| 9.9 9/8 8.9 9.6 15.4 10.8 12.8 11.1 10.9 8.7 11.6 17.6 19.5 13.7 15 16.1 17.2 11.1 2| 8.4 9.7 7.2 8.3 15.6 12.3 10.1 11.6 12.1 10.5 11.6 16.1 20.8 14.3 18.6 17.3 14.7 9.8
3 | 8.3 8.7 T.1 14.1 10.5 10.8 11.2 10.2 14.6 16.6 16.8 16.2 14.6 13.4 10.4 4) 10.1 7.8 12.9 14.6 13.2 12.1
**#Dữ liệu được phân thành 5 nhóm
2 Phân tích mô tả và thăm dò tổng quát dữ liệu ANOVA
operator byte $9.0g operator nested in machine
output float $9.0g machine output
order float $9.0g
Sorted by: machine operator
Note: Dataset has changed since last saved
*V6i biến dinh lugng output: sum output
Trang 62.1 Quan sát phân phối của dữ liệu
Các điểm từ mức 0,25 đến 0,50 nằm xa so với đường thắng nên dữ liệu này chưa chuẩn
Trang 7+ histogram output, start(7) width(5) normal freq
+ Kdensity output, normal
Kernel density estimate
Trang 83 QUAN SAT DU LIEU THEO NHOM
Cach 1:
tabstat output ,
Summary for variables: output
by categories of: operator (operator nested in machine)
graph box output , over( machine )
: gxaph box output , over( operator )
graph box output , over( machine ) over( operator )
stat(n mean sd var) by( operator )
tabulate machine operator , summ( output )
Means, Standard Deviations and Prequencies of machine output
2 4 3 4 13
2 15.033333 11.55 11.45 11.525 12.47271727 81445261 1.0606602 1.9091882 1.0210287 1.9047786
3 2 2 4 11
3 11.266667 10.133333 11.133334 10.844444 -72341807 1.2897028 80829071 99888846
3 3 3 0 9
4 6.1 18.966667 15.35 16.6 16.646154 1.5 2.1501933 2.3302356 1.8330304 2.2459648
3 3 4 3 13
5 15.3 14.35 10.433333 13.627273 1.7832552 2.1763887 65064082 - 2.6169031
4 4 3 0 11 Toral 13.78 12.85625 11.586667 11.7 12.542105 2.7962221 3.8484574 2.9053808 3.6652422 3.3546315
15 16 15 11 57
Trang 9+ quietly anova output machine##operator
margins machine#operator, asbalanced
26667
13333 16.1
96667 16.6 15.3 14.35
Delta-method
1.040073 8.80 7354427 12.88
„8492161 9.73 +» 7354427 11.15
„8492161 17.70 1.040073 11.10 1.040073 11.01
8.008 9.eee 0.ooo a.ooa
7.046253 6.548965 13.31563 9.446254 19.03743 8.415631
14.3823
17 24896 14.8823 13.81243 8.715632
11.25375 9.984368
13.01257 11.85193
17.8177 20.68437 18.3177 16.78757 12.15104
Trang 10
Cach 4:
Sort machine operator
by machine operator : sum( output )
=> machỉne = 2, operator = 4
Variable | Obs Mean Std Dev Min Max output | 4 11.525 1.021029 10.5 12.9 -> machine = 3, operator = 1
Variable | Obs Mean Std Dev Min Max output | 3 11.26667 „7234181 10.8 12.1
Trang 11
Variable | obs Mean std Dev Min Max output | 3 10.13333 1.289703 8.7 11.2 -> machine = 3, operator = 3
Variable | Obs Mean Std Dev Min Max output | 4 15.35 2.330236 13.7 18.8
Trang 12- hist output, by( machine operator ) normal start(7) width(5)
Graphs by five brands of machine and operator nested in machine
- twoway kdensity output, by( operator )
Trang 13- twoway (kdensity output if operator =1)(kdensity output if operator
==2)(kdensity output if operator ==3), legend(off)
| Residual | 84.376658 39 2.1635041
Total | 630.19895 56 11.253553
Trang 14anovaplot operator machine , scatter(msym(none))
Trang 15BUOC 2 THUC HIEN PHAN TICH ANOVA TRONG STATA
Trang 16kdensity output, normal
kernel = epanechnikov, bandwidth = 1.3450
tabulate operator machine , summ( output )
Means, Standard Deviations and Frequencies of machine output
Trang 17Summary for variables: output
by categories of: machine (five brands of machine)
Total | 57 12.54211 3.354632 11.25355
sort operator machine
anova output machine operator
Number of obs = 57 R-squared = 0.7757 Root MSE = 1.69842 Adj R-squared = 0.7437 Source | Partial SS dat MS Fr Prob>F
effectsize machine operator
anova effect size for machine with dep var = output
total variance accounted for
Trang 18graph box output, over( operator)
Trang 19histogram output, by(machine) normal
Graphs by five brands of machine
BUOC 3 KIEM DINH CAC GIA DINH
1 Kiếm định tính độc lap
tabdisp order operator machine , cellvar( output }
Trang 202 Kiểm định các tổng thể xấp xỉ phân phối chuẩn
histogram y, by(grp) normal
Graphs by five brands of machine
histogram output, by( operator ) normal
Graphs by operator nested in machine
Trang 21pnorm output if operator==
Empirical P[i] = i/(N+1)
Các điểm phân bố không đều dọc theo đường thăng nên dữ liệu này chưa chuẩn pnorm output if machine==
Empirical P[i] = i/(N+1)
Các điểm phân bố không đều dọc theo đường thăng nên dữ liệu này chưa chuẩn
Trang 22twoway (kdensity output if operator—1)(kdensity output if
operator==2)(kdensity output if operator==3)(kdensity output if operator—=4), legend(off)
3 Tinh déng nhất của phương sai (phương sai sai số không đôi)
Phương pháp 4: Kiém định Levene
- robvar output, by( operator )
operator |
nested in | Summary of machine output
machine | Mean Std Dev Freq
Trang 23- operator: p-value=0.44605558 > các mức ý nghĩa => Chấp Nhận Ho
robvar output, by( machine )
five brands Summary of machine output
Total | 12.542105 3.3546315 57
WO = 4.3883754 đf(4, 52) Pr > F = 0.00393019 W50 = 3.7006691 df(4, 52) Pr > F = 0.01003405 W10 = 4.2451028 df(4, 52) Pr > F = 0.00476938
- machine: p-value= 0.00393019 < các mức ý nghĩa => bac bo Ho
BUOC 4 THUC HIEN KIEM ĐỊNH SÂU ANOVA
Trang 25Tukey HSD pairwise comparisons for variable operator studentized range critical value(.05, 4, 53) = 3.7513035
Trang 27
(Bonferroni) Row Mean-|
Trang 28BUOC 5 NANG LUC KIEM DINH VA CO MAU (Power & Sample Size) 5.1 Kiểm định độ hiệu quả f
- anova output operator
anova effect size for operator with dep var = output
total variance accounted for
5.2 Sử dụng mô phỏng Monte Carlo với gói lệnh simpower
- anova output operator
Number of obs = 57 R-squared = 0.0731 Root MSE = 3.31987 Adj R-squared = 0.0206
Trang 29Sample Sizes, Means and Standard Deviations
Trang 30Cach phuong phap kiém dinh b6 sung cho phan tich ANOVA bao gồm kiểm định về
tính độc lập của hai biến định tính, kiểm định phân phối, kiểm định dẫu, kiểm định
Wilcoxon va kiém dinh Mann - Whitney và được sử dụng rộng rãi nhất là
Tukey-Kramer
- _ Kiểm định dấu là một phương pháp kiểm định phi tham số được sử dụng để kiêm tra sự khác biệt giữa hai mẫu độc lập Nó được sử dụng để kiểm tra giả thuyết về sự khác biệt giữa hai tông thê đối với mẫu cặp Các bước thực hiện kiểm định dấu như sau:
1 Trên thanh công cụ, chọn Analyze > Nonparametric Tests > 2 Related Sample
2 Sau khi cửa số Two-Related-Samples Tests hiện lên, ta đưa hai biến TI
và LI vào ô Test Pairs và chọn Sign trong phần Test type đề thực hiện kiểm định dấu
3 Nhấn Ok để nhận kết quả
- _ Kiểm định Mann-Whiiney là một phương pháp kiêm định phi tham số được sử dụng để so sánh hai nhóm độc lập với nhau Nó được sử dụng để kiểm tra xem liệu có sự khác biệt đáng kế giữa hai nhóm trong biến phụ thuộc hay không khi biến phụ thuộc là liên tục hoặc thứ tự Cách thực hiện kiểm định
Mann-Whitney nhu sau:
1 Sap xép tất cả các giá trị của biến phụ thuộc từ bé đến lớn
2 Gan thir ty cho các giá trị này, bắt đầu tir | cho giá trị nhỏ nhất và tiếp
tục đến n cho giá trị lớn nhất
3 Tính tổng thứ tự của các giá trị trong mỗi nhóm
4 Sosánh tong thứ tự của hai nhóm để xác định xem liệu có sự khác biệt
đáng kế giữa hai nhóm hay không
- _ Kiểm định Tukey-Kramer là một phương pháp kiêm định bố sung cho phân tích ANOVA Nó được sử dụng để so sánh tất cả các cặp trung bình của các nhóm trong một thí nghiệm Phương pháp này giúp xác định xem liệu có sự khác biệt
Trang 31đáng kế giữa các cặp trung bình hay không Cách thực hiện kiểm định Tukey-Kramer như sau:
Tính toán khoảng cách tuyệt đối tối thiêu giữa các trung bình
So sánh khoảng cách tuyệt đối tối thiểu với khoảng cách tuyệt đối của từng cặp trung bình Nếu khoảng cách tuyệt đối của một cặp trung bình lớn hơn khoảng cách tuyệt đối tối thiểu, thì ta có thể kết luận rằng có sự khác biệt đáng kê giữa hai trung bình này.