bài tập nhóm số 1 phân tích dữ liệu trong kinh tế

Power: Trong phân tích phương sai ANOVA với 2 nhân tố, lý thuyết Power đóng vai trò quan trọng để đo lường khả năng của một thí nghiệm phát hiện sự khác biệt thực sự giữa các nhóm được

Trang 1

DAI HOC QUOC GIA TP HCM

TRUONG DAI HOC KINH TE LUAT

Trang 2

I LY THUYET VE CAC KIEM DINH BO SUNG CHO PHAN TICH ANOVA

và chỉ số Omega bình phương (@2) cho các tương tác

Thông qua việc tính toán giá trị kích thước hiệu ứng, cầu lệnh effectsize trong Stata giúp đánh giá mức độ ảnh hưởng của từng nhân tố và tương tác trong mô hình ANOVA, và giúp năm bắt các yếu tổ quan trọng và đáng chú ý trong phân tích dữ liệu

2 Power:

Trong phân tích phương sai (ANOVA) với 2 nhân tố, lý thuyết Power đóng vai trò quan trọng để đo lường khả năng của một thí nghiệm phát hiện sự khác biệt thực sự giữa các nhóm được so sánh Power là xác suất đề loại bỏ sai lầm loại II (sai bỏ giả thuyết không phân biệt khi thực sự có sự khác biệt tồn tại)

Lý thuyết Power dựa trên một số yếu tố chính sau đây:

e Kích thước mẫu (Sample size): Power tăng khi kích thước mẫu tăng Một kích thước mẫu lớn giup giảm sai lầm loại II và tăng khả năng phát hiện sự khác biệt thực sự

e Hiệu ứng kích thích (Effect size): Power tăng khi hiệu ứng kích thích lớn hon Hiệu ứng kích thích thể hiện mức độ khác biệt giữa các nhóm được so sánh Khi hiệu ứng kích thích lớn hơn, Power sẽ tăng

e_ Độ biến thiên (Variance): Power giảm khi độ biến thiên lớn hơn Độ biến thiên

liên quan đến mức độ đồng nhất hoặc không đồng nhất của đữ liệu trong các nhóm Khi độ biến thiên lớn, Power giảm do khó phát hiện sự khác biệt giữa các nhóm

e© Mức ý nghĩa thông kê (Significance level): Power tăng khi mức ý nghĩa thống

kê (alpha) giảm Alpha là mức xác suất chấp nhận sai lầm loại I (ty lệ chấp

Trang 3

nhận sai bỏ giả thuyết không phân biệt khi thực sự không có sự khác biệt tồn tại) Khi giảm alpha, Power tăng vì giảm khả năng chấp nhận sai lầm loại I Phân phối mẫu (Sampling distribution): Power phụ thuộc vào phân phối mẫu được sử dụng trong phân tích thống kê Các phân phối mẫu như phân phối chuẩn hoặc phân phối F được sử dụng trong ANOVA.

Trang 4

BUOC 1 QUAN SAT DU LIEU ANOVA

1.Hiễn thị dữ liệu ANOVA dang thé

50rt machine operator

by machine operator : generate order = "

tabdisp order operator machine , cellvar{( output }

five brands of machine and operator nested in machine

|

| 1 2 3 4 5 order | 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 +

1| 9.9 9/8 8.9 9.6 15.4 10.8 12.8 11.1 10.9 8.7 11.6 17.6 19.5 13.7 15 16.1 17.2 11.1 2| 8.4 9.7 7.2 8.3 15.6 12.3 10.1 11.6 12.1 10.5 11.6 16.1 20.8 14.3 18.6 17.3 14.7 9.8

3 | 8.3 8.7 T.1 14.1 10.5 10.8 11.2 10.2 14.6 16.6 16.8 16.2 14.6 13.4 10.4 4) 10.1 7.8 12.9 14.6 13.2 12.1

**#Dữ liệu được phân thành 5 nhóm

2 Phân tích mô tả và thăm dò tổng quát dữ liệu ANOVA

operator byte $9.0g operator nested in machine

output float $9.0g machine output

order float $9.0g

Sorted by: machine operator

Note: Dataset has changed since last saved

*V6i biến dinh lugng output: sum output

Trang 6

2.1 Quan sát phân phối của dữ liệu

Các điểm từ mức 0,25 đến 0,50 nằm xa so với đường thắng nên dữ liệu này chưa chuẩn

Trang 7

+ histogram output, start(7) width(5) normal freq

+ Kdensity output, normal

Kernel density estimate

Trang 8

3 QUAN SAT DU LIEU THEO NHOM

Cach 1:

tabstat output ,

Summary for variables: output

by categories of: operator (operator nested in machine)

graph box output , over( machine )

: gxaph box output , over( operator )

graph box output , over( machine ) over( operator )

stat(n mean sd var) by( operator )

tabulate machine operator , summ( output )

Means, Standard Deviations and Prequencies of machine output

2 4 3 4 13

2 15.033333 11.55 11.45 11.525 12.47271727 81445261 1.0606602 1.9091882 1.0210287 1.9047786

3 2 2 4 11

3 11.266667 10.133333 11.133334 10.844444 -72341807 1.2897028 80829071 99888846

3 3 3 0 9

4 6.1 18.966667 15.35 16.6 16.646154 1.5 2.1501933 2.3302356 1.8330304 2.2459648

3 3 4 3 13

5 15.3 14.35 10.433333 13.627273 1.7832552 2.1763887 65064082 - 2.6169031

4 4 3 0 11 Toral 13.78 12.85625 11.586667 11.7 12.542105 2.7962221 3.8484574 2.9053808 3.6652422 3.3546315

15 16 15 11 57

Trang 9

+ quietly anova output machine##operator

margins machine#operator, asbalanced

26667

13333 16.1

96667 16.6 15.3 14.35

Delta-method

1.040073 8.80 7354427 12.88

„8492161 9.73 +» 7354427 11.15

„8492161 17.70 1.040073 11.10 1.040073 11.01

8.008 9.eee 0.ooo a.ooa

7.046253 6.548965 13.31563 9.446254 19.03743 8.415631

14.3823

17 24896 14.8823 13.81243 8.715632

11.25375 9.984368

13.01257 11.85193

17.8177 20.68437 18.3177 16.78757 12.15104

Trang 10

Cach 4:

Sort machine operator

by machine operator : sum( output )

=> machỉne = 2, operator = 4

Variable | Obs Mean Std Dev Min Max output | 4 11.525 1.021029 10.5 12.9 -> machine = 3, operator = 1

Variable | Obs Mean Std Dev Min Max output | 3 11.26667 „7234181 10.8 12.1

Trang 11

Variable | obs Mean std Dev Min Max output | 3 10.13333 1.289703 8.7 11.2 -> machine = 3, operator = 3

Variable | Obs Mean Std Dev Min Max output | 4 15.35 2.330236 13.7 18.8

Trang 12

- hist output, by( machine operator ) normal start(7) width(5)

Graphs by five brands of machine and operator nested in machine

- twoway kdensity output, by( operator )

Trang 13

- twoway (kdensity output if operator =1)(kdensity output if operator

==2)(kdensity output if operator ==3), legend(off)

| Residual | 84.376658 39 2.1635041

Total | 630.19895 56 11.253553

Trang 14

anovaplot operator machine , scatter(msym(none))

Trang 15

BUOC 2 THUC HIEN PHAN TICH ANOVA TRONG STATA

Trang 16

kdensity output, normal

kernel = epanechnikov, bandwidth = 1.3450

tabulate operator machine , summ( output )

Means, Standard Deviations and Frequencies of machine output

Trang 17

Summary for variables: output

by categories of: machine (five brands of machine)

Total | 57 12.54211 3.354632 11.25355

sort operator machine

anova output machine operator

Number of obs = 57 R-squared = 0.7757 Root MSE = 1.69842 Adj R-squared = 0.7437 Source | Partial SS dat MS Fr Prob>F

effectsize machine operator

anova effect size for machine with dep var = output

total variance accounted for

Trang 18

graph box output, over( operator)

Trang 19

histogram output, by(machine) normal

Graphs by five brands of machine

BUOC 3 KIEM DINH CAC GIA DINH

1 Kiếm định tính độc lap

tabdisp order operator machine , cellvar( output }

Trang 20

2 Kiểm định các tổng thể xấp xỉ phân phối chuẩn

histogram y, by(grp) normal

Graphs by five brands of machine

histogram output, by( operator ) normal

Graphs by operator nested in machine

Trang 21

pnorm output if operator==

Empirical P[i] = i/(N+1)

Các điểm phân bố không đều dọc theo đường thăng nên dữ liệu này chưa chuẩn pnorm output if machine==

Empirical P[i] = i/(N+1)

Các điểm phân bố không đều dọc theo đường thăng nên dữ liệu này chưa chuẩn

Trang 22

twoway (kdensity output if operator—1)(kdensity output if

operator==2)(kdensity output if operator==3)(kdensity output if operator—=4), legend(off)

3 Tinh déng nhất của phương sai (phương sai sai số không đôi)

Phương pháp 4: Kiém định Levene

- robvar output, by( operator )

operator |

nested in | Summary of machine output

machine | Mean Std Dev Freq

Trang 23

- operator: p-value=0.44605558 > các mức ý nghĩa => Chấp Nhận Ho

robvar output, by( machine )

five brands Summary of machine output

Total | 12.542105 3.3546315 57

WO = 4.3883754 đf(4, 52) Pr > F = 0.00393019 W50 = 3.7006691 df(4, 52) Pr > F = 0.01003405 W10 = 4.2451028 df(4, 52) Pr > F = 0.00476938

- machine: p-value= 0.00393019 < các mức ý nghĩa => bac bo Ho

BUOC 4 THUC HIEN KIEM ĐỊNH SÂU ANOVA

Trang 25

Tukey HSD pairwise comparisons for variable operator studentized range critical value(.05, 4, 53) = 3.7513035

Trang 27

(Bonferroni) Row Mean-|

Trang 28

BUOC 5 NANG LUC KIEM DINH VA CO MAU (Power & Sample Size) 5.1 Kiểm định độ hiệu quả f

- anova output operator

anova effect size for operator with dep var = output

total variance accounted for

5.2 Sử dụng mô phỏng Monte Carlo với gói lệnh simpower

- anova output operator

Number of obs = 57 R-squared = 0.0731 Root MSE = 3.31987 Adj R-squared = 0.0206

Trang 29

Sample Sizes, Means and Standard Deviations

Trang 30

Cach phuong phap kiém dinh b6 sung cho phan tich ANOVA bao gồm kiểm định về

tính độc lập của hai biến định tính, kiểm định phân phối, kiểm định dẫu, kiểm định

Wilcoxon va kiém dinh Mann - Whitney và được sử dụng rộng rãi nhất là

Tukey-Kramer

- _ Kiểm định dấu là một phương pháp kiểm định phi tham số được sử dụng để kiêm tra sự khác biệt giữa hai mẫu độc lập Nó được sử dụng để kiểm tra giả thuyết về sự khác biệt giữa hai tông thê đối với mẫu cặp Các bước thực hiện kiểm định dấu như sau:

1 Trên thanh công cụ, chọn Analyze > Nonparametric Tests > 2 Related Sample

2 Sau khi cửa số Two-Related-Samples Tests hiện lên, ta đưa hai biến TI

và LI vào ô Test Pairs và chọn Sign trong phần Test type đề thực hiện kiểm định dấu

3 Nhấn Ok để nhận kết quả

- _ Kiểm định Mann-Whiiney là một phương pháp kiêm định phi tham số được sử dụng để so sánh hai nhóm độc lập với nhau Nó được sử dụng để kiểm tra xem liệu có sự khác biệt đáng kế giữa hai nhóm trong biến phụ thuộc hay không khi biến phụ thuộc là liên tục hoặc thứ tự Cách thực hiện kiểm định

Mann-Whitney nhu sau:

1 Sap xép tất cả các giá trị của biến phụ thuộc từ bé đến lớn

2 Gan thir ty cho các giá trị này, bắt đầu tir | cho giá trị nhỏ nhất và tiếp

tục đến n cho giá trị lớn nhất

3 Tính tổng thứ tự của các giá trị trong mỗi nhóm

4 Sosánh tong thứ tự của hai nhóm để xác định xem liệu có sự khác biệt

đáng kế giữa hai nhóm hay không

- _ Kiểm định Tukey-Kramer là một phương pháp kiêm định bố sung cho phân tích ANOVA Nó được sử dụng để so sánh tất cả các cặp trung bình của các nhóm trong một thí nghiệm Phương pháp này giúp xác định xem liệu có sự khác biệt

Trang 31

đáng kế giữa các cặp trung bình hay không Cách thực hiện kiểm định Tukey-Kramer như sau:

Tính toán khoảng cách tuyệt đối tối thiêu giữa các trung bình

So sánh khoảng cách tuyệt đối tối thiểu với khoảng cách tuyệt đối của từng cặp trung bình Nếu khoảng cách tuyệt đối của một cặp trung bình lớn hơn khoảng cách tuyệt đối tối thiểu, thì ta có thể kết luận rằng có sự khác biệt đáng kê giữa hai trung bình này.

Tiêu đề	Bài Tập Nhóm Số 1 Phân Tích Dữ Liệu Trong Kinh Tế
Tác giả	Mạc Thị Mùi, Phạm Hải Anh, Châu Tuấn Kiệt, Nguyễn Thị Mỹ Lan, Lê Thị Thủy Tiên
Người hướng dẫn	TS. Võ Thị Lệ Uyên
Trường học	Đại Học Quốc Gia TP. HCM
Chuyên ngành	Phân Tích Dữ Liệu Trong Kinh Tế
Thể loại	Bài tập nhóm
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	31
Dung lượng	3,05 MB