Moät bieán phuï thuoäc laø bieán ñònh löôïng moät bieán ñoäc laäp laø bieán nhò giaù Tham soá thöôøng ñöôïc kieåm ñònh trong tröôøng hôïp naøy laø trung bình ôû hai nhoùm cuûa bieán ñoäc laäp. Pheùp kieåm ñöôïc söû duïng laø ttest hai maãu ñoäc laäp. Sau khi thöïc hieän pheùp kieåm duø keát quaû nhö theá naøo thì chuùng ta cuõng khoâng theå ñöa ra keát luaän veà moái quan heä nhaân quaû cuûa giöõa bieán ñoäc laäp vaø bieán phuï thuoäc.
Trang 1Một biến phụ thuộc là biến định lượng- một biến độc lập là biến
nhị giá
Tham số thường được kiểm định trong trường hợp này là trung bình ở hai nhóm của
biến độc lập
Phép kiểm được sử dụng là t-test hai mẫu độc lập Sau khi thực hiện phép kiểm dù
kết quả như thế nào thì chúng ta cũng không thể đưa ra kết luận về mối quan hệ nhân
quả của giữa biến độc lập và biến phụ thuộc.
Quy trình
Cú pháp
table bđl, content (mean bpt sd bpt) Lập bảng so sánh giữa hai biến
graph box bpt, by(bđl) options Vẽ biểu đồ hộp kiểm tra phân phối bình thường của
Lập bảng so sánh trung bình hai nhóm
Thực hiện phép kiểm t với phương sai không đồng nhất hay thực hiện phép kiểm Mann-Whitney phi tham số
Thực hiện phép kiểm t với phương sai đồng nhất
Phân phối bình
thường
Phương sai đồng nhất
Kiểm tra giả định
Có
Khôn g
1
4
3 2
4
Trang 2hai nhóm
hist bpt, by(bdl) normal Vẽ tổ chức đồ kiểm tra phân phối bình thường của
hai nhóm
qnorm bpt, title(”ten bieu do”) Vẽ biểu đồ phân vị bình thường (normal quantile
plot) kiểm tra tính bình thường của hai nhóm
sdtest bpt, by(bđl) Kiểm tra giả định phương sai của hai nhóm
ttest bpt, by(bđl) Phép kiểm t với phương sai đồng nhất
ttest bpt, by(bđl) unequal Phép kiểm t với phương sai không đồng nhất
ranksum bpt, by(bđl) Phép kiểm Mann-Whitney
Ví dụ:
table life, content(mean weight sd weight)
tutu | mean(weight) sd(weight)
khong | 1.408889 2.609234
co | 1.731148 2.825629
- table life, content(mean iq sd iq)
tutu | mean(iq) sd(iq)
khong | 91.2708 3.757204
co | 92.0984 5.0223
-Diễn giải kết quả
Trung bình sự thay đổi trọng lượng của nhóm không có ý định tự tự là 1.41 lbs,
trong khi ở nhóm có ý định là 1.73 lbs
Chỉ số IQ trung bình của nhóm không có ý định tự tự là 91.27 và ở nhóm có ý định
tự tự là 92.10
Chúng ta nhận thấy giữa các nhóm có sự khác biệt về trung bình sự thay đổi trọng
lượng cũng như về chỉ số IQ trung bình Tuy nhiên chúng ta không biết sự khác
biệt này là thật sự hay không Vì vậy chúng ta phải thực hiện phép kiểm t-test hai
mẫu.
graph box weight, by(life) box(1, bfcolor(none)) box(2, bfcolor(none)) yline(0) medtype(line)
Trang 3graph box iq, by(life) box(1, bfcolor(none)) box(2, bfcolor(none)) yline(92) medt
> ype(line)
Diễn giải kết quả
Các nhóm có trung vị thay đổi trọng lượng không khác biệt nhau nhiều và giả định
1 được thoả do phân phối của hai nhóm có độ phân tán tương tự nhau (chiều cao của hộp tượng trưng cho khoảng tứ vị)
Các nhóm có trung vị chỉ số IQ không khác biệt nhau nhiều và giả định phân phối bình thường được thoả do phân phối của hai nhóm có độ phân tán tương tự nhau
hist weight, by(life) normal
(bin=10, start=-4.9000001, width=1.32)
Trang 4hist iq, by(life) normal
(bin=10, start=82, width=2.4)
Diễn giải kết quả
Đối với biến thay đổi cân nặng, đường cong mật độ của hai nhóm đều có hình dạng giống với đường cong chuẩn, thỏa giả định phân phối bình thường
Đối với biến chỉ số IQ, đường cong mật độ của hai nhóm đều có hình dạng giống với đường cong chuẩn, thỏa giả định phân phối bình thường.
Vẽ biểu đồ phân vị bình thường
egen res=mean(weight), by (life)
Trang 5replace res=weight-res
(118 real changes made, 11 to missing)
label variable res "he so du cua phep kiem doi voi weight"
qnorm res, title("bieu do phan vi binh thuong")
Inv erse Normal
bieu do phan vi binh thuong
Diễn giải kết quả
Lệnh egen dùng để tạo ra hệ số góc dư cho biểu đồ và tính bằng trung bình của biến trọng lượng
Lệnh replce dùng để chuyển biến res thành biến mới có nội dung là hiệu số giữa trọng lượng trừ cho trung bình
Chúng ta dùng lệnh label variable để dán nhãn cho biến res
Vẽ biểu đồ phân vị bình thường cho biến res
Biểu đồ cho thấy biến weight có phân phối bình thường vì các phân vị của hệ số
dư thẳng hàng gần với phân vị của phân phối bình thường
Kiểm tra phương sai của hai nhóm
sdtest weight, by(life)
Variance ratio test
Group | Obs Mean Std Err Std Dev [95% Conf Interval]
Trang 6khong | 45 1.408889 .3889616 2.609234 .6249883 2.19279
co | 61 1.731148 .3617847 2.825629 1.00747 2.454825
-+ -combined | 106 1.59434 .2649478 2.727805 1.068997 2.119682
Ho: sd(khong) = sd(co)
F(44,60) observed = F_obs = 0.853
F(44,60) lower tail = F_L = F_obs = 0.853
F(44,60) upper tail = F_U = 1/F_obs = 1.173
Ha: sd(khong) < sd(co) Ha: sd(khong) != sd(co) Ha: sd(khong) > sd(co)
P < F_obs = 0.2919 P < F_L + P > F_U = 0.5724 P > F_obs = 0.7081
sdtest iq, by(life)
Variance ratio test
Group | Obs Mean Std Err Std Dev [95% Conf Interval]
khong | 48 91.27083 .5423056 3.757203 90.17986 92.36181
co | 61 92.09836 .6430396 5.0223 90.81209 93.38463
-+ -combined | 109 91.73394 .4318374 4.508515 90.87797 92.58992
Ho: sd(khong) = sd(co)
F(47,60) observed = F_obs = 0.560
F(47,60) lower tail = F_L = F_obs = 0.560
F(47,60) upper tail = F_U = 1/F_obs = 1.787
Ha: sd(khong) < sd(co) Ha: sd(khong) != sd(co) Ha: sd(khong) > sd(co)
P < F_obs = 0.0203 P < F_L + P > F_U = 0.0373 P > F_obs = 0.9797
Diễn giải kết quả
Phép kiểm F-test dựa trên giả thuyết H0 là độ lệch chuẩn ở nhóm có ý định tự tự và nhóm không có ý định tự tự bằng nhau.
Đối với biến weight, phương sai của hai nhóm không có sự khác biệt (đồng nhất)
do giá trị p=0.57 (>0.05)
Đối với biến iq, phương sai của hai nhóm có sự khác biệt do giá trị p=0.037
ttest weight, by(life)
Two-sample t test with equal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval]
Trang 7khong | 45 1.408889 .3889616 2.609234 .6249883 2.19279
co | 61 1.731148 .3617847 2.825629 1.00747 2.454825
-+ -combined | 106 1.59434 .2649478 2.727805 1.068997 2.119682
diff | -.3222587 .5376805 -1.388499 743982
-Degrees of freedom: 104
Ho: mean(khong) - mean(co) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -0.5993 t = -0.5993 t = -0.5993
P < t = 0.2751 P > |t| = 0.5502 P > t = 0.7249
Diễn giải kết quả
Phép kiểm t-test hai mẫu phương sai đồng nhất dựa trên giả thuyết H0 là không có sự khác biệt về trung bình giữa các nhóm
Sự khác biệt giữa trung bình trọng lượng của hai nhóm là -0.32 với khoảng tin cậy 95% từ -1.39 đến 0.74 Giá trị p hai đuôi của phép kiểm là 0.55, vì vậy chúng ta không thể bác bỏ giả thuyết H0, chứng tỏ trọng lượng không liên quan đến ý định tự tử của những người phụ nữ tham gia nghiên cứu
ttest iq, by(life) unequal
Two-sample t test with unequal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval]
khong | 48 91.27083 .5423056 3.757203 90.17986 92.36181
co | 61 92.09836 .6430396 5.0223 90.81209 93.38463
-+ -combined | 109 91.73394 .4318374 4.508515 90.87797 92.58992
diff | -.8275273 .8411869 -2.495125 .8400707
-Satterthwaite's degrees of freedom: 106.758
Ho: mean(khong) - mean(co) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -0.9838 t = -0.9838 t = -0.9838
P < t = 0.1637 P > |t| = 0.3275 P > t = 0.
Diễn giải kết quả.
Sự khác biệt giữa chỉ số trung bình của hai nhóm là -0.83 với độ tin cậy 95% là từ -2.50 cho đến 0.84 Giá trị p hai đuôi của phép kiểm là 0.33, vì vậy chúng ta
Trang 8không thể bác bỏ giả thuyết H0 nghĩa là không có sự khác biệt về chỉ số trung bình
IQ ở hai nhóm Suy ra chỉ số IQ không liên quan đến ý định tự tử ở những người phụ nữ tham gia nghiên cứu
ranksum iq, by(life)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
life | obs rank sum expected
khong | 48 2496.5 2640
co | 61 3498.5 3355
combined | 109 5995 5995
unadjusted variance 26840.00
adjustment for ties -251.71
-adjusted variance 26588.29
Ho: iq(life==khong) = iq(life==co)
z = -0.880
Prob > |z| = 0.3788
Diễn giải kết quả
Như vậy khi kiểm bằng phép kiểm Mann-Whitney ta thấy giá trị p= 0.38 không chênh lậch bao nhiêu so với giá trị p trong phép kiểm t phương sai không đồng nhất, vì vậy nó cũng đưa đến cùng kết luận như phép kiểm t phương sai không đồng nhất.
1.1 Một biến phụ thuộc là biến định lượng- một biến độc lập là biến định tính có trên hai giá trị
Trang 9Trên thực tế chúng ta có thể phải so sánh giá trị trung bình của nhiều hơn hai nhóm Khi đó chúng ta không thể sử dụng t-test hai mẫu cho từng nhóm mà phải thực hiện
một phép kiểm riêng gọi là ANOVA một chiều.
Muốn thực hiện phép kiểm này các biến quan tâm phải thoả hai giả định sau:
Biến số phụ thuộc có phân phối bình thường
Phương sai của biến phụ thuộc ở các nhóm phải bằng nhau
Quy trình
Cú pháp
qnorm bpt, grid Kiểm tra tính bình thường của biến phụ thuộc
Option grid dùng để kẻ đường dọc tại các vị trí 5%, 25%, 75%
oneway bpt bdl, tabulate Thực hiện phép kiểm ANOVA một chiều
Ví dụ
qnorm weight, grid
Kiểm tra tính bình
thường
Kiểm tra phương
sai đồng nhất
Thực hiện phép kiểm
Thỏa
Trang 10Diễn giải kết quả
Như vậy chúng ta nhận thấy biến weight có đồ thị gần với đường thẳng phân phối bình thường nên biến weight có phân phối bình thường.
oneway weight depress, tabulate
| Summary of thay doi can nang trong
| vong 6 thang cuoi
suynhuoc | Mean Std Dev Freq
khong | 1.75 2.8148674 24
nhe | 1.1688525 2.7523045 61
trungbinh | 2.13125 2.5624777 16
Total | 1.4594059 2.737962 101
Analysis of Variance Source SS df MS F Prob > F
-Between groups 14.3983703 2 7.19918514 0.96 0.3866
Within groups 735.245195 98 7.50250199
Trang 11Total 749.643565 100 7.49643565
Bartlett's test for equal variances: chi2(2) = 0.1621 Prob>chi2 = 0.922
Diễn giải kết quả
Kết quả của phép kiểm Bartlett cho thấy giá trị p=0.922 chứng tỏ không có sự khác biệt về phương sai giữa các nhóm.
Kết quả của phép kiểm Anova một chiều cho thấy p=0.3866 không có sự khác biệt về trung bình thay đổi trọng lượng giữa các nhóm suy nhược Như vậy tình trạng suy nhược không liên quan đến ý định tự tử của nhóm phụ nữ nghiên cứu.
Một biến phụ thuộc là biến định lượng-hai biến độc lập là biến định tính
Khi chúng ta muốn so sánh trung bình của hai biến độc lập là biến danh định, chúng ta không thể áp dụng phép kiểm Anova một chiều Khi đó chúng ta phải sử dụng phép
kiểm ANOVA hai chiều.
Cú pháp
chiều
Ví dụ
table envi strain, content(mean error sd error) row col
-environme |
nt where |
the rats | strain of rats
were | thong minh dan don trung binh Total
tu do | 33.375 72.125 49.375 51.625
| 25.43303 36.78679 24.52368 32.48921
|
tu tung | 55.125 112.625 94 87.25
| 30.42761 40.84444 30.60812 40.90737
|
Total | 44.25 92.375 71.6875 69.4375
| 29.32689 42.98197 35.33972 40.73678
Diễn giải kết quả
Từ kết quả trên ta nhận thấy chuột đần độn có tỷ lệ mắc sai lầm cao nhất là 92.38%, rồi đến chuột trung bình là 71.69%, và cuối cùng là chuột thông minh 44.25%
Chuột được nuôi trong môi trường tù túng cũng mắc lỗi nhiều hơn so với chuột sống trong môi trường tự do (87.25% so với 51.63%)
Trang 12 Tỷ lệ mắc lỗi ở chuột trong các môi trường tù túng và tự do ở các giống chuột khác nhau cũng tăng lên Điều này gợi ý rằng môi trường cũng tương tác với giống chuột ảnh hưởng đến mức độ mắc sai lầm của chuột.
anova error envi strain envi* strain, partial
Number of obs = 48 R-squared = 0.4496 Root MSE = 31.97 Adj R-squared = 0.3841 Source | Partial SS df MS F Prob > F Model | 35068.4375 5 7013.6875 6.86 0.0001 |
envi | 15229.6875 1 15229.6875 14.90 0.0004 strain | 18649.625 2 9324.8125 9.12 0.0005 envi*strain | 1189.125 2 594.5625 0.58 0.5634
|
Residual | 42927.375 42 1022.08036
Total | 77995.8125 47 1659.48537
Diễn giải kết quả
Giống chuột có ảnh hưởng đến số lần mắc sai lầm của chuột (p=0.005)
Môi trường cũng ảnh hưởng đến số lần mắc lỗi của chuột (p=0.004)
Điều kiện môi trường gây ảnh hưởng xấu tương tự như các giống chuột (p=0.5244)
Một biến phụ thuộc là biến định lượng-ba biến độc lập là biến định tính
Quy trình
Cú pháp
table bdl1, contents (freq mean bpt median bpt sd bpt) by(bdl2 bdl3)
Ví dụ
table drug, contents (freq mean bp median bp sd bp) by(diet biofeed)
-diet, |
biofeed |
and drug | Freq mean(bp) med(bp) sd(bp)
-+ -absent |
absent |
drug X | 6 188 192 10.86278
Drug Y | 6 200 197 10.07968
Drug Z | 6 209 205 14.3527
-+ -absent |
present |
drug X | 6 168 167.5 8.602325
Drug Y | 6 204 205 12.68069
Drug Z | 6 189 190.5 12.61745
Trang 13
-+ -present |
absent |
drug X | 6 173 172 9.797959
Drug Y | 6 187 188 14.01428
Drug Z | 6 182 179 17.1114
-+ -present |
present |
drug X | 6 169 167 14.81891
Drug Y | 6 172 170 10.93618
Drug Z | 6 173 176.5 11.6619
Diễn giải kết quả
Ta nhận thấy độ lệch chuẩn trong cùng nhóm có sự khác nhau chứng tỏ có sự khác biệt giữa các thành phần trong cùng nhóm
anova bp drug diet biofeed diet*drug diet*biofeed drug*biofeed
drug*diet*biofeed
Number of obs = 72 R-squared = 0.5840 Root MSE = 12.5167 Adj R-squared = 0.5077 Source | Partial SS df MS F Prob > F Model | 13194 11 1199.45455 7.66 0.0000 |
drug | 3675 2 1837.5 11.73 0.0001 diet | 5202 1 5202 33.20 0.0000 biofeed | 2048 1 2048 13.07 0.0006 diet*drug | 903 2 451.5 2.88 0.0638 diet*biofeed | 32 1 32 0.20 0.6529 drug*biofeed | 259 2 129.5 0.83 0.4425 drug*diet*biofeed | 1075 2 537.5 3.43 0.0388
|
Residual | 9400 60 156.666667
Total | 22594 71 318.225352
Diễn giải kết quả
Ta nhận thấy ảnh hưởng chính của drug, diet, và biofeed đều có ý nghĩa thống kê cao (F=11.73, p< 0.001); (F=33.20, p<0.001); (F = 13.07, p< 0.001)
Các mối tương tác hai chiều đều không có ý nghĩa thống kê ở mức 5% nhưng mối tương tác 3 chiều lại có ý nghĩa thống kê cao (F=3.43, p<0.04)
Mối tương tác ba chiều cho thấy giữa các nhóm của một biến độc lập đều có sự tương tác của hai biến độc lập còn lại
predict predbp
(option xb assumed; fitted values)
Tạo biến trung bình dự đoán (predicted mean)
twoway (line predbp biofeed if diet==0) (line predbp biofeed if diet==1), by(drug) xlabel(0 "no biofeed
> " 1 "biofeed.") ylabel(170 190 210) xtitle("") legend(order(1 "no diet" 2
"diet"))