# qua số liệu phân tích cho thấy p < 0.05 nên sự khác biệt của dữ liệu pt có ý nghĩa thống kê ở mức ý nghĩa 5%, để biết rõ sự khác biệt như thế nào ta tiến hành phân tích Tukey.> res Tuk
Trang 1Kết luận: Từ phân tích R cho thấy n= 10.51 vì vậy cỡ mẫu bằng 11 thì cô chủ hàng
có thể đạt khoảng tin cậy như mong muốn Như vậy trong bài cô chủ sử dụng cỡ mẫu
là 15 người nên đạt khoảng tin cậy
Trang 2luận : Kết quả cho thấy, nếu chỉ có 500 người thì không đủ để thực hiện khảo
sát.Vậy ta cần có khoảng 1015 đối tượng để đạt các mục tiêu trên
Balanced one-way analysis of variance power calculation
luận: kết quả cho thấy các nhà nghiên cứu cần khoảng 155 đối tượng cho mỗi
miền (tức 462 đối tượng cho toàn bộ nghiên cứu) Vậy số người đưa ra là 600 đã đủ
để thực hiện nghiên cứu này
Bài 7 :
Trong bài này ta có sai số m = 0.01, pˆ = 0.9
Số lượng cỡ mẫu cần thiết cho nghiên cứu
Trang 3F test to compare two variances
data: h.suat by d.moi
F = 0.073, num df = 4, denom df = 4, p-value = 0.02652
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
Welch Two Sample t-test
data: h.suat by d.moi
t = 0, df = 4.581, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3
Trang 4Dùng dung môi nào đều được vì hiệu suất trích ly giống nhau.
> xbar <- tapply(h.suat, d.moi, mean)
> arrows(1:2, xbar+sem, 1:2, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:2, xbar, pch=4, type="b", cex=2)
Trang 5=>vì p-value=0.5849>0.05 nên phụ gia x là hàm phân phối chuẩn.
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 6# p-value >0.05 nên thuy phan có số liệu phân phối chuẩn
#ta tiến hành phân tích phương sai
Trang 7# qua số liệu phân tích cho thấy p < 0.05 nên sự khác biệt của dữ liệu pt có ý nghĩa thống kê ở mức ý nghĩa 5%, để biết rõ sự khác biệt như thế nào ta tiến hành phân tích Tukey.
> res<-aov(thuyphan~enzyme)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = thuyphan ~ enzyme)
Kết luận:Ta chọn loại enzyme A,C vì 2 loại này có khả năng thủy phân giống nhau
và khả năng thủy phân cao
> xbar <- tapply(thuyphan, enzyme, mean)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
7
Trang 8Tukey multiple comparisons of means
95% family-wise confidence level
Trang 9Fit: aov(formula = t.no ~ n.do)
Kết luận:Ta thấy ở nồng độ 0.3 giống ở 0.1 và 0.5 nhưng khả năng trương nở lại cao
hơn ở 0.1 đồng thời nồng độ phụ gia nhiều sẽ không tốt nên hạn chế nồng độ do đó ta chọn nồng độ 0.3% phụ gia để thêm vào trong quá trình sản xuất
> xbar <- tapply(t.no, n.do, mean)
> s <- tapply(t.no, n.do, sd)
> n <- tapply(t.no, n.do, length)
> sem <- s/sqrt(n)
> stripchart(t.no ~ n.do,ylim=range(0:81),sub="khả năng trương nở của
bánh",xlab="nong do", pch=16, vert=TRUE)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type="b", cex=2)
9
Trang 10Bài 14:
>
izozym<-c(3.45,3.58,3.59,3.62,3.59,3.57,3.21,2.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,2.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,2.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.57,3.59,3.58,3.67,3.69,3.74,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,7.74,3.58,3.68,3.59,3.58,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.74,3.58,3.68)
> loaimau<-rep(1:2,c(32,34))
> loaimau<-as.factor(loaimau)
>
izozym<-c(3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.57,3.59,3.58,3.67,3.69,3.74,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.58,3.68,3.59,3.58,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.74,3.58,3.68)
Trang 11Wilcoxon rank sum test with continuity correction
data: izozym by loaimau
W = 187, p-value = 4.112e-06
alternative hypothesis: true location shift is not equal to 0
Warning message:
In wilcox.test.default(x = c(3.45, 3.58, 3.59, 3.62, 3.59, 3.57, :
cannot compute exact p-value with ties
Kết luận:p-value<0.05 nên sự khác biệt giữa hàm lượng izozym trong 2 nhóm có ý
Trang 13W = 0.9556, p-value = 0.5512
# vì p-value = 0.0001137< 0.05 nên saponin không thuộc phân phối chuẩn.
# giả sử saponin thuộc phân phối chuẩn.ta có
> analysis <- lm(saponin ~ loaimau)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = saponin ~ loaimau)
Kết luận: Ta thấy p-value của hàm anova >0.05 nên sự khác biệt dữ liệu của hàm
lượng saponin không có ý nghĩa thống kê nên hàm lương saponin ở 3 vùng là như
nhau.Ta có thể trồng sâm ở cả 3 vùng đều đem tới hàm lượng saponin giống nhau.
> xbar <- tapply(saponin, group, mean)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type="b", cex=2)
13
Trang 14+Pr>0.05 nên sự khác biệt giữa các tiêu chí không có ý nghĩa thống kê.
Kết luận:Chọn tiêu chí nào để đánh giá mức độ yêu thích của người tiêu dùng cũng
như nhau
Trang 15> xbar <- tapply(yeuthich, tieuchi, mean)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
Kết luận:p-value=0.02816<0.05 nên sự khác nhau về sự hài lòng của khách hàng về
2 sản phẩm A,B có ý nghĩa thống kê Dựa vào dữ liệu ta chọn sản phẩm A
> barplot(mdat,sub="so sánh sự hài lòng của khách hàng",xlab="sản phẩm",ylab="sự hài lòng")
15
Trang 16# ta thấy p <0.05 số liệu thihieu không tuân theo quy luật phân phối chuẩn
#giả sử số liệu thihieu thuộc phân phối chuẩn ta làm tiếp
Tukey multiple comparisons of means
95% family-wise confidence level
Trang 17Fit: aov(formula = thihieu ~ sp)
Kết luận:Vì sự khác biệt của 2 sản phẩm có ý nghĩa thống kê do dó điểm của sản
phẩm cải tiến lớn hơn nên sản phẩm cải tiến sẽ ngon hơn ta nên tung sản phẩm cảitiến ra thị trường
> xbar <- tapply(thihieu, sp, mean)
> arrows(1:2, xbar+sem, 1:2, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:2, xbar, pch=4, type="b", cex=2)
17
Trang 18Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = kqua)
Trang 19Kết luận:Ta thấy ở thời gian 85 có hiệu suất trích ly giống ở 100,115 và cao hơn ở
55,70 Bên cạnh đó thì còn yêu cầu trong thời gian ngắn nên ở mốc thời gian 85 là hợp lý và tốt nhất
Ta chọn mốc thời gian 85 phút để trích ly các dưỡng chất từ nấm mèo
> xbar <- tapply(hs, group, mean)
> arrows(1:5, xbar+sem, 1:5, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:5, xbar, pch=4, type="b", cex=2)
19
Trang 20# vì p > 0.05 nên dữ liệu nangsuat tuân theo phân phối chuẩn
# ta tiến hành phân tích phương sai
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = nangsuat ~ giong)
Trang 21Kết luận:Năng suất của mỗi giống lúa khác nhau là do phẩm giống của chúng.
Nhóm 1-2 sự khác nhau không có ý nghĩa thống kê nên tức là năng suất như nhaunên ta chọn cả nhóm G1 và G2 và 1,2 -3,4 sự khác biệt có ý nghĩa thống kê mặc khácnăng suất nhóm 1,2 cao hơn nên giống G1 và G2 được phổ biến rộng rãi trong sảnxuất
> xbar <- tapply(nangsuat, giong, mean)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
21
Trang 22Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = k.luong ~ a.sang + n.do)
Trang 23Nhận xét:
+p-value=0.3716>0.05 nên dữ liệu k.luong tuân theo phân phối chuẩn
+Pr<0.05 nên sự khác biệt giữa các chế độ ánh sáng và chế độ nhiệt có ý nghĩa thống kê
Ta có bảng giá trị trung bình khối lượng ảnh hưởng bởi chế độ ánh sáng và chế độ nhiệt như sau:
Trang 24Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = h.luong ~ n.do)
+Pr<0.05 nên sự khác biệt giữa các nồng độ có ý nghĩa thống kê
Ta có bảng giá trị trung bình hàm lượng vitamin theo nồng độ chế phẩm như sau:
Bảng giá trị thống kê 9
Nồng độ chế phẩm
(%v/w)
Hàm lượng vitamin C(mg/g)Tính theo chất khô
Trang 25Kết luận:Chọn nồng độ chế phẩm là 0.15%v/w để tăng hàm lượng vitamin C.
> xbar <- tapply(h.luong, n.do, mean)
> arrows(1:7, xbar+sem, 1:7, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:7, xbar, pch=4, type="b", cex=2)
Bài 24:
> mdat <- matrix(c(245,145,367,170,270,48), nrow = 2, ncol=3,
byrow=TRUE,dimnames = list(c("tăng 6-8kg/tháng", "tăng 3-5kg/tháng"),c("thực đơn1", "thực đơn 2", "thực đơn 3")))
> mdat
thực don 1 thực don 2 thực don 3
25
Trang 26X-squared = 249.9598, df = 2, p-value < 2.2e-16
> # vì trị số p-value< 0.05 nên sự khác biệt giữa ba loại thực đơn có ý nghĩa thống kê.
Kết luận:Vì sự khác biệt của ba loại thực đơn có ý nghĩa thống kê cho nên ta chọn
thực đơn 3 với số bệnh nhân tăng trọng nhiều nhất và cao nhất
> barplot(mdat,sub="thiết kế thực đơn cho bệnh nhân",xlab="thực đơn",ylab="mức tăng trọng lượng")
Trang 27data: mdat
X-squared = 97.153, df = 6, p-value < 2.2e-16
Kết luận:Ta thấy p-value <0.05 nên mdat có ý nghĩa thống kê.Chọn phụ gia B vì có
> # vì trị số p-value = 0.03695< 0.05 nên không thuộc phân phối chuẩn
> # giả sử hlphenol thuộc phân phối chuẩn.ta có
27
Trang 28Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hlphenol ~ tgian)
Trang 29Kết luận:Ta chọn thời gian 3 vì 3 khác 1 và cao hơn 1.bên cạnh đó 3 giống 4,5,6,7 về
hàm lượng phenol nhưng thời gian ngắn hơn Vì vậy ta chọn thời gian 0.1 phút
> xbar <- tapply(hlphenol, tgian, mean)
> arrows(1:7, xbar+sem, 1:7, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:7, xbar, pch=4, type="b", cex=2)
29
Trang 30Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ nhietdo + tg + nhietdo)
Trang 31Về thời gian
Sự khác biệt của nhóm 85,100,115, không có ý nghĩa thống kê nhưng so với hai nhóm
55 và 70 thì có ý nghĩa thống kê với mức ý nghĩa 5%
Trung bình hiệu suất của nhóm thời gian 115 là lớn nhất mà nhóm 100 và 85 khôngkhác biệt so với nhóm 115 nên ta chọn 3 nhóm này là như nhau
Trang 32Thời gian càng dài thì hiệu suất trích ly càng nhiều ở 85 phút thời gian ngắn nhất màhiệu suất trích ly như nhau nên ta chọn thời gian là 85 phút.
Vậy chúng ta chọn nhiệt độ là 80 và thời gian 85 phút
Bài 28:
> mdat <- matrix(c(40,170,90,50,180,120,60,150,80), nrow = 3, ncol=3,
byrow=TRUE,dimnames = list(c("A", "B","C"),c("xau", "trung binh", "tot")))
Kết luận: p-value=0.05204>0.05 nên sự khác biệt về chất lượng cây trồng trên 3 loại
đất A,B,C không có ý nghĩa thống kê Tức là chất lượng cây trồng trên 3 loại đất là như nhau
> barplot(mdat,sub="sự phụ thuộc của cây vào loại đất",xlab="chất lượng cây")
sự phụ thuộc của cây vào loại dất
Trang 33#p-value <0.05 nên dữ liệu vitamin không tuân theo phân phối chuẩn
giả định dữ liệu tuân theo phân phối chuẩn
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = vitamin ~ c.suat)
Trang 34Kết luận:Ta chọn công suất 3 vì 3 khác 1,2,4 và thu được hàm lượng cao và 3 giống
5,6 và có hàm lượng cao nhưng 3 có công suất thấp hơn nên tiết kiệm hơn Vậy ta sử dụng công suất siêu âm là 188 để tăng hiệu suất chiết vitamin C
> xbar <- tapply(vitamin, c.suat, mean)
> arrows(1:6, xbar+sem, 1:6, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:6, xbar, pch=4, type="b", cex=2)
Trang 36Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = sanluong ~ giong)
+p-value>0.05 nên số liệu sanluong thuộc phân phối chuẩn
+Pr(giong)<0.05 nên sự khác biệt giữa các giống có ý nghĩa thống kê
Pr(lodat)>0.05 nên sự khác biệt giữa các lô đất không có ý nghĩa thống kê
+ Ta có bảng giá trị trung bình sản lượng của các giống như sau:
Chọn giống 1,2 hoặc 3 đều được năng suất thu hoạch cao như nhau
> xbar <- tapply(sanluong, giong, mean)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
Trang 37Bài 31:
> mdat <- matrix(c(8,192,92,708), nrow = 2, ncol=2, byrow=TRUE,dimnames =
list(c("Sau thay doi", "Truoc thay doi"),c("Phe pham","Chinh pham")))
> mdat
Phe pham Chinh pham
Sau thay doi 8 192
Truoc thay doi 92 708
p-value=0.002441<0.05 nên sự khác biệt sau khi thay đổi công nghệ có ý nghĩa thống
kê Tức là nên thay đổi công nghệ
> barplot(mdat,main=" Biểu đồ hiệu quả trước và sau khi thay đổi công nghệ")
37
Trang 38Phe pham Chinh pham
Biểu dồ hiệu quả truớc và sau khi thay dổi công nghệ
> xucxich=data.frame(chedo,may,thoigianxay)
> attach(xucxich)
The following object(s) are masked _by_ '.GlobalEnv':
chedo, may, thoigianxay
Trang 39Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = tgian ~ chedo)
+p-value>0.05 nên số liệu tgian thuộc phân phối chuẩn
+Pr(may)>0.05 nên sự khác biệt giữa các máy không có ý nghĩa thống kê
Pr (chedo)<0.05 nên sự khác biệt giữa các chế độ có ý nghĩa thống kê
+ Ta có bảng giá trị trung bình thời gian xay theo chế độ như sau:
Trang 40> xbar <- tapply(tgian, chedo, mean)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
Trang 41Analysis of Variance Table
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = loai.tra ~ group)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
41
Trang 43-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#Qua số liệu phân tích ta thấy Pr < 0.05 nên sự khác biệt của dữ liệu pt có ý nghĩa thống kê giữa các nhóm Để biết khác nhau như thế nào ta tiến hành phân tích TukeyHSD
> res<-aov(hieusuat~tacnhan)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ tacnhan)
Qua bảng thống kê ta thấy giá trị trung bình của nhóm 3 có giá trị trung bình cao nhất
và nhóm 3 khác nhóm 1,2 nên ta chọn phương pháp kết hợp giữa enzyme và sóng siêuâm
> xbar <- tapply(hieusuat, tacnhan, mean)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.2)
> lines(1:3, xbar, pch=4, type="b", cex=2)
43
Trang 44Kết luận:Vì trị số p-value = 0.0009119< 0.05 nên sự khác biệt về tỷ lệ nẩy mầm của
hạt malt giữa ba loại giống có ý nghĩa thống kê Do đó mức độ nảy mầm của các giống không giống nhau
> barplot(mdat,sub="tỷ lệ nẩy mầm của hạt malt giữa ba loại
giống",xlab="giống",ylab="tỷ lệ nẩy mầm")
Trang 45lúa mì lúa nếp dại mạch
tỷ lệ nẩy mầm của hạt malt giữa ba loại giống
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = nangsuat ~ giong)
45
Trang 46+Pr<0.05 nên sự khác biệt giữa các giống có ý nghĩa thống kê.
Ta có bảng giá trị trung bình năng suất theo giống như sau:
Dựa vào bảng thống kê ta thấy giữa các giống 2,5 và 3 sự khác nhau có ý nghĩa thống
kê Mặc khác,giống 3 có năng suất trung bình cao hơn các nhóm còn lại.Vậy chọn giống số 3 để thu được năng suất cao nhất
> xbar <- tapply(nangsuat, giong, mean)
> arrows(1:5, xbar+sem, 1:5, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:5, xbar, pch=4, type="b", cex=2)