Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
372,14 KB
Nội dung
11 Phân tích phương sai (Analysis of variance) Phân tích phương sai, tên gọi, số phương pháp phân tích thống kê mà trọng điểm phương sai (thay số trung bình) Phương pháp phân tích phương sai nằm “đại gia đình” phương pháp có tên mơ hình tuyến tính (hay general linear models), bao gồm hồi qui tuyến tính mà gặp chương trước Trong chương này, làm quen với cách sử dụng R phân tích phương sai Chúng ta bắt đầu phân tích đơn giản, sau xem đến phân tích phương sai hai chiều, phương pháp phi tham số thơng dụng 11.1 Phân tích phương sai đơn giản (one-way analysis of variance - ANOVA) Ví dụ Bảng thống kê 11.1 so sánh độ galactose nhóm bệnh nhân: nhóm gồm bệnh nhân với bệnh Crohn; nhóm gồm 11 bệnh nhân với bệnh viêm ruột kết (colitis); nhóm gồm 20 đối tượng khơng có bệnh (gọi nhóm đối chứng) Câu hỏi đặt độ galactose nhóm bệnh nhân có khác hay khơng? Gọi giá trị trung bình ba nhóm µ1, µ2, µ3, nói theo ngơn ngữ kiểm định giả thiết giả thiết đảo là: Ho: µ1 = µ2 = µ3 Và giả thiết là: HA: có khác biệt µj (j=1,2,3) Bảng 11.1 Độ galactose cho nhóm bệnh nhân Crohn, viêm ruột kết đối chứng Nhóm 1: bệnh Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890 n=9 Trung bình: 1910 SD: 516 Nhóm 2: bệnh viêm ruột kết 1264 1314 1399 1605 2385 2511 2514 2767 2827 2895 3011 n=11 Trung bình: 2226 SD: 727 Nhóm 3: đối chứng (control) 1809 2850 1926 2964 2283 2973 2384 3171 2447 3257 2479 3271 2495 3288 2525 3358 2541 3643 2769 3657 n=20 Trung bình: 2804 SD: 527 173 Chú thích: SD độ lệch chuẩn (standard deviation) Mới xem qua vấn đề, có lẽ bạn đọc nghĩ cần làm so sánh (bằng phương pháp kiểm định t): nhóm 2, nhóm 3, nhóm Nhưng cách làm khơng hợp lí, có ba phương sai khác Cách thích hợp để so sánh phân tích phương sai Phân tích phương sai ứng dụng để so sánh nhiều nhóm lúc (simultaneous comparisons) 11.1.1 Mơ hình phân tích phương sai Để minh họa cho phương pháp phân tích phương sai, phải dùng kí hiệu Gọi độ galactose bệnh nhân i thuộc nhóm j (j = 1, 2, 3) xij Mơ hình phân tích phương sai phát biểu rằng: xij = µ + α i + ε ij [1] Hay cụ thể hơn: xi1 = µ + α1 + εi1 xi2 = µ + α2 + εi2 xi3 = µ + α3 + εi3 Tức là, giá trị galactose bệnh nhân giá trị trung bình tồn quần thể (µ) cộng/trừ cho ảnh hưởng nhóm j đo hệ số ảnh hưởng α i , sai số ε ij Một giả định khác ε ij phải tuân theo luật phân phối chuẩn với trung bình phương sai σ2 Hai thơng số cần ước tính µ α i Cũng phân tích hồi qui tuyến tính, hai thơng số ước tính phương pháp bình phương nhỏ nhất; tức tìm ước số µˆ αˆ j cho ∑( x ij − µˆ − αˆ j ) nhỏ Quay lại với số liệu nghiên cứu trên, có tóm tắt thống kê sau: Nhóm Số đối tượng (nj) n1 = – Crohn Trung bình Phương sai s12 = 265944 x1 = 1910 – Viêm ruột kết n2 = 11 x2 = 2226 s22 = 473387 – Đối chứng n3 = 20 x3 = 2804 s32 = 277500 Tồn bơ mẫu n = 40 x = 2444 ( ) ( Chú ý: xij = x + x j − x + xij − x j 174 ) [2] Trong đó, x số trung bình tồn mẫu, x j số trung bình nhóm j ( Nói cách khác, phần x j − x ) phản ánh độ khác biệt (hay gọi ( hiệu số) trung bình nhóm trung bình tồn mẫu, phần xij − x j ) phản ánh hiệu số galactose đối tượng số trung bình nhóm Theo đó, có nguồn dao động sau: • Tổng bình phương cho tồn mẫu là: SST = ∑∑ ( xij − x ) i j = (1343–2444)2 + (1393–2444)2 + (1343 – 2444)2 + … + (3657– 2444)2 • = 12133923 Tổng bình phương phản ánh độ khác nhóm: SSB = ∑∑ ( xi − x ) = i j ∑n ( x j j j − x) 2 = 9(1910 – 2444) + 11(2226 – 2444)2 + 20(2804 – 2444)2 • = 5681168 Tổng bình phương phản ánh độ dao động nhóm: SSW = ∑∑ ( xij − x j ) = i j ∑( n j j − 1) s 2j = (9-1)(265944) + (11-1)(473387) + (20-1)(277500) = 12133922 Có thể chứng minh rằng: SST = SSB + SSW SSW tính từ bệnh nhân cho nhóm, trung bình bình phương cho nhóm (mean square – MSW) là: MSW = SSW / (N – k) = 12133922 / (40-3) = 327944 trung bình bình phương nhóm là: MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810 Trong N tổng số bệnh nhân (N = 40) ba nhóm, k = số nhóm bệnh nhân Nếu có khác biệt nhóm, kì vọng MSB lớn MSW Thành ra, để kiểm tra giả thiết, dựa vào kiểm định F: 175 F = MSB / MSW = 8.67 [3] Với bậc tự k-1 N-k Các số liệu tính tốn trình bày bảng phân tích phương sai (ANOVA table) sau: Nguồn biến thiên (source of variation) Bậc tự (degrees of freedom) Tổng bình phương (sum of squares) Khác biệt nhóm (between-group) Khác biệt nhóm (with-group) Tổng số 5681168 Trung bình bình phương (mean square) 2841810 37 12133923 327944 39 12133923 Kiểm định F 8.6655 11.1.2 Phân tích phương sai đơn giản với R Tất tính tốn tương đối phức tạp, tốn nhiều thời gian Tuy nhiên với R, tính tốn làm vịng giây, sau liệu chuẩn bị cách (a) Nhập liệu Trước hết, cần phải nhập liệu vào R Bước thứ báo cho R biết có ba nhóm bệnh nhân (1, 3), nhóm gồm người, nhóm có 11 người, nhóm có 20 người: > group group galactose data attach(data) Sau có liệu sẵn sàng, dùng hàm lm() để phân tích phương sai sau: > analysis anova(analysis) Analysis of Variance Table Response: galactose Df Sum Sq Mean Sq F value Pr(>F) group 5683620 2841810 8.6655 0.0008191 *** Residuals 37 12133923 327944 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Trong kết trên, có ba cột: Df (degrees of freedom) bậc tự do; Sum Sq tổng bình phương (sum of squares), Mean Sq trung bình bình phương (mean square); F value giá trị F định nghĩa [3] vừa đề cập phần trên; Pr(>F) trị số P liên quan đến kiểm định F Dòng group kết có nghĩa bình phương nhóm (between-groups) residual bình phương nhóm (withingroup) Ở đây, có: SSB = 5683620 MSB = 2841810 và: MSB = 2841810 MSB = 327944 Như vậy, F = 2841810 / 327944 = 8.6655 Trị số p = 0.00082 có nghĩa tín hiệu cho thấy có khác biệt độ galactose ba nhóm (c) Ước số Để biết thêm chi tiết kết phân tích, dùng lệnh summary sau: > summary(analysis) Call: 177 lm(formula = galactose ~ group) Residuals: Min 1Q Median 3Q Max -995.5 -437.9 102.0 456.0 979.8 Coefficients: Estimate Std Error t value (Intercept) 1910.2 190.9 10.007 group2 316.3 257.4 1.229 group3 894.3 229.9 3.891 - Pr(>|t|) 4.5e-12 *** 0.226850 0.000402 *** Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Residual standard error: 572.7 on 37 degrees of freedom Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822 F-statistic: 8.666 on and 37 DF, p-value: 0.0008191 Theo kết đây, intercept µˆ mơ hình [1] Nói cách khác, µˆ = 1910 sai số chuẩn 190.9 Để ước tính thơng số αˆ j , R đặt αˆ1 =0, αˆ = αˆ − αˆ1 = 316.3, với sai số chuẩn 257, kiểm định t = 316.3 / 257 = 1.229 với trị số p = 0.2268 Nói cách khác, so với nhóm (bệnh nhân Crohn), bệnh nhân viêm ruột kết có độ galactose trung bình cao 257, độ khác biệt khơng có ý nghĩa thống kê Tương tự, αˆ = αˆ − αˆ1 = 894.3, với sai số chuẩn 229.9, kiểm định t=894.3/229.9=3.89, trị số p = 0.00040 So với bệnh nhân Crohn, nhóm đối chứng có độ galactose cao 894, mức độ khác biệt có ý nghĩa thống kê 11.2 So sánh nhiều nhóm (multiple comparisons) điều chỉnh trị số p Cho k nhóm, có k(k-1)/2 so sánh Ví dụ có nhóm, tổng số so sánh (giữa nhóm 2, nhóm 3, nhóm 3) Khi k=10, số lần so sánh lên cao Như đề cập chương 7, có nhiều so sánh, trị số p tính tốn từ kiểm định thống kê khơng cịn ý nghĩa ban đầu nữa, kiểm định cho kết dương tính giả (tức kết với p 10, phương pháp Bonferroni trở nên “bảo thủ” Bảo thủ có nghĩa phương pháp tuyên bố so sánh có ý nghĩa thống kê, dù thực tế có thật! Trong trường hợp này, hai phương pháp Tukey, Holm Scheffé áp dụng Ở đây, khơng bàn đến lí thuyết đằng sau phương pháp (vì bạn đọc tham khảo sách giáo khoa thống kê), cách sử dụng R để tiến hành so sánh theo phương pháp Tukey Quay lại ví dụ trên, trị số p trị số chưa điều chỉnh cho so sánh nhiều lần Trong chương trị số p, nói trị số phóng đại ý nghĩa thống kê, không phản ánh trị số p lúc ban đầu (tức 0.05) Để điều chỉnh cho nhiều so sánh, phải sử dụng đến phương pháp điều chỉnh Bonferroni Chúng ta dùng lệnh pairwise.t.test để có tất trị số p so sánh ba nhóm sau: > pairwise.t.test(galactose, group, p.adj="bonferroni") Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.6805 0.0012 0.0321 P value adjustment method: bonferroni Kết cho thấy trị số p nhóm (Crohn) viêm ruột kết 0.6805 (tức khơng có ý nghĩa thống kê); nhóm Crohn đối chứng 0.0012 (có ý nghĩa thống kê), nhóm viêm ruột kết đối chứng 0.0321 (tức có ý nghĩa thống kê) 179 Một phương pháp điều chỉnh trị số p khác có tên phương pháp Holm: > pairwise.t.test(galactose, group) Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.2268 0.0012 0.0214 P value adjustment method: holm Kết không khác so với phương pháp Bonferroni Tất phương pháp so sánh sử dụng sai số chuẩn chung cho ba nhóm Nếu muốn sử dụng cho nhóm lệnh sau (pool.sd=F) đáp ứng yêu cầu đó: > pairwise.t.test(galactose, group, pool.sd=FALSE) Pairwise comparisons using t tests with non-pooled SD data: galactose and group 2 0.2557 0.0017 0.0544 P value adjustment method: holm Một lần nữa, kết không làm thay đổi kết luận 11.2.1 So sánh nhiều nhóm phương pháp Tukey Trong phương pháp trên, biết trị số p so sánh nhóm, khơng biết mức độ khác biệt khoảng tin cậy 95% nhóm Để có ước số này, cần đến hàm khác có tên aov (viết tắt từ analysis of variance) hàm TukeyHSD (HSD viết tắt từ Honest Significant Difference, tạm dịch “Khác biệt có ý nghĩa thành thật”) sau: > res TukeyHSD (res) Tukey multiple comparisons of means 95% family-wise confidence level 180 Fit: aov(formula = galactose ~ group) $group diff lwr upr 2-1 316.3232 -312.09857 944.745 3-1 894.2778 333.07916 1455.476 3-2 577.9545 53.11886 1102.790 p adj 0.4439821 0.0011445 0.0281768 Kết cho thấy nhóm khác khoảng 894 đơn vị, khoảng tin cậy 95% từ 333 đến 1455 đơn vị Tương tự, galactose nhóm bệnh nhân viêm ruột kết thấp nhóm đối chứng (nhóm 3) khoảng 578 đơn vị, khoảng tin cậy 95% từ 53 đến 1103 3-2 3-1 2-1 95% family-wise confidence level 500 1000 1500 Differences in mean levels of group Biểu đồ 11.1 Trung bình hiệu khoảng tin cậy 95% nhóm 2, 3, và Trục hoành độ galactose, trục tung ba so sánh 11.2.2 Phân tích biểu đồ Một phân tích thống kê khơng thể hồn tất khơng có đồ thị minh họa cho kết Các lệnh sau vẽ đồ thị thể độ galactose trung bình sai số chuẩn cho nhóm bệnh nhân Biểu đồ cho thấy, nhóm bệnh nhân Crohn có độ galactose thấp (nhưng khơng thấp nhóm viêm ruột kết), hai nhóm thấp nhóm đối chứng sứ khác biệt có ý nghĩa thống kê > xbar s n sem stripchart(galactose ~ group, “jitter”, jit=0.05, pch=16, vert=TRUE) > arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1) > lines(1:3, xbar, pch=4, type=”b”, cex=2) Biểu đồ 11.2 Độ galactose nhóm (bệnh nhân Crohn), nhóm (bệnh nhân viêm ruột kết), nhóm (đối chứng) 11.3 Phân tích phương pháp phi tham số Phương pháp so sánh nhiều nhóm phi tham số (non-parametric statistics) tương đương với phương pháp phân tích phương sai KruskalWallis Cũng phương pháp Wilcoxon so sánh hai nhóm theo phương pháp phi tham số, phương pháp Kruskal-Wallis biến đổi số liệu thành thứ bậc (ranks) phân tích độ khác biệt thứ bậc nhóm Hàm kruskal.test R giúp kiểm định này: > kruskal.test(galactose ~ group) Kruskal-Wallis rank sum test data: galactose by group Kruskal-Wallis chi-squared = 12.1381, df = 2, p-value = 0.002313 Trị số p từ kiểm định thấp (p = 0.002313) cho thấy có khác biệt ba nhóm phân tích phương sai qua hàm lm Tuy nhiên, 182 4, 2, 1, 3, 3, 4, 2, 1) > method data data sample variety method y 1 1 175 2 143 3 128 4 166 2 170 2 178 3 140 4 131 135 10 2 173 11 3 169 12 141 13 145 14 4 136 15 165 16 4 173 Bây sẵn sàng dùng hàm lm hay aov để phân tích số liệu Ở sử dụng hàm aov để tính nguồn biến thiên (kết tính tốn chứa đối tượng latin): > latin summary(latin) Df Sum Sq Mean Sq F value Pr(>F) sample 8.5 2.8 2.2667 0.1810039 variety 123.5 41.2 32.9333 0.0004016 *** method 4801.5 1600.5 1280.4000 8.293e-09 *** Residuals 7.5 1.3 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Tất kết (dĩ nhiên) kết mà tóm tắt bảng phân tích phương sai cách “thủ cơng” Tuy nhiên, R cung cấp cho trị số p (trong Pr > F) để suy luận thống kê Và, qua trị số p, phát biểu mẫu ruộng khơng có ảnh 205 hưởng đến sản lượng, loại giống phương pháp canh tác có ảnh hưởng đến sản lượng Để biết mức độ khác biệt phương pháp canh tác loại giống, dùng hàm TukeyHSD sau: > TukeyHSD(latin) $variety diff lwr 2-1 1.25 -1.4867231 3-1 -5.75 -8.4867231 4-1 -3.50 -6.2367231 3-2 -7.00 -9.7367231 4-2 -4.75 -7.4867231 4-3 2.25 -0.4867231 $method diff 2-1 -5.25 3-1 -31.50 4-1 -41.25 3-2 -26.25 4-2 -36.00 4-3 -9.75 upr 3.9867231 -3.0132769 -0.7632769 -4.2632769 -2.0132769 4.9867231 lwr -7.986723 -34.236723 -43.986723 -28.986723 -38.736723 -12.486723 p adj 0.4528549 0.0014152 0.0173206 0.0004803 0.0038827 0.1034761 upr -2.513277 -28.763277 -38.513277 -23.513277 -33.263277 -7.013277 p adj 0.0023016 0.0000001 0.0000000 0.0000004 0.0000000 0.0000730 So sánh loại giống cho thấy có khác biệt giống 1, 1, 2, Tất so sánh phương pháp canh tác có ý nghĩa thống kê Nhưng loại có sản lượng cao nhất? Để trả lời câu hỏi này, sử dụng biểu đồ hộp: > boxplot(y ~ method, xlab="Methods (1=Aa, 2=Ab, 3=Ba, 4=Bb", ylab=”Production") 206 180 170 160 Production 150 140 130 Methods (1=Aa, 2=Ab, 3=Ba, 4=Bb Biểu đồ so sánh sản lượng bốn phương pháp canh tác 11.8 Phân tích phương sai cho thí nghiệm giao chéo (cross-over experiment) Ví dụ Để thử nghiệm hiệu ứng thuốc chứng mồ hôi (thuốc bào chế để chữa trị bệnh tim, mồ hồi ảnh hưởng phụ), nhà nghiên cứu tiến hành nghiên cứu 16 bệnh nhân Số bệnh nhân chia thành nhóm (tạm gọi nhóm AB BA) cách ngẫu nhiên Mỗi nhóm gồm bệnh nhân Bệnh nhân theo dõi hai lần: tháng thứ tháng thứ Đối với bệnh nhân nhóm AB, tháng thứ họ điều trị thuốc, tháng thứ hai họ cho sử dụng giả dược (placebo) Ngược lại, với bệnh nhân nhóm BA, tháng thứ sử dụng giả dược, tháng thứ hai điều trị thuốc Tiêu chí để đánh giá thời gian mồ trán (tính từ lúc uống thuốc đến mồ hôi) sau sử dụng thuốc hay giả dược Kết nghiên cứu trình bày bảng số liệu sau đây: Bảng 11.7 Kết nghiên cứu hiệu ứng mồ hôi thuốc điều trị bệnh tim Nhóm Mã số bệnh nhân số (id) AB 10 13 Thời gian (phút) mồ hôi trán Tháng Tháng A Placebo 12 10 11 207 15 BA 11 12 14 16 Placebo 9 A 11 13 Câu hỏi có khác biệt thời gian mồ hai nhóm điều trị thuốc giả dược hay không? Để trả lời câu hỏi trên, cần tiến hành phân tích phương sai Nhưng cách thiết kế nghiên cứu đặc biệt (hai nhóm bệnh nhân với cách xếp can thiệp theo hai thứ tự khác nhau), nên phương pháp phân tích khơng thể áp dụng Có phương pháp thơng dụng phân tích phương sai nhóm, sau so sánh hai nhóm Một vấn đề cần phải lưu ý khả hiệu ứng kéo dài (còn gọi carry-over effect), tức nhóm AB, hiệu tháng thứ chịu ảnh hưởng kéo dài từ tháng thứ bệnh được điều trị thuốc thật Trước hết, thử tóm lược liệu bảng sau đây: Bảng 11.8 Tóm lược kết thí nghiệm hiệu ứng mồ thuốc điều trị bệnh tim Nhóm Mã số bệnh nhân số (id) AB 10 13 15 Trung bình BA 208 Thời gian (phút) mồ hôi trán Tháng Tháng A Placebo 12 10 11 8 8.375 6.625 Placebo A 11 Trung bình cho bệnh nhân 5.0 7.5 9.0 7.5 9.5 5.0 8.5 8.0 7.50 6.0 7.5 9.0 11 12 14 16 13 Trung bình 7.000 8.125 Trung bình cho nhóm 7.6875 7.3750 Trung bình cho nhóm A = (8.375 + 8.125) / = 8.25 Trung bình cho nhóm P (giả dược) = (6.625 + 7.000) / = 6.8125 5.5 8.5 4.5 8.5 11.0 7.5625 7.5312 Qua bảng tóm lược trên, tính tốn số tổng bình phương: • Tổng bình phương khác biệt hai nhóm điều trị thuốc giả dược: SSTreat = 16(8.25 – 7.5312)2 + 16(8.8125 – 7.5312)2 = 16.53 • Tổng bình phương khác biệt tháng tháng 2: SSPeriod = 16(7.6875 – 7.5312)2 + 16(7.3750 – 7.5312)2 = 0.781 • Tổng bình phương khác biệt hai nhóm AB BA (thứ tự): SSseq = 16(7.50 – 7.5312)2 + 16(7.5625 – 7.5312)2 = 0.031 • Tổng bình phương khác biệt bệnh nhân nhóm AB hay BA: SSw = (5.0 – 7.50)2 + (7.5 – 7.50)2 + (9.0 – 7.50)2 + … + (8.0 – 7.50)2 + (6.0 –7.5625)2 + (7.5 – 7.5625)2 + (9.0 – 7.5625)2 + … + (11.0 – 7.5625)2 = 103.44 • Tổng bình phương cho toàn mẫu: SStotal = (6 – 7.5312)2 + (9 – 7.5312)2 + … + (13 – 7.5312)2 + (9 – 7.5312)2 = 167.97 • Tổng bình phương cịn lại (tức phần dư): SSres = 167.97 – 16.53 – 0.781 – 0.031 – 103.44 = 47.19 Đến đây, lập bảng phân tích phương sai sau: 209 Bảng 11.9 Kết phân tích phương sai số liệu bảng 11.7 Nguồn biến thiên Giữa hai nhóm điều trị Giữa hai tháng Giữa AB BA Trong nhóm Phần dư (residual) Tổng số Bậc tự (degrees of freedom) Tổng bình phương (Sum of squares) 1 14 14 31 16.53 0.781 0.031 103.44 47.19 167.97 Trung bình bình phương (Mean square) 16.53 0.781 0.031 7.39 3.37 Kiểm định F 4.90 0.23 0.004 Qua phân tích trên, thấy độ khác biệt thuốc giả dược lớn độ khác biệt hai tháng hay hai nhóm AB BA Kiểm định F để thử nghiệm giả thiết thuốc giả dược có hiệu kiểm định F = 16.53 / 3.37 = 4.90 với bậc tự 14 Dựa lí thuyết xác suất, trị số F với bậc tự 14 4.60 Do đó, kết luận thuốc có hiệu ứng làm mồ lâu nhóm giả dược Tất tính tốn “thủ cơng” minh họa cho cách phân tích phương sai thí nghiệm giao chéo Trong thực tế, sử dụng R để tiến hành tính tốn cách tính phương sai cho thí nghiệm đơn giản Vấn đề tổ chức số liệu cho phân tích R (cũng nhiều phần mềm khác) yêu cầu người sử dụng phải nhập số liệu một, số liệu phải gắn liền với bệnh nhân, nhóm điều trị, tháng (hay giai đoạn), nhóm thứ tự Đó yêu cầu quan trọng, tổ chức số liệu khơng đúng, kết phân tích sai Phần sau mô tả bước một: # bước 1: nhập liệu đặt tên object y > y seq seq period period treat treat id id data data seq period treat id y 1 1 1 1 12 1 1 9 1 10 1 13 11 1 15 211 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 1 1 1 1 2 2 2 2 10 13 15 11 12 14 16 11 12 14 16 10 11 13 9 Bây sẵn sàng dùng hàm lm R để phân tích số liệu Chú ý cách dùng hàm lm cho phân tích phương sai áp dụng cho thí nghiệm giao chéo hồn tồn khơng khác với cách dùng cho thí nghiệm khác Khía cạnh khác biệt cách tổ chức liệu cho phân tích trình bày > xover anova(xover) Analysis of Variance Table Response: y Df treat seq period id 14 Residuals 14 - Sum Sq Mean Sq F value Pr(>F) 16.531 16.531 4.9046 0.04388 * 0.031 0.031 0.0093 0.92466 0.781 0.781 0.2318 0.63764 103.438 7.388 2.1921 0.07711 47.187 3.371 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 212 Kết phân tích dĩ nhiên giống với cách tính thủ công mà tiến hành phần Nói tóm lại, mức độ khác biệt thuốc giả duợc có ý nghĩa thống kê, với trị số F 0.044 Chúng ta yêu cầu khoảng tin cậy 95% cho độ khác biệt hai nhóm (bằng cách lệnh TukeyHSD) sau (chú ý với TukeyHSD sử dụng hàm aov lm): > TukeyHSD(aov(y ~ treat+seq+period+id)) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = y ~ treat + seq + period + id) $treat diff lwr upr p adj 2-1 -1.4375 -2.829658 -0.04534186 0.0438783 $seq diff lwr upr p adj 2-1 0.0625 -1.329658 1.454658 0.924656 $period diff lwr upr p adj 2-1 -0.3125 -1.704658 1.079658 0.6376395 Chú ý kết quả: $treat diff lwr upr p adj 2-1 -1.4375 -2.829658 -0.04534186 0.0438783 cho biết tính trung bình thời gian mồ nhóm điều trị cao nhóm giả dược khoảng 1.44 phút, khoảng tin cậy 95% từ 0.05 phút đến 2.8 phút Còn kết so sánh hai nhóm AB BA (seq) hay tháng tháng (period) khơng có ý nghĩa thống kê 11.9 Phân tích phương sai cho thí nghiệm tái đo lường (repeated measure experiment) Ví dụ Một nghiên cứu sơ khởi (pilot study) tiến hành để đánh giá hiệu nghiệm vắc-xin chống bệnh thấp khớp Nghiên cứu gồm bệnh nhân, chia thành nhóm cách ngẫu nhiên Nhóm gồm bệnh nhân điều trị vắc-xin; nhóm gồm bệnh nhân nhận giả dược (placebo, hay đối chứng) Bệnh nhân theo dõi 213 tháng, tháng, bệnh nhân hỏi tình trạng bệnh Tình trạng bệnh “đo lường” số có giá trị từ (khơng có hiệu nghiệm, bệnh trước) đến 10 (có hiệu nghiệm tuyệt đối, hết bệnh) Kết nghiên cứu tóm tắt bảng số liệu sau đây: Bảng 11.10 Kết nghiên cứu vắc-xin chống đau thấp khớp Nhóm Mã số bệnh nhân (id) Tháng Chỉ số bệnh qua tháng Tháng Tháng Vắc-xin 3 Placebo 5 Câu hỏi có khác biệt hai nhóm vắc-xin giả dược hay khơng? Để đơn giản hóa cách phân tích phương sai cho thí nghiệm tái đo lường, tránh dùng kí hiệu tốn, mà minh họa vài phép tính “thủ cơng” để bạn đọc theo dõi Trước hết, cần phải tóm lược số liệu cách tính trung bình cho bệnh nhân, nhóm điều trị, tháng sau: Bảng 11.11 Tóm lược số liệu nghiên cứu vắc-xin chống đau thấp khớp Nhóm điều trị Vắc-xin Placebo 214 id Trung bình SD Chỉ số bệnh qua tháng 6.25 2.75 1.50 1.71 1.26 1.29 Trung bình 6.50 3.50 4.50 Trung bình 3.000 3.667 2.333 5.000 3.500 5.333 6.333 4.000 3.667 4.833 SD Trung bình cho hai nhóm 1.73 6.375 1.29 3.125 1.29 3.000 4.167 Qua bảng trên, thấy có nguồn làm cho kết thí nghiệm khác nhau: (a) Giữa vắc-xin giả dược (có lẽ nguồn mà cần biết!); (b) Giữa tháng theo dõi; (c) Giữa ba tháng nhóm điều trị, mà giới thống kê thường đề cập đến “interaction” (tương tác), trường hợp này, tương tác nhóm điều trị thời gian; (d) Giữa bệnh nhân nhóm điều trị; (e) Và sau phần dư, tức phần mà “giải thích” sau xem xét nguồn (a) đến (d) • Trước hết tổng bình phương hai nhóm điều trị (vắc-xin giả dược), tơi gọi SStreat: SStreat = 12(3.500 – 4.167)2 + 12(4.833 – 4.167)2 = 10.667 • Kế đến tổng bình phương tháng điều trị, gọi SStime: SStime = 8(6.375 – 4.167)2 + 8(3.125 – 4.167)2 + 8(3.000 – 4.167)2 = 58.583 • Nguồn thứ ba tổng bình phương tương tác điều trị thời gian, gọi SSint SSint= 4(6.25 – 4.167)2 + 4(2.75 – 4.167)2 + 4(1.50 – 4.167)2 + 4(6.50 – 4.167)2 + 4(3.50 – 4.167)2 + 4(4.50 – 4.167)2 – SSvắcxin –SStime = 77.833 – 10.667 – 58.583 = 8.583 • Nguồn thứ tư tổng bình phương tương tác bệnh nhân nhóm điều trị, gọi SSpatient(treat): SSpatient(treat) = 3(3.000–3.350)2 + 3(3.667–3.350)2 + 3(2.333–3.350)2 +3(5.000–3.350)2+ 3(5.333–4.833)2 + 3(6.333–4.833)2 215 +3(4.000–4.833)2 +3(3.667–4.833)2 = 25.333 • Ngồi ra, tổng bình phương cho tồn mẫu là: SStotal = (6-4.167)2 +(3-4.167)2 +(0-4.167)2 + … +(3-4.167)2 = 115.333 • Từ đó, ước tính tổng bình phương cho phần dư: SSE = SStotal – SSvắcxin – SStime – SSpatient(vắcxin)– SSvắcxin-time = 115.333 – 10.667 – 58.583 – 25.333 – 8.583 = 12.167 Tất tính tốn thủ cơng trên, bạn đọc thấy, phức tạp, dễ sai sót Nhưng R, có kết nhanh chóng Sau đây, trình bày cách phân tích phương sai tái đo lường R: Chúng ta lập bảng phân tích phương sai sau: Nguồn biến thiên Giữa vắcxin placebo Bệnh nhân (nhóm điều trị) Giữa tháng Thời gian nhóm điều trị Phần dư (residual) Tổng số • Bậc tự (degrees of freedom) 2 12 23 Tổng bình phương (Sum of squares) 10.667 25.333 58.583 8.583 12.167 115.333 Trung bình bình phương (Mean square) 10.667 4.222 29.292 4.292 1.014 Kiểm định F 2.53 28.89 4.23 - Trước hết, nhập liệu cho bệnh nhân Cũng phần mềm thống kê nào, giá trị phải kèm theo biến số đặc trưng cho bệnh nhân, nhóm, thời gian: y