Thông tin tài liệu
11 Phân tích ph ng sai (Analysis of variance) Phân tích ph ng sai, nh tên g i, m t s ph ng pháp phân tích th ng kê mà tr ng m ph ng sai (thay s trung bình) Ph ng pháp phân tích ph ng sai n m “đ i gia đình” ph ng pháp có tên mơ hình n tính (hay general linear models), bao g m c h i qui n tính mà g p ch ng tr c Trong ch ng này, s làm quen v i cách s d ng R phân tích ph ng sai Chúng ta s b t đ u b ng m t phân tích đ n gi n, sau s xem đ n phân tích ph ng sai hai chi u, ph ng pháp phi tham s thông d ng 11.1 Phân tích ph variance - ANOVA) ng sai đ n gi n (one-way analysis of Ví d B ng th ng kê 11.1 d i so sánh đ galactose nhóm b nh nhân: nhóm g m b nh nhân v i b nh Crohn; nhóm g m 11 b nh nhân v i b nh viêm ru t k t (colitis); nhóm g m 20 đ i t ng khơng có b nh (g i nhóm đ i ch ng) Câu h i đ t đ galactose gi a nhóm b nh nhân có khác hay khơng? G i giá tr trung bình c a ba nhóm µ1, µ2, µ3, nói theo ngôn ng c a ki m đ nh gi thi t gi thi t đ o là: Ho: µ1 = µ2 = µ3 Và gi thi t là: HA: có m t khác bi t gi a µj (j=1,2,3) B ng 11.2 galactose cho nhóm b nh nhân Crohn, viêm ru t k t đ i ch ng Nhóm 1: b nh Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890 Nhóm 2: b nh viêm ru t k t 1264 1314 1399 1605 2385 2511 2514 2767 2827 2895 Nhóm 3: đ i ch ng (control) 1809 2850 1926 2964 2283 2973 2384 3171 2447 3257 2479 3271 2495 3288 2525 3358 2541 3643 2769 3657 3011 n=9 Trung bình: 1910 SD: 516 Chú thích: SD đ n=11 n=20 Trung bình: 2226 Trung bình: 2804 SD: 727 SD: 527 l ch chu n (standard deviation) Tho t đ u có l b n đ c, sau h c qua ph ng pháp so sánh hai nhóm b ng ki m đ nh t, s ngh r ng c n làm so sánh b ng ki m đ nh t: gi a nhóm 2, nhóm 3, nhóm Nh ng ph ng pháp khơng h p lí, có ba ph ng sai khác Ph ng pháp thích h p cho so sánh phân tích ph ng sai Phân tích ph ng sai có th ng d ng đ so sánh nhi u nhóm m t lúc (simultaneous comparisons) 11.1.1 Mơ hình phân tích ph ng sai minh h a cho ph ng pháp phân tích ph ng sai, ph i dùng kí hi u G i đ galactose c a b nh nhân i thu c nhóm j (j = 1, 2, 3) xij Mơ hình phân tích ph ng sai phát bi u r ng: xij = µ + α i + ε ij [1] Hay c th h n: xi1 = µ + α1 + εi1 xi2 = µ + α2 + εi2 xi3 = µ + α3 + εi3 T c là, giá tr galactose c b t c b nh nhân b ng giá tr trung bình c a tồn qu n th (µ) c ng/tr cho nh h ng c a nhóm j đ c đo b ng h s nh h ng α i , sai s ε ij M t gi đ nh khác ε ij ph i tuân theo lu t phân ph i chu n v i trung bình ph ng sai σ2 Hai thông s c n c tính µ α i C ng nh phân tích h i qui n tính, hai thơng s đ c c tính b ng ph ng pháp bình ph ng nh nh t; t c tìm c s µˆ αˆ j cho ∑( x ij − µˆ − αˆ j ) nh nh t Quay l i v i s li u nghiên c u trên, có nh ng tóm t t th ng kê nh sau: S đ i t ng (nj) n1 = Trung bình – Viêm ru t k t n2 = 11 x2 = 2226 s22 = 473387 3– n3 = 20 x3 = 2804 s32 = 277500 n = 40 x = 2444 Nhóm – Crohn i ch ng Tồn bơ m u x1 = 1910 Ph ng sai s12 = 265944 xij = x + ( x j − x ) + ( xij − x j ) Chú ý r ng: [2] Trong đó, x s trung bình c a toàn m u, x j s trung bình c a nhóm j Nói cách khác, ph n ( x j − x ) ph n ánh đ khác bi t (hay c ng có th g i hi u s ) gi a trung bình tr ng nhóm trung bình tồn m u, ph n ( xij − x j ) ph n ánh hi u s gi a m t galactose c a m t đ i t • t ng bình ph ng s Theo đó, ng cho tồn b m u là: SST = ∑∑ ( xij − x ) i trung bình c a t ng nhóm j = (1343–2444)2 + (1393–2444)2 + (1343 – 2444)2 + … + (3657– 2444)2 = 12133923 • ng khác gi a nhóm: t ng bình ph SSB = ∑∑ ( xi − x ) = i j ∑n (x j j − x) j = 9(1910 – 2444)2 + 11(2226 – 2444)2 + 20(2804 – 2444)2 = 5681168 • ng dao đ ng m i nhóm: t ng bình ph SSW = ∑∑ ( xij − x j ) = i j ∑(n j − 1) s 2j j = (9-1)(265944) + (11-1)(473387) + (20-1)(277500) = 12133922 Có th ch ng minh d dàng r ng: SST = SSB + SSW SSW đ c tính t m i b nh nhân cho nhóm, trung bình bình ph nhóm (mean square – MSW) là: ng cho t ng MSW = SSW / (N – k) = 12133922 / (40-3) = 327944 trung bình bình ph ng gi a nhóm là: MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810 Trong N t ng s b nh nhân (N = 40) c a ba nhóm, k = s nhóm b nh nhân N u có s khác bi t gi a nhóm, kì v ng r ng MSB s l n h n MSW Thành ra, đ ki m tra gi thi t, có th d a vào ki m đ nh F: F = MSB / MSW = 8.67 [3] V i b c t k-1 N-k Các s li u tính tốn có th trình bày m t b ng phân tích ph ng sai (ANOVA table) nh sau: T ng bình ph ng (sum of squares) 5681168 Ki m đ nh Trung bình bình ph ng F (mean square) 2841810 8.6655 37 12133923 327944 39 12133923 Ngu n bi n thiên (source of variation) B c t (degrees of freedom) Khác bi t gi a nhóm (between-group) Khác bi t t ng nhóm (with-group) T ng s 11.1.2 Phân tích ph ng sai đ n gi n v i R T t c tính tốn t ng đ i r m rà, t n nhi u th i gian Tuy nhiên v i R, tính tốn có th làm vòng giây, sau d li u đ c chu n b cách (a) Nh p d li u Tr c h t, c n ph i nh p d li u vào R B c th nh t báo cho R bi t r ng có ba nhóm b nh nhân (1, v ), nhóm g m ng i, nhóm có 11 ng i, nhóm có 20 ng i: > group group galactose data attach(data) Sau có d li u s n sàng, dùng hàm lm() đ phân tích ph sau: > analysis anova(analysis) Analysis of Variance Table Response: galactose Df Sum Sq Mean Sq F value Pr(>F) group 5683620 2841810 8.6655 0.0008191 *** Residuals 37 12133923 327944 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Trong k t qu trên, có ba c t: Df (degrees of freedom) b c t do; Sum Sq t ng bình ph ng (sum of squares), Mean Sq trung bình bình ph ng (mean square); F value giá tr F nh đ nh ngh a [3] v a đ c p ph n trên; Pr(>F) tr s P liên quan đ n ki m đ nh F Dòng group k t qu có ngh a bình ph ng gi a nhóm (betweengroups) residual bình ph ng m i nhóm (within-group) đây, có: SSB = 5683620 MSB = 2841810 và: MSB = 2841810 MSB = 327944 Thành ra, F = 2841810 / 327944 = 8.6655 Tr s p = 0.00082 có ngh a tín hi u cho th y có s khác bi t v đ galactose gi a ba nhóm (c) sau: cs bi t thêm chi ti t k t qu phân tích, dùng l nh summary nh > summary(analysis) Call: lm(formula = galactose ~ group) Residuals: Min 1Q Median -995.5 -437.9 102.0 3Q 456.0 Max 979.8 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1910.2 190.9 10.007 4.5e-12 *** group2 316.3 257.4 1.229 0.226850 group3 894.3 229.9 3.891 0.000402 *** Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Residual standard error: 572.7 on 37 degrees of freedom Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822 F-statistic: 8.666 on and 37 DF, p-value: 0.0008191 Theo k t qu đây, intercept µˆ mơ hình [1] Nói cách khác, µˆ = 1910 sai s chu n 190.9 c tính thơng s αˆ j , R đ t αˆ1 =0, αˆ = αˆ − αˆ1 = 316.3, v i sai s chu n 257, ki m đ nh t = 316.3 / 257 = 1.229 v i tr s p = 0.2268 Nói cách khác, so v i nhóm (b nh nhân Crohn), b nh nhân viêm ru t k t có đ galactose trung bình cao h n 257, nh ng đ khác bi t ý ngh a th ng kê T ng t , αˆ = αˆ − αˆ1 = 894.3, v i sai s chu n 229.9, ki m đ nh t = 894.3/229.9=3.89, tr s p = 0.00040 So v i b nh nhân Crohn, nhóm đ i ch ng có đ galactose cao h n 894, m c đ khác bi t có ý ngh a th ng kê 11.2 So sánh nhi u nhóm (multiple comparisons) u ch nh tr s p Cho k nhóm, có nh t k(k-1)/2 so sánh Ví d có nhóm, t ng s so sánh kh d (gi a nhóm 2, nhóm 3, nhóm 3) Khi k=10, s l n so sánh có th lên r t cao Nh đ c p ch ng 7, có nhi u so sánh, tr s p tính tốn t ki m đ nh th ng kê khơng cịn ý ngh a ban đ u n a, b i ki m đ nh có th cho k t qu d ng tính gi (t c k t qu v i p10, ph ng pháp Bonferroni có th tr nên r t “b o th ” B o th có ngh a ph ng pháp r t tuyên b m t so sánh có ý ngh a th ng kê, dù th c t có th t! Trong tr ng h p này, hai ph ng pháp Tukey, Holm Scheffé có th áp d ng đây, s không gi i thích lí thuy t đ ng sau ph ng pháp (vì b n đ c có th tham kh o sách giáo khoa v th ng kê), nh ng s ch cách s d ng R đ ti n hành so sánh theo ph ng pháp c a Tukey Quay l i ví d trên, tr s p nh ng tr s ch a đ c u ch nh cho so sánh nhi u l n Trong ch ng v tr s p, tơi nói tr s phóng đ i ý ngh a th ng kê, khơng ph n ánh tr s p lúc ban đ u (t c 0.05) u ch nh cho nhi u so sánh, ph i s d ng đ n ph ng pháp u ch nh Bonferroni Chúng ta có th dùng l nh pairwise.t.test đ có đ sánh gi a ba nhóm nh sau: c t t c tr s p so > pairwise.t.test(galactose, group, p.adj="bonferroni") Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.6805 0.0012 0.0321 P value adjustment method: bonferroni K t qu cho th y tr s p gi a nhóm (Crohn) viêm ru t k t 0.6805 (t c ý ngh a th ng kê); gi a nhóm Crohn đ i ch ng 0.0012 (có ý ngh a th ng kê), gi a nhóm viêm ru t k t đ i ch ng 0.0321 (t c c ng có ý ngh a th ng kê) M t ph ng pháp u ch nh tr s p khác có tên ph ng pháp Holm: > pairwise.t.test(galactose, group) Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.2268 0.0012 0.0214 P value adjustment method: holm K t qu c ng không khác so v i ph ng pháp Bonferroni T t c ph ng pháp so sánh s d ng m t sai s chu n chung cho c ba nhóm N u mu n s d ng cho t ng nhóm l nh sau (pool.sd=F) s đáp ng yêu c u đó: > pairwise.t.test(galactose, group, pool.sd=FALSE) Pairwise comparisons using t tests with non-pooled SD data: galactose and group 2 0.2557 0.0017 0.0544 P value adjustment method: holm M t l n n a, k t qu c ng không làm thay đ i k t lu n 11.2.1 So sánh nhi u nhóm b ng ph ng pháp Tukey Trong ph ng pháp trên, ch bi t tr s p so sánh gi a nhóm, nh ng khơng bi t m c đ khác bi t c ng nh kho ng tin c y 95% gi a nhóm có nh ng c s này, c n đ n m t hàm khác có tên aov (vi t t t t analysis of variance) hàm TukeyHSD (HSD vi t t t t Honest Significant Difference, t m d ch nôm na “Khác bi t có ý ngh a thành th t”) nh sau: > res TukeyHSD (res) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = galactose ~ group) $group diff lwr upr p adj 2-1 316.3232 -312.09857 944.745 0.4439821 3-1 894.2778 333.07916 1455.476 0.0011445 3-2 577.9545 53.11886 1102.790 0.0281768 K t qu cho th y nhóm khác kho ng 894 đ n v , kho ng tin c y 95% t 333 đ n 1455 đ n v T ng t , galactose nhóm b nh nhân viêm ru t k t th p h n nhóm đ i ch ng (nhóm 3) kho ng 578 đ n v , kho ng tin c y 95% t 53 đ n 1103 3-2 3-1 2-1 95% family-wise confidence level 500 1000 1500 Differences in mean levels of group Bi u đ 11.1 Trung bình hi u kho ng tin c y 95% gi a nhóm 2, 3, và Tr c hoành đ galactose, tr c tung ba so sánh 11.2.2 Phân tích b ng bi u đ M t phân tích th ng kê khơng th hồn t t n u khơng có m t đ th minh h a cho k t qu Các l nh sau v đ th th hi n đ galactose trung bình sai s chu n cho t ng nhóm b nh nhân Bi u đ cho th y, nhóm b nh nhân Crohn có đ galactose th p nh t (nh ng khơng th p h n nhóm viêm ru t k t), c hai nhóm th p h n nhóm đ i ch ng s khác bi t có ý ngh a th ng kê > > > > > > > xbar
Ngày đăng: 06/08/2016, 17:50
Xem thêm: