1. Trang chủ
  2. » Tất cả

Chuong 11. Phan tich phuong sai

44 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 474,98 KB

Nội dung

11 Phân tích ph ng sai (Analysis of variance) Phân tích ph ng sai, nh tên g i, m t s ph ng pháp phân tích th ng kê mà tr ng m ph ng sai (thay s trung bình) Ph ng pháp phân tích ph ng sai n m “đ i gia đình” ph ng pháp có tên mơ hình n tính (hay general linear models), bao g m c h i qui n tính mà g p ch ng tr c Trong ch ng này, s làm quen v i cách s d ng R phân tích ph ng sai Chúng ta s b t đ u b ng m t phân tích đ n gi n, sau s xem đ n phân tích ph ng sai hai chi u, ph ng pháp phi tham s thông d ng 11.1 Phân tích ph variance - ANOVA) ng sai đ n gi n (one-way analysis of Ví d B ng th ng kê 11.1 d i so sánh đ galactose nhóm b nh nhân: nhóm g m b nh nhân v i b nh Crohn; nhóm g m 11 b nh nhân v i b nh viêm ru t k t (colitis); nhóm g m 20 đ i t ng khơng có b nh (g i nhóm đ i ch ng) Câu h i đ t đ galactose gi a nhóm b nh nhân có khác hay khơng? G i giá tr trung bình c a ba nhóm µ1, µ2, µ3, nói theo ngôn ng c a ki m đ nh gi thi t gi thi t đ o là: Ho: µ1 = µ2 = µ3 Và gi thi t là: HA: có m t khác bi t gi a µj (j=1,2,3) B ng 11.2 galactose cho nhóm b nh nhân Crohn, viêm ru t k t đ i ch ng Nhóm 1: b nh Crohn 1343 1393 1420 1641 1897 2160 2169 2279 2890 Nhóm 2: b nh viêm ru t k t 1264 1314 1399 1605 2385 2511 2514 2767 2827 2895 Nhóm 3: đ i ch ng (control) 1809 2850 1926 2964 2283 2973 2384 3171 2447 3257 2479 3271 2495 3288 2525 3358 2541 3643 2769 3657 3011 n=9 Trung bình: 1910 SD: 516 Chú thích: SD đ n=11 n=20 Trung bình: 2226 Trung bình: 2804 SD: 727 SD: 527 l ch chu n (standard deviation) Tho t đ u có l b n đ c, sau h c qua ph ng pháp so sánh hai nhóm b ng ki m đ nh t, s ngh r ng c n làm so sánh b ng ki m đ nh t: gi a nhóm 2, nhóm 3, nhóm Nh ng ph ng pháp khơng h p lí, có ba ph ng sai khác Ph ng pháp thích h p cho so sánh phân tích ph ng sai Phân tích ph ng sai có th ng d ng đ so sánh nhi u nhóm m t lúc (simultaneous comparisons) 11.1.1 Mơ hình phân tích ph ng sai minh h a cho ph ng pháp phân tích ph ng sai, ph i dùng kí hi u G i đ galactose c a b nh nhân i thu c nhóm j (j = 1, 2, 3) xij Mơ hình phân tích ph ng sai phát bi u r ng: xij = µ + α i + ε ij [1] Hay c th h n: xi1 = µ + α1 + εi1 xi2 = µ + α2 + εi2 xi3 = µ + α3 + εi3 T c là, giá tr galactose c b t c b nh nhân b ng giá tr trung bình c a tồn qu n th (µ) c ng/tr cho nh h ng c a nhóm j đ c đo b ng h s nh h ng α i , sai s ε ij M t gi đ nh khác ε ij ph i tuân theo lu t phân ph i chu n v i trung bình ph ng sai σ2 Hai thông s c n c tính µ α i C ng nh phân tích h i qui n tính, hai thơng s đ c c tính b ng ph ng pháp bình ph ng nh nh t; t c tìm c s µˆ αˆ j cho ∑( x ij − µˆ − αˆ j ) nh nh t Quay l i v i s li u nghiên c u trên, có nh ng tóm t t th ng kê nh sau: S đ i t ng (nj) n1 = Trung bình – Viêm ru t k t n2 = 11 x2 = 2226 s22 = 473387 3– n3 = 20 x3 = 2804 s32 = 277500 n = 40 x = 2444 Nhóm – Crohn i ch ng Tồn bơ m u x1 = 1910 Ph ng sai s12 = 265944 xij = x + ( x j − x ) + ( xij − x j ) Chú ý r ng: [2] Trong đó, x s trung bình c a toàn m u, x j s trung bình c a nhóm j Nói cách khác, ph n ( x j − x ) ph n ánh đ khác bi t (hay c ng có th g i hi u s ) gi a trung bình tr ng nhóm trung bình tồn m u, ph n ( xij − x j ) ph n ánh hi u s gi a m t galactose c a m t đ i t • t ng bình ph ng s Theo đó, ng cho tồn b m u là: SST = ∑∑ ( xij − x ) i trung bình c a t ng nhóm j = (1343–2444)2 + (1393–2444)2 + (1343 – 2444)2 + … + (3657– 2444)2 = 12133923 • ng khác gi a nhóm: t ng bình ph SSB = ∑∑ ( xi − x ) = i j ∑n (x j j − x) j = 9(1910 – 2444)2 + 11(2226 – 2444)2 + 20(2804 – 2444)2 = 5681168 • ng dao đ ng m i nhóm: t ng bình ph SSW = ∑∑ ( xij − x j ) = i j ∑(n j − 1) s 2j j = (9-1)(265944) + (11-1)(473387) + (20-1)(277500) = 12133922 Có th ch ng minh d dàng r ng: SST = SSB + SSW SSW đ c tính t m i b nh nhân cho nhóm, trung bình bình ph nhóm (mean square – MSW) là: ng cho t ng MSW = SSW / (N – k) = 12133922 / (40-3) = 327944 trung bình bình ph ng gi a nhóm là: MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810 Trong N t ng s b nh nhân (N = 40) c a ba nhóm, k = s nhóm b nh nhân N u có s khác bi t gi a nhóm, kì v ng r ng MSB s l n h n MSW Thành ra, đ ki m tra gi thi t, có th d a vào ki m đ nh F: F = MSB / MSW = 8.67 [3] V i b c t k-1 N-k Các s li u tính tốn có th trình bày m t b ng phân tích ph ng sai (ANOVA table) nh sau: T ng bình ph ng (sum of squares) 5681168 Ki m đ nh Trung bình bình ph ng F (mean square) 2841810 8.6655 37 12133923 327944 39 12133923 Ngu n bi n thiên (source of variation) B c t (degrees of freedom) Khác bi t gi a nhóm (between-group) Khác bi t t ng nhóm (with-group) T ng s 11.1.2 Phân tích ph ng sai đ n gi n v i R T t c tính tốn t ng đ i r m rà, t n nhi u th i gian Tuy nhiên v i R, tính tốn có th làm vòng giây, sau d li u đ c chu n b cách (a) Nh p d li u Tr c h t, c n ph i nh p d li u vào R B c th nh t báo cho R bi t r ng có ba nhóm b nh nhân (1, v ), nhóm g m ng i, nhóm có 11 ng i, nhóm có 20 ng i: > group group galactose data attach(data) Sau có d li u s n sàng, dùng hàm lm() đ phân tích ph sau: > analysis anova(analysis) Analysis of Variance Table Response: galactose Df Sum Sq Mean Sq F value Pr(>F) group 5683620 2841810 8.6655 0.0008191 *** Residuals 37 12133923 327944 Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Trong k t qu trên, có ba c t: Df (degrees of freedom) b c t do; Sum Sq t ng bình ph ng (sum of squares), Mean Sq trung bình bình ph ng (mean square); F value giá tr F nh đ nh ngh a [3] v a đ c p ph n trên; Pr(>F) tr s P liên quan đ n ki m đ nh F Dòng group k t qu có ngh a bình ph ng gi a nhóm (betweengroups) residual bình ph ng m i nhóm (within-group) đây, có: SSB = 5683620 MSB = 2841810 và: MSB = 2841810 MSB = 327944 Thành ra, F = 2841810 / 327944 = 8.6655 Tr s p = 0.00082 có ngh a tín hi u cho th y có s khác bi t v đ galactose gi a ba nhóm (c) sau: cs bi t thêm chi ti t k t qu phân tích, dùng l nh summary nh > summary(analysis) Call: lm(formula = galactose ~ group) Residuals: Min 1Q Median -995.5 -437.9 102.0 3Q 456.0 Max 979.8 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1910.2 190.9 10.007 4.5e-12 *** group2 316.3 257.4 1.229 0.226850 group3 894.3 229.9 3.891 0.000402 *** Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' Residual standard error: 572.7 on 37 degrees of freedom Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822 F-statistic: 8.666 on and 37 DF, p-value: 0.0008191 Theo k t qu đây, intercept µˆ mơ hình [1] Nói cách khác, µˆ = 1910 sai s chu n 190.9 c tính thơng s αˆ j , R đ t αˆ1 =0, αˆ = αˆ − αˆ1 = 316.3, v i sai s chu n 257, ki m đ nh t = 316.3 / 257 = 1.229 v i tr s p = 0.2268 Nói cách khác, so v i nhóm (b nh nhân Crohn), b nh nhân viêm ru t k t có đ galactose trung bình cao h n 257, nh ng đ khác bi t ý ngh a th ng kê T ng t , αˆ = αˆ − αˆ1 = 894.3, v i sai s chu n 229.9, ki m đ nh t = 894.3/229.9=3.89, tr s p = 0.00040 So v i b nh nhân Crohn, nhóm đ i ch ng có đ galactose cao h n 894, m c đ khác bi t có ý ngh a th ng kê 11.2 So sánh nhi u nhóm (multiple comparisons) u ch nh tr s p Cho k nhóm, có nh t k(k-1)/2 so sánh Ví d có nhóm, t ng s so sánh kh d (gi a nhóm 2, nhóm 3, nhóm 3) Khi k=10, s l n so sánh có th lên r t cao Nh đ c p ch ng 7, có nhi u so sánh, tr s p tính tốn t ki m đ nh th ng kê khơng cịn ý ngh a ban đ u n a, b i ki m đ nh có th cho k t qu d ng tính gi (t c k t qu v i p10, ph ng pháp Bonferroni có th tr nên r t “b o th ” B o th có ngh a ph ng pháp r t tuyên b m t so sánh có ý ngh a th ng kê, dù th c t có th t! Trong tr ng h p này, hai ph ng pháp Tukey, Holm Scheffé có th áp d ng đây, s không gi i thích lí thuy t đ ng sau ph ng pháp (vì b n đ c có th tham kh o sách giáo khoa v th ng kê), nh ng s ch cách s d ng R đ ti n hành so sánh theo ph ng pháp c a Tukey Quay l i ví d trên, tr s p nh ng tr s ch a đ c u ch nh cho so sánh nhi u l n Trong ch ng v tr s p, tơi nói tr s phóng đ i ý ngh a th ng kê, khơng ph n ánh tr s p lúc ban đ u (t c 0.05) u ch nh cho nhi u so sánh, ph i s d ng đ n ph ng pháp u ch nh Bonferroni Chúng ta có th dùng l nh pairwise.t.test đ có đ sánh gi a ba nhóm nh sau: c t t c tr s p so > pairwise.t.test(galactose, group, p.adj="bonferroni") Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.6805 0.0012 0.0321 P value adjustment method: bonferroni K t qu cho th y tr s p gi a nhóm (Crohn) viêm ru t k t 0.6805 (t c ý ngh a th ng kê); gi a nhóm Crohn đ i ch ng 0.0012 (có ý ngh a th ng kê), gi a nhóm viêm ru t k t đ i ch ng 0.0321 (t c c ng có ý ngh a th ng kê) M t ph ng pháp u ch nh tr s p khác có tên ph ng pháp Holm: > pairwise.t.test(galactose, group) Pairwise comparisons using t tests with pooled SD data: galactose and group 2 0.2268 0.0012 0.0214 P value adjustment method: holm K t qu c ng không khác so v i ph ng pháp Bonferroni T t c ph ng pháp so sánh s d ng m t sai s chu n chung cho c ba nhóm N u mu n s d ng cho t ng nhóm l nh sau (pool.sd=F) s đáp ng yêu c u đó: > pairwise.t.test(galactose, group, pool.sd=FALSE) Pairwise comparisons using t tests with non-pooled SD data: galactose and group 2 0.2557 0.0017 0.0544 P value adjustment method: holm M t l n n a, k t qu c ng không làm thay đ i k t lu n 11.2.1 So sánh nhi u nhóm b ng ph ng pháp Tukey Trong ph ng pháp trên, ch bi t tr s p so sánh gi a nhóm, nh ng khơng bi t m c đ khác bi t c ng nh kho ng tin c y 95% gi a nhóm có nh ng c s này, c n đ n m t hàm khác có tên aov (vi t t t t analysis of variance) hàm TukeyHSD (HSD vi t t t t Honest Significant Difference, t m d ch nôm na “Khác bi t có ý ngh a thành th t”) nh sau: > res TukeyHSD (res) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = galactose ~ group) $group diff lwr upr p adj 2-1 316.3232 -312.09857 944.745 0.4439821 3-1 894.2778 333.07916 1455.476 0.0011445 3-2 577.9545 53.11886 1102.790 0.0281768 K t qu cho th y nhóm khác kho ng 894 đ n v , kho ng tin c y 95% t 333 đ n 1455 đ n v T ng t , galactose nhóm b nh nhân viêm ru t k t th p h n nhóm đ i ch ng (nhóm 3) kho ng 578 đ n v , kho ng tin c y 95% t 53 đ n 1103 3-2 3-1 2-1 95% family-wise confidence level 500 1000 1500 Differences in mean levels of group Bi u đ 11.1 Trung bình hi u kho ng tin c y 95% gi a nhóm 2, 3, và Tr c hoành đ galactose, tr c tung ba so sánh 11.2.2 Phân tích b ng bi u đ M t phân tích th ng kê khơng th hồn t t n u khơng có m t đ th minh h a cho k t qu Các l nh sau v đ th th hi n đ galactose trung bình sai s chu n cho t ng nhóm b nh nhân Bi u đ cho th y, nhóm b nh nhân Crohn có đ galactose th p nh t (nh ng khơng th p h n nhóm viêm ru t k t), c hai nhóm th p h n nhóm đ i ch ng s khác bi t có ý ngh a th ng kê > > > > > > > xbar

Ngày đăng: 06/08/2016, 17:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w