Chuong 09 THỐNG KÊ MÔ TẢ
9 Phân tích thng kê mô t Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t. Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng kê thông thng mà chúng ta đã làm quen qua t thu trung hc nh s trung bình (mean), s trung v (median), phng sai (variance) đ lch chun (standard deviation) … cho các bin s liên tc, và t s (proportion) cho các bin s không liên tc. Nhng trc khi hng dn phân tích thng kê mô t, tôi mun bn đc phi phân bit cho đc hai khái nim tng th (population) và mu (sample). 9.0 Khái nim tng th (population) và mu (sample) Sách giáo khoa thng kê thng gii thích hai khái nim này mt cách mù m và có khi vô ngha. Chng hn nh cun “Modern Mathematical Statistics” (E. J. Dudewicz và S. N. Mishra, Nhà xut bn Wiley, 1988) gii thích tng th rng “population is a set of n distinct elements (points) a 1 , a 2 , a 3 , … a n .” (trang 24, tm dch: “tng th là tp hp gm n phn t hay đim a 1 , a 2 , a 3 , … a n ”), còn L. Fisher và G. van Belle trong “Biostatistics – A Methodology for the Health Science” (Nhà xut bn Wiley, 1993), gii thích rng “The sample space or population is the set of all possible values of a variable” (trang 38, tm dch “Không gian mu hay tng th là tp hp tt c các giá tr kh d ca mt bin”). i vi mt nhà nghiên cu thc nghim phi nói nhng đnh ngha loi này rt tru tng và khó hiu, và dng nh chng có liên quan gì vi thc t! Trong phn này tôi s gii thích hai khái nim này bng mô phng và hi vng là b đc s hiu rõ hn. Có th nói mc tiêu ca nghiên cu khoa hc thc nghim là nhm tìm hiu và khám phá nhng cái cha đc bit (unknown), trong đó bao gm nhng qui lut hot đng ca t nhiên. khám phá, chúng ta s dng đn các phng pháp phân loi, so sánh, và phng đoán. Tt c các phng pháp khoa hc, k c thng kê hc, đc phát trin nhm vào ba mc tiêu trên. phân loi, chúng ta phi đo lng mt yu t hay tiêu chí có liên quan đn vn đ cn nghiên cu. so sánh và phng đoán, chúng ta cn đn các phng pháp kim đnh gi thit và mô hình thng kê hc. Cng nh bt c mô hình nào, mô hình thng kê phi có thông s. Và mun có thông s, chúng ta trc ht phi tin hành đo lng, và sau đó là c tính thông s t đo lng. Chng hn nh đ bit sinh viên n có ch s thông minh (IQ) bng sinh viên nam hay không, chúng ta có th làm nghiên cu theo hai phng án: (a) Mt là lp danh sánh tt c sinh viên nam và n trên toàn quc, ri đo lng ch s IQ tng ngi, và sau đó so sánh gia hai nhóm; (b) Hai là chn ngu nhiên mt mu gm n nam và m n sinh viên, ri đo lng ch s IQ tng ngi, và sau đó so sánh gia hai nhóm. Phng án (a) rt tn kém và có th nói là không thc t, vì chúng ta phi tp hp tt c sinh viên ca c nc, mt vic làm rt khó thc hin đc. Nhng gi d nh chúng ta có th làm đc, thì phng án này không cn đn thng kê hc. Giá tr IQ trung bình ca n và nam sinh viên tính t phng án (a) là giá tr cui cùng, và nó tr li câu hi ca chúng ta mt cách trc tip, chúng ta không cn phi suy lun, không cn đn kim đnh thng kê gì c! Phng án (b) đòi hi chúng ta phi chn n nam và m n sinh viên sao cho đi din (representative) cho toàn qun th sinh viên ca c nc. Tính “đi din” đây có ngha là các s n nam và m n sinh viên này phi có cùng đc tính nh đ tui, trình đ hc vn, thành phn kinh t, xã hi, ni sinh sng. v.v… so vi tng th sinh viên ca c nc. Bi vì chúng ta không bit các đc tính này trong toàn b tng th sinh viên, chúng ta không th so sánh trc tip đc, cho nên mt phng pháp rt hu hiu là ly mu mt cách ngu nhiên. Có nhiu phng pháp ly mu ngu nhiên đã đc phát trin và tôi s không bàn qua chi tit ca các phng pháp này, ngoi tr mun nhn mnh rng, nu cách ly mu không ngu nhiên thì các c s t mu s không có ý ngha khoa hc cao, bi vì các phng pháp phân tích thng kê da vào gi đnh rng mu phi đc chn mt cách ngu nhiên. Tôi s ly mt ví d c th v tng th và mu qua ng dng R nh sau. Gi d chúng ta có mt tng th gm 20 ngi và bit rng chiu cao ca h nh sau (tính bng cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156, 157, 154 và 157. Nh vy, chúng ta bit rng chiu cao trung bình ca tng th là 158.65 cm. Xin nhn mnh đó là tng th. Vì thiu thn phng tin chúng ta không th nghiên cu trên toàn tng th mà ch có th ly mu t tng th đ c tính chiu cao. Hàm sample() cho phép chúng ta ly mu. Và c tính chiu cao trung bình t mu tt nhiên s khác vi chiu cao trung bình ca tng th. • Chn 5 ngi t tng th: > sample5 <- sample(height, 5) > sample5 [1] 153 157 164 156 149 c tính chiu cao trung bình t mu này: > mean(sample5) [1] 155.8 • Chn 5 ngi khác t tng th và tính chiu cao trung bình: > sample5 <- sample(height, 5) > sample5 [1] 157 162 167 161 150 > mean(sample5) [1] 159.4 Chú ý c tính chiu cao ca mu th hai là 159.4 cm (thay vì 155.8 cm), bi vì chn ngu nhiên, cho nên đi tng đc chn ln hai không nht thit phi là đi tng ln th nht, cho nên c tính trung bình khác nhau. • Bây gi chúng ta th ly mu 10 ngi t tng th và tính chiu cao trung bình: > sample10 <- sample(height, 10) > sample10 [1] 153 160 150 165 159 160 164 156 162 157 > mean(sample10) [1] 158.6 Chúng ta có th ly nhiu mu, mi mu gm 10 ngi và c tính s trung bình t mu, bng mt lnh đn gin hn nh sau: > mean(sample(height, 10)) [1] 156.7 > mean(sample(height, 10)) [1] 157.1 > mean(sample(height, 10)) [1] 159.3 > mean(sample(height, 10)) [1] 159.3 > mean(sample(height, 10)) [1] 158.3 > mean(sample(height, 10)) Chú ý đ dao đng ca s trung bình t 156.7 đn 159.3 cm. • Chúng ta th ly mu 15 ngi t tng th và tính chiu cao trung bình: > mean(sample(height, 15)) [1] 158.6667 > mean(sample(height, 15)) [1] 159.4 > mean(sample(height, 15)) [1] 158.0667 > mean(sample(height, 15)) [1] 158.1333 > mean(sample(height, 15)) [1] 156.4667 Chú ý đ dao đng ca s trung bình bây gi t 158.0 đn 158.7 cm, tc thp hn mu vi 10 đi tng. • Tng c mu lên 18 ngi (tc gn s đi tng trong tng th) > mean(sample(height, 18)) [1] 158.2222 > mean(sample(height, 18)) [1] 158.7222 > mean(sample(height, 18)) [1] 158.0556 > mean(sample(height, 18)) [1] 158.4444 > mean(sample(height, 18)) [1] 158.6667 > mean(sample(height, 18)) [1] 159.0556 > mean(sample(height, 18)) [1] 159 Bây gi thì c tính chiu cao khá n đnh, nhng không khác gì so vi c mu vi 15 ngi, do đ dao đng t 158.2 đn 159 cm. T các ví d trên đây, chúng ta có th rút ra mt nhn xét quan trng: c s t các mu đc chn mt cách ngu nhiên s khác vi thông s ca tng th, nhng khi s c mu tng lên thì đ khác bit s nh li dn. Do đó, mt trong nhng vn đ then cht ca thit k nghiên cu là nhà nghiên cu phi c tính c mu sao cho c s mà chúng ta tính t mu gn (hay chính xác) so vi thông s ca tng th. Tôi s quay li vn đ này trong Chng 15. Trong ví d trên s trung bình ca tng th là 158.65 cm. Trong thng kê hc, chúng ta gi đó là thông s (parameter). Và các s trung bình c tính t các mu chn t tng th đó đc gi là c s mu (sample estimate). Do đó, xin nhc li đ nhn mnh: nhng ch s liên quan đn tng th là thông s, còn nhng s c tính t các mu là c s. Nh thy trên, c s có đ dao đng chung quanh thông s, và vì trong thc t chúng ta không bit thông s, cho nên chúng mc tiêu chính ca phân tích thng kê là s dng c s đ suy lun v thông s. Mc tiêu chính ca phân tích thng kê mô t là tìm nhng c s ca mu. Có hai loi đo lng: liên tc (continuous measurement) và không liên tc hay ri rc (discrete measurement). Các bin liên tc nh đ tui, chiu cao, trng lng c th, v.v… là bin s liên tc, còn các bin mang tính phân loi nh có hay không có bnh, thích hay không thích, trng hay đen, v.v… là nhng bin s không liên tc. Cách tính hai loi bin s này cng khác nhau. c s thông thng nht dùng đ mô t mt bin s liên tc là s trung bình (mean). Chng hn nh chiu cao ca nhóm 1 gm 5 đi tng là 160, 160, 167, 156, và 161, do đó s trung bình là 160.8 cm. Nhng chiu cao ca nhóm 2 cng gm 5 đi tng khác nh142, 150, 187, 180 và 145, thì s trung bình vn là 160.8. Do đó, s trung bình không th phn ánh đy đ s phân phi ca mt bin liên tc, vì đây tuy hai nhóm có cùng trung bình nhng đ khác bit ca nhóm 2 cao hn nhóm 1 rt nhiu. Và chúng ta cn mt c s khác gi là phng sai (variance). Phng sai ca nhóm 1 là 15.7 cm 2 và nhóm 2 là 443.7 cm 2 . Vi mt bin s không liên tc nh 0 và 1 (0 kí hiu còn sng, và 1 kí hiu t vong) thì c s trung bình không còn ý ngha “trung bình” na, cho nên chúng ta có c s t l (proportion). Chng hn nh trong s 10 ngi có 2 ngi t vong, thì t l t vong là 0.2 (hay 20%). Trong s 200 ngi có 40 ngi qua đi thì t l t vong vn 0.2. Do đó, cng nh trng hp trung bình, t l không th mô t mt bin không liên tc đy đ đc. Chúng ta cn đn phng sai đ, cùng vi t l, mô t mt bin không liên tc. Trong trng hp 2/10 phng sai là 0.016, còn trong trng hp 40/200, phng sai là 0.0008. Trong chng này, chúng ta s làm quen vi mt s lnh trong R đ tin hành nhng tính toán đn gin trên. 9.1 Thng kê mô t (descriptive statistics, summary) minh ha cho vic áp dng R vào thng kê mô t, tôi s s dng mt d liu nghiên cu có tên là igfdata. Trong nghiên cu này, ngoài các ch s liên quan đn gii tính, đ tui, trng lng và chiu cao, chúng tôi đo lng các hormone liên quan đn tình trng tng trng nh igfi, igfbp3, als, và các markers liên quan đn s chuyn hóa ca xng pinp, ictp và pinp. Có 100 đi tng nghiên cu. D liu này đc cha trong directory c:\works\stats. Trc ht, chúng ta cn phi nhp d liu vào R vi nhng lnh sau đây (các câu ch theo sau du # là nhng chú thích đ bn đc theo dõi): > options(width=100) # chuyn directory > setwd("c:/works/stats") # đc d liu vào R > igfdata <- read.table("igf.txt", header=TRUE, na.strings=".") > attach(igfdata) # xem xét các ct s trong d liu > names(igfdata) [1] "id" "sex" "age" "weight" "height" "ethnicity" [7] "igfi" "igfbp3" "als" "pinp" "ictp" "p3np" > igfdata id sex age weight height ethnicity igfi igfbp3 als pinp ictp p3np 1 1 Female 15 42 162 Asian 189.000 4.00000 323.667 353.970 11.2867 8.3367 2 2 Male 16 44 160 Caucasian 160.000 3.75000 333.750 375.885 10.4300 6.7450 3 3 Female 15 43 157 Asian 146.833 3.43333 248.333 199.507 8.3633 12.5000 4 4 Female 15 42 155 Asian 185.500 3.40000 251.000 483.607 13.3300 14.2767 5 5 Female 16 47 167 Asian 192.333 4.23333 322.000 105.430 7.9233 4.5033 6 6 Female 25 45 160 Asian 110.000 3.50000 284.667 76.487 4.9833 4.9367 7 7 Female 19 45 161 Asian 157.000 3.20000 274.000 75.880 6.3500 5.3200 8 8 Female 18 43 153 Asian 146.000 3.40000 303.000 86.360 7.3700 4.6700 9 9 Female 15 41 149 Asian 197.667 3.56667 308.500 254.803 11.8700 6.8200 10 10 Female 24 45 157 African 148.000 3.40000 273.000 44.720 3.7400 6.1600 97 97 Female 17 54 168 Caucasian 204.667 4.96667 441.333 64.130 5.1600 4.4367 98 98 Male 18 55 169 Asian 178.667 3.86667 273.000 185.913 7.5267 8.8333 99 99 Female 18 48 151 Asian 237.000 3.46667 324.333 105.127 5.9867 5.6600 100 100 Male 15 54 168 Asian 130.000 2.70000 259.333 325.840 10.2767 6.5933 Trên đây ch là mt phn s liu trong s 100 đi tng. Cho mt bin s 123 , , , , n x xx x chúng ta có th tính toán mt s ch s thng kê mô t nh sau: Lí thuyt Hàm R S trung bình: x n x i i n = = ∑ 1 1 . mean(x) Phng sai: () ∑ − − = = n i i xx n s 1 2 2 1 1 var(x) lch chun: 2 ss= sd(x) Sai s chun (standard error): s SE n = Không có Tr s thp nht min(x) Tr s cao nht max(x) Toàn c (range) range(x) Ví d 1: tìm giá tr trung bình ca đ tui, chúng ta ch đn gin lnh: > mean(age) [1] 19.17 Hay phng sai và đc lch chun ca tui: > var(age) [1] 15.33444 > sd(age) [1] 3.915922 Tuy nhiên, R có lnh summary có th cho chúng ta tt c thông tin thng kê v mt bin s: > summary(age) Min. 1st Qu. Median Mean 3rd Qu. Max. 13.00 16.00 19.00 19.17 21.25 34.00 Nói chung, kt qu này đn gin và các vit tt cng có th d hiu. Chú ý, trong kt qu trên, có hai ch s “1st Qu” và “3rd Qu” có ngha là first quartile (tng đng vi v trí 25%) và third quartile (tng đng vi v trí 75%) ca mt bin s. First quartile = 16 có ngha là 25% đi tng nghiên cu có đ tui bng hoc nh hn 16 tui. Tng t, Third quartile = 34 có ngha là 75% đi tng có đ tui bng hoc thp hn 34 tui. Tt nhiên s trung v (median) 19 cng có ngha là 50% đi tng có đ tui 19 tr xung (hay 19 tui tr lên). R không có hàm tính sai s chun, và trong hàm summary, R cng không cung cp đ lch chun. có các s này, chúng ta có th t vit mt hàm đn gin (hãy gi là desc) nh sau: desc <- function(x) { av <- mean(x) sd <- sd(x) se <- sd/sqrt(length(x)) c(MEAN=av, SD=sd, SE=se) } Và có th gi hàm này đ tính bt c bin nào chúng ta mun, nh tính bin als sau đây: > desc(als) MEAN SD SE 301.841120 58.987189 5.898719 có mt “quang cnh” chung v d liu igfdata chúng ta ch đn gin lnh summary nh sau: > summary(igfdata) id sex age weight height ethnicity Min. : 1.00 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 African : 8 1st Qu.: 25.75 Male :31 1st Qu.:16.00 1st Qu.:47.00 1st Qu.:157.0 Asian :60 Median : 50.50 Median :19.00 Median :50.00 Median :162.0 Caucasian:30 Mean : 50.50 Mean :19.17 Mean :49.91 Mean :163.1 Others : 2 3rd Qu.: 75.25 3rd Qu.:21.25 3rd Qu.:53.00 3rd Qu.:168.0 Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0 igfi igfbp3 als pinp ictp Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697 1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878 Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338 Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420 3rd Qu.:186.46 3rd Qu.:3.875 3rd Qu.:331.2 3rd Qu.:196.45 3rd Qu.: 8.423 Max. :427.00 Max. :5.233 Max. :471.7 Max. :742.68 Max. :21.237 p3np Min. : 2.343 1st Qu.: 4.433 Median : 5.445 Mean : 6.341 3rd Qu.: 7.150 Max. :16.303 R tính toán tt c các bin s nào có th tính toán đc! Thành ra, ngay c ct id (tc mã s ca đi tng nghiên cu) R cng tính luôn! (và chúng ta bit kt qu ca ct id chng có ý ngha thng kê gì). i vi các bin s mang tính phân loi nh sex và ethnicity (sc tc) thì R ch báo cáo tn s cho mi nhóm. Kt qu trên cho tt c đi tng nghiên cu. Nu chúng ta mun kt qu cho tng nhóm nam và n riêng bit, hàm by trong R rt hu dng. Trong lnh sau đây, chúng ta yêu cu R tóm lc d liu igfdata theo sex. > by(igfdata, sex, summary) sex: Female id sex age weight height Min. : 1.0 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 1st Qu.:21.0 Male : 0 1st Qu.:17.00 1st Qu.:47.00 1st Qu.:156.0 Median :47.0 Median :19.00 Median :50.00 Median :162.0 Mean :48.2 Mean :19.59 Mean :49.35 Mean :161.9 3rd Qu.:75.0 3rd Qu.:22.00 3rd Qu.:52.00 3rd Qu.:166.0 Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0 ethnicity igfi igfbp3 als African : 4 Min. : 85.71 Min. :2.767 Min. :204.3 Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8 Caucasian:22 Median :163.33 Median :3.567 Median :302.7 Others : 0 Mean :167.97 Mean :3.695 Mean :311.5 3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7 Max. :427.00 Max. :5.233 Max. :471.7 pinp ictp p3np Min. : 26.74 Min. : 2.697 Min. : 2.343 1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337 Median : 78.50 Median : 5.537 Median : 5.143 Mean :108.74 Mean : 6.183 Mean : 5.643 3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143 Max. :502.05 Max. :13.633 Max. :14.420 sex: Male id sex age weight height Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0 1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5 Median : 56.00 Median :17.00 Median :51.00 Median :164.0 Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6 3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0 Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0 ethnicity igfi igfbp3 als African : 4 Min. : 94.67 Min. :2.000 Min. :192.7 Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8 Caucasian: 8 Median :160.00 Median :3.500 Median :276.0 Others : 2 Mean :160.29 Mean :3.443 Mean :280.2 3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3 Max. :274.00 Max. :4.500 Max. :388.7 pinp ictp p3np Min. : 56.28 Min. : 3.650 Min. : 3.390 1st Qu.:135.07 1st Qu.: 6.900 1st Qu.: 5.375 Median :245.92 Median : 9.513 Median : 7.140 Mean :297.21 Mean :10.173 Mean : 7.895 3rd Qu.:450.38 3rd Qu.:13.517 3rd Qu.:10.010 Max. :742.68 Max. :21.237 Max. :16.303 xem qua phân phi ca các hormones và ch s sinh hóa cùng mt lúc, chúng ta có th v đ th cho tt c 6 bin s. Trc ht, chia màn nh thành 6 ca s (vi 2 dòng và 3 ct); sau đó ln lt v: > op <- par(mfrow=c(2,3)) > hist(igfi) > hist(igfbp3) > hist(als) > hist(pinp) > hist(ictp) > hist(p3np) Histogram of igfi igfi Frequency 100 200 300 400 0 10203040 Histogram of igfbp3 igf bp3 Frequency 2.0 3.0 4.0 5.0 0 10203040 Histogram of als als Frequency 150 250 350 450 0 102030 Histogram of pinp pinp Frequency 0 200 400 600 800 01020304050 Histogram of ictp ic tp Frequency 5101520 0102030 Histogram of p3np p3np Frequency 51015 0 10203040 9.2 Kim đnh xem mt bin có phi phân phi chun Trong phân tích thng kê, phn ln các phép tính da vào gi đnh bin s phi là mt bin s phân phi chun (normal distribution). Do đó, mt trong nhng vic quan trng khi xem xét d kin là phi kim đnh gi thit phân phi chun ca mt bin s. Trong đ th trên, chúng ta thy các bin s nh igfi, pinp, ictp và p3np có v tp trung vào các giá tr thp và không cân đi, tc du hiu ca mt s phân phi không chun. kim đnh nghiêm chnh, chúng ta cn phi s dng kim đnh thng kê có tên là “Shapiro test” và trong R gi là hàm shapiro.test. Chng hn nh kim đnh gi thit phân phi chun ca bin s pinp, > shapiro.test(pinp) Shapiro-Wilk normality test data: pinp W = 0.748, p-value = 8.314e-12 Vì tr s p (p-value) thp hn 0.05, chúng ta có th kt lun rng bin s pinp không đáp ng lut phân phi chun. Nhng vi bin s weight (trng lng c th) thì kim đnh này cho bit đây là mt bin s tuân theo lut phân phi chun vì tr s p > 0.05. > shapiro.test(weight) Shapiro-Wilk normality test data: weight W = 0.9887, p-value = 0.5587 Tht ra, kt qu trên cng phù hp vi đ th ca weight: > hist(weight) Histogram of weight weight Frequency 40 45 50 55 60 051015 9.3 Thng kê mô t theo tng nhóm [...]... p-value = 0.0 2097 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.993901 19.00 6099 sample estimates: mean of the differences 10.5 K t qu trên cho th y sau khi i u tr áp su t máu gi m 10.5 mmHg, và kho ng tin c y 95% là t 2.0 mmHg n 19 mmHg, v i tr s p = 0.0 209 Nh v y, chúng ta có b ng ch ng phát bi u r ng m c gi m huy t áp có ý ngh a th ng kê Chú ý n... r ng m c gi m huy t áp có ý ngh a th ng kê Chú ý n u chúng ta phân tích sai b ng ki m nh th ng kê cho hai nhóm c l p d thì tr s p = 0.32 cho bi t m c gi m áp su t không có ý ngh a th ng kê! i ây > t.test(before, after) Welch Two Sample t-test data: before and after t = 1.0208, df = 17.998, p-value = 0.3 209 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:... Chi bình ph ng cho bi t trên ph ng di n th ng kê, các t l này không khác nhau, vì tr s p = 0 .099 9.12.1 Ki m Th t ra, ki m sau: nh Chi bình ph nh Chi bình ph ng (Chi squared test, chisq.test) ng còn có th tính toán b ng hàm chisq.test nh > chisq.test(sex, ethnicity) Pearson's Chi-squared test data: sex and ethnicity X-squared = 6.2646, df = 3, p-value = 0 .099 42 Warning message: Chi-squared approximation... ng công th c sau ây: nh t Theo lí thuy t th ng kê, t x s/ n Trong ó, x là giá tr trung bình c a m u, là trung bình theo gi thi t (trong tr ng h p này, 30), s là l ch chu n, và n là s l ng m u (100) N u giá tr t cao h n giá tr lí thuy t theo phân ph i t m t tiêu chu n có ý ngh a nh 5% ch ng h n thì chúng ta có lí do phát bi u khác bi t có ý ngh a th ng kê Giá tr này cho m u 100 có th tính toán b ng... nhóm nam và n không có ý ngh a th ng kê (vì cao h n 0.05 hay 5%) 95 percent confidence interval: -10.46855 25.83627 là kho ng tin c y 95% v khác bi t gi a hai nhóm K t qu tính toán trên cho bi t igf n gi i có th th p h n nam gi i 10.5 ng/L ho c cao h n nam gi i kho ng 25.8 ng/L Vì khác bi t quá l n và ó là thêm b ng ch ng cho th y không có khác bi t có ý ngh a th ng kê gi a hai nhóm Ki m nh trên d a vào... r ng gi m áp su t máu có ý ngh a th ng kê v i tr s (p=0.023) ch ng khác m y so v i ki m nh t cho t ng c p 9.9 T n s (frequency) Hàm table trong R có ch c n ng cho chúng ta bi t v t n s c a m t bi n s mang tính phân lo i nh sex và ethnicity > table(sex) sex Female Male 69 31 > table(ethnicity) ethnicity African Asian Caucasian 8 60 30 Others 2 M t b ng th ng kê 2 chi u: > table(sex, ethnicity) ethnicity... not equal to 0 95 percent confidence interval: -13.88137 29.24 909 sample estimates: mean in group Female 167.9741 mean in group Male 160.2903 V m c s , k t qu phân tích trên có khác chút ít so v i k t qu phân tích d a vào gi nh hai ph ng sai khác nhau, nh ng tr s p c ng i n m t k t lu n r ng khác bi t gi a hai nhóm không có ý ngh a th ng kê 9.5 So sánh ph ng sai (var.test) Bây gi chúng ta th ki m nh... gi i, hàm tapply trong R có th dùng cho vi c này: > tapply(igfi, list(sex), mean) Female Male 167.9741 160.2903 Trong l nh trên, igfi là bi n s chúng ta c n tính, bi n s phân nhóm là sex, và ch s th ng kê chúng ta mu n là trung bình (mean) Qua k t qu trên, chúng ta th y s trung bình c a igfi cho n gi i (167.97) cao h n nam gi i (160.29) Nh ng n u chúng ta mu n tính cho t ng gi i tính và s c t c, chúng... m quá ngoài kho ng tin c y này) Nói cách khác, chúng ta có lí do phát bi u r ng tu i trung bình trong m u này th t s th p h n tu i trung bình c a qu n th 9.4.2 Ki m nh t hai m u Ví d 3 Qua phân tích mô t trên (ph m summary) chúng ta th y ph n có hormone igfi cao h n nam gi i (167.97 và 160.29) Câu h i t ra là có ph i th t s ó là m t khác bi t có h th ng hay do các y u t ng u nhiên gây nên Tr l i câu... 4.691336 sample estimates: ratio of variances 2.627396 K t qu trên cho th y khác bi t v ph ng sai gi a hai nhóm cao 2.62 l n Tr s p = 0.0045 cho th y ph ng sai gi a hai nhóm khác nhau có ý ngh a th ng kê Nh v y, chúng ta ch p nh n k t qu phân tích c a hàm t.test(igfi~ sex) 9.6 Ki m nh Wilcoxon cho hai m u (wilcox.test) Ki m nh t d a vào gi thi t là phân ph i c a m t bi n ph i tuân theo lu t phân ph . thng kê mô t Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t. Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng kê thông. đoán, chúng ta cn đn các phng pháp kim đnh gi thit và mô hình thng kê hc. Cng nh bt c mô hình nào, mô hình thng kê phi có thông s. Và mun có thông s, chúng ta trc ht. hành nhng tính toán đn gin trên. 9.1 Thng kê mô t (descriptive statistics, summary) minh ha cho vic áp dng R vào thng kê mô t, tôi s s dng mt d liu nghiên cu có tên