1. Trang chủ
  2. » Giáo án - Bài giảng

Chuong 09 THỐNG KÊ MÔ TẢ

22 626 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 351,1 KB

Nội dung

Chuong 09 THỐNG KÊ MÔ TẢ

9 Phân tích thng t Trong chng này, chúng ta s s dng R cho mc đích phân tích thng t. Nói đn thng t là nói đn vic t d liu bng các phép tính và ch s thng thông thng mà chúng ta đã làm quen qua t thu trung hc nh s trung bình (mean), s trung v (median), phng sai (variance) đ lch chun (standard deviation) … cho các bin s liên tc, và t s (proportion) cho các bin s không liên tc. Nhng trc khi hng dn phân tích thng t, tôi mun bn đc phi phân bit cho đc hai khái nim tng th (population) và mu (sample). 9.0 Khái nim tng th (population) và mu (sample) Sách giáo khoa thng thng gii thích hai khái nim này mt cách mù m và có khi vô ngha. Chng hn nh cun “Modern Mathematical Statistics” (E. J. Dudewicz và S. N. Mishra, Nhà xut bn Wiley, 1988) gii thích tng th rng “population is a set of n distinct elements (points) a 1 , a 2 , a 3 , … a n .” (trang 24, tm dch: “tng th là tp hp gm n phn t hay đim a 1 , a 2 , a 3 , … a n ”), còn L. Fisher và G. van Belle trong “Biostatistics – A Methodology for the Health Science” (Nhà xut bn Wiley, 1993), gii thích rng “The sample space or population is the set of all possible values of a variable” (trang 38, tm dch “Không gian mu hay tng th là tp hp tt c các giá tr kh d ca mt bin”). i vi mt nhà nghiên cu thc nghim phi nói nhng đnh ngha loi này rt tru tng và khó hiu, và dng nh chng có liên quan gì vi thc t! Trong phn này tôi s gii thích hai khái nim này bng phng và hi vng là b đc s hiu rõ hn. Có th nói mc tiêu ca nghiên cu khoa hc thc nghim là nhm tìm hiu và khám phá nhng cái cha đc bit (unknown), trong đó bao gm nhng qui lut hot đng ca t nhiên.  khám phá, chúng ta s dng đn các phng pháp phân loi, so sánh, và phng đoán. Tt c các phng pháp khoa hc, k c thng hc, đc phát trin nhm vào ba mc tiêu trên.  phân loi, chúng ta phi đo lng mt yu t hay tiêu chí có liên quan đn vn đ cn nghiên cu.  so sánh và phng đoán, chúng ta cn đn các phng pháp kim đnh gi thit và hình thng hc. Cng nh bt c hình nào, hình thng phi có thông s. Và mun có thông s, chúng ta trc ht phi tin hành đo lng, và sau đó là c tính thông s t đo lng. Chng hn nh đ bit sinh viên n có ch s thông minh (IQ) bng sinh viên nam hay không, chúng ta có th làm nghiên cu theo hai phng án: (a) Mt là lp danh sánh tt c sinh viên nam và n trên toàn quc, ri đo lng ch s IQ  tng ngi, và sau đó so sánh gia hai nhóm; (b) Hai là chn ngu nhiên mt mu gm n nam và m n sinh viên, ri đo lng ch s IQ  tng ngi, và sau đó so sánh gia hai nhóm. Phng án (a) rt tn kém và có th nói là không thc t, vì chúng ta phi tp hp tt c sinh viên ca c nc, mt vic làm rt khó thc hin đc. Nhng gi d nh chúng ta có th làm đc, thì phng án này không cn đn thng hc. Giá tr IQ trung bình ca n và nam sinh viên tính t phng án (a) là giá tr cui cùng, và nó tr li câu hi ca chúng ta mt cách trc tip, chúng ta không cn phi suy lun, không cn đn kim đnh thng gì c! Phng án (b) đòi hi chúng ta phi chn n nam và m n sinh viên sao cho đi din (representative) cho toàn qun th sinh viên ca c nc. Tính “đi din”  đây có ngha là các s n nam và m n sinh viên này phi có cùng đc tính nh đ tui, trình đ hc vn, thành phn kinh t, xã hi, ni sinh sng. v.v… so vi tng th sinh viên ca c nc. Bi vì chúng ta không bit các đc tính này trong toàn b tng th sinh viên, chúng ta không th so sánh trc tip đc, cho nên mt phng pháp rt hu hiu là ly mu mt cách ngu nhiên. Có nhiu phng pháp ly mu ngu nhiên đã đc phát trin và tôi s không bàn qua chi tit ca các phng pháp này, ngoi tr mun nhn mnh rng, nu cách ly mu không ngu nhiên thì các c s t mu s không có ý ngha khoa hc cao, bi vì các phng pháp phân tích thng da vào gi đnh rng mu phi đc chn mt cách ngu nhiên. Tôi s ly mt ví d c th v tng th và mu qua ng dng R nh sau. Gi d chúng ta có mt tng th gm 20 ngi và bit rng chiu cao ca h nh sau (tính bng cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156, 157, 154 và 157. Nh vy, chúng ta bit rng chiu cao trung bình ca tng th là 158.65 cm. Xin nhn mnh đó là tng th. Vì thiu thn phng tin chúng ta không th nghiên cu trên toàn tng th mà ch có th ly mu t tng th đ c tính chiu cao. Hàm sample() cho phép chúng ta ly mu. Và c tính chiu cao trung bình t mu tt nhiên s khác vi chiu cao trung bình ca tng th. • Chn 5 ngi t tng th: > sample5 <- sample(height, 5) > sample5 [1] 153 157 164 156 149 c tính chiu cao trung bình t mu này: > mean(sample5) [1] 155.8 • Chn 5 ngi khác t tng th và tính chiu cao trung bình: > sample5 <- sample(height, 5) > sample5 [1] 157 162 167 161 150 > mean(sample5) [1] 159.4 Chú ý c tính chiu cao ca mu th hai là 159.4 cm (thay vì 155.8 cm), bi vì chn ngu nhiên, cho nên đi tng đc chn ln hai không nht thit phi là đi tng ln th nht, cho nên c tính trung bình khác nhau. • Bây gi chúng ta th ly mu 10 ngi t tng th và tính chiu cao trung bình: > sample10 <- sample(height, 10) > sample10 [1] 153 160 150 165 159 160 164 156 162 157 > mean(sample10) [1] 158.6 Chúng ta có th ly nhiu mu, mi mu gm 10 ngi và c tính s trung bình t mu, bng mt lnh đn gin hn nh sau: > mean(sample(height, 10)) [1] 156.7 > mean(sample(height, 10)) [1] 157.1 > mean(sample(height, 10)) [1] 159.3 > mean(sample(height, 10)) [1] 159.3 > mean(sample(height, 10)) [1] 158.3 > mean(sample(height, 10)) Chú ý đ dao đng ca s trung bình t 156.7 đn 159.3 cm. • Chúng ta th ly mu 15 ngi t tng th và tính chiu cao trung bình: > mean(sample(height, 15)) [1] 158.6667 > mean(sample(height, 15)) [1] 159.4 > mean(sample(height, 15)) [1] 158.0667 > mean(sample(height, 15)) [1] 158.1333 > mean(sample(height, 15)) [1] 156.4667 Chú ý đ dao đng ca s trung bình bây gi t 158.0 đn 158.7 cm, tc thp hn mu vi 10 đi tng. • Tng c mu lên 18 ngi (tc gn s đi tng trong tng th) > mean(sample(height, 18)) [1] 158.2222 > mean(sample(height, 18)) [1] 158.7222 > mean(sample(height, 18)) [1] 158.0556 > mean(sample(height, 18)) [1] 158.4444 > mean(sample(height, 18)) [1] 158.6667 > mean(sample(height, 18)) [1] 159.0556 > mean(sample(height, 18)) [1] 159 Bây gi thì c tính chiu cao khá n đnh, nhng không khác gì so vi c mu vi 15 ngi, do đ dao đng t 158.2 đn 159 cm. T các ví d trên đây, chúng ta có th rút ra mt nhn xét quan trng: c s t các mu đc chn mt cách ngu nhiên s khác vi thông s ca tng th, nhng khi s c mu tng lên thì đ khác bit s nh li dn. Do đó, mt trong nhng vn đ then cht ca thit k nghiên cu là nhà nghiên cu phi c tính c mu sao cho c s mà chúng ta tính t mu gn (hay chính xác) so vi thông s ca tng th. Tôi s quay li vn đ này trong Chng 15. Trong ví d trên s trung bình ca tng th là 158.65 cm. Trong thng hc, chúng ta gi đó là thông s (parameter). Và các s trung bình c tính t các mu chn t tng th đó đc gi là c s mu (sample estimate). Do đó, xin nhc li đ nhn mnh: nhng ch s liên quan đn tng th là thông s, còn nhng s c tính t các mu là c s. Nh thy trên, c s có đ dao đng chung quanh thông s, và vì trong thc t chúng ta không bit thông s, cho nên chúng mc tiêu chính ca phân tích thng s dng c s đ suy lun v thông s. Mc tiêu chính ca phân tích thng t là tìm nhng c s ca mu. Có hai loi đo lng: liên tc (continuous measurement) và không liên tc hay ri rc (discrete measurement). Các bin liên tc nh đ tui, chiu cao, trng lng c th, v.v… là bin s liên tc, còn các bin mang tính phân loi nh có hay không có bnh, thích hay không thích, trng hay đen, v.v… là nhng bin s không liên tc. Cách tính hai loi bin s này cng khác nhau. c s thông thng nht dùng đ t mt bin s liên tc là s trung bình (mean). Chng hn nh chiu cao ca nhóm 1 gm 5 đi tng là 160, 160, 167, 156, và 161, do đó s trung bình là 160.8 cm. Nhng chiu cao ca nhóm 2 cng gm 5 đi tng khác nh142, 150, 187, 180 và 145, thì s trung bình vn là 160.8. Do đó, s trung bình không th phn ánh đy đ s phân phi ca mt bin liên tc, vì  đây tuy hai nhóm có cùng trung bình nhng đ khác bit ca nhóm 2 cao hn nhóm 1 rt nhiu. Và chúng ta cn mt c s khác gi là phng sai (variance). Phng sai ca nhóm 1 là 15.7 cm 2 và nhóm 2 là 443.7 cm 2 . Vi mt bin s không liên tc nh 0 và 1 (0 kí hiu còn sng, và 1 kí hiu t vong) thì c s trung bình không còn ý ngha “trung bình” na, cho nên chúng ta có c s t l (proportion). Chng hn nh trong s 10 ngi có 2 ngi t vong, thì t l t vong là 0.2 (hay 20%). Trong s 200 ngi có 40 ngi qua đi thì t l t vong vn 0.2. Do đó, cng nh trng hp trung bình, t l không th t mt bin không liên tc đy đ đc. Chúng ta cn đn phng sai đ, cùng vi t l, t mt bin không liên tc. Trong trng hp 2/10 phng sai là 0.016, còn trong trng hp 40/200, phng sai là 0.0008. Trong chng này, chúng ta s làm quen vi mt s lnh trong R đ tin hành nhng tính toán đn gin trên. 9.1 Thng t (descriptive statistics, summary)  minh ha cho vic áp dng R vào thng t, tôi s s dng mt d liu nghiên cu có tên là igfdata. Trong nghiên cu này, ngoài các ch s liên quan đn gii tính, đ tui, trng lng và chiu cao, chúng tôi đo lng các hormone liên quan đn tình trng tng trng nh igfi, igfbp3, als, và các markers liên quan đn s chuyn hóa ca xng pinp, ictp và pinp. Có 100 đi tng nghiên cu. D liu này đc cha trong directory c:\works\stats. Trc ht, chúng ta cn phi nhp d liu vào R vi nhng lnh sau đây (các câu ch theo sau du # là nhng chú thích đ bn đc theo dõi): > options(width=100) # chuyn directory > setwd("c:/works/stats") # đc d liu vào R > igfdata <- read.table("igf.txt", header=TRUE, na.strings=".") > attach(igfdata) # xem xét các ct s trong d liu > names(igfdata) [1] "id" "sex" "age" "weight" "height" "ethnicity" [7] "igfi" "igfbp3" "als" "pinp" "ictp" "p3np" > igfdata id sex age weight height ethnicity igfi igfbp3 als pinp ictp p3np 1 1 Female 15 42 162 Asian 189.000 4.00000 323.667 353.970 11.2867 8.3367 2 2 Male 16 44 160 Caucasian 160.000 3.75000 333.750 375.885 10.4300 6.7450 3 3 Female 15 43 157 Asian 146.833 3.43333 248.333 199.507 8.3633 12.5000 4 4 Female 15 42 155 Asian 185.500 3.40000 251.000 483.607 13.3300 14.2767 5 5 Female 16 47 167 Asian 192.333 4.23333 322.000 105.430 7.9233 4.5033 6 6 Female 25 45 160 Asian 110.000 3.50000 284.667 76.487 4.9833 4.9367 7 7 Female 19 45 161 Asian 157.000 3.20000 274.000 75.880 6.3500 5.3200 8 8 Female 18 43 153 Asian 146.000 3.40000 303.000 86.360 7.3700 4.6700 9 9 Female 15 41 149 Asian 197.667 3.56667 308.500 254.803 11.8700 6.8200 10 10 Female 24 45 157 African 148.000 3.40000 273.000 44.720 3.7400 6.1600 97 97 Female 17 54 168 Caucasian 204.667 4.96667 441.333 64.130 5.1600 4.4367 98 98 Male 18 55 169 Asian 178.667 3.86667 273.000 185.913 7.5267 8.8333 99 99 Female 18 48 151 Asian 237.000 3.46667 324.333 105.127 5.9867 5.6600 100 100 Male 15 54 168 Asian 130.000 2.70000 259.333 325.840 10.2767 6.5933 Trên đây ch là mt phn s liu trong s 100 đi tng. Cho mt bin s 123 , , , , n x xx x chúng ta có th tính toán mt s ch s thng t nh sau: Lí thuyt Hàm R S trung bình: x n x i i n = = ∑ 1 1 . mean(x) Phng sai: () ∑ − − = = n i i xx n s 1 2 2 1 1 var(x)  lch chun: 2 ss= sd(x) Sai s chun (standard error): s SE n = Không có Tr s thp nht min(x) Tr s cao nht max(x) Toàn c (range) range(x) Ví d 1:  tìm giá tr trung bình ca đ tui, chúng ta ch đn gin lnh: > mean(age) [1] 19.17 Hay phng sai và đc lch chun ca tui: > var(age) [1] 15.33444 > sd(age) [1] 3.915922 Tuy nhiên, R có lnh summary có th cho chúng ta tt c thông tin thng v mt bin s: > summary(age) Min. 1st Qu. Median Mean 3rd Qu. Max. 13.00 16.00 19.00 19.17 21.25 34.00 Nói chung, kt qu này đn gin và các vit tt cng có th d hiu. Chú ý, trong kt qu trên, có hai ch s “1st Qu” và “3rd Qu” có ngha là first quartile (tng đng vi v trí 25%) và third quartile (tng đng vi v trí 75%) ca mt bin s. First quartile = 16 có ngha là 25% đi tng nghiên cu có đ tui bng hoc nh hn 16 tui. Tng t, Third quartile = 34 có ngha là 75% đi tng có đ tui bng hoc thp hn 34 tui. Tt nhiên s trung v (median) 19 cng có ngha là 50% đi tng có đ tui 19 tr xung (hay 19 tui tr lên). R không có hàm tính sai s chun, và trong hàm summary, R cng không cung cp đ lch chun.  có các s này, chúng ta có th t vit mt hàm đn gin (hãy gi là desc) nh sau: desc <- function(x) { av <- mean(x) sd <- sd(x) se <- sd/sqrt(length(x)) c(MEAN=av, SD=sd, SE=se) } Và có th gi hàm này đ tính bt c bin nào chúng ta mun, nh tính bin als sau đây: > desc(als) MEAN SD SE 301.841120 58.987189 5.898719  có mt “quang cnh” chung v d liu igfdata chúng ta ch đn gin lnh summary nh sau: > summary(igfdata) id sex age weight height ethnicity Min. : 1.00 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 African : 8 1st Qu.: 25.75 Male :31 1st Qu.:16.00 1st Qu.:47.00 1st Qu.:157.0 Asian :60 Median : 50.50 Median :19.00 Median :50.00 Median :162.0 Caucasian:30 Mean : 50.50 Mean :19.17 Mean :49.91 Mean :163.1 Others : 2 3rd Qu.: 75.25 3rd Qu.:21.25 3rd Qu.:53.00 3rd Qu.:168.0 Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0 igfi igfbp3 als pinp ictp Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697 1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878 Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338 Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420 3rd Qu.:186.46 3rd Qu.:3.875 3rd Qu.:331.2 3rd Qu.:196.45 3rd Qu.: 8.423 Max. :427.00 Max. :5.233 Max. :471.7 Max. :742.68 Max. :21.237 p3np Min. : 2.343 1st Qu.: 4.433 Median : 5.445 Mean : 6.341 3rd Qu.: 7.150 Max. :16.303 R tính toán tt c các bin s nào có th tính toán đc! Thành ra, ngay c ct id (tc mã s ca đi tng nghiên cu) R cng tính luôn! (và chúng ta bit kt qu ca ct id chng có ý ngha thng gì). i vi các bin s mang tính phân loi nh sex và ethnicity (sc tc) thì R ch báo cáo tn s cho mi nhóm. Kt qu trên cho tt c đi tng nghiên cu. Nu chúng ta mun kt qu cho tng nhóm nam và n riêng bit, hàm by trong R rt hu dng. Trong lnh sau đây, chúng ta yêu cu R tóm lc d liu igfdata theo sex. > by(igfdata, sex, summary) sex: Female id sex age weight height Min. : 1.0 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 1st Qu.:21.0 Male : 0 1st Qu.:17.00 1st Qu.:47.00 1st Qu.:156.0 Median :47.0 Median :19.00 Median :50.00 Median :162.0 Mean :48.2 Mean :19.59 Mean :49.35 Mean :161.9 3rd Qu.:75.0 3rd Qu.:22.00 3rd Qu.:52.00 3rd Qu.:166.0 Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0 ethnicity igfi igfbp3 als African : 4 Min. : 85.71 Min. :2.767 Min. :204.3 Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8 Caucasian:22 Median :163.33 Median :3.567 Median :302.7 Others : 0 Mean :167.97 Mean :3.695 Mean :311.5 3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7 Max. :427.00 Max. :5.233 Max. :471.7 pinp ictp p3np Min. : 26.74 Min. : 2.697 Min. : 2.343 1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337 Median : 78.50 Median : 5.537 Median : 5.143 Mean :108.74 Mean : 6.183 Mean : 5.643 3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143 Max. :502.05 Max. :13.633 Max. :14.420 sex: Male id sex age weight height Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0 1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5 Median : 56.00 Median :17.00 Median :51.00 Median :164.0 Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6 3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0 Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0 ethnicity igfi igfbp3 als African : 4 Min. : 94.67 Min. :2.000 Min. :192.7 Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8 Caucasian: 8 Median :160.00 Median :3.500 Median :276.0 Others : 2 Mean :160.29 Mean :3.443 Mean :280.2 3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3 Max. :274.00 Max. :4.500 Max. :388.7 pinp ictp p3np Min. : 56.28 Min. : 3.650 Min. : 3.390 1st Qu.:135.07 1st Qu.: 6.900 1st Qu.: 5.375 Median :245.92 Median : 9.513 Median : 7.140 Mean :297.21 Mean :10.173 Mean : 7.895 3rd Qu.:450.38 3rd Qu.:13.517 3rd Qu.:10.010 Max. :742.68 Max. :21.237 Max. :16.303  xem qua phân phi ca các hormones và ch s sinh hóa cùng mt lúc, chúng ta có th v đ th cho tt c 6 bin s. Trc ht, chia màn nh thành 6 ca s (vi 2 dòng và 3 ct); sau đó ln lt v: > op <- par(mfrow=c(2,3)) > hist(igfi) > hist(igfbp3) > hist(als) > hist(pinp) > hist(ictp) > hist(p3np) Histogram of igfi igfi Frequency 100 200 300 400 0 10203040 Histogram of igfbp3 igf bp3 Frequency 2.0 3.0 4.0 5.0 0 10203040 Histogram of als als Frequency 150 250 350 450 0 102030 Histogram of pinp pinp Frequency 0 200 400 600 800 01020304050 Histogram of ictp ic tp Frequency 5101520 0102030 Histogram of p3np p3np Frequency 51015 0 10203040 9.2 Kim đnh xem mt bin có phi phân phi chun Trong phân tích thng kê, phn ln các phép tính da vào gi đnh bin s phi là mt bin s phân phi chun (normal distribution). Do đó, mt trong nhng vic quan trng khi xem xét d kin là phi kim đnh gi thit phân phi chun ca mt bin s. Trong đ th trên, chúng ta thy các bin s nh igfi, pinp, ictp và p3np có v tp trung vào các giá tr thp và không cân đi, tc du hiu ca mt s phân phi không chun.  kim đnh nghiêm chnh, chúng ta cn phi s dng kim đnh thng có tên là “Shapiro test” và trong R gi là hàm shapiro.test. Chng hn nh kim đnh gi thit phân phi chun ca bin s pinp, > shapiro.test(pinp) Shapiro-Wilk normality test data: pinp W = 0.748, p-value = 8.314e-12 Vì tr s p (p-value) thp hn 0.05, chúng ta có th kt lun rng bin s pinp không đáp ng lut phân phi chun. Nhng vi bin s weight (trng lng c th) thì kim đnh này cho bit đây là mt bin s tuân theo lut phân phi chun vì tr s p > 0.05. > shapiro.test(weight) Shapiro-Wilk normality test data: weight W = 0.9887, p-value = 0.5587 Tht ra, kt qu trên cng phù hp vi đ th ca weight: > hist(weight) Histogram of weight weight Frequency 40 45 50 55 60 051015 9.3 Thng t theo tng nhóm [...]... p-value = 0.0 2097 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.993901 19.00 6099 sample estimates: mean of the differences 10.5 K t qu trên cho th y sau khi i u tr áp su t máu gi m 10.5 mmHg, và kho ng tin c y 95% là t 2.0 mmHg n 19 mmHg, v i tr s p = 0.0 209 Nh v y, chúng ta có b ng ch ng phát bi u r ng m c gi m huy t áp có ý ngh a th ng Chú ý n... r ng m c gi m huy t áp có ý ngh a th ng Chú ý n u chúng ta phân tích sai b ng ki m nh th ng cho hai nhóm c l p d thì tr s p = 0.32 cho bi t m c gi m áp su t không có ý ngh a th ng kê! i ây > t.test(before, after) Welch Two Sample t-test data: before and after t = 1.0208, df = 17.998, p-value = 0.3 209 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:... Chi bình ph ng cho bi t trên ph ng di n th ng kê, các t l này không khác nhau, vì tr s p = 0 .099 9.12.1 Ki m Th t ra, ki m sau: nh Chi bình ph nh Chi bình ph ng (Chi squared test, chisq.test) ng còn có th tính toán b ng hàm chisq.test nh > chisq.test(sex, ethnicity) Pearson's Chi-squared test data: sex and ethnicity X-squared = 6.2646, df = 3, p-value = 0 .099 42 Warning message: Chi-squared approximation... ng công th c sau ây: nh t Theo lí thuy t th ng kê, t x s/ n Trong ó, x là giá tr trung bình c a m u, là trung bình theo gi thi t (trong tr ng h p này, 30), s là l ch chu n, và n là s l ng m u (100) N u giá tr t cao h n giá tr lí thuy t theo phân ph i t m t tiêu chu n có ý ngh a nh 5% ch ng h n thì chúng ta có lí do phát bi u khác bi t có ý ngh a th ng Giá tr này cho m u 100 có th tính toán b ng... nhóm nam và n không có ý ngh a th ng (vì cao h n 0.05 hay 5%) 95 percent confidence interval: -10.46855 25.83627 là kho ng tin c y 95% v khác bi t gi a hai nhóm K t qu tính toán trên cho bi t igf n gi i có th th p h n nam gi i 10.5 ng/L ho c cao h n nam gi i kho ng 25.8 ng/L Vì khác bi t quá l n và ó là thêm b ng ch ng cho th y không có khác bi t có ý ngh a th ng gi a hai nhóm Ki m nh trên d a vào... r ng gi m áp su t máu có ý ngh a th ng v i tr s (p=0.023) ch ng khác m y so v i ki m nh t cho t ng c p 9.9 T n s (frequency) Hàm table trong R có ch c n ng cho chúng ta bi t v t n s c a m t bi n s mang tính phân lo i nh sex và ethnicity > table(sex) sex Female Male 69 31 > table(ethnicity) ethnicity African Asian Caucasian 8 60 30 Others 2 M t b ng th ng 2 chi u: > table(sex, ethnicity) ethnicity... not equal to 0 95 percent confidence interval: -13.88137 29.24 909 sample estimates: mean in group Female 167.9741 mean in group Male 160.2903 V m c s , k t qu phân tích trên có khác chút ít so v i k t qu phân tích d a vào gi nh hai ph ng sai khác nhau, nh ng tr s p c ng i n m t k t lu n r ng khác bi t gi a hai nhóm không có ý ngh a th ng 9.5 So sánh ph ng sai (var.test) Bây gi chúng ta th ki m nh... gi i, hàm tapply trong R có th dùng cho vi c này: > tapply(igfi, list(sex), mean) Female Male 167.9741 160.2903 Trong l nh trên, igfi là bi n s chúng ta c n tính, bi n s phân nhóm là sex, và ch s th ng chúng ta mu n là trung bình (mean) Qua k t qu trên, chúng ta th y s trung bình c a igfi cho n gi i (167.97) cao h n nam gi i (160.29) Nh ng n u chúng ta mu n tính cho t ng gi i tính và s c t c, chúng... m quá ngoài kho ng tin c y này) Nói cách khác, chúng ta có lí do phát bi u r ng tu i trung bình trong m u này th t s th p h n tu i trung bình c a qu n th 9.4.2 Ki m nh t hai m u Ví d 3 Qua phân tích t trên (ph m summary) chúng ta th y ph n có hormone igfi cao h n nam gi i (167.97 và 160.29) Câu h i t ra là có ph i th t s ó là m t khác bi t có h th ng hay do các y u t ng u nhiên gây nên Tr l i câu... 4.691336 sample estimates: ratio of variances 2.627396 K t qu trên cho th y khác bi t v ph ng sai gi a hai nhóm cao 2.62 l n Tr s p = 0.0045 cho th y ph ng sai gi a hai nhóm khác nhau có ý ngh a th ng Nh v y, chúng ta ch p nh n k t qu phân tích c a hàm t.test(igfi~ sex) 9.6 Ki m nh Wilcoxon cho hai m u (wilcox.test) Ki m nh t d a vào gi thi t là phân ph i c a m t bi n ph i tuân theo lu t phân ph . thng kê mô t Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t. Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng kê thông. đoán, chúng ta cn đn các phng pháp kim đnh gi thit và mô hình thng kê hc. Cng nh bt c mô hình nào, mô hình thng kê phi có thông s. Và mun có thông s, chúng ta trc ht. hành nhng tính toán đn gin trên. 9.1 Thng kê mô t (descriptive statistics, summary)  minh ha cho vic áp dng R vào thng kê mô t, tôi s s dng mt d liu nghiên cu có tên

Ngày đăng: 29/05/2014, 12:44

TỪ KHÓA LIÊN QUAN

w