[r]
(1)S BI N THIÊN M U C A T LỰ Ế Ẫ Ủ Ỉ Ệ
1 Mục tiêu
Sau khi nghiên c u ch đ h c viên có kh năng:ứ ủ ề ọ ả
Nêu được hai phương pháp chính s d ng trong phân tích th ng kê: ki m đ nh và ử ụ ố ể ị ước lượng
Trình bày được đ nh nghĩa c a sai s chu n và phân bi t sai s chu n và đ l chị ủ ố ẩ ệ ố ẩ ộ ệ chu nẩ
Nh n th c đậ ứ ược ý nghĩa c a bi n thiên m uủ ế ẫ
Trình bày được cơng th c tính sai s chu n c a t l và kho ng tin c y c a t l ứ ố ẩ ủ ỉ ệ ả ậ ủ ỉ ệ 2 Biến số định tính, biến số nhị giá
Bi n s đ nh tính (qualitative variable categorical variable) là nh ng đ c tính thay đ iế ố ị ữ ặ ổ t ngừ ười này sang người khác. Trong s li u đ nh tính khơng có s đo lố ệ ị ự ường (đ nhị lượng) mà ch có s phân lo i m t đ i tỉ ự ộ ố ượng thu c vào m t trong hai lo i:ộ ộ
Trong nghiên c u quan sát ngứ ười ta có th phân lo i các đ c tính v l i s ng hay b nhể ặ ề ố ố ệ t t nh :ậ
a. Thói quen hút thu c lá: khơng hút, b hút, đang hút thu c láố ỏ ố b. Thói quen ăn u ng: ăn chay, khơng ăn chayố
c. Xét nghi m máu phát hi n nhi m HIV: dệ ệ ễ ương tính, âm tính
d. Đo ECG phát hi n ti n s nh i máu c tim: Không, nghi ng , xác đ nhệ ề ị e. Ung th trong 10 năm theo dõi hay khơng: Có, khơngư
Trong nghiên c u th nghi m lâm sàng, có th phân lo i đ i tứ ệ ể ố ượng theo f. S ng còn h n 1 năm sau khi b nh i máu: s ng, ch tố ị ố ế
g. K t qu lâm sàng sau đi u tr kháng sinh viêm h ng, amydale: ch a kh i, thuyênế ả ề ị ọ ữ ỏ gi m, không b tả
Ðơi khi các đo lường đ nh lị ượng cũng được chia nhóm đ t o ra bi n s đ nh tính:ể ế ố ị a. U ng rố ươu: không, u ng th nh tho ng, u ng đ u, nghi n n ngố ỉ ả ố ề ệ ặ
b. Ti u để ường: có (đường huy t lúc đói ế ≥ 140 mg/100mL) hay khơng
Nh đã đư ược trình bày phân ph i c a bi n s đ nh tính đố ủ ế ố ị ược mơ t b ng (s giá trả ằ ố ị c a bi n s 1) t n su t. Thí d , gi s chúng ta thu th p thơng tin v thói quen hútủ ế ố ầ ấ ụ ả ậ ề thu c lá (có 3 giá tr khơng hút, b hút và hút thu c) trên thanh niên, chúng ta ch c n tố ị ỏ ố ỉ ầ ỉ l thanh niên hút thu c lá và t l thanh niên b hút thì chúng ta bi t đệ ố ỉ ệ ỏ ế ược phân ph iố c a s li u này (t l thanh niên không hút thu c là có th tính đủ ố ệ ỉ ệ ố ể ược khi bi t hai t lế ỉ ệ kia).
Trong bài này chúng ta s ch t p trung chú ý đ n bi n s đ nh tính có 2 giá tr Bi n sẽ ỉ ậ ế ế ố ị ị ế ố này được g i là bi n s nh giá (binary variable). Nh v y, vì bi n s nh giá ch có 2ọ ế ố ị ậ ế ố ị ỉ giá tr nên ch c n mô t b ng m t con s t l (ho c m t con s ph n trăm).ị ỉ ầ ả ằ ộ ố ỉ ệ ặ ộ ố ầ
(2)T l tr b suy dinh dỉ ệ ẻ ị ưỡng nh cân = ẹ
Trình bày theo cách khác, ph n trăm tr em b suy dinh dầ ẻ ị ưỡng là 32,9 % 4 Ðại cương mẫu phương pháp lấy mẫu
Trong nghiên c u, chúng ta thứ ường ch có th thu th p s li u trên m t t p h p nh tỉ ể ậ ố ệ ộ ậ ợ ấ đ nh các đ i tị ố ượng nh ng chúng ta l i mu n khái quát hóa k t qu c a các s li u vàư ố ế ả ủ ố ệ áp d ng chúng cho m t dân s r ng l n h n. Trong th ng kê, t p h p các đ i tụ ộ ố ộ ố ậ ợ ố ượng thu th p s li u đậ ố ệ ược g i m u (sample) hay dân s nghiên c u (studyọ ẫ ố ứ population). Dân s mà chúng ta mu n áp d ng k t qu c a nghiên c u đố ố ụ ế ả ủ ứ ược g i làọ dân s m c tiêu (target population)ố ụ
Dân s m c tiêu: t p h p các đ i tố ụ ậ ợ ố ượng mà chúng ta mu n các thành qu nghiên c uố ả ứ được áp d ng vàoụ
Dân s nghiên c u (còn đố ứ ược g i là m u): t p h p các đ i tọ ẫ ậ ợ ố ượng có các đ c tính hayặ đ i lạ ượng được thu th p trong q trình nghiên c u.ậ ứ
Có th nói đi m m u ch t c a nghiên c ú khoa h c là làm sao vi c áp d ng có giá trể ể ấ ố ủ ọ ệ ụ ị các k t qu nghiên c u (v i các s li u c a m u) lên dân s m c tiêu. Mu n cho vi cế ả ứ ố ệ ủ ẫ ố ụ ố ệ áp d ng có giá tr m t trong nh ng đi u ki n tiên quy t là c m u (sample size) ph iụ ị ộ ữ ề ệ ế ỡ ẫ ả đ l n và phủ ương pháp m u ph i có tính đ i di n.ẫ ả ệ
B ng tr c giác chúng ta c m nh n đằ ự ả ậ ượ ằc r ng n u s đ i tế ố ố ượng trong m u càng nhi uẫ ề (c m u càng l n) thì ỡ ẫ ướ ược l ng chúng ta càng có tính tin c y cao h n. Thí d n uậ ụ ế chúng ta mu n bi n t l suy dinh dố ế ỉ ệ ưỡng tr dở ẻ ưới 5 tu i TP H Chí Minh. N uổ ế chúng ta ch đi u tra trên 10 tr thì chúng ta khơng tin tỉ ề ẻ ưởng vào t l tính đỉ ệ ượ ắc l m. Nh ng n u chúng ta đi u tra 1000 tr (n u 1000 tr này đ i di n cho các tr dư ế ề ẻ ế ẻ ệ ẻ ưới 5 c a TP H Chí Minh) thì chúng ta khá tin vào k t qu kh o sát đủ ế ả ả ược. Ðó là c m nh nả ậ tr c giác c a chúng ta v bi n thiên c a m u.ự ủ ề ế ủ ẫ
5 Kí hiệu
Gi s chúng ta ti n hành m t cu c đi u tra t l suy dinh dả ế ộ ộ ề ỉ ệ ưỡng trên dân s tr em.ố ẻ Chúng ta kí hi u t l suy dinh dệ ỉ ệ ưỡng trong dân s này là ố π. N u chúng ta ch n m tế ọ ộ cách ng u nhiên n tr trong dân s đó nh m tìm hi u v tình hình suy dinh dẫ ẻ ố ằ ể ề ưỡng này thì t p h p n tr em này đậ ợ ẻ ược g i là dân s nghiên c u (hay m u). Trong trọ ố ứ ẫ ường h pợ này c m u là n.ỡ ẫ
Chúng ta tính t l suy dinh dỉ ệ ưỡng trên n tr đẻ ược nghiên c u b ng cách chia s trứ ằ ố ẻ được phát hi n là suy dinh dệ ưỡng cho n. T l này đỉ ệ ược kí hi u b ng p. Nói chung t lệ ằ ỉ ệ trong m u p s không đ ng nh t v i t l trong dân s ẫ ẽ ấ ỉ ệ ốπ và n u chúng ta có nhi u m uế ề ẫ nghiên c u chúng ta s có nhi u t l m u (pứ ẽ ề ỉ ệ ẫ 1, p2, p3, ) tương ng v i các m u khácứ ẫ
nhau. Tóm l i ạ π là t l trong dân s đích, là m t tham s h ng đ nh và chúng ta mu nỉ ệ ố ộ ố ằ ị ố bi t trong khi đó, p là t l trong m u ln ln dao đ ng và là s li u đ chúng ta cóế ỉ ệ ẫ ộ ố ệ ể th rút ra các k t lu n v t l trong dân s đích ể ế ậ ề ỉ ệ ố π
6 Biến thiên mẫu nhị thức
(3)qu tính xác su t kh o sát đả ấ ả ược x tr suy dinh dẻ ưỡn khi c m u tỡ ẫ ương ng là 5, 20,ứ và 50
T k t qu trên chúng ta có nh n xét nh sau:ừ ế ả ậ
Phân ph i xác su t s tr b suy dinh dố ấ ố ẻ ị ưỡng (đây là bi n c đế ố ược quan tâm) có khuynh hướng t p trung chung quanh t l suy dinh dậ ỉ ệ ưỡng dân s đích = 0,3ở ố
Khi c m u nh , phân ph i xác su t s tr b suy dinh dỡ ẫ ỏ ố ấ ố ẻ ị ưỡng có th khơng cân đ iể ố nh ng khi c m u đ l n (khi nư ỡ ẫ ủ π ≥ 5) thì phân ph i xác su t có tính đ i x ng và cóố ấ ố ứ hình chng úp. Ði u này cho th y r ng bi n s X (s tr b suy dinh dề ấ ằ ế ố ố ẻ ị ưỡng t nầ su t x y ra bi n c quan tâm) s ti m c n phân ph i bình thấ ả ế ố ẽ ệ ậ ố ường
N u chúng r t may m n, t l suy dinh dế ấ ắ ỉ ệ ưỡng m u, kí hi u là p, s b ng v i t lẫ ệ ẽ ằ ỉ ệ suy dinh dưỡng c a dân s đích ủ ố π. Tuy nhiên thơng thường chúng ta khơng may m nắ nh v y và t l c a m u s dao đ ng (phân tán) chung quanh giá tr c a dân s đich.ư ậ ỉ ệ ủ ẫ ẽ ộ ị ủ ố Chúng ta dùng (p π)2 đ đo lể ường m c đ dao đ ng c a p chung quan ứ ộ ộ ủ π. Và chúng ta
có th ch ng minh b ng tốn h c r ng n u chúng ta l y nhi u m u ng u nhiên g m nể ứ ằ ọ ằ ế ấ ề ẫ ẫ đ i tố ượng thì trung bình c a (p ủ π)2 s b ng v i ẽ ằ ớ π(1π)/n
Con s ốπ(1π)/n được g i là phọ ương sai c a t l và căn b c hai c a nó đủ ỉ ệ ậ ủ ược g i là saiọ s chu n c a t l (standard error of a proportion) và nó đo lố ẩ ủ ỉ ệ ường m c đ sai s trungứ ộ ố bình c a p, nói cách khác, nó cho chúng ta bi t chúng ta hi v ng t l p c a chúng taủ ế ọ ỉ ệ ủ khác v i (bao nhiêu, tính v m t trung bình.ớ ề ặ
n ) -(1 (S.E.)
lệ tỉ chuẩn số
Sai
Vi t theo ngơn ng tốn h c hình th cế ữ ọ ứ p ~ N(π, )
(4)0145 , , , 1000 ) -(1 n ) -(1 (S.E.) lệ tỉ chuẩn số Sai
N u chúng ta trình bày theo ph n trăm thì v i t l suy dinh dế ầ ỉ ệ ưỡng trong dân s là 30%ố thì sai s chu n c a t l suy dinh dố ẩ ủ ỉ ệ ưỡng là 1,45%
Chúng ta có th có nh n xét: tr khi t l trong qu n th đích quá g n 0% hay 100%,ể ậ ỉ ệ ầ ể ầ sai s chu n tố ẩ ương đ i ít thay đ i. M t quy t c tính r (rule of thumb)đ ánh ch ng saiố ổ ộ ắ ợ ể s chu n: c m u 100 thì sai s chu n là 5%, c m u 400 sai s chu n vào kho ng 2ố ẩ ỡ ẫ ố ẩ ỡ ẫ ố ẩ ả % và c m u 10000 thì sai s chu n vào kho ng 0,5%.ỡ ẫ ố ẩ ả
Trong trường h p không bi t t l c a dân s ợ ế ỉ ệ ủ ố π, s d ng t l c a m u p đ ử ụ ỉ ệ ủ ẫ ể ước lượng sai s chu n.Thí d gi s kh o sát 1241 tr em, phát hi n đố ẩ ụ ả ả ẻ ệ ược 150 tr b suyẻ ị dinh dưỡng nh cân. T l suy dinh dẹ ỉ ệ ưỡng là 0,121 và sai s chu n c a t l suy dinhố ẩ ủ ỉ ệ dưỡng là:
0.009 1241 ) -(1 n ) -(1 n ) -(1
S.E p p 0,121 0,121
Nh v y t l suy dinh dư ậ ỉ ệ ưỡng là 12,1% v i sai s chu n là 0,9%ớ ố ẩ 7 Khoảng tin cậy 95% tỉ lệ
Khi chúng ta quan sát m t t l trong m t m u ng u nhiên, chúng ta mong mu n cóộ ỉ ệ ộ ẫ ẫ ố được m t kho ng các giá tr mà giá tr t l (th c) c a dân s n m trong đó. Chúng taộ ả ị ị ỉ ệ ự ủ ố ằ có th tính để ược kho ng này s d ng tính x p x bình thả ụ ấ ỉ ường c a phân ph i nh th c.ủ ố ị ứ
p ~ N(π, )
Theo tính ch t th 4 c a phân ph i bình thấ ứ ủ ố ường, xác su t giá tr p n m trong ph m vi ấ ị ằ n ) -(1 96 ,
là 95%. N u khơng u c u chính xác, ta có th cho r ng 95% các trế ầ ể ằ ường h p nghiênợ c u giá tr ứ ịπ n m trong kho ng:ằ ả
n )
-(1 p
p p 1,96
đ n ế n
)
-(1 p
p p 1,96
hay còn được vi t là p ế ± 1,96 × S.E. Kho ng giá tr này đả ị ược g i là kho ng tin c yọ ả ậ 95% (95% confident interval). Hai biên c a kho ng tin c y (p + 1,96 ủ ả ậ × S.E và p 1,96 × S.E ) được g i là gi i h n tin c y trên và gi i h n tin c y dọ ậ ậ ưới (upper confident limit and lower confident limit)
L u ý n u chúng ta tính t l b ng ph n trăm thì cơng th c khho ng tin c y s làư ế ỉ ệ ằ ầ ứ ả ậ ẽ n
)
-(100 p
p p 1,96
đ n ế n
)
-(100 p
p p 1,96
Ði u ki n áp d ng kho ng tin c y c a t l theo công th c trên là nề ệ ụ ả ậ ủ ỉ ệ ứ ×p ≥ 5
(5)150/1241 = 12,1%. Vì s tr suy dinh dố ẻ ưỡng là 150 = n×p ≥ 5 nên chúng ta có th ápể d ng kho ng tin c y 95% c a t l suy dinh dụ ả ậ ủ ỉ ệ ưỡng nh sau:ư
% , % , 12 , 12
, 12 96 , % , 12 96
,
1241 ) -(100 n
)
-(100 p
p p
Kho ng tin c y c a t l suy dinh dả ậ ủ ỉ ệ ưỡng là t 10,3% đ n 13,9%.ừ ế
Kho ng tin c y 95% (ho c kho ng tin c y 90% theo m t s nhà th ng kê) là kĩ thu tả ậ ặ ả ậ ộ ố ố ậ th ng kê ph bi n nh t đ th hi n m c đ không ch c ch n c a ố ổ ế ấ ể ể ệ ứ ộ ắ ắ ủ ướ ược l ng và nên s d ng kho ng tin c y khi ử ụ ả ậ ướ ược l ng b t kì m t t l nào.ấ ộ ỉ ệ
Nên nh r ng có xác su t 5% t l c a dân s đích n m ngồi kho ng tin c y 95%. Doớ ằ ấ ỉ ệ ủ ố ằ ả ậ đó trung bình c m i 20 kho ng tin c y đứ ỗ ả ậ ược tính tốn s có 1 kho ng tin c y khơngẽ ả ậ ch a giá tr t l th c.ứ ị ỉ ệ ự
8 Trình bày khoảng tin cậy
N u chúng ta có t l c a hai hay nhi u nhóm chúng ta có th th hi n t l và kho ngế ỉ ệ ủ ề ể ể ệ ỉ ệ ả tin c y b ng đ th M t thí d đậ ằ ị ộ ụ ược trình bày sau:ở
9% 30%
13%
10%
0% 10% 20% 30% 40% 50%
Mù chữ (n=23) Cấp 1,2 (n=748) Cấp (n=340) ĐH, CĐ (n=130) 0% 10% 20% 30% 40% 50%
Hình 2. T l suy dinh dỉ ệ ưỡng nh cân (thanh đ c) và kho ng tin c y 95% (đo n th ng d c) theo trình đẹ ặ ả ậ ẳ ọ ộ h c v n c a m (mù ch , h c đ n c p 1 hay 2, h c đ n c p 3, h c Cao Ð ng ho c đ i h c).ọ ấ ủ ẹ ữ ọ ế ấ ọ ế ấ ọ ẳ ặ ọ
(6)Chúng ta có th nh n xét r ng kho ng tin c y s h p nh t khi c m u là l n nh tể ậ ằ ả ậ ẽ ẹ ấ ỡ ẫ ấ (nhóm tr có m h c c p 1 và c p 2 v i c m u b ng 748) và kho ng tin c y s r ngẻ ẹ ọ ấ ấ ỡ ẫ ằ ả ậ ẽ ộ nh t khi c m u nh (nhóm tr có m mù ch v i c m u b ng 23).ấ ỡ ẫ ỏ ẻ ẹ ữ ỡ ẫ ằ
Bài tập
(7)1
3
5
7
8 10
11
12 13 14 16
1715 182120 19
23 22 24 25 26 27
28 29
30 31
32 Qu ng Namả
34
Bình đ nhị 36 37 Ninh thu nậ 39
40 41
Daklak 43 46
Đ ng naiồ 49 47
45 44 50 Đ ng Thápồ
An Giang 53 B n treế 55
56 Sóc trăng CT
59 60 61
Hà n iộ
Huế
Hoàng Sa