29 trong ñ ó z (0,025) = 1,96 là ñ i ể m 2,5% gi ớ i h ạ n trên t ừ phân b ố tiêu chu ẩ n hoá Ví dụ Th ờ i gian mang thai c ủ a bò ñượ c s ử d ụ ng ñể minh ho ạ trong ví d ụ . Nh ư ta ñ ã bi ế t th ờ i gian mang thai có phân b ố chu ẩ n là N(285,10 2 ). Sáu quan sát (n = 6) ñượ c rút ra t ừ m ộ t gi ố ng bò m ớ i, v ớ i th ờ i gian mang thai 294,5 = y ngày. Lời giải N ế u bi ế n ñộ ng c ủ a gi ố ng m ớ i không h ề thay ñổ i so v ớ i tiêu chu ẩ n, chúng ta ch ọ n σ = 10 ngày; áp d ụ ng công th ứ c tính kho ả ng tin c ậ y z )se(/ )025.0(2)025.0( yzynzy ×±=σ×± Trong ví d ụ này, ).302,5 6,5;28(00,85,2946/1096,15,294 2 =±=×± Nh ư v ậ y m ứ c ñộ tin c ậ y 95% c ủ a giá tr ị trung bình (qu ầ n th ể ) c ủ a th ờ i gian mang thai gi ố ng bò m ớ i n ằ m trong trong kho ả ng t ừ 286,5 ñế n 302,5 ngày, m ặ c dù m ộ t giá tr ị ướ c tính ñơ n l ẻ t ố t nh ấ t là 294,5 ngày. Trường hợp 2: Không bi ế t ph ươ ng sai qu ầ n th ể và cho r ằ ng s ự bi ế n ñộ ng c ủ a m ẫ u quan sát là ñồ ng nh ấ t so v ớ i tiêu chu ẩ n, khi ñ ó ta s ẽ ướ c tính σ 2 t ừ ph ươ ng sai c ủ a m ẫ u quan sát s và s ử d ụ ng khoảng tin cậy t )se(/ )025.0( 1 2)025.0( 1 ytynsty nn ×±=×± −− trong ñ ó )025.0( 1−n t là ñ i ể m 2,5% c ủ a g ớ i h ạ n trên t ừ phân b ố t v ớ i b ậ c t ự do n − 1. Ví dụ Ta s ẽ l ấ y ví d ụ v ừ a nêu trên ñể minh ho ạ ; gi ả s ử ta ch ỉ bi ế t ñượ c th ờ i gian mang thai c ủ a bò có phân b ố chu ẩ n v ớ i µ = 285 ngày mà không bi ế t ph ươ ng sai c ủ a qu ầ n th ể . Trong tr ườ ng h ợ p này ta s ẽ tính kho ả ng tin c ậ y t Lời giải Ph ươ ng sai c ủ a m ẫ u là s 2 = (7,74) 2 . v ớ i b ậ c t ự do n − 1 = 6 -1 = 5, ñ i ể m 2,5% gi ớ i h ạ n trên c ủ a phân b ố t là 57,2 )025.0( 5 =t Do ñ ó 95% CI là ).302;6 6,4;28(1,85,2946/74,757,25,294 2 =±=×± 30 th ấ y r ằ ng kho ả ng tin c ậ y 95% c ủ a th ờ i gian mang thai ñố i v ớ i gi ố ng m ớ i n ằ m trong kho ả ng t ừ 286,4 ñế n 302,6 ngày. Lưu ý: ðộ ng v ậ t thí nKho ả ng tin c ậ y t bao gi ờ c ũ ng l ớ n kho ả ng tin c ậ y z; ñ i ề u này ñ ã ñượ c minh ch ứ ng rõ trong ví d ụ trên. 3.3.3. Ý nghĩa của khoảng tin cậy N ế u thí nghi ệ m l ặ p l ạ i nhi ề u l ầ n, thì 95% các giá tr ị trung bình m ẫ u s ẽ r ơ i vào kho ả ng tin c ậ y 95% c ủ a qu ầ n th ể , µ. gBi ể u ñồ sau ñ ây s ẽ cho ta th ấ y 100 kho ả ng tin c ậ y mô ph ỏ ng. M ỗ i kho ả ng tin c ậ y ñượ c xây d ự ng t ừ vi ệ c rút n = 6 quan sát v ề th ờ i gian mang thai c ủ a bò v ớ i gi ả s ử r ằ ng th ờ i gian mang thai có phân b ố chu ẩ n y ~ N(285, 10 2 ) ngày. ðố i v ớ i m ỗ i m ẫ u, ta ti ế n hành tính trung bình m ẫ u )( y và ñộ l ệ ch chu ẩ n (s), sau ñ ó tính kho ả ng tin c ậ y 95% theo công th ứ c )( 2)025.0( 1 nsty n− ± . 260 270 280 290 300 310 MÉu Thêi gian mang thai trung b×nh G ầ n 95% các m ẫ u mô ph ỏ ng này có kho ả ng tin cây bao g ồ m giá tr ị 285. Tuy nhiên trong th ự c t ế chúng ta không bi ế t m ẫ u nào ch ứ a µ = 285, c ũ ng nh ư ta không bi ế t chính xác µ. Kho ả ng tin c ậ y 99% s ẽ l ớ n h ơ n và chính vì v ậ y s ẽ có nhi ề u c ơ h ộ i có ch ứ a µ 31 3.4. So sánh 2 mẫu bằng phép thử t 3.4.1. Giới thiệu Trong tr ườ ng h ợ p ch ỉ ki ể m ñị nh m ộ t m ẫ u (nh ư ñ ã xem xét ở ph ầ n 1) , khi so sánh trung bình m ẫ u y v ớ i gi ả thi ế t trung bình qu ầ n th ể , µ. Nh ư ng trong th ự c t ế r ấ t ít có tr ườ ng h ợ p nh ư v ậ y. Thông th ườ ng c ầ n có k ế t lu ậ n v ề m ẫ u ñố i v ớ i c ả 2 qu ầ n th ể (ví d ụ qu ầ n th ể th ứ nh ấ t và th ứ hai) và ti ế n hành so sánh giá tr ị trung bình c ủ a 2 m ẫ u, gi ả s ử 1 y và 2 y . So sánh 2 m ẫ u b ằ ng phép th ử t là m ộ t trong nh ữ ng phép th ử hay ñượ c s ử d ụ ng trong ch ă n nuôi và thú y. Phép th ử này ñượ c s ử d ụ ng nh ằ m so sánh 2 giá tr ị trung bình t ừ 2 nhóm ñộ c l ậ p và là m ẫ u ñạ i di ệ n cho qu ầ n th ể . 3.4.2. Các ñiều kiện ñể tiến hành phép thử • ðộ ng v ậ t thí nghi ệ m ph ả i ñượ c ch ọ n ng ẫ u nhiên t ừ qu ầ n th ể • Hai m ẫ u ph ả i ñộ c l ậ p • S ố li ệ u ph ả i có phân b ố chu ẩ n • Ph ươ ng sai gi ữ a 2 m ẫ u n ế u: • ðồng nhất , chúng ta có th ể ki ể m tra s ự ñồ ng nh ấ t b ằ ng các phép th ử ph ươ ng sai ho ặ c ñơ n gi ả n l ấ y s 1 /s 2 (s 1 là ñộ l ệ ch chu ẩ n c ủ a m ẫ u 1, s 2 là ñộ l ệ h chu ẩ n c ủ a m ẫ u 2 và gi ả s ử r ằ ng s 1 >s 2 ). N ế u t ỷ s ố s 1 /s 2 <1,5 thì ph ươ ng sai có th ể coi nh ư là ñồ ng nh ấ t h ặ c dùng Minitab. N ế u các b ướ c v ừ a n ế u trên tho ả mãn, ta có th ể th ự c hi ệ n các b ướ c ti ế p ở ph ầ n 3.3 • Không bằng nhau, th ự c hi ệ n các b ướ c ti ế p theo ở ph ầ n 3.4. Tuy nhiên ta c ũ ng có th ể ti ế n hành bi ế n ñổ i s ố li ệ u ñể ñư a các ph ươ ng sai ñồ ng nh ấ t ñể s ử d ụ ng phép th ử ở ph ầ n 3.3. N ế u bi ế n ñổ i s ố li ệ u không mang l ạ i nh ữ ng k ế t qu ả nh ư mong ñợ i, ta có th ể s ử d ụ ng ph ươ ng pháp th ố ng kê phi tham s ố ñể so sánh (s ẽ không ñề c ậ p trong khoá h ọ c này) 3.4.3. Kiểm ñịnh 2 mẫu bằng phép thử t (phương sai bằng nhau) • Gi ả thi ế t H 0 : Trung bình c ủ a 2 qu ầ n th ể b ằ ng nhau µ 1 = µ 2 H 1 : Trung bình c ủ a 2 qu ầ n th ể không b ằ ng nhau µ 1 ≠ µ 2 • Ki ể m tra phân b ố chu ẩ n c ủ a s ố li ệ u Ki ể m tra phân b ố c ủ a s ố li ệ u b ằ ng cách quan sát bi ể u ñồ t ầ n su ấ t c ủ a chúng v ớ i s ự tr ợ giúp c ủ a ph ầ n m ề m Minitab 12.0. • Ki ể m tra s ự ñồ ng nh ấ t c ủ a ph ươ ng sai • Tính giá tr ị t th ự c nghi ệ m 32 )se( 21 21 2 1 1 1 2 21 yy yy nn s yy t − − = + − = v ớ i b ậ c t ự do 2 )1()1( 21 21 −+= − + − = nn nndf trong ñ ó n 1 , n 2 là dung l ượ ng m ẫ u (s ố quan sát) c ủ a m ẫ u th ứ 1 và 2 1 y và 2 y là giá tr ị trung bình c ủ a m ẫ u th ứ 1 và 2 2 )1()1( 21 2 22 2 11 2 −+ −+− = nn snsn s là ph ươ ng sai ướ c tính chung, σ 2 • Xác ñịnh giá trị P Xác ñị nh giá tr ị P b ằ ng cách so sánh giá tr ị t th ự c nghi ệ m v ớ i phân b ố t v ớ b ậ c t ự do là n 1 + n 2 - 2 trong b ả ng t ở ph ầ n ph ụ l ụ c. • Rút ra kết luận Tu ỳ thu ộ c vào giá tr ị P thu ñượ c, ta có th ể ñư a ra k ế t lu ậ n v ề gi ả thi ế t: N ế u P ≥ 0,05 gi ả thi ế t H 0 ñượ c ch ấ p nh ậ n N ế u P < 0,05 bác b ỏ gi ả thi ế t H 0 t ứ c là ch ấ p nh ậ n H 1 • Khoảng tin cậy sự sai khác giữa 2 giá trị trung bình ( µ µµ µ 1 11 1 −µ −µ −µ −µ 2 22 2 ) Ướ c tính t ố t nh ấ t cho giá tr ị trung bình c ủ a qu ầ n th ể µ 1 và µ 2 là các giá tr ị trung bình m ẫ u 1 y và 2 y . Vì v ậ y ướ c tính t ố t nh ấ t cho s ự sai khác µ 1 − µ 2 chính là 21 yy − , ñượ c g ọ i là ước lượng ñiểm . Kho ả ng tin c ậ y 95% s ự sai khác gi ữ a 2 giá tr ị trung bình ñượ c xác ñị nh theo công th ứ c sau: )se( 11 21 )025.0( 2 21 21 2 )025.0( 2 21 2121 yytyy nn styy nnnn −×±−= +×±− −+−+ trong ñ ó )025.0( 2 21 −+nn t là 2,5% giá tr ị phía trên c ủ a phân b ố t v ớ i b ậ c t ự do n 1 + n 2 − 2. Ví dụ ðể so sánh kh ố i l ượ ng c ủ a 2 gi ố ng bò, kh ố i l ượ ng c ủ a 12 con bò ñượ c ch ọ n ng ẫ u nhiên ñố i v ớ i gi ố ng th ứ nh ấ t và 15 con ñố i v ớ i nhóm th ứ 2. Kh ố i l ượ ng (kg) c ủ a chúng ñượ c trình bày ở b ả ng d ướ i: Kh ố i l ượ ng (kg) c ủ a 2 gi ố ng bò (Campbell, 1989, trang193) Gi ố ng 1 187,6 180,3 198,6 190,7 Gi ố ng 2 148,1 146,2 152,8 135,3 196,3 203,8 190,2 201,0 151,2 146,3 163,5 146,6 194,7 221,1 186,7 203,1 162,4 140,2 159,4 181,8 165,1 165,0 141,6 Câu h ỏ i d ặ t ra "Kh ố i l ượ ng c ủ a 2 gi ố ng bò có s ự sai khác không?" Sau ñ ây là các tham s ố th ố ng kê mô t ả t ừ b ộ s ố li ệ u trên. 33 Gi ố ng 1 Gi ố ng 2 Trung bình m ẫ u (kg) 196,2 153,7 ðộ l ệ ch chu ẩ n m ẫ u (kg) 10,62 12,30 Lời giải 1. Gi ả thi ế t H 0 : µ 1 = µ 2 H 1 : µ 1 ≠ µ 2 2. Ki ể m tra phân b ố chu ẩ n c ủ a s ố li ệ u Ki ể m ñị nh phân b ố chu ẩ n c ủ a s ố li ệ u b ằ ng Minitab. Gi ả s ử r ằ ng s ố li ệ u có phân b ố chu ẩ n ta s ẽ ti ế n hành b ướ c ti ế p theo. 3. S ự ñồ ng nh ấ t c ủ a ph ươ ng sai Ta có s 2 / s 1 = 12,30 / 10,62 = 1,16 a <1,5 4. Tính giá tr ị t th ự c nghi ệ m Ta có 5,427,1532,196 21 = − = − yy kg, 33,134 25 30,121462,1011 22 2 = ×+× =s , và 59,1133.134 ==s kg. Chú ý s là giá tr ị ướ c tính gi ữ a 10,62 và 12,30 kg. Ta có th ể luôn ki ể m tra s chung luôn n ằ m gi ữ a s 1 và s 2 . Sai s ố tiêu chu ẩ n c ủ a hi ệ u s ố gi ữ a các giá tr ị trung bình là 489,4 15 1 12 1 33.134)se( 21 = +=− yy kg. Giá tr ị t th ự c nghi ệ m là 46,9 489,4 5,42 )se( 21 21 == − − = yy yy t b ậ c t ự do df = 12 + 15 − 2 = 25. 5. Xác ñị nh giá tr ị P Gi ả s ử r ằ ng gi ả thi ế t H 0 ñ úng (µ 1 = µ 2 ), khi t = 9,46 là m ộ t giá tr ị quan sát t ừ phân b ố t v ớ i b ậ c t ự do là 25. Tra b ả ng ở ph ầ n ph ụ l ụ c ta th ấ y P < 0,001. Giá tr ị P ñố i v ớ i phép th ử này là .0000,00000,02 )46,9(2 )46,9or 46,9( )5,42or 5,42( 25 2525 2121 =×= −<×= >−<= > − − < − = TP TTP yyyyPP 34 t -9.46 9.46 5. K ế t lu ậ n Vì P < 0,001 ta bác b ỏ gi ả thi ế t H 0 và k ế t lu ậ n r ằ ng tr ọ ng l ượ ng c ủ a 2 gi ố ng bò khác nhau ( ở m ứ c P < 0,001). Gi ố ng bò th ứ nh ấ t n ặ ng h ơ n gi ố ng bò th ứ 2 là 42,5 kg. 6. Kho ả ng tin c ậ y µ 1 −µ 2 Ta có, n 1 + n 2 − 2 = 13 + 15 -2 = 25, và )025.0( 25 t = 2,060. Sai s ố chu ẩ n là kg. 489,4)(se 21 = − yy . Nh ư v ậ y kho ả ng tin c ậ y 95% µ 1 −µ 2 là 42,5 ± 2,060 × 4,489 = 42,5 ± 9,246 = (33,2; 51,7) kg. L ư u ý r ằ ng kho ả ng tin c ậ y này không ch ứ a s ố 0, v ớ i gi ả thi ế t không µ 1 − µ 2 = 0. Áp dụng Minitab: Các b ướ c phân tích trên s ẽ ñượ c th ự c hi ệ n trong Minitab. Tr ướ c h ế t ki ể m tra s ự ñồ ng nh ấ t c ủ a ñộ l ệ ch chu ẩ n MTB > Describe 'P_Giong2' 'P_Giong1' Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: P_Giong2, P_Giong1 Variable N Mean Median TrMean StDev SE Mean P_Giong2 12 196.18 195.50 195.27 10.62 3.06 P_Giong1 15 153.70 151.20 152.95 12.30 3.18 Variable Minimum Maximum Q1 Q3 P_Giong2 180.30 221.10 188.25 202.58 P_Giong1 135.30 181.80 146.20 163.50 Ta th ấ y t ỷ s ố gi ữ a 2 ñộ l ệ ch chu ẩ n là 12,30 / 10,62 < 1,5; nh ư vây ñ i ề u ki ệ n 2 ph ươ ng sai ñồ ng nh ấ t ñượ c tho ả mãn. Ki ể m ñị nh t ph ươ ng sai chung có th ể s ử d ụ ng ñượ c (tr ườ ng h ợ p t ỷ s ố gi ữ a 2 ph ươ ng sai l ớ n h ơ n 2 ta s ẽ xem xét ở ph ầ n 1.4.4). Bây gi ờ ta s ẽ ki ể m tr ả gi ả thi ế t v ề phân b ố chu ẩ n c ủ a s ố li ệ u. T ố t nh ấ t cho hi ể n th ị s ố li ệ u c ả hai nhóm ñồ ng th ờ i. Cách này cho ta tr ự c di ệ n có th ể ki ể m tra ñượ c s ự ñồ ng nh ấ t c ủ a ñộ l ệ ch chu ẩ n c ũ ng nh ư phân b ố c ủ a s ố li ệ u. 35 MTB > Boxplot 'P_Giong2' 'P_Giong1'; Graph > Boxplot và chọn các options sau SUBC> Box; Frame > Axis SUBC> Type 0; Frame > Multiple Graphs…> Overlay graphs on the same page SUBC> Color 0 0;Edit Attributes of IQRange Box to set FillType of box as None P_Giong1P_Giong2 220 210 200 190 180 170 160 150 140 130 P_Giong2 C ả hai nhóm cho ta th ấ y s ố li ệ u v ề tr ọ ng l ượ ng có phân b ố g ầ n chu ẩ n, ñ i ề u c ầ n thi ế t ñố i v ớ i phép th ử t. Bây gi ờ chúng ta ti ế n hành phép th ử ñố i v ớ i gi ả thi ế t. MTB > TwoSample 'P_Giong2' 'P_Giong1'; Stat > Basic Statistics > 2-Sample t / SUBC> Pooled. Two-Sample T-Test and CI: P_Giong2, P_Giong1 Two-sample T for P_Giong2 vs P_Giong1 N Mean StDev SE Mean P_Giong2 12 196.2 10.6 3.1 P_Giong1 15 153.7 12.3 3.2 Difference = mu P_Giong2 - mu P_Giong1 Estimate for difference: 42.47 95% CI for difference: (33.23, 51.72) T-Test of difference = 0 (vs not =): T-Value = 9.46 P-Value = 0.000 DF = 25 Both use Pooled StDev = 11.6 T ừ k ế t qu ả phân tích b ằ ng ph ầ n m ề m Minitab, ta c ũ ng có các k ế t lu ậ n t ươ ng t ự . 19 5. 50 19 5. 27 10 .62 3.06 P_Giong1 15 15 3.70 15 1.20 15 2. 95 12 .30 3 .18 Variable Minimum Maximum Q1 Q3 P_Giong2 18 0.30 2 21. 10 18 8. 25 202 .58 P_Giong1 13 5. 30 18 1.80 14 6.20 16 3 .50 Ta th ấ y. s 2 / s 1 = 12 ,30 / 10 ,62 = 1, 16 a < ;1, 5 4. Tính giá tr ị t th ự c nghi ệ m Ta có 5, 427 , 15 32 ,19 6 21 = − = − yy kg, 33 ,13 4 25 30 ,12 1462 ,10 11 22 2 = ×+× =s , và 59 ,11 33 .13 4 ==s kg (Campbell, 19 89, trang193) Gi ố ng 1 18 7,6 18 0,3 19 8,6 19 0,7 Gi ố ng 2 14 8 ,1 14 6,2 15 2,8 13 5, 3 19 6,3 203,8 19 0,2 2 01, 0 15 1,2 14 6,3 16 3 ,5 14 6,6 19 4,7 2 21, 1