22 3.1.5. Sai lầm loại I và loại II Trong quá trình kiểm ñịnh giả thiết ta sẽ chọn H 0 hoặc H 1 tuỳ theo kết quả phân tích số liệu. Như vậy ta có thể mắc phải những sai lầm sau: • Bác bỏ giả thiết H 0 mặc dù giả thiết ñó ñúng - Sai lầm loại I • Chấp nhận giả thiết H 0 mặc dù giả thiết ñó sai - Sai lầm loại II Bác bỏ H 0 Chấp nhận H 0 H 0 ñúng Sai lầm loại I Quyết ñịnh ñúng H 0 sai Quyết ñịnh ñúng Sai lầm loại II 3.1.6. Xác suất mắc sai lầm Chúng ta cần phải hiểu ñược tầm quan trọng của 2 loại sai lầm này; chúng ñóng một vai trò quan trọng trong việc xác ñịnh dung lượng mẫu phù hợp nhất ñối với một thí nghiệm (chúng ta sẽ xem xét cụ thể hơn ở phần thiết kế thí nghiệm) • Xác suất mắc sai lầm loại I ñược ký hiệu α. ðây là xác suất mắc sai lầm khi loại bỏ H 0 . Giá trị α có thể kiểm tra ñược vì giá trị này ta tự chọn. Giá trị α ñược chọn trong quá trình thiết kế thí nghiệm sẽ quyết ñịnh việc bác bỏ hay chấp nhận H 0 hay nói một cách khác chúng ta sẽ loại bỏ H 0 nếu P < α. • Xác suất mắc sai lầm loại II ñược ký hiệu β. ðây chính là xác suất không loại bỏ H 0 khi giả thiết này sai. Chúng ta có thể kiểm soát ñược β bằng cách xem xét các yếu tố làm ảnh hưởng ñến β (α, dung lượng mẫu, các yếu tố thí nghiệm, sự biến ñộng của dữ liệu). Trong thực tế ta quan tâm ñến hiệu số 1- β; ñây chính là ñộ mạnh của phép thử. 1- β này không bao giờ ñạt ñược 1 (100%); qua các thực nghiệm cho thấy β ít khi vượt quá 0,8 (80%), thí nghiệm có quy mô lớn thì ñộ mạnh của phép thử càng cao tức là chúng ta có nhiều cơ may hơn ñể xác ñịnh một cách chính xác sự khác nhau giữa các nghiệm thức. 3.2. Kiểm ñịnh 1 mẫu 3.2.1. Giới thiệu Trong chăn nuôi, thú y chúng ta thường xuyên quan tâm ñến sự thích nghi của ñộng vật, mức ñộ tăng trọng của ñộng vật ñối với một loại thức ăn mới… tức là ta phải so sánh giá trị trung bình của các thí nghiệm ñiển hình với các tham số của quần thể (µ, σ 2 ) ñể từ ñó rút ra ñược kết luận. 3.2.2. Kiểm ñịnh một mẫu bằng phép thử z nếu biết phương sai của quần thể σ σσ σ 2 ðối với những bài toán so sánh giá trị trung bình của một mẫu khi ñã biết ñược các tham số của quần thể là giá trị trung bình µ và phương sai σ 2 ; ta sẽ sử dụng phép thử z 23 Ví dụ Thời gian mang thai của bò có phân bố chuẩn với giá trị trung bình là 285 ngày và ñộ lệch chuẩn là 10 ngày, dưới dạng rút gọn y ~ N (285, 10 2 ). Thời gian mang thai (ngày) của 6 bò của một giống khác ñược chọn ra là: 307 293 293 283 294 297 Giả sử rằng sự biến ñộng của giống bò mới tương tự so với tiêu chuẩn. Câu hỏi ñược ñặt ra là: Có sự khác biệt rõ rệt về thời gian mang thai của giống bò mới so với 285 ngày không? 3.2.2.7. ðiều kiện cần thiết ñể thực hiện phép thử: • Số liệu của mẫu phải có phân bố chuẩn • ðộ lệch chuẩn của mẫu phải ñồng nhất so với quần thể 3.2.2.8. Các bước thực hiện • Giả thiết: H 0 - Giá trị trung bình của quần thể nghiên cứu bằng trung bình của quần thể ban ñầu (quần thể rút mẫu) H 1 - Giá trị trung bình của quần thể nghiên cứu khác so với quần thể ban ñầu (quần thể rút mẫu) • Kiểm tra sự phân bố của các giá trị quan sát Kiểm tra phân bố chuẩn của số liệu bằng cách quan sát biểu ñồ tần suất của chúng với sự trợ giúp của phần mềm Minitab 12.0. • Tính giá trị z thực nghiệm )se( )( / )( 2 y y n y z µ − = σ µ − = • Xác ñịnh giá trị P Xác ñị nh giá tr ị P b ằ ng cách so sánh giá tr ị z th ự c nghi ệ m v ớ i phân b ố z. • Rút ra kết luận T ừ giá tr ị P thu ñượ c t ừ b ả ng tính ta có th ể rút ra k ế t lu ậ n: N ế u P ≥ 0,05 ta không có c ơ s ở ñể bác b ỏ H 0 t ứ c là ch ấ p nh ậ n H 0 N ế u P < 0,05 ta bác b ỏ H 0 t ứ c là ch ấ p nh ậ n H 1 Lưu ý: Trong quá trình tính toán bằng tay, ta khó có thể xác ñịnh ñược giá trị P chính xác của phép thử. Ta có thể dùng nguyên tắc sau ñây ñể rút ra kết luận Nếu giá trị Z thực nghiệm lớn hơn giá trị Z lý thuyết ở mức xác suất ñã chọn thì giả thiết H 0 bị bác bỏ và ngược lại 24 ðể minh ho ạ cho các b ướ c v ừ a nêu trên ta ti ế n hành g ả i quy ế t bài toán ñ ã ñặ t ra Lời giải Bi ế t ñộ l ệ ch chu ẩ n σ = 10 ngày, s ử d ụ ng phép th ử z 1. Gi ả thi ế t Gi ả thi ế t không: H 0 : µ = 285 ngày ðố i thuy ế t: H 1 : µ ≠ 285 ngày trong ñ ó µ = giá tr ị trung bình th ờ i gian mang thai c ủ a gi ố ng m ớ i 5,2946/)297294283293293307( = + + + + + = y ngày 2. Ki ể m tra s ự phân b ố chu ẩ n c ủ a s ố li ệ u Ki ể m tra phân b ố chu ẩ n c ủ a s ố li ệ u b ằ ng Minitab 12. 3. Tính giá tr ị z th ự c nghi ệ m: )se( )( / )( 2 y y n y z µ µµ µ σ σσ σ µ µµ µ − = − = Trong ví d ụ này ta có 33,2 6/10 2855,294 2 = − =z Gi ả s ử r ằ ng gi ả thi ế t H 0 ñ úng (t ứ c là µ = 285 ngày), khi z = 2,33 ngày là quan sát t ừ m ộ t phân b ố tiêu chu ẩ n hoá. 4. Xác ñị nh giá tr ị P Bây gi ờ ta s ẽ tính xác su ấ t c ủ a giá tr ị z thu ñượ c. Giá tr ị P c ủ a phép th ử là: 020,0010,02 )33,2(2 )33,2hay 33,2( )5,294hay 5,275( =×= −<×= >−<= > < = ZP ZZP yyPP Chúng ta c ũ ng có th ể dùng b ả ng ở ph ầ n ph ụ l ụ c ñể xác ñị nh giá tr ị P. y 275.5 294 . 5 z -2.33 2.33 25 5. K ế t lu ậ n N ế u H 0 ñ úng thì c ơ may ñể thu ñượ c giá tr ị trung bình y là 2%. ð i ề u khó có th ể x ả y ra, vì v ậ y ta bác bỏ giả thiết không . K ế t lu ậ n: Th ờ i gian mang thai c ủ a gi ố ng bò m ớ i có giá tr ị trung bình khác bi ệ t có ý ngh ĩ a và l ớ n h ơ n 285 ngày . Chú ý: Theo nguyên t ắ c chung n ế u: P < 0,05 (bé h ơ n 1 trên 20) ⇒ bác b ỏ H 0 P > 0,05 (l ớ n h ơ n 1 trên 20) ⇒ ch ấ p nh ậ n H 0 N ế u H 0 ñượ c ch ấ p nh ậ n thì không có ngh ĩ a là H 0 hoàn toàn ñ úng; dung l ượ ng m ẫ u có th ể còn bé ñể phát hi ệ n ra s ự sai khác. Th ậ m chí ngay c ả khi H 0 b ị bác b ỏ , thì v ẫ n còn c ơ h ộ i r ấ t bé s ẽ n ằ m trong s ự sai s ố . N ế u b ạ n s ử d ụ ng ng ưỡ ng 5%, 5% kết luận của chúng ta có thể sai khi H 0 ñúng! Áp dụng phần mềm Minitab • Nh ậ p s ố li ệ u vào Worksheet nh ư hình minh ho ạ sau ñ ây, l ư u ý r ằ ng d ấ u ph ẩ y (,) ñố i v ớ i các s ố th ậ p phân ñượ c thay b ằ ng d ấ u ch ấ m (.); ví d ụ 5,3 khi nh ậ p vào Minitab là 5.3. 26 • Ki ể m tra phân b ố chu ẩ n c ủ a s ố li ệ u theo các b ướ c sau ñ ây Stat >Basic Statistics>Normality Test P-Value: 0.275 A-Squared: 0.380 Anderson-Darling Normality Test N: 6 StDev: 7.73951 Average: 294.5 305295285 .999 .99 .95 .80 .50 .20 .05 .01 .001 Probability Khoi_luong Normal Probability Plot Trong ki ể m ñ inh phân b ố chu ẩ n c ủ a s ố li ệ u thì gi ả thi ế t H 0 là s ố li ệ u có phân b ố chu ẩ n và ñố i thuy ế t H 1 là s ố li ệ u không có phân b ố chu ẩ n. Trong ví d ụ v ừ a nêu ta th ấ y P=0,275>0,05, t ứ c là s ố li ệ u tho ả mãn ñ i ề u ki ệ n có phân b ố chu ẩ n. • Ti ế n hành phân tích s ố li ệ u b ằ ng Minitab • MTB > OneZ 'Khoi_luong'; Stat >Basic Statistics>1-Sample Z SUBC> Sigma 10; SUBC> Test 285. One-Sample Z: Khoi_luong Test of mu = 285 vs mu not = 285 The assumed sigma = 10 Variable N Mean StDev SE Mean Khoi_luong 6 294.50 7.74 4.08 Variable 95.0% CI Z P Khoi_luong ( 286.50, 302.50) 2.33 0.020 • Qua ph ầ n m ề m Minitab ta c ũ ng thu ñượ c k ế t qu ả t ươ ng t ự nh ư trên. L ư u ý Minitab c ũ ng ñ ã tính cho ta kho ả ng tin c ậ y 95% là t ừ 286,5 ñế n 302,5 ngày; rõ dàng giá tr ị µ = 285 ngày không n ằ m trong kho ả ng tin c ậ y này. 27 3.2.3. Kiểm ñịnh một mẫu bằng phép thử t ðố i v ớ i ví d ụ xem ở ph ầ n ki ể m ñị nh z, gi ả s ử r ằ ng ta ch ỉ bi ế t th ờ i gian mang thai trung bình c ủ a qu ầ n th ể µ mà không bi ế t ñượ c ñộ l ệ ch chu ẩ n c ủ a qu ầ n th ể σ; ñố i v ớ i nh ữ ng tr ườ ng h ợ p nh ư v ậ y ta ph ả i s ử d ụ ng phép th ử t ñể ki ể m ñị nh. Các b ướ c phân tích s ẽ thay ñổ i nh ư th ế nào? Lời giải Ta không có gi ả thi ế t σ = 10 ngày, vì v ậ y s ử d ụ ng phép th ử t • Gi ả thi ế t, H 0 : µ = 285 ngày v ớ i ñố i thuy ế t H 1 : µ ≠ 285 ngày 5,294 = y ngày và s = 7,74 ngày. • Tính giá tr ị t th ự c nghi ệ m: )se( )( / )( 2 y y ns y t µ − = µ − = v ớ i b ậ c t ự do 1 − = ndf Nh ư v ậ y v ớ i ví d ụ này, 01,3 16,3 5,9 6/74,7 2855,294 2 == − = t v ớ i b ậ c t ự do df = 6 − 1 = 5 Gi ả s ử r ằ ng gi ả H 0 không ñ úng (t ứ c là µ = 285 ngày), khi t = 3.01 là quan sát t ừ phân b ố t v ớ i b ậ c t ự do n − 1 = 5. t z Phân b ố t có các ph ầ n ñ uôi l ớ n h ơ n so v ớ i phân b ố chu ẩ n. Phân b ố này ñượ c s ử d ụ ng khi ñộ l ệ ch chu ẩ n ñượ c ướ c tính t ừ m ẫ u. Khi các ph ầ n ñ uôi l ớ n h ơ n kéo theo s ự sai s ố l ớ n h ơ n trong quá trình ướ c tính t ừ phân b ố n ế u nh ư ñộ l ệ ch chu ẩ n c ủ a qu ầ n th ể không bi ế t. Dung l ượ ng m ẫ u càng l ớ n thì giá tr ị ñộ l ệ ch chu ẩ n ñượ c ướ c tính càng chính xác h ơ n c ũ ng nh ư b ậ c t ự do c ũ ng s ẽ t ă ng lên và phân b ố t d ầ n ti ế n ñế n phân b ố chu ẩ n. Giá tr ị P trong phép th ử này là 28 03,0015,02 )01,3(2 )01,3hay 01,3( )5,294hay 5,275( 5 55 =×= −<×= >−<= > < = TP TTP yyPP ho ặ c t ừ b ả ng ta có 0,02 < P < 0,05. • K ế t lu ậ n, m ộ t l ầ n n ữ a giá tr ị P l ạ i nh ỏ h ơ n 0,05, vì v ậ y chúng ta bác b ỏ gi ả thi ế t H 0 và k ế t lu ậ n r ằ ng gi ố ng bò m ớ i có th ờ i gian mang thai dài h ơ n. Chú ý: Giá tr ị P trong phép th ử t l ớ n h ơ n trong phép th ử z t ứ c là phép th ử t-test không chính xác b ằ ng. ð i ề u có th ể gi ả i thích r ằ ng m ộ t ph ầ n thông tin ñ ã ñượ c s ử d ụ ng ñể ướ c tính giá tr ị σ c ủ a qu ầ n th ể . Áp dụng Minitab MTB > OneT 'Khoi_luong'; Stat > Basic Statistics > 1-Sample t SUBC> Test 285. One-Sample T: Khoi_luong Test of mu = 285 vs mu not = 285 Variable N Mean StDev SE Mean Khoi_luong 6 294.50 7.74 3.16 Variable 95.0% CI T P Khoi_luong ( 286.38, 302.62) 3.01 0.030 mChú ý m ộ t l ầ n n ữ a giá tr ị P, kho ả ng tin c ậ y 95% l ớ n h ơ n trong phép th ử Z nh ư ng ta v ẫ n có k ế t lu ậ n t ươ ng t ự . 3.3. Khoảng tin cậy của trung bình quần thể 3.3.1. Giới thiệu Ki ể m tra gi ả thi ế t cho chúng ta bi ế t s ố li ệ u có thích h ợ p v ớ i m ộ t giá tr ị trung bình c ụ th ể µ hay không. M ộ t câu h ỏ i ti ế p theo có th ể ñượ c ñặ t ra là: Mi ề n giá tr ị nào c ủ a giá tr ị µ phù h ợ p v ớ i các trung bình quan sát, y ? Chúng ta c ầ n ph ả i c ụ th ể hoá m ứ c ñộ x ả y ra ho ặ c giá tr ị trung bình c ủ a qu ầ n th ể µ s ẽ n ằ m trong trong kho ả ng ñ ó. ðể ch ắ c ch ắ n h ơ n r ằ ng trongkho ả ng ñ ó s ẽ bao g ồ m µ, thì giá tr ị c ủ a kho ả ng ñ ó c ũ ng ph ả i t ă ng lên. 3.3.2. Công thức tính khoảng tin cậy 95% (95% CI) Trường hợp 1: Bi ế t ph ươ ng sai qu ầ n th ể σ 2 và cho r ằ ng s ự bi ế n ñộ ng c ủ a m ẫ u là ñồ ng nh ấ t so v ớ i tiêu chu ẩ n, trong tr ườ ng h ợ p này chúng ta s ử d ụ ng khoảng tin cậy z )se(/ )025,0(2)025,0( yzynzy ×±=×± σ . 285 ng y v ớ i ñố i thuy ế t H 1 : µ ≠ 285 ng y 5,2 94 = y ng y và s = 7, 74 ng y. • Tính giá tr ị t th ự c nghi ệ m: )se( )( / )( 2 y y ns y t µ − = µ − = v ớ i b ậ c t ự do 1 − = ndf. liệu). Trong thực tế ta quan tâm ñến hiệu số 1- β; ñ y chính là ñộ mạnh của phép thử. 1- β n y không bao giờ ñạt ñược 1 (10 0%); qua các thực nghiệm cho th y β ít khi vượt quá 0,8 (80%), thí nghiệm. do c ũ ng s ẽ t ă ng lên và phân b ố t d ầ n ti ế n ñế n phân b ố chu ẩ n. Giá tr ị P trong phép th ử n y là 28 03,0 015 ,02 ) 01, 3(2 ) 01, 3hay 01, 3( )5,294hay 5,275( 5 55 =×= −<×= >−<= > < = TP TTP yyPP