Các nhà phân tích th ng kê ki m tra m t gi thuy t bố ể ộ ả ế ằng cách đo lường và ki m tra ể
một m u ng u nhiên cẫ ẫ ủa không gian m u ẫ đang được phân tích. Việc h làm là s ọ ử
dụng một không gian m u ẫ ngẫu nhiên để kiểm tra hai gi thuy t khác nhau: gi ả ế ả
thuyết kh ng và gi thuyô ả ết nghịch.
4.1.1 Giả thiết ông (Null Hypothesis) kh
Giả thuy t không H là m t lo i gi thuyế 0 ộ ạ ả ết được s d ng trong th ng kê giử ụ ố ảđịnh rằng không có ý nghĩa thống kê nào t n t i trong m t t p h p các quan sát nhồ ạ ộ ậ ợ ất
định. Giả thuyết không được cho l đúng cho đến khi có bằng ch ng th ng kê bác ứ ố
bỏ nó v i mớ ột giả thuyết thay thế khác.
Giả thuy t không giế ảđịnh r ng b t kì s khác biằ ấ ự ệt hay ý nghĩa no bạn quan sát
được trong m t t p hộ ậ ợp d u là do s ữliệ ựngẫu nhiên.
4.1.2 Giả thiết ngh ch (Alternative hypothesis) ị
Khái ni m v m t gi thuyệ ề ộ ả ết nghịch trong th nghi m do Jerzy Neyman và Egon ử ệ Pearson nghĩ ra, v nó được sử dụng trong bổđề Neyman-Pearson(E. L. Lehmann, 1986). Nó t o thành m t thành ph n chính trong ạ ộ ầ thử nghi m gi thuy t th ng kê ệ ả ế ố
hiện đại. Tuy nhiên, nó không ph i là m t ph n trong công th c ki m tra gi thuyả ộ ầ ứ ể ả ết thống kê của Ronald Fisher, và ông phản đối việc s d ng nó. Trong cách ti p c n ử ụ ế ậ
kiểm định của Fisher, ý tưởng trung tâm l đánh giá xem liệu tập dữ liệu quan sát có th là k t quể ế ả ngẫu nhiên hay không n u gi thuyế ả ết không được giảđịnh là
đúng, không có định kiến về những gì các mô hình khác có thể nắm giữ. Thử
nghiệm gi thuy t th ng kê hiả ế ố ện đại đáp ứng điều này lo i kiạ ểm định vì giả thuyết nghịch H có th 1 ểchỉ là s ựphủ đị nh c a gi thuyủ ả ết không.
4.1.3 Mức ý nghĩa
Trong th ng kê, m t k t qu ố ộ ế ả được gọi l có ý nghĩa thống kê nếu nó không có kh ả
xảy ra là do ng u nhiên. C m t ẫ ụ ừ Ý nghĩa thống kê được đặt tên bởi Ronald Fisher. Trong thống kê, ý nghĩa không có nghĩa l quan trọng , nhưng nh ng nhà phân tích ữ
chỉ t p trung vào k t qu có th b sót các d ng m u tr l i quan tr ng mà có th ậ ế ả ể ỏ ạ ẫ ả ờ ọ ể rơi dưới ngưỡng được đặt ra cho kiểm định ý nghĩa.
4.1.4 Miền bác bỏ
Miền bác bỏ là miền xác địnhtrong đồ ị, được đo tron th g phân ph i l y mố ấ ẫu của thống kê đang nghiên cứu, dẫn đến bác b ỏgiả thuyết không H trong m0 ột bài kiểm tra gi thuy t. ả ế Miền bác b bỏ ổ sung cho vùng ch p nhấ ận v được liên k t v i xác ế ớ
suất α, được g i là mọ ức ý nghĩa..
4.1.5 Kiểm định giả thiêt thông kê
Bài toán kiểm nghiệm gi thiêt th ng kê t ng quáả ố ổ t đượ đặt dước i dạng sau: i. Cho i l ng ng u nhiên X và mđạ ượ ẫ ột giả thiết H v0 ề ân ph i xác suph ố ất
của X. M t mộ ệnh đề khác v i H ớ 0đưuọc gọi là đói thiết H1. Cần kiểm nghiệm xem H dúng hay sao trên c s m0 ở ở ẫu lấy được là (𝑋1, 𝑋2, … , 𝑋𝑛) Trên không gian mẫu ta xác định miền W g i là ọ miền bác b ỏgiả thiêt H , ph n bù 0 ầ
của W ký hiệu là 𝑊 là miền ch p nh n gi thiêt H . ấ ậ ả 0
Mẫu đã l y ấ được (𝑥1, 𝑥2, … , 𝑥𝑛) là một điểm xác định c a ông gian m u. ủ kh ẫ
Mẫu đã l y ấ được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑤 ì ta coi gi thiêt H là sai và bác b th ả 0 ỏgiả thiết
đó.
Mẫu đã l y ấ được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑊 ì ta coi gi thiêt H là ng và th ả 0 đú chấp nhận giả thiet đó
ii. Các lo i sai l m: Trong vi c ch n mạ ầ ệ ọ ột quy tắc có thể mắc cá sai lc ầm Sai l m lo i I: Bác b ầ ạ ỏgiả thuy t H ế 0nhưng thự ếc t H0 là đúng. Sai l m n ầ ày
được c trđặ ưng b i ở 𝑃 = (𝑊
𝐻0)
Sai l m lo i II: Ch p nh n gi thuyầ ạ ấ ậ ả ết H 0nhưng thực tế H là sai. Sai l0 ầm này
được c trđặ ưng b i ở P=(𝑊𝐻1)
Quyết định bác b hay ỏ chấp nh n gi thuy t hoàn toàn d a vào thông tin m u, do ậ ả ế ự ẫ đó ta sẽ có xác su t m c sai l m lo i I và sai l m lo i II. Ký hiấ ắ ầ ạ ầ ạ ệu α l xác suất mắc sai l m lo i I. ầ ạ
Lúc đó α được gọi là mức ý nghĩa. Ký hiệu β l xác suất mắc sai l m loầ ại II.
α = P(sai lầm lo i I) = P(bác b Hạ ỏ 0 | H0 đúng)= P(chấp nh n H | H sai). ậ 0 1
β = P(sai lầm lo i II) = P (ch p nh n H | H sai) = P(ch p nh n Hạ ấ ậ 0 0 ấ ậ 0 | H 1đúng).
+Ví d : ụ
Giả thi t H cho rế 0 ằng:” bệnh nh ân A uống được thuốc B”.
Sai l m lo i 1 dầ ạ ẫn đến vi c ph i i tìm thuôcs ác khi b h nhân uệ ả đ kh ên ống được thuốc B.
Còn sai l m lo i 2 l i dầ ạ ạ ẫn đến k t lu n là cho bế ậ ệnh nhân u ng thu c B trong lúố ố c bệnh nhân không uống được thuốc đó.
iii. Các bước kiểm định giả thiết thống kê
Bước 1: Xác định tham s c n kiố ầ ểm định, đặt giả thuyết v đối thuyết.
Bước 2: Xác định tiêu chu n th ng kê và tính giá tr c a tiêu chu n thẩ ố ị ủ ẩ ống kê đối với giá tr mị ẫu đã cho.
Bước 3: Xác định mi n bác b ề ỏW.
Bước 4: So sánh giá tr c a tiêu chu n th ng kê v i mi n bác b W và k t lu n bác ị ủ ẩ ố ớ ề ỏ ế ậ
bỏ hay ch p nh n gi thuy t Hấ ậ ả ế 0.
4.2 Kiểm định giả thi t tham s ế ố
4.2.1 Kiểm định á kì vgi trị ọng của ân phph ối chu n ẩ
i. Giả s t ng th có trung bình (k v ng) . M u có kích ử ổ ể ỳ ọ μ ẫ thước n, trung bình mẫu 𝑥, ph ng sai mươ ẫu hiệu chỉnh 2. Hãy kiểm định giảthiết H0:μ=μ0 với mức ý nghĩa α A.Trường hợp 1: 2đãbiết, H1:μ≠μ0 Tiêu chu n kiẩ ểm định:𝑍 =𝑋−𝜇0 √𝑛 Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑍0=𝑋−𝜇0 √𝑛 có phân ph i chuố ẩn
N(0; 1), đồng thời X là một ước lượng không ch ch cho . ệ μ
Từ ta có quy t c kiđó ắ ểm định sau :
Tìm 𝑍𝛼 từ h ệthức 2𝛷 𝑍( 𝛼) = 1 − 𝛼
Nếu 𝑍0≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0> 𝑍𝛼 ì bác b H th ỏ
Nếu giá tr ị đó thuộc vào mi n tiêu chu n thì ta bác b ề ẩ ỏgiả thuy t, k t lu n k v ng ế ế ậ ỳ ọ
của bi n X th c s khác ế ự ự μ0. Ngượ ạc li, n u giá trế ịđó nằm trong mi n ề chấp nhận thì ph i k t lu n k v ng c a X không khác mả ế ậ ỳ ọ ủ μ0 ột cách có ý nghĩa.
+Ví d : ụ
Điểm trung bình n m nay c a 100 h c sinh là 5.9 ă ủ ọ điểm toán cuối kì, có lđộ ệch chuẩn là 1.21. Điểm trung bì mnh ới v a ừ thay đổ đểi đạt danh hiệu thi đua c a môn ủ
toán n m ngo là 5.72. V i mă ái ớ ức ý ngh a 1% có ĩ phả đi iểm trung b h n m nay có ìn ă đạt tiêu chu n nẩ ăm ngo ông? ái kh
Giải: Gi ảthiết H0:μ=μ0 =5.72 ( điểm n m naă y bằng năm trước) 2𝛷 𝑍( 𝛼) = 1 − 𝛼 = 1 − 0. => 𝑍01 𝛼= 2.58 𝑍0=|𝑋 − 𝜇 0|√𝑛 =|5.9 − 5.72|1.21 √100 = 1.49
Vì 𝑍0< 𝑍𝛼 nên ch p ấ nhận H 0. Vậy điểm môn toán n m nay không cao h n nă ơ ăm
trước với mức ý ngh a ĩ 1%, nên không đạt được êu chu n nh n danh hi u thi ua. ti ẩ ậ ệ đ
B.Trường hợp 2 2đãbiết, H1:μ>μ0 Tiêu chu n kiẩ ểm định:𝑍 =𝑋−𝜇0 √𝑛 Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑍0=𝑋−𝜇0 √𝑛 có phân ph i chuố ẩn
Từ ta có quy t c kiđó ắ ểm định sau : 𝑃 (𝑋 − 𝜇 0√𝑛 > 𝑍𝛼) = 1 − 𝛼 Tìm 𝑍𝛼 từ h ệthức 2𝛷 𝑍( 𝛼) = 1 − 𝛼 Nếu 𝑍0> 𝑍𝛼 ì th chấp nhận H. C.Trường hợp 3 2đãbiết, H1:μ<μ0 Tiêu chu n kiẩ ểm định:𝑍 =𝑋−𝜇0 √𝑛 Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑍0=𝑋−𝜇0 √𝑛 có phân ph i chuố ẩn
N(0; 1), đồng thời X là một ước lượng không ch ch cho . ệ μ
Từ ta có quy t c kiđó ắ ểm định sau :
𝑃 (𝑋 − 𝜇 0√𝑛 < 𝑍𝛼) = 1 − 𝛼
Tìm 𝑍𝛼 từ h ệthức 2𝛷 𝑍( 𝛼) = 1 − 𝛼 Nếu 𝑍0> 𝑍𝛼 ì bác b H th ỏ
ii. Giả s t ng th có trung bình (kử ổ ể ỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2 chưa biết. Hãy kiểm định giảthiết H0:μ=μ0 v i mớ ức ý nghĩa α
2 chưabiết, H1:μ≠μ0 Tiêu chu n kiẩ ểm định:𝑇 =𝑋−𝜇0
√𝑛
Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑇0=𝑋−𝜇0
√𝑛 có phân ph i Student ố
T(n-1), đồng thời X là một ước lượng không ch ch cho . ệ μ
Từ ta có quy t c kiđó ắ ểm định sau :
𝑃 (|𝑋 − 𝜇0|√𝑛 ≤ 𝑇𝛼(𝑛 − 1) = 1 − 𝛼)
Tìm 𝑇𝛼 t bừ ảng phân ph i Student ố
Nếu 𝑇0≤ 𝑇𝛼, thì chấp nhận H. Nếu 𝑇0> 𝑇𝛼 ì bác b H th ỏ
+Ví d : ụ
Một vưòn ươm cây gi ng, theo quy ố định khi n cây cao trung bình trên 1m thì ào
đem ra tr ng. ồ Đongẫu nhiên 25 cây, đượ ốc s liệu:
Chiều cao 0.8 0.9 1.0 1.1 1.2 1.3
Số c ây 1 2 9 7 4 2
Với mức ý nghĩa 5%, có thể em cây ra trđ ồng không, g i thi t chi u cao c a câả ế ề ủ y theo lu t phân ph i chuậ ố ẩn.
Giải:
Gọi à chiμ l ều cao trung bình c a câủ y trong vườn. Từ mẫu ta có: H0:μ=μ0 =1 ( ch nêưa n đem cây ra trồng)
-𝑇𝛼= 𝑇0.05(24) = 2.064 -𝑇0=|1.068 |−1
0.122 √25 = 2.787
Vì 𝑇0> 𝑇𝛼 ì bác b H, nên ta k t th ỏ ế luận nên đem c ra trây ồng
B.Trường hợp 2 2 chưabiết, H1:μ>μ0 Tiêu chu n kiẩ ểm định:𝑇 =𝑋−𝜇0 √𝑛 Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑇0=𝑋−𝜇0 √𝑛 có phân ph i Student ố
T(n-1), đồng thời X là một ước lượng không ch ch cho . ệ μ
Từ ta có quy t c kiđó ắ ểm định sau : 𝑃 (𝑋 − 𝜇0√𝑛 > 𝑇𝛼(𝑛 − 1) = 1 − 𝛼) Tìm 𝑇𝛼 t bừ ảng phân ph i Student ố Nếu 𝑇0> 𝑇𝛼, thì chấp nhận H. C.Trường hợp 3 2 chưabiết, H1:μ<μ0 Tiêu chu n kiẩ ểm định:𝑇 =𝑋−𝜇0 √𝑛 Ta th y n u gi thuy t H ấ ế ả ế 0 đúng thì thống kê 𝑇0=𝑋−𝜇0 √𝑛 có phân ph i Student ố
Từ ta có quy t c kiđó ắ ểm định sau :
𝑃 (𝑋 − 𝜇0√𝑛 < 𝑇𝛼(𝑛 − 1) = 1 − 𝛼) Tìm 𝑇𝛼 t bừ ảng phân ph i Student ố
Nếu 𝑇0> 𝑇𝛼, thì bác b H. ỏ
4.2.2 Kiểm định so sánh hai trung bình
Cho hai bi n ngế ẫu nhiên độ ập X v Y, trong đó X có phân phốc l i chuẩn 𝑁(𝜇1; 𝜎12) mẫu kích thước n1,biến Y có phân ph i chuố ẩn 𝑁(𝜇 ; 𝜎2 22) m u kí ẫ ch thước n . Ta có 2 giả thi t Hế 0:𝜇1= 𝜇2, ta có các d ng b toán: ạ ài
i. Trường hợp 𝜎12; 𝜎22 đãbiết: chia th h 3 i thuy t Hàn đố ế 1:μ1>μ2 ;H1:μ1<μ2 ;H1:μ1≠μ2 Ta có quy t c kiắ ểm định như sau: Tìm 𝑍𝛼 từ h ệthức 2𝛷 𝑍( 𝛼) = 1 − 𝛼;Tính th ng kê ố 𝑍𝛼= |𝑋 − 𝑌| √𝜎12 𝑛1+ 𝜎22 𝑛2 Nếu 𝑍0≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0> 𝑍𝛼 ì bác b H th ỏ
ii. Trường h p ợ 𝜎12; 𝜎22chưabiết: chia th h 3 i thuy t Hàn đố ế 1:μ1>μ2 ;H1:μ1<μ2 ;H1:μ1≠μ2 ài toán Behrens Fisher) (B
- Trong th ng kê, bài toán Behrens-ố Fisher, được đặt theo tên của Walter
Behrens v Ronald Fisher, l bi toán ước lượng khoảng thời gian và kiểm
định giả thuyết liên quan đến sự khác biệt gi a giá trữ ị trung bình c a hai ủ
quần th phân b chuể ố ẩn khi phương sai của hai qu n thầ ểkhông được gi ả định là b ng nhau , d a trên hai mằ ự ẫu độc lập.
- Các gi i pháp cho vả ấn đề Behrens-Fisher đã được trình bày sử dụng quan
điểm cổđiển hoặc suy luận Bayes và một trong hai gi i pháp s không hả ẽ ợp lệ v m t hình thề ặ ức được đánh giá theoquan điểm khác. N u vi c xem xét ế ệ
chỉ bịgiới h n trong suy lu n th ng kê cạ ậ ố ổ điển, thì có th tìm ki m các giể ế ải pháp cho vấn đề suy lu n d áp dậ ễ ụng theo nghĩa thự ế, ưu tiên sực t đơn giản
ny hơn bất kỳ sự không chính xác nào trong các câu xác suất tươngứng. Khi yêu cầu độ chính xác c a các mủ ức ý nghĩa của các th nghi m th ng kê, ử ệ ố
có th có yêu c u b sung r ng th t c ph i s d ng tể ầ ổ ằ ủ ụ ả ử ụ ối đa thông tin thống kê trong t p dậ ữ liệu. Ai cũng biế ằt r ng có thểđạt được m t th nghi m chính ộ ử ệ
xác b ng cách lo i bằ ạ ỏ ngẫu nhiên dữ liệ ừ ậu t t p dữ liệ ớn hơn cho đếu l n khi
các kích thước mẫu bằng nhau, tập hợp dữ liệu theo từng cặp và lấy chênh lệch, sau đó sử dụng phân phối Student thông thường để kiểm tra sựđộ
chênh lệch giữa hai k v ng bỳ ọ ằng 0 rõ rng điều này s không ẽ phải là "tối
ưu" theo bất kỳnghĩa no.
- Nhiệm vụ chỉđịnh ước lượng khoảng thời gian cho vấn đề này là một nhiệm vụ mà cách ti p c n theo suy lu n Frenquentist không cung c p gi i pháp ế ậ ậ ấ ả
chính xác, m c dù có s n mặ ẵ ột số phép gần đúng. Các phương pháp tiếp c n ậ
Bayes tiêu chuẩn cũng không đưa ra được câu tr l i có thả ờ ểđược bi u th ể ị dưới dạng các công thức đơn giản, nhưng các phương pháp tính toán hiện
đại của phân tích Bayes cho phép tìm ra các gi i pháp chính xác vả ềcơ bản. giữa phương pháp tiếp cận thường xuyên v Bayes để ước lượng khoảng thời gian.
Ta có quy t c kiắ ểm định như sau: Tìm 𝑇𝛼= 𝑇𝛼/2(𝑛1+ 𝑛2− 2) t b ng phân ph i Student ừ ả ố Tính th ng kê ố 𝑇0= |𝑋−𝑌| √𝜎12𝑛1+𝑛2𝜎22 Nếu 𝑇0≤ 𝑇𝛼, thì chấp nhận H. Nếu 𝑇0> 𝑇𝛼 ì bác b H th ỏ +Ví d : ụ
Có hai ph ng pháp s n ươ ả xuất . Ph ng án 1ươ thử 6 m u thì trung bình c n 2.5 ẫ ầ
nguyên liệu,với phương sai là 0.1. Phương án 2 thử 5 m u thì trung bình c n 3.3 ẫ ầ
nguyên li u , v i ệ ớ phương sai là 195. C n 0. ầ chọn ph ng án nào phù h p, v i mươ ợ ớ ức ý ngh a 0.05? ĩ
Giải: H0:𝜇1= 𝜇2(số trung bình các đơn v nguyên li u c n thi t s n xu t ra ị ệ ầ ế để ả ấ
một s n ph m c a hai ph ng pháp là bả ẩ ủ ươ ằng nhau) -𝑇𝛼= 𝑇0.025(9) = 2.26
-𝑇0= |2.5−3.3|
√0.16+0.1955 = 3.39
Vì 𝑇0> 𝑇𝛼 thì bác b H, nêỏ n số trung bình các đơn vị nguyên li u s n xu t ra ệ để ả ấ
một s n ph m là ông bả ẩ kh ằng nhau
4.2.3 Kiểm định phương sai
A.Kiểm định phương sai (A chi-square test)
i. Phép th ử chi bình phương (Cochran, 1989)có th ể đượ ử ụng đểc s d kiểm
tra xem phương sai của một tập h p có b ng m t giá tr ợ ằ ộ ị xác định hay không. Th nghi m này có th là th nghi m hai phía ho c th nghiử ệ ể ử ệ ặ ử ệm
một phía. ép thPh ử hai ph ía kiểm tra phương án thay thế ằng phương sai r thực nhỏhơn hoặ ớn hơn giá trịc l được ch nh. ỉ đị Phép thử ộ m t phía ch ỉ