Khi muốn đặt ra một phép thử cho một lý thuyết mới, đầu tiên chúng ta phải hình thành một giả định, hay một tiêu chuẩn mà chúng ta tin rằng nó sẽ đúng. Ví dụ, chúng ta có thể cho rằng con số trung bình của học sinh nam bị tai nạn thương tích
nhiều hơn học sinh nữ. Nói theo quy luật thống kê thì giả thuyết mà chúng ta định đặt ra là một giả thuyết thay thế hay còn còn là giả thuyết nghiên cứu. Đi đôi với giả thuyết thay thế là giả thuyết gốc hay giả thuyết đối lập với giả thuyết thay thế. Theo nghĩa như vậy thì các giả thuyết gốc và giả thuyết thay thế mô tả hai trạng thái tự nhiên có thể có nhưng không thể đồng thời xảy ra. Khi một người nghiên cứu bắt đầu thu thập thông tin về một hiện tượng mà người đó quan tâm, nói chung, người ta sẽ cố gắng đưa ra các luận chứng ủng hộ cho giả thuyết thay thế [2].
Kiểm định một đầu( một phía) và kiểm định hai đầu( hai chiều):
- Kiểm định một đầu: khi giả thuyết ngược lại H1 có tính chất một phía thì việc kiểm định được gọi là kiểm định 1 đầu. Nghĩa là: Một kiểm định giả thuyết một phía là một kiểm định trong đó giả thuyết thay thế là có hướng và được xác định bằng một bất đẳng thức với “<” hoặc “>”.
Ví dụ: H0: θ <= θ0 ( hay H0: θ >= θ0) thì H1: H0: θ > θ0 ( hay H1: θ <θ0)
- Kiểm định hai đầu: khi giả thuyết ngược lại H1 có tính chất 2 phía thì việc kiểm định được gọi là kiểm định 2 đầu. Hoặc còn gọi một kiểm định giả thuyết hai chiều là một kiểm định trong đó giả thuyết thay thế không được xác định sẽ đi theo hướng nào tính từ H0 và được thể hiện bằng một mệnh đề với dấu “≠” [2].
Ví dụ: H0: θ = θ0 thì H1: θ ≠ θ0
2.4.3. Các kết luận và kết quả có đƣợc từ việc kiểm định giả thuyết
Mục đích của việc kiểm định một giả thuyết là đưa ra một quyết định liệu có thể loại bỏ được giả thuyết không H0 và nghiêng về giả thuyết thay thế H1 không. Mặc dù luôn mong rằng có thể đưa ra được một kết luận đúng đắn nhưng chúng ta phải nhớ rằng quyết định này sẽ phải dựa trên các thông tin mẫu và vì vậy chúng ta rất dễ mắc phải một trong hai loại sai lầm sau đây [2]:
- Sai lầm loại 1: Là loại sai lầm mà chúng ta phạm phải trong việc bác bỏ giả thuyết H0 khi H0 đúng. Xác suất của việc bác bỏ H0 khi H0 đúng là xác suất xuất sai lầm loại 1 và được ký hiệu là:
α = P( bác bỏ H0/ H0 đúng) = P
Xác suất α của việc mắc sai lầm loại 1 được gọi là mức ý nghĩa của một kiểm định giả thuyết.
- Sai lầm loại 2: là loại sai lầm mà chúng ta phạm phải khi không bác bỏ giả thuyết H0 khi H0 sai. Xác suất của việc không bác bỏ H0 khi H0 sai là xác suất của sai lầm loại 2 và được ký hiệu là β.
β = P (không bác bỏ H0/H0 sai) = P.
Giả thuyết không có thể là đúng hoặc sai, vì vậy chúng ta sẽ đưa ra một giả thuyết chấp nhận hoặc bác bỏ nó. Như vậy, có thể có 4 tình huống xảy ra khi kiểm định một giả thuyết
Bảng 2.1. Các kết luận và kết quả khi kiểm định một giả thuyết
Thực chất
H0 đúng ( H1 sai) H0 sai ( H1 đúng)
Quyết định Không bác bỏ H0 Quyết định đúng Sai lầm loại 2 Bác bỏ H0 Sai lầm loại 1 Quyết định đúng Chú ý rằng nguy cơ bị mắc sai lầm loại 1 chỉ có khi H0 bị bác bỏ, và nguy cơ bị mắc một sai lầm loại 2 chỉ có khi H0 không bị bác bỏ. Vì vậy, chúng ta có thể không mắc sai lầm hoặc có thể mắc hoặc là sai lầm loại 1( với xác xuất α) hoặc là sai lầm loại 2 (với xác suất β), nhưng không bao giờ mắc cả hai. Do đó, chúng ta có thể nhận thấy rằng giữa hai xác suất này có mối quan hệ rất gắn bó: khi α tăng thì β giảm, và ngược lại. Cách duy nhất để giảm α và β một cách đồng thời là làm tăng lượng thông tin có thể có trong mẫu [2].
2.4.4. Các bƣớc của việc kiểm định giả thuyết thống kê
Quá trình thực hiện kiểm định giả thuyết thống kê gồm 6 bước [2]: - Bước 1: Thành lập giả thuyết H0
- Bước 2: Thành lập giả thuyết H1 - Bước 3: Xác định mức ý nghĩa α
- Bước 4: Chọn tham số thống kê thích hợp cho việc kiểm định và xác định các miền bác bỏ, miền chấp nhận và giá trị giới hạn.
- Bước 5: Tính toán các giá trị của các tham số thống kê trong việc kiểm định dựa trên số hiệu của mẫu ngẫu nhiên.
- Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ H0 thì ra quyết định bác bỏ H0. Ngược lại sẽ chấp nhận H0.
2.4.5. Các thống kê kiểm định và miền bác bỏ
Khi tiến hành một suy luận thống kê (trong đó, kiểm định giả thuyết là một trường hợp đặc biệt), chúng ta phải thu thập thông tin từ một mẫu được rút ngẫu nhiên trong một quần thể mà ta quan tâm. Trong tất cả các ứng dụng chúng ta đều giả thiết rằng một quy trình lấy mẫu thích hợp đã được thực hiện [2].
Thống kê kiểm định là một thống kê mẫu được tính từ các thông tin rút ra từ một mẫu, mà mẫu này lại là cơ sở để tiến hành một kết luận liên quan đến các giả thuyết không và giả thuyết thay thế [2].
Miền bác bỏ là tập hợp các giá trị có thể có của thống kê kiểm định mà đối với giá trị này, giả thuyết không sẽ bị bác bỏ[2].
Một khi miền bác bỏ được xác định, ta sẽ tiến hành sử dụng dữ liệu trong mẫu để tính giá trị của thống kê kiểm định. Cuối cùng, chúng ta sẽ đưa ra quyết định từ việc quan sát xem giá trị tính được này của thống kê kiểm định có nằm trong miền bác bỏ hay không. Nếu nó rơi vào miền bác bỏ thì chúng ta sẽ bác bỏ giả thuyết không, ngược lại, chúng ta sẽ không bác bỏ giả thuyết này [2].
Quy trình tiến hành kiểm định một giả thuyết [2]:
1. Thu nhận một mẫu ngẫu nhiên từ quần thể nghiên cứu với một giả thiết là mẫu này đã được rút ra từ quy trình lấy mẫu thích hợp.
2. Xác định một thống kê kiểm định phù hợp với khuôn khổ của phép kiểm định giả thuyết đã cho.
3. Xác định miền bác bỏ, tức là miền giá trị có thể có của thống kê kiểm định mà đối với giá trị này giả thuyết không sẽ bị loại bỏ.
5. Quan sát xem liệu giá trị vừa tính được của thống kê kiểm định có nằm trong miền bác bỏ không. Nếu có thì bác bỏ giả thuyết không; ngược lại, không bác bỏ giả thuyết không.
Khi kiểm định giả thuyết liên quan đến một tham số quần thể nhất định thì thống kê kiểm định chính là ước lượng điểm tương ứng của tham số này. Trong bước 3, chúng ta chia tất cả các giá trị có thể có của thống kê kiểm định thầnh hai tập: miền bác bỏ và phần bù của nó. Nếu giá trị tính được của thống kê kiểm định rơi vào miền bác bỏ thì chúng ta sẽ bác bỏ giả thuyết không. Nếu ngược lại, giá trị này của thống kê kiểm định không rơi vào miền bác bỏ thì chúng ta sẽ không loại bỏ giả thuyết không [2].
Giá trị biên của miền bác bỏ đối với một kiểm định giả thuyết được gọi là giá trị tới hạn.
Các bước 4 và 5 của quy trình kiểm định giả thuyết yêu cầu việc tính một thống kê kiểm định từ các thông tin mẫu. Sau đó, chúng ta sẽ các định xem liệu giá trị chuẩn hóa của nó có nằm trong miền bác bỏ để ra một quyết định về việc loại bỏ giả thuyết hay không [2].
2.4.6. Ứng dụng lý thuyết kiểm định
2.4.4.1.Miêu tả một kiểm định giả thuyết
Trong các tham số quần thể, chúng ta sẽ xét các ứng dụng kiểm định cho các tham số (µ1 - µ2) và (p1 – p2).
Các khái niệm của một phép kiểm định đối với các tham số này là như nhau. Các giả thuyết không và thay thế, thống kê kiểm định, và miền bác bỏ đều có một dạng chung như đã trình bày ở trên. Tuy nhiên, cách thức tính toán thống kê kiểm định phụ thuộc thực tế vào tham số mà ta quan tâm [2].
Miêu tả một kiểm định giả thuyết: xác định tham số quan tâm
THAM SỐ TÊN GỌI/ MÔ TẢ
µ Trung bình
(µ1 - µ2) Chênh lệch về trung bình; khác nhau trung bình; so sánh các trung bình
p Tỷ lê; Phần trăm; Phân số; Phần; Bộ phận
(p1 – p2) Chênh lệch về tỷ lệ hoặc phần trăm; So sánh các tỷ lệ hoặc các phần trăm
σ2 Phương sai; Sự biến đổi; Độ chính xác
zz 12 2 2
Tỷ số của các phương sai; So sánh các phương sai
2.4.4.2. Kiểm định giả thuyết về một trung bình quần thể
Kiểm định giả thuyết về một trung bình quần thể với mẫu lớn
KIỂM ĐỊNH MỘT ĐẦU H0: µ = µ0
H1: µ > µ0 (hoặc là H1: µ < µ0)
KIỂM ĐỊNH HAI ĐẦU H0: µ = µ0 H0: µ ≠ µ0 Thống kê kiểm định 0 0 / x x x z s n Miền bác bỏ
z z (hoặc z z ) z zMiền bác bỏ / 2 ( hoặc z z/ 2)
Trong đó z là giá trị của z để cho P(z>z) = α; và z/ 2 là giá trị của z để cho
P(zz/ 2) =/ 2. [ chú ý: µ0 là ký hiệu của giá trị được chỉ thị cho µ trong giả thuyết không]
Giả thiết: Cỡ của mẫu phải đủ lớn sao cho phân bố lấy mẫu của x là xấp xỉ dạng chuẩn và s là một xấp xỉ tốt cho σ [2].
Kiểm định giả thuyết về một trung bình quần thể với mẫu nhỏ
KIỂM ĐỊNH MỘT ĐẦU H0: µ = µ0
H1: µ > µ0 (hoặc là H1: µ < µ0)
KIỂM ĐỊNH HAI ĐẦU H0: µ = µ0 H0: µ ≠ µ0 Thống kê kiểm định 0 / x t s n Miền bác bỏ Miền bác bỏ
t t (hoặc t t) t t/ 2( hoặc t t/ 2)
Trong đó phân bố của t dựa trên (n – 1) bậc tự do; tα là giá trị của t sao cho P(t>tα) = α; và tα/2 là giá trị của t sao cho P(t>tα/2) = α/2.
Giả thiết: phân bố tần suất tương đối của quần thể được rút mẫu có dạng xấp xỉ chuẩn [2].
Trong quá trình phát triển các thủ tục ước lượng, chúng ta đã thấy rằng khi tiến hành các suy luận dựa trên các mẫu nhỏ, ta đã phải dựa trên nhiều giả thiết hơn so với việc tiến hành các suy luận dựa trên các mẫu lớn. Trong thực tế, phép kiểm định giả thuyết này đòi hỏi một giả thiết về sự phân bố xấo xỉ dạng chuẩn của quần thế mà từ đó mẫu được chọn.
Chú ý, thống kê kiểm định được cho trong bảng trên là một thống kê t và được tính xấp xỉ giống như thống kê z. Do đó, giá trị tính được của t chỉ ra hướng và khoảng cách của trung bình mẫu x so với trung bình quần thể giả định µ0 (theo đơn vị độ lệch chuẩn) [2].
2.4.4.3. Kiểm định giả thuyết về một tỷ lệ quần thể
Thủ tục trình bày trong bảng dưới đây được sử dụng để kiểm định một giả thuyết về một tỷ lệ quần thể p, dựa trên một mẫu lớn được rút từ một quần thể đích. Chú ý rằng p chính là xác xuất của sự thành công trong một thí nghiệm nhị thức [2].
Để cho thủ tục này hợp lý, cỡ của mẫu phải đủ lớn để đảm bảo rằng phân bố lấy mẫu của tỷ lệ mẫu p có dạng xấp xỉ chuẩn. Theo kinh nghiệm chung thì n sẽ là đủ lớn nếu khoảng p 2 p q n/
không chứa 0 và 1 [2].
Kiểm định giả thuyết về một tỷ lệ quần thể dựa trên một mẫu lớn
KIỂM ĐỊNH MỘT ĐẦU H0: p = p0
H1: p > p0 ( hoặc H1: p < p0)
KIỂM ĐỊNH HAI ĐẦU H0: p = p0
H1: p ≠ p0 Thống kê kiểm định
0 0 0 p p z p q n Miền bác bỏ z > zα (hoặc z <- zα ) trong đó q0 = 1 – p0 Miền bác bỏ z < -zα/2 ( hoặc z > zα/2) trong đó q0 = 1 – p0 Giả thiết: khoảng p 2 p q n/
không chứa 0 và 1 [2].
2.4.4.4. Kiểm định giả thuyết về sự khác nhau giữa hai trung bình quần thể
Kiểm định giả thuyết về (µ1 - µ2) dựa trên một mẫu lớn
KIỂM ĐỊNH MỘT ĐẦU H0: (µ1 - µ2) = D0
H1: (µ1 - µ2) > D0 ( hoặc (µ1 - µ2) < D0)
KIỂM ĐỊNH HAI ĐẦU H0: : (µ1 - µ2) = D0 H1: : (µ1 - µ2) ≠ D0 Thống kê kiểm định 1 2 1 2 0 1 2 0 2 2 ( ) 1 2 1 2 ( ) ( ) x x x x D x x D z s s n n Miền bác bỏ z > zα (hoặc z <- zα ) Miền bác bỏ z < -zα/2 ( hoặc z > zα/2)
Chú ý: trong thực tế, chúng ta muốn giả định rằng không có sự chênh lệch giữa các trung bình quần thể, tức là trong các trường hợp này, D0 = 0.
Giả thiết:
1.Các cỡ mẫu n1 và n2 là đủ lớn (n1 >= 30 và n2 >= 30)
2. Các mẫu được lựa chọn ngẫy nhiên và độc lập từ các quần thể đích [2].
Kiểm định giả thuyết về (µ1 - µ2) dựa trên một mẫu nhỏ
KIỂM ĐỊNH MỘT ĐẦU H0: (µ1 - µ2) = D0
H1: (µ1 - µ2) > D0
( hoặc H1: (µ1 - µ2) < D0)
KIỂM ĐỊNH HAI ĐẦU H0: : (µ1 - µ2) = D0
H1: : (µ1 - µ2) ≠ D0 Thống kê kiểm định
1 2 0 2 1 2 ( ) 1 1 p x x D z s n n Miền bác bỏ t > tα (hoặc t <- tα ) Miền bác bỏ t < -tα/2 ( hoặc t > tα/2) Trong đó: 2 2 2 1 1 2 2 1 2 ( 1) ( 1) 2 p n s n s s n n
Và phân bố của t dựa trên ( n1 + n2 -2) bậc tự do. Các giả thiết:
1. Các quần thể được rút mẫu đều có phân bố tần suất tương đối xấp xỉ dạng chuẩn.
2. Các phương sai của hai quần thể là bằng nhau.
3. Các mẫu ngẫu nhiên được chọn một cách độc lập từ hai quần thể [2].
2.4.4.5. Kiểm định giả thuyết về sự khác nhau giữa hai tỷ lệ quần thể
Giả sử chúng ta cần so sánh tỷ lệ p1 của một quần thể với tỷ lệ p2 của một quần thể khác. Tức là, chúng ta sẽ kiểm định một giả thuyết về sự khác nhau giữa hai tỷ lệ này, (p1 -p2). Trong đó: p1 và p2 cũng chính là các xác suất của sự thành công đối với các phép thử nhị nguyên [2].
Kiểm định giả thuyết về (p1 – p2) dựa trên các mẫu lớn
KIỂM ĐỊNH MỘT ĐẦU H0: (p1 – p2) = D0
H1: (p1 – p2) > D0 hoặc H1: (p1 – p2) < D0
KIỂM ĐỊNH HAI ĐẦU H0: (p1 – p2) = D0 H1: (p1 – p2) ≠ D0 Thống kê kiểm định 1 2 0 1 2 ( ) ( ) p p p p D z Miền bác bỏ z > zα (hoặc z <- zα ) Miền bác bỏ z < -zα/2 ( hoặc z > zα/2)
Trong đó: 1 2 1 1 2 2 ( ) 1 2 p p p q p q n n Khi D0 ≠ 0, tính 1 2 (p p ) bằng cách sử dụng p1 và p2 : 1 2 1 1 2 2 ( ) 1 2 p p p q p q n n Với q1 1 p1 và q2 1 p2