5 Lý thuyết thống kê toán
5.3 Bài toán kiểm định giả thiết
Trong chương này chúng ta đề cập đến một vấn đề quan trọng của thống kê: Đó là bài toán kiểm định giả thiết. Nội dung của bài toán này như sau: Căn cứ trên các số liệu thu được, hãy cho một kết luận về giả thiết thống kê mà chúng ta đang quan tâm. Một giả thiết thống kê là một giả thiết về phân bố của tập hợp chính ta đang xét.
Nếu phân bố đó được đặc trưng bởi các tham số (như trung bình, phương sai, tỷ lệ,...) thì giả thiết thống kê là giả thiết về tham số của phân bố đó. Thí dụ: tập hợp chính có phân bố chuẩn với kỳ vọng là 3, phương pháp điều trị A chữa khỏi
90% bệnh nhân, tuổi thọ trung bình của hai bóng đèn A và B là như nhau,... Một quy tắc hay một thủ tục quyết định dẫn tới việc bác bỏ hay chấp nhận giả thiết đã nêu được gọi là một kiểm định (test) thống kê. Giả thiết được đưa ra kiểm nghiệm được kí hiệu là H0, đó là một giả thiết mà ta nghi ngờ và muốn bác bỏ nó; ngoài giả thiết H0 (đối thiết) được ký hiệu là H1. H1 được chấp nhận khi H0 bị bác bỏ.
Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thiết bằng cách nào? Các nhà thống kê tuân theo nguyên lý sau (được gọi là nguyên lý xác suất nhỏ):
"Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử hay một vài phép thử, biến cố đó sẽ không xảy ra".
Như vậy chúng ta sẽ quyết định bác bỏ giả thiết H0 nếu xác suất xuất hiện của một sự kiện quan sát được, tính trong điều kiện giả thiết H0 đúng, là "nhỏ". Thực chất trong chương này chúng ta sẽ giải quyết các bài toán có dạng sau: Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề nào đó, chẳng hạn:
- Có ý kiến cho rằng tham ẩn θ của phân phối nào đó nhận giá trị θ0, nhưng lại có ý kiến cho rằng θ nhận giá trị θ1.
- Có ý kiến cho rằng phương pháp cải tiến kỹ thuật này không có hiệu quả nhưng có ý kiến khác lại cho rằng phương pháp cải tiến kỹ thuật đó có hiệu quả hơn hẳn so với phương pháp cũ.
- Có ý kiến cho rằng biến ngẫu nhiên đang xét có phân phối Poisson nhưng có ý kiến khác lại cho rằng biến ngẫu nhiên tuân theo luật phân phối chuẩn,...
Vấn đề đặt ra là ta phải chọn một trong hai giả thiết đã nêu ra. Hay nói cách khác là ta chọn giả thiết nào để khả năng đúng cao hơn, khả năng sai thấp hơn. Để cho tiện ta gọi một trong hai giả thiết đặt ra là H0 và giả thiết kia là H1 như trên.
Để giải quyết bài toán trên, thông tin duy nhất mà chúng ta có là một mẫu ngẫu nhiên. Vận dụng các kết quả của lý thuyết xác suất ta sẽ tìm một miến S,sao cho khi mẫu (X1, X2, . . . , Xn) ∈ S thì ta bác bỏ giả thiết H0, còn khi (X1, X2, . . . , Xn) ∈/ S
thì ta chấp nhận H0 cho đến khi có thông tin mới. Miền S nói trên được gọi là miền tiêu chuẩn.
Ví dụ 5.7. Trong các cuộc nghiên cứu ở Mỹ cho biết trẻ em Mỹ ở tuổi đến trường tiêu thụ trung bình 19,4 ounce sữa 1 ngày (1 ounce=28,35gam). Trong một mẫu ngẫu nhiên gồm 140 trẻ em người ta tính được lượng sữa trung bình trẻ em uống là 18,5 ounce với độ lệch tiêu chuẩn 6,8 ounce. Điều này cho phép ta kết luận là lượng sữa tiêu thụ ít hơn 19,4 ounce hay không?
Khi đưa ra kết luận phải lựa chọn giữa hai giả thiết H0 và H1, ta có thể phạm hai loại sai lầm:
+ Bác bỏ H0 khi thực tế H0 là đúng (Sai lầm loại 1). + Chấp nhận H0 khi thực tế H0 là sai (Sai lầm loại 2).
loại sai lầm nhưng khi cỡ mẫu n cố định thì mong muốn trên là không thể thực hiện được, do đó thông thường ta cho trước giới hạn trên của xác suất phạm sai lầm loại 1, ký hiệu là α, α thường nhỏ (α = 0,05; 0,02; 0,01; 0,001;...). Ta sẽ tìm miền S sao cho khả năng phạm sai lầm loại 2 đạt cực tiểu. α được gọi là mức ý nghĩa của tiêu chuẩn.
Một bài toán kiểm định giả thiết được tiến hành theo 6 bước: + Phát biểu giả thiết H0 và đối thiết H1.
+ Định rõ mức ý nghĩa α (xác suất mắc sai lầm loại 1). + Chọn test thống kê.
+ Chọn miền bác bỏ giả thiết H0.
+ Tính giá trị của test thống kê từ mẫu quan sát được.
+ Kết luận bác bỏ H0 hay chấp nhận H0 tùy theo giá trị của test thống kê có rơi vào miền bác bỏ giả thiết hay không.