Lý thuyết mẫu
§1 KHÁI NIỆM VỀ TỔNG THỂ VÀ MẪU
Trong nghiên cứu thống kê, khi cần khảo sát một dấu hiệu nào đó trên một tập hợp lớn các phần tử, ta gọi tập hợp này là tổng thể Do hạn chế về thời gian và kinh phí, việc nghiên cứu toàn bộ các phần tử là không khả thi, vì vậy ta chỉ chọn một số phần tử đại diện để nghiên cứu Những phần tử này được gọi là mẫu, và số lượng phần tử trong mẫu được gọi là cỡ mẫu hay kích thước mẫu, thường được ký hiệu là n.
Khảo sát chiều cao trung bình của sinh viên tại thành phố A được thực hiện với toàn bộ sinh viên trong thành phố là tổng thể Do số lượng sinh viên quá lớn, không thể khảo sát hết, nên chúng ta chọn 500 sinh viên để làm mẫu Như vậy, cỡ mẫu trong nghiên cứu này là n = 500.
2 Mẫu ngẫu nhiên, mẫu cụ thể
Dấu hiệu cần nghiên cứu có thể được phân loại thành định lượng, như chiều cao, cân nặng, độ dài, diện tích và thể tích, hoặc định tính, liên quan đến các tính chất cụ thể Đối với dấu hiệu định tính, chúng ta có thể lượng hóa bằng cách gán giá trị 1 nếu phần tử có tính chất đó và 0 nếu không có.
Dấu hiệu nghiên cứu có thể được xem như một biến lượng X, thay đổi giữa các phần tử trong tổng thể Vì các phần tử được chọn ngẫu nhiên, X thực sự là một biến ngẫu nhiên, với giá trị phụ thuộc vào kết quả chọn mẫu Mỗi phần tử trong mẫu kích thước n được chọn độc lập, tạo thành n biến ngẫu nhiên (X1, X2, , Xn) độc lập và cùng phân phối với X Bộ n biến ngẫu nhiên này được gọi là mẫu ngẫu nhiên hay mẫu lý thuyết kích thước n, tương ứng với mỗi phép chọn mẫu cụ thể.
X = x X = x X = x ta được một bộ giá trị ( , , , )x x 1 2 x n gọi là mẫu cụ thể hay mẫu thực nghiệm
3 Các kỹ thuật chọn mẫu ngẫu nhiên
Mẫu đại diện cho tổng thể cần được chọn một cách khách quan, không thiên vị và phản ánh trung thực Một trong những kỹ thuật phổ biến để chọn mẫu là chọn mẫu ngẫu nhiên đơn giản, phương pháp này đáp ứng các điều kiện nhất định để đảm bảo tính đại diện.
- Mỗi lần chỉ được chọn một phần tử vào mẫu Mỗi phần tử của tổng thể đều có thể được chọn vào mẫu với cùng khả năng như nhau;
- Các mẫu cùng kích thước có cùng xác suất được chọn
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 47
Việc chọn mẫu có thể thực hiện qua bốc thăm hoặc sử dụng bảng số ngẫu nhiên, với hai phương thức chính là chọn hoàn lại và chọn không hoàn lại Khi số phần tử N trong tổng thể rất lớn so với kích thước mẫu n, hai phương thức này có thể được coi là tương đương.
Mẫu ngẫu nhiên đơn giản có tính đại diện cao, nhưng yêu cầu phải hiểu rõ tổng thể và chi phí chọn mẫu lớn Một phương pháp khác là chọn mẫu phân nhóm, giúp giảm thiểu chi phí và tăng tính khả thi trong nghiên cứu.
Phương pháp chọn mẫu chùm chia tổng thể thành các nhóm tương đối đồng nhất và sau đó lấy mẫu ngẫu nhiên từ mỗi nhóm Tập hợp các mẫu này tạo thành một mẫu ngẫu nhiên phân nhóm, thích hợp khi tổng thể có sự khác biệt lớn.
Phương pháp chọn mẫu ngẫu nhiên từ các chùm là một kỹ thuật trong nghiên cứu, trong đó mỗi phần tử chỉ được chọn vào một chùm, nhằm đảm bảo độ phân tán cao và quy mô đồng đều như tổng thể Mặc dù phương pháp này có thể tiết kiệm chi phí và thời gian, nhưng nó cũng đi kèm với sai số chọn mẫu cao hơn so với các phương pháp khác.
Phương pháp chọn mẫu này dựa trên ý kiến chuyên gia về đối tượng nghiên cứu Nhược điểm của phương pháp này là khó đảm bảo tính khách quan
4 Trình bày mẫu cụ thể a) Bảng phân phối thực nghiệm (không ghép lớp)
Khi mẫu có nhiều giá trị trùng nhau, số liệu được trình bày dưới dạng bảng hai dòng Dòng đầu ghi các giá trị khác nhau của X, trong khi dòng dưới thể hiện tần số xuất hiện tương ứng của các giá trị này Đây là bảng phân phối tần số thực nghiệm.
Từ tần số n i ta tính được tần suất i n i f n và có thể trình bày mẫu theo bảng phân phối tần suất thực nghiệm
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 48
Để khảo sát thời gian chờ phục vụ của khách hàng tại ngân hàng (đơn vị: phút), một cuộc khảo sát ngẫu nhiên đã được thực hiện với 10 người, thu thập được các kết quả: 9, 8, 10, 10, 12, 6, 11, 10, 12, 8 Dựa trên dữ liệu này, cần lập bảng phân phối thực nghiệm để phân tích thời gian chờ của khách hàng.
Giải Bảng phân phối tần số thực nghiệm x i 6 8 9 10 11 12 n i 1 2 1 3 1 2 Bảng phân phối tần suất thực nghiệm x i 6 8 9 10 11 12 f i 1/10 2/10 1/10 3/10 1/10 2/10 b) Bảng phân phối thực nghiệm ghép lớp
Khi kích thước mẫu lớn và các giá trị mẫu gần nhau, người ta gom các giá trị thành các lớp, với những giá trị tương tự được xếp vào cùng một lớp Bảng phân phối thực nghiệm ghép lớp sẽ có hai dòng như bảng không ghép lớp, trong đó dòng trên ghi các lớp (các khoảng), còn dòng dưới ghi số lượng giá trị mẫu thuộc vào từng khoảng tương ứng.
Ví dụ 3 Khảo sát điện năng tiêu thụ trong 50 ngày làm việc gần nhất của một công ty được kết quả sau :
Biểu đồ là công cụ hữu ích để mô tả số liệu mẫu một cách rõ ràng và trực quan, giúp đánh giá sơ bộ về tổng thể Các loại biểu đồ này có thể dễ dàng tạo ra bằng các phần mềm như Excel và SPSS Một trong những đặc trưng quan trọng của mẫu ngẫu nhiên là tính đại diện, giúp phản ánh chính xác đặc điểm của toàn bộ quần thể nghiên cứu.
Trong thống kê, cho một mẫu ngẫu nhiên (X1, X2, , Xn), một hàm T(X1, X2, , Xn) được gọi là một thống kê Các vấn đề trong thống kê toán chủ yếu được giải quyết thông qua việc xây dựng các thống kê.
Trong bài viết này, chúng ta sẽ khám phá các đặc trưng quan trọng của mẫu, bao gồm trung bình mẫu ngẫu nhiên, phương sai mẫu ngẫu nhiên và tỷ lệ mẫu ngẫu nhiên Những đặc trưng này đóng vai trò quan trọng trong việc phân tích và hiểu rõ hơn về dữ liệu mẫu.
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 49
Trước khi đi vào các đặc trưng mẫu cần chú ý trên tổng thể có các tham số sau đây:
Trung bình tổng thể, ký hiệu là
Phương sai tổng thể, ký hiệu là 2 ,;độ lệch chuẩn của tổng thể, ký hiệu
Tỷ lệ phần tử có tính chất A mà ta quan tâm trong tổng thể, ký hiệu p
Các tham số này tồn tại khách quan nhưng vì không điều tra toàn bộ tổng thể nên ta thường không biết được giá trị thực của chúng
1 Trung bình mẫu ngẫu nhiên
Trung bình mẫu của X là
2 Tỉ lệ mẫu ngẫu nhiên
Ước lượng cho một tham số thống kê
§1 KHÁI NIỆM CƠ BẢN VỀƯỚC LƯỢNG
Trong thực tế, chúng ta thường không biết các tham số của tổng thể như trung bình (μ), phương sai (σ²) hay tỷ lệ (p), vì vậy cần sử dụng mẫu để ước lượng các giá trị này Quá trình này được gọi là ước lượng, và để đơn giản, chúng ta ký hiệu chung cho các tham số này là θ.
Kết quả ước lượng có thể được phân loại thành hai dạng chính: ước lượng điểm, trong đó kết quả được biểu thị bằng một giá trị cụ thể, và ước lượng khoảng, nơi kết quả được xác định trong một khoảng giá trị nhất định.
Chọn thống kê G(X 1 , X 2 , … X n ) làm hàm ước lượng cho θ của tổng thể Từ mẫu cụ thể (x 1 , x 2 , … x n ) ta tính giá trị thực nghiệm g của G, tức g = G(x 1 , x 2 , … x n ) thì g là ước lượng điểm cho θ
Chẳng hạn để ước lượng cho trung bình ta dùng hàm ước lượng là trung bình mẫu ngẫu nhiên
, thì trung bình mẫu cụ thể x là một ước lượng điểm của
1.2 Các tiêu chuẩn đánh giá ƣớc lƣợng điểm
Có nhiều phương pháp để chọn hàm ước lượng cho tham số θ, do đó cần thiết lập tiêu chí để đánh giá chất lượng của các ước lượng nhằm lựa chọn hàm ước lượng tốt nhất Một trong những tiêu chí quan trọng là ước lượng không chệch, đảm bảo rằng giá trị ước lượng trung bình của tham số θ gần với giá trị thực tế.
Hàm ước lượng G được gọi là ước lượng không chệch của tham số θ nếu E(G) = θ Ngược lại, nếu E(G) θ thì G được gọi là ước lượng chệch của θ b) Ƣớc lƣợng hiệu quả
Hàm ước lượng G được xem là một ước lượng hiệu quả của θ khi nó không chệch và có phương sai nhỏ nhất trong số các ước lượng không chệch của θ Ngoài ra, ước lượng vững cũng là một khái niệm quan trọng trong thống kê.
Hàm ước lượng G của θ được gọi là vững nếu mọi > 0 bé tuỳ ý cho trước ta đều có: n 1 lim P G
1.3 Một số hàm ước lượng thường dùng
Một cách tự nhiên, có thể dùng các tham số tương ứng của mẫu để ước lượng cho tham số tổng thể
Ta có một số kết quả sau: i X S F, , 2 tương ứng là ước lượng không chệch, vững cho , 2 ,p ngoài ra nếu
X N thì X là ước lượng hiệu quả cho còn X A p( )thì F là ước lượng hiệu quả cho p
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 53 ii S 2 là ước lượng vững, chệch cho 2
Ví dụ 1 Cân ngẫu nhiên 45 con heo 3 tháng tuổi trong một trại chăn nuôi, ta được kết quả sau:
Ước lượng không chệch cho trọng lượng trung bình của heo 3 tháng tuổi tại trại là 40,96 kg Phương sai tổng thể của heo 3 tháng tuổi được xác định là s² Tỷ lệ heo có trọng lượng không dưới 38 kg trong mẫu là 37%.
Ước lượng khoảng tin cậy là phương pháp khắc phục những hạn chế của ước lượng điểm, như không phù hợp với mẫu kích thước nhỏ và không đánh giá được sai số có thể lớn Phương pháp này chỉ ra một khoảng ngẫu nhiên (θ1, θ2) mà giá trị θ có khả năng nằm trong đó với xác suất cao, gọi là độ tin cậy của ước lượng, thường được ký hiệu là
1 (với gần 0); khoảng (θ1, θ2) gọi là khoảng tin cậy cho θ với độ tin cậy 1
Phương pháp ước lượng khoảng tin cậy được mô tả như sau:
Chọn thống kê G(X 1 , X 2 , …X n, θ) sao cho qui luật phân phối xác suất của G hoàn toàn xác định Do đó ta có thể tìm được hai số g 1 và g 2 sao cho:
Khoảng (θ₁, θ₂) được xác định từ biến đổi P(θ₁ < θ < θ₂) = 1 - α, với θ₁ = θ₁(X₁, X₂) và θ₂ = θ₂(X₁, X₂), được gọi là khoảng tin cậy của θ với độ tin cậy 1 - α Khoảng này là ngẫu nhiên và sẽ thay đổi giữa các mẫu khác nhau Trên một mẫu cụ thể (x₁, x₂, …, xₙ), θ sẽ nằm trong khoảng θ₁(x₁, …, xₙ) < θ < θ₂(x₁, …, xₙ).
Phương pháp ước lượng khoảng là công cụ hữu ích cho các mẫu có kích thước nhỏ, giúp xác định khoảng tin cậy cho giá trị trung bình Việc ước lượng khoảng không chỉ cung cấp thông tin về giá trị trung bình mà còn đánh giá độ tin cậy của ước lượng này.
1 Khoảng ƣớc lƣợng của giá trị trung bình
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 54 y x
có phân phối chuẩn tắc (nếu X có phân phối chuẩn) hoặc xấp xỉ chuẩn tắc ( nếu X có phân phối bất kỳ và kích thước mẫu lớn) nên
2 z là giá trị tới hạn chuẩn tắc mức
, với Z N (0,1) Vậy với độ tin cậy 1 – α, khoảng tin cậy của là:
; ta gọi ε độ chính xác hay còn gọi là sai số của ước lượng ; thì khoảng tin cậy của
có dạng x ; x ; đây là một khoảng đối xứng có tâm là x Đại lượng l 2 là độ dài khoảng tin cậy đối xứng của
Theo cách xây dựng trên, ( ; )g g 1 2 được chọn bằng
(z ;z ) Tất nhiên ta cũng có thể chọn
( ; )g g bằng các giá trị khác miễn sao vẫn đảm bảo P g( 1 G g 2 ) 1 , chẳng hạn
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 55
(, ); (z z ,z ); (z ,); khi đó, ta sẽ thu được các khoảng tin cậy không đối xứng của
Trong tài liệu này, khi ước lượng khoảng cho trung bình và tỷ lệ tổng thể, chỉ xét khoảng đối xứng Nếu chỉ đề cập đến khoảng tin cậy mà không có chú thích thêm, điều đó được hiểu là khoảng đối xứng.
Với độ tin cậy 1 , ta có
Tính độ chính xác của ước lượng
Khoảng tin cậy 1 cho là x ;x )
Trọng lượng của sản phẩm sản xuất hàng loạt được xem là một biến ngẫu nhiên với độ lệch tiêu chuẩn là 8g Sau khi khảo sát 100 sản phẩm, trung bình mẫu đạt 150g Với độ tin cậy 95%, chúng ta có thể ước lượng khoảng đối xứng cho trọng lượng trung bình μ của loại sản phẩm này.
Với độ tin cậy 1 0,95, ta có
Khoảng tin cậy 95% cho là ( x; x)150 1,568;150 1,568 148,432;151,568
1.2 Trường hợp khôngbiết và kích thước mẫu n30
Với kích thước mẫu lớn, có thể sử dụng s để ước lượng cho các giá trị chưa biết Tương tự như trong trường hợp 2.1, khoảng tin cậy của với độ tin cậy 1 – α được xác định bởi công thức x ;x ) Quy tắc thực hành áp dụng giống như trường hợp 1, chỉ cần thay thế bằng s.
Khi khảo sát lượng xăng hao phí của một ô tô khi di chuyển từ A đến B sau 150 lần chạy, giá trị trung bình được ghi nhận là 10,56 lít với độ lệch chuẩn hiệu chỉnh là 0,587 lít Để ước lượng lượng xăng hao phí trung bình của ô tô này với độ tin cậy 99%, chúng ta cần tính toán khoảng tin cậy dựa trên các thông số đã cho.
Giải Gọi X là lượng xăng hao phí của ô tô trong một lần đi từ A đến B, là lượng xăng hao phí trung bình của ô tô này khi đi từ A đến B
Theo đề bài ta có n150;x10,56;s0,587
Với độ tin cậy 1 ta có
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 56 Độ chính xác
Khoảng tin cậy 95% cho là
1.3 Trường hợp khôngbiết và kích thước mẫu n30
G S có phân phối Student với n – 1 bậc tự do Tương tự 2.1, khoảng tin cậy của với độ tin cậy 1 – α có dạng x ;x ); độ chính xác
2 t (n 1) là giá trị tới hạn mức
của phân phối Student n1 bậc tự do
Giá bán của một loại thiết bị trên thị trường được xem là biến ngẫu nhiên với phân phối chuẩn Một khảo sát ngẫu nhiên tại 8 cửa hàng cho thấy giá bán trung bình là 137,75 USD với độ lệch chuẩn mẫu là 7,98 USD Dựa trên độ tin cậy 90%, chúng ta có thể ước lượng giá bán trung bình của thiết bị này trên thị trường.
Giải Gọi X là giá bán (USD) của một thiết bị loại này trên thị trường; là giá bán trung bình của thiết bị loại này trên thị trường
và n 8 n 1 7 Tra bảng giá trị tới hạn Student
Khoảng tin cậy 90% cho là ( x; x)132,4035;143,0965 (USD)
2 Xác định kích thước mẫu tối thiểu đối với ước lượng trung bình
Trong phần này, chúng ta sẽ xem xét cách xác định kích thước mẫu n khi đã biết độ chính xác ε và độ tin cậy 1−α Độ chính xác càng nhỏ sẽ dẫn đến khoảng ước lượng càng hẹp và kết quả càng có ý nghĩa Để giảm độ chính xác, cần tăng kích thước mẫu, nhưng do hạn chế về kinh phí và các lý do khác, việc tăng kích thước mẫu không phải lúc nào cũng khả thi.
Bành Thị Hồng, Bùi Hùng Vương và Nguyễn Huế Tiên 57 nhấn mạnh rằng để đảm bảo độ chính xác nhỏ hơn một giới hạn nhất định ε, kích thước mẫu cần đạt tối thiểu một giá trị n min Việc xác định kích thước mẫu tối thiểu này là cần thiết để đáp ứng yêu cầu về độ chính xác trong nghiên cứu.
√ 0 n ( ( ) ) n 0 ; nếu n 0 thì ta lấy min 0 n n còn nếu n 0 thì ta lấy n min [ ] 1n 0
Kiểm định giả thuyết thống kê
CHO THAM SỐ MỘT TỔNG THỂ §1 KHÁI NIỆM CHUNG VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Giả thuyết thống kê là những phát biểu chưa được xác định đúng hay sai, liên quan đến các tham số, quy luật phân phối hoặc tính độc lập của các biến ngẫu nhiên.
Kiểm định giả thuyết thống kê là quá trình sử dụng số liệu thu thập được để đưa ra kết luận về việc bác bỏ hoặc chấp nhận một giả thuyết với mức ý nghĩa nhất định.
Giả thuyết không, ký hiệu là H0, là giả thuyết cần kiểm định Khi có nghi ngờ về H0, chúng ta đặt ra giả thuyết đối lập H1 Nếu dữ liệu thực nghiệm cho phép bác bỏ H0, chúng ta sẽ chấp nhận H1.
Biến ngẫu nhiên X có phân phối chuẩn X không có phân phối chuẩn
Trọng lượng trung bình của 1 loại sp là 8g 8 hoặc 8 hoặc 8
Tỷ lệ phế phẩm của một lô hàng là p9% p9% hoặc p9% hoặc p9%
2 Nguyên lí của kiểm định giả thuyết thống kê
Nguyên lí xác suất nhỏ: Nếu một biến cố có xác suất rất nhỏ thì trong một vài phép thử, biến cố đó sẽ không xảy ra
Khi xem xét một lô hàng với nhiều sản phẩm và tỷ lệ phế phẩm là 1/1000, xác suất để chọn ngẫu nhiên một sản phẩm bị lỗi là rất thấp, gần như không xảy ra.
Trong kiểm định giả thuyết thống kê, thường mức xác suất nhỏ hơn 0,05 có thể coi là xác suất nhỏ
Biến cố có xác suất rất nhỏ được gọi là biến cố hiếm
Trên cơ sở nguyên lí xác suất nhỏ, bằng lập luận phản ta có thể bác bỏ giả thuyết H0 như sau:
Để tìm biến cố A, cần xác định rằng nếu giả thuyết H0 đúng, xác suất xảy ra của A sẽ rất nhỏ, tương đương với mức α Điều này có nghĩa là A sẽ trở thành một biến cố hiếm, không có khả năng xảy ra trong một phép thử nếu H0 được chấp nhận.
Thực hiện phép thử (lấy mẫu) để quan sát biến cố A; nếu A xảy ra chứng tỏ nó không phải là biến cố hiếm nên H0 sai, ta bác bỏ H0
3 Phương pháp chung kiểm định giả thuyết thống kê
Từ nguyên lí đã nêu, ta xây dựng phương pháp chung để kiểm định một giả thuyết thống kê sau đây:
Xét thống kê G = f(X 1 , X 2 , … X n , θ 0 ) sao cho nếu H 0 đúng thì qui luật phân phối xác suất của
G hoàn toàn xác định Vì đã biết phân phối của G nên có thể tìm được miền W α sao cho P(G
W α |H 0 ) = α rất bé (biến cố G W α chính là biến cố A đã nói ở trên) Do đó nếu giá trị thực
Khi giá trị thực nghiệm của thống kê G rơi vào miền W α, chúng ta sẽ bác bỏ giả thuyết H 0 Ngược lại, nếu giá trị G không thuộc miền W α, chưa đủ cơ sở để bác bỏ giả thuyết H 0.
Thống kê G là tiêu chuẩn để kiểm định giả thuyết H0, trong khi miền Wα được gọi là miền bác bỏ giả thuyết H0 Mức ý nghĩa của kiểm định được ký hiệu là α Cần lưu ý rằng có nhiều phương pháp để chọn miền bác bỏ Wα sao cho xác suất P(G ∈ Wα|H0) = α.
4 Các loại sailầm có thể gặp trong kiểm định
Giả thuyết H0 đề cập đến toàn bộ tổng thể, nhưng việc đưa ra kết luận chỉ dựa vào một mẫu có thể dẫn đến hai loại sai lầm Một trong những sai lầm đó là sai lầm loại 1.
Bác bỏ H 0 trong khi thực tế H 0đúng Xác suất mắc sai lầm loại 1 là : P(G Wα|H 0 ) = α b) Sai lầm loại 2
Chấp nhận H 0 trong khi thực tế H 0 sai Xác suất mắc sai lầm loại 2 là P(G W α / H 0 ) = β
Để tránh bỏ sót một giả thuyết đúng, chúng ta thường có xu hướng thận trọng trong việc bác bỏ, nhưng điều này cũng khiến chúng ta dễ dàng chấp nhận những giả thuyết sai Do đó, việc tìm kiếm sự cân bằng giữa việc bác bỏ và chấp nhận giả thuyết là rất quan trọng để hạn chế sai lầm trong quá trình nghiên cứu.
Khi chấp nhận một giả thuyết sai, cần thận trọng để không bỏ sót giả thuyết đúng, dẫn đến hai loại sai lầm loại 1 và 2 có tính chất đối lập Để giảm xác suất sai lầm loại 1 (α), cần phải tăng xác suất sai lầm loại 2 (β) và ngược lại, cho thấy việc giảm đồng thời cả hai là không thể Trong thực tế, người ta thường thiết lập xác suất sai lầm loại 1 trước (mức ý nghĩa α) và chọn miền bác bỏ Wα để tối thiểu hóa xác suất sai lầm loại 2, từ đó tiêu chuẩn kiểm định trở nên mạnh nhất.
Các miền bác bỏ được trình bày trong phần tiếp theo đều làm cho tiêu chuẩn kiểm định mạnh nhất
Trong bài toán kiểm định tham số với giả thuyết H0: θ = θ0, có ba dạng miền bác bỏ được lựa chọn tùy thuộc vào loại giả thuyết Các dạng này bao gồm kiểm định một phía và kiểm định hai phía, mỗi loại có cách xác định miền bác bỏ riêng biệt, phù hợp với mục tiêu nghiên cứu và tính chất của dữ liệu Việc hiểu rõ các dạng miền bác bỏ là rất quan trọng để thực hiện kiểm định thống kê một cách chính xác.
là các giá trị tới hạn mức 1
Nếu đối thuyết H 1 : 0 thì W ,g 1 Trong đó g 1 giá trị tới hạn mức 1 của
Nếu đối thuyết H 1: 0thì ta chọn W g , Trong đó g là giá trị tới hạn mức của G, tức P G g , do đó: P G W P G g
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 65
Ta gọi kiểm định ở trường hợp thứ nhất là kiểm định hai phía, kiểm định ở 2 trường hợp sau là kiểm định một phía
Việc lựa chọn kiểm định một phía hay hai phía phụ thuộc vào thông tin có sẵn Nếu có thể xác định được rằng tham số nghi ngờ là lớn hơn 0 hoặc nhỏ hơn 0, ta sẽ sử dụng kiểm định một phía Ngược lại, nếu không thể xác định rõ ràng, ta sẽ áp dụng kiểm định hai phía.
0hay 0 mà chỉ nghi ngờ 0 ) ta dùng kiểm định hai phía Đối với kiểm định một phía khi bác bỏ H0 ( 0 ), chấp nhận H1 ta đã kết luận được 0 hoặc
0 Đối với kiểm định hai phía khi bác bỏ H0 chấp nhận H1 thì về lí thuyết chỉ kết luận được
Trong thực hành, chúng ta có thể đánh giá giá trị trung bình với các trường hợp 0 hoặc 0, và sẽ được làm rõ hơn trong phần bài toán kiểm định cụ thể Tài liệu này chỉ tập trung vào kiểm định hai phía.
Giả sử tổng thể X có trung bình EX chưa biết Với mức ý nghĩa , kiểm định giả thuyết
H ; đối thuyết H 1: 0 với 0là hằng số
Chọn tiêu chuẩn kiểm định (X 0 ) n
, nếu H 0 đúng (tức là 0) thì G N(0,1) Miền bác bỏ giả thuyết là:
2 z là giá trị tới hạn mức
của phân phối chuẩn tắc
Bành Thị Hồng - Bùi Hùng Vương - Nguyễn Huế Tiên 66
Nếu giả thuyết H0 đúng, xác suất xảy ra biến cố \( G \in W_{\alpha} \) là rất nhỏ trong một phép thử Do đó, nếu dữ liệu thu thập cho thấy giá trị thực nghiệm của tiêu chuẩn kiểm định \( g \in W_{\alpha} \), thì biến cố \( G \in W_{\alpha} \) không phải là hiếm, điều này dẫn đến việc bác bỏ giả thuyết H0.
Từ đó ta có qui tắc thực hành sau:
Từ mức ý nghĩa , tra bảng Laplace tìm
Từ mẫu tính giá trị kiểm định (x 0 ) n g
| |g z thì bác bỏ H0, ngược lại nếu
Trong trường hợp bác bỏ H0 [ x0 0 x0 0
Ví dụ 1 Trọng lượng của một hộp sản phẩm do một máy tự động đóng gói theo thiết kế ban đầu là
Sau khi khảo sát ngẫu nhiên 121 hộp sản phẩm, trọng lượng trung bình được tính là 5,975kg, với độ lệch chuẩn hiệu chỉnh là 0,05kg Điều này dẫn đến nghi ngờ về sự hoạt động không bình thường của máy đóng gói tự động, khi trọng lượng kỳ vọng là 6kg Với mức ý nghĩa 5%, chúng ta có thể kết luận rằng máy đóng gói có thể không hoạt động chính xác, cần được kiểm tra và điều chỉnh để đảm bảo chất lượng sản phẩm.