Chương 3 Kiểm định giả thuyết
3.5. So sánh hai tỉ lệ
X ∼ Ber(p1), Y ∼ Ber(p2), k/m và l/n lần lượt là 2 ước lượng điểm của p1 và
p2. P-giá trị H0 :p1=p2 H1 :p1> p2 1−Φ(|υ|) H0 :p1=p2 H1 :p1< p2 1−Φ(|υ|) H0 :p1=p2 H1 :p16=p2 2(1−Φ(|υ|)) Trong đó, υ = k m − l n r ˆ p(1−p)ˆ 1 m + 1 n , pˆ= k+l m+n.
Ví dụ 3.14. Tỉnh A nói rằng tỉ lệ học sinh đậu tốt nghiệp THPT của mình cao hơn tỉnh B. Để kiểm tra kết luận này, người ta chọn ngẫu nhiên 198 học sinh tỉnh A thì có 189 em đỗ và khi chọn ngẫu nhiên 201 học sinh tỉnh B thì có 188 em đỗ. Với mức ý nghĩa 5% có thể cho rằng tỉ lệ đậu tốt nghiệp THPT của tỉnh A cao hơn tỉnh B khơng?
Giải. Ta có m=198, k=189, n=210, l=188.
υ = 2,26
P-giá trị= 1−Φ(2,26) = 0,012 <5% nên có cơ sở bác bỏ H0. Tức là có thể cho rằng tỉ lệ đậu tốt nghiệp THPT của tỉnh A cao hơn tỉnh B.
Ví dụ 3.15. Kiểm tra ngẫu nhiên các sản phẩm cùng loại do hai nhà máy sản xuất thu được số liệu sau:
Nhà máy Số sản phẩm được kiểm tra số phế phẩm
A m=1000 k=20
B n=900 l=30
Với mức ý nghĩa α = 0,05 có thể coi tỉ lệ phế phẩm của hai nhà máy trên bằng nhau không?
Giải. Gọi p1 và p2 lần lượt là tỉ lệ phế phẩm của nhà máy A và B. Ta cần kiểm định giả thuyết H0 :p1 =p2 với đối thiết H1:p1 6=p2.
Giáo trình thống kê thực hành ˆ p= k+l m+n = 0,0263, υ = k m − l n r ˆ p(1−p)ˆ 1 m + 1 n =−1,81.
P-giá trị= 2(1−Φ(1,81)) = 0,07≥α nên chưa có cơ sở bác bỏ H0, tức là có thể coi tỉ lệ phế phẩm của hai nhà máy trên bằng nhau.
THỰC HÀNH SỬ DỤNG EXCEL 2010
1. Kiểm định giả thuyết kì vọng, chưa biết phương sai và cỡ mẫu nhỏ
Bước 1: Vẽ biểu đồ xác suất chuẩn để kiểm tra phân bố chuẩn của tổng thể. Bước 2: Tính υ = x−µ0
s
√
n.
Bước 3: Tính P-giá trị. Sử dụng hàm trong Excel:
P(Tk < x) = T.DIST(x, k,1).
2. Kiểm định giả thuyết kì vọng, chưa biết phương sai và cỡ mẫu lớn
Bài tốn kiểm định P-giá trị
H0:µx=µy H1:µx> µy =Z.TEST(array, µ0, s) H0:µx=µy H1:µx< µy =1-Z.TEST(array, µ0, s) H0:µx=µy H1:µx6=µy =2*min(Z.TEST(array, µ0, s),1-Z.TEST(array, µ0, s))
Ví dụ 3.16. Kết quả đo chiều cao 36 trẻ em gái 24 tháng tuổi được chọn ngẫu nhiên ở địa phương A như sau (đơn vị: cm):
81,6 81,4 87,1 71,6 81,2 85,4 84,5 84,0 87,6 85,5 81,6 79,1 80,4 83,5 89,5 80,3 84,4 89,2 83,7 83,8 87,7 76,6 84,9 90,9 80,1 84,3 90,3 79,2 87,3 87,7 79,1 84,2 86,7 82,5 85,2 87,2
Biết chiều cao tiêu chuẩn trẻ em gái 24 tháng tuổi là 85 cm. Với mức ý nghĩa 5% có thể cho rằng chiều cao trung bình của trẻ em gái 24 tháng tuổi ở địa phương A thấp hơn chiều cao tiêu chuẩn không?
Giả sử số liệu được nhập vào cột A(A1 đến A36).
Vì cỡ mẫu n= 36>30 nên ta không cần kiểm tra phân bố chuẩn của tổng thể. Gọi µ là chiều cao trung bình của trẻ em gái ở địa phương A.
Bài tốn kiểm định H0:µ= 85, H1 :µ <85.
Tính P-giá trị vào ô B1: 1-Z.TEST(A1:A36,85,STDEV(A1:A36)) Kết quả: P-giá trị=0,048<5% nên bác bỏ H0.
3. So sánh hai kì vọng, cỡ mẫu nhỏ
Ví dụ 3.17. Để so sánh chiều cao trung bình của nam thanh niên trưởng thành ở hai vùng dân cư A và B người ta chọn ngẫu nhiên 10 nam thanh niên trưởng thành ở vùng A và 10 nam thanh niên trưởng thành ở vùng B. Số đo chiều cao của hai nhóm người này được cho như sau (đơn vị: cm)
A 165 167 174 172 165 167 168 172 170 173
B 172 170 167 169 171 167 173 165 163 174
Với mức ý nghĩa 1% hãy so sánh chiều cao trung bình của nam thanh niên trưởng thành ở hai vùng dân cư trên.
Giả sử số liệu chiều cao của hai vùng dân cư A và B được nhập lần lượt ở cột A và cột B.
Bước 1. Từ biểu đồ xác suất chuẩn ta có thể chấp nhận hai tổng thể có phân phối chuẩn và hai phương sai bằng nhau.
Giáo trình thống kê thực hành
Bước 2. Gọiµx vàµy lần lượt là chiều cao trung bình của nam thanh niên trưởng thành ở vùng dân cư A và B.
Xét bài tốn so sánh H0:µx=µy, H1 :µx 6=µy
- Vào Data -> Data Analysis -> t-Test: Two-sample Assuming Equal Variances -> OK
Kết quả
Như vậy ta có P-giá trị =0,898>1% nên chưa có cơ sở bác bỏ H0.
Ví dụ 3.18. Hàm lượng asen trong 20 mẫu nước ngầm được lấy ngẫu nhiên ở hai vùng dân cư A và B được cho như sau (đơn vị: phần tỉ):
A 3 7 25 10 15 6 12 25 15 7
B 48 44 40 38 33 21 20 12 1 18
Với mức ý nghĩa 5% hãy so sánh hàm lượng asen ở hai vùng dân cư A và B.
Giả sử số liệu hàm lượng asen của hai vùng dân cư A và B được nhập lần lượt ở cột A và cột B.
Bước 1. Từ biểu đồ xác suất chuẩn ta có thể chấp nhận hai tổng thể có phân phối chuẩn và hai phương sai khác nhau.
Bước 2. Vào Data -> Data Analysis -> t-Test: Two-sample Assuming Unequal Variances -> OK
Giáo trình thống kê thực hành
Bước 3. Xét bài tốn so sánh H0:µx=µy, H1 :µx 6=µy
Ta có P-giá trị =0,016<0,05 nên có cơ sở bác bỏ H0
Do x = 12,5 < y = 27.5 nên ta tiếp tục xét bài tốn so sánh H0 : µx = µy, H1 :µx < µy
Ta có P-giá trị =0,008<0,05 nên có cơ sở bác bỏH0. Vì vậy với mức ý nghĩa 5% có thể khẳng định hàm lượng asen trong nước ở vùng dân cư A thấp hơn vùng dân cư B.
Có thể sử dụng hàm trong Excel để tính P-giá trị như sau: P-giá trị=T.TEST(array1,array2,tails,type) trong đó
tails Hai phương sai
khơng bằng nhau
Hai phương sai bằng nhau
H0 :µx=µy
H1 :µx> µy tails=1 type=3 type=2
H0 :µx=µy
H1 :µx< µy tails=1 type=3 type=2
H0 :µx=µy
H1 :µx6=µy tails=2 type=3 type=2
4. So sánh 2 kì vọng, cỡ mẫu lớn
Vào Data -> Data Analysis -> z-Test: Two-sample for Means -> OK.
5. So sánh từng cặp
Giả sử số liệu sản lượng lúa khơng bón phân và bón phân được nhập lần lượt vào cột B và cột C Bước 1. Kiểm tra phân phối chuẩn của hiệu. Từ biểu đồ xác suất chuẩn có thể chấp nhận tổng thể có phân bố chuẩn.
Bước 2. Vào Data -> Data Analysis -> t-Test: Paired Two-sample for Means -> OK
Kết quả
Gọi µx và µy lần lượt là năng suất lúa trung bình của mảnh đối chứng và mảnh có bón phân. Bài tốn so sánh: H0 :µx =µy, H1 :µx < µy.
Giáo trình thống kê thực hành Hoặc sử dụng cơng thức hàm Excel để tính P-giá trị:
P-giá trị=T.TEST(array1,array2,tails,type) trong đó tails type H0 :µx =µy H1 :µx > µy tails=1 type=1 H0 :µx =µy
H1 :µx < µy tails=1 type=1
H0 :µx =µy
H1 :µx 6=µy tails=2 type=1
BÀI TẬP
. 3.1. Trung tâm hỗ trợ người tiêu dùng nhận đựơc khá nhiều lời phàn này về sản phẩm bột giặt loại 4 Kg của cơng ty Sáng Chói. Để hỗ trợ người tiêu dùng, Trung tâm tiến hành chọn ngẫu nhiên 36 gói bột giặt của cơng ty để cân và thu được kết quả trung bình mẫu 3,95 Kg. Giả sử trọng lượng bột giặt sản xuất của công ty tuân theo quy luật phân phối chuẩn với độ lệch chuẩn là 0,15 Kg.
a) Trung tâm có kết luận gì khi thực hiện kiểm định giả thuyết với mức ý nghĩa 5%
b) Trung tâm có kết luận gì khi thực hiện kiểm định giả thuyết với mức ý nghĩa 2%
. 3.2. Trọng lượng (X) sản phẩm do nhà máy sản xuất ra là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn σ = 2 (kg) và trọng lượng trung bình là 20 (kg(. Nghi ngờ máy hoạt động khơng bình thường làm thay đổi trọng lượng trung bình của sản phẩm người ta cân thử 100 sản phẩm và thu được kết quả sau:
Trọng lượng sản phẩm 19 20 21 22 23
Số sản phẩm 10 50 20 15 5
Với mức ý nghĩa 0,05 hãy kết luận về điều nghi ngờ trên.
. 3.3. Mỳ chính được đóng gói 453 gam một gói trên máy tự động. Có thể coi trọng lượng các gói mỳ chính tn theo quy luật chuẩn với độ lệch chuẩn 36
gam. Kiểm tra ngẫu nhiên 81 gói thấy trọng lượng trung bình là 448 gam. Với mức ý nghĩa =0,05 có thể kết luận trọng lượng các gói mỳ chính có xu hướng bị đóng thiếu khơng?
. 3.4. Một nhà máy sản suất bánh ngọt tuyên bố rằng mỗi chiếc bánh của họ trung bình có 88 calo. Một mẫu ngẫu nhiên với 46 chiếc bánh được kiểm tra cho thấy lượng calo trung bình trong mỗi chiếc bánh là 90 calo với độ lệch tiêu chuẩn là 4 calo. Với mức ý nghĩa 5%, kiểm định xem có phải trên thực tế mỗi chiếc bánh về trung bình chứa nhiều hơn 88 calo hơn hay không?
. 3.5. Năng suất lúa trung bình của giống lúa A được cơng bố là 43 tạ/ha. Một nhóm gồm 60 thửa ruộng thí nghiệm được kiểm tra cho thấy năng suất lúa trung bình của nhóm là 46,2 tạ/ha với độ lệch chuẩn 12 tạ/ha. Với mức ý nghĩa 5%, nhận định xem có phải cơng bố là thấp hơn so với sự thật không
. 3.6. Trong điều kiện bình thường trọng lượng trung bình sản phẩm do nhà máy sản xuất ra là 20 kg. Nghi ngờ máy hoạt động khơng bình thường làm thay đổi trọng lượng trung bình của sản phẩm người ta cân thử 100 sản phẩm và thu được kết quả sau:
Trọng lượng sản phẩm 19 20 21 22 23
Số sản phẩm 10 60 20 5 5
Với mức ý nghĩa 0,05 hãy kết luận về điều nghi ngờ trên.
. 3.7. Lô hàng đủ tiêu chuẩn xuất khẩu nếu tỷ lệ phế phẩm không vượt quá
3%. Kiểm tra ngẫu nhiên 400 sản phẩm của lơ hàng thấy có 14 phế phẩm. Với mức ý nghĩa α = 0,05 có cho phép lơ hàng xuất khẩu được hay không?
. 3.8. Tỷ lệ phế phẩm do một nhà máy tự động sản xuất là 5%. Kiểm tra ngẫu nhiên 300 sản phẩm thấy có 24 phế phẩm. Nên có ý kiến cho rằng tỷ lệ phế phẩm do nhà máy sản xuất có chiều hướng tăng lên. Hãy kết luận ý kiến trên với mức ý nghĩa α= 0,05.
. 3.9. Một tỉnh báo cáo tỉ lệ học sinh tốt nghiệp của họ là 88%. Một mẫu ngẫu nhiên 100 học sinh được chọn thì chỉ có 82 em đỗ. Với mức ý nghĩa 5% kiểm định xem báo cáo của tỉnh có cao hơn sự thật.
Giáo trình thống kê thực hành
. 3.10. Tại thành phố M, mỗi hộ dùng không quá một điện thoại bàn và các điện thoại bàn chỉ sử dụng dịch vụ của một trong 3 công ty viễn thông A, B và C. Điều tra ngẫu nhiên 3600 hộ tại thành phố M thấy có 2500 hộ dùng điện thoại bàn, trong đó có 1300 hộ dùng điện thoại bàn sử dụng dịch vụ viễn thông của công ty A.
a) Với độ tin cậy 95% hãy ước lượng khoảng tỉ lệ hộ dùng điện thoại bàn tại thành phố M.
b) Với mức ý nghĩa 1% có thể cho rằng số điện thoại bàn sử dụng dịch vụ viễn thông của cơng ty A nhiều hơn hai cơng ty cịn lại khơng?
. 3.11. Cơng ty truyền hình cáp SV đã lắp đặt truyền hình cáp cho 8.000 hộ ở địa phương F. Để mở rộng kinh doanh và dự định nâng cấp chương trình truyền hình cáp tốt hơn, công ty SV điều tra 10.000 hộ ở địa phương F và thấy có 3.600 hộ lắp đặt truyền hình cáp. Trong số 3.600 hộ lắp đặt truyền hình cáp đó có 720 hộ lắp đặt truyền hình cáp của cơng ty SV.
a) Với độ tin cậy 95% hãy ước lượng tỷ lệ hộ lắp đặt truyền hình cáp tại địa phương F bằng khoảng tin cậy đối xứng.
b) Với độ tin cậy 95% hãy ước lượng số hộ lắp đặt truyền hình cáp tại địa phương F bằng khoảng tin cậy đối xứng.
c) Trong số 720 hộ lắp đặt truyền hình cáp SV đó, có 400 hộ đồng ý nâng cấp chương trình truyền hình. Với mức ý nghĩa α = 0,025, hỏi cơng ty SV có nên nâng cấp chương trình khơng?
Biết rằng mỗi hộ chỉ lắp đặt truyền hình cáp của 1 cơng ty.
. 3.12. Doanh số (triệu đồng) bán ra của một nhà hàng A có phân phối chuẩn. Theo dõi doanh số bán ra của nhà hàng A trong 100 ngày có số liệu như sau:
Doanh số (triệu đồng) 118 123 127 135 140
Số ngày 5 26 40 20 9
a) Hãy ước lượng khoảng đối xứng doanh số bán ra trung bình của nhà hàng A trong 1 ngày với độ tin cậy 95%.
b) Chủ nhà hàng báo cáo với nhân viên thu thuế là doanh số bán ra trung bình của nhà hàng trong 1 ngày là 127 triệu đồng. Nhân viên thu thuế nghi ngờ doanh số bán ra trung bình của nhà hàng A lớn hơn 127 triệu đồng. Dựa vào kết quả của mẫu ở trên, hãy tìm α ∈ (0; 0,5] sao cho với mức ý nghĩa α đó chưa có cơ sở để bác bỏ báo cáo của chủ nhà hàng.
. 3.13. Để so sánh trọng lượng trung bình của trẻ sơ sinh ở thành thị và nông thôn người ta cân thử 1000 trẻ ở hai khu vực và thu được số liệu:
Vùng Số trẻ được cân Trung bình mẫu Độ lệch chuẩn mẫu
Nông thôn 800 3,0 kg 0,3 kg
Thành thị 200 3,2 kg 0,3 kg
Với mức ý nghĩa α = 0,05 có thể coi trọng lượng trung bình của trẻ sơ sinh ở thành thị cao hơn ở nông thôn hay khơng? Giả thiết trọng lượng trẻ sơ sinh có phân phối chuẩn.
. 3.14. Người ta nghiên cứu năng suất lúa mỳ ở hai vùng chế độ canh tác khác nhau, kết quả thu được như sau:
Vùng Số thửa ruộng canh tác Trung bình mẫu Phương sai mẫu
A 9 24,6 tạ/ha 0,24 (tạ/ha)2
B 16 25,8 tạ/ha 0,16 (tạ/ha)2
a) Với mức ý nghĩa α= 0,05hỏi có sự khác nhau đáng kể về năng suất lúa trung bình giữa hai vùng đất canh tác khơng?
b) Với mức ý nghĩa α = 0,05 có thể coi độ phân tán năng suất lúa của vùng A lớn hơn vùng B không?
. 3.15. Kiểm tra chất lượng của hai lô sản phẩm người ta thấy ở lô thứ nhất trong 500 sản phẩm được kiểm tra có 50 phế phẩm, ở lơ thứ hai trong 400 sản phẩm được kiểm tra có 60 phế phẩm. Với mức ý nghĩa α = 0,05 có thể xem tỉ lệ phế phẩm của hai lơ hàng bằng nhau không?
. 3.16. Độ tinh khiết của một chất xúc tác rất quan trọng trong nghiên cứu hóa học. Người ta thử nghiệm hai phương pháp khác nhau: bằng phương pháp I (hữu cơ) làm 32 mẫu và bằng phương pháp II (vô cơ) làm 30 mẫu. Kết quả thu được như sau (lượng chất bẩn trên một đơn vị chất):
Giáo trình thống kê thực hành 2,0 2,0 1,8 0,9 1,7 1,6 1,7 1,5 1,9 2,0 1,8 1,6 1,8 1,7 2,1 1,5 1,7 2,0 1,8 1,7 1,5 1,6 1,6 1,7 1,7 1,4 1,5 1,7 1,6 2,0 1,9 2,1 Phương pháp II 1,5 1,4 1,5 1,6 1,1 1,7 1,4 1,7 1,4 1,4 1,7 1,1 1,5 1,2 2,0 1,6 1,1 1,3 1,5 1,7 1,9 1,0 1,2 1,3 1,4, 1,5 1,1 1,2 1,6 1.5
a) Vẽ biểu đồ xác suất chuẩn để kiểm tra phân bố chuẩn của hai tổng thể. b) Với mức ý nghĩaα= 0,05có thể coi lượng chất bẩn trung bình của hai phương