Bài toán: Giả sử, tỉ lệ cá thể mang đặc tính A trong tổng thể đang quan tâm là p (chưa biết). Khi quan sát n cá thể trong tổng thể này thì thấy rằng có k cá thể mang đặc tính A. Từ dữ liệu có được và với mức ý nghĩa cho trước, hãy kiểm định các giả thiết sau:
- Bài toán 1: Giả thiết / đối thiết
- Bài toán 2: Giả thiết / đối thiết . - Bài toán 3: Giả thiết / đối thiết .
Ở đây ta chỉ giải chi tiết bài toán 1. Bài toán 2 và bài toán 3 giải một cách hoàn toàn tương tự.
Ta xây dựng biến ngẫu nhiên từ phép thử:
Đặt: {
Khi đó, thông tin thu được là mẫu . Tần suất bắt gặp cá thể mang đặc tính A là:
Như vậy, tần suất f là một biến ngẫu nhiên. Tiêu chuẩn kiểm định được chọn là:
√ √
Người ta chứng minh được rằng khi giả thiết đúng và thì ( √ ) do đó, .
Với mức ý nghĩa cho trước, ta tìm số thỏa mãn (| | ) . Vì T có phân phối chuẩn tắc nên được xác định bằng cách tra bảng phân phối chuẩn tắc tại mức .
Miền bác bỏ giả thiết là: {| | }
Dựa vào mẫu, ta tính f và tính giá trị của tiêu chuẩn kiểm định U. So sánh | | với .
Kết luận: Nếu | | thì ta bác bỏ giả thiết. Ngược lại, ta chấp nhận giả thiết đặt ra.
Với cách làm tương tự, miền bác bỏ giả thiết của bài toán 2 và bài toán 3 là:
Ví dụ 7. Nghiên cứu tác dụng của phương pháp châm cứu trong việc điều trị bệnh đau đầu, người ta cho rằng tỉ lệ khỏi bệnh thấp nhất là 35%. Lấy ngẫu nhiên 124 bệnh nhân bị đau đầu và điều trị bằng phương pháp châm cứu thì thấy có 57 người khỏi bệnh. Với mức ý nghĩa 5% khẳng định rằng tỉ lệ chữa khỏi bệnh đau đầu bằng phương pháp châm cứu lớn hơn 35% có đúng không?
Giải:
Gọi p là tỉ lệ bệnh nhân chữa khỏi bệnh đau đầu bằng phương pháp châm cứu. Bài toán đặt ra:
{ Từ mẫu ta tính được: Và: √ √
Với mức ý nghĩa 5%, tra bảng phân phối chuẩn tắc ta được . Vì | | nên ta bác bỏ giả thiết, tức là tỉ lệ chữa khỏi bệnh đau đầu bằng phương pháp châm cứu là lớn hơn 35%.
BÀI TẬP
Bài 1. Một vườn ươm cây con phi lao có chiều cao trung bình chưa xác định. Theo hợp đồng ký kết giữa người sản xuất cây con và lâm trường: Chỉ khi nào chiều cao trung bình cây con đạt được trên 1 m mới đem trồng. Qua điều tra 25 cây thì chiều cao trung bình thu được là 1,1 m.
Hỏi vườn cây con đó đã đem trồng được chưa? Biết rằng sự biến động chiều cao cây con trong giai đoạn vườn ươm là m và luật phân bố chiều cao có dạng chuẩn.
Bài 2. Trọng lượng của một loại sản phẩm do nhà máy A sản xuất là một đại lượng ngẫu nhiên có phân phối chuẩn với trọng lượng trung bình là 500 gr. Sau một thời gian người ta ghi ngờ trọng lượng của sản phẩm này có xu hướng giảm sút nên tiến hành cân thử 25 sản phẩm và thu được kết quả sau:
Trọng lƣợng (gr) X 480 485 490 495 500 510
Số sản phẩm n 2 3 8 5 3 4
Với mức ý nghĩa 5% hãy kết luận điều ghi ngờ trên có đúng không?
Bài 3. Theo luật hôn nhân gia đình quy định thì nữ khi kết hôn phải đủ 18 tuổi. Khảo sát 50 chị em ở một khu vực trong tỉnh thì thấy độ tuổi trung bình khi chị em kết hôn là 19.5 tuổi với độ lệch chuẩn là 2 tuổi. Với mức ý nghĩa 5% hãy cho biết các chị em có kết hôn đúng luật không?
Bài 4. Trước đây lượng tiêu thụ điện trung bình của các hộ gia đình là 140 KW. Do đời sống nâng cao, người ta theo dõi mức tiêu thụ điện ở 100 hộ gia đình và thu được kết quả sau:
Lƣợng điện tiêu thụ
(KW/ tháng) X 100-120 120-140 140-160 160-180 180-220
Số hộ n 14 25 30 20 11
Với mức ý nghĩa 5% hãy kiểm tra xem lượng tiêu thụ điện trung bình của các hộ gia đình có tăng không?
Bài 5. Thống kê thời gian tự học ở nhà trong một tuần lễ của 70 sinh viên năm thứ nhất của một trường đại học, ta thu được bảng số liệu sau:
Thời gian T
(giờ) <5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 >40 Số sinh viên 3 7 10 18 12 8 5 4 3
Giả sử thời gian T tuân theo phân phối chuẩn. Với mức ý nghĩa 5% có thể kết luận thời gian tự học ở nhà của một sinh viên trường trên là lớn hơn 20 giờ/tuần không?
Bài 6. Một công ty dự định mở một siêu thị tại một khu dân cư. Để đánh giá khả năng mua hàng của khách hàng khu vực này, người ta điều tra ngẫu nhiên thu nhập trong một tháng của 100 hộ gia đình và thu được số liệu sau:
Thu nhập X (triệu đồng) 4 4,5 5 5,5 6 6,5 7 7,5
Số hộ 5 10 15 20 29 10 6 5 Theo bộ phận tiếp thị thì chỉ nên mở siêu thị tại khu dân cư trên nếu thu nhập trung bình của các hộ tối thiểu là 5,5 triệu đồng/tháng. Với mức ý nghĩa 5% hãy cho biết có nên mở siêu thị tại khu dân cư trên không?
Bài 7. Thời gian trước đây, số tiền gửi tiết kiệm trung bình của mỗi khách hàng vào ngân hàng A là 1000 USD. Sau đợt tăng lãi tiết kiệm, kiểm tra ngẫu nhiên 36 khách hàng thu được kết quả: số tiền gửi trung bình là 1.060 USD với độ lệch chuẩn là 100 USD. Với mức ý nghĩa 5%, hãy kiểm định việc tăng lãi suất có làm tăng lượng tiền gửi tiết kiệm của mỗi khách hàng không?
Bài 8. Một kênh truyền thông tuyên bố có 30% khán giả truyền hình yêu thích các chương trình phát sóng của họ. Thăm dò ý kiến ngẫu nhiên qua mạng đối với 800 người xem truyền hình thì có 192 người thích các chương trình của kênh truyền thông đó. Với mức ý nghĩa 5% tuyên bố trên có đúng không?
Bài 9. Tại một trường đại học, theo dõi kết quả thi kết thúc học kì I của toàn bộ sinh viên thấy có 40% sinh viên phải lại ít nhất một môn. Sau khi nhà trường áp dụng quy chế mới ở học kì II, chọn ngẫu nhiên 1.600 sinh viên dự thi thấy có 1.040 sinh viên không phải thi lại môn nào. Với mức ý nghĩa 5% có thể cho rằng việc nhà trường áp dụng quy chế mới đã làm giảm tỉ lệ thi lại không?
Bài 10. Tỉ lệ phế phẩm của một nhà máy trước đây là 5%. Năm nay nhà máy áp dụng một biện pháp kĩ thuật mới. Để xem biện pháp kĩ thuật mới có làm giảm tỉ lệ phế phẩm không người ta lấy mẫu gồm 800 sản phẩm thì thấy có 24 phế phẩm trong đó.
a) Với mức ý nghĩa 5% hãy kiểm định xem biện pháp kĩ thuật mới này có thực sự làm giảm tỉ lệ phế phẩm không?
b) Nếu nhà máy báo cáo sau khi áp dụng biện pháp kĩ thuật mới tỉ lệ phế phẩm đã giảm xuống chỉ còn 2% thì có chấp nhận được không? Với mức ý nghĩa 5%.
Chƣơng 5
BÀI TOÁN SO SÁNH 5.1. So sánh hai giá trị trung bình
Trong thực tế, ta thường xuyên phải so sánh hai hay nhiều đại lượng với nhau. Trong thống kê, ta cũng có các công cụ giúp giải quyết vấn đề này dựa trên những bằng chứng thu được về các đại lượng quan tâm.
Bài này sẽ so sánh giá trị trung bình của hai biến ngẫu nhiên dựa trên hai mẫu độc lập và hai biến được giả thiết là có phân phối chuẩn hoặc cỡ mẫu lớn.
Cho X và Y là hai biến ngẫu nhiên, và là hai mẫu về X và Y. Hai biến X, Y được giả thiết có phân phối chuẩn
và .
Bài toán đặt ra như sau: với mức ý nghĩa cho trước, kiểm định giả thiết sau: - Bài toán 1: Giả thiết / đối thiết ;
- Bài toán 2: Giả thiết / đối thiết ; - Bài toán 3: Giả thiết / đối thiết . Ta giải ba bài toán trên trong các trường hợp sau:
Trƣờng hợp 1: Các biến được giả thiết có phân phối chuẩn và phương sai đã biết, tức là và với đã biết.
Lời giải bài toán 1:
Tiêu chuẩn kiểm định:
̅ ̅ √
Nếu giả thiết đúng thì tiêu chuẩn U có phân phối chuẩn tắc. Với mức ý nghĩa cho trước, ta tìm số thỏa mãn:
(| | )
Vì nên tra bảng phân phối chuẩn tắc tại mức , ta tìm được giá trị này. Do vậy, miền bác bỏ giả thiết của bài toán là:
{| | }
Dựa vào mẫu, tính ̅ ̅ và tiêu chuẩn U:
̅ ̅ √
So sánh | | với .
Kết luận: Nếu | | ta bác bỏ giả thiết . Ngược lại, ta chấp nhận giả thiết đặt ra.
Một cách tượng tự, miền bác bỏ giả thiết của bài toán 2 và bài toán 3 lần lượt là:
Trƣờng hợp 2: Các biến được giả thiết có phân phối chuẩn và phương sai chưa biết, cỡ mẫu nhỏ, tức là và với chưa biết và n < 30 hoặc m < 30.
a) Mặc dù chưa biết nhưng ta giả thiết chúng bằng nhau.Ta vẫn xét ba bài toán kiểm định giả thiết đã nêu
Lời giải bài toán 1:
Ta ước lượng phương sai chung:
Tiêu chuẩn kiểm định:
̅ ̅ √
Giả sử, giả thiết đúng, người ta chứng minh được rằng tiêu chuẩn T có phân phối Student với bậc tự do.
Với mức ý nghĩa cho trước, ta tìm số thỏa mãn:
(| | )
Vì tiêu chuẩn T có phân phối chuẩn tắc nên là phân vị mức của phân phối Student với bậc tự do. Miền bác bỏ giả thiết của bài toán là:
{| | }
- Dựa vào mẫu, tính ̅ ̅ và giá trị tiêu chuẩn T. - So sánh | | với .
- Kết luận: Nếu | | ta bác bỏ giả thiết. Ngược lại, ta chấp nhận nó.
Một cách tương tự, miền bác bỏ giả thiết của Bài toán 2 và Bài toán 3 lần lượt là:
Trong đó, được tra ở bảng phân phối Student với
bậc tự do mức .
b) Phương sai của hai biến khác nhau, tức là (đọc thêm)
Ta vẫn xét ba bài toán kiểm định đã nêu. - Tiêu chuẩn kiểm định:
̅ ̅ √
Khi giả thiết đúng, tiêu chuẩn T có phân phối xấp xỉ Student với bậc tự do được ước lượng là phần nguyên của:
( )
( ) ( )
Dựa vào phân phối này, ta sẽ đưa ra được miền bác bỏ giả thiết.
Trƣờng hợp 3:
Phương sai của biến chưa biết và mẫu có kích thước lớn , trong trường hợp này có thể bỏ qua tính chuẩn của biến.
Đối với trường hợp này, ta tìm ước lượng không chệch cho phương sai của biến X và cho phương sai của biến Y. Sau đó, thay bằng và bằng và giải các bài toàn kiểm định giả thiết như trường hợp 1.
Ví dụ 1. Người ta tiến hành một cuộc nghiên cứu để so sánh mức lương trung bình của phụ nữ và đàn ông trong một công ty lớn. Một mẫu gồm 100 phụ nữ có mức lương trung bình là 7,23 USD/1 giờ với độ lệch chuẩn là 1,64 USD/1 giờ. Một mẫu gồm 75 nam giới có mức lương trung bình là 8,06 USD/1 giờ với độ lệch chuẩn là 1,85 USD/giờ. Số liệu đã cho có chứng minh được rằng mức lương của phụ nữ thấp hơn nam giới không? Với mức ý nghĩa 1%.
Giải:
Gọi X và Y lần lượt là thu nhập trung bình của phụ nữ và nam giới trong công ty.
Nhận xét: Bài toán so sánh hai giá trị trung bình, phương sai chưa biết và mẫu có kích thước lớn.
Ta có: ̅ ̅
Bài toán đặt ra:
{
Tiêu chuẩn kiểm định:
̅ ̅ √ √
Suy ra bác bỏ giả thiết, tức là mức lương trung bình của phụ nữ trong công ty thấp hơn nam giới.
5.2. Bài toán so sánh hai tỉ lệ (xác suất)
Giả sử, ta quan tâm tới tỉ lệ cá thể mang đặc tính A nào đó ở hai tổng thể. Trong tổng thể 1, tỉ lệ cá thể mang đặc tính A là (chưa biết). Tỉ lệ này ở tổng thể 2 là (chưa biết). Khi điều tra cá thể ở tổng thể 1 thấy rằng có cá thể mang đặc tính A. Điều tra cá thể ở tổng thể 2 có cá thế mang đặc tính A.
Bài toán đặt ra: Với mức cho trước, hãy kiểm định giả thiết: - Bài toán 1: Giả thiết / đối thiết ; - Bài toán 2: Giả thiết / đối thiết ; - Bài toán 3: Giả thiết / đối thiết .
Lời giải bài toán 1:
Ta ước lượng tần suất chung (tần suất bắt gặp cá thể mang đặc tính A ở cả tổng thể 1 và tổng thể 2).
Tiêu chuẩn kiểm định:
Ta chứng minh đươc rằng khi giả thiết đúng và thì tiêu chuẩn T có phân phối chuẩn tắc.
Với mức cho trước, miền bác bỏ giả thiết là:
{| | }
Trong đó, được xác định bằng cách tra ngược bảng chuẩn tắc tại mức
( ).
- Từ mẫu thu được, tính và tiêu chuẩn U. - So sánh | | với .
- Kết luận: nếu | | ta bác bỏ giả thiết. Nếu ngược lại, ta chấp nhận giả thiết đó.
Với cách làm tượng tự, miền bác bỏ giả thiết của Bài toán 2 và Bài toán 3 lần lượt là:
Trong đó, được xác định bằng cách tra ngược bảng phân phối chuẩn tắc tại mức .
Ví dụ 2. Kiểm tra thời gian sinh viên sử dụng thời gian giải trí sau giờ học thấy rằng: 120 sinh viên nữ thì có 7 sinh viên thích thể thao, 80 sinh viên nam thì có 10 sinh viên thích thể thao. Với mức ý nghĩa 5% hãy kiểm tra xem việc thích chơi thể thao ở sinh viên nữ và nam có như nhau không?
Giải:
Gọi lần lượt là tỉ lệ thích thể thao ở sinh viên nữ và nam. Bài toán: { Các tần suất:
Tiêu chuẩn kiểm định:
√ ( )
√
Vậy | | nên ta bác bỏ , tức là có sự khác biệt rõ ràng về tỉ lệ thích thể thao ở hai nhóm nam và nữ.
5.3. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu)
Trong thực tế, ta thường nghiên cứu nhiều biến ngẫu nhiên đồng thời. Việc phát hiện ra các biến có mối quan hệ với nhau hay không là một vấn đề rất quan trọng. Trong bài này, ta sẽ trình bày cách thức giải quyết vấn đề trên với hai dấu hiệu (biến ngẫu nhiên) có thể là dấu hiệu định lượng hay định tính.
Xét hai dấu hiệu A và B. Dấu hiệu A được chia thành r mức . Dấu hiệu B được chia thành k mức .
Dữ liệu điều tra được từ các cá thể cho ở bảng sau (bảng liên hiệp các dấu hiệu): B A … … … … … … … … …
Trong đó, là số cá thể mang đồng thời đặc tính và .
Bài toán đặt ra là hãy kiểm định sự độc lập của hai dấu hiệu trên với mức ý nghĩa cho trước ?
Giải:
Đầu tiên, ta lập bảng tính sau đây:
B A … Tổng … … … … … … … Tổng … N
Trong bảng này, là tổng hàng i. Đây chính là tổng số cá thể mang đặc tính trong mẫu. là tổng cột i. Đây là tổng số cá thể mang đặc tính
Nếu A và B là hai dấu hiệu độc lập với nhau thì
( ) ( ) .
Ta chưa biết các xác suất này nhưng ta sẽ ước lượng chúng từ mẫu. Tần suất xuất hiện là ước lượng cho xác suất xuất hiện : . Tần suất xuất hiện là ước lượng cho xác suất xuất hiện : . Giả sử A và B độc lập thì xác suất bắt gặp một cá thể mang đồng thời đặc tính và được ươc lượng là:
Và do đó tần số cá thể mang đặc tính tính và là: