Bài toán xác định cỡ mẫu

Một phần của tài liệu Bài giảng toán thống kê cho khoa học xã hội đh lâm nghiệp (Trang 57)

Với độ tin cậy  cho trước, ta thấy kích thước mẫu càng lớn thì khoảng tin cậy càng hẹp. Tuy nhiên, kích thước mẫu càng lớn thì càng mất nhiều thời gian và công sức. Bài toán đặt ra là cần chọn kích thước mẫu tối thiểu là bao nhiêu để đạt được độ chính xác mong muốn.

Trƣờng hợp ƣớc lƣợng cho giá trị trung bình:

Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện:

2 /2 /2 . u n u n              Hay: 2 /2 S /2 S . u n u n        

Chú ý: Trong công thức thứ hai, người ta thường lấy sơ bộ một mẫu có kích thước khoảng 30 để ước lượng cho phương sai. Vì vậy, cỡ mẫu tối thiểu sử dụng được khi kết quả n > 30.

Ví dụ 8. Người ta muốn xây dựng khoảng tin cậy 95% với độ chính xác là 0,1 kg cho trọng lượng trung bình của các bao gạo đóng gói bằng một máy tự động. Một mẫu điều tra sơ bộ cho ta độ lệch tiêu chuẩn mẫu S = 0,5 kg. Hỏi cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu?

Giải:

α = 1 – 0,95 = 0,05  u(0,025) = 1,96 Cỡ mẫu n thỏa mãn điều kiện:

2 0,5 1,96 96, 04 0,1 n      

Như vậy, cần phải lấy mẫu với kích thước tối thiểu là 97 bao gạo.

Trƣờng hợp ƣớc lƣợng cho tỷ lệ:

Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện:

2 (1 ) ( / 2) ( / 2) f f u (1 ) u n f f n            

Với f là ước lượng điểm cho p. Hoặc nếu f chưa biết, ta sử dụng bất đẳng thức: 2 (1 ) 1 ( / 2) 2 2 f f u n n          

Chú ý: Nếu p gần 0,5 thì hai phương pháp cho kết quả gần như nhau. Nếu p gần 0 hoặc 1 thì hai phương pháp cho kết quả rất khác nhau. Nên sử dụng theo cách thứ nhất.

Ví dụ 9. Một khách sạn lớn tiến hành một nghiên cứu để xác định tỷ lệ phần tram các khách trọ với thời gian nhiều hơn 1 ngày. Người chủ khách sạn muốn đạt được độ tin cậy 95%, sai số không quá 0,04.

a) Anh ta ước lượng sơ bộ tỷ lệ này khoảng 30%. Hỏi cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu.

b) Nếu anh ta không có một chút thông tin gì về tỷ lệ cần ước lượng thì với yêu cầu như trên thì cần phải lấy mẫu với kích thước tối thiểu là bao nhiêu.

Giải: a) α = 1 – 0,95 = 0,05  u(0,025) = 1,96. 2 2 ( / 2) 1,96 (1 ) 0,3.0,7 504, 21 0,04 u nf f               

Cỡ mẫu tối thiểu cần lấy là 505.

b) Trường hợp chưa có thông tin sơ bộ

2 2 ( / 2) 1,96 600, 25 2 2.0,04 u n               

BÀI TẬP

Bài 1. Hãy ước lượng kỳ vọng của một tổng thể có quy luật phân phối chuẩn với độ tin cậy 98% dựa theo kết quả của mẫu:

12 14 15 14 17 18 19 22 12 15 16

15 18 20 21 22 24 17 16 19 19 18

Bài 2. Một phương pháp điều trị mới đang được xem xét để đánh giá tính hiệu quả của nó. Một chỉ tiêu đánh giá là số ngày trung bình a từ lúc điều trị cho đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân được theo dõi và đánh số ngày điều trị cho tới khi khỏi bệnh được ghi lại như sau:

4 4 3 8 5 6 7 12 5 3 8

Tìm khoảng tin cậy 95% cho số ngày trung bình a?

Bài 3. Từ một tập hợp chính có quy luật chuẩn N(a; 2) kết quả lấy mẫu n = 10 thu được như sau:

51 48 56 57 44 52 54 60 46 47

Hãy ước lượng cho a và 2

với độ tin cậy 90%?

Bài 4. Khảo sát số buổi học thêm trong tuần của học sinh một trường học ta thu được như sau:

Số buổi học thêm 0 1 2 3 4 5 6 7

Số học sinh 10 14 25 45 60 50 40 36 Ước lượng khoảng tin cậy số buổi học thêm trung bình trong tuần của học sinh trường đó với độ tin cậy 95%?

Giả thiết số buổi học thêm là biến ngẫu nhiên có phân phối chuẩn.

Bài 5. Chiều cao của cây keo giống ở một vườn ươm là biến ngẫu nhiên có phân phối chuẩn với độ lệch tiêu chuẩn là 3 cm. Quan sát chiều cao của 1.000 cây trong vườn ươm đó thấy chiều cao trung bình là 15 cm. Với độ tin cậy 95% hãy ước lượng cho chiều cao trung bình của cây keo giống của vườn ươm đó.

Bài 6. Khảo sát 100 trẻ ở một trường mầm non thấy thời gian sử dụng các thiết bị điện tử trung bình trong ngày của chúng là 2 giờ với độ lệch tiêu chuẩn 0,5 giờ. Với độ tin cậy 99% hãy ước lượng cho thời gian trung bình sử dụng thiết bị điện tử trong ngày của trẻ ở trường mầm non đó.

Bài 7. Tìm các khoảng tin cậy 90%, 95%, và 98% cho giá trị trung bình dựa trên các mẫu sau:

) 100, 250, 80.

a nXS

) 64, 250, 80.

b nXS

Bài 8. Các nhà nghiên cứu tiến hành quan sát tại một bệnh viện và đo mật độ xương của 94 phụ nữ đang điều trị các bệnh xương khớp tại bệnh viện đó. Mật độ xương trung bình quan sát được là 1,016 g/cm2

và độ lệch tiêu chuẩn là 0,155 g/cm2. Hãy ước lượng cho mật độ xương trung bình của bệnh nhân nữ điều trị bệnh xương khớp tại bệnh viện đó với độ tin cậy 98%?

Bài 9. Để xác định tỷ lệ phế phẩm trong một lô sản phẩm người ta rút ra một mẫu gồm 300 sản phẩm đem kiểm tra và thấy có 15 phế phẩm. Hãy ước lượng tỷ lệ phế phẩm trong lô với độ tin cậy  = 99% và tìm độ chính xác của ước lượng?

Bài 10. Trong một nghiên cứu về sinh trưởng của cây, một nhà nghiên cứu gieo 13 hạt đậu nành trong điều kiện môi trường lý tưởng (đảm bảo về ánh sáng, nhiệt độ, độ ẩm, dinh dưỡng…) và đo độ dài của cây nảy mầm (cm) sau 16 ngày gieo hạt, Kết quả thu được như sau:

20,2 22,9 23,3 20 19,4 22

22,1 22 21,9 21,5 19,7 21,5 20,9 a) Tính trung bình mẫu và phương sai mẫu?

b) Giả sử nhà nghiên cứu tiến hành một thí nghiệm mới để ước lượng chiều dài trung bình của cây nảy mầm sau 16 ngày. Nếu muốn độ chính xác của ước lượng không quá 0,2 thì phải nghiên cứu tối thiểu bao nhiêu cây?

Bài 11. Phỏng vấn ngẫu nhiên 1.000 sinh viên ở một trường đại học có 152 sinh viên trả lời yêu thích môn Toán. Với độ tin cậy 95%.

a) Hãy ước lượng tỷ lệ yêu thích môn Toán của sinh viên trường đại học đó? b) Nếu muốn ước lượng với độ chính xác không quá 0,03 thì cần phải điều tra ít nhất bao nhiêu người?

Bài 12. Chọn ngẫu nhiên 150 sinh viên thi hết học phần môn xác suất thống kê ở một trường đại học ta thấy có 30 sinh viên đạt điểm D. Hãy tìm khoảng tin cậy cho tỷ lệ sinh viên đạt điểm D môn xác suất thống kê của trường đó với độ tin cậy 95%?

Bài 13. Một cửa hàng bán xe gắn máy thấy rằng trong số 50 khách hàng đến mua xe tại cửa hàng có 12 người mua xe tay ga. Với độ tin cậy 98% tìm khoảng ước lượng cho tỷ lệ khách hàng mua xe tay ga của cửa hàng đó?

Bài 14. Để ước lượng tỷ lệ trẻ béo phì ở một trường mẫu giáo với sai số không quá 0,02 hỏi cần phải lấy mẫu ít nhất bao nhiêu trẻ?

Bài 15. Để đánh giá lượng độ hồng cầu trong máu của các bệnh nhân đến khám bệnh tại một bệnh viện người ta khảo sát 50 bệnh nhân và thấy lượng hồng cầu trung bình của các bệnh nhân đó là 4,7 g/ml với độ lệch tiêu chuẩn mẫu là 0,15.

a) Ước lượng khoảng tin cậy cho lượng hồng cầu trung bình của các bệnh nhân của bệnh viện?

b) Nếu muống ước lượng với độ tin cậy không quá 0,03 thì cần phải khảo sát ít nhất bao nhiêu bệnh nhân?

Chƣơng 4

KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 4.1. Đặt vấn đề

Trong các hoạt động thực tiễn, ta thường đặt ra và giải quyết nhiều bài toán mà ta sẽ gọi là bài toán kiểm định giải thiết. Sau đây là một số ví dụ.

Trên truyền thông, ta bắt gặp nhiều tuyên bố của các nhà quản lí. Chẳng hạn, một trường đại học tuyên bố tỉ lệ sinh viên có việc làm đúng ngành được đào tạo của trường này sau khi tốt nghiệp là trên 80%. Một người nghi ngờ thông tin trên và muốn kiểm chứng lại khẳng định đó. Câu hỏi là phương pháp nào giải quyết được vấn đề trên?

Trong nông nghiệp, khi đưa vào trồng thử nghiệm một giống lúa mới trên một địa phương. Biết rằng năng suất trung bình sau khi thu hoạch của giống lúa mới trên các thửa ruộng được trồng thử nghiệm là 6,0 tấn/ha. Năng suất lúa trung bình của giống lúa truyền thống là 5,5 tấn/ha. Câu hỏi đặt ra là năng suất trung bình của giống lúa mới có cao hơn giống lúa truyền thống hay không? Từ thông tin thu được (từ mẫu), có phương pháp nào trả lời câu hỏi trên không và nếu có thì cách thức giải quyết như thế nào?

Trong lâm nghiệp, người ta nhận thấy rằng sinh trưởng của cây rừng có vẻ như chịu ảnh hưởng của yếu tố vị trí cây mọc (được trồng). Giả sử, ta xét trên một quả đồi và ta chia vị trí mà cây mọc (được trồng) thành ba mức: chân đồi, sườn đồi và đỉnh đồi. Sinh trưởng của cây được xếp hạng: sinh trưởng kém, sinh trưởng trung bình và sinh trưởng tốt. Có thể có một số câu hỏi được đăt ra như sau:

- Câu hỏi 1: Có ảnh hưởng thực sự của yếu tố vị trí đối với sinh trưởng của cây hay không?

- Câu hỏi 2: Có sự khác biệt nào về sinh trưởng khi vị trí cây ở các mức khác nhau không? Nói nôm na, khi các điều kiện khác xấp xỉ nhau thì cây mọc hoặc được trồng ở các vị trí đỉnh đồi, sườn đồi và chân đồi sinh trưởng nói chung của nó có khác biệt không?

Phương pháp thống kê giúp ta trả lời một cách “hợp lí” các câu hỏi ở dạng trên từ dữ liệu có được. Khi đó, các yếu tố mà thực tế đang quan tâm được xét như là các biến ngẫu nhiên với phân phối, tham số chưa biết.

4.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thiết

Cho X là một biến ngẫu nhiên có phân phối là mẫu về X.

Định nghĩa 1: Giả thiết là một khẳng định về phân phối hay về tham số chưa biết của biến ngẫu nhiên, thông thường ta kí hiệu là H hoặc .

Định nghĩa 2: Đối thiết là khẳng định về phân phối hay tham số của biến ngẫu nhiên nhưng trái ngược với giả thiết được nêu, kí hiệu là K hoặc .

Bài toán: Kiểm định giả thiết “ Trong một tháng trung bình một người phụ nữ làm văn phòng nói chuyện điện thoại 300 phút”.

Ho: Trong một tháng trung bình một người phụ nữ làm văn phòng nói chuyện điện thoại 300 phút, .

H1: Trong một tháng trung bình một người phụ nữ làm văn phòng nói chuyện điện thoại khác 300 phút, .

Đối thiết có thể được thay bằng các đối thiết hoặc

.

Ví dụ 1.

Bài toán: Kiểm định giả thiết “Thời gian tìm hiểu trước hôn nhân ảnh hưởng đến tình trạng hôn nhân hiện tại”.

Ho: Thời gian tìm hiểu trước hôn nhân không ảnh hưởng đến tình trạng hôn nhân hiện tại.

H1: Thời gian tìm hiểu trước hôn nhân ảnh hưởng đến tình trạng hôn nhân hiện tại.

Bài toán đặt ra nhƣ sau: Ta quan tâm tới biến ngẫu nhiên X có phân phối chưa biết. Có hai khẳng định trái ngược nhau về biến X là giả thiết và đối thiết. Với dữ liệu thu được về X (mẫu ngẫu nhiên), ta phải quyết định lựa chọn một trong hai khẳng đó theo một cách “hợp lí nhất”.

Phƣơng pháp chung giải bài toán kiểm định giả thiết:

Để giải bài toán kiểm định giả thiết, người ta làm như sau:

Dựa trên mẫu ngẫu nhiên thu được về X, người ta xây dựng tiêu chuẩn kiểm định (test thống kê) T là hàm của mẫu, tức là . Nói đơn giản, tiêu chuẩn T đo sự sai khác giữa giả thiết đặt ra và thực tế quan sát được về X.

Ta sẽ đưa ra quyết định chấp nhận hay bác bỏ giả thiết dựa vào tiêu chuẩn T một cách “hợp lí”. Thông thường, nếu có sự khác biệt lớn hay T nhận giá trị lớn ta sẽ bác bỏ giả thiết. Nếu T nhận giá trị nhỏ thì ta sẽ chấp nhận giả thiết, tức là, sự sai khác không đáng kể (sai do yếu tố ngẫu nhiên - lấy mẫu).

Vì ta không có toàn bộ thông tin về biến X nên quyết định mà ta đưa ra dựa trên tiêu chuẩn T hoàn toàn có thể dẫn tới sai lầm. Có hai sai lầm có thể mắc phải như sau:

a) Sai lầm loại 1: Giả thiết sai nhưng ta lại chấp nhận nó; b) Sai lầm loại 2: Giả thiết đúng nhưng ta lại bác bỏ nó.

Một cách tự nhiên, ta cố gắng tìm một tiêu chuẩn sao cho khi đưa ra quyết định dựa trên nó thì khả năng mắc hai sai lầm trên là nhỏ nhất. Tuy nhiên, người ta chứng minh được rằng một tiêu chuẩn như vậy là không tồn tại. Trong tình huống này, người ta xử lí như sau:

Ta khống chế xác suất mắc sai lầm loại 1 nhỏ hơn một mức đã ấn đinh trước (thường nhỏ) và tìm một tiêu chuẩn cực tiểu xác suất mắc sai lầm loại 2. May mắn thay, một tiêu chuẩn như vậy luôn tồn tại.

Nguyên tắc đưa ra quyết định: Người ta đưa ra quyết định dựa trên “nguyên lí xác suất nhỏ”.

Nguyên lí xác suất nhỏ: nếu một biến cố có xác suất nhỏ thì nó sẽ không xảy ra trong một hoặc một vài lần thực hiện phép thử.

Đến đây, bài toán kiểm đỉnh giả thiết được giải quyết bằng phương pháp phản chứng như sau:

Giả sử, giả thiết đặt ra là đúng, khi ấy tiêu chuẩn T có một phân phối hoàn toàn xác định. Dựa vào phân phối này, ta tìm một miền S thỏa mãn

| . Miền S được gọi là miền tiêu chuẩn hay miền bác bỏ giả thiết. Từ dữ liệu thực tế có được, ta tính ra giá trị của T và đối chiếu giá trị của T với miền tiêu chuẩn. Nếu thì ta sẽ bác bỏ giả thiết. Nếu ngược lại, ta chấp nhận giả thiết. Đó là lời giải của bài toán kiểm định giả thiết.

Cơ sở của quyết định trên được giải thích: Nếu giả thiết là đúng đắn thì S là miền có xác suất nhỏ (vì được chọn nhỏ). Do đó, biến cố có xác suất nhỏ. Một biến cố có xác suất nhỏ phải không xảy ra trong một hoặc một vài lần lấy mẫu mới là hợp lí. Do đó, nếu trong lần đầu lấy mẫu, ta thấy rằng T rơi vào miền S, điều này mâu thuẫn với nguyên lí xác suất nhỏ và quyết định ta đưa ra là

bác bỏ giả thiết. Khả năng phạm sai lầm loại 1 khi chọn quyết định này nhỏ hơn hoặc bằng .

Chú ý:

- Phương pháp giải trên được gọi là phương pháp kiểm định truyền thống. Một phương pháp khác thường được dùng trong các phần mềm thống kê là phương pháp P-value (P - giá trị);

- Tiêu chuẩn T là một biến ngẫu nhiên. Ta đưa ra quyết định dựa trên T hay chính dựa trên mẫu (những bằng chứng thu thập được). Nếu hai mẫu khác nhau có thể dẫn tới hai quyết định trái ngược nhau;

- Xác suất mắc sai lầm loại 1 được ưu tiêu khống chế vì người ta cho rằng sai lầm này nghiêm trọng hơn nếu phạm phải;

- Xác suất mắc sai lầm loại 2 chưa được xác định. Do vậy, quyết định bác bỏ giả thiết nói chung “an toàn” hơn quyết định chấp nhận giải thiết vì nhỏ và đã biết.

4.3. Các bài toán kiểm định giả thiết thƣờng gặp

Một phần của tài liệu Bài giảng toán thống kê cho khoa học xã hội đh lâm nghiệp (Trang 57)