mẫu + Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu có thể rút được có kích thước n.. mẫu không bằng phương sai dân số, mà bằng phương sai dân số chia cho kích
Trang 1PHÂN PHỐI MẪU
(Sampling Distributions)
I GIỚI THIỆU
Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê
Việc hiểu biết PPXS nhằm hai mục đích:
Trang 2mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ
cùng một dân số, được gọi là PP mẫu của số thống kê đó
Các bước thiết lập PP mẫu
+ Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu
(có thể
rút được) có kích thước n
+ Tính số thống kê có liên quan cho từng mẫu
+ Lập bảng phân phối tần số cho các số thống kê tính được này
Đặc điểm quan trọng
03 điều cần được biết về 1 PP mẫu: số trung bình, phương sai, và dạng hàm số
Việc thiết lập PP mẫu theo 3 bước nói trên sẽ trở nên rất khó khăn với dân số
có kích thước lớn, và trở nên bất khả thi khi gặp dân số vô hạn Cách tốt nhất
để giải quyết 2 vấn đề này là dùng các lý thuyết toán học để tính gần đúng
PP mẫu của 1 số thống kê
II PP (CỦA SỐ) TRUNG BÌNH MẪU (Distribution of the Sample Mean)
Thí dụ dẫn nhập
Trang 3Giả sử có 1 dân số có kích thước N = 5 (tuổi của 5 đứa trẻ điều trị ngoại trú tại
PKSK Tâm Thần Quận) với x1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14
2 2
40 1
2 2
Thiết lập PP mẫu của số trung bình mẫu, x, dựa trên kích thước mẫu n = 2 rút ra
từ dân số này Rút tất cả các mẫu có thể rút được với n = 2 từ dân số này theo cách
“để lại” (with replacement), nghĩa là rút ra xem kết quả xong thì trả lại vào dân
số; tổng số mẫu rút được bằng Nn = 25
Trang 512 6, 12 8, 12 10, 12 12, 12 14, 12
(Số trong ngoặc là số trung bình, x )
Lập bảng phân phối tần số của x
Trang 7Dạng hàm số của PP trung bình mẫu: phân phối dạng bình thường
Trang 8số trung bình của PP trung bình mẫu bằng số trung bình của dân số gốc
i
n x
(x ) (6 10) (7 10) (14 10)
25N
Phương sai của PP mẫu không bằng phương sai dân số, mà bằng phương sai dân
số chia cho kích thước mẫu
2 2 x
84
, được gọi là sai số chuẩn
của số trung bình, hoặc gọi đơn giản là sai số chuẩn (standard error)
Đặc điểm của PP Trung bình mẫu
Khi lấy mẫu theo cách “để lại” hoặc lấy mẫu từ 1 dân số vô hạn
1 Từ một dân số phân phối bình thường, PP Trung bình mẫu có những đặc
điểm sau:
Trang 9+ PP của x sẽ bình thường
+ Số trung bình,
x
, của phân phối x sẽ bằng với số trung bình của dân số,
, mà từ đó các mẫu được rút ra
+ Phương sai, 2x , của phân phối x sẽ bằng phương sai của dân số chia cho kích
thước mẫu
2 Từ một dân số phân phối không bình thường
Lý thuyết giới hạn trung tâm (Central Limit Theorem)
Cho một dân số có dạng hàm số không bình thường với số trung bình là
và phương sai hữu hạn 2, phân phối mẫu của x (là các số trung bình tính được từ
các mẫu có kích thước n từ dân số này) sẽ có số trung bình
x
= và phương sai
2
x
Trong thực tiễn, kích thước mẫu bằng 30 được xem là đủ lớn Nói chung, PP
Trung bình mẫu càng gần với bình thường hơn khi kích thước mẫu càng lớn
Lấy mẫu “Không để lại” (without replacement)
Trang 10Trong hầu hết các tình huống thực tế, việc lấy mẫu nhất thiết phải được thực hiện với 1 dân số hữu hạn và PP Trung bình mẫu trong những điều kiện này cũng có phần nào thay đổi
Với thí dụ dẫn nhập, nếu việc lấy mẫu được tiến hành theo cách “không để lại” và không quan tâm đến thứ tự được rút ra của các giá trị (trong các mẫu), thì chỉ có
Số trung bình của PP mẫu cũng bằng với số trung bình dân số
Phương sai của PP mẫu
2 i
n
mà bằng
Trang 113
3
252
được gọi là yếu tố điều chỉnh dân số hữu hạn (finite population
correction) và có thể được bỏ qua khi kích thước mẫu tương đối nhỏ so với dân
số
(n / N 0,05)
TÓM TẮT PHÂN PHỐI TRUNG BÌNH MẪU
1 Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối bình thường với
Trang 122 Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối không bình thường
Trang 13+ Mẫu khảo sát này (n = 10) chỉ là một trong rất nhiều mẫu có n = 10 rút ra từ
dân số,
trung bình
mẫu ((phát xuất từ dân số này)
+ Dân số khảo sát phân phối gần như bình thường, như vậy PP Trung bình mẫu cũng phân
phối gần như bình thường với
nên có thể bỏ qua hệ số điều chỉnh dân số hữu hạn)
+ Áp dụng PP bình thường chuẩn để tính với công thức tính z biến đổi
z/ n
Trang 15P(z > 1,09) = 1 – P(z 1,09) = 1 – 0,8621 = 0,1379
Xác suất để chọn được một mẫu n = 10 có x > 190 là 13,79%
III PHÂN PHỐI HIỆU CỦA 2 TRUNG BÌNH MẪU
ích trong trường hợp này
Thí dụ chứng minh: Giả sử có 2 dân số – dân số 1 đã từng mắc một số
bệnh có
liên quan với chậm phát triển tâm thần (mental retardation), và dân số 2 chưa từng
Trang 16mắc các bệnh có liên quan này Hệ số thông minh (HSTM) của hai dân số này
được xem là phân phối gần như bình thường với ĐLC bằng 20
Giả sử từ mỗi dân số lấy 1 mẫu có n = 15, tính trung bình HSTM và có kết
quả
1
x = 92 và x2= 105 Nếu không có sự khác biệt giữa 2 dân số, xét về mặt số trung bình thực sự của HSTM, thì xác suất để tìm được 1 hiệu lớn bằng hoặc lớn hơn
x1x2
Thiết lập PP mẫu củax1x2
+ Rút tất cả các mẫu (có thể rút được) có n1 = 15 từ dân số 1
Rút tất cả các mẫu (có thể rút được) có n2 = 15 từ dân số 2
+ Tính trung bình cho tất cả các mẫu trên
+ Lấy hiệu của từng cặp số trung bình mẫu (1 từ dân số 1, và 1 từ dân số 2)
+ Lập phân phối mẫu cho các hiệu đã tính được này
Đặc điểm của PP hiệu 2 trung bình mẫu
Trang 17+ Phân phối bình thường
Trang 18Phần diện tích dưới đường cong của x1x2tương ứng với xác suất đang tìm là phần diện tích nằm bên trái của x1x2 = 92 – 105 = –13 Giá trị của z tương ứng
với –13 trong trường hợp không có sự khác biệt giữa 2 trung bình dân số được tính
3,53
13
= –1,78
Tra bảng tìm xác suất, diện tích dưới đường cong phân phối bình thường chuẩn ở bên trái của –1,73 bằng 0,0375
Nếu không có sự khác nhau giữa hai số trung bình dân số, xác suất để tìm thấy hiệu của 2 số trung bình mẫu lớn bằng hoặc lớn hơn 13 là 0,0375
Lấy mẫu từ các dân số PP bình thường
Tiến trình tính toán nói trên vẫn đúng khi 2 mẫu có kích thước khác nhau n1 n2,
và
khi phương sai dân số khác nhau 1 2
Lấy mẫu từ các dân số phân phối không bình thường hoặc không biết dạng phân phối:
Lấy mẫu lớn để áp dụng lý thuyết giới hạn trung tâm
Trang 19IV PHÂN PHỐI TỈ LỆ MẪU (Distribution of the Sample Proportion)
Thí dụ chứng minh: Giả sử trong một dân số có 8% số người bị mù màu
(p = 0,08) Nếu chọn ngẫu nhiên 150 người từ dân số này thì xác suất để có được tỉ
lệ mù màu (của mẫu) lớn bằng hoặc lớn hơn 0,15 là bao nhiêu
Thiết lập PP mẫu của pˆ
(Cách tiến hành giống hệt như cách tiến hành thiết lập PP trung bình mẫu)
+ Rút tất cả các mẫu (có thể rút được) có n = 150 từ dân số
+ Tính tỉ lệ mẫu (sample proportion) pˆ cho tất cả các mẫu trên
+ Lập phân phối mẫu cho các pˆ đã tính được này
Đặc điểm của PP Tỉ lệ mẫu: khi cỡ mẫu lớn, PP Tỉ lệ mẫu phân phối gần như
Trang 20Để trả lời câu hỏi, dùng PP bình thường chuẩn với
n
p p
p p
) 1 (
08,015,
0
= 0222,0
07,0
= 3,15
Tra bảng PP.bình thường để tìm được p(z = 3,15) = 1 – 0,9992 = 0,0008 Xác
suất để tìm thấy một pˆ 0,15 của một mẫu có n = 150 từ một dân số có p = 0,08
là 0,08% Việc rút được một mẫu như thế này, trong thực tế, được xem là hiếm
xảy ra
Vấn đề kích thước mẫu lớn để có thể chuyển từ PP nhị phân sang PP bình
thường
Tiêu chuẩn thường được áp dụng là khi cả np và n(1 – p) đều > 5
(Với n = 150 và p của dân số bằng 0,08: np (150 x 0,08) = 12, và nq (150 x 0,92)
= 138
đều lớn hơn 5)
V PHÂN PHỐI HIỆU 2 TỈ LỆ MẪU
(Distribution of the Difference between Two Sample Proportions)
Đặc điểm của phân phối hiệu 2 tỉ lệ mẫu: Nếu 2 mẫu độc lập có kích thước mẫu n1
và n2 được rút ngẫu nhiên từ 2 dân số có các biến số nhị phân với tỉ lệ (đặc điểm
Trang 21được quan tâm) lần lượt là p1và p2 thì phân phối hiệu của 2 tỉ lệ mẫu
1 2
ˆ ˆ
p p sẽ phân phối gần như bình thường với :
Số trung bình : pˆ pˆ p1 p2
2 1
1
1 1 ˆ ˆ
) 1 ( ) 1 (
2
p p n
p p
p p
Thiết lập phân phối mẫu của p ˆ1 pˆ2
+ Rút tất cả các mẫu (có thể rút được) có kích thước mẫu là n 1 từ dân số 1
Rút tất cả các mẫu (có thể rút được) có kích thước mẫu là n 2 từ dân số 2
+ Tính tỉ lệ mẫu cho tất cả các mẫu trên
+ Lấy hiệu của từng cặp tỉ lệ mẫu (1 từ dân số 1, và từ dân số 2)
+ Lập phân phối mẫu cho các hiệu đã tính được này
Xác suất của hiệu 2 tỉ lệ mẫu được tính bằng
1 2 2
1
2 1 2 1
11
ˆˆ
n
p p n
p p
p p p p z
Trang 22Thí dụ chứng minh : Giả sử tỉ lệ của người nghiện ma túy vừa và nặng trong dân
số thứ 1 bằng 0,50 và trong dân số thứ hai bằng 0,33 Tính xác suất tìm thấy
p ˆ1 pˆ2 lớn bằng hoặc lớn hơn 0,30 ?
Giả định là phân phối mẫu của p ˆ1 pˆ2 là phân phối gần như bình thường với
17,033,050,0ˆ
ˆ1 2
004711 ,
0 100
50 , 0 50 , 0 100
67 , 0 33 , 0 ˆ ˆ
2
2 1
0
17,030,0)1()1
(
)(
)ˆˆ
(
2
2 2
1
1 1
2 1 2 1
p p
p p p p
z
Tra bảng tìm thấy diện tích nằm dưới đường cong phân phối bình thường chuẩn ở phía bên phải của 1,89 bằng 1 - 0,9706 = 0,0294 Xác suất để tìm thấy một hiệu lớn hơn hoặc lớn bằng 0,30 là 2,94%
Trang 23-