Gv. Cao Hào Thi CHƯƠNG4 LẤY MẪU VÀ PHÂN PHỐI MẪU (Sampling and Sampling Distribution) 4.1. LẤY MẪU TỪ TẬP HP CHÍNH (Sampling from a Population) 4.1.1. Tập hợp chính (Population) Tập hợp chính là tập hợp tất cả các đối tương mà ta quan tâm nghiên cứu trong một vấn đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N. • Nếu N là số hữu hạn ta có tập hợp chính hữu hạn (finite population) • Nếu N là số vô hạn ta có tập hợp chính vô hạn (infinite population) 4.1.2. Mẫu (Sample) Mẫu là tập hợp con của tập hợp chính. Số phần tử của mẫu đã ký hiệu là n và được gọi là cỡ mẫu. 4.1.3. Lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling) Đó là cách chọn n phần tử từ tập hợp chính gồm N phần tử sao mỗi tổ hợp trong n N C tổ hợp đều có cùng khả năng được chọn như nhau. Kết quả của việc chọn này cho ta các mẫu ngẫu nhiên (random sample). Việc lấy mẫu ngẫu nhiên có thể tiến hành theo cách lấy mẫu không hoàn trả lại (sampling without replacement) hay theo cách lấy mẫu có hoàn trả lại (sampling with replacement). 4.1.4. Phân phối mẫu (Sampling Distribution) Các mẫu đều có các đặc trưng thống kê của mẫu như số trung bình X, phng sai 2 x S. Phân phối xác suất của các đặc trưng thống kê của mẫu được gọi là phân phối mẫu . Trong chương này ta khảo sát phân phối mẫu của X , 2 x S . Suy diễn thống kê (Statistic Inference) Dựa vào các đặc trưng thống kê của mẫu ta có thể suy rộng ra cho các đặc trưng thống kê của tập hợp chính. 4.2. PHÂN PHỐI MẪU CỦA SỐ TRUNG BÌNH CỦA MẪU X (Sampling Distribution of the Sample Mean) Phân phối mẫu của số trung bình của mẫu là phân phối xác suất của đại lượng X 4.2.1. Kỳ vọng của số trung bình mẫu E ( X ) Giả sử tập hợp chính có N phân tử, có trung bình là µ x và phương sai là 2 x σ . Ta có: Gv. Cao Hào Thi 2 N X N i i x ∑ =µ =1 N )X( N i i x ∑ µ− =σ =1 2 2 Gọi X 1 , X 2 . X n là mẫu ngẫu nhiên có cỡ mẫu là n, được chọn từ tập hợp chính. Số trung bình của mẫu là : ∑ = i X n X 1 • Kỳ vọng của số trung bình mẫu của số trung bình mẫu E ( X ) là giá trò trung bình của tập hợp chính µ x . Nói cách khác, phân phối mẫu của X có số trung bình là µ x. E( X ) = µ x Thí dụ : Giả sử tập hợp chính gồm 5 học sinh có số tuổi là 2, 4, 6, 8 và 10. Trong trường hợp này số trung bình của tập hợp chính sẽ là µ x = 1/5(2+4+6+8+10) = 6 Giả sử lấy mẫu ngẫu nhiên không hoàn lại với cỡ mẫu là 2. Ta sẽ có 2 5 C = 10 mẫu khác nhau (với cỡ mẫu là 2). Và mỗi mẫu sẽ có số trung bình của mẫu X như sau : Sample 2,4 2,6 2,8 2,10 4,6 4,8 4,10 6,8 6,10 8,10 X 3 4 5 6 5 6 7 7 8 9 Phân phối mẫu của số trung bình X là : (Phân phối xác suất của đặc trưng thống kê của mẫu X Sample 3 4 5 6 7 8 9 10 X 0.1 0.1 0.2 0.2 0.2 0.1 0.1 0.1 Kỳ vọng của X E( X ) = Σ X * p( X) = 3 * 0.1 + 4 * 0.1 + 5 * 0.2 + 6 * 0.2 + 7 * 0.2 + 8 * 0.1 + 9 * 0.1 E( X ) = 6 = µ x 4.2.2. Phương sai của số trung bình mẫu ( 2 X σ ) Trường hợp tập hợp chính vô hạn (Infinite Polulation) Phương sai của số trung bình mẫu X được ký hiệu là σ 2 x Gv. Cao Hào Thi 3 Var ( X ) = σ 2 x = n x σ 2 Đúng khi n < N Với σ 2 x là phương sai của tập hợp chính, n là cỡ mẫu. Var ( X) = σ 2 x = )( 1N nN n 2 x − − σ Trường hợp tập hợp chính hữu hạn (Finite Population) Thí dụ : Tính phương sai của X trong thí dụ trên Phương sai của tập hợp chính σ 2 x = E[(Xi - µ x )² = Σ(xi - µ x )² * P(X i ) µ x = 6; P(X i ) = 1/5 = 1/5[(2-6)² + (4 - 6)² + (6 -6 )² + (8-6)² + (10 - 6)²] σ 2 x = 8 Phương sai của X tính từ đònh nghóa Var ( X ) = E [( X - E( X)) 2 ] = E [( X- 6) 2 ] vì E ( X) = µ x = 6 = [(3-6) 2 * 0.1 + (4-6) 2 * 0.1 + (5-6) 2 * 0.2 + (6-6) 2 * 0.2 + (7-6) 2 * 0.2 +( 8-6) 2 * 0.1 + (9-6) 2 * 0.1] Var ( X) = σ 2 x = 3 Nếu áp dụng công thức : Var ( X ) = 3 15 25 2 8 1N nN n 2 x 2 X = − − = − − σ = σ ** 4.2.3. Độ lệch chuẩn của số trung bình mẫu ( X σ ) Độ lệch chuẩn của X được ký hiệu ( X σ ) σσ σ xx x n == 2 Đối với tập hợp chính vô hạn hay 1N nN n x x − − σ =σ * Đối với tập hợp chính hữu hạn x σ được xem như sai số chuẩn (Standard Error) của số trung bình mẫu X . 4.2.4. Lấy mẫu từ tập hợp chính tuân theo phân phối chuẩn (Sampling From Normal Population) Luật phân phối của số trung bình mẫu X Gv. Cao Hào Thi 4 Nếu tập hợp chính của biến X tuân theo phân phối chuẩn với số trung bình là µ x và phương sai σ x thì số trung bình mẫu X sẽ tuân theo phân phối chuẩn với số trung trình là µ x và phương sai là n 2 x / σ . X ~ X N 2 xX ==>σµ ),( ~ N n X X (, )µ σ 2 4.2.5. Chuẩn hóa số trung bình mẫu X Đặt : Z X X X = −µ σ Nếu X có số trung bình là µ x và phương sai là σ 2 X thì Z có số trung bình là 0 và phương sai là 1. Nếu ( ) ( ) 10 2 ,N~Z ,N~X X x ==> σ µ 4.2.6. Đònh lý giới hạn trung tâm (Central Limit Theorem) Khi n lớn thì n X Z X X σ µ− = sẽ gần đúng có phân phối chuẩn chuẩn hóa hay X có phân phối chuẩn với số trung bình hoá là µ x phương sai n x 2 σ Khi n lớn ==> Z ~ N(0, 1) hay XN n X X ~,µ σ 2 Thí dụ : Chiều dài của các cây thước kẻ trong dây chuyền sản xuất thước tuân theo phân phối chuẩn với µ = 30cm. Độ lệch chuẩn xung quanh số trung trung bình là δ = 0.1cm. Nhân viên thanh tra lấy mẫu với cỡ mẫ n = 4 và nhận thấy số trung bình của mẫu là X = 29875cm. Tìm xác suất để số trung bình của mẫu nhỏ hơn hoặc bằng 29875cm. Giải : () − ≤ − =〈 4 0.1 3029875 n 30X P 29875 XP = P (Z ≤ - 350) = 0.062 Thí dụ : Một nhà sản xuất phụ tùng xe ôtô cho biết tuổi thọ của phụ tùng xe tuân theo luật phân phối chuẩn với số trung bình là 36,000 dặm và độ lệch chuẩn là 4,000 dặm. Đối với một Gv. Cao Hào Thi 5 mẫu được chọn một cách ngẫu nhiên với cỡ mẫu là 16 thì tuổi thọ trung bình của mẫu là 34,500 dặm. Nếu nhà sản xuất nói đúng thì xác suất để số trung bình mẫu nhỏ hơn hoặc bằng giá trò của mẫu đã đo là bao nhiêu. Giải : () − 〈 σ µ− =〈 16 4000 0003650034 50034 ,, X P , X P X X = P (Z < -1.5) = 0.0668 Thí dụ : Giả sử tập họp chính tuân theo phân phối chuẩn với số trung bình là 40 và phương sai là 100. Phân phối xác suất chuẩn với µ = 40, σ 2 = 100 Lấy 1,000 mẫu ngẫu nhiên với cỡ mẫu 5. Gọi X là số trung bình của mẫu. X tuân theo phân phối với số trung bình là µ = 40 phương sai σ 2 100 5 20 n ==. Lấy 1,000 mẫu ngẫu nhiên với cỡ mẫu 10. Gọi là số trung bình của mẫu. X tuân theo phân phối với số trung bình là µ = 40, phương sai σ 2 100 10 10 n ==. X F( X ) 60 40 Phân phối mẫu của X 20 N = 10 60 Giá trò của biến X 20 40 f x (x) N = 5 X Gv. Cao Hào Thi 6 Nhận xét : Phương sai của phân phối mẫu sẽ giảm khi cỡ mẫu tăng. 4.3. PHÂN PHỐI MẪU CỦA PHƯƠNG SAI MẪU 2 x S. (Sampling Distribution Of The Sample Variance) Phân phối mẫu của phương sai mẫu là phân phối xác suất của phương sai mẫu 2 x S . 4.3.1. Kỳ vọng của phương sai mẫu E ( 2 x S ) Phương sai mẫu ký hiệu là S 2 x . () 2 n 1I 2 X XX 1N 1 S i ∑ − − = = Kỳ vọng của phương sai mẫu E(S 2 x ) chính là phương sai của tập hợp chính 2 X δ . Nói cách khác, phân phối mẫu của ( 2 x S ) có số trung bình là 2 X σ . E( 2 x S ) = 2 X σ Điều kiện : n < < N 4.3.2. Phương sai của phương sai mẫu Phương sai của phương sai mẫu được ký hiệu Var( 2 x S). Var( 2 x S ) tùy thuộc vào luật phân phối của tập hợp chính. Nếu tập hợp chính tuân theo phân phối chuẩn thì ( ) 1n 2 SVar 4 X 2 X − σ = 4.3.3. Phân phối χ 2 (Chi - squared Distribution) Biến ngẫu nhiên X 2 tuân theo luật phân phối χ 2 có độ tự do là ν (degree of freedom) nếu hàm mật độ xác suất của X 2 có dạng ≤ > ν Γ = − − ν 0 x nếu 0 0 x nếu e 2 x 2 2 1 xf 2 x 1 2 2 2 X 2 2 * )( Gv. Cao Hào Thi 7 Ghi chú : Người ta lập bảng tính sẵn các giá trò diện tích P(x², ν) • Biến ngẫu nhiên X tuân theo luật phân phối χ 2 với độ tự do là ν được ký hiệu. X² ~ χ 2 v 4.3.4. Luật phân phối của 2 x 2 x S1n σ − )( = χ² n-1 Ta có: X² n-1 = 2 x 2 x S1n σ − )( = 2 X n 1i 2 i XX σ ∑ − = )( Nếu tập hợp chính tuân theo luật phân phối chuẩn thì 2 x 2 x S1n σ − )( tuân theo luật phân phối χ² với độ tự do là (n-1) X ~ N(µ x , 2 x σ ) => 2 x 2 x S1n σ − )( ~ χ² n-1 Thí dụ : Một nhà sản xuất sữa hộp muốn trọng lượng trung bình của các hộp sữa sản xuất ra phải gần bằng trọng lượng đã được quảng cáo. Giả sử phân phối trọng lượng của tập hợp chính tuân theo phân phối chuẩn. Nếu lấy ngẫu nhiên 20 hộp đem đi kiểm tra. Tìm 2 số K 1 và K 2 sao cho : a) P( 050K S 1 2 x 2 x .) =< σ b) P( 050K S 2 2 x 2 x .) => σ n : cỡ mẫu F(X²) 0 χ 2 ν 2 ν 1 < ν 2 Px v pv x e vx dx x (,) (/) () 2 2 2 1 2 1 22 2 2 2 = −− ∞ ∫ Gv. Cao Hào Thi 8 Giải : a. 0.05 = ( =< σ ) 1 2 x 2 x K S P[ 2 x 2 x S1n σ − )( < (n-1)K 1 ] = P[χ² n-1 < (n-1) K 1 ] Với cỡ mẫu n =20 và χ² n-1 là biến ngẫu nhiên có độ tự do n-1 = 19. Ta có : 0.05 = P[χ² n-1 <19K 1 ] = P[ χ² 19 <19K 1 ] hay 0.5 1-0.05 = 0.95= P[χ² n-1 >19K 1 ] = P[χ² 19 <19K 1 ] Tra bảng ta có : 19K 1 = 10.12 K 1 = 0.533 Ý nghóa : Với xác suất 5%, phương sai của mẫu sẽ nhỏ hơn 53.3% lần phương sai của tập hợp chính. Hay P( 2 x S < 0.533 2 x σ ) = 0.05 b. 0.05 = P( S KP nS X nK x x x 2 2 2 2 2 1 12 σσ >= − >−)[ () ()] = P[χ² n-1 >(n-1)K 2 ] 0.05= P[χ² 19 > 19K 2 ] Tra bảng ta có : 19K 2 = 30.14 K 2 = 1.586 Ý nghóa : Với sản xuất 5%, phương sai của mẫu số sẽ lớn hơn 58.6% phương sai của tập hợp chính. P( 2 x S >1.586 2 x σ = 0.05 Diện tích 0.05 0 10.12 30.14 χ² 19 f(χ² 19 ) Diện tích 0.05 . như sau : Sample 2 ,4 2,6 2,8 2,10 4, 6 4, 8 4, 10 6,8 6,10 8,10 X 3 4 5 6 5 6 7 7 8 9 Phân phối mẫu của số trung bình X là : (Phân phối xác suất của đặc trưng. replacement). 4. 1 .4. Phân phối mẫu (Sampling Distribution) Các mẫu đều có các đặc trưng thống kê của mẫu như số trung bình X, phng sai 2 x S. Phân phối xác suất