Đơn giản như nếm thử, hút thử, dùng thử, … Phức tạp hơn, ta đến một trường Cao Đẳng để mượn sổ theo dõi quá trình thử nghiệm những phương pháp giảng dạy và học tập mới hay cũng có thể đế
Trang 1CHƯƠNG 5
LÝ THUYẾT MẪU VÀ ƯỚC LƯỢNG THAM SỐ
5.1 MẪU VÀ PHÂN PHỐI MẪU
5.1.1 Đám đông và mẫu
Hàng ngày ta vẫn hay dùng những thao tác cần thiết để chọn lựa những đối tượng cần cho mục đích nghiên cứu, xem xét và đánh giá Đơn giản như nếm thử, hút thử, dùng thử, … Phức tạp hơn, ta đến một trường Cao Đẳng để mượn sổ theo dõi quá trình thử nghiệm những phương pháp giảng dạy và học tập mới hay cũng có thể đến các trung tâm lưu trữ số liệu của một địa phương để thu thập về những thông tin cần thiết cho các vấn đề dân số, tỷ lệ sinh, sự phân bố dân cư, tình hình thu nhập, …
Tư tưởng chính ở đây là: Trong thực tế ta cần nghiên cứu một dấu hiệu X nào đó trên một tập hợp K có số lượng lớn các phần tử Tuy nhiên có thể vì thời gian hạn hẹp, chi phí quá tốn kém hoặc làm hư hỏng các phần tử của K mà ta không thể quan sát hết tất cả các phần tử của K , vì vậy trong thực tế, chúng ta chỉ chọn ra một tập con hữu hạn n phần tử để khảo sát, nghiên cứu, rút ra một số kết luận Từ những kết luận này ta hy vọng có một sự đánh giá, ước lượng về dấu hiệu X mà ta quan tâm trên K Tập K được gọi là đám đông, các đối tượng trong đám đông gọi là các phần tử, số lượng các phần tử của K gọi là kích thước của đám đông, ký
hiệu là N Việc chọn một tập con từ K để quan sát được gọi là phép lấy mẫu, một tập con được lấy ra gọi là một mẫu Một mẫu có n phần tử gọi là
mẫu có kích thước n
Để nghiên cứu X , ta cho tương ứng mỗi phần tử cần quan sát (đã chọn trong mẫu) của K với một số thực x Khi đó với n cá thể trong mẫu sẽ cho ta một bộ n số
) , , ,
(x1 x2 x n và ta gọi đó là một mẫu thống kê Nếu các phần tử trong mẫu được chọn ngẫu nhiên thì ta có mẫu thống kê ngẫu nhiên hay gọi tắt là mẫu ngẫu nhiên
Trang 2Chẳng hạn ta nghiên cứu vấn đề X về chiều cao của sinh viên Việt Nam thì
ta có thể xác định một số yếu tố sau:
Dấu hiệu X Chiều cao của sinh viên Việt Nam
Đám đông K Tập hợp tất cả sinh viên theo học tại các trường Đại học, Cao Đẳng,
Viện nghiên cứu, … tại Việt Nam
Chọn mẫu
Chọn n sinh viên ngẫu nhiên, gọi
i
x là chiều cao của sinh viên thứ i
đã chọn (i = ,1n) Mẫu thống kê (x1,x2, ,x n)
Ý nghĩa nghiên cứu Ước lượng kích thước cho các mẫu hàng hoá thiết yếu
Bảng 5.1 Các yếu tố liên quan đến chiều cao X
Như vậy Khoa học Thống kê là sự điều tra, thu thập số liệu sau đó nghiên cứu, phân tích những thông tin trên mẫu thống kê để rút ra những dấu hiệu cần nghiên cứu trong đám đông Chính vì vậy Thống kê có ý nghĩa thực tế to lớn trong đời sống kinh tế, xã hội và khoa học Nó được ứng dụng rộng rãi trong dự báo, kiểm tra chất lượng, điều khiển ngẫu nhiên, chẩn đoán, thăm dò dư luận, …
5.1.2 Nghiên cứu chọn mẫu
Để nghiên cứu mẫu ta thường trải qua các bước theo sơ đồ sau:
Bước 1 Xác định mục đích nghiên cứu
Bước 2 Xác định đám đông
Bước 3 Xác định kích thước mẫu
Bước 4 Lựa chọn phương pháp chọn mẫu
Bước 5 Suy rộng kết luận của mẫu
Bước 6 Rút ra kết luận về đám đông
Trang 3Bước 1 và bước 2 sẽ được xem xét trong từng vấn đề cụ thể Bước 3 phụ thuộc vào bước 4, bước 4, bước 6 và một số yếu tố cần thiết (về mặt lý thuyết) và đây là một trong các công việc được chuẩn bị đầu tiên Vì trên cơ sở hình thành phương pháp chọn mẫu, để tiến hành lấy mẫu ta phải biết chọn bao nhiêu phần tử từ đám đông Nếu chọn ít hơn số lượng cần thiết thì số liệu phản ánh thiếu trung thực và sai số có thể lớn, còn nếu chọn nhiều hơn số lượng cần thiết thì có thể mất thời gian, tốn kém, rủi ro cao, … Điều này được nghiên cứu cụ thể trong phần ước lượng thống kê Bây giờ ta phải định hình một số phương pháp chọn mẫu ngẫu nhiên
Dĩ nhiên mẫu cần chọn phải có tính đại diện cao cho đám đông, khi đó việc nghiên cứu mẫu sẽ có nhiều khả năng thuận lợi Muốn vậy mẫu cần được chọn ngẫu nhiên, do đó dấu hiệu X sẽ là một biến ngẫu nhiên xác định trong đám đông Để chọn được mẫu ngẫu nhiên ta giả định phần tử của đám đông đã có xác suất chọn từ trước (tức là mọi phần tử trong đám đông đều có đồng khả năng được chọn vào mẫu) và các mẫu có cùng kích thước thì cũng có cùng xác suất được chọn Khi đó ta có các cách chọn mẫu ngẫu nhiên như sau:
)
(a Chọn mẫu ngẫu nhiên đơn giản
Đây là phương pháp chọn mẫu đơn giản nhất trong các phương pháp chọn mẫu ngẫu nhiên Các phần tử của mẫu được chọn ra từ đám đông bằng cách bắt thăm, quay số hoặc theo bảng số ngẫu nhiên và có thể được chọn một lần (chọn không hoàn lại) hoặc chọn nhiều lần (chọn có hoàn lại)
Nếu kích thước mẫu khá bé so với kích thước đám đông thì việc chọn có hoàn lại và không hoàn lại là như nhau Phương pháp này có thể cho kết quả tốt nếu giữa các phần tử trong đám đông không có gì khác biệt nhiều Nếu đám đông có các kết cấu phức tạp thì phương pháp này sẽ khó đảm bảo tính đại diện Hơn nữa việc đánh số tất cả các phần tử của đám đông sẽ hoàn toàn không thực tế nếu đám đông có qui mô quá lớn
)
(b Chọn mẫu theo phân nhóm đại diện
Chia tập nền thành những nhóm thuần nhất, sau đó từ mỗi nhóm chọn một mẫu con ngẫu nhiên Tập hợp tất cả các mẫu đó cho ta một mẫu phân nhóm ngẫu nhiên Mỗi nhóm sẽ có vai trò khác nhau phụ thuộc vào độ quan trọng của chúng trong đám đông, vì vậy kích thước của mẫu con từng nhóm cũng được chọn khác nhau
Trang 4Nếu tập nền được phân thành k nhóm, nhóm i sẽ có n i (i = ,1k) phần tử tham gia vào mẫu, khi đó ta có n =n1 +n2 + +n k
Phương pháp này thực hiện thuận lợi, phân tích số liệu khá toàn diện và hiệu quả hơn phương pháp lấy mẫu ngẫu nhiên đơn giản Tuy nhiên phương pháp đòi hỏi phải có các nguồn thông tin có sẵn và những kiến thức, kinh nghiệm về đám đông để phân nhóm nên có phần nào dựa vào những kinh nghiệm phán đoán chủ quan Vì vậy cần phải đảm bảo nguyên tắc chung khi phân nhóm, trước hết là đảm bảo tính đồng nhất của tổ, tiếp theo là số nhóm không được chia quá ít hoặc quá nhiều, cuối cùng kích thước mẫu con đại diện nhóm phải đủ lớn
)
(c Chọn mẫu phân theo chùm
Nếu đám đông quá lớn, ta chia thành các tập con, chọn ngẫu nhiên một số tập con làm tập đại diện có kích thước N1, N2, và N k Khi đó tổng số cá thể của đám đông mới là: N0 = N1 +N2 + +N k
từ tập đại diện có kích thước N i ta chọn một mẫu có kích thước n i
)
,1
(i = k theo tỷ lệ:
k
k N
n N
n N
2
2 1 1
với n =n1 +n2 + +n k
Phương pháp này có ưu điểm là không cần thiết phải xây dựng một danh sách tất cả các phần tử trong đám đông như hai phương pháp trên Các phần tử được chọn đều nằm tập trung theo từng khu vực nên hạn chế được thời gian và chi phí đi lại Tuy nhiên nhược điểm của phương pháp là có thể tính đại diện của mẫu không cao do sai số chọn mẫu có khả năng phát sinh lớn hơn khi các cá thể tập trung không phân bố đều
5.1.3 Bảng phân phối mẫu
)
(a Phân phối tần số
Giả sử đám đông có N phần tử, từ đó ta chọn được một mẫu có kích thước n Gọi x i với i = ,1n là giá trị của phần tử thứ i trong mẫu Nếu
Trang 5) , , ,
(x1 x2 x n gọi là mẫu đơn
Trường hợp trong mẫu có nhiều giá trị trùng nhau, nghĩa là có n i lần xuất hiện giá trị x i (i = ,1k) thì ta phải có
k n n
n
n = 1 + 2 + +
do đó k <n Một mẫu thống kê như thế gọi là mẫu lặp
Tuy nhiên trong nhiều trường hợp, chẳng hạn kích thước mẫu lớn và các giá trị của mẫu khác nhau không nhiều, khi đó để tiện lợi trong tính toán ta phân các số liệu thành từng khoảng dưới dạng:
) , ( ); ;
, ( );
,
(a1 a2 a2 a3 a k−1 a k
Hoặc
1 2 2, 3, , k 1 k
a a a a a a
trong đó có n i giá trị của mẫu xuất hiện trong khoảng (a i−1 i,a ) với
k
i = ,1 Mẫu như vậy gọi là mẫu phân lớp
Trong tính toán, để thuận lợi, ta đưa mẫu phân lớp về mẫu lặp bằng cách đặt:
1
2
Cụ thể, ta có thể trình bày số liệu thu được khi kiểm tra môn Xác suất thống kê của 36 sinh viên Trường Đại học Công Nghiệp Thực Phẩm TP.HCM, kết quả như sau:
Ta có bảng phân phối tần số theo mẫu đơn, mẫu lặp và mẫu phân lớp:
−
i
x điểm, n i − số sinh viên đạt điểm x i
Trang 6Mẫu lặp Mẫu phân lớp
j
y m j [ ,a a h h1) q i
Bảng 5.3 Phân phối tần số theo mẫu đơn, lặp và phân lớp
)
(b Phân phối tần suất
Từ bảng phân phối tần số, nếu ta đặt
n
n
i = , i = ,1k
thì f i được gọi là tần suất xuất hiện của x i (i = ,1k) Khi đó ta có bảng phân phối tần suất cho mẫu lặp:
i f
n
n1
n
n2
L n n k
Trang 7Nếu số liệu cho ở dạng mẫu đơn thì ta sử dụng bảng trên với k =n và
n i
n i = ,1∀ = ,1 Trường hợp mẫu phân lớp ta sử dụng (5.1) để đưa về mẫu lặp
Cụ thể, ta có bảng phân phối tần suất về điểm của 36 sinh viên:
j
y f j [ ,a a h h1) t h f h
3
6
367
7 365
8 364 t h a h 2a h1
9
363
10 361
Bảng 5.4 Phân phối tần số theo mẫu lặp và phân lớp
)
(c Đa giác đồ và tổ chức đồ
Để có được một hình dạng về phân phối mẫu, người ta thường dùng đồ thị để biểu diễn bảng phân phối tần số hoặc tần suất
Trang 8Trên hệ trục toạ độ vuông góc Oxy ta nối các điểm có toạ độ (x , i n i)
hoặc x i,n n i với i chạy liên tiếp từ 1 đến k Khi đó ta được một đường
gấp khúc gọi là đa giác đồ
Cụ thể ta có đa giác đồ về điểm của 36 sinh viên, hình 5.1
0.000
0.100
0.200
0.300
Hình 5.1 Đa giác đồ cho bảng phân phối tần suất theo mẫu lặp
Nếu chia đoạn [x 1 k,x ] thành m khoảng đều nhau, mỗi khoảng có độ dài h0, trên mỗi khoảng L j với j = ,1m ta tính tổng
∑
∈
=
j
j L
l
Tiến hành dựng các hình chữ nhật đáy L j và chiều cao
0
h
l j
Đồ thị
nhận được gọi là tổ chức đồ của mẫu đã cho Tổng diện tích của các hình
chữ nhật chính là kích thước của mẫu
Cụ thể ta có tổ chức đồ về điểm của 36 sinh viên: Bằng cách chia đoạn [0;10] thành năm khoảng đều nhau, ta có độ dài mỗi khoảng là h0 = ,18 Ta có:
Trang 9L 1 – 2,8 2,8 – 4,6 4,6 – 6,4 6,4 – 8,2 8,2 – 10
j
0
h
l j
Tổ chức đồ về điểm có đồ thị như hình 5.2
1.67
4.44
6.67
5
2.22 0
2
4
6
8
Hình 5.1 Tổ chức đồ cho bảng phân phối tần suất theo mẫu lặp
5.2 CÁC ĐẶC TRƯNG CỦA MẪU
Giả sử ta quan tâm đến dấu hiệu X của đám đông K , ta tiến hành n
phép thử độc lập để xác định n giá trị của mẫu (x1,x2, ,x n)
Gọi X i là biến ngẫu nhiên chỉ giá trị sẽ thu được ở phép thử thứ i với
n
i = ,1 Các biến ngẫu nhiên X i độc lập trong toàn bộ và có cùng phân phối với X
Ta gọi mẫu ngẫu nhiên kích thước n từ đám đông là vector ngẫu nhiên
n chiều (X1,X2, ,X n) Mỗi bộ số (x1,x2, ,x n) được gọi là một giá trị của mẫu ngẫu nhiên
Chẳng hạn, gọi X là biến ngẫu nhiên chỉ số chấm khi gieo ba con xúc xắc, khi đó mẫu ngẫu nhiên có kích thước n = 3 , là vector ba chiều
)
,
,
(X1 X2 X3 Còn giá trị của bộ (12;;4) là một kết quả thu được từ mẫu ngẫu nhiên Điều này có nghĩa gieo con thứ nhất được mặt một chấm, con
Trang 10thứ hai được mặt hai chấm và gieo con thứ ba được mặt bốn chấm Tập hợp các giá trị có thể xảy ra của mẫu ngẫu nhiên là:
} ,1
; 6 ,1
; 6 ,1 )
, , (
{x1 x2 x3 x1 = x2 = x3 = Một hàm
) , , , (x1 x2 x n g
g = xác định trên tập giá trị của mẫu ngẫu nhiên (x1,x2, ,x n) được gọi là một
thống kê Tuỳ theo mục đích nghiên cứu mà ta phân loại mẫu ngẫu nhiên là
định lượng hay định tính Những thống kê được đưa ra cũng dựa trên sự phân loại này
Mẫu định lượng là mẫu mà ta quan tâm đến một yếu tố về lượng của các phần tử, chẳng hạn như khối lượng, chiều dài, … Thường trên mẫu này
ta chỉ quan tâm đến thống kê trung bình mẫu và phương sai mẫu
Mẫu định tính là mẫu mà ta chỉ quan tâm đến các phần tử của nó có một tính chất A nào đó hay không Trong trường hợp này ta quan tâm đến
tỷ lệ phần tử có tính chất A trong mẫu gọi là tỷ lệ mẫu
Để tiện lợi trong việc trình bày, các thống kê đều được xây dựng trên mẫu lặp, các công thức biểu diễn các thống kê trên mẫu đơn và mẫu phân lớp được xác định tương tự bằng cách dựa vào cách xác định trên mẫu lặp Nếu số liệu cho ở dạng mẫu đơn thì ta sử dụng cách xây dựng trên mẫu lặp với k =n và n i = ,1∀i = ,1n Trường hợp mẫu phân lớp ta sử dụng (5.1) để đưa về mẫu lặp
)
(a Trung bình mẫu
Trung bình mẫu, ký hiệu X là thống kê được xác định bởi:
1
1 k
i i i
n
với n i là tần số xuất hiện x i (i = ,1k) trong mẫu thoả ∑
=
= k
i n i
n
1
Trung bình mẫu đặc trưng về vị trí và là một số mà các giá trị của mẫu có xu hướng qui tụ quanh nó Nếu E (X)=µ và D(X)= σ2 thì ta có kỳ vọng và phương sau của trung bình mẫu là:
Trang 11= )
(X
n X
)
(b Phương sai mẫu
Phương sai mẫu, ký hiệu s X2 là thống kê được xác định bởi:
∑
=
−
s
1
2
với n i là tần số xuất hiện x i (i = ,1k) trong mẫu thoả ∑
=
= k
i n i
n
1
Phương sai mẫu đặc trưng về sự phân tán của giá trị mẫu quanh trung bình mẫu Nếu E (X)=µ và D(X)= σ2 thì ta có kỳ vọng của phương sai mẫu là:
2
n
n s
1s X
n n
thì S2 là thống kê được gọi là phương sai mẫu hiệu chỉnh, xác định bằng
công thức tổng quát:
∑
=
−
−
i n i x i X n
S
1
2
1
Lúc này ta có Nếu E (X)=µ và D(X)= σ2 thì ta có kỳ vọng của phương sai mẫu hiệu chỉnh là
2
2) (S = σ
Trong tính toán ta tính phương sai mẫu bằng công thức đơn giản hơn:
) (
2
=
i n i x i
n
X
1 2
Trang 12Để thuận lợi trong việc tính toán các thống kê về đơn vị đo, người ta
đặt thêm các thống kê có cùng ý nghĩa với phương sai, đó là độ lệch chuẩn trung bình mẫu là căn bậc hai của phương sai mẫu
2
X
và độ lệch chuẩn hiệu chỉnh trung bình mẫu là căn bậc hai của phương sai
mẫu hiệu chỉnh
2
S
Độc giả dễ dàng chứng minh được
( )
)
(c Tỷ lệ mẫu
Nếu X là biến ngẫu nhiên có phân phối nhị thức với xác suất gặp phần tử trong mẫu có tính chất A (x i =1) bằng p thì
n p n
m
được gọi là tỷ lệ mẫu với n là kích thước mẫu, m là số phần tử trong mẫu có tính chất A
Nếu X ∈B ( p;1 ) thì E(p n)= p và
n p
p p
D( n)= (1− ) (5.14)
Ví dụ
5.1
Đo chiều cao của 100 sinh viên năm nhất Trường Cao Đẳng Công Nghiệp Thực Phẩm TP.HCM ta có bảng thống kê (tính bằng
cm):
Chiều cao Số sinh viên
Tính X , S và p − sinh viên có chiều cao thấp nhất là 166cm?
Trang 13Giải
Cách 1 Xử lý trực tiếp số liệu đã cho Gọi x i là chiều cao của sinh viên và n i là số sinh viên đạt được điểm x i Đặt
1
2
Ta có bảng số liệu như sau:
i
i i
x n
Tính X ta dùng (5.2)
1
100
k
i i i
n
Tính S ta dùng (5.7) hoặc có thể dùng (5.9) (5.11)
2 2510240 25102,4
100
2 2 ( )2 25102,4 (158,32)2 37,1776
X
2 100 37,1776 37,5531 99
37,5531 6,1281
Tính p n ta dựa vào (5.13)
Trang 148 4 0,12 100
n
Cách 2 Ta dựa vào cách 1, nhưng số liệu sẽ đơn giản hơn bằng cách
đặt
160 4
i
Ta có bảng số liệu như sau:
i
i i
y n
Tính toán tương tự như trên nhưng chú ý rằng biến ngẫu nhiên cần tính là Y :
100
100
2 2 ( )2 2,5 ( 0, 45)2 0,25
Y
Từ (5.15) ta có 160
4
X
Y suy ra X 4Y 160 Vậy ta tính được:
4 160 4.( 0,42) 160 158,32
2 16 2 16.0,3236 37,1776
Trang 152 100 37,1776 37,5531 99
37,5531 6,1281
Tính tỷ lệ, làm tương tự
5.3 ƯỚC LƯỢNG
Khi chọn mẫu, điều quan trọng không phải nhằm nghiên cứu mẫu đại diện được chọn ra từ đám đông, mà chính là quan mẫu đó có thể nghiên cứu được qui luật và trạng thái của đám đông chứa mẫu Nghĩa là dựa vào sự hiểu biết về thống kê θ (chẳng hạn X,S,p n) của mẫu đã tính toán được để rút ra một số kết luận về thống kê θ (tương ứng µ,σ,p) của đám đông
Việc làm như vậy gọi chung là ước lượng thống kê
Có hai phương pháp ước lượng:
Ước lượng điểm: chỉ ra θ0 = θ nào đó để ước lượng θ
Ước lượng khoảng tin cậy: chỉ ra một khoảng (θ1;θ2) chứa θ sao cho:
α
−
= θ
<
θ
<
P
với α là số dương khá gần 0
5.3.1 Ước lượng điểm
Giả sử cần ước lượng thống kê θ của biến ngẫu nhiên X từ đám đông
K Từ X ta chọn mẫu ngẫu nhiên (X1,X2, ,X n) có giá trị đại diện là
) , ,
,
(x1 x2 x n Khi đó ước lượng điểm của θ là giá trị
) , , , (x1 x2 x n g
= θ Có nhiều ước lượng θ của θ khác nhau, tuy nhiên một ước lượng được coi là tốt nhất nếu nó thỏa mãn các tiêu chuẩn sau:
)
(a Ước lượng không chệch
Thống kê θ được gọi là ước lượng không chệch của thống kê θ nếu
θ
=
θ) (
Từ định nghĩa (5.2) kết hợp với (…) ta dễ dàng nhận thấy nếu θ là ước lượng không chệch của θ thì E(θ−θ)= 0,