Giả sử ta lấy mẫu kích thước n. Gọi Xi là giá trị quan sát của dấu hiệu cần nghiên cứu X thể hiện trên phần tử thứ i của mẫu i — 1,..., n. Nếu mẫu lấy theo phương pháp ngẫu nhiên đơn giản có hồn lại (xem [1], trang 131) thì Xị (i — 1, 2 ..., n) là các ĐLNN độc lập có cùng luật phân phối xác suất với ĐLNN gốc X.
Định nghĩa 4.1 Mầu ngẫu nhiên kích thước n là tập hợp n ĐLNN độc lập
Xr,X2...,Xn được rút ra từ ĐLNN gốc X và có cùng luật phân phối xác suất với X.
Mẫu ngẫu nhiên kích thước n được kí hiệu là: w = (X1, x2) • • •, xn). Trong một lần lấy mẫu, ĐLNN Xi nhận giá trị Xi (i = 1,2... ,TÌ). Khi đó tập hợp n giá trị Xi, x2,..., xn tạo nên một mẫu cụ thể, kí hiệu là :
w = , x2 Ị ... Ị x„ )
4.1.4 Một số phương pháp cơ bản mô tả mẫu
Giả sử trong một lần lấy mẫu kích thước n ta được một mẫu cụ thể: w = (xi, x2, . . . ,xn)
Trong đó Xi chính là giá trị quan sát của dấu hiệu X thể hiện trên phần tử thứ i của mẫu cụ thể này (i = 1,2 ..., rì).
ạ Bảng phân phối thực nghiêm
Các giá trị quan sát Xi, x2,..., xn sau khi được sắp xếp và hệ thống lại theo thứ tự tăng dần hoặc giảm dần rồi trình bày dưới dạng bảng, ta có bảng phân phối thực nghiệm (hay còn gọi là bảng phân phối mẫu):
2?i(hoặc X) Xì. X2 . . ► Xị Xk
Tỉị nỵ ni Th n/c
Bảng 4.1: Bảng phân phối thực nghiệm Trong đó Ui, (ỉ = 1,2 ..., TÌ) là tần số của giá trị quan sát Xị.
£
Ta có: 52 ni — n i=i
b. Hàm phân phối thực nghiệm
Định nghĩa 4.2 Hàm phân phối thực nghiệm kí hiệu là F*(x) được định
nghĩa:
F\x) =
Trong đó X là số thực bất kì, nx là số quan sát có giá trị nhỏ hơn X trong mẫu kích thước n.
Hàm phân phối thực nghiệm có các tính chất: 1) 0 < F*(x) < 1
2) F*(x) là hàm không giảm
3) Nếu 11 là giá trị quan sát nhỏ nhất và Xk là giá trị quan sát lớn nhất
của X trẽn mẫu thì F*(x) — 0 với X < X1 và F*(x) — 1 với X > Xk Ngồi ra cịn có những phương pháp mơ tả mẫu khác (xem [1], trang 133).
4.2 Các đặc triíUg mẫu quan trọng
Giả sử ta cần nghiên cứu một dấu hiệu X thể hiện trên một đám đơng. Kí hiệu E(X} = n, Var(x) — ơ2. Từ đám đông ta lấy một mâu ngẫu nhiên kích thước n: w = (Xi,X2, ... ,xn)
4.2.1 Trung bình mẫu
Định nghĩa 4.3 Trung bình mẫu, kí hiệu là X được định nghĩa bằng cơng
thức:
__ 1 _n
n
i=l
Ta chú ý rằng trung bình mẫu là trung bình cộng của n ĐLNN nên nó cũng là một ĐLNN. Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w = (xi,x2,... ,Xn)
1 n
thì trung bình mẫu cũng nhận một giá trị cụ thể: X = 3 52 n i=i
_ 1 k
hoặc X — £■ 52 nixi nếu có bảng 4.1.
77. j=i Trung bình mẫu có các tính chất: ì S(X)=M (4.1) Var(X) = — n (4.2)
Suy ra: ơ-ỵ — yJvar(X') — -^=, nếu mẫu được lấy theo cặch có hồn lại (xem [1], trang 141).
_ .. , v r N — n ơ2
Đối với mẫu ỉấy theo cách khơng hồr lại ta có; Var(X} --- ——7.—. Khi Á — 1 n
' N — Tỉ - s
n rất nhỏ so với N thì ~ 1, nên khi đó mặc dù mẫu lấy khơng hồn lại nhưng ta vẫn có thể dùng cơng thức (4.2).
4.2.2 Phương sai mẫu và phương sai mẫu điều chỉnh
Định nghĩa 4.4 Phương sai mẫu, kí hiệu là s*2 được định nghĩa bằng công thức:
Hoặc s2 = — V nị(xi — x)2 và s'2 =
n i=i
S^ịsXi-X)2
Phương sai mẫu có tính chất: EÍS2) = —-----ơ2
Định nghĩa 4.5 Phương sai mẫu điều chỉnh, kí hiệu s12 và được định nghĩa:
Từ tính chất của phương sai mẫu, ta có : E(S/2} = ơ2.
Cũng như đối với trung bình mẫu, ta cần chú ý rằng s2 và S'2 là những ĐLNN. Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w = (xỵ,X2, ■ ■ ■, xn) thì phương sai mẫu cũng như phương sai mầu điều chỉnh cũng nhận một giá trị cụ thể: n s2 = ị ^Xi - xì2 và 5/2 = 1 - - 53 nị(xi — x)2 nếu có bảng 4.1 n - 1 i=í Chú ý 4.1 Ta có thể tính s'2 theo công thức: s'2 = ——- n — 1
Chú ý 4.2 Để tính giá trị của phương sai mẫu cũng như phương sai mẫu điều
chỉnh người ta cịn dùng cơng thức sau:
-n(x)2]
L i=ỉ
Định nghĩa 4.6 Căn bậc hai của phương sai mẫu được gọi là độ lệch tiêu
chuẩn mẫu và được kí hiệu là s.
Căn bậc hai của phương sai mẫu điều chỉnh được gọi là độ lệch tiêu chuẩn mẫu điều chỉnh và được kí hiệu là S'.
S' = \/^?ĩ ồ« -
V n ~ 1 i=i
Độ lệch tiêu chuẩn mẫu cũng như độ lệch tiêu chuẩn mẫu điều chỉnh là những ĐLNN. Còn các giá trị của chúng trên một mẫu cụ thể là những số xác định, kí hiệu tương ứng là s và s'. Ta có:
s = Ề^Xị-x)2 và s' - - J—^Ề,(xi-x)2
V 71 Í=1 y 71 1 ị=l
Chú ý 4.3 Trong trưòng hợp các giá trị của X được chia thành từng lớp, khi
đó người ta lấy giá trị trung tâm của mỗi lớp đại diện cho lớp đó để tính các đặc trưng mẫu (cũng như để tìm hàm phân phối thực nghiệm).
Ví dụ 4.1 Theo dõi doanh thu của 25 cửa hàng bán lẻ cùng một mặt hàng
được kết quả :
Bảng 4.2:
Doanh thu (triệu đồng/ngày) Số cửa hàng
10-12 2
12 - 14 5
14-16 8
16-18 7
18-20 3
Hãy tính trung bình mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh.
Lời giảị Lập bảng tính tốn: Xi Tlị TliXi 11 2 22 242. 13 5 65 845 15 8 120 1800- 17 7 119 2023 19 3 57 1083 25 383 5993 1 n 383 Từ đó, ta tính được X = 3 X) TiiXi - = 15,32 Tỉ ị=i 25 s'2 = —[ Ề ĩỉịXị - 71(ĩ)21 = [5993 - 25(15,32)21 « 5,22667 n — 1 Li=i J 24L J
Suy ra: s' = y/òọ ô 2,28619
4.3 Quy luật phân phối xác suất của một số
thống kê quan trọng
Giả sử dấu hiệu cần nghiên cứu X có E(X) = p và Var(X) — ơ2. Từ đám đông ta lấy ra một mẫu ngẫu nhiên kích thước n: w = (X1; x2, ■ • •, xn)
Định nghĩa 4.7 Một hàm của các DLNN thành phần x1,x2,. ■. ,xn được
gọi là một thống kê và được kí hiệu là:
G = f(X1,X2,... ,xn)
4.3.1 Trường hợp ĐLNN gốc X phân phối theo quy luật chuẩn
Vì X có phân phối chuẩn, nên X cũng có phân phối chuẩn. Mặt khác theo (4.1) và (4.2), ta có:
E(X) = p và Var(x) = — =>X~ N(il, — )
n n Vì vậy: _ U = ~ 7V(0,1) y/n Ta cũng có: 2 = (n - 1)S'2 ~ 2(n—1) x Ơ2 x (4.3) (4.4) (4.5) y/ñ
Chú ý 4.4 Khi n > 30 thống kê T phân phối xấp xỉ chuẩn 7V(0,1). Khi đó
4.3.2 Trường hợp chưa biết quy luật phân phối xác suất của X nhưng kích thước mẫu n khá lớn (thường địi hỏi n > 30)
Khi n lớn, X có phân phối xấp xỉ chuẩn. Mặt khác ta ln có
E(x) = p và Var(X) — — => X ~ — )
n n
Vì vậy: _
ư = 7V(0,1) (4.6)
y/ũ
4.3.3 Trường hợp có hai ĐLNN gốc cùng phân phối theo quy luật chuẩn
Giả sử có hai đám dơng, trên đám đơng thứ nhất dấu hiệu cần nghiên cứu là Xi có phân phối chuẩn với E(Xi) — ịii,Var(Xi) = ơl, còn trên đám đông thứ hai dấu hiệu cần nghiên cứu là %2 cũng có phân phối chuẩn với
E{X2) — M2, Var(X2) = ơ2- Từ hai đám đông trên ta lấy ra hai mẫu độc lập
với kích thước tương ứng là Til và n2:
^i = (Xn,X12,...,Xlni)
Từ mẫu này ta lập được Xi và s'i2.
W2 = (X2i,X22,...,X2ni)
Từ mẫu này ta lập được x2 và s'2
Vì Xi ~ N(ßi, ơl) và x2 ~ N(ji2,ơ2), nên Xi ~ N(fii, ^-) và x2 ~ N(ß2,
TI\ n2
Do đó _ _
= (X1 - *2) - (mi - Mạ) ~ 1} (4.7)
/11 + £2
Nếu <7j = Ỡ2 = ơ2 thì: T - (Xị - x2) - (M1 - M2) ^(711+02-2) (m - 1 )S? + (n2 - l)s'2 711 "I" 712 — 1 (4.8) Từ (4.4) ta cũng có: XỈ 7ÌỊ — 1 X2 n2 - 1 F = q 2 2 £¿.£| ~ r(ni-l,n2-2) 0'2 • „2 •* °2 ơĩ (4.9)
Chú ý 4.5 Khi 711 và n2 khá lớn (thường đòi hỏi lớn hơn 30), mặc dù không
biết quy luật phân phối của X1 cũng như của x2, lập luận tương tự như trẽn, ta cũng có cõng thức (4.7):
t/ = k N(f)
y 711 772
4.3.4 Quy luật phân phối xác suất của tần suất mẫu
ạ Xét một đám đông gồm N phần tử, trong đó có M phần tử mang dấu
hiệu Ạ Gọi p là xác suất để rút ngẫu nhiên từ đám đông ra một phần tử thì
M
được một phần tử mang dấu hiệu Ạ Ta có P(Á) = N = P’ đây chính là tỉ lệ phần tử mang dấu hiệu A trên đám đông. Nếu gọi X là số phần tử mang dấu hiệu A có được khi lấy ngầu nhiên từ đám đơng nói trên một phần tử thì X có phân phối khơng - một: X ~ Ăp). Ta có E(X) = p và V ar(X) — pq trong đó q = 1 — p (xem [1], §1, chương IV).
Từ đám đơng ta lấy ngẫu nhiên ra một mẫu kích thước 71. Gọi là số phần tử mang dấu hiệu A trên mẫu, khi đó f — — là tần suất xuất hiện dấu
71
hiệu A trên mẫu (/ chính là tỉ lệ phần tử mang dấu hiệu A trên mẫu). Gọi
Xi là số phần tử mang dấu hiệu A có được khi lấy phần tử thứ i của mẫu (i = 1,2,..., Ti). Nếu mẫu lấy có hồn lại thì Xi là các ĐLNN độc lập và có
Vì 77Ä = ¿Xi nên X = 1 ¿Xi = ^ = /.
i=i ni=i n
Do đó theo (4.1) và (4.2), ta có:
Eự) = E(X) = E(x) = p; Var(f) = Var(X) = Var(x) = ?1
n n
Khi 77 đủ lớn thì f có phân phối xấp xỉ chuẩn. Chẳng hạn, ta có thể lấy tiêu chuẩn n đủ lớn sau:
np> 5 < khi biết p 77(1 — p) > 5 Khi đó ta có: (4.10) ư =
Chú ý 4.6 Theo mục 4.2.1, khi kích thước mẫu n khá nhỏ so kích thước đám
đơng N, thì mặc dù mẫu lấy khơng hồn lại ta vẫn có thể coi như lấy mẫu có hồn lạị
b. Xét hai đám đơng có tỉ lệ các phần tử mang dấu hiệu cần nghiên cứu tương ứng là P1 và P2- Từ đám đông thứ nhất lấy ra mẫu ngẫu nhiên kích thước ni thấy có 711,4 phần tử mang dấu hiệu cần nghiên cứụ Từ đám đông thứ hai lấy ra mẫu ngẫu nhiên kích thước 712 thấy có 772/1 phần tử mang dấu hiệu cần nghiên cứụ Khi đó /1 = và /2 = —— là tần suất xuất hiện phần
711 772
tử mang dấu hiệu cần nghiên cứu tương ứng trên mẫu thứ nhất và mẫu thứ haị
Khi 771 và 772 đủ lởn ta có: fi ~ X(pi, ^7^-) và /2 — x(p2, ^^)
771 772
Nên nếu hai mẫu là độc lập thì :
u - - P2) ~ X(0,1) (4.11)
/Pigi f P2Ợ2 V 771 n2
Bài tập chương 4
4.1 Điều tra ngẫu nhiên 10 sinh viên của một trường đại học được số liệu về
điểm thi môn Lý thuyết xác suất và Thống kê tốn như sau: 7875665455 ạ Lập bảng phân phối thực nghiệm.
í
b. Lập hàm phân phối thực nghiệm.
4.2 Điều tra một mẫu kích thước 20 được kết quả:
15. 1? 17 17 14 15 16 17 18 16
16 18 15 17 16 14 16 17 15 18
ạ Lập bảng phân phối thực nghiệm. b. Lập hàm phân phối thực nghiệm.
c. Tính trung bình mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh.
4.3 Biết một giá trị của hàm phân phối xác suất: F(15) = 0,7. Với một mẫu
kích thước n = 25, tìm P[F*(15) < 0,6]
4.4 Theo dõi doanh thu của một cửa hàng trong 25 ngày được kết quả:
Doanh thu (đv: triệu VND) 20 22 24 26 28 30
Số ngày 1 4 7 8 3 2
Tìm trung bình mẫu, độ lệch tiêu chuẩn mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh.
4.5 Theo dõi mức chi tiêu của 20 khách nước ngoài trong một lần du lịch ở
Mức chi tiêu (đơn vị USD) Số khách 800 - 900 3 900 - 1000 5 1000 - 1100 10 1100 - 1200 2
Tìm trung bình mẫu, phương sai mẫu và phương sai mẫu điều chỉnh của mức chi tiêụ
4.6 Tuổi thọ của một loại sản phẩm là một ĐLNN phân phối chuẩn với tuổi
thọ trung bình là 6 năm và độ lệch tiêu chuẩn là 2,4 năm. Tìm xác suất để tuổi thọ trung bình của 9 sản phẩm lớn hơn 7 năm.
4.7 Biết dấu hiệu cần nghiên cứu là X là một ĐLNN phân phối chuẩn. Với
mầu kích thước 16, tìm P(ji — < X)
4.8 Xét một ĐLNN gốc X. Lấy mẫu ngẫu nhiên kích thước 36.
Tìm P(X — ụ, < ^).
4.9 Biết tỉ lệ sản phẩm không đạt tiêu chuẩn do một máy tự động sản xuất
là 0,08. Lấy một mẫu kích thước 100. Gọi f là tỉ lệ sản phẩm khơng đạt tiêu chuẩn trên mẫụ Tìm p(f > 0,1).
4.10 Biết tỉ lệ phế phẩm của một lô hàng là 0,06. Xác suất để tỉ lệ phế phẩm có trong 200 sản phẩm lấy ra nhỏ hơn 0,05 là bao nhiêủ
4.11 Tỉ lệ người nhiễm vi rút viêm gan B trong một vùng được xác định là 20%. Hỏi xác suất để trong 100 người lấy ra một cách ngẫu nhiên có ít hơn 15 người nhiễm vi rút viêm gan B là bao nhiêủ
4.12 Lấy mẫu kích thước n = 20. Tìm P(S'2 > l,6ơ2). Biết dấu hiệu cần nghiên cứu là một ĐLNN phân phổi chuẩn.
4.13 Biết X là một ĐLNN phân phối chuẩn. Lấy một mẫu kích thước 15.
2
4.14 Biết hai ĐLNN X1 và x2 đều có phân phối chuẩn cùng kì vọng tốn và phương sai tương ứng là 12 và 15. Lấy hai mẫu kích thước lần lượt là 20 và 25. Tính P(Xỵ -X2 >1,5).
4.15 Tuổi thọ bóng đèn của hai nhà máy đều phân phối theo quy luật chuẩn, có cùng kì vọng và phương sai tương ứng là 500(giờ)2 và 900(giờ)2. Kiểm tra 10 bóng đèn của nhà máy thứ nhất và 9 bóng đèn của nhà máy thứ haị Tính P(Xi - x2 > 20).
4.16 Biết X1 và x2 đều có phân phối chuẩn với phương sai tương ứng là 150 5'2
Chương 5
Ước lượng các tham số của ĐLNN
Xét một ĐLNN X thể hiện trên một đám đơng nào đó. Các số đặc trưng của X được gọi là các tham số lý thuyết (hay các tham số của đám đông). Ký hiệu chung các tham số lý thuyết cần ước lượng là &. Có hai phương pháp ước lượng ớ là ước lượng điểm và ước lượng bằng khoảng tin cậỵ
5.1 Ước lượng điểm
Giả sử cần ước lượng tham số ớ. Từ đám đông lấy mẫu w = (X1, X2,..., Xn) từ mẫu này ta xây dựng một thống kê ớ* = /(Xi, X2,.. -, Xn) thích hợp. Để có ước lượng điểm, ta chỉ việc điều tra một mẫu cụ thể w = (xi,X2,... ,xn) với kích thước n đủ lớn, rồi lấy 0 « ớ* = f(xi,X2,, xn).
Có nhiều cách chọn thống kê ỡ*. Thông thường người ta xây dựng ớ* bằng phương pháp hàm ước lượng, tức là chọn ỡ* là các đặc trưng mẫu tương ứng. Chẳng hạn lấy trung bình mẫu X để ước lượng trung bình đám đơng
ịi = E(X), lấy phương sai mẫu điều chỉnh s'2 để ước lượng phương sai của
đám đông ơ2 = Var^X), lấy tần xuất mẫu f để ước lượng tỉ lệ của đám đông
p. Sau đây là các tiêu chuẩn phản ánh bản chất tốt của ước lượng.
5.1.1 Ước lượng không chệch
Thống kê ớ* được gọi là ước lượng không chệch của ớ nếu E(0*) = ỡ. Nếu
5.1.2 ước lượng vững
Thống kê ớ* được gọi là ước lượng vững của 0 nếu với mọi e > 0, nhỏ tùy ý ta ln có:
lim p(|ớ* -ỡ| < e) = 1
n—>oo 1 1
5.1.3 Ước lượng hiệu quả
Thống kê ớ* được gọi là ước lượng hiệu quả của tham số ỡ của ĐLNN gốc
X nếu nó là ước lượng khơng chệch và có phương sai nhỏ nhất so với mọi ước
lượng không chệch khác được xây dựng trẽn cùng mẫu đó.
Ví dụ 5.1 x,s'2,f là những ước lượng không chệch, ước lượng vững, ước
lượng hiệu quả tương ứng của ịi, ơ và p.
Nếu 9’ và Ớ2 là hai ước lượng không chệch của 9 nhưng Var(ớ]') < Var(oỵ) thì 9ý sẽ là ước lượng không chệch tốt hơn.
5.2 Khái niệm về ước lượng bằng khoảng tin
cậy
Để ước lượng tham số ỡ của ĐLNN X trước hết từ đám đông ta lấy ra mẫu ngẫu nhiên w = (Xj, x2, ■.., xn).
Tiếp đến ta xây dựng thống kẽ G = /(X1, x2, • • •, Xn, ớ), sao cho quy luật phân phối xác suất của G hoàn toàn xác định (không phụ thuộc vào tham số