CHƯƠNG 5 ƯỚC LƯỢNG CÁC THAM SỐ THỐNG KÊ Estimation Khái niệm chung: - Xét một tập họp chính gôøm N biến ngẫu nhiên X tuân theo luật phân phối có hàm mật độ xác suất là f x,θ; trong đ
Trang 1CHƯƠNG 5 ƯỚC LƯỢNG CÁC THAM SỐ THỐNG KÊ
(Estimation)
Khái niệm chung:
- Xét một tập họp chính gôøm N biến ngẫu nhiên X tuân theo luật phân phối có hàm mật độ xác suất là f (x,θ); trong đó θ là các tham số thống kê của tập họp chính
Thí dụ:
• Trong phân phối nhị thức:
f x( , )θ =C n xρx(1−ρ)n x− => θ = ρ , θ ∈ [0 , 1]
• Trong phân phối poisson
x
x
( , )
!
• Trong phân phối chuẩn
x
( , )
( ) θ
πσ
µ σ
−
1
2
2
2 => θ = (µ , σ2) , -∞ < µ < +∞
0 < σ2 < +∞
- Gọi {x1, x2, , xn} là mẫu ngẫu nhiên, cỡ mẫu n được dùng lấy ra từ tập họp chính tuân theo hàm mật độ xác suất f (x,θ) Ở đây dạng của hàm f xem như đã biết còn các tham số thống kê
θ của tập họp chính xem như chưa biết
Vấn đề đặt ra ở chương trình này là dựa vào các mẫu quan sát {x1,x2, ,xn} ta ước lượng xem giá trị cụ thể của θ bằng bao nhiêu (bài toán đó gọi là ước lượng điểm ) hoặc ước lượng xem θ nằm trong khoảng nào (bài toán ước lượng khoảng)
1 ƯỚC LƯỢNG ĐIỂM (Point Estimation)
1.1 Ước lượng và giá trị ước lượng (estimator and estimate)
1.1.1 Ước lượng (Estimatir) ô hàm ước lượng
• Là biến ngẫu nhiên hay các tham số thống kê của mẫu được dùng để ước lượng các tham số thống kê chưa biết của tập hợp chính
• Ước lượng của tham số thống kê θ của tập họp chính được ký hiệu là θ∧
• Dựa vào mẫu {x1,x2 ,xn} người ta lập ra làm θ∧ = θ∧ (x1,x2, ,xn) để ước lượng cho θ θ∧ được gọi là hàm ước lượng của θ hay gọi tắt là ước lượng của θ
θ∧ chỉ phụ thuộc vào giá trị quan sát x1, x2, ,xn chứ không phụ thuộc vào các tham chưa số biết θ của tập họp chính
1.1.2 Giá trị ước lượng (estimate) hay còn gọi là giá trị ước lượng điểm (point estimate)
• Là giá trị cụ thể của ước lượng θ∧ và được xem như giá trị ước lượng của tham số thống kê θ của tập họp chính
Trang 2Tham số thống kê và tập họp
chính (population patameter) (Estimation) Ước lượng Giá trị ước lượng Estimate (Point estimate) Số trung bình µx
Phương sai σx2
Độ lệch chuẩn σx
Trị số p f x
n
=
p
X
Sx2
Sx
f
∧
p∧x
x
Sx2
Sx
f
∧
p∧x
1.2 Ước lượng không chệch: (Unbiased estimators)
1.2.1 Ước lượng không chệch:
• Ước lượng θ được gọi là ước lượng không chệch của tham số thống kê θ nếu kỳ vọng của θ∧ là
θ
E (θ∧) = θ Thí dụ
E(X) = µx => X là ước lượng không chệch của µx
E(Sx2) = σx2 => Sx2 là ước lượng không chệch cuả σx2
E ( f∧ ) = p => f∧ là ước lượng không chệch của p
12.2 Độ chệch (The bias)
• Gọi θ∧ là ước lượng của θ
Bias(θ∧) = E (θ∧) - θ
• Đối với ước lượng không chệch => Bias = độ chệch = 0
1.3 Ước lượng hiệu quả tốt nhất:
• Gọi θ∧1 và θ∧2 là 2 ước lượng không chệch của θ dựa trên số lượng của mẫu quan sát giống nhau
* θ∧1 được gọi là hiệu quả hơn θ∧2 nếu
Var (θ∧1) < Var (θ∧2)
* Hiệu quả tương đối giữa hai ước lượng là tỉ số giữa 2 phương sai của chúng
Hiệu quả tương đối =Var
Var
( ) ( )
θ θ
2 1
∧
∧
• Nếu θ∧ là ước lượng không chệch của θ và nếu không có một ước lượng không chệch nào có phương sai nhỏ hơn phương sai của θ∧ thì θ∧ đuợc gọi là ước lượng tốt nhất (best estimator) hay
θ∧ còn gọi là ước lượng không chệch có phương sai nhỏ nhất của θ (minimum variance unbiased estimator of θ)
Trang 31.4 Sai số bình phương trung bình (men spuared eveor) MSE
• Sai số bình phương trung bình của ước lượng θ∧ được định nghĩa như sau:
MSE(θ∧) = E [(θ∧ - θ)2] Người ta chứng minh được rằng:
MSE (θ∧) = Var(θ∧) + [θ - E (θ∧)]2
MSE (θ∧) = Var (θ∧) + [ Bias(θ∧)]2
• Nếu θ∧ là ước lượng không chệch ta có
Bias(θ∧) = 0
=> MSE (θ∧) = Var (θ∧)
1.5 Ước lượng nhất quán vững (Consistent estimators)
θ∧n = θ∧ (x1, x2, xn) gọi là ước lượng vững của θ nếu với mọi ε > 0 ta có:
lim P( |θ∧n - θ | ≤ ε ) = 1]
n - ∞ tức là dãy θ∧n hội tụ theo xác suất tới θ khi n -> ∞
2 ƯỚC LƯỢNG KHOẢNG (Interal estimation)
2.1 Khoảng tin cậy (Confidence interval)
2.1.1 Ước lượng khoảng và giá trị ước lượng khoảng (interval estimator and interval estimate)
* Ước lượng khoảng:
Ước lượng khoảng đối với tham số thống kê của tập họp chính θ là một quy tắc dựa trên thông tin của mẫu để xác định miền (range) hay khoảng (interval) mà tham số θ hầu như nằm trong đó
* Gía trị ước lượng khoảng: là giá trị cụ thể của miền hay khoảng mà tham số θ nằm trong đó
2.1.2 Khoảng tin cậy và độ tin cậy (Confidence interval and level of confidence)
Gọi θ là tham số thống kê chưa biết Giả sử dựa trên thông tin của mẫu ta có thể xác định được 2 biến ngẫu nhiên A và B sao cho
P (A < θ < B) = 1 - α với 0 < α < 1
Trang 4• Nếu giá trị cụ thể của biến ngẫu nhiên A và B là a và b thì khoảng (a,b) từ a đến b được gọi là khoảng tin cậy của θ với xác suất la (1 - α)
• Xác suất (1 - α) được gọi là độ tin cậy của khoảng
Ghi chú:
• Trong thực tế, độ tin cậy (1 -α) do nhà thống kê chọn theo yêu cầu của mình, thông thường độ tin cậy được chọn là 0,90; 0,95; 0,99
• α là xác suất sai lầm khi chọn khoảng tin cậy (a, b)
2.2 Khoảng tin cậy đến với số trung bình của phân phối chuẩn trong trường hợp đã biết phương sai của tập họp chính:
Nghĩa là đi tìm ước lượng của µ trong N (µ, σx2) khi đã biến σx2
2.2.1 Điểm phần trăm giới hạn trên Z (Upper percentage cut off point)
Gọi Z là biến ngẫu nhiên chuẩn hóa và α là số bất kỳ sao cho 0 <α < 1
Zα là điểm phần trăm giới hạn trên nếu
P (Z > Zα ) = α
Ghi chú:
• P (Z > Zα) = FZ (zα) = 1 - α
• P (-Zα/2 < Z < Zα/2) = 1 - α
Chứng minh:
P(Z > Zα/2 ) = α
2
Do tính đối xứng => P (-Zα/2 < Z < Zα/2) = 1 - α
2 -
α
2 = 1 - α
P (Z < -Zα/2) = α
2
Hình 3 (P5)
2.2.2 Khoảng tin cậy của µ trong N(µ,σx2) khi đã biết σx2
Giả sử ta có mẫu ngẫu nhiên vơí cỡ mẫu n từ phân phối chuẩn N(µ,σx2) Nếu σz2 đã biết và số trung bình mẫu có giá trị trung bình tập họp chính được tính bởi
x Z
Z n
− α/2σ < < +µ α/2σ
Trang 5Trong đó Zα/2 là số có P (Z > zα/2) = α/2 với Z là biến ngẫu nhiên chuẩn chuẩn hóa
Chứng minh:
P ( - Zα/2 < Z < Zα/2) = 1 - α
x n
−
<
µ
/
/2)= 1 - α
Z n
α/ σ µ α/ σ
)
P (X Z
Z n
Thí dụ:
Giả sử trọng lượng của các học sinh lớp 2 tuân theo phân phối chuẩn với độ lệch chuẩn 1,2kg Mẫu ngẫu nhiên gồm 25 học sinh có trung bình là 19,8kg Tìm khoảng tin cậy 95% đối với trọng lượng trung bình của tất cả học sinh lớp 2 trong 1 trường
Giải:
Ta có 100 (1 - α) = 95
=> α = 0.05
=> Zα/2 = Z 0.025 => P(Z > Z0.025) = 0.025
P(Z < Z0.025) = FZ (Z0.025) = 1 - 0.025 = 0.975
Tra bảng ta có:
Z0.025 = 1.96 Khoảng tin cậy 95% đối với số trung bình tập chính µ sẽ là
x Z
Z n
Với x = 19,8 kg σx = 1,2 kg x = 25 Zα/2 = 1,96
=> 19,33 < µ < 20,27
Ghi chú:
a) ε = Zα σ
n
x
/ 2 gọi là độ chính xác của ước lượng hay dung sai b) x là trung tâm của khoảng tin cậy với bề rộng của khoảng tin cậy của µ là
x Z
n
x
,
n
x
,
2Z 2 n
x
α/ σ
Trang 6W Z
n
x
ε /
c) + W càng nhỏ thì ước lượng càng chính xác (≡ ε càng nhỏ)
+ Với xác suất α và cỡ mẫu nhỏ trước, σx càng lớn thì W càng lớn
+ Với α và σx cho trước, n càng lớn thì W càng nhỏ
+ Với σx và n cho trước, ( 1 - α) càng lớn thì W càng nhỏ
2.2.3 Khoảng tin cậy đối với số trung bình của tập hợp chính µ trong trường hợp cỡ mẫu lớn Giả sử ta có mẫu với cỡ mẫu là n được lấy từ tập họp chính có số trung bình là µ
Gọi x là số trung bình của mẫu và Sx là phương sai của mẫu
Nếu n lớn thì khoảng tin cậy với xáx suất 100(1- α) % đối với µ được xem như đúng là
x Z S
Z S n
− α / 2 < < +µ α / 2
Ghi Chú:
• Sự ước lượng này gần đứng ngay cả khi tập hợp chính không theo phân phối chuẩn
• Khi n lớn ta có thể xem gần đúng Sx = σx
2.3 Phân phối Stutent t:
Trong phần trước, ta đi tìm khoảng tin cậy của µ trong N(µ,σx2) khi đã biết σx2 hoặc tìm khoảng tin cậy của µ khi có mẫu lớn
Trong trường hợp không biết phương sai σx2 và cỡ mẫu không lớn, để tìm khoảng tin cậy của µ ta cần phải có một phân phối thích họp hơn, đó là phân phối Student t
23.1 Phân phối Student t
Cho mẫu ngẫu nhiên với cỡ n với số trung bình của mẫu X và độ lệch chuẩn mẫu Sx; mẫu được lấy ra từ tập họp chính với số trung bình là µ
Biến ngẫu nhiên
S x n
/
t tuân theo phân phối Student t với độ tự do là n - 1
Hình
n = 25 , σx = 1.2 , 1-α = 0.95
n = 64 , σx = 1.2 , 1-α = 0.95 19.51 19.80 20.09
n = 25 , σx = 2 , 1-α = 0.95 19.02 19.80 20.58
n = 25 , σx = 1.2 , 1-α = 0.99
Trang 7Biến ngẫu nhiên X được gọi là tuân theo phân phối Studen t với độ tự do υ nếu hàm mật độ xác định có dạng
f x
x
B
( , )
( )
− +
1 1
2 2
2
ϑ
ϑ
,∀x
2.3.2 Điểm phần trăm giới hạn trên tυ ,α:
Biến ngẫu nhiên tuân theo phân phối Student t với độ tự do υ được ký hiệu là tυ
tυ, α là điểm phần trăm giới hạn trên nếu:
P(tυ > tυ , α) = α
Hình
Người ta lập bảng tính sẳn cho các giá trị diện tích ở dưới đường cong từ tυ, α đến +∞
Tương tự phần trăm trên ta có:
P(-tυ , α/2 < tυ < tυ, α/2) = 1 -α
Hình
2.4 Khoảng tin cậy đối với số trung bình µ trong phân phối chuẩn khi chưa biết phương sai:
(Khoảng tin cậy của µ trong N(µ,σx2) khi chưa biết σx2)
Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n từ phân phối chuẩn với số trung bình là µ và phương sai σx2 chưa biết Nếu số trung bình mẫu là x và độ lệch chuẩn mẫu là Sx thì khoảng tin cậy của số trung bình tập hợp chính µ sẽ được tính bởi
n
− − 1 , / α 2 < < +µ − 1 , / α 2 Trong đó tn-1, α/2 là số có P(tn-1 > tn-1, α/2) = α
2 và tn-1 là biến ngẫu nhiên tuân theo phân phối
Student với độ tự do là n - 1
Chứng minh:
Trang 8P(-tn-1 ,α/2 < tn-1 < tn-1, α/2) = 1 - α
n
n
n
x
n
− < − <
−
< − <
= −
= −
1
1
1
/
Thí dú:
Maêu ngaêu nhieđn cụa tróng löôïng 6 hóc sinh lôùp 2 coù giaù trò nhö sau:
Tìm khoạng tin caôy 90% ñoâi vôùi soâ trung bình cụa taât cạ hóc sinh lôùp 2 Gưa söû raỉng phađn phoâi tróng löôïng cụa taât cạ hóc sinh lôùp 2 laø phađn phoâi chuaơn
Giại:
Tröôùc heât ta phại tìm soâ trung bình maêu x vaø phöông sai maệu Sx
i
1
2
3
4
5
6 Toơng
18.6 18.4 19.2 20.8 19.4 20.5
116.9
345.96 338.56 368.64 432.64 376.36 420.25
2282.41
Soâ trung bình maêu
x
n xi
6(116 9 ) 19 4833.
Phöông sai maêu:
S
1
=
= 1
2
Ñoô leôch chuaơn:
S x = 0 96 0 98, = Khoạng tin caôy 90% ñoâi vôùi tróng löôïng trung bình cụa taât cạ hóc sinh lôùp 2 laø:
n
− − 1,α/2 < < +µ − 1,α/2
x = 19.4833 , Sx = 0.98 , n = 6
100 (1-α) = 90 => α = 0.10 => α/2 = 0.05
Tra bạng ta coù:
tn-1 , α/2 = t5 , 0.05 = 2.015
19 48 2 015 0 098
2 015 0 98 6
< <
µ µ
Trang 92.5 Khoảng tin cậy đối với phương sai của phân phối chuẩn σx 2
Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n được lấy ra từ tập họp chính có phân phối chuẩn N(µx,σx2) và gọi Sx2 là phương sai của mẫu
Biến ngẫu nhiên X n n S x
x
−1 = −
2
1
σ sẽ tuân theo phân phối X
2 với độ tự do n - 1 2.5.1 Điểm phần trăm giới hạn trên X2
γ,α Biến ngẫu nhiên tuân theo phân phối X2 với độ tự do γ được ký hiệu X2
γ
X2
γ,α là điểm phần trăm giới hạn trên nếu
P(X2
γ > X2 γ,α ) = α Hình
Thí dụ:
Tìm X2
6 , 0.05
P (X2
6 > X2
6, 0.05) = 0.05
X2
6, 0.05 = 12.59 Tương tự ta có
P (X2
γ, > X2
γ , α/2) = α
2
,
γ γ α
α
2 1 2
2
2
,
γ γ α
α
2
1 2
2
−
1 2
2
− < < = −
Hình
Khoảng tin cậy 80%
18.89 19.48 20.07
Khoảng tin cậy 90%
18.67 19.48 20.29 Khoảng tin cậy 95%
18.45 19.48 20.51
Khoảng tin cậy 99%
17.87 19.48 21.09
Trang 102.5.2 Khoảng tin cậy của phương sai phân phối chuẩn σx2:
Khoảng tin cậy với xác suất 100 (1- α)% của σx2 là
X
X
x
n
n
−
< < −
1 2 2
1 1 2
2
σ
Trong đó X2
n-1, α/2 là số xó P(X2γ > X2
n-1 , α/2) = α/2
X2 n-1 , 1 - α/2 là số P(X2γ > X2
n-1 , 1 - α/2) = α/2 và biến ngẫu nhiên X2
n-1 tuân theo phân phối X2 với độï tự do n - 1:
P n S X
n S X
n
x x
n
x n
n
,
γ α γ γ α α
α
1 2
2 2
1 1 2
2
1
2
1 2
1 1 2
2
1 2 2
1 1 2 2
1
1
−
−
Thí dụ:
Một mẫu ngẫu nhiên gồm 15 viên thuốc nhức đầu cho thấy độ lệch chuẩn trong thành phần, cấu tạo thuốc Sự tập trung của họp phần cấu tạo thuốc là 0.8
Tìm khoảng tin cậy 90% của phương sai của lô thuốc nói trên
(lô thuốc tuân theo phân phối chuẩn)
Giải:
n = 15 Sx2 = 0.82 = 0.64
100(1-α) = 90 => α = 0.10 => α/2 = 0.05
X2
n-1 , 1-α/2 = X2
14,0.05 = 23.68 và
X2
n-1,1-α/2 = X2
14, 0.05 = 6.57 Khoảng tin cậy 90% của σx2 là
X
X
x n
n
x
x
−
< < −
×
< < ×
< <
14 0 64
2368
14 0 64
6 57
2
1 2
2
1 1 2 2 2 2
σ σ σ
=> 0.61 < σX < 1.17
2.6 Ước lượng khoảng tin cậy của tham số thống kê p trong phân phối nhị thức trong điều kiện cỡ mẫu lớn
- Nhắc lại, gọi f là tỉ số của số lần thành công trong n phép thử độc lập
Trang 11f X n
=
X tuân theo phân phối nhị thức có:
- Số trung bình µ = np
- Phương sai σ2x = np (1-p)
σ σ
f
f
n
p p n
1
- Do E(f) = p nên f là ước lượng không chệch của p
- Khi cỡ mẫu nhiều lớn, thì biến ngẫu nhiên chuẩn hóa Z f p
− (1 ) / sẽ gần đúng có phân phối chuẩn chuẩn hóa
σ
σ
f p p
n
f f
f f
f
f
1
2
Khi đó biến ngẫu nhiên Z f p
− (1 ) / sẽ có phân phối chuẩn chuẩn hóa
- Khi Z tuân theo phân phối chuẩn chuẩn hóa, ta có:
P(-Zα/2 < Z < Zα/2) = 1 - α
f f n Z
(
α
α α
Khoảng tin cậy của p:
Gọi f là tỉ số số lần thành công quan sát được trong n phép thử được rút ra từ tập họp chính có tỉ số số lần thành công là p Nếu n lớn thì khoảng tin cậy với xác suất 100(1 - 2)% của p sẽ là
f f n
Trong đó Zα/2 là số có P(Z > Zα/2) = α/2 với Z là biến ngẫu nhiên chuẩn chuẩn hóa
Thí dụ:
Một công ty đi nhận một lô hàng gồm vài ngàn sản phẩm Người giám định lô hàng lấy ngẫu nhiên 81 sản phẩm và nhận thấy có 8 sản phẩm không đạt yêu cầu Tìm khoảng tin cậy 90% của tỉ lệ số sản phẩm không đạt yêu cầu trong toàn bộ lô hàng
Giải:
n = 81 , X = 8 (số sản phẩm không đạt yêu cầu)
f X
n
81 0 099.
100(1 - α) = 90 => α = 0.01 => α/2 = 0.05
Tra bảng ta có Zα/2 = 1.645 vi p (Z > 1.645) = 0.05
Trang 12Sf f f
n
= (1− ) = 0 099 1 0 099 ( − ) = .
Khoảng tin cậy 90% của P
0.099 - 1.645 x 0.033 < P < 0.099 + 1.645 x 0.033
0.045 < P < 0.153
2.7 Ước lượng cỡ mẫu (Estimating the sample size)
- Trong các phần trước, chúng ta đi tìm các ước lượng khoảng đối với các tham số thống kê
θ (µx, σx2, p ) của tập hợp chính dựa trên các mẫu được cho trước (nghĩa là đã biết cỡ mẫu n) Với cách làm đó, ta có thể gặp những kết quả không mong muốn là bề rộng của khoảng tin cậy w quá lớn có nghĩa là độ chính xác của ước lượng sẽ nhỏ (vì độ chính xác hay dung sai ε = w/2 có giá trị lớn)
w = 2ε
- ε nói lên độ chính xác của ước lượng, nếu ε càng nhỏ thì θ∧ càng gần θ
- Trong thực tế thướng sai số cho phép ta ấn định độ chính xác ε (có nghĩa là ấn định trước bề rộng khoảng tin cậy w) từ đó tính toán chọn cỡ mẫu n đủ lớn để đảm bào độ chính xác ε
- Để xác định cỡ mẫu ta cần các thông tin sau:
• Định rõ độ tin cậy (1 - α) thường là 90; 95 hay 98%
Thí dụ:
Nếu muốn mức độ tin cậy 100% thì n = N -> Điều này quá tốn kém và không thực tế
• Độ chính xác hay sai số cho phép ε hoặc bề rộng khoảng tin cậy w
• Độ lệch chuẩn σ
- Cỡ mẫu n lớn hay nhỏ sẽ tùy thuộc độ phân tán σ và sai số cho phép ε chứ không phụ thuộc vào kích thước tập họp chính N
2.7.1 Cỡ mẫu đối với khoảng tin cậy của số trung bình trong phân phối chuẩn khi đã biết phương sai của tập họp chính:
x Z n
− α/ 2σ
n
+ α/ 2σ
x Z
Z n
n
/ 2 Với độ chính xác ε cho trước, cỡ mẫu n đối với việc ước lượng µ trong N(µ,σx2), σx2 đã biết được bởi công thức