Bài toán ước lượng điểm: Cho biến ngẫu nhiên X có hàm mật độ xác suất là f x ; θ , θ là tham số chưa biết của hàm mật độ, ta cần đi tìm θ.. Giả sử X1, ,… X n làm mẫu ngẫu nhiên lấy từ b
Trang 1MẪU THỐNG KÊ
I Một số định nghĩa:
1) Tổng thể: Tập hợp tất cả những phần tử mang đặc tính X của một vấn đề cần nghiên
cứu gọi là tổng thể
Nếu gọi M là tổng thể và N là số phần tử của tổng thể Thông thường, ta không thể chọn được hết N vì
- N quá lớn
- Thời gian và kinh phí không cho phép
- Có thể làm hư hại đến các phần tử của M
Do đó, để nghiên cứu người ta chọn ra một mẫu
2) Mẫu: Một tập con n phần tử mang đặc tính X được chọn ra từ tổng thể M gọi là một
mẫu cỡ n
Điều kiện chọn mẫu:
- Các phần tử của mẫu phải được lấy ngẫu nhiên từ M
- Các phần tử của mẫu phải được lấy độc lập với nhau
Xét biến ngẫu nhiên X, thực hiện quan trắc n lần độc lập ta được n biến ngẫu nhiên
1, 2, , n
X X X độc lập và có cùng phân phối với X Bộ WX =(X X1, 2, ,X n) gọi là mẫu
lý thuyết lấy từ X Khi có các số liệu cụ thể (x1, ,x n) được gọi là mẫu thực nghiệm
II Biểu diễn số liệu:
1) Bảng thống kê đơn giản: Xét mẫu WX =(X X1, 2, ,X n)
Bảng thống kê đơn giản trình bày giá trị thu được theo thứ tự quan sát
i 1 2 … n
Xi X1 X2 … Xn
2) Bảng thống kê tần số: Xét mẫu WX =(X X1, 2, ,X n)
Bảng thống kê theo tần số sẽ gom những giá trị trung nhau lại
Xi X1 X2 … Xk
ni n1 n2 … nk
với n1+ + +n2 n k = n
3) Bảng tần số theo khoảng:
Xi [a1,b1) [a2,b2) … [ak,bk)
ni n1 n2 … nk
Trang 2Ta chuyển bảng dạng khoảng về dạng tần số bình thường bằng cách đặt
2
i i i
a b
X = +
III Các đặc trưng mẫu:
1) Xét mẫu WX =(X X1, 2, ,X n) được biểu diễn theo bảng thống kê đơn giản
i 1 2 … n
Xi X1 X2 … Xn
Các đặc trưng mẫu được tính như sau
- Trung bình mẫu:
1
1 n i i
n =
- Phương sai mẫu: 2 2
1
1
n i i
n =
Hay s2 =X2−( )X 2với 2 2
1
1 n i i
n =
- Phương sai mẫu hiệu chỉnh: 2 2
1
1
1
n i i
1
n
n
=
−
2) Xét mẫu WX =(X X1, 2, ,X n) được biểu diễn theo bản thống kê tần số
i 1 2 … k
Xi X1 X2 … Xk
với n1+ + +n2 n k = n
Các đặc trưng mẫu được tính như sau
- Trung bình mẫu:
1
1 k
i i i
n =
1
1
k
i i i
n =
Hay s2 =X2−( )X 2với 2 2
1
1 n
i i i
n =
- Phương sai mẫu hiệu chỉnh: 2 2
1
1
1
n
i i i
1
n
n
=
−
Trang 3Bài tập:
1) Tính tay các đặc trưng mẫu X s S S sau: (bằng máy tính điện tử) , ,2 2,
a X: trọng lương các bao gạo (kg)
Trọng lượng (Kg) 49,7 49,8 49,9 50 50,1 50,2 50,3 50,4
b Y: Hàm lượng cholesterol trong máu (ng/mL)
Hàm lượng
Cholesterol
265 240 258 295 251 245 287 260 249 283
c Z: thời gian tự học của SV (giờ/ngày)
2) Dùng các số liệu trong file baitap1.xls, tính các đặc trưng mẫu bằng excel
Biết các hàm tính trung bình X , độ lệch tiêu chuẩn hiệu chỉnh của mẫu S là
Xét dãy các ô A1 đến An là các ô chứa các giá trị ( , , )x1 x thì n
Trung bình: AVERAGE(A1:An)
Phương sai mẫu hiệu chỉnh: VAR(A1:An)
Độ lệch tiêu chuẩn hiệu chỉnh: STDEV(A1:An)
Giá trị lớn nhất, bé nhất: MAX(A1:An), MIN(A1:An)
Trung vị, mode: MEDIAN(A1:An), MODE(A1:An)
SUM(A1:An): tổng các giá trị trong các ô A1 đến ô An
COUNT(A1:An): đếm số phần tử từ ô A1 đến ô An
COUNTIF(A1:An,’Điều kiện’): đếm số phần tử từ ô A1 đến ô An thỏa Điều kiện
Ví dụ đếm những phần tử từ ô A1 đến ô A100 mà lớn hơn hoặc bằng 10: COUNTIF(A1:A100,’>=10’)
Vào mục Insert -> Function -> Statistical để xem thêm về các hàm thống kê
Lưu ý rằng các hàm trên đều áp dụng cho số liệu cột (trình bày từ ô A1 đến An) tức là tương ứng với dữ liệu ( , , )x1 x được trình bày theo bảng thống kê đơn giản Nếu dữ n liệu trình bày theo bảng tần số, thì phải tính các đặc trưng mẫu theo công thức (Xem file mẫu)
Trang 4ƯỚC LƯỢNG THAM SỐ THỐNG KÊ
A- ƯỚC LƯỢNG ĐIỂM
I Bài toán ước lượng điểm:
Cho biến ngẫu nhiên X có hàm mật độ xác suất là f x( ; )θ , θ là tham số chưa biết của hàm mật độ, ta cần đi tìm θ Xét mẫu ngẫu nhiên cỡ n: (X1, ,X n) được lấy từ X Một thống kê ˆ ( 1, , )
n
Θ = gọi là một ước lượng điểm của θ Bài toán đi tìm ˆΘ gọi là bài toán ước lượng điểm Và giá trị Θ =ˆ θˆ là một ước lượng điểm cụ thể cho θ
Ví dụ
- Xét X là biến ngẫu nhiên có phân phố chuẩn X ∼N(μ σ, 2)
Thì hai tham số cần tìm ở đây là ( 1 2) ( )
2
,
θ θ μ
Hai ước lượng cho μ và σ2 là:
1
1
i
n
μ
=
1
1
i X
n
σ
=
II Các tiêu chuẩn ước lượng:
Có 3 tiêu chuẩn: không chệch, hiệu quả và bền vững
1 Ước lượng không chệch:
Một ước lượng Θ =ˆ h X( 1, ,… X n) gọi là ước lượng không chệch cho tham số θ nếu
ˆ
EΘ =θ
Độ chệch của ước lượng: EΘ −ˆ θ
Ví dụ
Cho X ∼N(μ σ, 2) Lấy mẫu (X1, ,X n)
Kiểm tra xem X là ước lượng không chệch cho μ
( )
Câu hỏi: Xét xem s và 2 S có là ước lượng không chệch cho 2 σ2 hay không?
2 Ước lượng hiệu quả:
Ước lượng ˆΘ1 gọi là hiệu quả hơn ước lượng ˆΘ2 nếu
i ˆΘ1 và ˆΘ2 đều là ước lượng không chệch cho θ
Trang 5ii Var(Θ <ˆ1) Var(Θˆ2)
Như vậy ước lượng ΘˆMV gọi là ước lượng hiệu quả nhất (hay có phương sai bé nhất – minimum variance) nếu
i ΘˆMV là ước lượng không chệch cho θ
ii Var(ΘˆMV)<Var( )Θˆ với mọi ước lượng ˆΘ
3 Ước lượng bền vững:
Xét ước lượng Θ =ˆ h X( 1, ,… X n), vì ˆΘ phụ thuộc vào cỡ mẫu n, ta kí hiệu là Θˆn
ˆ
n
Θ gọi là ước lượng bền vững nếu
n P n θ
→∞ Θ − < ε = ∀ >ε hay
n P n θ
→∞ Θ − ≥ ε = ∀ >ε Điều này tương đương với
i lim ( )ˆ
n E n θ
ii lim ( )ˆ 0
n Var n
III Các phương pháp ước lượng:
1 Phương pháp moment:
* Định nghĩa 1:
- Xét (X1, ,X n) là mẫu ngẫu nhiên lấy từ biến ngẫu nhiên X có hàm mật độ ( )f x
Moment bậc k của tổng thể là EX k k, =1, 2,
Tương ứng, ta có moment bậc k của mẫu là
1
(1 ) n k
i i
=
∑ Ước lượng điểm của θ sẽ thu được bằng cách đồng nhất moment của tổng thể và moment mẫu
* Định nghĩa 2:
- Xét (X1, ,X n) là mẫu ngẫu nhiên lấy từ biến ngẫu nhiên X có hàm mật độ f x( ; )θ ,
1
( , , m)
θ = θ …θ chưa biết; thì các ước lượng moment Θ … Θˆ1, ,ˆm sẽ thu được bằng cách
đồng nhất m moment tổng thể đầu tiên với m moment mẫu đầu tiên
Trang 6Ví dụ Cho biến ngẫu nhiên X ∼N(μ σ, 2) Lấy mẫu (X1, ,X n), hãy tìm các ước lượng cho μ và σ2
Ta có:
Moment bậc 1: EX - Moment mẫu bậc 1: (1/n) ∑n i=1X i
Moment bậc 2: EX - Moment mẫu bậc 2: 2 ( ) 2
1
1/
i
n i
n ∑= X
Suy ra:
ˆ X
μ =
Ta có VarX =EX2−(EX)2 ⇔σ2 =EX2−μ2 ⇒EX2 =σ2+μ2
2
1
2
1
2
n i
i
X
μ
−
Với ˆμ =X thì
2 2
2
1
1
ˆ ˆ
n
i
i i
X
n
μ
=
−
∑
Câu hỏi:
1. Cho biến ngẫu nhiên X có phân phối mũ với tham số λ có hàm mật độ xác suất
0 ,
)
0 (
x
e x
x
f x
λ
λ −
=⎧⎨ >
≤
⎩
Biết EX=1
λ Dùng phương pháp moment tìm ước lượng cho λ
2. Giả sử X1, ,… X n làm mẫu ngẫu nhiên lấy từ biến ngẫu nhiên X có phân phối gamma với tham số r và λ Biết rằng đối với phân phối gamma EX r
λ
= và 2
2
( 1)
r r EX
λ
+
Dùng phương pháp moment, tìm ước lượng cho r và λ
2 Phương pháp hợp lý cực đại: (Maximum Likelihood)
Sử dụng hàm hợp lý để tìm ước lượng
* Định nghĩa:
Xét biến ngẫu nhiên X có hàm mật độ xác suất là ( ; )f xθ với tham số θ chưa biết Gọi
1, , ,x2 n
x … x là các giá trị thực nghiệm từ mẫu cỡ n Hàm hợp lý của mẫu được xác định như sau
) ( ; ) ( ( f x f ; ) ( ; )n
Lθ = θ x θ …f x θ
Trang 7Lưu ý rằng hàm L(θ) chỉ còn phụ thuộc vào tham số θ Ước lượng hợp lý cực đại của θ
là giá trị mà làm cực đại hàm hợp lý L(θ)
Ví dụ
Xét X là biến ngẫu nhiên Bernoulli X ~ (1, )B p Hàm xác suất của X được xác định như
sau
1
(1 ) , 0,1 ( )
0 ,
f x
−
= ⎨
≠
⎩ với p là tham số cần ước lượng Hàm hợp lý cho mẫu cỡ n như sau
1
1 1
i
−
−
−
=
…
∏ Giá trị ˆp làm cực đại hàm ( ) L p cũng sẽ làm cực đại hàm ln ( ) L p , do đó
vậy
1 1
1
ln ( )
(1 )
n n
i i
i i
x x
d L p
=
=
−
∑
∑
Ta thu được giá trị làm ln ( )L p cực đại là
1
1
i
n =
là một ước lượng cho p
Câu hỏi:
1. Cho X là biến ngẫu nhiên có phân phối chuẩn X ∼N(μ σ, 2) Dùng phương pháp hợp
lý cực đại tìm ước lượng cho
- μ với giả sử là đã biết σ2
- μ và σ2
2. Cho X là biến ngẫu nhiên có phân phối mũ với tham số λ Dùng phương pháp hợp ý cực đại tìm ước lượng cho λ
Bài tập:
1. Xét một mẫu cỡ 2n : (X1, ,… X2n) lấy từ biến ngẫu nhiên X, đặt EX =μ,Va X r =σ2
Trang 8Ta có hai ước lượng cho μ
2 1
1
1 2
n i i
n =
= ∑ và 2
1
1 n i i
n =
Hãy xét xem ước lượng nào là ước lượng tốt nhất cho μ?
2. Xét (X1,…,X7) là một mẫu ngẫu nhiên lấy từ biến ngẫu nhiên X có kỳ vọng μ và phương sai σ2
Xét hai ước lượng của μ
1
2
7 ˆ
2 2 ˆ
X
X
Θ =
Θ =
a ˆΘ1 và ˆΘ2 có là ước lượng không chệch cho μ?
b Ước lượng nào tốt nhất?
3 Biết X1 và 2
1
s là trung bình mẫu và phương sai mẫu lấy từ tổng thể có kỳ vọng là μ1
và phương sai 2
1
σ và X2 và 2
2
s là trung bình mẫu và phương sai mẫu lấy từ tổng thể thứ hai độc lập có kỳ vọng là μ2 và phương sai 2
2
σ Cỡ mẫu lấy từ hai tổng thể lần lượt là n1
và n2
a Chỉ ra rằng X -1 X là một ước lượng không chệch cho 2 μ1-μ2
b Giả sử phương sai hai tổng thể bằng nhau 2 2
σ =σ = Chỉ ra rằng σ
2
S
n n
=
+ −
là một ước lượng không chệch cho σ2
4. Xét biến ngẫu nhiên X có phân phố Poisson X ~ ( )P λ
!
x e
x
λλ
−
Giả sử cỡ mẫu là n, tìm ước lượng hợp lý cực đại cho λ
5. Xét X là biến ngẫu nhiên có phân phối sau
( )
0 ,
x x
f x
θ
θ
⎧⎪
≠
⎪⎩
Tìm ước lượng hợp lý cực đại cho θ dựa trên cỡ mẫu là n
Trang 96. Xét biến ngẫu nhiên X có hàm mật độ
) , 1 1
0
(1 ( )
,
c
=
≠
⎧
⎨
⎩
a Tìm hằng số c
b Xác định ước lượng moment của θ
c Chỉ ra rằng θˆ 3X= là một ước lượng không chệch của θ
d Tìm ước lượng hợp lý cực đại cho θ
B TÌM KHOẢNG TIN CẬY
1 Bài toán tìm khoảng tin cậy:
Xét biến ngẫu nhiên X có hàm mật độ xác suất ( , )f xθ với tham số θ chưa biết Lấy mẫu (X1, ,… X n), xét hai thống kê Θ =1 L X( , ,1 … X n) và Θ =2 H X( , ,1 … X n) Với số α nhỏ, khoảng L≤ ≤θ H gọi là khoảng tin cậy cho θ với độ tin cậy γ = − nếu 1 α
Khi có mẫu cụ thể X1 =x1, ,… X n = , khoảng tin cậy cho θ là x n
θ θ θ≤ ≤ Các bài toán tìm khoảng tin cậy cho tham số:
1 Tìm khoảng tin cậy cho kỳ vọng
2 Tìm khoảng tin cậy cho phương sai
3 Tìm khoảng tin cậy cho tỷ lệ
2 Tìm khoảng tin cậy cho kỳ vọng:
a Trường hợp biết trước phương sai:
Xét biến ngẫu nhiên X có phân phối chuẩn, X ~ ( ,N μ σ2), σ biết trước Cần tìm khoảng tin cậy cho tham số μ với độ tin cậy γ Lấy mẫu (X1, ,… X n), tính X
Đặt
(X ) n
σ
−
Khi đó Z có phân phối chuẩn hóa, Z ~ N(0,1)
Khoảng tin cậy cho μ với độ tin cậy γ có dạng sau
Trang 10Với 1
2
z+γ là phân vị mức 1
2
γ + của ~ (0,1)Z N
(Định nghĩa: Xét biến ngẫu nhiên Z có phân phối chuẩn hóa, ~ (0,1) Z N Giá trị 1
2
z+γ gọi
là phân vị mức 1
2
γ + của Z nếu 1
2
1 2
+
Φ⎜ ⎟=
⎝ ⎠ , với (.)Φ là hàm phân phối xác suất của Z)
Để tìm 1
2
z+γ , tra bảng chuẩn N(0,1)
Đặt: 1
2
z
n
γ
σ
+
=
ε , ε gọi là sai số hay độ chính xác
Khoảng tin cậy cho μ: [μ−ε,μ+ε]
Chứng minh:
Giả sử X ~ ( ,N μ σ2) với σ biết trước, tìm KTC cho μ với độ tin cậy γ
Đặt Z (X μ) n
σ
−
= , thì Z ~ N(0,1)
Do đó, ta có thể viết
Z c
σ
≤ ≤
=
−
Do đó, theo (1.1): X c ,X c
⎣ ⎦ là KTC với độ tin cậy γ cho μ Tìm c:
=> c là phân vị mức 1
2
γ + của Z, đặt 1
2
z+γ = ; Vậy c 1
2
1 2
+
Φ⎜ ⎟=
⎝ ⎠ : tra bảng chuẩn N(0,1)
Khoảng tin cậy cho μ có dạng như (2.1)
1
2
P c
γ γ
+
−
⇒ Φ
=
Trang 11b Trường hợp không biết phương sai:
* Khi n < 30:
Giả sử X ~ ( ,N μ σ2), μ và σ không biết Cần tìm KTC cho μ với ĐTC γ Lấy mẫu
(X … X n n<
Đặt
(X ) n T
S
μ
−
Khi đó, T là đại lượng ngẫu nhiên có phân phối Student với n – 1 bậc tự do
Khoảng tin cậy cho μ với độ tin cậy γ có dạng sau
1;
2
n
S t
n
γ
+
−
=
ε : sai số (Độ chính xác)
KTC: [μ−ε,μ+ε]
Với X và S là trung bình mẫu và phương sai mẫu hiệu chỉnh tính được từ 2 (X1, ,… X n)
Tìm 1
1;
2
n
t +γ
− : phân vị mức 1
2
γ + của T Tra bảng Student với n – 1 bậc tự do và 1
2
γ +
1;
2
1 2
n
t
+
−
=
⎝ ≤ ⎠ với F là hàm phân phối của T)
* Khi n ≥ 30:
Giả sử X ~ ( ,N μ σ2), μ và σ không biết Cần tìm KTC cho μ với ĐTC γ Lấy mẫu
(X … X n n≥
Đặt
(X ) n Z
S
μ
−
Khi đó Z ~ N(0,1)
Khoảng tin cậy cho μ với độ tin cậy γ có dạng sau
S
S n
Khoảng tin cậy cho μ tương tự như (2.1) chỉ thay thế phương sai σ không biết bằng
phương sai mẫu hiệu chỉnh 2
S
Sai số (Độ chính xác): 1
2
S z n
γ +
=
Tìm 1
2
z+γ , tra bảng chuẩn N(0,1)
Trang 123 Tìm khoảng tin cậy cho phương sai:
a Trường hợp biết trước kỳ vọng:
Xét biến ngẫu nhiên X ~ ( ,N μ σ2) μ biết trước, cần tìm KTC cho σ2 với ĐTC γ Lấy mẫu (X1, ,… X n)
Đặt
2 1
n i i X Y
μ σ
=
−
=∑
(3.1)
Y là đại lượng ngẫu nhiên có phân phối Chi – bình phương với n bậc tự do, 2
~ ( )
Y χ n Với γ cho trước, ta có
2
1
2
n i i
P y
X
y
P
P
y
y
μ
σ
=
−
⇔
⎜
⎜
⎝
≤
⎟
⎠
≤
⎟
∑
Vậy, KTC cho phương sai σ2 với ĐTC γ có dạng
2
σ
(3.2)
Với y2 > y1 > và 0 ( 1) ( 2)
1 2
P Y< y = −γ =P Y > y
;
2
1
; 2 2
,
y =χ −γ y =χ +γ , tra bảng Chi – bình phương ở mức 1 ;1
γ γ
và n bậc tự do
Trang 13b Trường hợp không biết kỳ vọng:
Xét biến ngẫu nhiên X ~ ( ,N μ σ2) μ không biết, cần tìm KTC cho σ2 với ĐTC γ
Lấy mẫu (X1, ,… X n)
Đặt
( )2 1
2
( 1)
n
i i
X
Y
X
=
−
−
(3.3)
Y là đại lượng ngẫu nhiên có phân phối Chi – bình phương với n-1 bậc tự do,
2
~ ( 1)
Y χ n−
KTC cho phương sai σ2 với ĐTC γ có dạng
2
Với y2 > y1 > và 0 ( 1) ( 2)
1 2
P Y< y = −γ =P Y > y
;
2
2
,
y =χ −γ y =χ +γ , tra bảng Chi – bình phương ở mức 1 ;1
γ γ
và n bậc tự do
1 2
γ
−
Trang 144 Tìm khoảng tin cậy cho tỷ lệ:
Xét biến ngẫu nhiên X ~ ( , )B n p , p chưa biết Cần tìm KTC cho tham số p với độ tin cậy
γ
Đặt
(X p n) (ˆ p) n
Z
p
−
Theo định lý giới hạn trung tâm, Z ~ N(0,1)
Khoảng tin cậy cho tỷ lệ p với ĐTC γ có dạng
ˆ(1 ˆ) ˆ(1 ˆ)
với ˆp X
n
= , 1
2
z+γ là phân vị mức 1
2
γ + của Z: tra bảng chuẩn N(0,1)
Sai số (Độ chính xác): 1
2
ˆ(1 ˆ) 2
z+γ −
=
Bài tập:
1. Gọi X là sản lượng lúa tính bằng tạ/ha Giả sử X có phân phối chuẩn Lấy mẫu trên 10 thửa ruộng cho kết quả ở bảng sau:
Hãy tìm khoảng tin cậy cho sản lượng lúa trung bình với độ tin cậy là 99%
2. Quan sát trọng lượng X (kg) của 1 nhóm thanh niên ta có bảng số liệu sau:
Trọng lượng 42,5 – 47,5 47,5 – 52,5 52,5 – 57,5 57,5 – 62,5 62,5 – 67,5
a Tính các tham số mẫu
b Tìm KTC cho trọng lượng trung bình với độ tin cậy 95%
c Những thanh niên có trọng lượng từ 55 kg trở lên gọi là nhóm có sức khỏa loại A, hãy tìm KTC cho tỷ lệ thanh niên có sức khỏe loại A với ĐTC 98%
Trang 153. Mức hao phí nhiên liệu cho một đơn vị sản phẩm là đại lượng ngẫu nhiên có phân phối chuẩn Xét trên 25 sản phẩm ta thu được kết quả sau:
Hãy tìm KTC cho phương sai với độ tin cậy 95% trong các trường hợp sau:
a Biết kỳ vọng μ = 20 kg
b Chưa biết kỳ vọng
4 Tại một vùng rừng nguyên sinh, người ta theo dõi 1 loài chim bằng cách đeo vòng cho chúng Tiến hành đeo vòng cho 1000 con Sau một thời gian, bắt lại 200 con thì thấy 40 con có đeo vòng Hãy ước lượng số chim trong vùng rừng đó với độ tin cậy 99%
5. Kiểm tra 100 sản phẩm trong lô hàng thấy có 20 phế phẩm
a Hãy tìm KTC 95% cho tỉ lệ phế phẩm
b Nếu độ chính xác là 0,04 thì độ tin cậy của ước lượng là bao nhiêu
c Nếu muốn có độ tin cậy 99% và độ chính xác 0,04 thì phải kiểm tra bao nhiêu sản phẩm