Chương 1
CƠ SỞ CỦA LY THUYET XÁC SUẤT
Trong: chương này, chúng ta trình bày tóm tắt một số khái niệm cơ bản của
Lý thuyết xác suất, đã được trình bày đầy đủ trong cuốn giáo trình Xác suất
- Thống kê: Tộp 1 |4] Các phần kiến thức này sẽ được sử dụng trong những
chương tiếp theo để mô hình hóa và qua đó đưa ra lời giải cho các bài toán suy diễn thống kê Với mục đích đó, các ví dụ và bài tập trong chương này sẽ được giản lược một cách tối đa hoặc được bỏ qua Độc giả muốn tìm hiểu thêm về các ý tưởng cũng như các kết quả của Lý thuyết xác suất có thể tham khảo trong cuốn giáo trình trên :
1.1 Biền.cỗõ và xác suât_
Phép thử ngẫu nhiên: là phép thử hay thí nghiệm mà kết quả của nó khơng thể dự báo được và có thể thực hiện nhiều lần dưới các điều kiện như nhau Không gian mẫu: Tập hợp tất cả các kết quả xảy ra của một phép thử ngẫu
nhiên gọi là không gian mẫu và ký hiệu là ©)
Biến cố là một tập con của không gian mẫu Ta ký hiệu các biến cố bởi các
chữ cái in hoa như A, 8,C, v.v Biến cố 4 xuất hiện nếu kết quả của phép thử
là một phần tử của tập A
Ví dụ 1.1 1 Xét phép thử ngẫu nhiên là gieo một con xúc sắc Không gian mau la 2 = {1,2,3,4,5,6} Biến cố A xuất hiện khi mặt có số chấm chăn
xuất hiện, khi đó ta có biểu diễn 4A = {2,4,6} —
Trang 2
1 CO SO CUA LY THUYET XAG SUAT
mau la Q = 1000 g 3 Xét phi Khơng khơng
Các phép tốn trên tập hợp k biến cố:
a) Hợp hai
ra, hoặ
id, vay B=
[0, +00) = R, Bién co B chi tuổi thọ của bóng đèn khơng q
(0, 1000]
ép thử là đếm các cuộc gọi đến một tổng đài trong thời gian 1 phút
gian mẫu là 2 = {0,1,2,3, } = Ñ Biến cố Œ chỉ số các cuộc gọi
quá 5, vậy Œ = {0, 1,2, 3, 4,ð} _
Cho A, B la các biến cố, ta noi biến ‹ cỗ A và B, ký hiệu AU T) xây ra khi và chí khi hoặc A Xây
c Ð xảy ra a
b) Giao hai bién c6 A va B (tich của hai biến cố), ký hiệu AB (hoặc AB),
xay ra khi và chỉ khi đồng thời A và Ö xảy ra Khi AB = 0 ta noi A vA B
là hai biến cố xung khắc c) Biến cố ra Dinh nghia mãn các tính a) P(A) b) P(Q) = c) Cac bién Tinh chat: a) P(0) > 0
đối của biến cố A, ký hiệu là 4, xảy ra khi và chỉ khi A không xảy
xác suât: Xác suât là một hàm P xác định trên các biến cố thỏa `
chất sau:
2
c6 (A;)™, đôi một xung khắc thì
=1) = d P(Ai)
=0,
b) AC B=!P(A) < P(B),
/
ec) P(A)=1- P(A),
Trang 3
N
1.1 Biến cố và xác suất : | | 3
Định nghĩa cổ điển: Xét một phép thử có n kết quả đồng khả năng Biến cố A có m kết quả thuận lợi Xác suất của biến cỗ A được xác định bởi công thức
P(A) = m _ |A| _ số phần tử của A n |Q| số phần tử của Q'
Tuy nhiên, trong trường hợp không gian mẫu là liên tục ta không thể định nghĩa xác suất như trên được Chẳng hạn, chọn ngẫu nhiên một số trong đoạn O = (0, 1], xác suất của biến cố A = [a,b] được xác định như là độ dai cia cha doan [a, b],
nghĩa là | | 7
P({a, b]) = b — a |
Vi du 1.2 Một lớp học có 40 sinh viên Tinh » xác suất để có ít nhất hai sinh
viên có cùng ngày sinh nhật - Giải
Goi A4 là biến cố có ít nhất hai sinh viên có cùng ngày sinh nhật Khi đó 4 là :
biến cố các sinh viên có ngày sinh khác nhau Ta coi một năm có 365 ngày Các
sinh viên có ngày sinh như nhau trong 36ð ngày, khi đó số khả năng có thể xảy
!
ra la n = 365% S6 truong hợp thuận lợi cho A 1a m = Aj®, = Oe a Khi đó xác suất của biến cố đối A là
| PCA) = gần = 0,108 ¬ 4ã;
Xác suất của biến cố A là
P(A) =1— P(A) = 0,891
Xác suất có điều kiện: Sự xuất hiện của thông tin mới thường ảnh hưởng
đến khả năng xảy ra của các biến cố Xác suất xảy ra biến cỗ B khi biết rằng
biến cố A đã xảy ra được gọi là xác suất có điều kiện, kí hiệu là P(B|4), và được
xác định bởi
, P(BỊA) = P(AB) ‘(néu (4) z 0) „„
Biến cỗ độc lập: Hai biến cố A và là độc lập nếu xác suất xảy ra một biến cố không thay đổi khi biến cố kia xảy ra, tức là P(BỊA) = P(B) và P(A|B) = P(A)
_ Nói khác đi, hai biến cố A và Ø là độc lập nếu
P(AB) = P(A)P(B)
Nói rộng ra, hệ biến cố {4u, 4a, , 4z} được gọi là độc lập trong toàn thể nếu _ với một hệ con bất kì {4;,, 4;,, , 4;,}
Trang 4OY
4 ._— 1CاỞ CỦA LÝ THUYẾT XÁC SUẤT
1.2 Bién ngau nhién ¬
Biến ngấu nhiên là một hàm xác định trên không gian mẫu Q Ta ky hiéu bién ngau nhiên bởi X, Y, Z, hay X, Xa, X3
Biến ngẫu nhiên rời rạc: Nếu biễn ngẫu nhiên X nhận các giá trị trong tập
5 = |, 21 1" gồm hữu hạn hoặc đếm được các giá trị thì ta gọi X là biến
ngẫu nhiên rời rạc Khi đó hàm
_ƒ(œ)= P(X=s), xe 8
- được gọi là hàm khối xác suất Hàm khối xác suất thỏa mãn các tính chất
() f(x) 20
(i) fe) = zcS
- Biến ngẫu nhiên liên tục: Nếu biến ngẫu nhiên X nhận giá trị trong một
khoảng nào đó của đường thắng thực thì X được gọi là biên ngẫu nhiên liên tục
Hàm số ƒ{z)|gọi là hàm mật độ của biến ngẫu nhiên X nếu
(i) f(x) > 0,
() J ƒø)4z =
(iti) P(a < X <b)= [ tae
Ham phan phối xác suất của biến ngẫu nhiên X (còn gọi là hàm phân phối
tích lũy), ký hiệu là Fx(z) hay ngắn gọn la F(x), xAc định bởi công thức > f (#9) bién rdi.rac,
| - so Ti€ŠZ
F(z) = P(X <2)=¢ |
/ ƒ(u)du biến liên tục
'Nếu biết hàm| phân phối xác suất Ƒ'(z) của biến ngẫu nhiên X thì ta có thể tính
xác suất theo|công thức:sau:
Trang 5a
1.2 Biến ngẫu nhiên - ¬ ¬
Chú ý rằng đối với biến ngẫu nhiên liên tục X, các biến cố a < X < b,
œ< X<b,a< X<bvàa< X < Ị có xác suất bằng nhau xì xác suất để X _
nhận một giá trị đúng ø hay b đều bằng 0
Tính chất của hàm phân phối xác suất:
1.0 < F(c) <1, |
2 F(-00) =0, F(+00) = 1,
3 F(z) liên tục phải, nghĩa là lim F(x + h) = F(a),
4 F(x) là hàm không giảm, nghĩa là z < = F(x) < Fy)
Ví dụ 1.3 Gieo một con xúc sắc cân đối và đồng chất Gọi biến ngẫu nhiên X là số chẫm xuất hiện Khi đó X là biến ngẫu nhiên rời rạc, nhận các giá trị 1,2,3, 4,5,6 với xác suất bằng nhau và bằng 1/6 Ta có bảng phân phối xác suất
của X là :
X|1 2 3 4 5 6
Ple 6 6 6 68 6
Hàm phân phối xác suất của X là
fo x<l, z 1<2< 2, 2 2<2<3, F(z) = P(X <2)= 43 3<xz<4, 7 4<z+z<5, | 2 5<24<6, (1 zr 26
Ví dụ 1.4 Chọn ngẫu nhiên một số X trong đoạn |0, 2], các số được chọn có ' khả năng như nhau Khi đó hàm mật độ là một hằng số trên đoạn [0, 2| và bằng
0 trong các trường hợp còn lại Hàm mật độ của biến ngẫu nhiên X được xác
định bởi công thức
Trang 66 _ 1 CƠ SỞ CỦA LÝ THUYÊT XÁC SUẤT
` Hàm phân phối xác suất của X là
+<0, O0<2< 2, xz > 2 F(x) = re wik ©
Kỳ vọng (giá trị trung bình) của biến ngẫu nhiên X ký hiệu là = E[X] va được xác định bởi công thức -
z¡;€S
_BỊX]= ý +ế » #;Ƒ(z;) - biến rời rac, xf(x)dx biên liên tục
—œ
Tổng quát, với hàm ø(z) bat ky thi Y = ø(X) là một biến ngẫu nhiên có kỳ vọng
`_ g(z;)ƒ(+z¿) biến rời rạc, - z¡cS E[g(X)J= 4 te / g(x) f(x)dx biến liên tục Chang hạn với g(z) = z?, ta có | : » z?Ƒƒ(x;) biến rời rạc, +¡;€S E[X?] = +00 x’ f(x)dx biến liên tục —GœO
Phương sai, độ lệch tiêu chuẩn: Phương sai của biến ngẫu nhiên X, ký hiệu
là z? = V[X],| và xác định bởi công thức
Vịx] = E[(X - E(X])?] = E|X°] ~ (E|X]}
Độ lệch tiêu chuẩn của biến ngẫu nhiên X là ơ = V VỊX|
Tính chất 1 Elel = e| V{e| = 0, với e là hằng số,
2; ElaX + b| = aE[X]+b, VịaX + bị = a?V[X|, với a,b là hằng số
Trang 7
1.3 Một số phân phối xác suất _ 7
Mode: Giá trị z để hàm khối xác suất ƒ(z) hoặc hàm mật độ ƒ(z) đạt giá trị ˆ lớn nhất gọi là mode của biến ngẫu nhiên X
Trung vi (median): Giá trị mm được gọi là trung vị của biến ngẫu nhiên X nếu giá trị đó chia đôi hàm phân phối xác suất, nghĩa là
1 Lue eg ae
P(X <m)> 5 va P(X >m)> 5 đối với biên ngẫu nhiên rời rạc, và
1 ge ae Lek x
F(m) = 5 đối với biến ngẫu nhiên liên tục
Giống như giá trị trung bình, trung vị có tính chất quan trọng trong việc dự đoán
giá trị của biến ngẫu nhiên X Nếu như giá trị trung bình cực tiểu hóa kỳ vọng của bình phương sai số (E[(X — u)?]) thì trung vị cực tiểu hóa kỳ vọng của sai số tuyệt đối, tức là R[|X — c|| đạt giá trị nhỏ nhất khi c =
Trung vị là trường hợp riêng của, một khái niệm rộng hơn mà ta gọi là phân
vị Ta nói mm, là giá trị phân vị p của hàm phân phối xác suất Ƒ' nếu ta có
Fứm,) = Pp
Khi p = = 25% thi mo 2s gọi là phân vị bậc 1, khi p= - 50% thì mmạs gọi là phan vi
bac 2 (chinh 1& trung vi), khi p = 75% thi mo,75 goi 1a phan vi bac 3 —
1.3 Một số phân phôi xác suất
Trong mục này, ta sẽ để cập đến những phân phối xác suất mà việc sử dụng
chúng trong những chương tiếp theo là cần thiết
Phân phối Bernoulli: Biến ngẫu nhiên X có phân phối Bernoulli (ta viết
X ~ Ber(p)) với xác suất thành công p, X nhận giá trị 0š và 1 Hàm khối xác
suất của X cho bởi :
P(X =1)=p, P(X=0)=1—p:
Ta có
E|X] = p, V[X] = p(1 — p)
Phân phối nhị thức: Biến ngẫu nhiên X có phân phối nhị thức với tham số n va p (viet X ~ B(n,p)) nếu X nhận giá trị {0,1, ,m} và có hàm khối xác
suất
f(z) — Crp’ (1 —p)"*, t= 0, 1,- ¬ XIN
Ta có ,
E[X] = np, V[X] = np(1 - ?) | ”
Trang 8
“Bf 1 C0 86 CUA LY THUYET XÁC SUẤT
Phân phôi Poisson: Biến ngẫu nhiên X có phân phối Poisson với tham số
À>0 (viết X ~ P(2)) nêu X nhận giá trị {0,1; } và có hàm khối xác suất \e
f(z) = P(X =z) = we
" Khi do
Phan phéijma: Bién ngẫu nhiên X có phân phối mũ với tham số À > 0 (viết
X ~ EXP(À)) nêu X có hàm mật độ cho bởi công thức
SỐ de ** 2 > 0,
Jữ) at 2 <0
_' Các số đặc trưng
E(X|=-—, V[xX|=—
Phân phối chuẩn: Biến ngẫu nhiên X có phân chuẩn với tham s6 p va o?
"(viết X ~ Nữ», ø?)) nếu X có hàm mật độ xác định bởi công thức
1 _ (=~u)? | f(z) = e 2%? , ER ØV27n Các số đặc trưng - | E|X] =p, V[X] = a” |
_ Khip=0,0 1, biến ngẫu nhiên X có phân phối chuẩn tắc N0, 1) Phân '
, phối chuẩn XI ~ Nặu,ø2) có thể đưa về phân phối chuẩn tắc qua phép biến đổi
o
Z= ~N(0,1)
` ` ~ ~ ˆ “^^ As 2 av
_ Ham mat d6 cia phân phôi chuẩn tắc
we
1 2
K@) = Tee mo
có dạng hình chuông và đối xứng qua trục tung
- Hàm phân phối xác suất của Z là
Mức phân vị của phân phối chuẩn z„ xác định từ đẳng thức
` P(Z >.zs) = => P(Z<z) =l-a> Oz) =1l-a
Trang 9
1.4 Biến ngẫu nhiên nhiều chiều ¬ =9 Giá trị của hàm ®(z) và mức phân vị của phân phối chuẩn tắc được tính sẵn trong bảng ở phần phụ lục của giáo trình Chẳng hạn từ Hình 1.1, giá trị của hàm phân
phối chuẩn tác P(Z < 1,50) = ®(1,50) = 0,93319 và P(Z < 1,52) = 8(1,52) = |
0,93574 Ngược lại, nếu ta cần tính z„ với œ = 0,05, ta có ®(z„) = 1— œ = 0,95
P(Z < 1.5) = ®(1.5) 2 | 0.00 0.01 0.02 0.03
0 | 0.50000 0.50399 0.50398 0.51197 -
, ` 15 | 0.93319 0.93448° 0.93574 6.93699
lê) 1.5 z ` ,
- Hình 1.1: Hàm mật độ của phân phối chuẩn tắc
Trong bằng giá trị của phân phối chuẩn tắc tá tính được ®(1,64) = 0,95, do đó Za = 2005 = 1,64 Với giá trị của z„/¿ ta tính tương tự ®(z„/s) = 1— 0,05/2 =
0, 975 = ®(1,96), nên Za/2 = 20,025 = 1, 96
1.4 Biên ngẫu nhiên nhiều chiều
Biến ngẫu nhiên nhiều chiều: Cho Xị, Xz:, , X„ là các biến ngẫu nhiên
liên kết với một phép thử ngẫu nhiên nào đó Ta gọi X = (Xị,X¿, ,X„) là một biến ngẫu nhiên nhiều chiều Nếu các biến ngẫu nhiên X\, X¿, , X„ là rời
rạc, ta gọi X là biến ngẫu nhiên nhiều chiều rời rạc Nếu Xị, X¿, , X„ là các -
biến ngẫu nhiên liên tục ta gọi X là biến ngẫu nhiên nhiều chiều liên tục _ _ | Biến ngẫu nhiên độc lập: Các biến ngẫu nhiên X), X¿, , X„ được gọi là
độc lập nếu với mọi tập 4y, 4;, , 4„ của đường thắng thực, ta có © |
P(X € Ay, Xo € Ag, ,Xn © An) = P(X) € A1)P(Xp € Ay) P(Xpn € An)
Hàm khối xác suất đồng thời: Trong trường hợp biến ngẫu nhién nhiéu |
_ chiéu réi rac, ham f(x), %9, ,%n) = P(X, = 11,Xq = 2, ,Xn = Ln) dude:
gọi là hàm khối xác suất đồng thời
Hàm mật độ đồng thời: Trong trường hợp biến ngẫu nhiên nhiều chiều liên
tục, hàm ƒ(z,Zs, ,„) được gọi là hàm mật độ đồng thời nếu
by bn
P(m < Ấ: <bi, ian * Ấn < bạ) = fons f Flory 205-50) dn đ1 Qn
Trang 10
1 | | _1 CƠ SỞ CỦA LÝ THUYẾT XÁC SUẤT -
Kỳ vọng của biến ngẫu nhiên Z = g(X¡,X¿, , X„) xác định bởi công thức 2 0(21, , 2n) ƒ(Œ1, 2n) _ (rời rạc)
Elg(X,- \Xn)JJ=4 te + TT“ (liên tục) Hiệp phương sai (covariance) và hệ số tương quan: Hiệp phương sai của,
hai biến ngẫu nhiên X) và X¿ xác định bởi
Cov( X14 Xa) = Bl(X1 — E|X,))(X; — E[Xa)] = E[X Xo] — E[X,IE[Xa]
Hệ số tương quan giữa X), X; ký hiệu ø(X:, X¿) xác định bởi
| | Cov(X1, Xo)
p= p(X1, X2) ~ JV) VX]
Ma trận hiệp phương sai: Ma trận C = (c,;) là ma tran vng cấp ø có các
phần tử |
C¿j — Cov(X;, X;)
được gọi là ma trận hiệp phương sai của biến ngẫu nhiên nhiều chiều X =
(X1, ,Xn) : ,
Tinh chat
1 E[X, + X; +:::+ X„] = EÍX¡] + E[Xa] + - + E[X,]
VỊX,)
3 Nếu ¡| X; độc lập thì ElX¡4Xa| = E|[X,|E[X2] va Cov(X1, X2) = 0 Nói `
~
chung điều ngược lại không đúng
4 Hệ số tương quar ø € [—1, 1]
Trang 11
oll
Chuong 2
THONG KE MO TA VA PHAN PHOI MAU
Từ chương này trở về sau, ta sẽ thường xuyên làm việc với các bài toán liên quan đến dữ liệu, nói ngắn gọn là các kết quả thu được từ các thí nghiệm hay
quan sát và được lưu trữ lại dưới dạng các giá trị số hoặc các tên gọi Chẳng hạn
khi tiến hành thí nghiệm về mức tiêu thụ nhiên liệu của một loại xe ô-tô trên -
100km, thì kết quả ghi lai là số (lít) nhiên liệu Khi kiểm tra về giới tính của học
sinh tiểu học thì kết quả được ghi là Nam và Nữ, tuy nhiên ta cũng có thé ghi là
1 nếu học sinh là Nam và ghi là 0 nếu học sinh là Nữ Khi kiểm tra về nhóm máu của các sinh viên thì kết quả được biểu diễn bởi các chữ O, 4,B, AB đặc trưng
cho các nhóm máu (theo hệ thống ABO) và nếu phân loại theo yếu tố Rh thì kết '
quả là 8 nhóm dương tính Ĩ+, 4+, B+, 4+ và âm tính O—, A—, 8—, AB-~
Thông thường, dữ liệu có thể được lưu trữ ở một dạng nào đó phù hợp với việc
tiến hành thí nghiệm Để có thể dễ dàng trích xuất được thông tin, dữ liệu cần - được sắp xếp, biểu diễn lại và tính tốn tổng quan Phần thống kê liên quan đến
các công việc kế trên gọi là thống kê mô tả Trong chương này, trước hết chúng
ta sẽ làm quen với các khái niệm cơ bản trong thống kê như tập chính (quần
thể), cá thể (đối tượng nghiên cứu), mẫu ngẫu nhiên (Mục 2.1), các cách biểu _ điễn mẫu (Mục 2.2) và tính tốn các số đặc trưng như trung bình mẫu, phương
sai mẫu, trung vị, mode .(Mục 2.3) Ở phần cuối chương, một số thống kê mẫu và phân phối của chúng (Mục 2 4) sẽ được giới thiệu, làm cơ sở cho các bài toán
suy luận thống kê ở các chương tiếp theo | |
2.1 Tập chính và tập mẫu
Các bài toán thống kê thường gắn với việc nghiên cứu về một đối tượng nhất
định Chẳng hạn chúng ta cần xác định chiều cao trung bình của thanh niên Việt
Trang 12
12 i | 2 THONG KE MO TA VA PHAN PHOI MAU
Nam thì mỗi thanh niên là một đối tượng nghiên cứu, ta gọi là cá thể Tập tất
cả thanh niện Việt Nam gọi là quần thể hay tập chính
Định ngÌÌïa 2.1 Tập chính bao gồm tất cả các đối tượng rnà ta cần nghiên cứu |
Ta ký hiệu tập chính là 9 Mỗi phần tử trong tập chính được gọi là một cá
thể, ký hiệu là œ Số lượng các phần tử trong tập chính được gọi là kích thước
tập chính và ký hiệu là W = |O| Ví dụ khi ta tiến hành kiểm tra nhóm máu của
các sinh viên khi nhập trường, nếu ta có 3500 sinh viên thì kích thước của tập
chính là N = 3500 -
Kích thước của tập chính thường là rất lớn (có thể hữu hạn hoặc vơ hạn) và
rất khó xác định (cá thể thay đổi) như số lượng điện thoại di động được sử dụng ở thành phố Hà Nội Trong thống kê, các nhà nghiên cứu quan tâm đến các kết luận về tập chính trong khi ta khơng thê hoặc không khả thi để kiểm tra tất : cả các cá thể trong tập chính Chẳng hạn một nhà máy sản suất bóng đèn điện muốn xác định tuổi thọ trung bình của các bóng đèn đã bán ra thị trường, việc - thống kê tuổi thọ tất cả các bóng đèn điện đã bán là không thể Ngay cả khi việc
kiểm tra tất ! cả các đối tượng trong tập chính là có thể, người ta cịn phải tính
đến các chi phí về thời gian và tài chính Để đơn giản, người ta thường nghiên
cứu một tập con của tập chính, gọi là tập mẫu Các kết luận về tập chính có thể được rút ra, dựa trên nghiên cứu tập mẫu mà vẫn đảm bảo độ tin cậy nhất định
Dinh nghia 2.2 Mẫu là một tập con của tập chính
bo,
Số lượng các phần tử của mẫu gọi là kích thước mẫu và ký hiéu la n Cac 'giá trị của, mẫu kích thước n ký hiệu là 1, #a, , #mạ
Việc chọn mẫu là rất quan trọng trong tính tốn thống kê Nếu mẫu mang thông tin về tập chính thì nó phải có tính đại diện cho tập chính, xét theo một _ khía cạnh nào đó Ví dụ ta muốn tính độ tuổi trung bình của dân cư Hà Nội và ta chọn ra 100 người tập thể dục buổi sáng ở bờ hồ Hoàn Kiếm Độ tuổi trung bình tính được là.49,2 Liệu có thể kết luận đó là độ tuổi trung bình của cư dân Hà Nội? Câu trả lời có lẽ là khơng, vì chủ yếu người già và sinh viên mới có điều
kiện để tập thể dục buổi sáng hơn là người trong độ tuổi lao động (chưa kể yếu tố địa lý.) Nói cách khác, tập mẫu này không đại diện được cho tồn bộ tập chính
Trong thực tế, một mẫu được coi là mang tỉnh đại diện cho tập chính nếu các
Trang 13
2.2 Phân loại dữ liệu | | 13
phan chia theo các ngành nghề cơ bản trong xã hội Thay vào đó, hãy để cho ngẫu nhiên quyết định các phần tử nào sẽ xuất hiện trong tập mẫu Lúc này, ta có cơ sở để áp dụng các suy luận thống kê trên các phần tử của tập mẫu Ỏ dây
ta không đi sâu vào nghiên cứu các chiến lược chọn mẫu cũng như các loại sai số
có thể gặp phải trong quá trình lấy mẫu
2.2 Phân loại dữ liệu
Về cơ bản, dữ liệu được phân thành hai loại khác nhau, gọi là dữ liệu định
lượng (quantitative/scale data) và dữ liệu định tính (qualitative data)
Dữ liệu định lượng là dữ liệu đo được bằng số, trong khi đó dữ liệu định tính là
đữ liệu bao gồm các nhãn hiệu, tên gọi, phân loại hay thứ hạng Dữ liệu định tính
tiếp tục được chia thành hai loại, gọi là dữ liệu danh nghĩa (nominal data)
và dữ liệu thứ bậc (ordinal data) Dữ liệu danh nghĩa được chia thành các
nhóm mà không tuân theo một thứ tự cụ thể nào Trái lại, dữ liệu thứ bậc được
chia thành các nhóm theo một thứ tự nhất định Về nguyên tắc, ta ln có thể
số hóa các loại dữ liệu danh nghĩa và dữ liệu thứ bậc Khi đó, mọi dữ liêu đều có thể biểu diễn bằng các số
Ví dụ 2.1 Các dữ liệu sau đây là các dữ liệu định lượng:
a) Nhiệt độ ngoài trời cao nhất trong một ngày tại Hà Nội,
b) Chiều cao của các sinh viên một trường đại học,
c) Cường độ chịu nén của các mẫu bê tông thử nghiệm tại một phòng thí nghiệm,
d) Giá của 30 loại cổ phiếu trên thị trường chứng khoán khi chốt phiên giao
dịch,
e) Số lượng phương tiện đi qua một nút giao thông vào một khoảng thời gian nhất định trong ngày
Ví dụ 2.2 Các dữ liệu sau đây là các dữ liệu danh nghĩa:
a) Quốc tịch hành khách ( Việt Nam, Trưng Quốc, Nọa, .) trên một chuyến
bay của Vietnam Arline,
b) Màu mắt (nâu, đen, .) của trẻ sơ sinh,
c) Thanh phần vật chất (đá, cát, z¿ măng, .) cấu thành nên bê tông,
d) Tên các loại cổ phiếu giao dịch trên thị trường chứng khoán,
⁄
an
Trang 14t / ⁄ ˆ | ˆ 2
` a 4 | x
: 14 | 2 THONG KE MO TA VA PHAN PHOI MAU
e) Tên các loại bệnh ung thư thường gặp ở người
|
Ví dụ 2.3 Các dữ liệu sau đây là các dữ liệu thứ bậc:
a) Mức độ hài long (rat hai long, hai long, it hai long va không hồi lồng) của : khách hàng khi sử dụng dịch vụ của một trang web mua bán trực tuyến,
b) Đánh giá của sinh viên về chất lượng bài giảng (xuất sắc, rất tốt, tốt, trung
bành uà không đạt) của giảng viên sau khóa học,
c) Thứ hạng của các trường đại học ở Việt Nam năm 2020,
d) Mức độ tín nhiệm (rất tin nhiệm, tín nhiệm 0à khơng tín nhiệm) của các
thành viên chính phủ,
e) Các loi huy chương (oàng, bạc uà đồng) tại một kỳ Olympic thể thao
Việc phần biệt rõ ràng các loại đữ liệu là rất quan trọng trong thống kê Điều
đó giúp ta xác định được biểu đồ nào phù hợp nhất để biểu diễn dữ liệu, những
thông số nào là cần thiết hay không cần thiết trong tính tốn tổng quan và các
tiêu chuẩn kiểm định nào nên được lựa chọn Để hiểu được điều này, ta có thể xét dữ liệu về giới tính của trẻ sơ sinh được sinh ra tại một bệnh viện trong một
ngày Giới tính của trẻ sơ sinh có thể được ghỉ lại bằng tên như "giới tính nam!"
hoặc " giới tính „ữ", do đó là loại đữ liệu danh nghĩa Đối với dữ liệu kiểu này, ta
có thể số hóa bằng cách gán giá trị 1 cho "giới tinh nam" và giá tri 0 cho "giới
tính nữ" Chẳng hạn ta thống kê được trong một ngày có 38 bé trai (tương ứng với giá trị 1) và 42 bé gái (tương ứng với giá trị 0) sinh ra thì giá trị trung bình tính được là 0,475 Tuy nhiên con số 0,475 hầu như khơng có ý nghĩa gì Tương
tự như vậy với dữ liệu thứ bậc, chắng hạn như mức độ tín nhiệm của các thành viên chính phủ Ta có thể lượng hóa mức độ tín nhiệm bằng số như sau: "rất tín,
nhiệm” = 2,': "tín nhiệm” = 1 và "khơng tín nhiệm" = 0 Ngoài ý nghĩa về thứ bậc mà các con số này mang lại, ta không thể hiểu ‘rang: "rất tín nhiệm" có giá trị gấp 2 lần "tín nhiệm"
|
2.3 Phương pháp biểu diễn mẫu
| |
Tap mau có thể được biểu diễn theo nhiều cách khác nhau nhằm cung cấp
cái nhìn tổng quan về đữ liệu Trong thống kê thực hành, ta phải dựa vào kiểu dữ liệu (định lượng hay định tính, rời rạc hay liên tục), kích thước của tập mẫu (lớn hay nhỏ) để lựa chọn phương pháp biểu diễn phù hợp nhất Sau đây ta sẽ
trình bày một số phương pháp biểu diễn thông dụng
{
'
Trang 15
2:3 Phương pháp biểu diễn mẫu | 15
2.3.1 Bảng phân phối tần số
“Biểu diễn bằng bảng phân phối tần số là phương pháp rất quan trọng để
nghiên cứu về phân phối của mẫu Trước hết ta xét một vài ví dụ đơn giản
Ví dụ 2.4 Kiểm tra về tuổi của 30 học viên cảo hoc ta dude mét nau va dude
sắp xếp lần lượt như sau:
28 31 29 27 30 29 29 26 30 28 28 29 27 26 32 28 32 31 25 30 27 30 29 30 28 29 31 27 28 28
Sắp xếp các giá trị từ nhỏ đến lớn ta được dãy số liệu sau: 25 26 26 27 27 27 27 28 28 2S 28 28 28 28 29 29 29 29 29 29 30 30 30 30 30 31 31 31 32 32 |
Ta thấy có sự xuất hiện lặp đi lặp lại của một vài giá trị Các giá trị này cùng
với số lần xuất hiện của chúng trong mẫu có thể được ghi lại dưới dạng bảng, gọi là bảng phân phối tần số Bảng phân phối tần số của dữ liệu trên được biểu diễn
như sau: T; 25 26 27 28 29 30 31 32 Tu 1 2 4 7 | 6 5 3 2
Như vậy, bảng phân phối tần số gồm có hai hàng (Bảng 2.1) Hàng trên gồm các giá trị quan sát z, và hàng dưới là giá trị của số lần xuất hiện gọi là tần số
và ký hiệu là r Li T1 T2 wee Xk Tt; tì T2 wae hk Bảng 2.1: Bảng phân phối tần số
Chú ý rằng, giá trị quan sát z; trong bảng phân phối tần số không nhất thiết
là các giá trị định lượng mà có thể là giá trị định tính (danh nghĩa hay thứ bậc)
Khi đó, bảng phân phối tần số được trình bày thành 2 cột, cột thứ nhất ghi các
giá trị định tính và cột thứ hai ghi tấn số xuất hiện như trong ví dụ dưới đây Ví dụ 2.5 Bảng 2.2 dưới đây thống kê số lượng lao động được tuyển dụng (phân
Trang 16
16 2 THONG KE MO TA VA PHAN PHOI MAU
| Trình độ lao động | Số lượng tuyến dụng |
Trên đại học 2
Dai hoc 15
Cao dang 14
Trung cấp 21
Công nhân kỹ thuật lành nghề: 7
Sơ cấp nghề : 5
Lao động chưa qua dao tao 38
|
| Bảng 2.2: Nhu cầu lao động theo trình độ nghề
|
Trong thường hợp dữ liệu chứa quá nhiều giá trị phân biệt và số lần xuất hiện mỗi giá trị ít, người ta thường chia dữ liệu thành các lớp hay các khoảng rời nhau
Chú ý rằng, trong việc chia miền dữ liệu thành các khoảng, ta áp dụng nguyên
tắc cận dưới (trái) đúng Cụ thể, đối với mỗi khoảng [a,b), ky hiệu là a — b, ta
gọi a là can! dưới, ö là cận trên, khoảng cách e = b— a gọi là độ rộng của khoảng,
điểm giữa T gọi là giá trị trung bình của khoảng Trong mỗi khoảng ta đếm
số lần các giá trị quan sát nằm trong khoảng [ø, b), bao gồm các giá trị quan sát
ti maa < a <b "
Miền giá trị quan sát được chia thành k khoảng rời nhau Nhìn chung, nhưng
không bắt Buộc, các khoảng được chia với độ dài bằng nhau, ký hiệu là h Khi
đó mỗi khoảng có dạng
| [r+ (i-1)h, r+ih), i=1,2, ,m,
|
với 7 là một giá trị cụ thể, nhỏ hơn hoặc bằng giá trị nhỏ nhất của mẫu quan sát Rõ ràng, |việc chia khoảng như vậy sẽ giúp cho việc biểu diễn dữ liệu đơn giản hơn, nhưng lại làm mất thông tin của dữ liệu gốc Nếu số khoảng chia q ít, thơng tin sẽ: bị mất nhiều Nếu số khoảng chia quá nhiều, tần số tương ứng với các khoảng chia ít, ta lại gặp vấn đề giống như đối với dữ liệu gốc là khó có thé
hiểu được phân bố của dữ liệu Lựa chọn số khoảng chia thích hợp là vấn đề
mang tính chủ quan Ta có thể thử nhiều lần để tìm ra số khoảng chia phù hợp, giúp dữ liệu bộc lộ được nhiều thông tin nhất Thông thường số khoảng chia mm
có thể chọn theo quy tắc Sturges, bằng số nguyên dương nhỏ nhất và lớn hơn
1 + log;(n) | |
Xí dụ 38, Thời gian lầm việc (tính theo giờ) của công nhân trong một tuần tại
|
Trang 17
2.3 Phương pháp biểu diễn mẫu 17
một công ty được ghi lại như sau:
45 31 46 25 57 39 42 55 20 37 40 59 11 38 34 22 62 33 48 43 57 37 43 51 29 41 35 66 45 32 44 47 42 46 54 65 17 35 53 27 38 22 33 39 45 32 43 41 57 45 -
Quan sat thay dữ liệu trên có giá trị nhỏ nhất là 11 và giá trị lớn nhất là 66
Ta chia miền dữ liệu thành 6 khoảng, mỗi khoảng có độ dài là 10 giờ, bắt đầu từ giá trị bằng 10 Khi đó ta có bảng phân phối tần số như sau:
Li 10-20 20-30 30-40 40-50 90-60 60-70 Từ; 3 9 15 16 8 3
Ví dụ 2.7: Độ dày (mm) của 20 mẫu thép tấm được ghi lại như sau:
7,3 7,1 6,6 7,0 7,8 7,3 7,5 số 6,9 6,7 6,5 6,8 7,2 7,4 6,5 6,9 7,2 7,6 7,0 6,8
/m
Giá trị nhỏ nhất là 6,2 mm, giá trị lớn nhất là 7,8 mm 'Ta chia miền dữ liệu
thành 4 khoảng, mỗi khoảng có độ dài 0,4 mm và bắt đầu từ 6,2 mm Bảng phân phối tần số của dữ liệu đã phân nhóm là
z, | 62-66 | 66-70 | 7074 | 74-78 n; | 4 7 6 3
2.3.2 Bang phan phéi tan suat
Trong bảng phân phối tần số đã xác định ở mục trước, lấy tần số xuất hiện của một giá trị chia cho kích thước của dữ liệu (mẫu), ta được tỷ số gọi là tần suất Như vậy, tần suất chính là tỉ lệ phần trăm một giá trị nào đó có trong dữ liệu Tần suất của giá trị z; được ký hiệu bởi
fi= = n= Son
1
Thay tần số bởi tần suất, trong bảng phân phối tân số, ta thu được bảng phân
hối tần suất (Bảng 2.3) “TRƯỜNG BẠTHGồ GIÁO THONG VAN TAI
° | | PHÂN HIỆU TẠI THÀNH PHO HO CHI MINH
Chú ý rằng theo định nghĩa THU VIEN
" Lat ¿ - 0017214
Trang 18
2 THONG KE MO TA VA PHAN PHOI MAU
18 XL; T1 rq Lk fi fi ho fh
| Bảng 2.3: Bảng phân phối tần suất, -
Ví dụ 2.8 Từ Ví dụ 2.7, ta có bảng phân phối tần suất tương ứng
Lj 6,2-6,6 6,6-7,0 7,0-7,4 7,4-7,8
m | 0,2 0,35 0,3 0,15
2.3.3 Biêu diễn băng đồ thị
Đa giác tần số, tần suất : Ta có thể dùng đồ thị để biểu diễn bảng phân phối tần số |và tần suất Trên hệ trục tọa độ Đề-các, ta xác định các điểm (Z;, m), hoac (2;, fi),
tần số, hoặc đa giác tần suất Từ đồ thị này ta dé dàng nhận ra được giá trị nào có tần số (tần suất) cao nhất hoặc thấp nhất
sau đó nối chúng bởi các đoạn thắng Đồ thị thu được gọi là đa giác
Ví dụ 2.9 Trở lại-Ví dụ 2.4 về tuổi của học viên cao học, ta có bảng phân phối tần số và tan suất như s sau:
x | 2 | 2 | 27 | 28 | 29 [| 30 | 31 | 32
Ni 1 2 4 7 6 5D 3 2
fi 1/30 2/30 | 4/30 | 7/30 | 6/30 | 5/30 | 3/30 | 2/30 | )
2 2 i 4 2 3 mi ” 5 Olle
Hinh 2 1: Da giác tần số và đa giác tan suat
te nai AT ee ’ VR 14A kí
` Hình 2 Ls (tr i biểu diễn da giác tần số và Hình 2.1.(phải) biểu diễn đa giác tần
ˆ' suất, Hai, đường gấp khúc này có hình dạng như nhau, chỉ khác nhau về giá trị %X gs? tiến ruc tung) 3
Trang 19
2.3 Phuong phap biéu dién mau 19
Biểu đồ hình trịn: Biểu đồ này thường được sử dụng để biểu diễn tỉ lệ phần
trăm khi các giá trị trong dữ liệu không phải ở dạng định lượng Khi đó ta vẽ
một hình trịn và chia thành các hình quạt theo tỉ lệ tương ứng với các giá trị
định tính
Ví dụ 2.10 Xe buýt nhanh và các hệ thống ưu tiên xe buýt đã trở thành một
-giải pháp hấp dẫn đối với nhu cầu lưu thông trong đô thị vì chi phí vốn tương
đối thấp và thời gian thi công ngắn so với hệ thống giao thông đường sắt Biểu
đồ 2.2 cho thấy những nhân tố đóng góp vào lợi ích kinh tế của hệ thống xe buýt
nhanh đang hoạt động ở các nước thuộc Mỹ Latinh
khỏe cộng đóng GHG 2% 3% Giảm chỉ phí = _ vận re 33%
- Hình 2.2: Lợi ích kinh tế của hệ thống buýt nhanh ở các nước thuộc Mỹ Latinh (theo Báo cáo của World Resources Institute, 2014)
Biểu đồ tần số, tần suất: Di với dữ liệu được chia khoảng, ta biểu diễn
chúng bởi biểu đồ hình cột, gồm các cột chữ nhật kề nhau có đáy trên trục hoành là các khoảng chia và chiều cao trên trục tung là tần số hoặc tần suất Các biểu
đồ này tương ứng gọi là biểu đồ tần số hoặc biểu đồ tần suất
Ví dụ 2.11 Chỉ số khối cơ thể (BMI - Body Mass Index), bằng cân nặng
(tính theo kilogram) chia cho bình phương chiều cao (tính theo mét), là chỉ số
dùng để đo độ béo phì của một người Người bình thường cé BMI < 25 (kg/m?),
25 < BMI < 30 (kg/m?) la qué can va BMI > 30 (kg/m*) la béo phi Kiém tra
chỉ số BMI của 100 sinh viên, ta thu được pang số liệu dưới đây Hình 2.3 là biểu
Trang 2020
2 THONG KE MO TA VA PHAN PHO! MAU |
z, | 18-20 | 20-22 | 22-24 | 2426 | 26-28 | 28-30 | 30-32
n | 2 7 | 38 35 15 2 1
o-ILE— F—-—
18 20 22 24 26 28 30 32
Hình 2.3: Biểu đồ hệ số BMI của 100 sinh viên
2.3.4 Ham phân phối thực nghiệm
Cho dữ liệu quan sát {Z,za, ,Z„} Ta gọi Fn(z) là hàm phân phối thực
nghiệm của mẫu, được xác định như sau: Ị
Fi(x) = KE t; <2}| sd phan tt nho hon hoac bang x
T
7
Như vậy, F„(z) chính là tỷ số của số các giá trị quan sát không vượt quá z chia
cho kích thước của mẫu Hàm này có các tính chất tương tự như hàm phân phối
của một biến
Giả sử ch
pees < Lk
Khi d6, h
¡ ngẫu nhiên rdi rac
o bảng phân phối tần suất của dữ liệu như dưới đây với z¡ < z; <
Li T1 T2 Lk fi fi fo Sic F, (x) =
àmn phân phối thực nghiệm #„(z) được xác định bởi công thức
Trang 21
2.3 Phương pháp biểu diễn mẫu | | 21
Từ công thức trên, hàm phân phối thực nghiệm đơi khi cịn được gọi là hàm tần suất cộng dồn
Ví dụ 2.12 Cho mẫu quan sát được cho bởi bằng dưới đây
2325443333 3 3 1 3.12 42:32 2341223553
Biểu diễn dữ liệu bởi bảng phân phối tần số và tần suất, ta thu được
Lj 1 2 3 | 4 Nj 3 8 12 | °4- fi 0,1 0, 267 0,4 | 0,133 0,1
Vậy hàm phân phối thực nghiệm cho đữ liệu trên là
{0 - z<L 01 1<z<2, 0,367 2<z<3,_ 0,767 ä<z<4, 09 4<z<5, 1 +>ö5 F,(z)= > fi= 4 #¡;S+z
Hàm phân phối thực nghiệm được mô tả bằng đồ thị như trên Hình 2.4
Qo í $——— t ® _j ' Oo eC | ' 1 1 ; I | ce) t 1 { oa 7 i 1 t I ' | t ' I ! a i A [ © ———— | i t | f ` NL { } Ị ' Qo t ` { J ì $ — 4 | © 7 o xa at | j + “a pe +“ ` q 1 i t { † Í 0 1 2 3 4 § 6
Trang 22thì giá trị tru
22 2 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU
2.4 Giá trị đặc trưng mẫu
2.41 Trung bình mẫu
Định nghĩa 2.3 Nếu n giá trị quan sát trong một mẫu được ký hiệu là
T1,#a,- ,„, giá trị trung bình mẫu, kí hiệu Z, được xác định bởi
— TỊị+7;+' tt 1
n =~ vi
Nếu mẫu kho bởi bảng phân phối tần số
Li Ly T2 —
1; ny ha Tùy
ng bình được tính theo cơng thức
_ Nếu dữ liệu cho ở dạng khoảng thì ta lầy trung điểm của các khoảng làm giá trị đại diện chó khoảng va tính giá trị trung bình như các trường hợp trên Ví dụ 2.13
của một chât
Một, kỹ sư chuyên ngành vật liệu xây dựng nghiên cứu ảnh hưởng
phụ gia.làm.từ tro trấu đối với sức.chịu nén của một loại bê tông:
Sau khi chế tao thử 10 mẫu bê tông, người kỹ sư đo cường độ chịu nén của chúng ` (theo đơn vị ket /cm”) va thu dude kết quả sau:
Hãy tính cười Giải Cường độ ĐỊ Ví dụ 2:14 95, 86, 102, 91, 97, 93, 101, 105, 88, 92
g độ chịu nén trung bình của 10 mẫu bê tông trên chịu nén trung bình của 10 mẫu bê tông trên là
95+ 86 + 102 +91 + 97 + 08 +'101 + 105 + 88 + 92
10 _ 950 _
= Tp 95 (ka em? ),
lầm giá trị trung bình của các mẫu dữ liệu sau:
Trang 23
2.4 Giá trị đặc trưngmẫu - — | - 23 z; | 30 | 30,2 | 30,4 | 30,5 | 30,8 | 31,0 m | 5 7 12 17 | 11 4 8 Giai
Ta có giá trị trung bình mẫu là
30 x 5 + 30, 2x 7+30,4 x 12430, 6 x 17+ 30, 8x 11+31x8 5+7+12+17+11+8 t= 1833, 2 = — = 30,55 60 ,
Ví dụ 2.15 Tìm giá trị trung bình của các mẫu dữ liệu sau:
x; | 12-14 | 14-16 | 16-18 | 18-20 | 20-22 | 22-24 Ni 2 6 9 8 4 1 Giải
Trước hết ta phải tính giá trị trung bình cho từng khoảng
12+14
m= b = 13, ap = 15, rg = 17, 24 =19, 25 = 21, 26 = 23
Ta có giá trị trung bình mẫu là
13x2+15x6+17x9+19x8+21x4+23x1 2+6+9+8§+4+] _— _ 528 os = 17,6 ~ 30
O đây, trung bình mẫu được định nghĩa theo trung bình số học Đó là một trong ba loại trung bình Pythago cổ điển, bao gồm trung bình số học (hay trung bình cộng), trung bình điều hịa, và trung bình nhãn
Trung bình điều hịa là nghịch đảo của trung bình cộng của các nghịch đảo
của các giá trị quan sát Với mẫu quan sát (,#a, ,#„), trung bình điều hịa,
kí hiệu #›, được xác định bởi công thức
- Trung bình điều hịa thường được dùng trong những tình huống ta cần tính tốc _
độ (làm việc) trung bình của một hệ thống gồm nhiều bộ phận có tốc độ khác nhau Dể hiểu rõ bơn, ta xét các ví dụ sau đây
Trang 24
24 9 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU
Ví dụ 2.16 Trên đường cao tốc có ba phương tiện tham gia giao thông với tốc
độ lần lượt llà 40 km/h, 50 km/h, và 60 km/h Tính tốc độ trung bình của ba
phương tiện! trên Giải Ta khbng thể đơn thuần tính tốc độ trung bình của ba phương tiện trên
bằng cách lây trung bình cộng
40 + 50 + 60 3
Thay vào đó, ta hình dung cho 3 phương tiện đi một quãng đường 1 km như nhau Thời Lian để ba phương tiện hoàn thành quãng đường đó lần lượt là “ h,
= 50 km/h
s; h va ạg h Vậy, tốc độ trung bình của ba phương tiện trên là
1+1+1 }
TC + + =48,64865 km/h TL 1
mm" 40 T 50 T 80 | D6 chinh là trung bình điều hịa Z„ của ba tốc độ trên
- Ví dụ 2.17) Xét bài toán bơm nước vào một bể bơi Giả sử hệ thống máy bơm gồm một máy bơm nước.dùng điện, có thé bom day bể trong 3 giờ và một: máy bơm nước dùng xăng, có thể bơm đầy bể trong 5 giờ Nếu sử dụng cả hai máy
` | ` x! 2 x 2 ~ 1
bơm cùng lúc thì thời gian đề bơm đây bề sẽ là
1 3x5
F420 345
=,1, 875 Chú ý là, trung bình điều hịa của các số 3 và 5 là
2 2x3x5d
gts 345 = 3,75
va bằng gấp đôi thời gian làm việc đồng thời của cả hai máy bơm
Trung bình nhân của, các số Z4,Za, ,„, kí hiệu là Zạ¿, là căn bac n cua tich
các số đó ¬ _
Tg = W12 7a
Trung bình nhân thường được sử dụng cho tập số liệu có sự thay đổi theo luật
hàm mũ như đữ liệu về sự tăng trưởng dân số hay tỉ suất lợi nhuận của đầu tư
tài chính |
Vi du 2.18 Dân số của một thành phố năm 1970 là 230 nghìn người, và các năm tiếp theo là 310, 370 và 520 nghìn người Như vậy, tốc độ tăng trưởng dân số qua các năm lần lượt là 34,78%, 19,35%, 40,54% Ta đặt tương ứng tốc độ tăng
trưởng qua|các năm với các hệ số nhân 1,3478, 1,1935 và 1,4054 Sử dụng trung
: bình nhân, |ta tính được |
Ly = 4/1, 3478 - 1, 1935 - 1, 4054 = 1, 3124,
Trang 25
2.4 Gia trị đặc trưng mẫu | , | 25
tức là tốc độ tăng trưởng trung bình dân số hằng năm là 31 24%, Nếu bắt đầu với dân số 230 nghìn người, thì với tốc độ tăng trưởng trung bình hàng năm
3, = 31, 245, sau 3 năm thành phố sẽ có
230 (1 + 0, 3124)° = 520 (nghìn người)
Trung bình nhân cịn được sứ dụng khi so sánh các đại lượng với dải giá trị
khác nhau Điều này giúp "chuẩn hóa" dải giá trị của các đại lượng, sao cho
khơng có đại lượng nào chiếm ưu thế vượt trội trong quá trình so sánh Khi đó, sự thay đổi trên bất kì đại lượng nào cũng có tác động như nhau đến trung bình
nhân của chúng
Vi dụ 2.19 Một ví dụ điển hình là cách tính chỉ số phát triển con người -
(HDI - Human Development Index) do UNDP (United Nations Development
Programme) dua ra nim 2010 Chi sé này được tính dựa trên 3 chỉ số thành phần gồm tuổi thọ (LEI - Life Expectancy Index), giáo dục (EI - Education ` Index) và thu nhập bình quân đầu người (II - Income Index) tại một quốc gia
hay vùng lãnh thổ Cuối cùng, chỉ số HDI được tính bằng trung bình nhân của ba chỉ số trên
HDI = VLEI- El - IJ
Sau đây là chỉ số HDI của các quốc gia Đông Nam Á năm 2015:
| Quéc gia | Chỉisô HDI | Thứ bậc |
Singapore _ 0,912 11 Brunei 0,856 31 Malaysia | 0,779 62 Thailand - 0,726 93 Indonesia 0,684 110 Philippin 0,668 115 Vietnam 0,666 116 ' Timor Leste 0,595 133 Laos 0,575 | 141 Cambodia - 0,555 143 © Myanmar 0,536 148 2.4.2 Trung vị mẫu
Định nghĩa 2.4 Giá trị trung vị (median) của mẫu #, #a, , #„ là sỐ rm chia mẫu thành hai nửa bằng nhau, nghĩa là có một nửa số giá trị của mẫu
nhỏ hơn hoặc bằng rn và một nửa số giá trị của mẫu lớn hơn hoặc bằng rm
Trang 26
26 2 THONG KE MÔ TA VA PHAN.PHOI MAU
Nếu ta sắ được tính the Ví dụ 2.20 - Dãy số li ‡(12+ 14) = Đối với m
tân sơ như tr
Ví dụ 2.21 điện tử cùng
p xếp mẫu cho trước theo thứ tự từ bé đến lớn thì giá trị trung vị o công thức
n=|
Dãy số liệu {4, 7, 8, 9, 12, 15, 26} có 7 giá trị nên trung vị mẫu ?n = 9
su {5,6,10,12,14,17,23,30} có 8 giá trị nên trung vị mẫu rn
13 -
+ [2(n/2) + 2(n/2+1)] néu n chan; 2
âu quan sát cho bởi khoảng thì ta tim trung vị mẫu bằng biểu đồ ong ví dụ dưới đây
Cho bảng phân phối tần số gồm các số đo nhiệt độ của 80 thiết bị
loại trong quá trình thử nghiệm
28,8-30, 0 | 30,0-30,2 | 30,2-30,4 | 30,4-30,6 | 30,6-30,8 | 30,8-31,0 | 31,0-31,2 nN; 6 12 15 21 14 9 3 Y -_ Hình 2 Ta vẽ biết biểu đồ tần s Ne oh 15 14 +2 A A sấ: di, địa VÀ 4h: di, tải Ê -46: vóp Si ` 40 4l vĨ đã: đã và) là: <0 MK 31.0 314.2 28.8 30.0 302 2304 306 308
5: Phương pháp tính giá trị trung vị dựa vào biểu đồ tần số ¡ đồ phân phối tần số như trong Hình 2.5 Trung vị mẫu chia đơi
Ố thành hai phần có diện tích bằng nhau Kích thước của mẫu là `
n= 80 Do đó trung vị mẫu là giá trị trung bình của hai số hạng thứ 40 và thứ 41 Tần số cát giá trị nằm trong ba khoảng đầu tiên là 6 + 12 + 15 = 33 và trong 4 khoảng đầu
thứ tư la chỉ
diện tích của
tiên là 6 + 12 + 15 + 21 = 54, nên trung vị mẫu nằm trong khoảng a khoảng này thành hai phần bởi một đường thẳng sao cho nó chia
biểu đồ tần số thành hai phần bằng nhau Vì vậy ta có
6+12+15+A=B+4+14+9+3
A+ B=21
C
Trang 27
2.4 Giá trị đặc trưng mẫu ¬ SỐ 27
Từ hai hệ thức trên ta thu được
A=7, B= 14
Ta có khoảng chứa giá trị trung vị là |a;b) = [30,4; 30,6) Độ rộng của khoảng
này là h =b— a= 0,2 Khi đó độ rộng tương ứng với phần diện tích A = 7 là
A h _ x0,2=0,0667,-
d= 7B a tức là trung vị mẫu bằng |
mm = a + d= 30,4+0,0667 = 30, 4667 | Tổng quát hóa, ta có định nghĩa mức phân vị như dưới đây:
Định nghĩa 2.5 Phân vị p (0 < p< 1) của hàm phân phối thực nghiệm là
số ký hiệu Q(p) sao cho có ít nhất 100p% các giá trị nhỏ hơn hoặc bằng Q(p) và có ít nhất 100(1 — p)% các giá trị lớn hơn hoặc bằng Q(p) |
Cho mẫu kich thuéc n, ta sip xếp mẫu theo thứ tự từ bé đến lớn Khi đó
phân vị p được tính theo cơng thức sau: ¬
Q(p) = 2 [#(np) 2 (np+1)] néu np nguyén,
#(Inp]+1) nếu ø không ngun,
/
trong đó kí hiệu [z] là số nguyên lớn nhất không vượt quá z
Các phân vị ứng với p = 0,25 gọi là phân vị bậc 1, với p = 0,5 gọi là phần vị bậc 2 và chính là trung vị mẫu, và với p = 0, 75 là phân vị bậc 3
2.4.3 Mode
Giá trị mode của dữ liệu là giá trị mà tần số (hoặc.tần suất) xuất hiện của nó là lớn nhất Ví dụ đối với dãy các giá trị quan sát: 2, 2,6, 7, 7, 7,10, 13, giá
tri mode bing 7 Một dãy số liệu có thể có nhiều mode Chang han dãy dữ liệu
23, 25, 25, 25, 27, 27, 28, 28; 28, 29, 30 có hai giá trị mode là 25 và 28
Đối với dãy dữ liệu được phân khoảng thì giá trị mode được tính như sau: Ta
chọn khoảng có số lần xuất hiện lớn nhất, gọi khoảng đó là [ø,b) như trong Hình
2.6 Giá trị mode là giá trị hoành độ của giao điểm giữa AD và BC
—— Tagọi c=b— ø là độ rộng khoảng chứa giá trị mode, | = AB là hiệu tần số
' đối với cận dưới, u = CD là hiệu tần số đối với cận trên Khi đó giá tri mode
được tính theo cơng thức |
l+u
Trang 28
TẢNG ¬ 2 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU
¬| | # 3< *+ X) - “+ + R2 CO fe Œ k————I——>> ÁN 2ml Ợ d6 35 2à G0 GP d s 4e” ạp RERE ED EH wy Mods
Hinh 2.6: Phương pháp tính giá trị mode dựa vào biểu đồ tần số
Ví dụ 2.22! Khối lượng của 50 mẫu đúc được cho bởi bảng phân phối tần số sau: # (kg) | 10-13 | 13-16 | 16-19 | 19-22 | 22-25 | 25-28 | 28-30 m | 3 ĩ 16 | 10 | 8 5 | 1 Từ bảng| phân phối tần số ta thấy khoảng thứ ba có tần số lớn nhất Ta có
cận dưới ø = 16, cận trên b = 19, độ rộng khoảng e = b— a= 3, =—= 16— 7 =9,
u = 16 — 10|= 6 Gia tri của mode là
mode = 16+ x 3= 17,8
| 9+6
Ví du 2.23! Cho m&u quan sát từ phân phối nhị thức như sau:
_ — 4345544425
3343 243 03 5
| Tính giá trị trung bình, trung vị, và mode của mẫu trên
Giải | Ta lập bằng phân phối tần số Ho mg |12|6417124
Từ bảng phân phối ta có giá trị trung bình là
| t= _'0x1+2x2+3x6+4x7+5x4_ 20 3,9
Ta thay số 4 có tần số xuất hiện lớn nhất và bằng 7 nên giá trị mode là 4
Trang 29
2.4 Giá trị đặc trưng mẫu | óc _29
Ta có kích thước mẫu là ø = 20 là số chin nén giá trị trung vị được tính theo
#10 T #11 :
công thức median= = 4 khi sắp xếp dữ liệu tăng dần
Ví dụ 2.24 Cho bảng số liệu-các giá trị quan sát của một mẫu xác định bởi
bảng sau + 5-10 10-15 15-20 20-25 25-30 30-35 - n, | 4 9 16 12 6 3
Tính giá trị trung bình, trung vị, và mode của mẫu trên Giải
Dễ tính giá trị trung bình mẫu, ta tính giá trị trung bình trong từng khoảng
Khi đó, giá trị trung bình mẫu được tính là
4x7,5+9 x 12,5 + 16 x 17,4+ 12 x 22,5 + 6 x 27,5 + 3 x 32,5 — 10a
50 | 3
#4 —=
Từ bảng phân phối tần số ta thấy khoảng thứ 3 có số lần xuất hiện lớn nhất là
16 lần nên giá trị mode nằm trong khoảng này Xét hai khoảng kề với khoảng
thứ 3, ta tính được Ï = 7, u = 4, e = 5, ø = 1ð nên giá trị | c= l5+ x5=18,1818
mode =a+ 7+4
Để tính giá trị trung vị ta cộng dồn các tần số với tổng số là 50 và ta thấy © giá trị trung vị cũng nằm trong khoảng thứ 3 Ta chia khoảng này thành 2 phần
A và B với A + B = 16 Hơn nữa ta có
_ 4đ+9+A=B+12+6+
Từ đó ta tính được 4 = 12, ÐÖ = 4 Do đó giá trị trung vị được tính theo công
thức 12 |
| median = 15+ 16 x 5 = 18,75
Các giá trị trung bình, mode, và trung vị cho ta các thông tin quan trọng về
trung tâm của các quan sát Tuy nhiên đôi khi ta muốn biết các thông tin về độ
phân tán của dữ liệu Chẳng hạn để so sánh hai máy gia công một loại chỉ tiết
máy, người ta tiến hành thử nghiệm và thu được đữ liệu về độ dài (mm) của các
chi tiết mẫu | |
Trang 30
30 — 9 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU
Rõ ràng các mẫu này có cùng giá trị trung bình là 30 mm, nhưng ta thấy mức độ phân tán|xung quanh giá trị trung bình của các số liệu trong mẫu thứ nhất nhỏ hơn ở mẫu thứ hai Nói cách khác, sai số do gia công trên máy A là ít hơn
so với gia công trên máy l Do đó, ta nên chọn máy A để gia công các chỉ tiết loại này Ỏ đây ta đã đưa ra quyết định lựa chọn máy gia công dựa trên mức độ
phân tán của dữ liệu đo đạc Trong những chương sau, một số vấn đề liên quan đến lý thuyết ra quyết định sẽ được nghiên cứu kỹ hơn
Mức độ phân tán của dữ liệu được đặc trưng bởi các đại lượng như độ rộng,
phương sai mẫu và độ lệch tiêu chuẩn mẫu
2.4.4 Độ rộng
._.Giá trị đơn giản nhất để đo sự phân tán của dữ liệu là độ rộng miền giá trị của dữ liệu, xác định bởi hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất trong dữ diệu Trong ví dụ về so sánh hai máy gia công A và B, độ rộng của dữ liệu thu
được khi ding may A la 32 — 28 = 4 và độ rộng của dữ liệu thu được khi dùng
máy B là 39 - 21 = 18
2.4.5 Phương sai và độ lệch tiêu chuẩn mẫu —
Độ rộng của một bộ dữ liệu không phản ánh được phân bố của dữ liệu xung
quanh giá trị| trung bình Về khía cạnh này, trong thống kê người ta thường sử dụng phương|sai mẫu và độ lệch tiêu chuẩn mẫu
Định nghĩa 2.6 Nếu zạ, z¿, , z„ là mẫu có ø quan sát, phương sai mẫu,
kí hiệu là s†, được xác định bởi
=\2 =\2 >\2
#ịạ —#)J“ + (7a — #)J“ +-'':+ (1n — #
mn— Ì
và độ lệch tiêu chuẩn mẫu là căn bậc hai của phương sai mẫu
t=v#= (east (t2—-T)? +- vt (fn =)? (2.2) mn — Ì
Đôi khi người ta cũng gọi giá trị
52 _ (a1 — E)? + ("2 — B)? + + + - (za — )?
mr
Trang 31
2.4 Giá tri đặc trưng mẫu | | 31
là phương sai mẫu Hai giá trị này khác nhau ở mẫu số và có mối liên hệ bởi công
thức n
?= m — Ì SỐ
S
Khi giá trị m lớn thì hai giá trị này xấp xỉ bằng nhau Trong giáo trình này chúng : ta sử dụng phương sai mẫu s° và độ lệch tiêu chuẩn mẫu s xác định tương ứng
theo công thức (2.1) và (2.2) Ta có s2 _ Œị —#) “+ (gy—#) +: + (ạ— 8)” 7 n—-1l- s _ n— Ì ‘ A (z7 + z2 + - + z2) — 2#(z¡ + za + : +z„) +n22 _ m„ — Ì Ta đặt vn
gọi là giá trị bình phương trung bình mẫu Thay ry +Zza+ -+ In = = nz vao cong thức trên ta thu được
Ví dụ 2.25 Xét dữ liệu về độ dài (mm) chỉ tiết máy được gia công trên máy A và B
Gia công trên máy A: 28 30 31 29 32 30
Gia công trên máy Ö: 35.24 25 36 39 21
Trung bình mẫu và phương sai mẫu tính được như sau:
28 + 30 + 31 + 29 + 32 + 30 TA = — 7 = 30, 354+ 244+254 36439421 LB = = 30, 6 2a (28 — 30)? + (30 — 30)? +.(31 — 30)? + (29 — 30)? + (32 — 30)? + (30 — 30)? A —_— | | 5 = 2, 2a (35 — 30)? + (24 — 30)? + (25 — 30)? + (36 — 30)? + (39 — 30)? + (21 — 30)? BT 5 = 56, 8
Trang 32
32 _2 THỐNG KE MO TA VA PHAN PHOI MAU
2.4.6 Phương pháp tính giá trị trung bình và phương sai
mau’ |
Xét một mẫu cho bởi bảng phân phối tần số
Xi +11 ' | 12- Lk Nj Ny n2 Nk thức | Để thuận tiệ Cách tổ _ như Excel, § đữ liệu sau: Giải - Khi đó-g us Bảng 2.4: Bảng phân phối tần số ˆ
id trị trung bình và giá trị phương sai mẫu được tính theo các cơng k _ 1 Z=—) n < ni, z=l k — 1 9 zr? = — So nit, n < , 1=1 2 TỪ r3 _ x2 s“= +2 — n— i$ ) s= VI,
ìn khi tính toán người ta thường lập bảng tính như sau:
Lj ny Nii nx? Ly ny T71 mx? _ #2 T2 NX Nyx? : Lk ThE NRL pT? » n S2 n1; 5 n1?
Bảng 2.5: Phương pháp tính giá trị trung bình và phương sai
chức tính toán trên rất phù hợp khi sử dụng các phần mềm hỗ trợ preadSheet,
_ Vi du 2.26 Tim giá trị trung bình, phương sai và độ lệch tiêu chuẩn của mẫu “18 15 19 16 14 17 19 16 17 18
Trang 33
2:4 Gid tri dac trung mau ' - : 33
Từ mẫu ta tính được kích thước mẫu n = 10 va
3 z¡ = 169, S z; = 2881 i=1 ` i=1 ¬ Vậy 1 2-19 n= —~ = 16,9) — 2 NI», = = 288, 1 2 7 z7 cay — 10 2 _ 2) _ 9 S — (2? —Z*) = ạ 288.1 16, 9°) = 2, 7667; s = 1, 6633
Ví dụ 2.27 Tìm giá trị trung bình và phương sai của mẫu dữ liệu sau:
T; 30 | 302 | 304 30,6 30,8 31,0 ni 5 7 12 17 | 11 8 Giai ; | Ta lập bảng tính các tổng của dữ liệu Xi; Thị 4X; nix? 30 150 4500 30,2 2114 _6884,28 30,4 12 364,8 | 11089,92 30,6 17 520,2 15918,12 308 | 11 | 3388: | 10435,04 31 | 8 248 ˆ 7688 - 9` | 60 | 1833/22 | 56015,36
Giá trị trung bình và phương sai mẫu là
| n5, 2
z= = ae = = 30, 5533;
Trang 34
34
Vi du 2.28
2 THONG KE MO TA VA PHAN PHOI MẪU
Tìm giá trị trung bình và phương sai của mẫu dữ liệu sau:
Li 1214 | 1416 | 16-18 | 18-20 | 20-22 | 292-24 n; 2 6 9 8 4 1 Giải
Ta lẫy giá trị trung tâm của mỗi khoảng làm giá trị đại điện cho cả khoảng
đó và lập bằng tính như trong ví dụ trước
Lj nụ NX; nx? 13 2 26 | 338 15 6 90 1350 17 9 |; 153 | 2601 19 8 152 2888 21 4 84 1764 23 1 23 | 529 9 | 30 | 528 | 9470
Giá trị trung bình và phương sai mẫu là
Ví dụ 2.29 điều kiện tối
== = = 17 6,
— 2 = -S na? = —— =31 _ 9470
zx Ly ngời = =r = 315, 6667,
nal
ga" (P_F) =611 s ¬—1#”~ P)= 6,1103
Thống kê cho thấy, nồng độ muối trong nước khoảng 15-22 (g/1) là
ưu cho việc nuôi tôm sú trong các vùng ven biển có nồng độ muối
cao Dể kiếm soát nồng độ muối trong hồ nuôi, người ta lắp đặt hệ thống quan
trắc gồm 20 trạm đo Các thông số về nồng độ muối hàng ngày được thu thập về
một trung tâm xử lý Giả sử dữ liệu quan trắc trong một ngày nhận được là
18 20 22 23 19 19 21 19 22 21 20 19 18 19 20 19 19 20 21 20
(a) Hãy tính giá trị trung bình và phương sai của mẫu trên
Trang 35
2.4 Giá trị đặc trưng mẫu
chuẩn với trung bình 19 và độ lệch tiêu chuẩn 2 Hãy tính xác suất để nồng độ muối vượt ra ngồi vùng kiểm sốt tối ưu
Giải
(a) Trước hết, ta biểu diễn dữ liệu dưới dạng bảng phân phối tần số
Nồng độ muối z; (g/1) 18 19 20 21 22 23 Tần số n; 2 ĩ 5 3 2 1 Sau đó ta lập bảng tính 18 2 36 648 19 | 7 | 133 | 2527 20 oO 100 2000 21 3 63 1323 22 | 2 44 | 968 23 1 23 529 xy | 20 | 399 | 7995
Giá trị trung bình và phương sai mau-tinh dugc la
k 1 399 re =——=l9, 7 n mi 20 99, = = 399, 75, —#?)= = (399, 75 — 19,957) = 1, 8395
(b) Ký hiện nồng độ muối trong hồ nuôi bởi X Ta biết rằng X ~ N ( 19 ,2?) Xác
suất để nồng độ muối vượt ra khỏi miền điều khiển tối ưu là
Trang 36
36 2 THONG KE MO TA VA PHAN PHOI MAU 2.5 - Phân phối của các thông kê mẫu :
2.5.1 Mẫu ngẫu nhiên và thống kê mẫu Như đã đề cập ở đầu chương, lý do của việc lấy mẫu là do ta không thể kiểm
tra tất cả các phần tử của tập chính Thay vào đó, ta nghiên cứu các phần tử
trên tập mẫu và tìm cách rút ra kết luận về toàn bộ tập chính Để có thể làm được điều đó, ta phải mơ hình hóa mối liên hệ giữa tập chính và: tập mẫu Việc
làm này có thể thực hiện được dựa vào một số giả thiết về phân phối của (các giá trị tương ứng với các cá thể trong) tập chính và tập mẫu |
| `
Hình 2.7: Mẫu thay đổi trong các lần chọn mẫu khác nhau
! |
Tưởng tượng rằng có một biến ngẫu nhiên X xác định trên tập chính, ở đó ˆ giá trị quan sát trên mỗi cá thể của tập chính được xem như một giá trị của biến
ngẫu nhiên X Phân phối của biến ngẫu nhiên X cũng được gọi là phân phối của
tập chính Giả sử tập mẫu (1), 22, ,%n) được chon ngẫu nhiên Nếu chỉ xét riêng phần tử ở vị trí thứ ¡ trong mẫu, z; sẽ thay đổi trong các lần chọn mẫu khác nhau Do đó, ta xem z;¡ như là một thể hiện của một biến.ngẫu nhiên X;
nào đó Tổng quát hóa, tập mẫu (Z, z¿, , z„) là một thể hiện cụ thể của biến
ngẫu nhiên nhiều chiều (X\, X¿, , Xa) Trong suy diễn thống kê, ta thường giả
thiết rằng các biến ngẫu nhiên Xị; Xạ,: , X„ là các biến ngẫu.nhiên độc lập và
có cùng phân phối với biến ngẫu nhiên gốc.X Giả thiết này là khá hợp.lý nếu
ta chọn mẫu |một cách ngẫu nhiên
Định nghĩa 2 7 “Cho (Xy, Xz, +, Xp, 1a các biên:ngẫu nhiên độc lập và Có
cùng hàm phân phối F(z) Ta goi (X, X›, X„ ) là một mẫu ngẫu nhiên † kích thước in tit ừ tập chính có ó hàm: phân phối F Me )
Trang 37
2.5 Phân phối của các thống kê mẫu 37
Định nghĩa 2.8 Một thống kê là một hàm của mẫu ngẫu nhiên
Chúng ta sẽ thường xuyên sử dụng các thống kê mẫu ở những chương kế tiếp Nói chung phân phối của các thống kê này phải hoàn tồn xác định hoặc có thể
xấp xỉ được Việc xác định phân phối của một thống kê cho trước phụ thuộc vào
phân phối của biến ngẫu nhiên gốc X trên tập chính và kích thước của mẫu ngẫu
nhiên Sau đây là một số thông kê quan trọng hãy được dùng |
Trung binh mau ngau nhién
Xi+Ä¿+ -+X„
?
X=
Phương sai mẫu ngẫu nhiên
xX)?
øœ_ (Ấn —X)*+(X;- ÄX)?+ :+ (Xa-
n— Ì
Độ lệch tiêu chuẩn mẫu ngẫu nhiên '
cấy —==—-—.- — n-1
2.5.2 Phân phối của trung bình mẫu X |
Théng ké trung binh mau X là một thống kê quan trọng và được dùng trong các bài toán liên quan đến việc đánh giá trung bình tập chính thơng qua trung
bình mẫu |
Goi X là biến ngẫu nhiên xác định trên tập chính với ki vọng js và phương sai ơ? Giả sử (X, X¿, , X„) là mẫu ngẫu nhiên cắm sinh từ Ấ (tức là Ấn, , Ấn
độc lập và có cùng phân phối với X) Khi đó,
EX, Xa tee + Xp E|XJ=E|————_———
(E[Xi] + ElX:] + - + E[X,])
Trang 38
38 2:THONG KE MO TA VA PHAN PHOI MAU
Xi+X;+- +X, —— Vv [X] =v = (VỊX:] + VỊX;] + - + VỤX,]) n2\ 1L; ơ? = 9 lo —=_—, n n
Nếu X), Xạ, , X„ có cùng phân phối chuẩn Níu, ø?) thì X sẽ có phân phối
chuẩn với cùng kì vọng và phương sai ø?/n | :
| | - «
Dinh ly 2.1 a) Gid st X,, Xo, ,Xn la mot mau ngdu nhién tu phan phoi
| 2
chudn N(p,07) Khi dé X có phân phối chuẩn N{u, ~—) va thống kê
' ne
có phân phối chuẩn tắc N(0, 1)
b) (Định lý giới hạn trung tâm) Giả sử X\,X¿, , X„ là một mẫu
2
ngẫu nhiền của biến ngẫu nhiên X tới kà uọng 0à phương sai ơ2 hữu han
= ¬ a he 2 Mã ` aps
| thà phân phôi của X có phân phối rap tỉ phân phơi chuẩn N(ú, —) tà thông
kê _
Oo
tap vi phan phối chuẩn tắc N(0,1) khi m đủ lớn
Chú ý 2.1 Thông thường n > 30 được coi là đủ lớn oà khi đó ta có thể dp dung:
định lý giới hạn trưng tâm : oo
Ví dụ 2.30 Một cơng ty sản suất bóng đèn điện có tuổi thọ tuân theo luật phân
phối chuẩn với tuổi thọ trung bình là 800 giờ và độ lệch tiêu chuẩn 40 gid Tinh
xác suất để một mẫu ngẫu nhiên 25 bóng đèn điện có tuổi thọ trung bình lớn
hon 780 giờ, | | | |
Giải Ta gọi X là tuổi thọ trung bình của 25 bóng đèn điện Khi đó X ge phan
phối chuẩn với giá trị trung bình là ;¿ = 800 và độ lệch tiêu chuẩn ø = —— =8
_ Vf 25
2 X — 800 z ^ Ae 2 ov “ a a z `”
Do đó Z = — 3 có phân phơi chuẩn tắc N(0,1) Xác suat can tính là
— _ (X—800 780-800 ¬
POX > 780) = P ( = > 5 ) = PZ> -25
=1-— P(Z < -2,5) = 1 —- ®(—2,5) = 1 — 0,0062 = 0, 9938
Trang 39
2.ö Phân phối của các thống kê mẫu | ¬ — 39
Ví dụ 2.31 Chi nhánh Hà Đông của công ty truyền hình cáp Việt Nam quản
lý 70 nghìn khách hàng Chi phí bảo hành cho mỗi khách hàng mỗi năm có thể
coi là một biến ngẫu nhiên với trung bình 150 nghìn VND và độ lệch tiêu chuẩn
350 nghìn VND Hãy ước tính xác suất để tổng chỉ phí bảo hành vượt quá 10,64
tỉ VND |
Giai Ky hiéu X; (¢ = 1,2, ,n = 7 x 10!) là chỉ phí bảo hành một năm cho khách hàng thứ ¿ Khi đó, chỉ phí bảo hành của toàn bộ hệ thống trong một năm
là | n
nX = » Xj
2=]
"Theo định lý giới hạn trung tâm, X là biến ngẫu nhiên có phân phối xấp xỉ chuẩn 350 x 10°
V7 x 10
tong chỉ phí bảo hành hàng năm vượt quá 10,64 tỉ VN Dia |
với trung bình 150 nghìn VND và độ lệch tiêu chuẩn Vậy xác suất để
10, 64 x 109 7 x 104 P(nX > 10,64 x 10°) =P (x > X — 150 x 10° ` 152 x 10° — 150 x 103 _ 350 x 103 350 x 103 ` 7x10 V7 x 10 ~ P(Z >1,51)=1- 9(1,51) ~ 1 — 0,9345 =0,0655 - =f
Ví dụ 2.32 Một bệnh viện muốn tận dụng tầng 2 của một tòa nhà cũ gồm 2 tầng để làm khu vực khám bệnh Để đảm bảo an toàn, người ta muốn ước tính
sức chứa (bao nhiêu người?) của tầng 2 tòa nhà Các kỹ sư xây dựng cho rằng kết cấu của tòa nhà có thể chịu được tải trọng 5 tấn Giả sử rằng khối lượng của
một người là biến ngẫu nhiên với trung bình 60 kg và độ lệch tiêu chuẩn 2ð kg
(a) Hãy ước tính sức chứa của tầng 2 tòa nhà sao cho xác suất để kết cấu tịa
nhà bị phá hủy khơng vượt quá 5%
{b) Sau khi gia cố tầng 2, các kỹ sư cho rằng sức chịu tải của tầng 2 tòa nhà là
biến ngẫu nhiên có phân phối chuẩn với trung bình 7 tấn và độ lệch chuẩn
0,2 tấn Hãy ước tính sức chứa của tầng 2 tòa nhà để xác suất kết cấu nhà bị phá hủy không vượt quá 5%
Giải
-{a) Gọi X; là khối lượng (tính theo kilogram) của người thứ ¿ € {1,2, , nr}
Trang 40
40 2 THỐNG KÊ MÔ TẢ VA PHAN PHOI MAU
Ta phải tính xác suất để kết cấu của tòa nhà bị phá hủy :
Theo «
P (sox >5x | ¬
t=]
dinh ly gidi hạn trung tâm, biến ngẫu nhiên =@ lK¬
-2
fg 2 ` ` 2ð
có phận phơi xâp xỉ chuẩn với trung bình 60 và phương sai —— Do đó
) n Ta sé hay ti Ta tin P (> X,>5 <0? = P(nX >5 x 10°) 7=1 5 x 103 X-60_ —p — 60 25//n 25//n 5 x 103 — 6Ũn - (2> ) =P
tim ? sao cho
5 x103— 5 x 103 — 60 r[Z> x 10 ”)-:-s( =) < 0,05 25/n fƠng đương _ 9B5Vn 5 x 10? — 60n Bye > 1,645 ì được n< 77
Vay neu số người có mặt không vượt quá 77 người tại cùng một thời điểm
trên tầng 2 của tòa nhà thì xác suất để kết cấu tòa nhà bị phá hủy sẽ ít hơn 5% Việc ước tính này giúp cho bệnh viện có thể thiết kế các đơn vị khám bệnh $ao cho vừa đảm bảo tận dụng các điện tích trống, vừa đảm bảo an
toàn tt
Goi Y|
ong van hanh
là biến ngẫu nhiên chỉ sức chịu tải của tầng 2 tòa nhà Theo bài ra, Y có phân phối chuẩn với trung bình 7 tấn và độ lệch chuẩn 0,2 tấn Xác