1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xác suất thống kê tập ii dành cho sinh viên các ngành kỹ thuật công trình, cơ khí và công nghệ thông tin

112 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 112
Dung lượng 4,11 MB

Nội dung

Trang 1

Chương 1

CƠ SỞ CỦA LY THUYET XÁC SUẤT

Trong: chương này, chúng ta trình bày tóm tắt một số khái niệm cơ bản của

Lý thuyết xác suất, đã được trình bày đầy đủ trong cuốn giáo trình Xác suất

- Thống kê: Tộp 1 |4] Các phần kiến thức này sẽ được sử dụng trong những

chương tiếp theo để mô hình hóa và qua đó đưa ra lời giải cho các bài toán suy diễn thống kê Với mục đích đó, các ví dụ và bài tập trong chương này sẽ được giản lược một cách tối đa hoặc được bỏ qua Độc giả muốn tìm hiểu thêm về các ý tưởng cũng như các kết quả của Lý thuyết xác suất có thể tham khảo trong cuốn giáo trình trên :

1.1 Biền.cỗõ và xác suât_

Phép thử ngẫu nhiên: là phép thử hay thí nghiệm mà kết quả của nó khơng thể dự báo được và có thể thực hiện nhiều lần dưới các điều kiện như nhau Không gian mẫu: Tập hợp tất cả các kết quả xảy ra của một phép thử ngẫu

nhiên gọi là không gian mẫu và ký hiệu là ©)

Biến cố là một tập con của không gian mẫu Ta ký hiệu các biến cố bởi các

chữ cái in hoa như A, 8,C, v.v Biến cố 4 xuất hiện nếu kết quả của phép thử

là một phần tử của tập A

Ví dụ 1.1 1 Xét phép thử ngẫu nhiên là gieo một con xúc sắc Không gian mau la 2 = {1,2,3,4,5,6} Biến cố A xuất hiện khi mặt có số chấm chăn

xuất hiện, khi đó ta có biểu diễn 4A = {2,4,6} —

Trang 2

1 CO SO CUA LY THUYET XAG SUAT

mau la Q = 1000 g 3 Xét phi Khơng khơng

Các phép tốn trên tập hợp k biến cố:

a) Hợp hai

ra, hoặ

id, vay B=

[0, +00) = R, Bién co B chi tuổi thọ của bóng đèn khơng q

(0, 1000]

ép thử là đếm các cuộc gọi đến một tổng đài trong thời gian 1 phút

gian mẫu là 2 = {0,1,2,3, } = Ñ Biến cố Œ chỉ số các cuộc gọi

quá 5, vậy Œ = {0, 1,2, 3, 4,ð} _

Cho A, B la các biến cố, ta noi biến ‹ cỗ A và B, ký hiệu AU T) xây ra khi và chí khi hoặc A Xây

c Ð xảy ra a

b) Giao hai bién c6 A va B (tich của hai biến cố), ký hiệu AB (hoặc AB),

xay ra khi và chỉ khi đồng thời A và Ö xảy ra Khi AB = 0 ta noi A vA B

là hai biến cố xung khắc c) Biến cố ra Dinh nghia mãn các tính a) P(A) b) P(Q) = c) Cac bién Tinh chat: a) P(0) > 0

đối của biến cố A, ký hiệu là 4, xảy ra khi và chỉ khi A không xảy

xác suât: Xác suât là một hàm P xác định trên các biến cố thỏa `

chất sau:

2

c6 (A;)™, đôi một xung khắc thì

=1) = d P(Ai)

=0,

b) AC B=!P(A) < P(B),

/

ec) P(A)=1- P(A),

Trang 3

N

1.1 Biến cố và xác suất : | | 3

Định nghĩa cổ điển: Xét một phép thử có n kết quả đồng khả năng Biến cố A có m kết quả thuận lợi Xác suất của biến cỗ A được xác định bởi công thức

P(A) = m _ |A| _ số phần tử của A n |Q| số phần tử của Q'

Tuy nhiên, trong trường hợp không gian mẫu là liên tục ta không thể định nghĩa xác suất như trên được Chẳng hạn, chọn ngẫu nhiên một số trong đoạn O = (0, 1], xác suất của biến cố A = [a,b] được xác định như là độ dai cia cha doan [a, b],

nghĩa là | | 7

P({a, b]) = b — a |

Vi du 1.2 Một lớp học có 40 sinh viên Tinh » xác suất để có ít nhất hai sinh

viên có cùng ngày sinh nhật - Giải

Goi A4 là biến cố có ít nhất hai sinh viên có cùng ngày sinh nhật Khi đó 4 là :

biến cố các sinh viên có ngày sinh khác nhau Ta coi một năm có 365 ngày Các

sinh viên có ngày sinh như nhau trong 36ð ngày, khi đó số khả năng có thể xảy

!

ra la n = 365% S6 truong hợp thuận lợi cho A 1a m = Aj®, = Oe a Khi đó xác suất của biến cố đối A là

| PCA) = gần = 0,108 ¬ 4ã;

Xác suất của biến cố A là

P(A) =1— P(A) = 0,891

Xác suất có điều kiện: Sự xuất hiện của thông tin mới thường ảnh hưởng

đến khả năng xảy ra của các biến cố Xác suất xảy ra biến cỗ B khi biết rằng

biến cố A đã xảy ra được gọi là xác suất có điều kiện, kí hiệu là P(B|4), và được

xác định bởi

, P(BỊA) = P(AB) ‘(néu (4) z 0) „„

Biến cỗ độc lập: Hai biến cố A và là độc lập nếu xác suất xảy ra một biến cố không thay đổi khi biến cố kia xảy ra, tức là P(BỊA) = P(B) và P(A|B) = P(A)

_ Nói khác đi, hai biến cố A và Ø là độc lập nếu

P(AB) = P(A)P(B)

Nói rộng ra, hệ biến cố {4u, 4a, , 4z} được gọi là độc lập trong toàn thể nếu _ với một hệ con bất kì {4;,, 4;,, , 4;,}

Trang 4

OY

4 ._— 1CاỞ CỦA LÝ THUYẾT XÁC SUẤT

1.2 Bién ngau nhién ¬

Biến ngấu nhiên là một hàm xác định trên không gian mẫu Q Ta ky hiéu bién ngau nhiên bởi X, Y, Z, hay X, Xa, X3

Biến ngẫu nhiên rời rạc: Nếu biễn ngẫu nhiên X nhận các giá trị trong tập

5 = |, 21 1" gồm hữu hạn hoặc đếm được các giá trị thì ta gọi X là biến

ngẫu nhiên rời rạc Khi đó hàm

_ƒ(œ)= P(X=s), xe 8

- được gọi là hàm khối xác suất Hàm khối xác suất thỏa mãn các tính chất

() f(x) 20

(i) fe) = zcS

- Biến ngẫu nhiên liên tục: Nếu biến ngẫu nhiên X nhận giá trị trong một

khoảng nào đó của đường thắng thực thì X được gọi là biên ngẫu nhiên liên tục

Hàm số ƒ{z)|gọi là hàm mật độ của biến ngẫu nhiên X nếu

(i) f(x) > 0,

() J ƒø)4z =

(iti) P(a < X <b)= [ tae

Ham phan phối xác suất của biến ngẫu nhiên X (còn gọi là hàm phân phối

tích lũy), ký hiệu là Fx(z) hay ngắn gọn la F(x), xAc định bởi công thức > f (#9) bién rdi.rac,

| - so Ti€ŠZ

F(z) = P(X <2)=¢ |

/ ƒ(u)du biến liên tục

'Nếu biết hàm| phân phối xác suất Ƒ'(z) của biến ngẫu nhiên X thì ta có thể tính

xác suất theo|công thức:sau:

Trang 5

a

1.2 Biến ngẫu nhiên - ¬ ¬

Chú ý rằng đối với biến ngẫu nhiên liên tục X, các biến cố a < X < b,

œ< X<b,a< X<bvàa< X < Ị có xác suất bằng nhau xì xác suất để X _

nhận một giá trị đúng ø hay b đều bằng 0

Tính chất của hàm phân phối xác suất:

1.0 < F(c) <1, |

2 F(-00) =0, F(+00) = 1,

3 F(z) liên tục phải, nghĩa là lim F(x + h) = F(a),

4 F(x) là hàm không giảm, nghĩa là z < = F(x) < Fy)

Ví dụ 1.3 Gieo một con xúc sắc cân đối và đồng chất Gọi biến ngẫu nhiên X là số chẫm xuất hiện Khi đó X là biến ngẫu nhiên rời rạc, nhận các giá trị 1,2,3, 4,5,6 với xác suất bằng nhau và bằng 1/6 Ta có bảng phân phối xác suất

của X là :

X|1 2 3 4 5 6

Ple 6 6 6 68 6

Hàm phân phối xác suất của X là

fo x<l, z 1<2< 2, 2 2<2<3, F(z) = P(X <2)= 43 3<xz<4, 7 4<z+z<5, | 2 5<24<6, (1 zr 26

Ví dụ 1.4 Chọn ngẫu nhiên một số X trong đoạn |0, 2], các số được chọn có ' khả năng như nhau Khi đó hàm mật độ là một hằng số trên đoạn [0, 2| và bằng

0 trong các trường hợp còn lại Hàm mật độ của biến ngẫu nhiên X được xác

định bởi công thức

Trang 6

6 _ 1 CƠ SỞ CỦA LÝ THUYÊT XÁC SUẤT

` Hàm phân phối xác suất của X là

+<0, O0<2< 2, xz > 2 F(x) = re wik ©

Kỳ vọng (giá trị trung bình) của biến ngẫu nhiên X ký hiệu là = E[X] va được xác định bởi công thức -

z¡;€S

_BỊX]= ý +ế » #;Ƒ(z;) - biến rời rac, xf(x)dx biên liên tục

—œ

Tổng quát, với hàm ø(z) bat ky thi Y = ø(X) là một biến ngẫu nhiên có kỳ vọng

`_ g(z;)ƒ(+z¿) biến rời rạc, - z¡cS E[g(X)J= 4 te / g(x) f(x)dx biến liên tục Chang hạn với g(z) = z?, ta có | : » z?Ƒƒ(x;) biến rời rạc, +¡;€S E[X?] = +00 x’ f(x)dx biến liên tục —GœO

Phương sai, độ lệch tiêu chuẩn: Phương sai của biến ngẫu nhiên X, ký hiệu

là z? = V[X],| và xác định bởi công thức

Vịx] = E[(X - E(X])?] = E|X°] ~ (E|X]}

Độ lệch tiêu chuẩn của biến ngẫu nhiên X là ơ = V VỊX|

Tính chất 1 Elel = e| V{e| = 0, với e là hằng số,

2; ElaX + b| = aE[X]+b, VịaX + bị = a?V[X|, với a,b là hằng số

Trang 7

1.3 Một số phân phối xác suất _ 7

Mode: Giá trị z để hàm khối xác suất ƒ(z) hoặc hàm mật độ ƒ(z) đạt giá trị ˆ lớn nhất gọi là mode của biến ngẫu nhiên X

Trung vi (median): Giá trị mm được gọi là trung vị của biến ngẫu nhiên X nếu giá trị đó chia đôi hàm phân phối xác suất, nghĩa là

1 Lue eg ae

P(X <m)> 5 va P(X >m)> 5 đối với biên ngẫu nhiên rời rạc, và

1 ge ae Lek x

F(m) = 5 đối với biến ngẫu nhiên liên tục

Giống như giá trị trung bình, trung vị có tính chất quan trọng trong việc dự đoán

giá trị của biến ngẫu nhiên X Nếu như giá trị trung bình cực tiểu hóa kỳ vọng của bình phương sai số (E[(X — u)?]) thì trung vị cực tiểu hóa kỳ vọng của sai số tuyệt đối, tức là R[|X — c|| đạt giá trị nhỏ nhất khi c =

Trung vị là trường hợp riêng của, một khái niệm rộng hơn mà ta gọi là phân

vị Ta nói mm, là giá trị phân vị p của hàm phân phối xác suất Ƒ' nếu ta có

Fứm,) = Pp

Khi p = = 25% thi mo 2s gọi là phân vị bậc 1, khi p= - 50% thì mmạs gọi là phan vi

bac 2 (chinh 1& trung vi), khi p = 75% thi mo,75 goi 1a phan vi bac 3 —

1.3 Một số phân phôi xác suất

Trong mục này, ta sẽ để cập đến những phân phối xác suất mà việc sử dụng

chúng trong những chương tiếp theo là cần thiết

Phân phối Bernoulli: Biến ngẫu nhiên X có phân phối Bernoulli (ta viết

X ~ Ber(p)) với xác suất thành công p, X nhận giá trị 0š và 1 Hàm khối xác

suất của X cho bởi :

P(X =1)=p, P(X=0)=1—p:

Ta có

E|X] = p, V[X] = p(1 — p)

Phân phối nhị thức: Biến ngẫu nhiên X có phân phối nhị thức với tham số n va p (viet X ~ B(n,p)) nếu X nhận giá trị {0,1, ,m} và có hàm khối xác

suất

f(z) — Crp’ (1 —p)"*, t= 0, 1,- ¬ XIN

Ta có ,

E[X] = np, V[X] = np(1 - ?) | ”

Trang 8

“Bf 1 C0 86 CUA LY THUYET XÁC SUẤT

Phân phôi Poisson: Biến ngẫu nhiên X có phân phối Poisson với tham số

À>0 (viết X ~ P(2)) nêu X nhận giá trị {0,1; } và có hàm khối xác suất \e

f(z) = P(X =z) = we

" Khi do

Phan phéijma: Bién ngẫu nhiên X có phân phối mũ với tham số À > 0 (viết

X ~ EXP(À)) nêu X có hàm mật độ cho bởi công thức

SỐ de ** 2 > 0,

Jữ) at 2 <0

_' Các số đặc trưng

E(X|=-—, V[xX|=—

Phân phối chuẩn: Biến ngẫu nhiên X có phân chuẩn với tham s6 p va o?

"(viết X ~ Nữ», ø?)) nếu X có hàm mật độ xác định bởi công thức

1 _ (=~u)? | f(z) = e 2%? , ER ØV27n Các số đặc trưng - | E|X] =p, V[X] = a” |

_ Khip=0,0 1, biến ngẫu nhiên X có phân phối chuẩn tắc N0, 1) Phân '

, phối chuẩn XI ~ Nặu,ø2) có thể đưa về phân phối chuẩn tắc qua phép biến đổi

o

Z= ~N(0,1)

` ` ~ ~ ˆ “^^ As 2 av

_ Ham mat d6 cia phân phôi chuẩn tắc

we

1 2

K@) = Tee mo

có dạng hình chuông và đối xứng qua trục tung

- Hàm phân phối xác suất của Z là

Mức phân vị của phân phối chuẩn z„ xác định từ đẳng thức

` P(Z >.zs) = => P(Z<z) =l-a> Oz) =1l-a

Trang 9

1.4 Biến ngẫu nhiên nhiều chiều ¬ =9 Giá trị của hàm ®(z) và mức phân vị của phân phối chuẩn tắc được tính sẵn trong bảng ở phần phụ lục của giáo trình Chẳng hạn từ Hình 1.1, giá trị của hàm phân

phối chuẩn tác P(Z < 1,50) = ®(1,50) = 0,93319 và P(Z < 1,52) = 8(1,52) = |

0,93574 Ngược lại, nếu ta cần tính z„ với œ = 0,05, ta có ®(z„) = 1— œ = 0,95

P(Z < 1.5) = ®(1.5) 2 | 0.00 0.01 0.02 0.03

0 | 0.50000 0.50399 0.50398 0.51197 -

, ` 15 | 0.93319 0.93448° 0.93574 6.93699

lê) 1.5 z ` ,

- Hình 1.1: Hàm mật độ của phân phối chuẩn tắc

Trong bằng giá trị của phân phối chuẩn tắc tá tính được ®(1,64) = 0,95, do đó Za = 2005 = 1,64 Với giá trị của z„/¿ ta tính tương tự ®(z„/s) = 1— 0,05/2 =

0, 975 = ®(1,96), nên Za/2 = 20,025 = 1, 96

1.4 Biên ngẫu nhiên nhiều chiều

Biến ngẫu nhiên nhiều chiều: Cho Xị, Xz:, , X„ là các biến ngẫu nhiên

liên kết với một phép thử ngẫu nhiên nào đó Ta gọi X = (Xị,X¿, ,X„) là một biến ngẫu nhiên nhiều chiều Nếu các biến ngẫu nhiên X\, X¿, , X„ là rời

rạc, ta gọi X là biến ngẫu nhiên nhiều chiều rời rạc Nếu Xị, X¿, , X„ là các -

biến ngẫu nhiên liên tục ta gọi X là biến ngẫu nhiên nhiều chiều liên tục _ _ | Biến ngẫu nhiên độc lập: Các biến ngẫu nhiên X), X¿, , X„ được gọi là

độc lập nếu với mọi tập 4y, 4;, , 4„ của đường thắng thực, ta có © |

P(X € Ay, Xo € Ag, ,Xn © An) = P(X) € A1)P(Xp € Ay) P(Xpn € An)

Hàm khối xác suất đồng thời: Trong trường hợp biến ngẫu nhién nhiéu |

_ chiéu réi rac, ham f(x), %9, ,%n) = P(X, = 11,Xq = 2, ,Xn = Ln) dude:

gọi là hàm khối xác suất đồng thời

Hàm mật độ đồng thời: Trong trường hợp biến ngẫu nhiên nhiều chiều liên

tục, hàm ƒ(z,Zs, ,„) được gọi là hàm mật độ đồng thời nếu

by bn

P(m < Ấ: <bi, ian * Ấn < bạ) = fons f Flory 205-50) dn đ1 Qn

Trang 10

1 | | _1 CƠ SỞ CỦA LÝ THUYẾT XÁC SUẤT -

Kỳ vọng của biến ngẫu nhiên Z = g(X¡,X¿, , X„) xác định bởi công thức 2 0(21, , 2n) ƒ(Œ1, 2n) _ (rời rạc)

Elg(X,- \Xn)JJ=4 te + TT“ (liên tục) Hiệp phương sai (covariance) và hệ số tương quan: Hiệp phương sai của,

hai biến ngẫu nhiên X) và X¿ xác định bởi

Cov( X14 Xa) = Bl(X1 — E|X,))(X; — E[Xa)] = E[X Xo] — E[X,IE[Xa]

Hệ số tương quan giữa X), X; ký hiệu ø(X:, X¿) xác định bởi

| | Cov(X1, Xo)

p= p(X1, X2) ~ JV) VX]

Ma trận hiệp phương sai: Ma trận C = (c,;) là ma tran vng cấp ø có các

phần tử |

C¿j — Cov(X;, X;)

được gọi là ma trận hiệp phương sai của biến ngẫu nhiên nhiều chiều X =

(X1, ,Xn) : ,

Tinh chat

1 E[X, + X; +:::+ X„] = EÍX¡] + E[Xa] + - + E[X,]

VỊX,)

3 Nếu ¡| X; độc lập thì ElX¡4Xa| = E|[X,|E[X2] va Cov(X1, X2) = 0 Nói `

~

chung điều ngược lại không đúng

4 Hệ số tương quar ø € [—1, 1]

Trang 11

oll

Chuong 2

THONG KE MO TA VA PHAN PHOI MAU

Từ chương này trở về sau, ta sẽ thường xuyên làm việc với các bài toán liên quan đến dữ liệu, nói ngắn gọn là các kết quả thu được từ các thí nghiệm hay

quan sát và được lưu trữ lại dưới dạng các giá trị số hoặc các tên gọi Chẳng hạn

khi tiến hành thí nghiệm về mức tiêu thụ nhiên liệu của một loại xe ô-tô trên -

100km, thì kết quả ghi lai là số (lít) nhiên liệu Khi kiểm tra về giới tính của học

sinh tiểu học thì kết quả được ghi là Nam và Nữ, tuy nhiên ta cũng có thé ghi là

1 nếu học sinh là Nam và ghi là 0 nếu học sinh là Nữ Khi kiểm tra về nhóm máu của các sinh viên thì kết quả được biểu diễn bởi các chữ O, 4,B, AB đặc trưng

cho các nhóm máu (theo hệ thống ABO) và nếu phân loại theo yếu tố Rh thì kết '

quả là 8 nhóm dương tính Ĩ+, 4+, B+, 4+ và âm tính O—, A—, 8—, AB-~

Thông thường, dữ liệu có thể được lưu trữ ở một dạng nào đó phù hợp với việc

tiến hành thí nghiệm Để có thể dễ dàng trích xuất được thông tin, dữ liệu cần - được sắp xếp, biểu diễn lại và tính tốn tổng quan Phần thống kê liên quan đến

các công việc kế trên gọi là thống kê mô tả Trong chương này, trước hết chúng

ta sẽ làm quen với các khái niệm cơ bản trong thống kê như tập chính (quần

thể), cá thể (đối tượng nghiên cứu), mẫu ngẫu nhiên (Mục 2.1), các cách biểu _ điễn mẫu (Mục 2.2) và tính tốn các số đặc trưng như trung bình mẫu, phương

sai mẫu, trung vị, mode .(Mục 2.3) Ở phần cuối chương, một số thống kê mẫu và phân phối của chúng (Mục 2 4) sẽ được giới thiệu, làm cơ sở cho các bài toán

suy luận thống kê ở các chương tiếp theo | |

2.1 Tập chính và tập mẫu

Các bài toán thống kê thường gắn với việc nghiên cứu về một đối tượng nhất

định Chẳng hạn chúng ta cần xác định chiều cao trung bình của thanh niên Việt

Trang 12

12 i | 2 THONG KE MO TA VA PHAN PHOI MAU

Nam thì mỗi thanh niên là một đối tượng nghiên cứu, ta gọi là cá thể Tập tất

cả thanh niện Việt Nam gọi là quần thể hay tập chính

Định ngÌÌïa 2.1 Tập chính bao gồm tất cả các đối tượng rnà ta cần nghiên cứu |

Ta ký hiệu tập chính là 9 Mỗi phần tử trong tập chính được gọi là một cá

thể, ký hiệu là œ Số lượng các phần tử trong tập chính được gọi là kích thước

tập chính và ký hiệu là W = |O| Ví dụ khi ta tiến hành kiểm tra nhóm máu của

các sinh viên khi nhập trường, nếu ta có 3500 sinh viên thì kích thước của tập

chính là N = 3500 -

Kích thước của tập chính thường là rất lớn (có thể hữu hạn hoặc vơ hạn) và

rất khó xác định (cá thể thay đổi) như số lượng điện thoại di động được sử dụng ở thành phố Hà Nội Trong thống kê, các nhà nghiên cứu quan tâm đến các kết luận về tập chính trong khi ta khơng thê hoặc không khả thi để kiểm tra tất : cả các cá thể trong tập chính Chẳng hạn một nhà máy sản suất bóng đèn điện muốn xác định tuổi thọ trung bình của các bóng đèn đã bán ra thị trường, việc - thống kê tuổi thọ tất cả các bóng đèn điện đã bán là không thể Ngay cả khi việc

kiểm tra tất ! cả các đối tượng trong tập chính là có thể, người ta cịn phải tính

đến các chi phí về thời gian và tài chính Để đơn giản, người ta thường nghiên

cứu một tập con của tập chính, gọi là tập mẫu Các kết luận về tập chính có thể được rút ra, dựa trên nghiên cứu tập mẫu mà vẫn đảm bảo độ tin cậy nhất định

Dinh nghia 2.2 Mẫu là một tập con của tập chính

bo,

Số lượng các phần tử của mẫu gọi là kích thước mẫu và ký hiéu la n Cac 'giá trị của, mẫu kích thước n ký hiệu là 1, #a, , #mạ

Việc chọn mẫu là rất quan trọng trong tính tốn thống kê Nếu mẫu mang thông tin về tập chính thì nó phải có tính đại diện cho tập chính, xét theo một _ khía cạnh nào đó Ví dụ ta muốn tính độ tuổi trung bình của dân cư Hà Nội và ta chọn ra 100 người tập thể dục buổi sáng ở bờ hồ Hoàn Kiếm Độ tuổi trung bình tính được là.49,2 Liệu có thể kết luận đó là độ tuổi trung bình của cư dân Hà Nội? Câu trả lời có lẽ là khơng, vì chủ yếu người già và sinh viên mới có điều

kiện để tập thể dục buổi sáng hơn là người trong độ tuổi lao động (chưa kể yếu tố địa lý.) Nói cách khác, tập mẫu này không đại diện được cho tồn bộ tập chính

Trong thực tế, một mẫu được coi là mang tỉnh đại diện cho tập chính nếu các

Trang 13

2.2 Phân loại dữ liệu | | 13

phan chia theo các ngành nghề cơ bản trong xã hội Thay vào đó, hãy để cho ngẫu nhiên quyết định các phần tử nào sẽ xuất hiện trong tập mẫu Lúc này, ta có cơ sở để áp dụng các suy luận thống kê trên các phần tử của tập mẫu Ỏ dây

ta không đi sâu vào nghiên cứu các chiến lược chọn mẫu cũng như các loại sai số

có thể gặp phải trong quá trình lấy mẫu

2.2 Phân loại dữ liệu

Về cơ bản, dữ liệu được phân thành hai loại khác nhau, gọi là dữ liệu định

lượng (quantitative/scale data) và dữ liệu định tính (qualitative data)

Dữ liệu định lượng là dữ liệu đo được bằng số, trong khi đó dữ liệu định tính là

đữ liệu bao gồm các nhãn hiệu, tên gọi, phân loại hay thứ hạng Dữ liệu định tính

tiếp tục được chia thành hai loại, gọi là dữ liệu danh nghĩa (nominal data)

và dữ liệu thứ bậc (ordinal data) Dữ liệu danh nghĩa được chia thành các

nhóm mà không tuân theo một thứ tự cụ thể nào Trái lại, dữ liệu thứ bậc được

chia thành các nhóm theo một thứ tự nhất định Về nguyên tắc, ta ln có thể

số hóa các loại dữ liệu danh nghĩa và dữ liệu thứ bậc Khi đó, mọi dữ liêu đều có thể biểu diễn bằng các số

Ví dụ 2.1 Các dữ liệu sau đây là các dữ liệu định lượng:

a) Nhiệt độ ngoài trời cao nhất trong một ngày tại Hà Nội,

b) Chiều cao của các sinh viên một trường đại học,

c) Cường độ chịu nén của các mẫu bê tông thử nghiệm tại một phòng thí nghiệm,

d) Giá của 30 loại cổ phiếu trên thị trường chứng khoán khi chốt phiên giao

dịch,

e) Số lượng phương tiện đi qua một nút giao thông vào một khoảng thời gian nhất định trong ngày

Ví dụ 2.2 Các dữ liệu sau đây là các dữ liệu danh nghĩa:

a) Quốc tịch hành khách ( Việt Nam, Trưng Quốc, Nọa, .) trên một chuyến

bay của Vietnam Arline,

b) Màu mắt (nâu, đen, .) của trẻ sơ sinh,

c) Thanh phần vật chất (đá, cát, z¿ măng, .) cấu thành nên bê tông,

d) Tên các loại cổ phiếu giao dịch trên thị trường chứng khoán,

an

Trang 14

t / ⁄ ˆ | ˆ 2

` a 4 | x

: 14 | 2 THONG KE MO TA VA PHAN PHOI MAU

e) Tên các loại bệnh ung thư thường gặp ở người

|

Ví dụ 2.3 Các dữ liệu sau đây là các dữ liệu thứ bậc:

a) Mức độ hài long (rat hai long, hai long, it hai long va không hồi lồng) của : khách hàng khi sử dụng dịch vụ của một trang web mua bán trực tuyến,

b) Đánh giá của sinh viên về chất lượng bài giảng (xuất sắc, rất tốt, tốt, trung

bành uà không đạt) của giảng viên sau khóa học,

c) Thứ hạng của các trường đại học ở Việt Nam năm 2020,

d) Mức độ tín nhiệm (rất tin nhiệm, tín nhiệm 0à khơng tín nhiệm) của các

thành viên chính phủ,

e) Các loi huy chương (oàng, bạc uà đồng) tại một kỳ Olympic thể thao

Việc phần biệt rõ ràng các loại đữ liệu là rất quan trọng trong thống kê Điều

đó giúp ta xác định được biểu đồ nào phù hợp nhất để biểu diễn dữ liệu, những

thông số nào là cần thiết hay không cần thiết trong tính tốn tổng quan và các

tiêu chuẩn kiểm định nào nên được lựa chọn Để hiểu được điều này, ta có thể xét dữ liệu về giới tính của trẻ sơ sinh được sinh ra tại một bệnh viện trong một

ngày Giới tính của trẻ sơ sinh có thể được ghỉ lại bằng tên như "giới tính nam!"

hoặc " giới tính „ữ", do đó là loại đữ liệu danh nghĩa Đối với dữ liệu kiểu này, ta

có thể số hóa bằng cách gán giá trị 1 cho "giới tinh nam" và giá tri 0 cho "giới

tính nữ" Chẳng hạn ta thống kê được trong một ngày có 38 bé trai (tương ứng với giá trị 1) và 42 bé gái (tương ứng với giá trị 0) sinh ra thì giá trị trung bình tính được là 0,475 Tuy nhiên con số 0,475 hầu như khơng có ý nghĩa gì Tương

tự như vậy với dữ liệu thứ bậc, chắng hạn như mức độ tín nhiệm của các thành viên chính phủ Ta có thể lượng hóa mức độ tín nhiệm bằng số như sau: "rất tín,

nhiệm” = 2,': "tín nhiệm” = 1 và "khơng tín nhiệm" = 0 Ngoài ý nghĩa về thứ bậc mà các con số này mang lại, ta không thể hiểu ‘rang: "rất tín nhiệm" có giá trị gấp 2 lần "tín nhiệm"

|

2.3 Phương pháp biểu diễn mẫu

| |

Tap mau có thể được biểu diễn theo nhiều cách khác nhau nhằm cung cấp

cái nhìn tổng quan về đữ liệu Trong thống kê thực hành, ta phải dựa vào kiểu dữ liệu (định lượng hay định tính, rời rạc hay liên tục), kích thước của tập mẫu (lớn hay nhỏ) để lựa chọn phương pháp biểu diễn phù hợp nhất Sau đây ta sẽ

trình bày một số phương pháp biểu diễn thông dụng

{

'

Trang 15

2:3 Phương pháp biểu diễn mẫu | 15

2.3.1 Bảng phân phối tần số

“Biểu diễn bằng bảng phân phối tần số là phương pháp rất quan trọng để

nghiên cứu về phân phối của mẫu Trước hết ta xét một vài ví dụ đơn giản

Ví dụ 2.4 Kiểm tra về tuổi của 30 học viên cảo hoc ta dude mét nau va dude

sắp xếp lần lượt như sau:

28 31 29 27 30 29 29 26 30 28 28 29 27 26 32 28 32 31 25 30 27 30 29 30 28 29 31 27 28 28

Sắp xếp các giá trị từ nhỏ đến lớn ta được dãy số liệu sau: 25 26 26 27 27 27 27 28 28 2S 28 28 28 28 29 29 29 29 29 29 30 30 30 30 30 31 31 31 32 32 |

Ta thấy có sự xuất hiện lặp đi lặp lại của một vài giá trị Các giá trị này cùng

với số lần xuất hiện của chúng trong mẫu có thể được ghi lại dưới dạng bảng, gọi là bảng phân phối tần số Bảng phân phối tần số của dữ liệu trên được biểu diễn

như sau: T; 25 26 27 28 29 30 31 32 Tu 1 2 4 7 | 6 5 3 2

Như vậy, bảng phân phối tần số gồm có hai hàng (Bảng 2.1) Hàng trên gồm các giá trị quan sát z, và hàng dưới là giá trị của số lần xuất hiện gọi là tần số

và ký hiệu là r Li T1 T2 wee Xk Tt; tì T2 wae hk Bảng 2.1: Bảng phân phối tần số

Chú ý rằng, giá trị quan sát z; trong bảng phân phối tần số không nhất thiết

là các giá trị định lượng mà có thể là giá trị định tính (danh nghĩa hay thứ bậc)

Khi đó, bảng phân phối tần số được trình bày thành 2 cột, cột thứ nhất ghi các

giá trị định tính và cột thứ hai ghi tấn số xuất hiện như trong ví dụ dưới đây Ví dụ 2.5 Bảng 2.2 dưới đây thống kê số lượng lao động được tuyển dụng (phân

Trang 16

16 2 THONG KE MO TA VA PHAN PHOI MAU

| Trình độ lao động | Số lượng tuyến dụng |

Trên đại học 2

Dai hoc 15

Cao dang 14

Trung cấp 21

Công nhân kỹ thuật lành nghề: 7

Sơ cấp nghề : 5

Lao động chưa qua dao tao 38

|

| Bảng 2.2: Nhu cầu lao động theo trình độ nghề

|

Trong thường hợp dữ liệu chứa quá nhiều giá trị phân biệt và số lần xuất hiện mỗi giá trị ít, người ta thường chia dữ liệu thành các lớp hay các khoảng rời nhau

Chú ý rằng, trong việc chia miền dữ liệu thành các khoảng, ta áp dụng nguyên

tắc cận dưới (trái) đúng Cụ thể, đối với mỗi khoảng [a,b), ky hiệu là a — b, ta

gọi a là can! dưới, ö là cận trên, khoảng cách e = b— a gọi là độ rộng của khoảng,

điểm giữa T gọi là giá trị trung bình của khoảng Trong mỗi khoảng ta đếm

số lần các giá trị quan sát nằm trong khoảng [ø, b), bao gồm các giá trị quan sát

ti maa < a <b "

Miền giá trị quan sát được chia thành k khoảng rời nhau Nhìn chung, nhưng

không bắt Buộc, các khoảng được chia với độ dài bằng nhau, ký hiệu là h Khi

đó mỗi khoảng có dạng

| [r+ (i-1)h, r+ih), i=1,2, ,m,

|

với 7 là một giá trị cụ thể, nhỏ hơn hoặc bằng giá trị nhỏ nhất của mẫu quan sát Rõ ràng, |việc chia khoảng như vậy sẽ giúp cho việc biểu diễn dữ liệu đơn giản hơn, nhưng lại làm mất thông tin của dữ liệu gốc Nếu số khoảng chia q ít, thơng tin sẽ: bị mất nhiều Nếu số khoảng chia quá nhiều, tần số tương ứng với các khoảng chia ít, ta lại gặp vấn đề giống như đối với dữ liệu gốc là khó có thé

hiểu được phân bố của dữ liệu Lựa chọn số khoảng chia thích hợp là vấn đề

mang tính chủ quan Ta có thể thử nhiều lần để tìm ra số khoảng chia phù hợp, giúp dữ liệu bộc lộ được nhiều thông tin nhất Thông thường số khoảng chia mm

có thể chọn theo quy tắc Sturges, bằng số nguyên dương nhỏ nhất và lớn hơn

1 + log;(n) | |

Xí dụ 38, Thời gian lầm việc (tính theo giờ) của công nhân trong một tuần tại

|

Trang 17

2.3 Phương pháp biểu diễn mẫu 17

một công ty được ghi lại như sau:

45 31 46 25 57 39 42 55 20 37 40 59 11 38 34 22 62 33 48 43 57 37 43 51 29 41 35 66 45 32 44 47 42 46 54 65 17 35 53 27 38 22 33 39 45 32 43 41 57 45 -

Quan sat thay dữ liệu trên có giá trị nhỏ nhất là 11 và giá trị lớn nhất là 66

Ta chia miền dữ liệu thành 6 khoảng, mỗi khoảng có độ dài là 10 giờ, bắt đầu từ giá trị bằng 10 Khi đó ta có bảng phân phối tần số như sau:

Li 10-20 20-30 30-40 40-50 90-60 60-70 Từ; 3 9 15 16 8 3

Ví dụ 2.7: Độ dày (mm) của 20 mẫu thép tấm được ghi lại như sau:

7,3 7,1 6,6 7,0 7,8 7,3 7,5 số 6,9 6,7 6,5 6,8 7,2 7,4 6,5 6,9 7,2 7,6 7,0 6,8

/m

Giá trị nhỏ nhất là 6,2 mm, giá trị lớn nhất là 7,8 mm 'Ta chia miền dữ liệu

thành 4 khoảng, mỗi khoảng có độ dài 0,4 mm và bắt đầu từ 6,2 mm Bảng phân phối tần số của dữ liệu đã phân nhóm là

z, | 62-66 | 66-70 | 7074 | 74-78 n; | 4 7 6 3

2.3.2 Bang phan phéi tan suat

Trong bảng phân phối tần số đã xác định ở mục trước, lấy tần số xuất hiện của một giá trị chia cho kích thước của dữ liệu (mẫu), ta được tỷ số gọi là tần suất Như vậy, tần suất chính là tỉ lệ phần trăm một giá trị nào đó có trong dữ liệu Tần suất của giá trị z; được ký hiệu bởi

fi= = n= Son

1

Thay tần số bởi tần suất, trong bảng phân phối tân số, ta thu được bảng phân

hối tần suất (Bảng 2.3) “TRƯỜNG BẠTHGồ GIÁO THONG VAN TAI

° | | PHÂN HIỆU TẠI THÀNH PHO HO CHI MINH

Chú ý rằng theo định nghĩa THU VIEN

" Lat ¿ - 0017214

Trang 18

2 THONG KE MO TA VA PHAN PHOI MAU

18 XL; T1 rq Lk fi fi ho fh

| Bảng 2.3: Bảng phân phối tần suất, -

Ví dụ 2.8 Từ Ví dụ 2.7, ta có bảng phân phối tần suất tương ứng

Lj 6,2-6,6 6,6-7,0 7,0-7,4 7,4-7,8

m | 0,2 0,35 0,3 0,15

2.3.3 Biêu diễn băng đồ thị

Đa giác tần số, tần suất : Ta có thể dùng đồ thị để biểu diễn bảng phân phối tần số |và tần suất Trên hệ trục tọa độ Đề-các, ta xác định các điểm (Z;, m), hoac (2;, fi),

tần số, hoặc đa giác tần suất Từ đồ thị này ta dé dàng nhận ra được giá trị nào có tần số (tần suất) cao nhất hoặc thấp nhất

sau đó nối chúng bởi các đoạn thắng Đồ thị thu được gọi là đa giác

Ví dụ 2.9 Trở lại-Ví dụ 2.4 về tuổi của học viên cao học, ta có bảng phân phối tần số và tan suất như s sau:

x | 2 | 2 | 27 | 28 | 29 [| 30 | 31 | 32

Ni 1 2 4 7 6 5D 3 2

fi 1/30 2/30 | 4/30 | 7/30 | 6/30 | 5/30 | 3/30 | 2/30 | )

2 2 i 4 2 3 mi ” 5 Olle

Hinh 2 1: Da giác tần số và đa giác tan suat

te nai AT ee ’ VR 14A kí

` Hình 2 Ls (tr i biểu diễn da giác tần số và Hình 2.1.(phải) biểu diễn đa giác tần

ˆ' suất, Hai, đường gấp khúc này có hình dạng như nhau, chỉ khác nhau về giá trị %X gs? tiến ruc tung) 3

Trang 19

2.3 Phuong phap biéu dién mau 19

Biểu đồ hình trịn: Biểu đồ này thường được sử dụng để biểu diễn tỉ lệ phần

trăm khi các giá trị trong dữ liệu không phải ở dạng định lượng Khi đó ta vẽ

một hình trịn và chia thành các hình quạt theo tỉ lệ tương ứng với các giá trị

định tính

Ví dụ 2.10 Xe buýt nhanh và các hệ thống ưu tiên xe buýt đã trở thành một

-giải pháp hấp dẫn đối với nhu cầu lưu thông trong đô thị vì chi phí vốn tương

đối thấp và thời gian thi công ngắn so với hệ thống giao thông đường sắt Biểu

đồ 2.2 cho thấy những nhân tố đóng góp vào lợi ích kinh tế của hệ thống xe buýt

nhanh đang hoạt động ở các nước thuộc Mỹ Latinh

khỏe cộng đóng GHG 2% 3% Giảm chỉ phí = _ vận re 33%

- Hình 2.2: Lợi ích kinh tế của hệ thống buýt nhanh ở các nước thuộc Mỹ Latinh (theo Báo cáo của World Resources Institute, 2014)

Biểu đồ tần số, tần suất: Di với dữ liệu được chia khoảng, ta biểu diễn

chúng bởi biểu đồ hình cột, gồm các cột chữ nhật kề nhau có đáy trên trục hoành là các khoảng chia và chiều cao trên trục tung là tần số hoặc tần suất Các biểu

đồ này tương ứng gọi là biểu đồ tần số hoặc biểu đồ tần suất

Ví dụ 2.11 Chỉ số khối cơ thể (BMI - Body Mass Index), bằng cân nặng

(tính theo kilogram) chia cho bình phương chiều cao (tính theo mét), là chỉ số

dùng để đo độ béo phì của một người Người bình thường cé BMI < 25 (kg/m?),

25 < BMI < 30 (kg/m?) la qué can va BMI > 30 (kg/m*) la béo phi Kiém tra

chỉ số BMI của 100 sinh viên, ta thu được pang số liệu dưới đây Hình 2.3 là biểu

Trang 20

20

2 THONG KE MO TA VA PHAN PHO! MAU |

z, | 18-20 | 20-22 | 22-24 | 2426 | 26-28 | 28-30 | 30-32

n | 2 7 | 38 35 15 2 1

o-ILE— F—-—

18 20 22 24 26 28 30 32

Hình 2.3: Biểu đồ hệ số BMI của 100 sinh viên

2.3.4 Ham phân phối thực nghiệm

Cho dữ liệu quan sát {Z,za, ,Z„} Ta gọi Fn(z) là hàm phân phối thực

nghiệm của mẫu, được xác định như sau: Ị

Fi(x) = KE t; <2}| sd phan tt nho hon hoac bang x

T

7

Như vậy, F„(z) chính là tỷ số của số các giá trị quan sát không vượt quá z chia

cho kích thước của mẫu Hàm này có các tính chất tương tự như hàm phân phối

của một biến

Giả sử ch

pees < Lk

Khi d6, h

¡ ngẫu nhiên rdi rac

o bảng phân phối tần suất của dữ liệu như dưới đây với z¡ < z; <

Li T1 T2 Lk fi fi fo Sic F, (x) =

àmn phân phối thực nghiệm #„(z) được xác định bởi công thức

Trang 21

2.3 Phương pháp biểu diễn mẫu | | 21

Từ công thức trên, hàm phân phối thực nghiệm đơi khi cịn được gọi là hàm tần suất cộng dồn

Ví dụ 2.12 Cho mẫu quan sát được cho bởi bằng dưới đây

2325443333 3 3 1 3.12 42:32 2341223553

Biểu diễn dữ liệu bởi bảng phân phối tần số và tần suất, ta thu được

Lj 1 2 3 | 4 Nj 3 8 12 | °4- fi 0,1 0, 267 0,4 | 0,133 0,1

Vậy hàm phân phối thực nghiệm cho đữ liệu trên là

{0 - z<L 01 1<z<2, 0,367 2<z<3,_ 0,767 ä<z<4, 09 4<z<5, 1 +>ö5 F,(z)= > fi= 4 #¡;S+z

Hàm phân phối thực nghiệm được mô tả bằng đồ thị như trên Hình 2.4

Qo í $——— t ® _j ' Oo eC | ' 1 1 ; I | ce) t 1 { oa 7 i 1 t I ' | t ' I ! a i A [ © ———— | i t | f ` NL { } Ị ' Qo t ` { J ì $ — 4 | © 7 o xa at | j + “a pe +“ ` q 1 i t { † Í 0 1 2 3 4 § 6

Trang 22

thì giá trị tru

22 2 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU

2.4 Giá trị đặc trưng mẫu

2.41 Trung bình mẫu

Định nghĩa 2.3 Nếu n giá trị quan sát trong một mẫu được ký hiệu là

T1,#a,- ,„, giá trị trung bình mẫu, kí hiệu Z, được xác định bởi

— TỊị+7;+' tt 1

n =~ vi

Nếu mẫu kho bởi bảng phân phối tần số

Li Ly T2 —

1; ny ha Tùy

ng bình được tính theo cơng thức

_ Nếu dữ liệu cho ở dạng khoảng thì ta lầy trung điểm của các khoảng làm giá trị đại diện chó khoảng va tính giá trị trung bình như các trường hợp trên Ví dụ 2.13

của một chât

Một, kỹ sư chuyên ngành vật liệu xây dựng nghiên cứu ảnh hưởng

phụ gia.làm.từ tro trấu đối với sức.chịu nén của một loại bê tông:

Sau khi chế tao thử 10 mẫu bê tông, người kỹ sư đo cường độ chịu nén của chúng ` (theo đơn vị ket /cm”) va thu dude kết quả sau:

Hãy tính cười Giải Cường độ ĐỊ Ví dụ 2:14 95, 86, 102, 91, 97, 93, 101, 105, 88, 92

g độ chịu nén trung bình của 10 mẫu bê tông trên chịu nén trung bình của 10 mẫu bê tông trên là

95+ 86 + 102 +91 + 97 + 08 +'101 + 105 + 88 + 92

10 _ 950 _

= Tp 95 (ka em? ),

lầm giá trị trung bình của các mẫu dữ liệu sau:

Trang 23

2.4 Giá trị đặc trưngmẫu - — | - 23 z; | 30 | 30,2 | 30,4 | 30,5 | 30,8 | 31,0 m | 5 7 12 17 | 11 4 8 Giai

Ta có giá trị trung bình mẫu là

30 x 5 + 30, 2x 7+30,4 x 12430, 6 x 17+ 30, 8x 11+31x8 5+7+12+17+11+8 t= 1833, 2 = — = 30,55 60 ,

Ví dụ 2.15 Tìm giá trị trung bình của các mẫu dữ liệu sau:

x; | 12-14 | 14-16 | 16-18 | 18-20 | 20-22 | 22-24 Ni 2 6 9 8 4 1 Giải

Trước hết ta phải tính giá trị trung bình cho từng khoảng

12+14

m= b = 13, ap = 15, rg = 17, 24 =19, 25 = 21, 26 = 23

Ta có giá trị trung bình mẫu là

13x2+15x6+17x9+19x8+21x4+23x1 2+6+9+8§+4+] _— _ 528 os = 17,6 ~ 30

O đây, trung bình mẫu được định nghĩa theo trung bình số học Đó là một trong ba loại trung bình Pythago cổ điển, bao gồm trung bình số học (hay trung bình cộng), trung bình điều hịa, và trung bình nhãn

Trung bình điều hịa là nghịch đảo của trung bình cộng của các nghịch đảo

của các giá trị quan sát Với mẫu quan sát (,#a, ,#„), trung bình điều hịa,

kí hiệu #›, được xác định bởi công thức

- Trung bình điều hịa thường được dùng trong những tình huống ta cần tính tốc _

độ (làm việc) trung bình của một hệ thống gồm nhiều bộ phận có tốc độ khác nhau Dể hiểu rõ bơn, ta xét các ví dụ sau đây

Trang 24

24 9 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU

Ví dụ 2.16 Trên đường cao tốc có ba phương tiện tham gia giao thông với tốc

độ lần lượt llà 40 km/h, 50 km/h, và 60 km/h Tính tốc độ trung bình của ba

phương tiện! trên Giải Ta khbng thể đơn thuần tính tốc độ trung bình của ba phương tiện trên

bằng cách lây trung bình cộng

40 + 50 + 60 3

Thay vào đó, ta hình dung cho 3 phương tiện đi một quãng đường 1 km như nhau Thời Lian để ba phương tiện hoàn thành quãng đường đó lần lượt là “ h,

= 50 km/h

s; h va ạg h Vậy, tốc độ trung bình của ba phương tiện trên là

1+1+1 }

TC + + =48,64865 km/h TL 1

mm" 40 T 50 T 80 | D6 chinh là trung bình điều hịa Z„ của ba tốc độ trên

- Ví dụ 2.17) Xét bài toán bơm nước vào một bể bơi Giả sử hệ thống máy bơm gồm một máy bơm nước.dùng điện, có thé bom day bể trong 3 giờ và một: máy bơm nước dùng xăng, có thể bơm đầy bể trong 5 giờ Nếu sử dụng cả hai máy

` | ` x! 2 x 2 ~ 1

bơm cùng lúc thì thời gian đề bơm đây bề sẽ là

1 3x5

F420 345

=,1, 875 Chú ý là, trung bình điều hịa của các số 3 và 5 là

2 2x3x5d

gts 345 = 3,75

va bằng gấp đôi thời gian làm việc đồng thời của cả hai máy bơm

Trung bình nhân của, các số Z4,Za, ,„, kí hiệu là Zạ¿, là căn bac n cua tich

các số đó ¬ _

Tg = W12 7a

Trung bình nhân thường được sử dụng cho tập số liệu có sự thay đổi theo luật

hàm mũ như đữ liệu về sự tăng trưởng dân số hay tỉ suất lợi nhuận của đầu tư

tài chính |

Vi du 2.18 Dân số của một thành phố năm 1970 là 230 nghìn người, và các năm tiếp theo là 310, 370 và 520 nghìn người Như vậy, tốc độ tăng trưởng dân số qua các năm lần lượt là 34,78%, 19,35%, 40,54% Ta đặt tương ứng tốc độ tăng

trưởng qua|các năm với các hệ số nhân 1,3478, 1,1935 và 1,4054 Sử dụng trung

: bình nhân, |ta tính được |

Ly = 4/1, 3478 - 1, 1935 - 1, 4054 = 1, 3124,

Trang 25

2.4 Gia trị đặc trưng mẫu | , | 25

tức là tốc độ tăng trưởng trung bình dân số hằng năm là 31 24%, Nếu bắt đầu với dân số 230 nghìn người, thì với tốc độ tăng trưởng trung bình hàng năm

3, = 31, 245, sau 3 năm thành phố sẽ có

230 (1 + 0, 3124)° = 520 (nghìn người)

Trung bình nhân cịn được sứ dụng khi so sánh các đại lượng với dải giá trị

khác nhau Điều này giúp "chuẩn hóa" dải giá trị của các đại lượng, sao cho

khơng có đại lượng nào chiếm ưu thế vượt trội trong quá trình so sánh Khi đó, sự thay đổi trên bất kì đại lượng nào cũng có tác động như nhau đến trung bình

nhân của chúng

Vi dụ 2.19 Một ví dụ điển hình là cách tính chỉ số phát triển con người -

(HDI - Human Development Index) do UNDP (United Nations Development

Programme) dua ra nim 2010 Chi sé này được tính dựa trên 3 chỉ số thành phần gồm tuổi thọ (LEI - Life Expectancy Index), giáo dục (EI - Education ` Index) và thu nhập bình quân đầu người (II - Income Index) tại một quốc gia

hay vùng lãnh thổ Cuối cùng, chỉ số HDI được tính bằng trung bình nhân của ba chỉ số trên

HDI = VLEI- El - IJ

Sau đây là chỉ số HDI của các quốc gia Đông Nam Á năm 2015:

| Quéc gia | Chỉisô HDI | Thứ bậc |

Singapore _ 0,912 11 Brunei 0,856 31 Malaysia | 0,779 62 Thailand - 0,726 93 Indonesia 0,684 110 Philippin 0,668 115 Vietnam 0,666 116 ' Timor Leste 0,595 133 Laos 0,575 | 141 Cambodia - 0,555 143 © Myanmar 0,536 148 2.4.2 Trung vị mẫu

Định nghĩa 2.4 Giá trị trung vị (median) của mẫu #, #a, , #„ là sỐ rm chia mẫu thành hai nửa bằng nhau, nghĩa là có một nửa số giá trị của mẫu

nhỏ hơn hoặc bằng rn và một nửa số giá trị của mẫu lớn hơn hoặc bằng rm

Trang 26

26 2 THONG KE MÔ TA VA PHAN.PHOI MAU

Nếu ta sắ được tính the Ví dụ 2.20 - Dãy số li ‡(12+ 14) = Đối với m

tân sơ như tr

Ví dụ 2.21 điện tử cùng

p xếp mẫu cho trước theo thứ tự từ bé đến lớn thì giá trị trung vị o công thức

n=|

Dãy số liệu {4, 7, 8, 9, 12, 15, 26} có 7 giá trị nên trung vị mẫu ?n = 9

su {5,6,10,12,14,17,23,30} có 8 giá trị nên trung vị mẫu rn

13 -

+ [2(n/2) + 2(n/2+1)] néu n chan; 2

âu quan sát cho bởi khoảng thì ta tim trung vị mẫu bằng biểu đồ ong ví dụ dưới đây

Cho bảng phân phối tần số gồm các số đo nhiệt độ của 80 thiết bị

loại trong quá trình thử nghiệm

28,8-30, 0 | 30,0-30,2 | 30,2-30,4 | 30,4-30,6 | 30,6-30,8 | 30,8-31,0 | 31,0-31,2 nN; 6 12 15 21 14 9 3 Y -_ Hình 2 Ta vẽ biết biểu đồ tần s Ne oh 15 14 +2 A A sấ: di, địa VÀ 4h: di, tải Ê -46: vóp Si ` 40 4l vĨ đã: đã và) là: <0 MK 31.0 314.2 28.8 30.0 302 2304 306 308

5: Phương pháp tính giá trị trung vị dựa vào biểu đồ tần số ¡ đồ phân phối tần số như trong Hình 2.5 Trung vị mẫu chia đơi

Ố thành hai phần có diện tích bằng nhau Kích thước của mẫu là `

n= 80 Do đó trung vị mẫu là giá trị trung bình của hai số hạng thứ 40 và thứ 41 Tần số cát giá trị nằm trong ba khoảng đầu tiên là 6 + 12 + 15 = 33 và trong 4 khoảng đầu

thứ tư la chỉ

diện tích của

tiên là 6 + 12 + 15 + 21 = 54, nên trung vị mẫu nằm trong khoảng a khoảng này thành hai phần bởi một đường thẳng sao cho nó chia

biểu đồ tần số thành hai phần bằng nhau Vì vậy ta có

6+12+15+A=B+4+14+9+3

A+ B=21

C

Trang 27

2.4 Giá trị đặc trưng mẫu ¬ SỐ 27

Từ hai hệ thức trên ta thu được

A=7, B= 14

Ta có khoảng chứa giá trị trung vị là |a;b) = [30,4; 30,6) Độ rộng của khoảng

này là h =b— a= 0,2 Khi đó độ rộng tương ứng với phần diện tích A = 7 là

A h _ x0,2=0,0667,-

d= 7B a tức là trung vị mẫu bằng |

mm = a + d= 30,4+0,0667 = 30, 4667 | Tổng quát hóa, ta có định nghĩa mức phân vị như dưới đây:

Định nghĩa 2.5 Phân vị p (0 < p< 1) của hàm phân phối thực nghiệm là

số ký hiệu Q(p) sao cho có ít nhất 100p% các giá trị nhỏ hơn hoặc bằng Q(p) và có ít nhất 100(1 — p)% các giá trị lớn hơn hoặc bằng Q(p) |

Cho mẫu kich thuéc n, ta sip xếp mẫu theo thứ tự từ bé đến lớn Khi đó

phân vị p được tính theo cơng thức sau: ¬

Q(p) = 2 [#(np) 2 (np+1)] néu np nguyén,

#(Inp]+1) nếu ø không ngun,

/

trong đó kí hiệu [z] là số nguyên lớn nhất không vượt quá z

Các phân vị ứng với p = 0,25 gọi là phân vị bậc 1, với p = 0,5 gọi là phần vị bậc 2 và chính là trung vị mẫu, và với p = 0, 75 là phân vị bậc 3

2.4.3 Mode

Giá trị mode của dữ liệu là giá trị mà tần số (hoặc.tần suất) xuất hiện của nó là lớn nhất Ví dụ đối với dãy các giá trị quan sát: 2, 2,6, 7, 7, 7,10, 13, giá

tri mode bing 7 Một dãy số liệu có thể có nhiều mode Chang han dãy dữ liệu

23, 25, 25, 25, 27, 27, 28, 28; 28, 29, 30 có hai giá trị mode là 25 và 28

Đối với dãy dữ liệu được phân khoảng thì giá trị mode được tính như sau: Ta

chọn khoảng có số lần xuất hiện lớn nhất, gọi khoảng đó là [ø,b) như trong Hình

2.6 Giá trị mode là giá trị hoành độ của giao điểm giữa AD và BC

—— Tagọi c=b— ø là độ rộng khoảng chứa giá trị mode, | = AB là hiệu tần số

' đối với cận dưới, u = CD là hiệu tần số đối với cận trên Khi đó giá tri mode

được tính theo cơng thức |

l+u

Trang 28

TẢNG ¬ 2 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU

¬| | # 3< *+ X) - “+ + R2 CO fe Œ k————I——>> ÁN 2ml Ợ d6 35 2à G0 GP d s 4e” ạp RERE ED EH wy Mods

Hinh 2.6: Phương pháp tính giá trị mode dựa vào biểu đồ tần số

Ví dụ 2.22! Khối lượng của 50 mẫu đúc được cho bởi bảng phân phối tần số sau: # (kg) | 10-13 | 13-16 | 16-19 | 19-22 | 22-25 | 25-28 | 28-30 m | 3 ĩ 16 | 10 | 8 5 | 1 Từ bảng| phân phối tần số ta thấy khoảng thứ ba có tần số lớn nhất Ta có

cận dưới ø = 16, cận trên b = 19, độ rộng khoảng e = b— a= 3, =—= 16— 7 =9,

u = 16 — 10|= 6 Gia tri của mode là

mode = 16+ x 3= 17,8

| 9+6

Ví du 2.23! Cho m&u quan sát từ phân phối nhị thức như sau:

_ — 4345544425

3343 243 03 5

| Tính giá trị trung bình, trung vị, và mode của mẫu trên

Giải | Ta lập bằng phân phối tần số Ho mg |12|6417124

Từ bảng phân phối ta có giá trị trung bình là

| t= _'0x1+2x2+3x6+4x7+5x4_ 20 3,9

Ta thay số 4 có tần số xuất hiện lớn nhất và bằng 7 nên giá trị mode là 4

Trang 29

2.4 Giá trị đặc trưng mẫu | óc _29

Ta có kích thước mẫu là ø = 20 là số chin nén giá trị trung vị được tính theo

#10 T #11 :

công thức median= = 4 khi sắp xếp dữ liệu tăng dần

Ví dụ 2.24 Cho bảng số liệu-các giá trị quan sát của một mẫu xác định bởi

bảng sau + 5-10 10-15 15-20 20-25 25-30 30-35 - n, | 4 9 16 12 6 3

Tính giá trị trung bình, trung vị, và mode của mẫu trên Giải

Dễ tính giá trị trung bình mẫu, ta tính giá trị trung bình trong từng khoảng

Khi đó, giá trị trung bình mẫu được tính là

4x7,5+9 x 12,5 + 16 x 17,4+ 12 x 22,5 + 6 x 27,5 + 3 x 32,5 — 10a

50 | 3

#4 —=

Từ bảng phân phối tần số ta thấy khoảng thứ 3 có số lần xuất hiện lớn nhất là

16 lần nên giá trị mode nằm trong khoảng này Xét hai khoảng kề với khoảng

thứ 3, ta tính được Ï = 7, u = 4, e = 5, ø = 1ð nên giá trị | c= l5+ x5=18,1818

mode =a+ 7+4

Để tính giá trị trung vị ta cộng dồn các tần số với tổng số là 50 và ta thấy © giá trị trung vị cũng nằm trong khoảng thứ 3 Ta chia khoảng này thành 2 phần

A và B với A + B = 16 Hơn nữa ta có

_ 4đ+9+A=B+12+6+

Từ đó ta tính được 4 = 12, ÐÖ = 4 Do đó giá trị trung vị được tính theo công

thức 12 |

| median = 15+ 16 x 5 = 18,75

Các giá trị trung bình, mode, và trung vị cho ta các thông tin quan trọng về

trung tâm của các quan sát Tuy nhiên đôi khi ta muốn biết các thông tin về độ

phân tán của dữ liệu Chẳng hạn để so sánh hai máy gia công một loại chỉ tiết

máy, người ta tiến hành thử nghiệm và thu được đữ liệu về độ dài (mm) của các

chi tiết mẫu | |

Trang 30

30 — 9 THỐNG KÊ MÔ TẢ VÀ PHÂN PHỐI MẪU

Rõ ràng các mẫu này có cùng giá trị trung bình là 30 mm, nhưng ta thấy mức độ phân tán|xung quanh giá trị trung bình của các số liệu trong mẫu thứ nhất nhỏ hơn ở mẫu thứ hai Nói cách khác, sai số do gia công trên máy A là ít hơn

so với gia công trên máy l Do đó, ta nên chọn máy A để gia công các chỉ tiết loại này Ỏ đây ta đã đưa ra quyết định lựa chọn máy gia công dựa trên mức độ

phân tán của dữ liệu đo đạc Trong những chương sau, một số vấn đề liên quan đến lý thuyết ra quyết định sẽ được nghiên cứu kỹ hơn

Mức độ phân tán của dữ liệu được đặc trưng bởi các đại lượng như độ rộng,

phương sai mẫu và độ lệch tiêu chuẩn mẫu

2.4.4 Độ rộng

._.Giá trị đơn giản nhất để đo sự phân tán của dữ liệu là độ rộng miền giá trị của dữ liệu, xác định bởi hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất trong dữ diệu Trong ví dụ về so sánh hai máy gia công A và B, độ rộng của dữ liệu thu

được khi ding may A la 32 — 28 = 4 và độ rộng của dữ liệu thu được khi dùng

máy B là 39 - 21 = 18

2.4.5 Phương sai và độ lệch tiêu chuẩn mẫu —

Độ rộng của một bộ dữ liệu không phản ánh được phân bố của dữ liệu xung

quanh giá trị| trung bình Về khía cạnh này, trong thống kê người ta thường sử dụng phương|sai mẫu và độ lệch tiêu chuẩn mẫu

Định nghĩa 2.6 Nếu zạ, z¿, , z„ là mẫu có ø quan sát, phương sai mẫu,

kí hiệu là s†, được xác định bởi

=\2 =\2 >\2

#ịạ —#)J“ + (7a — #)J“ +-'':+ (1n — #

mn— Ì

và độ lệch tiêu chuẩn mẫu là căn bậc hai của phương sai mẫu

t=v#= (east (t2—-T)? +- vt (fn =)? (2.2) mn — Ì

Đôi khi người ta cũng gọi giá trị

52 _ (a1 — E)? + ("2 — B)? + + + - (za — )?

mr

Trang 31

2.4 Giá tri đặc trưng mẫu | | 31

là phương sai mẫu Hai giá trị này khác nhau ở mẫu số và có mối liên hệ bởi công

thức n

?= m — Ì SỐ

S

Khi giá trị m lớn thì hai giá trị này xấp xỉ bằng nhau Trong giáo trình này chúng : ta sử dụng phương sai mẫu s° và độ lệch tiêu chuẩn mẫu s xác định tương ứng

theo công thức (2.1) và (2.2) Ta có s2 _ Œị —#) “+ (gy—#) +: + (ạ— 8)” 7 n—-1l- s _ n— Ì ‘ A (z7 + z2 + - + z2) — 2#(z¡ + za + : +z„) +n22 _ m„ — Ì Ta đặt vn

gọi là giá trị bình phương trung bình mẫu Thay ry +Zza+ -+ In = = nz vao cong thức trên ta thu được

Ví dụ 2.25 Xét dữ liệu về độ dài (mm) chỉ tiết máy được gia công trên máy A và B

Gia công trên máy A: 28 30 31 29 32 30

Gia công trên máy Ö: 35.24 25 36 39 21

Trung bình mẫu và phương sai mẫu tính được như sau:

28 + 30 + 31 + 29 + 32 + 30 TA = — 7 = 30, 354+ 244+254 36439421 LB = = 30, 6 2a (28 — 30)? + (30 — 30)? +.(31 — 30)? + (29 — 30)? + (32 — 30)? + (30 — 30)? A —_— | | 5 = 2, 2a (35 — 30)? + (24 — 30)? + (25 — 30)? + (36 — 30)? + (39 — 30)? + (21 — 30)? BT 5 = 56, 8

Trang 32

32 _2 THỐNG KE MO TA VA PHAN PHOI MAU

2.4.6 Phương pháp tính giá trị trung bình và phương sai

mau’ |

Xét một mẫu cho bởi bảng phân phối tần số

Xi +11 ' | 12- Lk Nj Ny n2 Nk thức | Để thuận tiệ Cách tổ _ như Excel, § đữ liệu sau: Giải - Khi đó-g us Bảng 2.4: Bảng phân phối tần số ˆ

id trị trung bình và giá trị phương sai mẫu được tính theo các cơng k _ 1 Z=—) n < ni, z=l k — 1 9 zr? = — So nit, n < , 1=1 2 TỪ r3 _ x2 s“= +2 — n— i$ ) s= VI,

ìn khi tính toán người ta thường lập bảng tính như sau:

Lj ny Nii nx? Ly ny T71 mx? _ #2 T2 NX Nyx? : Lk ThE NRL pT? » n S2 n1; 5 n1?

Bảng 2.5: Phương pháp tính giá trị trung bình và phương sai

chức tính toán trên rất phù hợp khi sử dụng các phần mềm hỗ trợ preadSheet,

_ Vi du 2.26 Tim giá trị trung bình, phương sai và độ lệch tiêu chuẩn của mẫu “18 15 19 16 14 17 19 16 17 18

Trang 33

2:4 Gid tri dac trung mau ' - : 33

Từ mẫu ta tính được kích thước mẫu n = 10 va

3 z¡ = 169, S z; = 2881 i=1 ` i=1 ¬ Vậy 1 2-19 n= —~ = 16,9) — 2 NI», = = 288, 1 2 7 z7 cay — 10 2 _ 2) _ 9 S — (2? —Z*) = ạ 288.1 16, 9°) = 2, 7667; s = 1, 6633

Ví dụ 2.27 Tìm giá trị trung bình và phương sai của mẫu dữ liệu sau:

T; 30 | 302 | 304 30,6 30,8 31,0 ni 5 7 12 17 | 11 8 Giai ; | Ta lập bảng tính các tổng của dữ liệu Xi; Thị 4X; nix? 30 150 4500 30,2 2114 _6884,28 30,4 12 364,8 | 11089,92 30,6 17 520,2 15918,12 308 | 11 | 3388: | 10435,04 31 | 8 248 ˆ 7688 - 9` | 60 | 1833/22 | 56015,36

Giá trị trung bình và phương sai mẫu là

| n5, 2

z= = ae = = 30, 5533;

Trang 34

34

Vi du 2.28

2 THONG KE MO TA VA PHAN PHOI MẪU

Tìm giá trị trung bình và phương sai của mẫu dữ liệu sau:

Li 1214 | 1416 | 16-18 | 18-20 | 20-22 | 292-24 n; 2 6 9 8 4 1 Giải

Ta lẫy giá trị trung tâm của mỗi khoảng làm giá trị đại điện cho cả khoảng

đó và lập bằng tính như trong ví dụ trước

Lj nụ NX; nx? 13 2 26 | 338 15 6 90 1350 17 9 |; 153 | 2601 19 8 152 2888 21 4 84 1764 23 1 23 | 529 9 | 30 | 528 | 9470

Giá trị trung bình và phương sai mẫu là

Ví dụ 2.29 điều kiện tối

== = = 17 6,

— 2 = -S na? = —— =31 _ 9470

zx Ly ngời = =r = 315, 6667,

nal

ga" (P_F) =611 s ¬—1#”~ P)= 6,1103

Thống kê cho thấy, nồng độ muối trong nước khoảng 15-22 (g/1) là

ưu cho việc nuôi tôm sú trong các vùng ven biển có nồng độ muối

cao Dể kiếm soát nồng độ muối trong hồ nuôi, người ta lắp đặt hệ thống quan

trắc gồm 20 trạm đo Các thông số về nồng độ muối hàng ngày được thu thập về

một trung tâm xử lý Giả sử dữ liệu quan trắc trong một ngày nhận được là

18 20 22 23 19 19 21 19 22 21 20 19 18 19 20 19 19 20 21 20

(a) Hãy tính giá trị trung bình và phương sai của mẫu trên

Trang 35

2.4 Giá trị đặc trưng mẫu

chuẩn với trung bình 19 và độ lệch tiêu chuẩn 2 Hãy tính xác suất để nồng độ muối vượt ra ngồi vùng kiểm sốt tối ưu

Giải

(a) Trước hết, ta biểu diễn dữ liệu dưới dạng bảng phân phối tần số

Nồng độ muối z; (g/1) 18 19 20 21 22 23 Tần số n; 2 ĩ 5 3 2 1 Sau đó ta lập bảng tính 18 2 36 648 19 | 7 | 133 | 2527 20 oO 100 2000 21 3 63 1323 22 | 2 44 | 968 23 1 23 529 xy | 20 | 399 | 7995

Giá trị trung bình và phương sai mau-tinh dugc la

k 1 399 re =——=l9, 7 n mi 20 99, = = 399, 75, —#?)= = (399, 75 — 19,957) = 1, 8395

(b) Ký hiện nồng độ muối trong hồ nuôi bởi X Ta biết rằng X ~ N ( 19 ,2?) Xác

suất để nồng độ muối vượt ra khỏi miền điều khiển tối ưu là

Trang 36

36 2 THONG KE MO TA VA PHAN PHOI MAU 2.5 - Phân phối của các thông kê mẫu :

2.5.1 Mẫu ngẫu nhiên và thống kê mẫu Như đã đề cập ở đầu chương, lý do của việc lấy mẫu là do ta không thể kiểm

tra tất cả các phần tử của tập chính Thay vào đó, ta nghiên cứu các phần tử

trên tập mẫu và tìm cách rút ra kết luận về toàn bộ tập chính Để có thể làm được điều đó, ta phải mơ hình hóa mối liên hệ giữa tập chính và: tập mẫu Việc

làm này có thể thực hiện được dựa vào một số giả thiết về phân phối của (các giá trị tương ứng với các cá thể trong) tập chính và tập mẫu |

| `

Hình 2.7: Mẫu thay đổi trong các lần chọn mẫu khác nhau

! |

Tưởng tượng rằng có một biến ngẫu nhiên X xác định trên tập chính, ở đó ˆ giá trị quan sát trên mỗi cá thể của tập chính được xem như một giá trị của biến

ngẫu nhiên X Phân phối của biến ngẫu nhiên X cũng được gọi là phân phối của

tập chính Giả sử tập mẫu (1), 22, ,%n) được chon ngẫu nhiên Nếu chỉ xét riêng phần tử ở vị trí thứ ¡ trong mẫu, z; sẽ thay đổi trong các lần chọn mẫu khác nhau Do đó, ta xem z;¡ như là một thể hiện của một biến.ngẫu nhiên X;

nào đó Tổng quát hóa, tập mẫu (Z, z¿, , z„) là một thể hiện cụ thể của biến

ngẫu nhiên nhiều chiều (X\, X¿, , Xa) Trong suy diễn thống kê, ta thường giả

thiết rằng các biến ngẫu nhiên Xị; Xạ,: , X„ là các biến ngẫu.nhiên độc lập và

có cùng phân phối với biến ngẫu nhiên gốc.X Giả thiết này là khá hợp.lý nếu

ta chọn mẫu |một cách ngẫu nhiên

Định nghĩa 2 7 “Cho (Xy, Xz, +, Xp, 1a các biên:ngẫu nhiên độc lập và Có

cùng hàm phân phối F(z) Ta goi (X, X›, X„ ) là một mẫu ngẫu nhiên † kích thước in tit ừ tập chính có ó hàm: phân phối F Me )

Trang 37

2.5 Phân phối của các thống kê mẫu 37

Định nghĩa 2.8 Một thống kê là một hàm của mẫu ngẫu nhiên

Chúng ta sẽ thường xuyên sử dụng các thống kê mẫu ở những chương kế tiếp Nói chung phân phối của các thống kê này phải hoàn tồn xác định hoặc có thể

xấp xỉ được Việc xác định phân phối của một thống kê cho trước phụ thuộc vào

phân phối của biến ngẫu nhiên gốc X trên tập chính và kích thước của mẫu ngẫu

nhiên Sau đây là một số thông kê quan trọng hãy được dùng |

Trung binh mau ngau nhién

Xi+Ä¿+ -+X„

?

X=

Phương sai mẫu ngẫu nhiên

xX)?

øœ_ (Ấn —X)*+(X;- ÄX)?+ :+ (Xa-

n— Ì

Độ lệch tiêu chuẩn mẫu ngẫu nhiên '

cấy —==—-—.- — n-1

2.5.2 Phân phối của trung bình mẫu X |

Théng ké trung binh mau X là một thống kê quan trọng và được dùng trong các bài toán liên quan đến việc đánh giá trung bình tập chính thơng qua trung

bình mẫu |

Goi X là biến ngẫu nhiên xác định trên tập chính với ki vọng js và phương sai ơ? Giả sử (X, X¿, , X„) là mẫu ngẫu nhiên cắm sinh từ Ấ (tức là Ấn, , Ấn

độc lập và có cùng phân phối với X) Khi đó,

EX, Xa tee + Xp E|XJ=E|————_———

(E[Xi] + ElX:] + - + E[X,])

Trang 38

38 2:THONG KE MO TA VA PHAN PHOI MAU

Xi+X;+- +X, —— Vv [X] =v = (VỊX:] + VỊX;] + - + VỤX,]) n2\ 1L; ơ? = 9 lo —=_—, n n

Nếu X), Xạ, , X„ có cùng phân phối chuẩn Níu, ø?) thì X sẽ có phân phối

chuẩn với cùng kì vọng và phương sai ø?/n | :

| | - «

Dinh ly 2.1 a) Gid st X,, Xo, ,Xn la mot mau ngdu nhién tu phan phoi

| 2

chudn N(p,07) Khi dé X có phân phối chuẩn N{u, ~—) va thống kê

' ne

có phân phối chuẩn tắc N(0, 1)

b) (Định lý giới hạn trung tâm) Giả sử X\,X¿, , X„ là một mẫu

2

ngẫu nhiền của biến ngẫu nhiên X tới kà uọng 0à phương sai ơ2 hữu han

= ¬ a he 2 Mã ` aps

| thà phân phôi của X có phân phối rap tỉ phân phơi chuẩn N(ú, —) tà thông

kê _

Oo

tap vi phan phối chuẩn tắc N(0,1) khi m đủ lớn

Chú ý 2.1 Thông thường n > 30 được coi là đủ lớn oà khi đó ta có thể dp dung:

định lý giới hạn trưng tâm : oo

Ví dụ 2.30 Một cơng ty sản suất bóng đèn điện có tuổi thọ tuân theo luật phân

phối chuẩn với tuổi thọ trung bình là 800 giờ và độ lệch tiêu chuẩn 40 gid Tinh

xác suất để một mẫu ngẫu nhiên 25 bóng đèn điện có tuổi thọ trung bình lớn

hon 780 giờ, | | | |

Giải Ta gọi X là tuổi thọ trung bình của 25 bóng đèn điện Khi đó X ge phan

phối chuẩn với giá trị trung bình là ;¿ = 800 và độ lệch tiêu chuẩn ø = —— =8

_ Vf 25

2 X — 800 z ^ Ae 2 ov “ a a z `”

Do đó Z = — 3 có phân phơi chuẩn tắc N(0,1) Xác suat can tính là

— _ (X—800 780-800 ¬

POX > 780) = P ( = > 5 ) = PZ> -25

=1-— P(Z < -2,5) = 1 —- ®(—2,5) = 1 — 0,0062 = 0, 9938

Trang 39

2.ö Phân phối của các thống kê mẫu | ¬ — 39

Ví dụ 2.31 Chi nhánh Hà Đông của công ty truyền hình cáp Việt Nam quản

lý 70 nghìn khách hàng Chi phí bảo hành cho mỗi khách hàng mỗi năm có thể

coi là một biến ngẫu nhiên với trung bình 150 nghìn VND và độ lệch tiêu chuẩn

350 nghìn VND Hãy ước tính xác suất để tổng chỉ phí bảo hành vượt quá 10,64

tỉ VND |

Giai Ky hiéu X; (¢ = 1,2, ,n = 7 x 10!) là chỉ phí bảo hành một năm cho khách hàng thứ ¿ Khi đó, chỉ phí bảo hành của toàn bộ hệ thống trong một năm

là | n

nX = » Xj

2=]

"Theo định lý giới hạn trung tâm, X là biến ngẫu nhiên có phân phối xấp xỉ chuẩn 350 x 10°

V7 x 10

tong chỉ phí bảo hành hàng năm vượt quá 10,64 tỉ VN Dia |

với trung bình 150 nghìn VND và độ lệch tiêu chuẩn Vậy xác suất để

10, 64 x 109 7 x 104 P(nX > 10,64 x 10°) =P (x > X — 150 x 10° ` 152 x 10° — 150 x 103 _ 350 x 103 350 x 103 ` 7x10 V7 x 10 ~ P(Z >1,51)=1- 9(1,51) ~ 1 — 0,9345 =0,0655 - =f

Ví dụ 2.32 Một bệnh viện muốn tận dụng tầng 2 của một tòa nhà cũ gồm 2 tầng để làm khu vực khám bệnh Để đảm bảo an toàn, người ta muốn ước tính

sức chứa (bao nhiêu người?) của tầng 2 tòa nhà Các kỹ sư xây dựng cho rằng kết cấu của tòa nhà có thể chịu được tải trọng 5 tấn Giả sử rằng khối lượng của

một người là biến ngẫu nhiên với trung bình 60 kg và độ lệch tiêu chuẩn 2ð kg

(a) Hãy ước tính sức chứa của tầng 2 tòa nhà sao cho xác suất để kết cấu tịa

nhà bị phá hủy khơng vượt quá 5%

{b) Sau khi gia cố tầng 2, các kỹ sư cho rằng sức chịu tải của tầng 2 tòa nhà là

biến ngẫu nhiên có phân phối chuẩn với trung bình 7 tấn và độ lệch chuẩn

0,2 tấn Hãy ước tính sức chứa của tầng 2 tòa nhà để xác suất kết cấu nhà bị phá hủy không vượt quá 5%

Giải

-{a) Gọi X; là khối lượng (tính theo kilogram) của người thứ ¿ € {1,2, , nr}

Trang 40

40 2 THỐNG KÊ MÔ TẢ VA PHAN PHOI MAU

Ta phải tính xác suất để kết cấu của tòa nhà bị phá hủy :

Theo «

P (sox >5x | ¬

t=]

dinh ly gidi hạn trung tâm, biến ngẫu nhiên =@ lK¬

-2

fg 2 ` ` 2ð

có phận phơi xâp xỉ chuẩn với trung bình 60 và phương sai —— Do đó

) n Ta sé hay ti Ta tin P (> X,>5 <0? = P(nX >5 x 10°) 7=1 5 x 103 X-60_ —p — 60 25//n 25//n 5 x 103 — 6Ũn - (2> ) =P

tim ? sao cho

5 x103— 5 x 103 — 60 r[Z> x 10 ”)-:-s( =) < 0,05 25/n fƠng đương _ 9B5Vn 5 x 10? — 60n Bye > 1,645 ì được n< 77

Vay neu số người có mặt không vượt quá 77 người tại cùng một thời điểm

trên tầng 2 của tòa nhà thì xác suất để kết cấu tòa nhà bị phá hủy sẽ ít hơn 5% Việc ước tính này giúp cho bệnh viện có thể thiết kế các đơn vị khám bệnh $ao cho vừa đảm bảo tận dụng các điện tích trống, vừa đảm bảo an

toàn tt

Goi Y|

ong van hanh

là biến ngẫu nhiên chỉ sức chịu tải của tầng 2 tòa nhà Theo bài ra, Y có phân phối chuẩn với trung bình 7 tấn và độ lệch chuẩn 0,2 tấn Xác

Ngày đăng: 31/05/2023, 13:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w