Phân phối hình học

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 35)

D. Phân phối nhị thức (Binomial distribution)

E. Phân phối hình học

Phân phối hình học (Geometric Distribution) là dạng đặc biệt của phân phối nhị

thức âm. Nó liên quan tới sốlượt thử cần thiết cho một lần thành công duy nhất. Vì vậy phân phối hình học là một phân phối nhị thức âm với số lần thành công là 1.

i. Một biến ngẫu nhiên rời rạc X có phân phối hình học với tham số p,

trong đó 𝑝 ∈ (0,1) , có công thức xác suất thành công với n lần thử:

𝑃(𝑋 = 𝑛) = 𝑝 × 𝑞𝑛−1

Với p là xác thành công cho một lần thử duy nhất q là xác suất thất bại cho một lần thử duy nhất n là số lần thử

ii. Tính chất của phân phối hình học

 𝐸(𝑋) = 1𝑝  𝐷(𝑋) = 1−𝑝𝑝2

+Ví dụ:

Trong bộ bài 52 lá, ta rút thử 1 lá .Thửcho đến khi rút được lá Át thì dừng lại. Xác suất để ít nhất 10 lần rút được lá Át?

Giải: Gọi X là sốlá bài rút được cho đến khi gặp lá Át. X là biến ngẫu nhiên có phân phối hình học với tham số p=1/13 , vậy 𝑃(𝑋 = 𝑛) = (1213)𝑛−1(1/13) 𝑣ớ𝑖 𝑛 = 1,10 Vậy xác suất cần tìm là 𝑃(𝑋 ≥ 10) = ∑ (1213)𝑛−1(13)1 ∞ 𝑛=10 = 13 .1 (12/13)9 1 − 12/13 ≈ 0.49 F. Phân phối Poisson

Trong phân phối nhị thức, khi xảy ra n! số lần thử, dãy số nào quá lớn để có thể

phục vụ cho công tác này. Là xác suất của biến ngẫu nhiên rời rạc và nó thường

được sử dụng rộng rãi trong các công việc có thể đo đạc được. Sự phân bố này

được đưa ra bởi nhà toán học người Pháp, tiến sỹ Simon Denis Poisson vào năm

1837 và phân bố này được đặt theo tên ông. Sau khi ông qua đời, nhà toán học

người Nga L.V.Bortkiewicz đã hoàn tất những công việc còn lại. Hiện nay, phân phối Poisson được phổ biến nhất, chỉ đứng sau phân phối nhị thức và phân phối chuẩn trong ngành thống kê.

Phép tuần hoàn Poisson được tận dụng như một phần của các trường hợp mà xác suất xuất hiện của một sự kiện là nhỏ, nghĩa là sự kiện chỉ xảy ra một lần sau một khoảng thời gian dài. Ví dụ, xác suất xảy ra lỗi trong quá trình thành lập tập đoàn

là nhỏ, xác suất xảy ra chấn động trong một năm là nhỏ, việc rủi ro xảy ra trên

đường phố là nhỏ, và tương tự như vậy. Tất cả đều là những trường hợp mà xác suất xảy ra sự kiện là nhỏ.

i. Đại lượng ngẫu nhiên 𝑋 = {0,1,2, … , 𝑛} gọi là có phân phối Poisson nếu tồn tại 𝑎 > 0, a là tham số của phân phối Poisson:

𝑝𝑘 = 𝑃(𝑋 = 𝑘) = 𝑒−𝑎 × 𝑎𝑘

𝑘! , 𝑘 = 0,1,2, …

ii. Tính chất của phân phối Poisson:

 𝐸(𝑋) = 𝑎

 𝐸(𝑋2) = 𝑎(𝑎 + 1)  𝐷(𝑋) = 𝑎

Trung bình trong một cuốn sách, cứ 3 trang là có 1 lỗi đánh máy. Nếu số lồi đánh

máy là biến ngẫu nhiên Poisson, xác suất để có ít nhất 1 lỗi trên cuốn sách đó là

bao nhiêu?

Giải: Gọi X là số lỗi trên 1 trang cụ thể. X là biến ngẫu nhiên Poisson với tham số

k=1/3=E(X) có công thức

𝑃(𝑋 = 𝑘) = (1/3)𝑘𝑒−1/3 𝑛!

CHƯƠNG 3. BIẾN NGẪU NHIÊN LIÊN TỤC 3.1Biến ngẫu nhiên liên tục

3.1.1 Định nghĩa

A. Biến ngẫu nhiên liên tục

Nếu với biến ngẫu nhiên rời rạc ta có thể liệt kê các giá trị có thể, thì biến ngẫu nhiên liên tục các giá trị có thể có của nó lấp đầy một khoảng và không thể liệt kê chi tiết ra được.

Trong thực tế, có nhiều biến ngẫu nhiên bản chất là rời rạc, tuy nhiên vì số lượng giá trị cảu nó là rất nhiều nên cũng có thể xét như là biến ngẫu nhiên liên tục.

+Ví dụ:

Trọng lượng của một loại sản phẩm, mực nước biển tại một thời điểm là những đại

lượng ngẫu nhiên liên tục.

B. Hàm mật độ xác suất (Probability density function)

i. Cho X là đại lượng ngẫu nhiên liên tục, có hàm phân phối F(x) là một

đạo hàm. Khi đó ta gọi hàm:

𝑓(𝑥) = 𝐹′(𝑥) là hàm mật độ xác suất

Hàm mật độ xác suất của biến ngẫu nhiên liên tục X, ký hiệu là f(x), là hàm số

không âm trong khoảng giá trị của X và diện tích tạo bởi hàm sốđó và trục hoành bằng 1, thể hiện sự phân phối xác suất của X.

ii. Tính chất của hàm mật độ xác suất

Hàm mật độ xác suất của đại lượng ngẫu nhiên X có các tính chất sau:

 ∫ 𝑓(𝑥)𝑑𝑥−∞+∞ = 1

 𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥𝑎𝑏  𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡−∞𝑥

Từ các tính chất trên có thể rút ra các nhận xét sau:

 Với biến ngẫu nhiên liên tục X, chỉ xét xác suất nhận giá trị trong một khoảng. Xác suất X nhận giá trị tại một điểm bằng 0.

 Khi xét xác suất X nhận giá trị trong một khoảng, không cần quan tâm đến cận.

 Hình ảnh hàm mật độ xác suất cho biết sự tập trung của xác suất, chỗ nào hàm mật độ càng cao thì xác suất tập trung ở khoảng vây quanh giá trị đó

càng nhiều. Hàm mật độ xác suất bằng 0 là giá trị xảy ra với xác suất bằng 0. +Ví dụ: Cho hàm: { 0, 𝑥 < 1 1 2+14(𝑥 − 3), 1 ≤ 𝑥 < 3 1 2−14(𝑥 − 3), 3 ≤ 𝑥 < 5 0, 𝑥 ≥ 5

a) Chứng tỏ f(x) là hàm mật độ xác suất của một đại lượng ngẫu nhiên X Hiển nhiên f(x)≥ 0 và diện tích của tam giác ABC trên đồ thị bằng 1

3.1.2 Các đặc trưng của biến ngẫu nhiên liên tục A. Kỳ vọng A. Kỳ vọng

Trường hợp X là đại lượng ngẫu nhiên liên tục có hàm mật độ f(x) thì kỳ vọng của X là số: 𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥+∞ −∞ B. Phương sai Nếu X liên tục, có hàm mật độ xác suất f(x) , 𝜇 là kỳ vọng ,thì ta có 𝐷(𝑋) = ∫ (𝑥 − 𝜇)+∞ 2𝑓(𝑥)𝑑𝑥 −∞ +Ví dụ:

Cho X là đại lượng ngẫu nhiên có hàm mật độ

𝑓(𝑥) = {2𝑥 𝑛ế𝑢 𝑥𝜖[0,1]0 𝑛ế𝑢 𝑥 [0,1] Tìm kỳ vọng của X Giải: E(X) =∫ 𝑥𝑓(𝑥)𝑑𝑥−∞+∞ = ∫ 2𝑥01 2𝑑𝑥 =23 𝐷(𝑋) = ∫ (𝑥 − 𝜇)+∞ 2𝑓(𝑥)𝑑𝑥 −∞ = ∫ (𝑥 −1 23)2× 2𝑥𝑑𝑥 0 =181 3.2 Các phân phối liên tục 3.2.1 Phân phối đều

Phân phối đều liên tục là một phân phối mà xác suất xảy ra như nhau cho mọi kết cục của biến ngẫu nhiên liên tục.

i. Đại lượng ngẫu nhiên X gọi là phân phối đều trên đoạn [a,b] nếu hàm mật độ của X là

𝑓(𝑥) = {𝑏 − 𝑎 𝑛ế𝑢 𝑥𝜖[𝑎, 𝑏] 1 0 𝑛ế𝑢 𝑥 [𝑎, 𝑏] Trong trường hợp này ta ký hiệu 𝑋~𝑈(𝑎, 𝑏)

ii. Tính chất của phân phối đều Nếu 𝑋~𝑈(𝑎, 𝑏)

 𝐸(𝑋) = 𝑏+𝑎2  𝐷(𝑋) = (𝑏−𝑎)12 2

+Ví dụ:

Bắt đầu từ 5 giờ sáng, mỗi 30 phút sẽ có duy nhất 1 chuyến bay từ Hà nội đến Thành phố Hồ Chí Minh. Một ngời muốn bay từ Hà Nội vào thành phố, người ấy

đến sân bay khoảng 8 giờ 45 phút và 9 giờ 45 phút. Giả sử luôn luôn có chỗ trống trên máy bay. Tìm xác suất khi người đó phải đợi 10 phút.

Giải: Gọi X là số phút sau 8 giờ 45 phút. Vậy X là biến có phân phô đều từ [0,60]. Có hàm mật độ là

𝑓(𝑥) = {60 ,1 𝑛ế𝑢 0 < 𝑥 < 60 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐

Nếu người ấy phải đợi 10 trong khoảng thời gian từ 8 giờ50 phút đến 9 giờ , hoặc từ 9 giờ20 phút đến 9 giờ 30 phút. Vậy ta có khoảng xác định biến X là 5 < 𝑋 < 15 ℎ𝑜ặ𝑐 35 < 𝑋 < 45. Vậy xác suất cần tìm là

𝑃(5 < 𝑋 < 15) + 𝑃(35 < 𝑋 < 45) = ∫1560 𝑑𝑥1

5 + ∫4560 𝑑𝑥1 35 = 13

3.2.2 Phân phối mũ (Exponential Distribution)

Phân phối mũ (Exponential Distribution) hoặc phân phối mũ phủđịnh đại diện cho một phân phối xác suất giúp mô tả thời gian giữa hai sự kiện trong một quá trình Poisson. Trong quá trình Poisson, các sự kiện xảy ra liên tục và độc lập theo một tần suất trung bình không đổi.

Biến ngẫu nhiên có phân phối mũ có thể được coi là một phiên bản liên tục của các biến ngẫu nhiên hình học. Nó mô hình hóa thời gian chờđợi cho đến khi một sự

kiện được tạo ngẫu nhiên xảy ra trong thời gian liên tục.

Phân phối mũ được sử sụng với các biến ngẫu nhiên liên tục chuyển trạng thái , những sự kiện cực kỳ hiếm xảy ra hoặc là có biến động cực kì lớn:

 Thời gian cho đến khi xảy ra tại nạn giao thông tại ngã tư

 Thời gian giữa hai lần xảy ra động đất tiếp theo tại một địa điểm

i. Đại lượng ngẫu nhiên X gọi là phân phối mũ với tham số (>0) nếu hàm mật độ của X là:

𝑓(𝑥) = {𝑒0 𝑛ế𝑢 𝑥 < 0−𝑥 𝑛ế𝑢 𝑥 ≥ 0 Trong trường hợp này ta ký hiệu 𝑋~𝐸()

ii. Tính chất của phân phối mũ

Nếu 𝑋~𝐸()  𝐸(𝑋) = 1  𝐷(𝑋) = 12

+Ví dụ:

Thời hạn sử dụng của Tivi là biến có phân phối mũ với thời gian tối đa là 10 năm.

Nếu một người mua Tivi của anh ấy vào 10 năm trước, vậy xác suất Tivi còn sử

dụng được thêm 10 năm tiếp theo là bao nhiêu?

Giải: Gọi X là thời hạn sử dụng của Tivi. Do biến X là biến ngẫu nhiên có phân phối mũ, vậy:

𝑃(𝑋 > 20|𝑋 > 10) = 𝑃(𝑋 > 10) = 1 − (1 − 𝑒(− 110)10) ≈ 0.37

3.2.3 Phân phối chuẩn (Normal Distribution) A. Phân phối chuẩn A. Phân phối chuẩn

Bây giờ chúng ta chuyển sang một trong những phân phối quan trọng nhất trong xác suất và thống kê - Phân phối chuẩn.

Thật vậy, Định lý Giới hạn Trung tâm (Central Limit Theorem) nói rằng tổng của một sốlượng lớn các biến ngẫu nhiên độc lập và có phân phối giống hệt nhau được

phân phối gần đúng chuẩn không phụ thuộc vào phân phối cơ bản cụ thể, với điều kiện rằng nó có hữu hạn giá trị trung bình và phương sai .

i. Phân phối chuẩn (Normal Distribution) là sự phân bố dữ liệu mà ở đó giá

trị tập trung nhiều nhất ở khoảng giữa và các giá trị còn lại rải đều đối xứng về phía các điểm cực trị(Phân phối chuẩn, 2021).Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình ) và tỉ lệ(phương sai ).

Abraham de Moivre là người đầu tiên đưa ra phân phối chuẩn trong bài báo năm1734 (được in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) khi muốn xấp 1734 (được in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) khi muốn xấp xỉ một phân phối nhị thức với n lớn. Kết quảđược mở rộng bởi Laplace trong cuốn sách Analytical Theory of Probabilities (1812), và bây giờ gọi là định lý Moivre- Laplace.

Biểu diễn đồ thị của một phân phối chuẩn đôi khi được gọi là đường cong hình chuông vì hình dạng loe rộng ra của nó. Hình dạng chính xác có thể thay đổi tùy theo tập toàn thể của phân phối nhưng đỉnh luôn luôn ở giữa và đường cong luôn

đối xứng. Trong một phân phối chuẩn, giá trị trung bình, yếu vị và trung vị là giống nhau.Tên gọi "đường cong chuông" do Jouffret, người đầu tiên dùng thuật ngữ "bề mặt hình chuông" năm 1872 cho phân phối chuẩn hai chiều với các thành phần độc lập. Tên gọi "phân phối chuẩn" được tạo ra bởi Charles S. Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875.

ii. Đại lượng ngẫu nhiên X gọi là phân phối chuẩn nếu hàm mật độ của X có dạng:

𝑓(𝑥) = 1 𝜎√2𝜋𝑒

−(𝑥−𝑎)2𝜎22, 𝑣ớ𝑖 𝜎 > 0

Trong công thức trên, x là giá trị của biến ngẫu nhiên; a và σ2 là các tham số; π và

e là các hằng số của tự nhiên, π ≈ 3,14; e≈ 2,718. Công thức khá phức tạp, tuy nhiên việc tính toán sẽ đơn giản vì các giá trị cần tìm sẽ được cho sẵn trong bảng số.

iii. Tính chất của phân phối chuẩn Nếu 𝑋~𝑁(𝑎, 𝜎2)

 E(X)=a

 𝐷(𝑋) = 𝜎2

B. Phân phối chuẩn chuẩn tắc

Tuy vậy một trong những ứng dụng đầu tiên được Gauss áp dụng phân phối chuẩn

vào năm 1809, khi ông dùng nó để nghiên cứu thiên văn học. Nhưng trong cuốn An Introduction to Mathematical Statistics and Its Application của Larsen và Marx, Lambert Quetelet lần đầu đưa dữ liệu thống kê trong nhiều trường hợp trong xã hội.(Ghahramani, 1999)

Các biến ngẫu nhiên phân phối Chuẩn có đồ thị quả chuông tại vịtrí khác nhau, độ

cao thấp khác nhau, do đó không thuận lợi trong tính toán các xác suất. Để việc

tính toán được thuận lợi, ta xét một biến ngẫu nhiên phân phối Chuẩn đặc biệt là biến ngẫu nhiên phân phối Chuẩn hóa.

Là phân phối chuẩn với giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1. i. Đại lượng ngẫu nhiên 𝑋~𝑁(0,1) gọi là phân phối chuẩn chuẩn tắc Nếu X có phân phối chuẩn chuẩn tắc thì hàm mật độ của X là

Hình 6. Biểu đồ hàm mật độ phân phối chuẩn chuẩn tắc ii. Tính chất của phân phối chuẩn chuẩn tắc

Nếu 𝑋~𝑁(𝑎, 𝜎2) thì 𝑌 = 𝑋−𝑎𝜎 ~𝑁(0,1)

C. Tích phân Laplace

i. Cho f(x) là hàm mật độGauss. Khi đó ta có hàm phân phối Gauss

𝐹(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥−∞𝑢

Và tích phân Laplace 𝛷(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥0𝑢 = √2𝜋1 ∫ 𝑒0𝑢 −𝑥22𝑑𝑥

Giữa hàm phân phối Gauss và tích phân Laplace có mối liên hệ F(u)=1/2+Φ(u) D. Công thức tính xác suất Nếu 𝑋~𝑁(𝑎, 𝜎2)  𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷 (𝛽−𝑎𝜎 ) − 𝛷 (𝛼−𝑎𝜎 )  𝑃(|𝑋 − 𝑎| < 𝛼) = 2𝛷 (𝛼𝜎) với α>0 Nếu 𝑋~𝑁(0,1)  𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷(𝛽) − 𝛷(𝛼)  𝑃(|𝑋| < 𝛼) = 2𝛷(𝛼) với α>0

+Ví dụ: Bài toán của Lambert Quetelet

Giả sử trung bình độ rộng của ngực của một người đàn ông trưởng thành trung

bình là 39,8 inch và độ lệch chuẩn là 2.05 inch. Vậy xác suất khi chọn ngẫu nhiên

20 người nam, 5 người đầu có độ rộng của ngực mình ít nhất 40inch?

Giải: Gọi p là xác suất khi chọn được người đàn ông có độ rộng ngực của mình từ

40 inch trở lên. Nếu X là biến có phân phối chuẩn với trịtrung bình là 39.8 và độ

lệch chuẩn là 2.05 thì ta có đồ thị:

Hình 7. Hình thể hiện ví dụ phân phối chuẩn Gọi i là độ rộng của ngực i=33,…..Ta phân tích

thấy được độ rộng i từ33 đến 48 inch có tần số tương đối với phần đồ thị có hàm mật độ P(i- 1/2<X<1/2) khi X là biến có phân phối đều với X có phân phối chuẩn 𝑋~𝑁(𝑎, 𝜎2)

Vậy sử dụng bảng tra tích phân Laplace ta có thểtìm được:

𝑝 = 𝑃(𝑋 ≥ 40) = 𝑃 (𝑋 − 39.82.05 ≥ 40 − 39.82.05 ) = 𝑃 (𝑋 − 39.82.05 ≥ 0.1) = 𝑃(𝑍 ≥ 0.1) = 1 − 𝛷(0.1) ≈ 1 − 0.5398 ≈ 0.46

Vậy xác suất để 5 người chọn đầu thỏa yêu cầu bài toán là  :𝐶205 (0.46)5(0.54)15 ≈ 0.03

3.2.4 Phân phối Chi-Bình phương( Chi-Squared)

Phân phối Chi-bình phương (Chi-squared) được sử dụng rộng rãi trong thống kê để

tính toán những giá trị sau:

 Ước lượng khoảng tin cậy cho độ lệch chuẩn của tập tổng thể đối với một phân phối chuẩn, sử dụng độ lệch chuẩn của mẫu.

 Để kiểm tra độ độc lập của hai phân loại tiêu chuẩn đối với các biến đa tính.

 Để nghiên cứu độ biến thiên mẫu trong trường hợp phân phối là phân phối chuẩn.

 Để kiểm thử độ lệch giữa các tần số kỳ vọng và tần số thực tế.

Nếu có n biến ngẫu nhiên Chuẩn hóa , khi bình phương các biến đó rồi lấy tổng, thì tổng đó sẽ phân phối theo một quy luật gọi là quy luật “Chi –bình phương”, ký

hiệu là χ2(n), đọc là quy luật “Chi –bình phương bậc tựdo n”.

i. Đại lượng ngẫu nhiên 𝜒2 gọi là có phân phối Chi-bình phương n bậc tự

do nếu 𝛘2=𝑋12+ 𝑋22 + ⋯ + 𝑋𝑛2 trong đó 𝑋12, 𝑋22, … , 𝑋𝑛2 là các đại

lượng ngẫu nhiên có phân phối chuẩn chuẩn tắc. Vậy hàm mật đọ có dạngL

𝑓(𝑥) = { 1

𝛤 (𝑛2)2𝑛2𝑥𝑛2−1𝑒−𝑥/2, 𝑥 > 0 0, 𝑥 ≤ 0

Ký hiệu 𝜞(x) là hàm gamma 𝜞(x) =∫ 𝑡0+∞ 𝑥−𝑡𝑒−𝑡𝑑𝑡. Trong trường hợp này ta ký hiệu X~χ2(n)

ii. Tính chất phân phối Chi-bình phương

Nếu X~χ2(n)

 E(χ2) = n, D(χ2) = 2n

 Với quy luật Khi –bình phương bậc tự do n, ta cần quan tâm giá trị tới hạn mức α, là một con số sao cho biến ngẫu nhiên lớn hơn con sốđó bằng đúng

α. Con sốđó ký hiệu là 𝜒𝑎2(𝑛), đọc là giá trị tới hạn mức α bậc tự do n. Sử dụng bảng giá trị tới hạn

+Ví dụ:Muốn tra giá trị tới hạn Khi –bình phương mức 0,05 bậc tự do 10, tìm cột 0,05 và dòng 10, đối chiếu được giá trị 18,31. Ta viết:𝜒0.052 (10) = 18.31

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 35)