1. Các dạng phân bố 2. Phân bố nhị thức 3. Phân bố Poisson 4. Phân bố chuẩn 5. Phân bố mẫu Kiểm định Anderson-Darling: P-value < 0.05 Không có phân bố chuẩn. Phân bố có một đuôi dài lệch về phía bên phải. Giá trị skewness lớn (1.59). Trong box plot chiều dài các whisker không bằng nhau, trung vị không nằm ở giữa box.
Trang 1Chương 3
PHÂN BỐ XÁC SUẤT
Trang 3Phân bố đối xứng
1 Các dạng phân bố
168.0 167.6 167.2 166.6 167.6 172.4 176.3 167.2 166.0 172.0 167.8 172.3 164.8 172.4 172.5 166.8 167.9 166.3 175.3 166.9 172.0 166.1 163.9 171.0 172.0 162.4 167.7 175.0 173.5 166.7 170.1 168.3 172.3 170.0 162.5 165.9 164.9 175.6 179.3 160.3 172.6 175.9 170.1 173.8 172.0 175.5 174.1 174.7 170.4 171.0 171.2 177.9 165.8 176.7 173.6 171.7 181.0 168.6 166.6 164.1 168.7 170.5 163.1 164.2 167.6 164.9 168.4 172.8 164.9 171.8 166.7 165.3 178.9 171.1 171.1 174.2 174.5 167.2 171.2 171.1 174.0 164.0 174.2 167.6 167.8 170.6 176.8 168.1 172.0 167.3 176.8 162.8 170.0 172.3 173.4 169.5 170.6 169.5 166.4 173.5
Chiều cao của 100 người nam
Trang 4160 164 168
Mean Median
N 100
M inimum 160.30 1st Q uartile 166.83
M edian 170.25 3rd Q uartile 172.75
M aximum 181.00 95% C onfidence Interv al for M ean 169.23 170.90 95% C onfidence Interv al for M edian 168.25 171.20 95% C onfidence Interv al for S tD ev 3.70 4.89
9 5 % C onfide nce Inte rvals
Summary for Height
Trang 5Phân bố đối xứng
1 Các dạng phân bố
Nhận xét
•Giá trị của trung bình (170.1 cm; khoảng
tin cậy 95% là 169.23 – 170.90) và trung
vị (170.3 cm; khoảng tin cậy 95% là 168.25
Trang 7Mean Median
6500 6000
5500 5000
4500 4000
A nderson-Darling N ormality T est
N 100
M inimum 1200.0 1st Q uartile 2900.0
M edian 4500.0 3rd Q uartile 6675.0
M aximum 21400.0 95% C onfidence Interv al for M ean 4837.3 6264.7 95% C onfidence Interv al for M edian 4048.5 5425.8 95% C onfidence Interv al for S tD ev 3158.2 4178.6
9 5 % C onfide nce Inte rvals
Summary for Oocysts
Trang 8Phân bố lệch dương
1 Các dạng phân bố
Nhận xét:
• Kiểm định Anderson-Darling: P-value < 0.05
Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên phải Giá trị skewness lớn (1.59).
• Trong box plot chiều dài các whisker không bằng nhau, trung vị không nằm ở giữa box.
• Có các giá trị ngoại lai (outliers) bên phải.
• Số trung bình (5551) > số trung vị (4500).
Trang 1046 44
Mean Median
48.0 47.8 47.6 47.4 47.2 47.0
N 100
M inimum 43.000 1st Q uartile 47.000
M edian 48.000 3rd Q uartile 49.000
M aximum 50.000 95% C onfidence Interv al for M ean 47.370 47.990 95% C onfidence Interv al for M edian 47.000 48.000 95% C onfidence Interv al for S tD ev 1.372 1.815
9 5 % Confide nce Inter vals
Summary for Gene+
Trang 11Phân bố lệch âm
1 Các dạng phân bố
Nhận xét:
• Kiểm định Anderson-Darling: P-value < 0.05
Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên trái Giá trị skewness âm (- 0.62).
• Trong box plot chiều dài các whisker không bằng nhau, trung vị không nằm ở giữa box.
• Có các giá trị ngoại lai (outliers) bên trái.
• Số trung bình (47.68/g) < số trung vị (48).
Trang 12Tổng quan
2 Phân bố nhị thức
•Một phép thử chỉ có hai khả năng xảy ra:
“thành công” hoặc “thất bại”
–xác suất thành công là л
–x á c s u ấ t t h ấ t b ạ i l à 1 - л , đ ư ợ c gọi là phép thử Bernoulli
•Phân bố của số lần phép thử thành công
được gọi là phân bố nhị thức.
Trang 13Ví dụ
2 Phân bố nhị thức
•Tiếp xúc với hóa chất độc hại: có hoặc không
•Trả lời câu hỏi trắc nghiệm: đúng hoặc sai
•Kiểm tra chất lượng sản phẩm: đạt hoặc không
Trang 14–л: xác suất thành công của phép thử
Trang 15Trung bình và phương sai
2 Phân bố nhị thức
•Trung bình: µ = nл
•Phương sai: σ2 = nл (1- л)
Trang 16Áp dụng Minitab
2 Phân bố nhị thức
Calc > Probability Distributions > Binomial
Trang 17Áp dụng Minitab
2 Phân bố nhị thức
Trang 19Hình dạng
2 Phân bố nhị thức
• Phụ thuộc vào: cỡ mẫu (n) và xác suất (л)
20 15
10 5
Distribution Plot
Binomial, n=20
Trang 20Ví dụ 1
2 Phân bố nhị thức
•Hãy xác định phân bố xác suất số bê cái được sinh ra trong ba lần đẻ liên tiếp Giả sử rằng mỗi lần bò chỉ đẻ một con
và xác suất sinh ra bê cái trong mỗi lần
đẻ là 0.5
Dạng phân bố là nhị thức với л = 0.5 và n = 3 (Xem giáo trình trang 41)
Giải:
Trang 21Ví dụ 2 (Giáo trình trang 41)
2 Phân bố nhị thức
• Trong một quần thể heo tính mẫn cảm đối với
một bệnh được xác định bởi hai alleles: B and
b Heo có kiểu gen bb sẽ có bệnh, Bb và BB
không bệnh Tần số của allele B = b = 0.5 Hai con heo đều có kiểu gen Bb giao phối với nhau
và sinh ra một lứa 10 heo con Hãy tính:
a)Số heo con có khả năng mang bệnh
b)Xác xuất để không có heo con nào bệnh.
c)Xác suất để ít nhất có một heo con bị bệnh.
d)Xác suất để có đúng một nửa đàn heo bị bệnh.
Trang 22• Phân bố Poisson không chọn lọc mẫu có cỡ mẫu n và chúng được dùng khi các biến cố xảy ra ngẫu nhiên trong không gian hoặc thời gian.
Trang 23Hàm xác suất
3 Phân bố Poisson
• Số các biến cố xảy ra trong một khoảng thời gian hoặc không gian cho trước.
• Số các biến cố trung bình trên một đơn vị là µ.
• Hàm xác suất của phân bố Poisson:
với x = 0, 1, 2 …
e = 2.71828
P (X = x) = e-µx!µx
Trang 24Áp dụng Minitab
3 Phân bố Poisson
•Calc > Probability Distributions > Poisson
Trang 25Áp dụng Minitab
3 Phân bố Poisson
Trang 26phân bố tích lũy (CDF)
P ( X <= x )–Inverse cummulative probability:
tính xác suất của hàm phân bố CDF
Trang 27Trung bình và Phương sai
3 Phân bố Poisson
Trung bình và Phương sai của phân bố Poison đều bằng µ
Ví dụ: sách GT trang 43
Trang 28Hình dạng
3 Phân bố Poisson
40 30
10 0
Distribution Plot
Poisson
Trang 29Ví dụ 1
3 Phân bố Poisson
Trong một nhà máy (có số công nhân ổn định), số tai nạn lao động trung bình hàng năm là 5 Hãy tính xác suất để trong năm nay có:
a) đúng 7 tai nạn lao động
b) không có tai nạn nào
c)10 hoặc nhiều hơn 10 tai nạn
d) ít hơn 5 tai nạn
Trang 30Tổng quan
4 Phân bố chuẩn
•Dùng cho các biến ngẫu nhiên liên tục
•Thường được biểu hiện dưới dạng một hàm qua đó có thể tính xác suất mà một biến nằm trong một khoảng xác định
Trang 32Hàm xác suất
4 Phân bố chuẩn
•Hàm phân bố tích luỹ (CDF) thể hiện xác
suất để X không vượt quá giá trị của x.
•Hàm phân bố tích lũy có dạng:
Trang 33•Tung độ của mỗi điểm trên đường cong gọi là mật độ xác suất.
Trang 34Hình dạng
4 Phân bố chuẩn
•Theo tính chất toán học thì sự phân bố mẫu thí nghiệm sẽ có:
– 68,26% dữ liệu nằm trong khoảng µ1 ± 1s
– 95,46% dữ liệu nằm trong khoảng µ1 + 2s
– 99,73% dữ liệu nằm trong khoảng µ1 + 3s
Trang 35Hàm mật độ xác suất
4 Phân bố chuẩn
Trang 36Hàm phân bố tích lũy
4 Phân bố chuẩn
Trang 37Hình dạng phân bố với các σ khác nhau
Trang 38Hình dạng phân bố với các µ khác nhau
Trang 40Hàm mật độ của phân bố chuẩn
Trang 41Xác suất của phân bố chuẩn
Trang 42Xác suất của phân bố chuẩn
4 Phân bố chuẩn
f(x2)= P(X < x2 )
x1 μ x2f(x1)= P(X< x1 )
x 1 μ x 2
P(x1 < X < x2 ) = f(x2 ) - f(x1 )
x1 μ x2 x
Trang 44Cách tính xác suất của phân bố chuẩn tắc
Trang 45Cách tính xác suất của phân bố chuẩn tắc
Trang 47Phụ lục Bảng phân bố chuẩn tắc
4 Phân bố chuẩn
Trang 48Optional storage: K1 OK
constants, and matrices to display: K1
Trang 49Áp dụng minitab
4 Phân bố chuẩn
Trang 50Áp dụng minitab
4 Phân bố chuẩn
Trang 51Áp dụng minitab
4 Phân bố chuẩn
Trang 52Kiểm tra phân bố chuẩn
4 Phân bố chuẩn
• Dùng một trong ba phương pháp:
dựa trên cơ sở ECDF (emperical cumulative distribution function) Đây là phương pháp
thường được dùng nhất.
phương pháp kiểm tra dựa trên cơ sở tương
quan (correlation).
tra dựa trên cơ sở khi bình phương ( 2 ).
Trang 53Áp dụng Minitab
4 Phân bố chuẩn
•Stat > Basic Statistics > Normality Test
Trang 55Dữ liệu có phân bố chuẩn
Height
Trang 56Dữ liệu có phân bố lệch âm
Trang 57Dữ liệu có phân bố lệch dương
Oocysts
Trang 58Chuyển dạng dữ liệu (Data transformation)
Trang 59M edian 4 0000 3rd Q uartile 6 0000
M aximum 12 0000 95% C onfidence Interv al for M ea n 4.4722 4 8878 95% C onfidence Interv al for M edian 4.0000 5 0000 95% C onfidence Interv al for S tD ev 1.9769 2 2716
Mean Median 4.0 2.4
Trang 60Counts
Trang 61Chuyển dạng căn bậc 2
4 Phân bố chuẩn
•Calc > Calculator
Trang 62N 400
M inim um 1.0000 1st Q ua rtile 1.7321
M edian 2.0000 3rd Q ua rtile 2.4495
M aximum 3.4641
95 % C onfidence I nte rv al for M ean 2.0544 2.1535 95% C onfidence Interv al for M edian 2.0000 2.2361
95 % C onfidence I nte rv al for S tD ev 0.4713 0.5415
Mean Median 2.00 1.2 1.6
Trang 64Chuyển dạng loga
4 Phân bố chuẩn
Trang 65ước lượng của m là x̅1.
–Chọn một mẫu khác, ta có ước lượng x̅2 –Tiếp tục lặp lại, ta sẽ có nhiều ước lượng khác nhau của m là x̅1, x̅2, x̅3, x̅4…
• Tất cả sẽ tạo thành một phân bố của trung bình mẫu.
Trang 66Mẫu 3 (n)
Trang 67Ví dụ
5 Phân bố mẫu
• Tổng thể có N = 5
– gồm x 1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14 – Trung bình:
µ = ∑ Nxi = 6 + 8 + 10 + 12 + 145 = 10
2
– Phương sai:
o = ∑( x1 N− µ) 2 = 40 5 = 8
Trang 68Chọn mẫu có hoàn lại
5 Phân bố mẫu
•Số mẫu có thể chọn = N n
• Các mẫu và trung bình mẫu (n = 2)
Lấy mẫu lần thứ hai
(8) 10,8 (9) 12,8
(9) 10,10 (10) 12,10
(10) 10,12 (11) 12,12
(11) 10,14 (12) 12,14
Trang 71Trung bình và Phương sai mẫu
Trang 72Chọn mẫu không hoàn lại
Trang 73Trung bình và Phương sai mẫu
5 Phân bố mẫu
Trung bình
Trang 74Trung bình và Phương sai mẫu
Trang 75Định lý giới hạn trung tâm
5 Phân bố mẫu
•Nếu một mẫu có kích cỡ n được chọn ngẫu
nhiên từ một tổng thể không phân bố chuẩn
có trung bình là µ và phương sai là σ2, thì phân bố của mẫu sẽ có
– trung bình là µ
– xấp xỉ phân bố chuẩn khi cỡ mẫu lớn
– phương sai là o2n
Trang 76Định lý giới hạn trung tâm
Trang 77Định lý giới hạn trung tâm
5 Phân bố mẫu
VD: Để khảo sát về thời gian mang thai của bò, người ta chọn các mẫu (có cỡ mẫu n = 10) Phân bố mẫu có:
Trang 78Định lý giới hạn trung tâm
Trang 79Định lý giới hạn trung tâm
5 Phân bố mẫu
Nhận xét: Từ định lý giới hạn trung tâm
• Nếu cở mẫu đủ lớn (n ≥ 30) thì phân bố của
trung bình mẫu sẽ là phân bố chuẩn bất kể
qui luật phân bố xác suất của tổng thể như thế nào.
• Nếu tổng thể có phân bố chuẩn, X ~ N(m, s2 ) thì phân bố của trung bình mẫu cũng sẽ là
phân bố chuẩn ~ N(m, s2 /n), bất kể cở mẫu lớn hay nhỏ.
Trang 80Định lý giới hạn trung tâm
5 Phân bố mẫu
Vận dụng
•Trong một tổng thể lớn, chiều dài hộp sọ của người có phân bố chuẩn với trung bình là
185.6 mm và độ lệch chuẩn là 12.7 mm
•Tính xác suất để một mẫu n =10 được chọn
từ tổng thể này có trung bình lớn hơn 190 mm
Trang 81Định lý giới hạn trung tâm
Trang 82Định lý giới hạn trung tâm
Trang 83KIỂM TRA
Trong một quần thể người hàng năm có trung bình
13 trường hợp ung thư vòm họng được phát hiện Tính xác suất để năm tới, số trường hợp ung thư chẩn đoán được:
a) bằng đúng 10 trường hợp
b) ít nhất 8 trường hợp
c) ít hơn 12 trường hợp
d) có từ 9 đến 15 trường hợp