Phân phối xác suất Dữ liệu liên tục Phân phối chuẩn X, Z Phân phối hàm mũ -Chú ý: Phân phối của mẫu Z, T, F và Phân phối Khi bình phương Dữ liệu rời rạc* Phân phối nhị thức Ph
Trang 1Vấn đề 2 Thống kê cơ bản
Trang 2Phân phối xác suất
Dữ liệu liên tục
Phân phối chuẩn (X, Z)
Phân phối hàm mũ
-Chú ý: Phân phối của mẫu
Z, T, F và Phân phối Khi bình phương
Dữ liệu rời rạc*
Phân phối nhị thức
Phân phối Poisson
Phân phối Hình học và Nhị thức
Trang 3Công cụ thống kê
bộ dữ liệu có thể thành lập và tham khảo hình dạng của Phân phối Thường
phân phối phổ biến, thường gặp nhất
Phân phối chuẩn, có thể giúp ta trả lời nhiều câu hỏi
Trang 4 Sử dụng hai tham số (trung bình & độ lệch chuẩn)
Giả sử ta biết giá trị của 2 tham số trung bình và độ lệch chuẩn Như thế ta sẽ biết về tổng thể (Không phải của mẫu).
Trang 5Phân phối chuẩn
xứng qua đường thẳng đứng đi qua giá trị trung bình Hàm mật độ xác suất (p.d.f.) có dạng:
Trang 6Phân phối chuẩn
f(x)
x
Tb= µ
Trang 7 Một phân phối chuẩn có thể được mô tả một cách đầy đủ bởi hai giá trị: trung bình
điểm làm cơ sở cho các tính toán và suy
Trang 8 A Đặc điểm
1 đối xứng quanh đường thẳng có x = µ
2 diện tích nằm bên phải của trung bình bằng khoảng 1/2 diện tích chung, diện tích nằm bên trái của trung bình bằng khoảng 1/2 diện tích chung (nhìn slide tiếp)
3 giá trị khác µ (mean) & sigma 2 (variance) xác định đường cong khác; µ trung tâm của đường cung & sigma 2 xác định độ phân tán
Trang 9đối xưng qua đường thẳng đứng với x = µ
Trang 10diện tích bên phải là bằng 1 /2 của tổng diện tích ;
diện tích bên trai là bằng 1 /2 của tổng diện tích
Trang 11 4 khoảng 68% trường hợp sẽ nằm trong vùng phân bố chuẩn có khoảng trung bình và một độ lệch chuẩn
5 khoảng 95% trường hợp sẽ nằm trong vùng phân bố chuẩn có khoảng trung bình và hai độ lệch chuẩn
6 khoảng 99.7% trường hợp sẽ nằm trong vùng phân bố chuẩn có khoảng trung bình và ba độ lệch chuẩn
CHÚ Ý: độ lệch chuẩn ký hiệu bởi “s” hoặc σ
Trang 1268% c a phân phối’ n m trong vùng ủ ằ
68% c a phân phối’ n m trong vùng ủ ằ
trung bình cộng với 1 độ lệch chuẩn
Trang 1395% c a phân phối’ n m trong vùng ủ ằ
95% c a phân phối’ n m trong vùng ủ ằ
trung bình cộng với 2 độ lệch chuẩn
Trang 1499.7% c a phân phối’ n m trong vùng ủ ằ
99.7% c a phân phối’ n m trong vùng ủ ằ
trung bình cộng với 3 độ lệch chuẩn
Trang 15Example (see note page)
Cho X là đại lượng ngẫu nhiên biểu thị kết quả đạt được qua kỳ thi quốc gia
MBA Giả sử X tuân theo quy luật phân bố chuẩn với trung bình là 600 và độ lệch
chuẩn (sigma) là 65.
Vậy xác xuất để X nằm trong khoảng 1 sigma = 65 của 600, [535, 665] lă 68%
Vậy xác xuất để X nằm trong khoảng 2 sigma = 2(65) = 130 của 600 lă 95%
95% của kết quả sẽ nằm trong khoảng 470 và 730
Tương tự, 99.7% của kết quả sẽ nằm
Trang 1699.7%
600
600 -2(65)
600 + 2(65)
600
-3(65)
600 + 3(65)
Trang 1799.7%
600
600 -2(65)
600 + 2(65)
600
-3(65)
600 + 3(65)
Trang 1899.7%
600
600 -2(65)
600 + 2(65)
600
-3(65)
600 + 3(65)
Trang 19Phân phối chuẩn tắc
Biến ngẫu nhiên có phân phối chuẩn tắc là một biến chuẩn với:
trung bình = 0 và
độ lệch chuẩn (sigma) = 1
xem Hình trên slide tiếp
Biến này thường được ký hiệu là Z Thường một biến chuẩn được ký hiệu là X Việc biến đổi thành Z có thể trả lời được nhiều câu hỏi trong kinh tế và quản trị
Trang 20Hình 2 Đường cong chuẩn tắc: trung bình = 0 và độ lệch chuẩn (sigma) = 1
Chú ý “Z” khác “X”.
Trang 21Hình 2 Đường cong chuẩn tắc: trung bình = 0 và độ lệch chuẩn (sigma) = 1
Phần trăm của tỷ số nằm ngoài khoảng -2 & +2?
Chú ý “Z” khác “X”.
Trang 22 diện tích nằm dưới đường cong chuẩn tắc giữa z = 0 & z
= z0 ở đây z0 => 0
Also see the table in a few slides.
Trang 24Bảng phân phối Chuẩn tắc
.4938 4953 4965 4974 4981
4778 .4783 .4788 4793 4826 .4830 .4834 4838 4864 .4868 .4871 4875 4896 .4898 .4901 4904 4920 .4922 .4925 4927
4940 .4941 .4943 4945
4955 .4956 .4957 4959 4966 .4967 .4968 4969 4975 .4976 .4977 4977 4982 .4982 .4983 4984 Hàng 2.5 & cột 0.04, ta có Z = 2.54,
giá trị = 0.4945
Trang 25Table (in text)
.4938 4953 4965 4974 4981
4778 .4783 .4788 4793 4826 .4830 .4834 4838 4864 .4868 .4871 4875 4896 .4898 .4901 4904 4920 .4922 .4925 4927
4940 .4941 .4943 4945
4955 .4956 .4957 4959 4966 .4967 .4968 4969 4975 .4976 .4977 4977 4982 .4982 .4983 4984 giá trị hàng của 2.5 & và cột 0.04, có nghĩa là Z = 2.54,
49.45 là diện tích nằm giữa z=0 và z=2.54 và trục hoành
Trang 27 3 Vùng nằm giữa
z = 0 & z = -2.54 (chú ý - 2.54) cũng là 0.4945 (49.45% của diện tích).
P(0 < Z < 2.54) = P(-2.54 < Z < 0) = 4945
Trang 28 Biến đổi thành phân phối chuẩn
tắc Z
1 Chuyển mọi phân phối chuẩn thành chuẩn tắc theo công thức:
Z = (X - xtb) / độ lệch chuẩn of X
Ví dụ: Trung bình = 600, Độ lệch chuẩn = 65
để Z = 1.
(665 - 600) / 65 = 1
Trang 29Phân phối chuẩn tắc
) , (
Trang 30 Gỉa sử ta có biến X Suppose that you have an X variable with a trung bình of 125 & độ lệch
chuẩn of 12 If one of X's values is 125 (its
mean), then the corresponding value for a Z
variable is computed as follows:
Z = (X - µ) / 12 = (125 - 125) / 12 = 0
This means that a value for the X variable of 125
is 0 độ lệch chuẩn units from its trung bình of
125 (which makes sense.)
Trang 31 Suppose you have data on an variable
(call it X) that is normally distributed with
a trung bình µ = 4 & a độ lệch chuẩn
Trang 32-2 1 z values
6 4
Trang 33-2 1 z values
6 4
Chuï yï: P(0 < X < 6) = P(-2 < Z < 1)
Trang 346 4
NOTE: 81.85% tất cả giá trị
Z = (X - µ ) / σ
Trang 35Here’s how to use the table of Z values
to find the hai areas I showed you earlier.
Trang 36-2 1 z values
6 4
Trang 37.4938 4953 4965 4974 4981
4778 .4783 .4788 4793 4826 .4830 .4834 4838 4864 .4868 .4871 4875 4896 .4898 .4901 4904 4920 .4922 .4925 4927
4940 .4941 .4943 4945
4955 .4956 .4957 4959 4966 .4967 .4968 4969 4975 .4976 .4977 4977 4982 .4982 .4983 4984 for row value of 2.0 & column under 0.00, meaning Z = 2.00 ,
Table (in text)
Tìm diện tích nằm giữa z = -2 & z =0 (A1)
Dấu âm
Trang 38.1915 2258 2580 2881 3159
.3413
0040 .0080 .0120 0160 0438 .0478 .0517 0557 0832 .0871 .0910 0948 1217 .1255 .1293 1331 1591 .1628 .1664 1700
1950 .1985 .2019 2054 2291 .2324 .2357 2389 2612 .2642 .2673 2704 2910 .2939 .2967 2996 3186 .3212 .3238 3264 3438 .3461 .3485 3508
Table (in text)
for row value of 1.0 & column under 0.00, meaning Z = 1.00, value = 0.3413
area between z = 0 & z = 1 (area A2)
Trang 39-2 1 z values
6 4
Trang 40• P(-2 < Z < 1) = P(-2 < Z < 1) = DTich A1 + DTich + A2 = 0.4772 + 0.3413 = 0.8185;
• có nghĩa là xác suất để X nằm giữa 0 và 6 là 81.85%
Trang 41Những kiến thức xác suất
thống kê cần thiết
Biến ngẫu nhiên: là một biến số mà các giá trị của nó
có thể xảy ra ứng với một xác suất nào đó.
VD: biến X là giá trị xuất hiện khi gieo 1 hạ xúc sắc X có thể có các giá trị từ 1-6, xác suất xảy ra mỗi giá trị đều =1/6.
Hai biến ngẫu nhiên đgl độc lập khi giá trị của biến
này không bị ảnh hưởng bởi giá trị của biến khác.
Kỳ vọng: Cho 1 biến ngẫu nhiên X, có thể có các giá trị X = x1 , x2 , …, xn , tương ứng với các xác suất có thể xảy ra f(xi ) Kỳ vọng:
E(X) = Σ x i f(x i )
Một số phân phối xác suất thường gặp
Trang 42Phân phối chuẩn
xứng qua đường thẳng đứng đi qua giá trị trung bình Hàm mật độ xác suất (p.d.f.) có dạng:
chuẩn
Trang 43Phân phối chuẩn tắc
) , (
Trang 44Phân phối χ2
với trung bình là 0 và phương sai là 1, thì:
Trang 45/ y
x
Z =
Vậy, t là phân phối của một biến chuẩn tắc chia cho căn thức của giá trị trung bình của một biến theo phân phối chi square.
Phân phối t đối xứng giống như phân phối chuẩn nhưng dẹp hơn và có đuôi dài hơn.
n → + ∞ , Z dần theo phân phối chuẩn
Trang 46Phân phối F
2
1 2
2
1
1
n , n
F
~ n
/ y
n /
y
bình của hai biến theo phân phối chi square
Trang 47Ước lượng và sự lấy mẫu
của tổng thể từ các mẫu quan sát
của mẫu cần thỏa 2 điều kiện:
Không chệch: E( x ) = µ , và
Hội tụ: khi n → + ∞ , thống kê của mẫu tiến dần đến
Trang 48Phân phối giá trị trung bình của
mẫu
lấy ra từ tập hợp mẹ có kích thước lớn
mẫu như trung bình và độ lệch chuẩn Các
thống kê này khác nhau giữa các mẫu, tạo
thành một phân phối
chuẩn của phân phối Ta có:
µ
=
) x (
Trang 49Khoảng tin cậy của giá trị trung
bình của phân phối chuẩn
khoảng được ước lượng của giá trị trung bình của tập hợp mẹ, được thiết lập đối xứng quanh giá trị trung bình của mẫu sao cho khoảng tin cậy này chứa giá trị trung bình của tập hợp mẹ với một xác suất cho trước
x
Trang 50Khoảng tin cậy của giá trị trung
bình của phân phối chuẩn
xZ
Hay
xZs
ở các xác suất: 90%, 95% và 99%
Trang 51Ví dụ
ta nhận thấy độ tuổi trung bình của mẫu là 21,5, độ lệch chuẩn là 3 Ước lượng khoảng tin cậy của độ tuổi trung bình của sv ĐHĐN với xác suất 95%
diện tích xung quanh trục đối xứng có giá trị 0,95 là: 1,96 Khoảng tin cậy:
3 96
1 5
Trang 52Ki m nh gi thuy t ể đị ả ế
Ki m nh gi thuy t ể đị ả ế
Là một kỹ thuật cho phép đưa ra các kết luận khi tiến
hành so sánh giữa các biến thống kê, với một độ tin cậy cho trước.
Muốn kiểm định xem trung bình của µ của tổng thể theo phân phối chuẩn, với phương sai σ 2 , có khác giá trị µ 0
không
Ta lấy cở mẫu n từ tổng thể này Số trung bình của
mẫu x sẽ theo phân phối chuẩn, với trung bình µ và σ x2=
Trang 53t n
/ s
Trang 54Ví dụ
Ví dụ: Cục Thống kê thành phố X cho biết, thu nhập của
cư dân theo phân phối chuẩn, có giá trị trung bình là µ =
$1000 và σ = $200 Để kiểm định kết quả này, ta lấy mẫu ngẫu nhiên 100 cá nhân và nhận thấy x = 900 Kiểm
định giả thuyết trên với độ tin cậy 95%.
Ta có:
2
5 100
200
1000
900
99 5
t /
1000, với tin cậy 95%