Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes. Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay. Nó dựa trên những kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữ liệu đã biết trước. Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước về vấn đã quan sát để suy luận cho những thống kê hiện tại. Trước sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữ những thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển. Chúng ta có thể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lý thuyết cũng như ứng dụng. Chính vì vậy, có thể nói thống kê Bayes là một mảng kiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ở nước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy mà các kết quả phân loại tương đối giống với cách phân loại thông thường.
Trang 1PHẦN MỞ ĐẦU
Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes.Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay Nó dựa trênnhững kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữliệu đã biết trước Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước vềvấn đã quan sát để suy luận cho những thống kê hiện tại Trước sự phát triển mạnh
mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữnhững thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển Chúng ta cóthể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lýthuyết cũng như ứng dụng Chính vì vậy, có thể nói thống kê Bayes là một mảngkiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ởnước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác,phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào
mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn.Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy
mà các kết quả phân loại tương đối giống với cách phân loại thông thường
Suy luận Bayes được sử dụng rất rộng rãi trong tất cả các ngành nghề như yhọc, kinh tế, tin học,v.v Đặc biệt trong xác suất và thống kê hiện nay nó đóng vaitrò cũng hết sức quan trọng.Hiện tại chúng ta tìm được một số biểu thức giải tíchhậu nghiệm cụ thể khi giả sử tiên nghiệm là các hàm mật độ xác suất thông dụngnhư Beta, mũ, chuẩn, Trong thống kê sử dụng định lý Bayes cho ước lượng vàkiểm định tham số thống kê, cũng như các bài toán phân loại ngày nay trở nên phổbiến
Trang 2Chương 1
BIẾN NGẪU NHIÊN VÀ CÁC PHÂN PHỐI
XÁC SUẤT THÔNG DỤNG
1.1 Biến ngẫu nhiên và luật phân phối xác suất
1.1.1 Khái niệm và phân loại
a) Khái niệm
Biến ngẫu nhiên là biến nhận các giá trị là các khả năng có thể của phép thửngẫu nhiên với một xác suất nhất định nào đó phụ thuộc vào kết quả của phép thửngẫu nhiên
Các biến ngẫu nhiên thường được ký hiệu bằng các chữ cái hoa như: X, Y, Z,
… hoặc dạng chỉ số: X1, X2, …, Xn; Y1, Y2, …, Yn;…Các giá trị có thể có của biến
ngẫu nhiên được ký hiệu là: x1, x2, …, x m ; y1, y2…,y m,…
Một biến ngẫu nhiên coi như được xác định nếu biết được tập các giá trị của
nó và các xác suất mà nó nhận giá trị thuộc tập đó
b) Phân loại
Gọi tập giá trị của biến ngẫu nhiên X là X ( Ω ) Căn cứ vào tập
( ),
X Ω biến ngẫu nhiên được chia thành 2 loại: rời rạc và liên tục.
Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên được gọi là rời rạc nếu
) ( Ω
X là hữu hạn hoặc vô hạn đếm được, cách quãng nhau.
Biến ngẫu nhiên liên tục: Biến ngẫu nhiên được gọi là liên tục nếu
) ( Ω
X lắp đầy một khoảng hay một số khoảng hay toàn bộ trục số.
1.1.2 Hàm mật độ xác suất
a) Đối với biến ngẫu nhiên rời rạc
Giả sử biến ngẫu nhiên rời rạc X có n giá trị có thể xi, i = 1, 2, …, n, với xác suất tương ứng pi = P(X = xi) > 0, khi đó hàm mật độ xác suất của X (ký hiệu f(x))
được xác định như sau:
khi 0
, , 2 , 1 ,
khi )
(
i
i i
x x
n i
x x p
x f
Trang 3Thông thường để thuận lợi trong đánh giá biến ngẫu nhiên rời rạc, hàm mật độxác suất được biểu diễn dưới dạng bảng phân phối xác suất như sau:
b) Đối với biến ngẫu nhiên liên tục
Hàm số y = f(x) xác định trên R được gọi là hàm mật độ xác suất của biến ngẫu nhiên liên tục X nếu nó thỏa 2 tính chất sau:
( dx x f
Trang 4• Khi X là biến ngẫu nhiên rời rạc nhận các giá có thể có x1, x2, …, xk với
xác suất tương ứng p1, p2, …, p kthì
<x x
i
ip
• Khi X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f(x) thì
v) X là biến ngẫu nhiên liên tục thì F’(x) = f(x).
1.2 Tham số đặc trưng của biến ngẫu nhiên
xf )(
b) Tính chất
Trang 5Cho C là một hằng số, X và Y là hai biến ngẫu nhiên Từ định nghĩa kỳ vọng ta
rút ra được các tính chất sau:
i) E(C) = C.
ii) E(C.X) = C.E(X).
iii) E(X ± Y) = E(X) ± E(Y).
iv) E(X.Y) = E(X).E(Y) nếu X, Y là 2 biến ngẫu nhiên độc lập.
1.2.2 Phương sai và độ lệch chuẩn
1.3 Phân phối xác suất nhiều chiều
1.3.1 Phân phối xác suất và các tham sô đặc trưng
Cho , ,…, là các biến ngẫu nhiên, hàm phân phối xác suất chiều của chúngđược định nghĩa như sau:
Trang 6Nếu liên tục thì hàm mật độ xác suất được định nghĩa là
Biến ngẫu nhiên , ,…, được gọi là độc lập nếu các hàm mật độ xác suất của nóthỏa
Đặt , Véctơ trung bình của biến ngẫu nhiên X được định nghĩa bởi biểu thức
Thành phần thứ i của trung bình được tính bởi trong đó là hàm mật độ xác
suất riêng của biến Cụ thể
Hiệp phương sai của biến ngẫu nhiên và , kí hiệu bởi được xác định bởi
Ma trận ∑ với phần tử thứ (i,j) là được gọi là ma trận hiệp phương sai.Hệ số
tương quan giữa và được định nghĩa như sau:
1.3.2 Hàm của các biến ngẫu nhiên
Trang 71, …, y n) ∈ Rn, hàm mật độ xácsuất đồng thời g y ( , , )1 yn
của Y1, Y2, … , Y n được kí hiệu là g(y),
Trang 8Nguyên hàm này được gọi là tích chập của f và g.
1.4 Một số phân phối xác suất thông dụng
1.4.1 Phân phối Bernoulli
a) Hàm mật độ xác suất
Cho tham số p thõa 0 ≤ p ≤ 1 Biến ngẫu nhiên rời rạc X
được gọi là có phân phối Bernoulli với tham số p (Kí hiệu: X ~ Be ( p ))nếu hàm mật độ xác suất của nó được xác định như sau:
1 khi 0,1 ( )
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với 2 tham số n
và p(Kí hiệu: X ~ B(n, p)), nếu hàm mật độ xác suất của nó được xác định như sau:
Trang 91 khi 0, 1, , ( )
khi 0, 1, ,
x x x n
Phương sai: Var ( X ) = npq.
★Chý ý:Nếu X 1 ,X 2 ,…, X n là các biến ngẫu nhiên độc lập có phân phối nhị thức: X i
~ B(n i , p), i = ,1 ,2 , n thì biến ngẫu nhiên
n
X X X
sẽ có phân phối nhị thức B(n, p), trong đó
nn n
★Chú ý:
Trang 10i) Nếu X1, X2, , Xn
là các biến ngẫu nhiên rời rạc, độc lập nhau
có phân phối Poisson với trung bình λ i , i = ,1 ,2 n thì biến
ngẫu nhiên X = X1+ X2 + + Xn
cũng có phân phối Poisson với tham số
ii) Phân phối nhị thức B ( p n , ) khi n lớn và p nhỏ (thông thường
p < 0.1) sẽ xấp xĩ phân phối Poisson P ( λ ), trong đó λ = np
1.4.4 Phân phối chuẩn
a) Hàm mật độ xác suất
Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với hai tham số
µ và σ 2 ( σ > 0 )nếu hàm mật độ xác suất của nó được
2
) ( X = σ
c) Công thức tính xác suất
Trang 111 ) (
π
ϕ
★Chú ý: Chúng ta có một số kết quả quan trọng sử dụng trong các ứng dụng của
thống kê liên quan đến phân phối chuẩn như sau:
i) Nếu X 1 , X 2 , …, X n là các biến ngẫu nhiên độc lập nhau có phân phối
i i
2
2 2
2 1
2 1
X n
X
1
1
có phân phối chuẩn với trung bình E (X ) = µ và
Biến ngẫu nhiên liên tục Xđược gọi là có phân phối Gamma với 2 tham số
α và β , nếu hàm mật độ xác suất của nó được xác định bởi
Trang 121 khi( ) ( )
★Chú ý: Chúng ta có một số kết quả sau:
i) Nếu X 1 , X 2 ,…, X n là các biến ngẫu nhiên rời rạc, độc lập nhau có phân phối
Gamma với tham số αi và β , i = 1, 2, …, n thì biến ngẫu nhiên
X=X1 +X2+…+X n
có phân phối Gamma với tham số α1+ α2 + + αn
ii) Khi α = 1 phân phối Gamma được gọi là phân phối mũ Như vậy
đối với phân phối mũ ta có hàm mật độ xác suất:
0khi)
|(
x 0
x e x
f
x
βββ
Kí hiệu: X~ E( β ).
Trang 13Nếu X~ E( β ) thì các hàm số đặc trưng được xác định:
,
1 ) ( X Var(X) 12E
Biến ngẫu nhiên liên tục X được gọi là có phân phối Beta với 2 tham số
α > 0, β >0 nếu hàm mật độ xác suất của nó được xác định bởi:
( )
(1 ) khi 0 1( ) ( )
) (
)
+ + +
=
β α β α
αβ
X Var
1.5 Một số xấp xỉ luật phân phối xác suất của mẫu ngẫu nhiên
1.5.1 Xấp xỉ phân phối chuẩn
i) Khi X có phân phối chuẩn X N ~ ( ) µ σ , 2
thì
( )
µ σ
Trang 14ii) Khi X không có phân phối chuẩn và n → ∞ ,từ định lý giới hạn
trung tâm ta có
µ σ
− /
X
n và
µ
− /
X
S n đều hội tụ về phân phối
chuẩn tắc Trong thực tế với n đủ lớn ( n ≥ 30) ta có các phân phối xấp xỉ
sau:
- Nếu biết phương sai tổng thể σ 2
thì
µ σ
− ~ (0,1) /
X
N
σ µ
n trong đó
1 0
i i
X X
Trang 151.5.2 Xấp xỉ phân phối Khi bình phương và phân phối Student
i) Khi X có phân phối chuẩn X N ~ ( ) µ σ , 2
Trang 16Gọi S là không gian mẫu của phép thử, ta gọin biến cố A1, A2, , An
là một hình thức chia của S nếu thỏa mãn 2 điều kiện:
A
A
S A
A A j i
n 2
φ
1
■ Nhận xét: Gọi B là một biến cố bất kỳ của S Nếu A1, A2, , An
là một hình thức chia của S thì A1B , A2B , , AnB
i i
i
A B P A P
A B P A P B A P
1
)
|()(
)
|()()
|(
(1.1)
Trong đó P(Ai) được gọi là xác suất tiên nghiệm ban đầu của biến cố Ai
Trang 172.2.2 Định lý Bayes cho biến liên tục
Hàm phân phối xác suất có điều kiện của biến ngẫu nhiên X khi biến cố
i
A
đã xảy ra được xác định như sau:
) (
) }, ({
)
| (
i
i i
A P
A x X P A x
Trong đó F ( +∞ | Ai) = 1
và F ( −∞ | Ai) = 0.
Hàm mật độ xác suất có điều kiện của biến ngẫu nhiên X khi biến cố A i xảy
ra được xác định như sau:
x
A x x X x P dx
dF A
lim )
i = ,1 ,2 , , khi đó theo Webb (2002) kết quả (1.1)được mở rộng cho
trường hợp liên tục như sau:
.) ( )
| ( ) ( )
x f w P x
f
) (
) ( )
(
)
| ( ) ( )
| (
i i
x f q
x f q x
f
w x f w P x w P
Trong đó f (x ) được gọi là hàm mật độ xác suất kết hợp của cáctổng thể và
( )i i
P A = q là xác suất tiên nghiệm để x thuộc vào tổng thể w
i
Trang 18Khi X và Y là 2 đại lượng ngẫu nhiên liên tục, theo định lý Bayes cho trường
hợp này thì hàm mật độ xác suất có điều kiện f ( y x | ) được xác định nhưsau:
dx x y f x f
x y f x f y
x f
)
| ( ) (
)
| ( ) ( )
| (
∫
=
2.2.2 Xác suất trong chẩn đoán
Giả sử một người đến khám bệnh, với những dấu hiệu ban đầu, lời khai của
người bệnh, qua kinh nghiệm, bác sĩ chẩn đoán người này có khả năng bị bệnh B
với xác suất bị bệnh P ( B+) và không bị bệnh P ( B−) (ta gọi
) ( B+
P hoặc P ( B−)là xác suất tiên nghiệm bị bệnh hoặc không
bị bệnh của người này) Cho người này làm xét nghiệm T, kết quả xét nghiệm này
có thể dương tính ( T+), hoặc âm tính ( T−) Lúc này ta xem xét
những vấn đề sau:
a) Đánh giá một xét nghiệm
Một xét nghiệm được đánh giá qua các khái nghiệm sau:
* Độ nhạy còn được gọi là dương thật: P ( T+ | B+)
có độ chuyên lớn hơn
b) Xác suất chẩn đoán bệnh
Trang 19Sau khi cho một người làm xét nghiệm T, xét nghiệm này có thể trả lại dương tính
và âm tính Xác suất hậu nghiệm của B+ hoặc B−, khi biết kết
quả xét nghiệm T+ hoặc T− chính là xác suất chẩn đoán bệnh B
của người này Cụ thể ta có hai khái niệm sau:
* Giá trị tiên đoán dương: PV+ = P ( B+ | T+).
* Giá trị tiên đoán âm: PV− = P ( B− | T−).
★Chú ý: Nếu ta cho một người lần lượt cho làm nhiều xét nghiệm, thì giá trị tiên
đoán của xét nghiệm trước chính là xác suất tiên nghiệm của xét nghiệm sau Giá trị tiên đoán dương của xét nghiệm sau cùng, chính là xác suất chẩn đoán người này bị bệnh B.
2.2 Bảng phân phối xác suất hậu nghiệm
2.2.1 Trường hợp tổng quát
a) Bài toán
Biến ngẫu nhiên X có thể nhận giá trị với xác suất chưa biết Giả
sử có xác suất tiên nghiệm lần lượt là Tiến hành m lần phép thử Gọi Y là kết quả nhận được Giả sử Y nhận được các giá trị cụ thể Dựa vào các thông tin trên ta cần lập bảng phân phối xác suất hậu nghiệm cho X.
Theo công thức (2.1) thì xác suất hậu nghiệm của và được xác định như sau:
1 (1)
1
1 1
Trang 201 2 1
Giả sử biến ngẫu nhiên X có phân phối nhị thức B(l;p) trong đó xác suất thành
công được giả sử là biến ngẫu nhiên rời rạc có thể nhận các giá trị: với xác suất
tiên nghiệm tương ứng Chọn một mẫu gồm n phần tử và gọi Y là số lần thành công Ta cần tìm bảng phân phối xác suất hậu nghiệm của p khi Y nhận giá trị cụ thể
■ Phương pháp thực hiện
Ta có bảng phân phối xác suất hậu nghiệm của tham số p như sau:
trong đó
Trang 21b) Tham số trung bình của phân phối chuẩn
■ Bài toán
Cho biến ngẫu nhiên X có phân phối chuẩn với đã biết và chưa biết Giả sử
nhận được các giá trị với xác suất tiên nghiệm Chọn một mẫu ngẫu nhiên, đượcgiá trị cụ thể của là , ta cần tìm xác suất hậu nghiệm cho các giá trị của
0
0 1
2 2
i i
x
f x
Khi có nhiều giai đoạn, ta lần lượt tìm xác suất hậu nghiệm của qua từng giaiđoạn một và xác suất hậu nghiệm của giai đoạn trước chính là xác suất tiên nghiệmcho giai đoạn sau Bảng phân phối xác suất hậu nghiệm của chính là xác suất hậunghiệm của giai đoạn cuối cùng
2.3 Hàm mật độ xác suất hậu nghiệm
2.3.1 Trường hợp tổng quát
Xét biến ngẫu nhiên với hàm mật độ xác suất có tham số chưa biết Giả sử
có hàm mật độ xác suất tiên nghiệm Thực hiện một quan sát, ta được giá trị cụ thể
Trang 22Trong trường hợp X nhận nhiều giá trị quan sát thì hàm mật độ xác
suất hậu nghiệm của trở thành như sau:
1
.
n i i
n =
2.3.2 Trường hợp phân phối nhị thức
Định lý 2.1 Giả sử biến ngẫu nhiên X có phân phối nhị thức
( ) l;
B p
, trong đó xác suất thành công là biến ngẫu nhiên có hàm mật độ
xác suất tiên nghiệm Thực hiện lần các phép thử, ta có số lần thành công là m, khi
đó p có phân phối hậu nghiệm là trong đó
Trang 23phân phối với
2.3.3 Trường hợp phân phối chuẩn
Định lý 2.2 Cho biến ngẫu nhiên X có phân phối chuẩn với tham số trung bình là
chưa biết, phương sai đã biết Giả sử có phân phối chuẩn Thực hiện một quan sát
ta được một giá trị cụ thể của X là , khi đó phân phối hậu nghiệm của là phân phối
0
.
,
Trang 24Khi đó phân phối hậu nghiệm của là phân phối chuẩn với:
Chú ý: Khi thực hiện n lần quan sát cho X ta nhận được các giá trị cụ thể khi đó
hàm mật độ xác suất cho được xác định như sau
Xét trong trường hợp đặc biệt có phân phối chuẩn và có hàm mật độ:
Thì phân phối hậu nghiệm của cũng là phân phối chuẩn với
2.3.4 Trường hợp phân phối Possion
Định lý 2.3 Nếu X có phân phối Poisson với tham số
λ , phân phối tiền nghiệm của λ là Gamma với tham
số α và β thì phân phối hậu nghiệm của λ khi
+
Chứng minh.
Trang 25x n
n n
e x
=
−
= + + + −
λ λ
1exp
Trang 262.3.5 Trường hợp phân phối mũ
Định lý 2.4 Nếu X có phân phối mũ với hàm mật độ
( ) θ = θ − θx
trong đó θ chưa biết và phân phối tiền nghiệm
của θ là Gamma với tham số α và β thì
phân phối hậu nghiệm của θ khi X x = = ( x x1, , ,2 xn)
cũng là
phân phối Gamma với tham số α + n và
β β +
1 n x
trong đó x là trung bình mẫu.
Chứng minh.
Nếu x x1 2, , , xn
là mẫu được quan sát từ biến ngẫu nhiên
X thì hàm mật độ đồng thời (hay hàm hợp lý) của
n
i i
n
n n
Trang 27( ) ( )
1exp
,
α α
θ θ
α α
Từ kết quả này ta có điều phải chứng minh ■
2.4 Suy luận Bayes trong phân loại dữ liệu rời rạc
2.4.1 Nguyên tắc phân loại
a) Sự phân hoạch và công thức Bayes
Giả sử các biến cố H H1, , ,2 Hn
tạo thành một phân hoạch của
không gian mẫu H Các biến cố Hi
là một nhóm đầy đủ, vớibiến cố A bất kỳ trong H ta có
Trang 28cho biết khả năng tham gia của Hi
vào việc xảy ra
biến cố A, gọi là xác suất hậu nghiệm Chúng ta cĩ thể tính xác suất hậu
nghiệm từ các xác suất tiên nghiệm:
nhất Mỗi phân loại P H ( )i
được hiểu là mỗi lớp
b) Mơ hình phân loại Bayes
Mơ hình phân loại Bayes được áp dụng nhiều nhất trong thực tế là mơ hìnhphân loại Nạve Bayes
Cho V V1 2, , , Vm
là một phân lớp của khơng gian mẫu V
(được xem là các lớp Vj
) Khơng gian thể hiện X bao gồm tất
cả các thể hiện được mơ tả trên tập thuộc tính ( , , , ) A A1 2 An