bai giang thong ke bayes

Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes. Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay. Nó dựa trên những kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữ liệu đã biết trước. Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước về vấn đã quan sát để suy luận cho những thống kê hiện tại. Trước sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữ những thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển. Chúng ta có thể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lý thuyết cũng như ứng dụng. Chính vì vậy, có thể nói thống kê Bayes là một mảng kiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ở nước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy mà các kết quả phân loại tương đối giống với cách phân loại thông thường.

Trang 1

PHẦN MỞ ĐẦU

Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes.Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay Nó dựa trênnhững kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữliệu đã biết trước Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước vềvấn đã quan sát để suy luận cho những thống kê hiện tại Trước sự phát triển mạnh

mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữnhững thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển Chúng ta cóthể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lýthuyết cũng như ứng dụng Chính vì vậy, có thể nói thống kê Bayes là một mảngkiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ởnước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác,phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào

mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn.Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy

mà các kết quả phân loại tương đối giống với cách phân loại thông thường

Suy luận Bayes được sử dụng rất rộng rãi trong tất cả các ngành nghề như yhọc, kinh tế, tin học,v.v Đặc biệt trong xác suất và thống kê hiện nay nó đóng vaitrò cũng hết sức quan trọng.Hiện tại chúng ta tìm được một số biểu thức giải tíchhậu nghiệm cụ thể khi giả sử tiên nghiệm là các hàm mật độ xác suất thông dụngnhư Beta, mũ, chuẩn, Trong thống kê sử dụng định lý Bayes cho ước lượng vàkiểm định tham số thống kê, cũng như các bài toán phân loại ngày nay trở nên phổbiến

Trang 2

Chương 1

BIẾN NGẪU NHIÊN VÀ CÁC PHÂN PHỐI

XÁC SUẤT THÔNG DỤNG

1.1 Biến ngẫu nhiên và luật phân phối xác suất

1.1.1 Khái niệm và phân loại

a) Khái niệm

Biến ngẫu nhiên là biến nhận các giá trị là các khả năng có thể của phép thửngẫu nhiên với một xác suất nhất định nào đó phụ thuộc vào kết quả của phép thửngẫu nhiên

Các biến ngẫu nhiên thường được ký hiệu bằng các chữ cái hoa như: X, Y, Z,

… hoặc dạng chỉ số: X1, X2, …, Xn; Y1, Y2, …, Yn;…Các giá trị có thể có của biến

ngẫu nhiên được ký hiệu là: x1, x2, …, x m ; y1, y2…,y m,…

Một biến ngẫu nhiên coi như được xác định nếu biết được tập các giá trị của

nó và các xác suất mà nó nhận giá trị thuộc tập đó

b) Phân loại

Gọi tập giá trị của biến ngẫu nhiên X là X ( Ω ) Căn cứ vào tập

( ),

X Ω biến ngẫu nhiên được chia thành 2 loại: rời rạc và liên tục.

Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên được gọi là rời rạc nếu

) ( Ω

X là hữu hạn hoặc vô hạn đếm được, cách quãng nhau.

Biến ngẫu nhiên liên tục: Biến ngẫu nhiên được gọi là liên tục nếu

) ( Ω

X lắp đầy một khoảng hay một số khoảng hay toàn bộ trục số.

1.1.2 Hàm mật độ xác suất

a) Đối với biến ngẫu nhiên rời rạc

Giả sử biến ngẫu nhiên rời rạc X có n giá trị có thể xi, i = 1, 2, …, n, với xác suất tương ứng pi = P(X = xi) > 0, khi đó hàm mật độ xác suất của X (ký hiệu f(x))

được xác định như sau:

khi 0

, , 2 , 1 ,

khi )

(

i

i i

x x

n i

x x p

x f

Trang 3

Thông thường để thuận lợi trong đánh giá biến ngẫu nhiên rời rạc, hàm mật độxác suất được biểu diễn dưới dạng bảng phân phối xác suất như sau:

b) Đối với biến ngẫu nhiên liên tục

Hàm số y = f(x) xác định trên R được gọi là hàm mật độ xác suất của biến ngẫu nhiên liên tục X nếu nó thỏa 2 tính chất sau:

( dx x f

Trang 4

• Khi X là biến ngẫu nhiên rời rạc nhận các giá có thể có x1, x2, …, xk với

xác suất tương ứng p1, p2, …, p kthì

<x x

i

ip

• Khi X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f(x) thì

v) X là biến ngẫu nhiên liên tục thì F’(x) = f(x).

1.2 Tham số đặc trưng của biến ngẫu nhiên

xf )(

b) Tính chất

Trang 5

Cho C là một hằng số, X và Y là hai biến ngẫu nhiên Từ định nghĩa kỳ vọng ta

rút ra được các tính chất sau:

i) E(C) = C.

ii) E(C.X) = C.E(X).

iii) E(X ± Y) = E(X) ± E(Y).

iv) E(X.Y) = E(X).E(Y) nếu X, Y là 2 biến ngẫu nhiên độc lập.

1.2.2 Phương sai và độ lệch chuẩn

1.3 Phân phối xác suất nhiều chiều

1.3.1 Phân phối xác suất và các tham sô đặc trưng

Cho , ,…, là các biến ngẫu nhiên, hàm phân phối xác suất chiều của chúngđược định nghĩa như sau:

Trang 6

Nếu liên tục thì hàm mật độ xác suất được định nghĩa là

Biến ngẫu nhiên , ,…, được gọi là độc lập nếu các hàm mật độ xác suất của nóthỏa

Đặt , Véctơ trung bình của biến ngẫu nhiên X được định nghĩa bởi biểu thức

Thành phần thứ i của trung bình được tính bởi trong đó là hàm mật độ xác

suất riêng của biến Cụ thể

Hiệp phương sai của biến ngẫu nhiên và , kí hiệu bởi được xác định bởi

Ma trận ∑ với phần tử thứ (i,j) là được gọi là ma trận hiệp phương sai.Hệ số

tương quan giữa và được định nghĩa như sau:

1.3.2 Hàm của các biến ngẫu nhiên

Trang 7

1, …, y n) ∈ Rn, hàm mật độ xácsuất đồng thời g y ( , , )1 yn

của Y1, Y2, … , Y n được kí hiệu là g(y),

Trang 8

Nguyên hàm này được gọi là tích chập của f và g.

1.4 Một số phân phối xác suất thông dụng

1.4.1 Phân phối Bernoulli

a) Hàm mật độ xác suất

Cho tham số p thõa 0 ≤ p ≤ 1 Biến ngẫu nhiên rời rạc X

được gọi là có phân phối Bernoulli với tham số p (Kí hiệu: X ~ Be ( p ))nếu hàm mật độ xác suất của nó được xác định như sau:

1 khi 0,1 ( )

Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với 2 tham số n

và p(Kí hiệu: X ~ B(n, p)), nếu hàm mật độ xác suất của nó được xác định như sau:

Trang 9

1 khi 0, 1, , ( )

khi 0, 1, ,

x x x n

Phương sai: Var ( X ) = npq.

★Chý ý:Nếu X 1 ,X 2 ,…, X n là các biến ngẫu nhiên độc lập có phân phối nhị thức: X i

~ B(n i , p), i = ,1 ,2 , n thì biến ngẫu nhiên

n

X X X

sẽ có phân phối nhị thức B(n, p), trong đó

nn n

★Chú ý:

Trang 10

i) Nếu X1, X2, , Xn

là các biến ngẫu nhiên rời rạc, độc lập nhau

có phân phối Poisson với trung bình λ i , i = ,1 ,2 n thì biến

ngẫu nhiên X = X1+ X2 + + Xn

cũng có phân phối Poisson với tham số

ii) Phân phối nhị thức B ( p n , ) khi n lớn và p nhỏ (thông thường

p < 0.1) sẽ xấp xĩ phân phối Poisson P ( λ ), trong đó λ = np

1.4.4 Phân phối chuẩn

a) Hàm mật độ xác suất

Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với hai tham số

µ và σ 2 ( σ > 0 )nếu hàm mật độ xác suất của nó được

2

) ( X = σ

c) Công thức tính xác suất

Trang 11

1 ) (

π

ϕ

★Chú ý: Chúng ta có một số kết quả quan trọng sử dụng trong các ứng dụng của

thống kê liên quan đến phân phối chuẩn như sau:

i) Nếu X 1 , X 2 , …, X n là các biến ngẫu nhiên độc lập nhau có phân phối

i i

2

2 2

2 1

X n

X

1

có phân phối chuẩn với trung bình E (X ) = µ và

Biến ngẫu nhiên liên tục Xđược gọi là có phân phối Gamma với 2 tham số

α và β , nếu hàm mật độ xác suất của nó được xác định bởi

Trang 12

1 khi( ) ( )

★Chú ý: Chúng ta có một số kết quả sau:

i) Nếu X 1 , X 2 ,…, X n là các biến ngẫu nhiên rời rạc, độc lập nhau có phân phối

Gamma với tham số αi và β , i = 1, 2, …, n thì biến ngẫu nhiên

X=X1 +X2+…+X n

có phân phối Gamma với tham số α1+ α2 + + αn

ii) Khi α = 1 phân phối Gamma được gọi là phân phối mũ Như vậy

đối với phân phối mũ ta có hàm mật độ xác suất:

0khi)

|(

x 0

x e x

f

x

βββ

Kí hiệu: X~ E( β ).

Trang 13

Nếu X~ E( β ) thì các hàm số đặc trưng được xác định:

,

1 ) ( X Var(X) 12E

Biến ngẫu nhiên liên tục X được gọi là có phân phối Beta với 2 tham số

α > 0, β >0 nếu hàm mật độ xác suất của nó được xác định bởi:

( )

(1 ) khi 0 1( ) ( )

) (

)

+ + +

=

β α β α

αβ

X Var

1.5 Một số xấp xỉ luật phân phối xác suất của mẫu ngẫu nhiên

1.5.1 Xấp xỉ phân phối chuẩn

i) Khi X có phân phối chuẩn X N ~ ( ) µ σ , 2

thì

( )

µ σ

Trang 14

ii) Khi X không có phân phối chuẩn và n → ∞ ,từ định lý giới hạn

trung tâm ta có

µ σ

− /

X

n và

µ

− /

X

S n đều hội tụ về phân phối

chuẩn tắc Trong thực tế với n đủ lớn ( n ≥ 30) ta có các phân phối xấp xỉ

sau:

- Nếu biết phương sai tổng thể σ 2

thì

µ σ

− ~ (0,1) /

X

N

σ µ

n trong đó

1 0

i i

X X

Trang 15

1.5.2 Xấp xỉ phân phối Khi bình phương và phân phối Student

i) Khi X có phân phối chuẩn X N ~ ( ) µ σ , 2

Trang 16

Gọi S là không gian mẫu của phép thử, ta gọin biến cố A1, A2, , An

là một hình thức chia của S nếu thỏa mãn 2 điều kiện:

A

S A

A A j i

n 2

φ

1

■ Nhận xét: Gọi B là một biến cố bất kỳ của S Nếu A1, A2, , An

là một hình thức chia của S thì A1B , A2B , , AnB

i i

i

A B P A P

A B P A P B A P

1

)

|()(

)

|()()

|(

(1.1)

Trong đó P(Ai) được gọi là xác suất tiên nghiệm ban đầu của biến cố Ai

Trang 17

2.2.2 Định lý Bayes cho biến liên tục

Hàm phân phối xác suất có điều kiện của biến ngẫu nhiên X khi biến cố

i

A

đã xảy ra được xác định như sau:

) (

) }, ({

)

| (

i

i i

A P

A x X P A x

Trong đó F ( +∞ | Ai) = 1

và F ( −∞ | Ai) = 0.

Hàm mật độ xác suất có điều kiện của biến ngẫu nhiên X khi biến cố A i xảy

ra được xác định như sau:

x

A x x X x P dx

dF A

lim )

i = ,1 ,2 , , khi đó theo Webb (2002) kết quả (1.1)được mở rộng cho

trường hợp liên tục như sau:

.) ( )

| ( ) ( )

x f w P x

f

) (

) ( )

(

)

| ( ) ( )

| (

i i

x f q

x f q x

f

w x f w P x w P

Trong đó f (x ) được gọi là hàm mật độ xác suất kết hợp của cáctổng thể và

( )i i

P A = q là xác suất tiên nghiệm để x thuộc vào tổng thể w

i

Trang 18

Khi X và Y là 2 đại lượng ngẫu nhiên liên tục, theo định lý Bayes cho trường

hợp này thì hàm mật độ xác suất có điều kiện f ( y x | ) được xác định nhưsau:

dx x y f x f

x y f x f y

x f

)

| ( ) (

)

| ( ) ( )

| (

∫

=

2.2.2 Xác suất trong chẩn đoán

Giả sử một người đến khám bệnh, với những dấu hiệu ban đầu, lời khai của

người bệnh, qua kinh nghiệm, bác sĩ chẩn đoán người này có khả năng bị bệnh B

với xác suất bị bệnh P ( B+) và không bị bệnh P ( B−) (ta gọi

) ( B+

P hoặc P ( B−)là xác suất tiên nghiệm bị bệnh hoặc không

bị bệnh của người này) Cho người này làm xét nghiệm T, kết quả xét nghiệm này

có thể dương tính ( T+), hoặc âm tính ( T−) Lúc này ta xem xét

những vấn đề sau:

a) Đánh giá một xét nghiệm

Một xét nghiệm được đánh giá qua các khái nghiệm sau:

* Độ nhạy còn được gọi là dương thật: P ( T+ | B+)

có độ chuyên lớn hơn

b) Xác suất chẩn đoán bệnh

Trang 19

Sau khi cho một người làm xét nghiệm T, xét nghiệm này có thể trả lại dương tính

và âm tính Xác suất hậu nghiệm của B+ hoặc B−, khi biết kết

quả xét nghiệm T+ hoặc T− chính là xác suất chẩn đoán bệnh B

của người này Cụ thể ta có hai khái niệm sau:

* Giá trị tiên đoán dương: PV+ = P ( B+ | T+).

* Giá trị tiên đoán âm: PV− = P ( B− | T−).

★Chú ý: Nếu ta cho một người lần lượt cho làm nhiều xét nghiệm, thì giá trị tiên

đoán của xét nghiệm trước chính là xác suất tiên nghiệm của xét nghiệm sau Giá trị tiên đoán dương của xét nghiệm sau cùng, chính là xác suất chẩn đoán người này bị bệnh B.

2.2 Bảng phân phối xác suất hậu nghiệm

2.2.1 Trường hợp tổng quát

a) Bài toán

Biến ngẫu nhiên X có thể nhận giá trị với xác suất chưa biết Giả

sử có xác suất tiên nghiệm lần lượt là Tiến hành m lần phép thử Gọi Y là kết quả nhận được Giả sử Y nhận được các giá trị cụ thể Dựa vào các thông tin trên ta cần lập bảng phân phối xác suất hậu nghiệm cho X.

Theo công thức (2.1) thì xác suất hậu nghiệm của và được xác định như sau:

1 (1)

1

1 1

Trang 20

1 2 1

Giả sử biến ngẫu nhiên X có phân phối nhị thức B(l;p) trong đó xác suất thành

công được giả sử là biến ngẫu nhiên rời rạc có thể nhận các giá trị: với xác suất

tiên nghiệm tương ứng Chọn một mẫu gồm n phần tử và gọi Y là số lần thành công Ta cần tìm bảng phân phối xác suất hậu nghiệm của p khi Y nhận giá trị cụ thể

■ Phương pháp thực hiện

Ta có bảng phân phối xác suất hậu nghiệm của tham số p như sau:

trong đó

Trang 21

b) Tham số trung bình của phân phối chuẩn

■ Bài toán

Cho biến ngẫu nhiên X có phân phối chuẩn với đã biết và chưa biết Giả sử

nhận được các giá trị với xác suất tiên nghiệm Chọn một mẫu ngẫu nhiên, đượcgiá trị cụ thể của là , ta cần tìm xác suất hậu nghiệm cho các giá trị của

0

0 1

2 2

i i

x

f x

Khi có nhiều giai đoạn, ta lần lượt tìm xác suất hậu nghiệm của qua từng giaiđoạn một và xác suất hậu nghiệm của giai đoạn trước chính là xác suất tiên nghiệmcho giai đoạn sau Bảng phân phối xác suất hậu nghiệm của chính là xác suất hậunghiệm của giai đoạn cuối cùng

2.3 Hàm mật độ xác suất hậu nghiệm

2.3.1 Trường hợp tổng quát

Xét biến ngẫu nhiên với hàm mật độ xác suất có tham số chưa biết Giả sử

có hàm mật độ xác suất tiên nghiệm Thực hiện một quan sát, ta được giá trị cụ thể

Trang 22

Trong trường hợp X nhận nhiều giá trị quan sát thì hàm mật độ xác

suất hậu nghiệm của trở thành như sau:

1

.

n i i

n =

2.3.2 Trường hợp phân phối nhị thức

Định lý 2.1 Giả sử biến ngẫu nhiên X có phân phối nhị thức

( ) l;

B p

, trong đó xác suất thành công là biến ngẫu nhiên có hàm mật độ

xác suất tiên nghiệm Thực hiện lần các phép thử, ta có số lần thành công là m, khi

đó p có phân phối hậu nghiệm là trong đó

Trang 23

phân phối với

2.3.3 Trường hợp phân phối chuẩn

Định lý 2.2 Cho biến ngẫu nhiên X có phân phối chuẩn với tham số trung bình là

chưa biết, phương sai đã biết Giả sử có phân phối chuẩn Thực hiện một quan sát

ta được một giá trị cụ thể của X là , khi đó phân phối hậu nghiệm của là phân phối

0

.

,

Trang 24

Khi đó phân phối hậu nghiệm của là phân phối chuẩn với:

Chú ý: Khi thực hiện n lần quan sát cho X ta nhận được các giá trị cụ thể khi đó

hàm mật độ xác suất cho được xác định như sau

Xét trong trường hợp đặc biệt có phân phối chuẩn và có hàm mật độ:

Thì phân phối hậu nghiệm của cũng là phân phối chuẩn với

2.3.4 Trường hợp phân phối Possion

Định lý 2.3 Nếu X có phân phối Poisson với tham số

λ , phân phối tiền nghiệm của λ là Gamma với tham

số α và β thì phân phối hậu nghiệm của λ khi

+

Chứng minh.

Trang 25

x n

n n

e x

=

−

= + + + −

λ λ

1exp

Trang 26

2.3.5 Trường hợp phân phối mũ

Định lý 2.4 Nếu X có phân phối mũ với hàm mật độ

( ) θ = θ − θx

trong đó θ chưa biết và phân phối tiền nghiệm

của θ là Gamma với tham số α và β thì

phân phối hậu nghiệm của θ khi X x = = ( x x1, , ,2 xn)

cũng là

phân phối Gamma với tham số α + n và

β β +

1 n x

trong đó x là trung bình mẫu.

Chứng minh.

Nếu x x1 2, , , xn

là mẫu được quan sát từ biến ngẫu nhiên

X thì hàm mật độ đồng thời (hay hàm hợp lý) của

n

i i

n

n n

Trang 27

( ) ( )

1exp

,

α α

θ θ

α α

Từ kết quả này ta có điều phải chứng minh ■

2.4 Suy luận Bayes trong phân loại dữ liệu rời rạc

2.4.1 Nguyên tắc phân loại

a) Sự phân hoạch và công thức Bayes

Giả sử các biến cố H H1, , ,2 Hn

tạo thành một phân hoạch của

không gian mẫu H Các biến cố Hi

là một nhóm đầy đủ, vớibiến cố A bất kỳ trong H ta có

Trang 28

cho biết khả năng tham gia của Hi

vào việc xảy ra

biến cố A, gọi là xác suất hậu nghiệm Chúng ta cĩ thể tính xác suất hậu

nghiệm từ các xác suất tiên nghiệm:

nhất Mỗi phân loại P H ( )i

được hiểu là mỗi lớp

b) Mơ hình phân loại Bayes

Mơ hình phân loại Bayes được áp dụng nhiều nhất trong thực tế là mơ hìnhphân loại Nạve Bayes

Cho V V1 2, , , Vm

là một phân lớp của khơng gian mẫu V

(được xem là các lớp Vj

) Khơng gian thể hiện X bao gồm tất

cả các thể hiện được mơ tả trên tập thuộc tính ( , , , ) A A1 2 An

Định dạng
Số trang	56
Dung lượng	911,19 KB