Bảng 1.1. Phân phối tiên nhiệm liên hợp

hợp.

Phân phối tiên nghiệm liên hợp

Khi một phân phối tiên nghiệm cĩ tính chất: Tiên nghiệm và hậu nghiệm cĩ củng một họ phân phối thỉ gọi đĩ là phân phối tiên nghiệm liên hơp tương ứng với mơ hình.

Hầu hết các phân phối tiên nghiệm sử dụng trong việc ứng dụng Bayes đều là liên hợp vì nĩ đại diện cho việc chọn phân phối tiên nghiệm khá tốt. Một số ví dụ về các phân phối tiên nghiệm liên hợp cho các mơ hình một tham số:

Bảng 1.1. Phân phối tiên nhiệm liên hợp

Phân phối tiên nghiệm Chuẩn (đối với trung bình) Gamma (đối với phương sai) Beta

Gamma

Chú ý. Phân phối tiên nghiệm liên hợp chi tồn tại khi phân phối các quan sát từ mẫu ngẫu nhiên là họ phân phối mũ, tức là họ phân phối xác định bởi

trong đĩ, chỉ phụ thuộc vào và chi phụ thuộc vào . Hàm và khơng phụ thuộc vào . Ví dụ các các phân phối thuộc họ mũ như là: Phân phối Chuẩn, Bernoulli, Nhị thức, Đa thức, Mũ, Poisson, ....

I.7.3. Một số vấn đề trong việc chọn phân phối tiên nghiệm

I.7.3.1. Chọn phân phối tiên nghiệm liên hợp khi chúng ta chưa cĩ kiến thức tốt về việc chọn tiên nghiệm

Khi chưa cĩ sự hiểu biết rõ ràng về việc chọn tiên nghiệm cho phù hợp thì tốt nhất là chúng ta nên chọn một tiên nghiệm liên hợp. Chúng ta khơng phải lo lắng về vấn đề này vì dạng hậu nghiệm sẽ tương tự như phân phối tiên nghiệm mình đã chọn.

Chẳng hạn khi khơng biết phải chọn phân phối tiên nghiệm cho tỷ lệ trong một tổng thể nào đĩ, nhưng chúng ta biết đây là mơ hình nhị thức và rất nhỏ nên cĩ thể chọn các tiên nghiệm sau: sẽ thỏa mãn trong việc suy diễn.[9]

I.7.3.2. Chọn một phân phối tiên nghiệm liên hợp khi chúng ta cĩ kiến thức tiên nghiệm về vị trí và sự phân tán cĩ thể cĩ của tham số

Giả sử là một họ các phân phối tiên nghiệm liên hợp trong mơ hình nhị thức mà chúng ta sẽ chọn, tuy nhiên phân phối Beta cĩ rất nhiều dạng nên khơng biết sẽ chọn thế nào nhưng chúng ta cĩ niềm tin về giá trị trung bình và độ lệch chuẩn cĩ thể cĩ của . Từ đĩ cĩ thể chọn được phân phối tiên nghiệm thích hợp theo cách sau:

Giả sử chúng ta tin rằng phân phối cĩ trung bình là và độ lệch chuẩn , nên khi so sánh với trung bình và độ lệch chuẩn của phân phối Beta sẽ cĩ

Giải hai phương trình này sẽ tìm được và thích hợp.

Theo cách trên nếu tìm được và với hình dạng tiên nghiệm thích hợp mà chúng ta tin tưởng thì sử dụng nĩ. Ngược lại cĩ thể điều chinh và cho đến khi nào phù hợp với niềm tin của chúng ta về tham số thì thơi.

Tuy nhiên phải tính tốn lại kích thước mẫu tương đương với tiên nghiệm đã chọn cho phù hợp vì lượng thơng tin về tham số từ phân phối tiên nghiệm phải tương đương với lượng thơng tin đĩ từ mẫu ngẫu nhiên. Nếu điều này chưa phù hợp chúng ta cĩ thể tăng độ lệch chuẩn trong tiên nghiệm lên và kiểm tra lại.

Chú ý tỷ lệ mẫu từ phân phối nhị thức cĩ phương sai , do đĩ gọi là cỡ mẫu tương đương với tiên nghiệm, ta cĩ

Điều này tương đương .

I.7.3.4. Ảnh hưởng của phân phối tiên nghiệm

Khi chúng ta quan sát đầy đủ dữ liệu thì ảnh hường của tiên nghiệm mà chúng ta đã chọn là rất nhỏ so với dữ liệu. Các hàm mật độ hậu nghiệm gần như giống nhau mặc dù chúng ta chọn tiên nghiệm khác nhau. Điều quan trong nhất cần lưu ý đĩ chúng ta phân chia một lượng hợp lý đến các giá trị cĩ thể cĩ của tham số, cịn hình dạng chính xác của tiên nghiệm khơng phải là điều quan trọng.

I.7.4. Phân tích hậu nghiệm

Để đánh giá hậu nghiệm thơng thường chúng ta sẽ xét các giá trị đặc trưng của hậu nghiệm như trung bình, trung vị, mốt, phương sai,... Ở đây chỉ xét trung bình và phương sai hậu nghiệm vì chúng được đánh giá là ước lượng tốt cho .

Trung bình hậu nghiệm

Và phương sai hậu nghiệm

Phân vị của phân phối hậu nghiệm Phân vị thứ của phân phối hậu nghiệm (hay phân vị hậu nghiệm của với mức xác suất ) là giá trị được xác định bởi

Một số phân vị quan trọng: Điểm tứ phân vị thứ nhất là phân vị mức xác suất 0.25, điểm tứ phân vị thứ hai là phân vị mức xác suất và điểm tứ phân vị thứ ba là phân vị mức xác suất .

I.7.5. Khoảng tin cậy Bayes

Cĩ rất nhiều khoảng chứa tham số với xác suất như nhau nhưng ở đây chúng ta sẽ tìm một khoảng ngắn nhất với xác suất đã cho , thường được gọi là khoảng tin cậy Bayes. Giả sử chúng ta sử dụng tiên nghiệm , khi đĩ phân phối hậu nghiệm của là Một khoang tin cậy Bayes được tìm thấy bằng cách lấy hiệu của hai phân vị mức xác suất và Cĩ hai cách thực hiện việc tìm khoảng tin cậy Bayes đĩ là sử dụng Minitab và xấp xỉ phân phối hậu nghiệm bởi một phân phối chuẩn , với 'và là trung bình và phương sai hậu nghiệm của .

Khi đĩ miền tin cậy của xấp xi , trong đĩ là phân vị chuẩn tắc mức xác suất .

I.7.6. Các bài toán nhiều tham số

Giả sử . Hàm mật độ hậu nghiệm vẫn được cho bởi

Vấn đề : Suy diễn các thành phần tham số nhu thế nào? Thực hiện điều này chủ yếu là tìm hàm mật độ hậu nghiệm lề cho tham số cần quan tâm.

Giả sử chúng ta cần suy diễn về tham số thì phân phối hậu nghiệm lề của là

Trong thực tế thì việc tính tích phân này rất khĩ thực hiện nên cĩ thể dựa vào một số phương pháp để đánh giá, chẳng hạn như phương pháp đánh giá phân tích, xấp xỉ tiệm cận hoặc mơ hình hĩa trực tiếp, ....

I.7.7. Phân phối dự đoán cho một quan sát mới

Giả sử là giá trị đã được quan sát của biến ngẫu nhiên từ dữ liệu, và là một giá trị quan sát mới. Vấn đề quan tâm là chúng ta thực hiện tìm hiểu tất cả thơng tin về bằng cách dự đốn phân phối cho dựa trên quan sát với sự phân tích hậu nghiệm của tham số trong mơ hình. Ta cĩ

Khi chưa quan sát dữ liệu chúng ta cũng cĩ thể thực hiện dự đốn phân phối của thơng qua phân phối tiên nghiệm của tham số được gọi là phân phối dự đốn tiên nghiệm nghiệm của . Đĩ là hàm mật độ được xác định bởi

I.7.8. Lý thuyết quyết định thống kê Bayes

Ngồi các ước lượng điểm thường gặp như ước lượng hợp lý cực đại, phương pháp ước lượng mơmen và trung bình hậu nghiệm cịn cĩ rất nhiều cách khác nhau để tạo ra các ước lượng, vấn đề là chúng ta chọn trong số các phương pháp đĩ như thế nào? Để giải quyết vấn đề này chúng ta tìm hiểu về lý thuyết quyết định - lý thuyết so sánh các cách thức thống kê.

Xét khơng gian tham số với và giả sử là một ước lượng của . Theo ngơn ngữ của của lý thuyết quyết định, ước lượng đơi lúc cịn được gọi là một quy tắc quyết định và giá trị cĩ thể của quy tắc quyết định được gọi là các tác động.

Chúng ta sẽ đo độ sai lệch giữa và bằng cách sử dụng hàm tổn thất . Hàm tổn thất được định nghĩa là ánh xạ:

Một số hàm tổn thất thường gặp

i) là hàm tổn thất sai số bình phương. ii) là hàm tồn thất sai số tuyệt đối. iii) là hàm tồn thất .

iv) khi và khi gọi là hàm tổn thất .

Lưu ý. Một ước lượng (hay một quy tắc quyết định) là một hàm của dữ liệu, tức là nếu là các biến ngẫu nhiên độc lập và đồng nhất từ một vài phân phối thì một ước lượng điểm của một tham số là một hàm của . Như vậy, để rõ ràng hơn cĩ thể viết thay vì .

Để đánh giá ước lượng này cần dựa vào tổn thất trung bình hay rủi ro.

I.7.8.1. Định nghĩa

Khi hàm tổn thất là sai số bình phương thì rủi ro là sai số bình phuomg trung bình, viết tắt MSE:

trong đĩ, bias là độ chênh lệch của ước lượng được xác định bởi

Lưu ý Chỉ số đưới chỉ ra rằng kỳ vọng hoặc phương sai là đối với .

Điều này khơng cĩ nghĩa là lấy trung bình hoặc phương sai trên . Trong phần cịn lại ta giả sử hàm tổn thất là sai số bình phương.

I.7.8.2. So sánh các hàm rủi ro

Để so sánh hai hàm rủi ro chúng ta cần dựa trên các đánh giá về hàm rủi ro. Hai phương pháp đánh giá phổ biến là rủi ro cực đại và rủi ro Bayes.

Định nghĩa. Rủi ro cực đại xác định bởi Và rủi ro Bayes

Hai đánh giá này cho thấy hai phương pháp khác nhau của việc đưa ra các ước lượng: Chọn để cực tiểu hĩa rủi ro cực đại dẫn đến các ước lượng là minimax (cĩ nghĩa là tối thiểu hĩa tổn thất vốn được dự tính cĩ thể là tối đa) và chọn để cực tiểu hĩa rủi ro Bayes dẫn đến ước lượng Bayes.

I.7.8.3. Định nghĩa

Một quy tắc quyết định cực tiểu hĩa rủi ro Bayes được gọi là một quy tắc Bayes. Như vậy, là một quy tắc Bayes (hay ước ượng Bayes) tương ứng với phân phối tiên nghiệm nếu

Một ước lượng cực tiểu hĩa rủi ro cực đại được gọi là quy tắc minimax. Như vậy, một ước lượng là minimax nếu

I.7.8.4. Các ước lượng Bayes

Giả sử là hàm mật độ tiên nghiệm. Theo định lý Bayes ta cĩ hàm mật độ hậu nghiệm là

trong đĩ, là phân phối lề của . Định nghĩa rủi ro hậu nghiệm của một ước lượng bởi:

Chú ý. Giả sử là trung bình hậu nghiệm của , khi đĩ với là hàm tồn thất sai số bình phương ta cĩ

Từ đây cho thấy rằng đề rủi ro hậu nghiệm nhỏ nhất thì ước lượng tốt nhất của chính là trung bình hậu nghiệm .

Định lý. Rủi ro Bayes thỏa mãn

Định lý. Nếu thi khi đĩ ưĩc lưomg Bayes là

I.7.8.5. Các quy tắc minimax

Kết quả chính trong phần này là mối quan hệ giữa quy tắc Bayes và quy tắc minimax: Các ước lượng Bayes với một hàm rủi ro khơng đổi là minimax.

Định lý. Giả sử là ước lượng Bayes với hàm tiên nghiệm Giả sử rằng

Khi đĩ là minimax và được gọi là một tiên nghiệm thuận lợi bé nhất.

Định lý. Giả sử là quy tắc Bayes tương ứng với một số hàm tiên nghiệm . Hơn nữa, giả sử cĩ rủi ro khơng đổi, nghĩa là tồn tại c sao cho: . Khi đĩ là minimax.

CHƯƠNG 2

BAYESIAN NETWORK

Mạng Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief network hoặc belief network) là một mơ hình xác suất dạng đồ thị.

Mạng Bayes là cách biểu diễn đồ thị của sự phụ thuộc thống kê trên một tập hợp các biến ngẫu nhiên, trong đĩ các nút đại diện cho các biến, cịn các cạnh đại diện cho các phụ thuộc cĩ điều kiện. Phân phối xác suất đồng thời (joint probability distribution) của các biến được xác định bởi cấu trúc đồ thị của mạng. Mơ tả đồ thị của mạng Bayes dẫn tới các mơ hình dễ giải thích, và tới các thuật tốn tốn học và suy luận hiệu quả.[5]

Trong trường hợp tổng quát hơn, các nút cĩ thể đại diện cho các loại biến khác, một tham số đo được, một biến ẩn (latent variable) hay một giả thuyết, chứ khơng nhất thiết phải đại diện cho các biến ngẫu nhiên.

Hình 2.1. Mơ hình minh họa mạng Bayes