Khoảng tin cậy Bayes

Một phần của tài liệu Tìm hiểu về khoảng tin cậy bayes (Trang 20 - 25)

Chương 1. Cơ sở lý thuyết

1.2.3. Khoảng tin cậy Bayes

Định nghĩa 1.2.6. Khoảng tin cậy Bayes ( ) là khoảng ( ) sao cho:

( | ) ∫ ( | ) ( )

trong đó ( | ) là phân phối xác suất hậu nghiệm của với dữ liệu ( ) (nếu là rời rạc thì thay dấu tích phân bằng tổng).

Với thống kê Bayes, do tham số là biến ngẫu nhiên nên hoàn toàn hợp lý khi ta nói về phân bố xác suất của tham số. Nghĩa là, nếu ( ) là khoảng tin cậy Bayes ( ) cho tham số thì xác suất để nằm trong khoảng ( ) là , thống kê tần suất không cho ta kết luận này.

Theo định nghĩa, ta có thể tìm được rất nhiều khoảng tin cậy Bayes. Luận văn xin đề cập đến hai loại chính: khoảng tin cậy Bayes đối xứng và khoảng tin cậy Bayes chứa mật độ hậu nghiệm cao nhất (khoảng HPD).

a. Khoảng tin cậy Bayes đối xứng

Cách dễ nhất để tính khoảng tin cậy Bayes cho tham số là sử dụng lượng quantile hậu nghiệm, thường cho khoảng tin cậy đối xứng (equal-tail interval). Để có khoảng tin cậy Bayes đối xứng ( ) , ta tiến hành tìm các số thỏa mãn:

i. . | / ii. . | /

Tức là, các số lần lượt là và . / quantile hậu nghiệm của . Khi đó:

( [ ] | ) ( [ ] | )

( | ) ( | )

Ví dụ 1.2.7. [26] Vào những năm 1990, Khảo sát xã hội đã thu thập thông tin về trình độ học vấn và số con của 155 phụ nữ ở độ tuổi 40, để tìm hiểu xem liệu trình độ học vấn có ảnh hưởng đến số con sinh ra hay không. Ta gọi ( ) và

( ) là dữ liệu cho số con của nhóm phụ nữ có trình độ học vấn dưới và ngang (hoặc trên) đại học. Giả sử Pois( ) Pois( ). Theo khảo sát ta có số liệu như sau:

- Học vấn dưới đại học: ∑ ̅

- Học vấn ngang hoặc trên đại học: ∑ ̅̅̅

Hàm hợp lý tương ứng là: ( | ) ∑ và ( | ) ∑

Giả sử phân phối tiên nghiệm cho và đều là gamma( ) , khi đó ta có phân phối hậu nghiệm là:

( | ) gamma( ) gamma( ) ( | ) gamma( ) gamma( )

Dựa vào phân phối hậu nghiệm này, ta dễ dàng tìm được khoảng tin cậy Bayes đối xứng cho và :

> qgamma(c(.025,.975),219,112) [1] 1.704943 2.222679

> qgamma(c(.025,.975),68,45) [1] 1.173437 1.890836

Như vậy, ta có thể kết luận rằng, theo dữ liệu thu thập được thì có tới khả năng phụ nữ có trình độ học vấn ngang (hoặc trên) đại học sẽ có ít hơn 2 con.

b. Khoảng tin cậy Bayes HPD

Có thể thấy rằng, thuận lợi của việc tính khoảng tin cậy Bayes đối xứng (dựa trên giá trị quantile) là công việc rất dễ dàng (có thể tính tay hoặc sử dụng phương pháp Monte Carlo xích Markov), hơn nữa có nét giống cách xây dựng khoảng tin cậy tần suất. tuy nhiên, kết quả này chỉ hữu ích khi phân bố hậu nghiệm của tham số là đối xứng. Trong trường hợp phân bố không đối xứng, lựa chọn tối ưu hơn là khoảng tin cậy Bayes HPD (khoảng chứa mật độ hậu nghiệm cao nhất).

Định nghĩa 1.2.8. [24] Khoảng HPD ( ) cho tham số là tập con ( ) của không gian tham được xác định bởi: ( ) * ( | ) +, trong đó là số lớn nhất sau cho ∫ ( | ) ( | ) ( ) .

Số có thể coi như đường thẳng song song với trục tham số, có giao điểm với đường mật độ hậu nghiệm của sao cho diện tích khoảng giữa hai điểm đó là ( ). Theo Box&Tiao (1992), khoảng HPD như thế có hai tính chất:

- Mật độ mọi điểm nằm trong khoảng HPD đều lớn hơn các điểm nằm ngoài khoảng này: nếu ( ) và ( ) thì ( | ) ( | ).

- Với xác suất cho trước (chính là ), khoảng có độ dài ngắn nhất.

Như vậy trong trường hợp phân bố đối xứng thì khoảng HPD trùng với khoảng tin cậy Bayes đối xứng.

Ví dụ 1.2.9. [26] Giả sử trong số 10 phép thử độc lập của biến ngẫu nhiên tuân theo phân bố Bernoulli( ), ta quan sát được . Sử dụng phân bố tiên nghiệm cho là phân phối đều (tức là phân bố beta( )), ta nhận được phân bố hậu nghiệm cho là:

( | ) beta( ). Bằng phần mềm R, ta tính được khoảng tin cậy Bayes đối xứng cho là ( ):

> qbeta(c(.025,.975),3,9)

[1] 0.06021773 0.51775585

Còn khoảng tin cậy HPD tương ứng là ( ), hẹp hơn so với khoảng đối xứng :

Hình 1.2. 2. So sánh giữa khoảng tin cậy đối xứng và khoảng HPD 95%

Hình ảnh trên cho ta so sánh giữa khoảng tin cậy Bayes đối xứng (dựa trên giá trị quantile) và khoảng HPD cũng như các khoảng HPD khác. Dễ thấy với khoảng đối xứng , vẫn còn các điểm nằm ngoài khoảng mà có mật độ lớn hơn các điểm trong khoảng, nhưng với khoảng HPD , mọi điểm nằm ngoài khoảng đều có mật độ nhỏ hơn các điểm trong khoảng. Điều này chính là ưu điểm của khoảng HPD.

Trong trường hợp phân bố hậu nghiệm không phải là phân bố một đỉnh, khoảng HPD cho tham số có thể bị tách thành nhiều khoảng, ta gọi là vùng HPD. Cách tìm vùng HPD cho phân bố nhiều đỉnh (multimodal) có thể được miêu tả như sau:

- Xét phân bố hai đỉnh (bimodal) như hình 1.2.3 (trường hợp nhiều đỉnh xác định tương tự), sử dụng đường song song với trục giá trị tham số để xác định giá trị mode hậu nghiệm (hình a).

- Tịnh tiến dần đường thẳng này xuống dưới giá trị mode hậu nghiệm, xác định các giao điểm với phân bố hậu nghiệm và , tính diện tích phần dưới đường phân bố và giới

hạn bởi 2 điểm , tịnh tiến đường thẳng đến khi diện tích này đạt giá trị ( ) thì dừng lại. Khi đó đoạn ( ) tương ứng chính là khoảng HPD (hình b).

- Chú ý với phân bố nhiều đỉnh, khoảng HPD có thể không liên tục (có thể gồm các khoảng rời nhau ( ) và ( )), khi đó ta có vùng HPD cho tham số (hình c).

Hình 1.2. 3. Khoảng (vùng) tin cậy HPD cho tham số trong trường hợp phân bố hậu nghiệm có hai đỉnh

Tuy nhiên, một nhược điểm của khoảng HPD là rất khó tìm được bằng biến đổi giải tích mà thường phải dùng phương pháp số, đưa ra kết quả xấp xỉ (trừ trường hợp phân bố hậu nghiệm rất đơn giản, ví dụ như phân bố chuẩn tắc). Tanner (1996) [29] đưa ra thuật toán Monte Carlo để tính toán các giới hạn của vùng HPD (trường hợp phân bố multimodal), nhưng yêu cầu đánh giá phân bố hậu nghiệm biên duyên tương đối phức tạp và thiên về tin học. Chen&Shao (1998) [23] đã đưa ra phương pháp Monte Carlo đơn giản để ước lượng khoảng HPD bằng hai cách, tạo mẫu xích Markov từ phân bố hậu nghiệm biên duyên của tham số. Luận văn sẽ bàn sâu hơn về cách tiếp cận sử dụng mẫu xích Markov trong chương 2.

a b c

Một phần của tài liệu Tìm hiểu về khoảng tin cậy bayes (Trang 20 - 25)

Tải bản đầy đủ (PDF)

(79 trang)