Chương 2. Khoảng tin cậy Bayes
2.3. Bài toán mô phỏng
Ví dụ 2.3.1. ([28]) (Bài toán tìm ước lượng cho hàm của tham số trong phân bố nhị thức)
Cuộc Tổng khảo sát Xã hội năm 1998 tiến hành điều tra tỉ lệ người có tín ngưỡng đạo Tin lành, và thái độ của họ đối với luật của tòa án tối cao. Theo đó, trong số người không tín ngưỡng đạo Tin lành thì có người nói rằng họ ủng hộ luật của tòa án, và có 353 người trên tổng số 1011 người theo đạo Tin lành ủng hộ bộ luật này.
Gọi là tỉ lệ số người đồng ý với bộ luật trong nhóm người không theo đạo Tin lành. Yêu cầu đặt ra là tìm ước lượng cho tham số .
/?
Gọi là số người đồng ý với bộ luật trong nhóm người không theo đạo Tin lành. Ta có hàm hợp lý cho là: ( | ) ( ) . Sử dụng phân phối tiên nghiệm liên hợp cho là phân bố đều ( ), ta có:
( | ) ( ) ( | ) ( ) ( )
trong đó ( ) là hằng số chuẩn hóa. Tích phân 2 vế theo , chú ý vế trái là tích phân của hàm mật độ nên cho kết quả bằng 1, ta nhận được:
( ) ∫ ( )
Thấy rằng hàm dưới dấu tích phân là hạt nhân của phân phối ( ).
Bằng cách thêm bớt hệ số nhân, ta có ( | ) ( ), với , phân bố hậu nghiệm cho là ( ).
Theo luật số lớn, nếu { ( ) ( ) ( ) } là mẫu MCMC được sinh từ phân bố hậu nghiệm của thì kỳ vọng . . ( )
( )// sẽ hội tụ về . .
/ | / khi . Sử dụng thuật toán Monte Carlo , ta sẽ có được mẫu mô phỏng cho phân phối tiên nghiệm và hậu nghiệm của tham số :
> a=1
> b=1
> theta.prior.mc<-rbeta(10000,a,b)
> gamma.prior.mc<-log(theta.prior.mc/(1-theta.prior.mc))
> h1<-hist(gamma.prior.mc,xlab="gamma",ylab="p(gamma)",prob=T)
Hình 2.3. 1. Mô phỏng phân phối tiên nghiệm của tham số
> n0=419
> n1=441
> theta.post.mc<-rbeta(10000,a+n1,b+n0)
> gamma.post.mc<-log(theta.post.mc/(1-theta.post.mc))
> h2<-hist(gamm a.post.mc,xlab="
gamma",ylab="p (gamma|x)",prob
=T)
Hình 2.3. 2. Mô phỏng phân phối hậu nghiệm của tham số γ Khoảng HPD cho :
> HPDinterval(as.mcmc(gamma.post.mc),prob=0.95) lower upper
var1 -0.08639647 0.1819326 attr(,"Probability")
[1] 0.95
Khoảng tin cậy đối xứng cho :
> quantile(gamma.post.mc,c(0.025,0.975)) 2.5% 97.5%
-0.08492216 0.18403633
Vậy ta có khoảng HPD cho tham số
là ( ). so sánh với khoảng tin cậy đối xứng, ta thấy khoảng HPD có độ dài nhỏ hơn.
Ví dụ 2.3.2. ([25]) Xét bài toán tìm khoảng tin cậy Bayes ( ) cho tỉ số hai phương sai của phân bố chuẩn.
Giả sử các quan sát { } được rút từ phân bố chuẩn ( ) với ; gọi là phương sai mẫu của { } và đặt với . Ta quan tâm đến tham số và cần đưa ra khoảng HPD ước lượng cho .
Ta đã biết , từ đó suy ra
( )
( | ) ( )
. /
. /( )
( ) (
)
Box&Tiao (1992) chỉ ra phân bố hậu nghiệm cho là
( | )
( )
. /
( )
( )
Như vậy phân bố hậu nghiệm cho có dạng giải tích cụ thể: phân bố Fisher (phân bố không đối xứng), vì vậy khoảng HPD sẽ là lựa chọn tối ưu cho hơn khoảng đối xứng Bayes. Xét trường hợp . Box&Tiao đưa ra ví dụ tương tự để tìm khoảng HPD cho tham số . /. Tuy nhiên do khoảng HPD không có
tính bất biến đối với các phép biến đổi phi tuyến tính, nên ta không thể dựa vào kết quả này để tìm trực tiếp khoảng HPD cho tham số .
Theo định lý 2.3.1, sẽ tồn tại khoảng HPD ( ) chính xác, đặt là ( ( ) ( )). Ta sẽ kiểm tra tính hội tụ của khoảng HPD ước lượng, có được từ định lý 2.3.3, bằng cách so sánh với khoảng HPD chính xác này. Giả sử * + là mẫu ngẫu nhiên MCMC từ phân bố ( | ), khi đó theo định lý 3.3.3, khoảng HPD ước lượng cho là ( ( ) ( ,( ) -)) với được xác định bởi . Để nghiên cứu sự hội tụ của khoảng ( ( ) ( ,( ) -)), ta định nghĩa trung bình sai số tương đối (ME)
(| ( ) ( )| | ( ,( ) -) ( )|) ( ) ( )
trong đó kỳ vọng được lấy theo phân bố của . Với cỡ mẫu MCMC cho trước , cho ta sai khác tương đối giữa khoảng HPD ước lượng ( ( ) ( ,( ) -)) so với khoảng HPD chính xác ( ( ) ( )) của tham số .
Do việc tính kỳ vọng (| ( ) ( )| | ( ,( ) -) ( )|) không thể thực hiện được bằng tính tích phân trực tiếp, ta sẽ sử dụng kỹ thuật mô phỏng để ước lượng.
Tiến hành lấy mẫu mô phỏng 500 lần và tính
(| ( ) ( )| | ( ,( ) -) ( )|)
( ) ( ) Khi đó được ước lượng bởi
∑ , độ lệch chuẩn mô phỏng là căn bậc hai của phương sai mẫu của . Sử dụng R, ta có bảng kết quả trong các trường hợp khác nhau của cũng như giá trị của , đưa ra trung bình sai số tương đối và độ lệch chuẩn mô phỏng của khoảng HPD ước lượng so với khoảng HPD chính xác:
Bảng 2.3. 1. Khoảng HPD ứng với các giá trị và cỡ mẫu khác nhau
Như vậy, sai số trung bình chỉ nằm trong khoảng độ dài của khoảng HPD chính xác, ngay cả trong trường hợp nhỏ nhất bằng 500. Điều này cho thấy khoảng HPD ước lượng cho kết quả khá tốt. Hơn nữa, với các giá trị khác nhau của ( và ), ta có thể khẳng định rằng vì các khoảng HPD cho tương ứng đều chứa các giá trị lớn hơn 1.