MỤC LỤC
Cột Mean (Trung bình) cho biết các ước tính của giá trị trung bình hậu nghiệm, tức trung bình của các phân phối hậu nghiệm biên của các tham số (phân phối biên của một tập hợp con của tập hợp các biến ngẫu nhiên là phân phối xác suất của các biến có trong tập hợp con. Nó đưa ra xác suất của các giá trị khác nhau của các biến trong tập hợp con mà không cần tham chiếu đến các giá trị của các biến khác). Các ước tính trung bình hậu nghiệm khá gần với các ước tính thu được từ hồi quy OLS, điều này có thể giúp ta kỳ vọng chuỗi MCMC sẽ hội tụ khi chúng ta sử dụng tiên nghiệm phi thông tin để tiến hành hồi quy Bayes. Qua đánh giá nhanh có thể thấy các ước lượng của giá trị trung bình và giá trị trung vị của các hệ số hồi quy khá gần nhau, vì vậy chúng ta kỳ vọng các phân phối hậu nghiệm của chúng có thể là đối xứng.
Khác với khoảng tin cậy phương pháp tần suất (confidence intervals), khoảng tin cậy của Bayes thể hiện mật độ xác suất hậu nghiệm của tham số, nó cung cấp một khoảng xỏc suất rừ ràng hơn so với phương phỏp tần suất. Điểm mạnh là nếu chúng ta có kiến thức đáng tin cậy trước đó về phân phối của một tham số, việc kết hợp điều này vào mô hình của chúng ta sẽ cải thiện kết quả và có khả năng thực hiện các phân tích mà phương pháp tần suất không thực hiện được. Bây giờ chúng ta sẽ tiến hành hồi quy Bayes theo tiên nghiệm trên, theo đó chúng ta chỉ định phân phối chuẩn N(0, {var}) cho thông tin tiên nghiệm cho các hệ số và phân phối Gamma nghịch đảo igamma (2.5, 2.5) trước cho phương sai.
Thông qua so sánh xác suất hậu nghiệm hai mô hình, ta thấy mô hình rút gọn sizegroup có xác suất hậu nghiệm P(M|y) cao hơn, do vậy có thể khẳng định mô hình rút gọn diễn giải kết quả Bayes tốt hơn. Việc phân tích chuẩn đoán hội tụ bằng hình ảnh và Grubin chỉ cho thấy đặc tính của chuỗi MCMC chứ chưa nói lên được mức độ phù hợp (fit) của mô hình với biến quan sát, do vậy chúng ta cần tiến hành kiểm định dự báo hậu nghiệm. Ví dụ, trong một hồi quy tuyến tính, công cụ dự đoán tuyến tính là sự kết hợp tuyến tính của các hệ số hồi quy ước tính và các hiệp biến quan sát, được sử dụng để dự đoán các giá trị của kết quả liên tục.
Việc kiểm định mô hình được thực hiện thông qua kiểm tra dự báo hậu nghiệm, quá trình này sẽ so sánh các đặc điểm khác nhau của phân phối dự đoán hậu nghiệm với các đặc điểm quan sát được trong dữ liệu. Trong trường hợp thứ hai, dữ liệu được chia thành subsamples training (mẫu con được huấn luyện) và subsamples test (mẫu con kiểm định): subsamples training được sử dụng để phù hợp (fit) với mô hình Bayesian và subsamples test được sử dụng để đánh giá độ chính xác dự đoán của mô hình. Phổ biến hơn, ta có thể thực hiện các phép đo khác biệt như thống kê trung bình, tối thiểu và tối đa được tính toán cho dữ liệu sao chép và cho dữ liệu quan sát bằng cách sử dụng các giá trị p dự báo hậu nghiệm.
Để thực hành phân tích dự báo Bayes hậu nghiệm, chúng ta sẽ quay lại thí nghiệm của ví dụ về bệnh truyền nhiễm hiếm gặp của Hoff(2009) mà chúng ta đã phân tích mô hình nhị thức Beta trong chương 1. (2014) sử dụng một mô hình đơn giản hóa cho timedev, mô hình phân phối chuẩn với trung bình (mean) 𝜇 và sai số chuẩn (variance) 𝜎2 là chưa biết, mô hình này có thể không phù hợp với sự hiện diện của các quan sát cực đoan. Chúng ta có thể so sánh phân phối dự báo hậu nghiệm của thống kê tối thiểu với giá trị nhỏ nhất được quan sát thông qua tính toán dự báo hậu nghiệm p-value bằng cách sử dụng lệnh bayesstats ppvalues.
Đối với phân tích cuối cùng, chúng ta có thể xem xét các bộ dữ liệu bệnh tim khác để xác minh tính hợp lý của các thông số tiên nghiệm này của chúng ta và để kiểm tra độ nhạy của các thông số với các thông tin tiên nghiệm trước đó khác. Mô hình hồi quy logistic được áp dụng cho biến phản hồi c_use sử dụng các biến tác động cố định urban, age, và child* và một biến tác động ngẫu nhiên district, để giải thích sự khác biệt giữa các khu vực. Để so sánh, chúng ta sẽ phân tích bayesmh chỉ định {c_use:i.district} các tham số được đặt trong một khối riêng biệt mà không sử dụng reffects( ) Về mặt thống kê, các thông số kỹ thuật của hai mô hình là giống nhau vì chúng xác định một và cùng một phân phối hậu nghiệm.
Trong trường hợp không có lấy mẫu Gibbs cho các hiệu ứng ngẫu nhiên, phân chia tùy chọn con (suboption) của khối block ( ), mặc dù quá trình lấy mẫu khá chậm, nhưng cung cấp cách tiếp theo hiệu quả nhất các tham số hiệu ứng ngẫu nhiên trong bayesmh. Trong ví dụ của chúng ta, khó khăn trong việc lấy mẫu của hằng số một cách hiệu quả, điều này có thể được giải thích bởi sự hiện diện của mối tương quan cao giữa hằng số với một hoặc nhiều tác động ngẫu nhiên. Mô hình có năm tham số chính được quan tâm: hệ số hồi quy 𝛽0 và 𝛽1và thành phần phương sai 𝜎02; 𝜎𝜏02 và 𝜎𝜏12 là các siêu tham số về mặt kỹ thuật vì chúng được chỉ định làm tham số trung bình của các phân phối tiên nghiệm cho các tác động ngẫu nhiên của 𝜏𝑜𝑗 và 𝜏1𝑗.
Tác động ngẫu nhiên của 𝜏𝑜𝑗 và 𝜏1𝑗 được coi là tham số phiền toái (nuisance parameters - Một tham số phải được hạch toán vào các hoạt động thống kê, nhưng điều đó không có liên quan hoặc có ý nghĩa với mục tiêu của phân tích. thông số phiền toái có thể can thiệp vào việc phân tích các thông số quan tâm, nhưng cũng có thể trở thành thông số của bản thân quan tâm nếu họ trở thành tâm điểm của phân tích). Các ước tính trung bình hậu nghiệm của chúng ta về các tham số mô hình chính phù hợp với các kết quả có theo phương pháp hàm khả năng tối đa (maximum likelihood) từ mixed, đúng như kỳ vọng khi chúng ta thực hiện hồi quy với tiên nghiệm phi thông tin. Mô hình hồi quy logistic được áp dụng cho biến phụ thuộc risk sử dụng các biến tác động cố định là quick, debt, roe và expr và biến tác động ngẫu nhiên type để giải thích sự khác biệt giữa các loại hình doanh nghiệp.
Để cải thiện hiệu quả lấy mẫu trong ví dụ này, chúng ta có thể đánh giá lại mô hình bằng cách xác định lại các hiệu ứng ngẫu nhiên U1 và U2 với các hằng số {phi1:_cons} và {phi2:_cons} để các hằng số này trở thành tiên nghiệm cho các tác động ngẫu nhiên U1 và U2. Ví dụ: đối với phân phối Weibull, bạn có thể lập mô hình thông số hình dạng p trong chỉ số nhật ký bằng cách sử dụng likelihood (stweibull (lnp)) hoặc likelihood (stweibull (lnp), logparam) (mặc định) hoặc trong số liệu ban đầu bằng cách sử dụng likelihood (stweibull (p), nologparam). Tương tự, đối với phân phối lognormal, bạn có thể lập mô hình độ lệch chuẩn bằng cách sử dụng likelihood (stlognormal (lnstd)) (mặc định) hoặc phương sai bằng cách sử dụng likelihood (stlognormal (var), nologparam), v.v.
Để so sánh kết quả với streg, chúng ta sử dụng tiên nghiệm thông tin yếu cho các thông số mô hình và chỉ định tùy chọn eform ( ) để báo cáo tỷ lệ nguy hiểm (hệ số lũy thừa) thay vì các hệ số được báo cáo theo mặc định của bayesmh. Như trong mô hình SEM cổ điển, các biến tiềm ẩn được giả định là có phân phối chuẩn hai biến (bivariate normal distribution), chúng ta sẽ lập mô hình bằng cách sử dụng tiên nghiệm mvnormal ( ) với giá trị trung bình là {meani} và {means} và và ma trận phương sai – hiệp phương sai {Sigma, m}. Các mô hình hồi quy được chúng tôi thực hiện ước lương bằng phương pháp Bayes bao gồm mô hình hồi quy Logistic, Probit, mô hình hồi quy với dữ liệu bảng, mô hình đường cong tăng trưởng, mô hình hồi quy logistic đa tầng, mô hình phi tuyến ba tầng, mô hình phân tích sống còn, mô hình phân tích điểm gãy, mô hình tác động ngẫu nhiên trong phân tích tổng hợp.