1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh

139 19 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hướng Dẫn Sử Dụng Phương Pháp Bayes Trên Stata
Tác giả PGS. TSKH Nguyễn Ngọc Thạch, TS. Lê Hoàng Anh, NCS. THS Nguyễn Trần Xuân Linh
Trường học Trường Đại Học Ngân Hàng Tp.Hồ Chí Minh
Thể loại sách
Năm xuất bản 2021
Thành phố Tp.HCM
Định dạng
Số trang 139
Dung lượng 4,33 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN TÍCH BAYES (7)
    • 1.1. Phân tích Bayes là gì? (7)
    • 1.2. So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian (9)
    • 1.3. Các đặc tính của phân tích Bayes (11)
    • 1.4. Những vấn đề cơ bản của thống kê Bayes (13)
      • 1.4.1. Phân phối hậu nghiệm (Posterior distribution) (13)
      • 1.4.2. Thông tin tiên nghiệm (prior information) (14)
      • 1.4.3. Ước lượng điểm và ước lượng khoảng (16)
      • 1.4.4. So sánh các mô hình Bayesian (17)
      • 1.4.5. Dự báo hậu nghiệm (19)
      • 1.4.6. Tính toán Bayes (19)
      • 1.4.7. Phương pháp chuỗi Markov Monte Carlo (MCMC) (20)
      • 1.4.8. Thuật toán Metropolis – Hastings (21)
      • 1.4.9. Bước tự do Metropolis–Hastings (23)
      • 1.4.10. Blocking tham số (24)
      • 1.4.11. Metropolis–Hastings và cách lấy mẫu Gibbs (25)
      • 1.4.12. Chuẩn đoán hội tụ chuỗi MCMC (26)
  • CHƯƠNG 2: ỨNG DỤNG PHÂN TÍCH BAYES CƠ BẢN (33)
    • 2.1 Hồi quy tuyến tính Bayes với tiên nghiệm phi thông tin (noninformative prior) (34)
    • 2.2. Hồi quy Bayes với tiên nghiệm có thông tin (38)
    • 2.3. Hồi quy tuyến tính Bayes đa thông tin (39)
    • 2.4. Chuẩn đoán hội tụ (40)
    • 2.5. Tóm tắt kết quả hậu nghiệm (45)
    • 2.6. So sánh mô hình (48)
    • 2.7. Dự báo Bayes (chỉ có thể thực hiện trên bản Stata 16 trở lên) (50)
      • 2.7.1. Dự báo số đối tượng bị nhiễm (55)
      • 2.7.2. Tóm tắt kết quả dự báo (57)
      • 2.7.3. Biểu thức kết quả dự báo riêng lẻ (57)
      • 2.7.4. Đồ họa kết quả hậu nghiệm (58)
      • 2.7.5. Tóm tắt hậu nghiệm của các kết quả mô phỏng (59)
      • 2.7.6. Kiểm định mức độ phù hợp của mô hình bằng cách sử dụng MCMC sao chép các kết quả mô phỏng (59)
      • 2.7.7. Kiểm tra thống kê dưới dạng hàm vô hướng của các kết quả được mô phỏng (65)
      • 2.7.8. Dự báo ngoài mẫu (Out-of-sample prediction) (67)
  • CHƯƠNG 3: CÁC DẠNG MÔ HÌNH HỒI QUY THEO CÁCH TIẾP CẬN BAYES CƠ BẢN (72)
    • 3.1. Hồi quy Logistic theo Bayes (Bayesian Logistic regression) (72)
    • 3.2 Hồi quy Probit thứ bậc (80)
    • 3.3. Hồi quy dữ liệu bảng với mô hình phân tích đa tầng (85)
      • 3.3.1 Mô phỏng đầu tiên — phương pháp lấy mẫu MH mặc định (88)
      • 3.3.2 Mô phỏng thứ hai — blocking các tham số (91)
      • 3.3.3. Mô phỏng thứ ba — lấy mẫu Gibbs (92)
      • 3.3.4 Mô phỏng thứ tư — tách các tham số hiệu ứng ngẫu nhiên (96)
      • 3.3.5. Mô phỏng thứ năm — tham số hóa thay thế (97)
    • 3.4 Mô hình đường cong tăng trưởng — một mô hình hệ số chặn ngẫu nhiên . 93 3.5. Hiệp phương sai phi cấu trúc cho các tác động ngẫu nhiên (99)
    • 3.6. Hồi quy logistic đa tầng (Multilevel logistic regression) (106)
    • 3.7. Mô hình phi tuyến ba tầng (Three-level nonlinear model) (108)
    • 3.8. Mô hình sống sót (survival analysis) (113)
    • 3.9. Phân tích Bayes về điểm thay đổi (change-point) (119)
    • 3.10 Mô hình tác động ngẫu nhiên trong phân tích tổng hợp (meta-analysis) (124)
      • 3.10.1. Mô hình phân tính Normal–normal (125)
      • 3.10.2. Mô hình phân tích Binomial-normal (128)

Nội dung

Quy tắc Bayes được sử dụng để định dạng cho một phân phối gọi là phân phối hậu nghiệm posterior distribution cho các thông số của mô hình.. Phân phối hậu nghiệm của các thông số sẽ được

GIỚI THIỆU VỀ PHÂN TÍCH BAYES

Phân tích Bayes là gì?

Phân tích Bayes là một phân tích thống kê nhằm trả lời các câu hỏi về thông số chưa biết của mô hình thống kê bằng cách sử dụng các khái niệm xác suất (probability statements) Phân tích Bayes dựa trên giả định rằng tất cả các thông số của mô hình là ngẫu nhiên và do vậy, nó có thể kết hợp với các thông tin tiên nghiệm (prior knowledge) Giả định này trái ngược hoàn toàn với phương pháp thống kê tần suất (frequentist) truyền thống, phương pháp này cho rằng các thông số của mô hình là chưa biết nhưng là một đại lượng cố định (fixed quantities) Phương pháp thống kê Bayes tuân theo một quy tắc xác suất đơn giản, quy tắc Bayes, nó cung cấp một phương thức cho sự kết hợp giữa thông tin tiên nghiệm và các dữ liệu nghiên cứu thu thập được Quy tắc Bayes được sử dụng để định dạng cho một phân phối gọi là phân phối hậu nghiệm (posterior distribution) cho các thông số của mô hình Các kiểm định thống kê về các hệ số của mô hình đều được thể hiện dưới dạng xác suất dựa trên việc ước lượng phân phối hậu nghiệm Để giới thiệu nhanh về phân tích Bayes chúng ta sử dụng ví dụ được mô tả trong nghiên cứu của Hoff (2009, 3) về việc nghiên cứu sự truyền nhiễm của một căn bệnh hiếm Với một mẫu nhỏ, ngẫu nhiên gồm 20 chủ thể từ một thành phố được tiến hành kiểm tra về căn bệnh này Gọi thông số của tỷ lệ mắc bệnh trong thành phố là θ, θ ∈ [0, 1] Kết quả y sẽ ghi nhận số cá thể bị mắc bệnh trong mẫu nghiên cứu Mô hình phù hợp cho y là mô hình nhị thức: 𝑦|𝜃 ~ 𝐵𝑖𝑛𝑜𝑚𝑖𝑛𝑎𝑙 (20, 𝜃) Dựa trên các nghiên cứu từ các thành phố khác, tỷ lệ mắc bệnh sẽ nằm trong khoảng 0,05 và 0,2, với tỷ lệ hiện hành (rate prevalence) là 0,1 Để sử dụng thông tin này, chúng ta phải tiến hành phân tích Bayes Thông tin này sẽ được sử dụng làm phân phối tiên nghiệm cho 𝜃, nó được gán vào một xác suất giữa 0,05 và 0,2, với giá trị kỳ vọng của 𝜃 gần với 0,1 Một tiên nghiệm tiềm năng thỏa điều kiện này là tiên nghiệm Beta (2, 20) với giá trị kỳ vọng là 2/(20 + 2) = 0,09 Như vậy, giả định tiên nghiệm cho tỷ lệ nhiễm bệnh 𝜃 là 𝜃~𝐵𝑒𝑡𝑎(2, 20) Chúng ta lấy mẫu từng cá thể và quan sát được rằng không ai bị mắc bệnh, có nghĩa là y = 0 Kết quả này không phải là bất thường cho một mẫu nhỏ với một căn bệnh hiếm Ví dụ, tỷ lệ mắc

2 bệnh thật sự là 𝜃 = 0,05, xác suất theo phân phối nhị thức để mẫu quan sát với 20 cá thể và không có ai mắc bệnh là 36% Như vậy, mô hình Bayesian được định nghĩa như sau:

𝑦|𝜃~𝐵𝑖𝑛𝑜𝑚𝑖𝑛𝑎𝑙 (20, 𝜃) 𝜃~𝐵𝑒𝑡𝑎(2, 20) Với mô hình Bayesian, chúng tính được phân phối hậu nghiệm của 𝜃|𝑦 𝜃|𝑦 ~ 𝐵𝑒𝑡𝑎(2 + 0, 20 + 20 − 0) = 𝐵𝑒𝑡𝑎 (2, 40)

Phân phối hậu nghiệm là sự kết hợp thông tin tiền nghiệm của hệ số 𝜃 với thông tin từ dữ liệu quan sát được, từ kết quả 𝑦 = 0 đã cung cấp bằng chứng một giá trị 𝜃 thấp hơn và dịch chuyển mật độ về bên trái tạo thành dạng mật độ hậu nghiệm

Trên cơ sở phân phối hậu nghiệm này, ta có thể ước tính giá trị trung bình hậu nghiệm cho 𝜃 là 2

(2+40)= 0,048 và xác suất hậu nghiệm của 𝜃 < 10% là khoảng 93%

Nếu chúng ta ước tính bằng phương pháp tần suất của 𝜃 như một tỷ lệ của chủ thể nhiễm bệnh trong mẫu là 𝑦̅ = 𝑦 𝑛⁄ , chúng ta có giá trị 0 với khoảng tin cậy (confidence interval) 95% chúng ta sẽ thu được khoảng giá trị (𝑦̅ − 1,96 ×

√𝑦̅(1 − 𝑦̅)/𝑛, 𝑦̅ + 1,96 × √𝑦̅(1 − 𝑦̅)/𝑛 ) là 0 Điều này dường như rất khó để

3 thuyết phục được những nhà hoạch định chính sách lĩnh vực y tế rằng tỷ lệ mắc bệnh ở thành phố này là 0 với một mẫu nhỏ và thông tin tiên nghiệm sẵn có về các thành phố đối chứng là một tỷ lệ khác 0

Chúng ta sử dụng phân phối tiên nghiệm Beta trong ví dụ này, nhưng chúng ta cũng có thể lựa chọn một phân phối tiên nghiệm khác dựa trên kiến thức của chúng ta sẵn có (prior knowledge) về vấn đề nghiên cứu Đối với phân tích cuối cùng, điều quan trọng là phải xem xét một chuỗi phân phối tiên nghiệm khác nhau và điều tra độ nhạy đối với kết quả của tiên nghiệm được lựa chọn.

So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian

Tại sao phải sử dụng Bayesian, hay câu hỏi tốt hơn là khi nào sử dụng phương pháp Bayesian, khi nào sử dụng phương pháp tần suất? Để trả lời câu hỏi này chủ yếu dựa vào vấn đề bạn nghiên cứu Bạn nên lựa chọn phương pháp phân tích phù hợp cho từng chủ đề cụ thể mà bạn nghiên cứu Ví dụ, nếu bạn quan tâm đến việc ước tính xác suất các thông số mà nó có một vài khoảng được xác định trước, bạn nên lựa chọn khung phân tích Bayesian, bởi vì xác suất này không thể ước tính chính xác bằng khung lý thuyết tần suất Tuy nhiên, nếu nghiên cứu của bạn dựa việc diễn trên một mẫu được lặp đi, lặp lại, phương pháp tần suất sẽ phù hợp với bạn

Bayesian và tần suất có những triết lý rất khác nhau về việc xem xét cái được cố định, do vậy, việc diễn giải kết quả nghiên cứu cũng khác nhau Cách tiếp cận Bayes dựa trên giả định rằng mẫu dữ liệu quan sát được là cố định và thông số của mô hình là ngẫu nhiên Phân phối hậu nghiệm của các thông số sẽ được ước tính dựa trên mẫu quan sát được và phân phối tiên nghiệm của thông số đó và sử dụng nó để diễn giải kết quả Phân phối tần suất thì lại giả định rằng các mẫu quan sát là mẫu lặp lại ngẫu nhiên và thông số này là không biết nhưng nó là cố định và không đổi thông qua việc lặp đi lặp lại các mẫu Sự diễn giải dựa trên phân phối mẫu của dữ liệu hoặc đặc tính thống kê của dữ liệu Nói cách khác, phân tích Bayesian trả lời câu hỏi dựa trên phân phối của thông số có điều kiện của mẫu quan sát được Trong đó, phân tích tần suất trả lời câu hỏi dựa trên phân phối thống kê đạt được lặp lại từ các mẫu giả thuyết, nó sẽ được tạo ra bởi cùng một quy trình mà quy trình

4 này được tạo ra từ các mẫu quan sát được vì các thông số thống kê này là chưa biết nhưng cố định Phương pháp tần suất đòi hỏi quá trình tạo ra các mẫu quan sát phải lặp lại liên tục Nhưng giả định này không phải lúc nào cũng khả thi Ví dụ, trong phân tích tổng hợp (meta-analysis), khi các mẫu quan sát được đại diện qua việc thu thập nghiên cứu được quan tâm, và vấn đề gây tranh cãi là sự thu thập các nghiên cứu này là một thí nghiệm một lần (one-time experiment)

Phân tích tần suất có độ chính xác cao khi các giả định của mô hình được thỏa mãn, tuy nhiên độ chính xác bị ảnh hưởng bởi tính khách quan của dữ liệu Ngược lại, phân tích Bayes cung cấp một phương pháp ước tính mạnh mẽ hơn bằng cách kết hợp dữ liệu thu thập được với thông tin trước hoặc kiến thức về các tham số mô hình.

Trong phân tích tần suất, người ta cố gắng ước tính giá trị thực của thông số chưa biết, còn phân tích Bayes cung cấp toàn bộ phân phối cho thông số đó Ví dụ, khi ước tính tỷ lệ mắc bệnh, phân tích tần suất chỉ cho kết quả là một giá trị ước tính duy nhất, trong khi phân tích Bayes cung cấp cả một phân phối hậu nghiệm cho tỷ lệ mắc bệnh, dựa trên dữ liệu mẫu và thông tin từ tỷ lệ mắc bệnh của các thành phố tương ứng.

Diễn giải thống kê tần suất được dựa trên phân phối mẫu của sự ước tính thông số và cung cấp ước lượng điểm, sai số chuẩn cũng như độ tin cậy (confidence interval – khoảng tự tin về sự chính xác mô hình) Phân phối mẫu chính xác hiếm khi biết được và được xấp xỉ bởi một phân phối chuẩn mẫu lớn Diễn giải Bayes dựa trên phân phối hậu nghiệm của thông số và nó cung cấp bản tóm tắt của phân phối này bao gồm trung bình hậu nghiệm và sai số chuẩn của chuỗi MCMC (MCMC standard errors - MCSE) của chúng cũng như khoảng mật độ xác suất hậu nghiệm Mặc dù phân phối hậu nghiệm chính xác chỉ được biết trong một số trường hợp, phân phối hậu nghiệm tổng quát có thể ước tính được thông qua, ví dụ lấy mẫu chuỗi Markov chain Monte Carlo (MCMC) mà không cần phải xấp xỉ mẫu lớn Khoảng tin cậy (confidence interval) của phương pháp tần suất không có sự diễn giải thống kê rõ rằng như khoảng tin cậy (credible interval) của Bayesian Ví

5 dụ, cách diễn giải khoảng tin cậy (confidence interval) 95% là nếu lặp lại cùng một nghiên cứu nhiều lần và tính khoảng tin cậy riêng lẻ cho mỗi nghiên cứu thì có 95% khoảng tin cậy của chúng sẽ bao gồm giá trị thật (true value) của thông số Với bất kỳ khoảng tin cậy nào, xác suất mà giá trị thật nằm trong khoảng tin cậy đó hoặc bằng 0 hoặc bằng 1 và chúng ta không biết cụ thể là bao nhiêu Chúng ta chỉ có thể diễn giải rằng bất kỳ một khoảng tin cậy nào cũng sẽ cung cấp một khoảng hợp lý cho giá trị thực của thông số Nhưng với Bayesian, khoảng tin cậy (credible interval) sẽ cung cấp một chuỗi cho một thông số và xác suất để thông số đó nằm trong chuỗi này là 95%

Kiểm định giả thuyết thống kê tần suất dựa vào việc sử dụng mức độ ý nghĩa thống kê (significance level) được chỉ định trước để quyết định chấp nhận hay bác bỏ giả thuyết vô hiệu (còn gọi là giả thuyết không – null hypothesis tức giả thuyết ngược với vấn đề nghiên cứu) theo dữ liệu quan sát được, giả định rằng giả thuyết không thật sự là đúng Quyết định được dựa vào p-value tính toán từ dữ liệu quan sát được Ý nghĩa p-value là nếu chúng ta lặp lại một thí nghiệm nhiều lần và sử dụng cùng quy trình kiểm định, nếu giả thuyết vô hiệu là đúng, p-value phản ánh xác suất dữ liệu xảy ra hoặc dữ liệu cực đoan hơn xảy ra nếu giả thuyết vô hiệu là đúng P-value không phản ánh xác suất của giả thuyết vô hiệu, nó chỉ có ý nghĩa rằng, xác suất dữ liệu xảy ra nếu giả thuyết vô hiệu là đúng.

Các đặc tính của phân tích Bayes

Phân tích Bayes được bắt đầu với sự đặc tả của một mô hình hậu nghiệm (posterior model) Mô hình hậu nghiệm mô tả phân phối xác suất của tất cả tham số dựa trên dữ liệu quan sát và thông tin tiên nghiệm Phân phối hậu nghiệm gồm hai thành phần: hàm hợp lý tối đa (likelihood), nó bao gồm thông tin về các tham số của mô hình theo dữ liệu quan sát, và một tiên nghiệm, nó bao gồm thông tin tiên nghiệm, những hiểu biết về vấn đề nghiên cứu (trước khi có dữ liệu quan sát) về các tham số của mô hình hàm khả năng và mô hình tiên nghiệm được kết hợp với nhau bằng cách sử dụng quy tắc Bayes để tạo ra phân phối hậu nghiệm:

Khi phân phối hậu nghiệm không có dạng đóng (close form), việc diễn giải kết quả Bayes cần được tiến hành thông qua mô phỏng Mô phỏng chuỗi Markov Monte Carlo (MCMC) cho phép tái tạo các phân phối hậu nghiệm phức tạp với độ chính xác theo ý muốn Sử dụng MCMC để mô phỏng mô hình Bayes yêu cầu xác định thuật toán lấy mẫu hiệu quả và xác minh sự hội tụ của thuật toán để đáp ứng phân phối hậu nghiệm.

Ước lượng và diễn giải kết quả phân tích Bayes được thực hiện sau khi hội tụ chuỗi MCMC Ước lượng Bayes phổ biến bao gồm trung bình và độ lệch chuẩn hậu nghiệm, đòi hỏi phải tính tích phân Khi không có biểu thức đóng, phương pháp lấy mẫu như MCMC và tích phân Monte Carlo thường được sử dụng Ngoài diễn giải, kiểm định dự báo hậu nghiệm là một bước quan trọng trong phân tích Bayes Quá trình kiểm định liên quan đến việc so sánh phân phối của dữ liệu quan sát với dữ liệu bản sao mô phỏng từ phân phối dự báo hậu nghiệm của mô hình Sự khác biệt giữa hai phân phối được đo lường bằng p-value dự báo hậu nghiệm, cung cấp thông tin để đưa ra kết luận về mô hình.

Các giả thuyết của Bayes có thể được thực hiện dưới hai dạng: kiểm định giả thuyết khoảng (interval-hypothesis testing) và kiểm định giả thuyết mô hình (model-hypothesis testing) Trong kiểm định giả thuyết khoảng, xác suất mà thông số hoặc bộ thông số của mô hình thuộc một khoảng xác định hoặc khoảng được

7 tính toán Trong kiểm định mô hình, xác suất mô hình Bayes của vấn đề nghiên cứu được đưa ra bởi dữ liệu quan sát được tính toán

So sánh mô hình là bước tiếp theo trong phân tích Bayes Khung lý thuyết Bayes cung cấp một cách tiếp cận thống nhất và có hệ thống để so sánh các mô hình bằng cách sử dụng khái niệm tỷ lệ kỳ vọng sau và hệ số Bayes liên quan.

Cuối cùng, dự báo một vài dữ liệu không quan sát được cũng là vấn đề quan tâm trong phân tích Bayesian Việc dự báo một điểm dữ liệu mới được thực hiện dưới điều kiện sử dụng dữ liệu đã quan sát được gọi là phân phối dự báo hậu nghiệm (posterior predictive distribution) Nó tích hợp tất cả các tham số trong mô hình với các phân phối hậu nghiệm tương ứng của chúng Tích phân Monte Carlo một lần nữa là sự lựa chọn khả dĩ cho việc đạt được sự dự báo Sự dự báo cũng có thể hữu ích trong việc ước tính sự chuẩn xác mức độ thích hợp của mô hình.

Những vấn đề cơ bản của thống kê Bayes

1.4.1 Phân phối hậu nghiệm (Posterior distribution) Để lĩnh hội nguyên tắc thống kê Bayes, chúng ta sẽ bắt đầu với một trường hợp đơn giản với việc phân tích sự tương tác giữa hai biến ngẫu nhiên A và B Đặt

𝑝 ( ) là hàm khối xác suất hoặc mật độ xác suất tùy theo các biến là rời rạc hoặc liên tục Nguyên tắc xác suất có điều kiện

𝑃(𝐵) , có thể được sử dụng để hình thành nên định lý Bayes

Nguyên tắc này cũng được sử dụng trong trường hợp tổng quát khi A và B là các vector ngẫu nhiên

Trong một vấn đề thống kê điển hình, chúng ta có một dữ liệu vector y, nó được giả định rằng là một mẫu từ một mô hình xác suất với một vector thông số chưa biết 𝜃 Chúng ta sẽ thể hiện mô hình này bằng việc sử dụng hàm khả năng

(likelihood function) 𝐿(𝜃; 𝑦) = 𝑓(𝑦; 𝜃) = ∏ 𝑛 𝑖=1 𝑓(𝑦 𝑖 |𝜃)trong đó, 𝑓(𝑦 𝑖 |𝜃) thể hiện hàm phân phối mật độ xác suất của 𝑦 𝑖 dưới điều kiện 𝜃 Chúng ta muốn suy luận một vài tính chất của𝜃 trên cơ sở dữ liệu y Trong phân tích Bayes, mô hình thông số 𝜃 là một vector ngẫu nhiên Chúng ta giả định rằng 𝜃 có phân phối xác suất 𝑝(𝜃) = 𝜋(𝜃) Bởi vì cả 𝜃 và y đều ngẫu nhiên, ta có thể áp dụng định lý Bayes (1) để tính toán phân phối hậu nghiệm (posterior distribution) của 𝜃 với dữ liệu y cho trước

𝑚(𝑦) (2) trong đó: 𝑚(𝑦) ≡ 𝑝(𝑦), được gọi là phân phối biên (marginal distribution)của y, được xác định bởi

Phân phối biên 𝑚(𝑦) trong phương trình (3) không phụ thuộc vào tham số 𝜃, do đó chúng ta có thể rút gọn (2) thành:

Phương trình (4) là ý tưởng cơ bản trong phân tích Bayes, nó hàm ý rằng phân phối hậu nghiệm của các tham số mô hình tỷ lệ thuận với hàm khả năng và phân phối xác suất tiên nghiệm của chúng Chúng ta thường chuyển đổi phương trình (4) sang dạng log nhằm giúp cho việc tính toán thuận tiện hơn ln{𝑝(𝜃|𝑦)} = 𝑙(𝜃|𝑦) + ln{𝜋(𝜃)} − 𝑐 trong đó l (.;.) biểu thị hàm khả năng của mô hình Tùy thuộc vào quá trình phân tích liên quan đến hàm log hậu nghiệm (log-posterior) ln{p(𝜃|𝑦)}, giá trị của hằng số 𝑐 = ln{𝑚(𝑦)}có thể phù hợp hoặc không Tuy nhiên, để phân tích thống kê là vững, chúng ta sẽ luôn giả định rằng c là hữu hạn

1.4.2 Thông tin tiên nghiệm (prior information)

Trong phân tích Bayes, để tìm kiếm sự cân bằng giữa thông tin tiên nghiệm dưới dạng kiến thức chuyên môn hoặc niềm tin và bằng chứng từ dữ liệu có sẵn

9 Đạt được sự cân bằng phù hợp là một trong những nhiệm vụ khó khăn trong việc lập mô hình và suy luận theo cách tiếp cận Bayes Nói chung, chúng ta không nên để thông tin tiên nghiệm lấn át các bằng chứng thu được từ dữ liệu, đặc biệt khi chúng ta thu thập được một mẫu dữ liệu lớn Theo định lý Bernstein – von Mises nổi tiếng, với dữ liệu có số lượng quan sát lớn, phân phối hậu nghiệm cơ bản là độc lập với phân phối tiên nghiệm, do vậy, các suy luận Bayes dựa trên hàm hợp lý tối đa nhìn chung sẽ có kết quả giống nhau Mặt khác, chúng ta cần phải có thông tin tiên nghiệm đủ mạnh để hỗ trợ bằng chứng yếu thường đến từ những bộ dữ liệu có số lượng quan sát ít Nhằm đảm bảo thông tin tiên nghiệm là hợp lý, chúng ta nên tiến hành phân tích độ nhạy để kiểm tra mức độ biến động của phân phối hậu nghiệm với các thông tin tiên nghiệm được lựa chọn

Tính linh hoạt của việc tự do lựa chọn thông tin tiên nghiệm luôn là vấn đề gây ra nhiều tranh cãi và nhiều nhà nghiên cứu thực nghiệm cho rằng phân tích Bayes mang tính chủ quan Đây cũng là lý do giải thích cho việc các nhà nghiên cứu thực nghiệm theo trường phái Bayes, đặc biệt là giai đoạn ban đầu, luôn sử dụng tiên nghiệm phi thông tin (noninformative priors), còn được gọi là tiên nghiệm phẳng (flat prior), có nghĩa chúng ta sẽ gán xác suất bằng nhau cho tất cả các khả năng có thể có của không gian tham số với mục đích khắc phục vấn đề chủ quan Một trong những nhược điểm của flat prior là chúng thường không phù hợp; nghĩa là, chúng không chỉ định một phân phối xác suất chính thống (legitimate probability distribution) Ví dụ: sử dụng phân phối tiên nghiệm đều (a uniform prior) cho một tham số liên tục trên một miền không giới hạn không thể lấy tích phân cho một số hữu hạn Tuy nhiên, điều này không nhất thiết phải là một vấn đề quan trọng vì phân hậu nghiệm tương ứng vẫn có thể phù hợp Mặc dù suy diễn Bayes dựa trên các tiên nghiệm phi thông tin, nhưng điều này tương đương với việc loại bỏ hàm log 𝜋(𝜃) và giá trị hằng số c trong phương trình (5), do vậy diễn giải Bayes lúc này chỉ dựa trên hàm khả năng và làm mất đi các lợi thế của phương pháp Bayes Điều này giải thích tại sao các nhà nghiên cứu thường hạn chế đến mức tối đa việc sử dụng tiên nghiệm phi thông tin Trong những năm gần đây, ngày càng có nhiều nhà nghiên cứu ủng hộ việc sử dụng thông tin tiên nghiệm mạnh (sound

10 informative priors), ví dụ, Thompson (2014) Ví dụ, lĩnh vực như di truyền học, việc sử dụng thông tin tiên nghiệm là bắt buộc, với phân phối tiên nghiệm có cơ sở vững chắc và phản ánh kiến thức khoa học

Một phương pháp lựa chọn thông tin tiên nghiệm thuận tiện được ưu thích đó là phân phối liên hợp (Nếu các xác suất phân phối hậu nghiệm p cùng họ phân phối xác suất với phân phối xác suất tiên nghiệm p(θ), thì phân phối trước và sau được gọi là phân phối liên hợp, và phân phối tiên nghiệm được gọi là liên hợp tiên nghiệm đối với hàm khả năng p) Sự lựa chọn này giúp thỏa mãn cả quan điểm kỹ thuật và tính toán mà không nhất thiết phải cung cấp một phân phối thực tế (realistic representation) của thông số mô hình Tuy nhiên, do xác suất phân phối hậu nghiệm phải cùng họ với hàm phân phối xác suất tiên nghiệm, do vậy phân phối liên hợp có những hạn chế nhất định, xu hướng sử dụng chúng quá mức đã hạn chế nghiêm trọng tính linh hoạt của mô hình Bayes

1.4.3 Ước lượng điểm và ước lượng khoảng

Trong thống kê Bayes, suy luận về tham số dựa trên phân phối hậu nghiệm xác suất có điều kiện p(θ|y) Để tóm tắt phân phối này, có thể sử dụng ước lượng điểm và khoảng.

Công cụ ước lượng điểm thường được sử dụng là giá trị trung bình hậu nghiệm

𝐸(𝜃|𝑦) = ∫ 𝜃𝑝(𝜃|𝑦)𝑑𝜃 và trung vị hậu nghiệm, 𝑞 0.5 (𝜃) là 0,5 quantile (quantile là các điểm cắt chia phạm vi phân bố xác suất thành các khoảng liên tục với xác suất bằng nhau) của phân phối hậu nghiệm

𝑃{𝜃 ≤ 𝑞 0.5 (𝜃|𝑦)} = 0.5 Một công cụ ước lượng điểm khác là yếu vị hậu nghiệm (posterior mode), là giá trị của 𝜃 dẫn đến tối đa hóa xác suất 𝑝(𝜃|𝑦)

11 Ước tính khoảng (Interval estimation) được thực hiện bằng cách xây dựng khoảng cái gọi là khoảng tin cậy (credible intervals-CRI) CRI là những trường hợp đặc biệt của vùng tin cậy (credible regions) Gọi 1 − 𝛼 ∈ (0,1) là một giá trị tin cậy được xác định trước Sau đó, một khoảng {(1 − 𝛼) × 100}% tập hợp đáng tin cậy

Chúng ta xem xét hai loại CRI Khoảng đầu tiên dựa trên quantile Khoảng thứ hai là khoảng mật độ hậu nghiệm (highest posterior density - HPD) cao nhất

Một khoảng {(1 − 𝛼) × 100}% quantile-based) hoặc còn được gọi là equal- tailed CRI, được xác định (𝑞 𝛼/2; 𝑞 1−𝛼/2 ), trong đó 𝑞 𝑎 biểu thị cho quantile thứ a của phân phối hậu nghiệm equal-tailed CRI thường được sử dụng là (𝑞 0.025 , 𝑞 0.975 )

Khoảng độ tin cậy cao nhất (HPD) được xác định là {(1 - α) x 100}% khoảng tin cậy của chiều rộng nhỏ nhất HPD là khoảng có mật độ hậu nghiệm đạt mức độ tập trung cao nhất Với phân bố hậu nghiệm đơn phương thức, HPD là duy nhất, còn với phân bố đa phương thức, HPD có thể không duy nhất Các phương pháp tính toán HPD được mô tả trong Chen và Shao (1999) và Eberly và Casella (2003).

1.4.4 So sánh các mô hình Bayesian

So sánh mô hình là một khía cạnh quan trọng khác của thống kê Bayes Chúng ta thường quan tâm đến việc so sánh hai hoặc nhiều mô hình phù hợp với dữ liệu của chúng ta

ỨNG DỤNG PHÂN TÍCH BAYES CƠ BẢN

Hồi quy tuyến tính Bayes với tiên nghiệm phi thông tin (noninformative prior)

Bây giờ chúng ta sẽ tiến hành hồi quy tuyến tính Bayes cho ví dụ trên Để tiến hành hồi quy Bayes, chúng ta cần chỉ định hàm khả năng (likelihood function) và các phân phối tiên nghiệm cho tất cả các tham số của mô hình Mô hình tuyến tính Bayes của chúng ta có bốn tham số: ba hệ số hồi quy và phương sai của dữ liệu Chúng ta giả định kết quả hậu nghiệm npl tuân theo quy luật phân phối chuẩn và bắt đầu với tiên nghiệm phi thông tin Jeffreys cho các tham số Theo tiên nghiệm Jeffreys, phân phối tiên nghiệm của các hệ số và phương sai tỷ lệ với nghịch đảo của phương sai

𝜎 2 trong đó, X là ma trận quan sát của chúng ta; β = (β 0 , β 𝑔𝑟𝑜𝑢𝑝 , β 𝑠𝑖𝑧𝑒 )′ là vector hệ số hồi quy

Chúng ta sử dụng lệnh bayesmh để tiến hành hồi quy mô hình Bayesian của chúng ta

Trước khi đến với lệnh cụ thể, chúng ta sẽ xem xét một số khía cạnh kỹ thuật của mô hình Đặc tả của lệnh hồi quy trong bayesmh giống như trong bất kỳ lệnh hồi quy Stata nào khác - tên của biến phụ thuộc sẽ theo sau lệnh bayesmh các vị trí tiếp theo là các hiệp biến quan tâm Hàm khả năng được chỉ định thông qua tùy chọn likelihood( ) phân phối trước được chỉ định tại tùy chọn prior( ) các tùy chọn prior có thể lặp lại cho các hiệp biến quan tâm

Tất cả các tham số mô hình phải được chỉ định trong dấu ngoặc nhọn { }; bayesmh tự động tạo các tham số được liên kết với hàm hồi quy — hệ số hồi quy

— nhưng bạn có trách nhiệm xác định các tham số mô hình còn lại Trong ví dụ của chúng ta, tham số duy nhất chúng ta cần xác định là tham số phương sai, {var} Ba hệ số hồi quy {npl: group}, {npl: size} và {npl: cons} được bayesmh tạo tự động Bước cuối cùng là xác định hàm khả năng và các phân phối tiên nghiệm bayesmh cung cấp một số bản phân phối tích hợp sẵn khác nhau cho hàm khả năng

Trong mô hình hồi quy Bayesian, ta xác định phân phối chuẩn cho likelihood với tham số phương sai cố định Tiếp đó, ta gán tiên nghiệm Flat cho các hệ số hồi quy và tiên nghiệm Jeffreys cho tham số phương sai, với mật độ 1/𝜎2, để yêu cầu tính ổn định của mô hình.

Lựa chọn thông tin là vấn đề khó khăn nhất trong phân tích Bayes, chúng ta sẽ bàn đến vấn đề này trong một cuốn sách khác

Bây giờ chúng ta hãy chạy lệnh bayesmh với phương pháp lấy mẫu bước ngẫu nhiên MH MCMC, để ước tính phân phối cận biên hậu nghiệm của các tham số Lệnh của chúng ta sẽ có dạng như sau: bayesmh npl group size, likelihood(normal({var})) prior({npl:}, flat) prior({var}, jeffreys) var 0000813 0000426 2.5e-06 0000715 0000317 0001939

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = 29.399454 max = 02817 avg = 01207

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size _cons} ~ 1 (flat) (1)

Priors: npl ~ normal(xb_npl,{var})

Do hồi quy Bayes được tiến hành thông qua quá trình chuỗi MCMC, do vậy các bạn có thể thu được các kết quả khác nhau sau mỗi lần chạy, tuy nhiên khác biệt này là không quá đáng kể Đầu tiên, bayesmh cung cấp một bản tóm tắt cho mô hình được chỉ định Nó đặc biệt hữu ích cho các mô hình phức tạp với nhiều tham số và siêu tham số Tiếp theo, bayesmh cung cấp một tiêu đề với các tóm tắt mô hình khác nhau ở phía bên tay phải Nó báo cáo tổng số lần lặp lại MCMC, 12.500, bao gồm 2.500 lần lặp mặc định được loại bỏ (burn-in) khỏi mẫu MCMC và số lần lặp được giữ lại trong mẫu MCMC hoặc kích thước mẫu MCMC, theo mặc định là 10.000

Tỷ lệ chấp nhận và tóm tắt về hiệu quả của thông số cụ thể là một phần khác của tiêu đề Tỷ lệ chấp nhận chỉ định tỷ lệ các giá trị tham số đề xuất đã được thuật toán chấp nhận Tỷ lệ chấp nhận là 0,2925 trong ví dụ của chúng ta có nghĩa là 29,25% trong số 10.000 giá trị thông số đề xuất đã được thuật toán chấp nhận Đối với thuật toán MH, con số này hiếm khi vượt quá 50% và thường dưới 30% Tỷ lệ chấp nhận thấp (ví dụ: dưới 10%) có thể cho thấy các vấn đề về hội tụ Như vậy, tỷ lệ chấp nhận của ví dụ chúng ta là tương đối cao Nhìn chung, MH có xu hướng có hiệu quả thấp hơn so với các phương pháp MCMC khác Ví dụ: hiệu quả từ 10% trở lên được coi là tốt Hiệu quả dưới 1% có thể là một nguồn đáng lo ngại Khi hiệu quả là thấp, chúng ta có thể cân nhắc điều chỉnh trình lấy mẫu MCMC của mình Chúng ta có thể thực hiện cải thiện vấn đề này thông qua blocking tham số, phương pháp này sẽ được đề cập tại phần sau cuốn sách

Cuối cùng, bayesmh xuất một bảng báo cáo tóm tắt kết quả Cột Mean (Trung bình) cho biết các ước tính của giá trị trung bình hậu nghiệm, tức trung bình của các phân phối hậu nghiệm biên của các tham số (phân phối biên của một tập hợp con của tập hợp các biến ngẫu nhiên là phân phối xác suất của các biến có trong tập hợp con Nó đưa ra xác suất của các giá trị khác nhau của các biến trong tập hợp con mà không cần tham chiếu đến các giá trị của các biến khác) Các ước tính trung bình hậu nghiệm khá gần với các ước tính thu được từ hồi quy OLS, điều này có thể giúp ta kỳ vọng chuỗi MCMC sẽ hội tụ khi chúng ta sử dụng tiên nghiệm phi thông tin để tiến hành hồi quy Bayes

Kết quả hồi quy OLS

Cột tiếp theo của hồi quy Bayes báo cáo ước tính về độ lệch chuẩn hậu nghiệm, là độ lệch chuẩn của phân phối hậu nghiệm biên Các giá trị này mô tả sai số trong phân phối hậu nghiệm của tham số và có thể so sánh với các sai số chuẩn trong hồi quy OLS Độ chính xác của các ước lượng trung bình hậu nghiệm được đo lường bằng sai số chuẩn Monte Carlo của chúng Những con số này phải nhỏ so với quy mô của các tham số Chúng ta có thể cải thiện giá trị này thông qua gia tăng kích cỡ chuỗi MCMC

Cột Trung vị cung cấp các ước tính về trung vị của phân phối hậu nghiệm và có thể được sử dụng để đánh giá tính đối xứng của phân bố hậu nghiệm Qua đánh giá nhanh có thể thấy các ước lượng của giá trị trung bình và giá trị trung vị của các hệ số hồi quy khá gần nhau, vì vậy chúng ta kỳ vọng các phân phối hậu nghiệm của chúng có thể là đối xứng

Hai cột cuối cùng cung cấp khoảng tin cậy Bayes (credible intervals) của các tham số Khác với khoảng tin cậy phương pháp tần suất (confidence intervals), khoảng tin cậy của Bayes thể hiện mật độ xác suất hậu nghiệm của tham số, nó cung cấp một khoảng xác suất rõ ràng hơn so với phương pháp tần suất Ví dụ: xác suất để hệ số hồi quy của biến size nằm trong khoảng từ -0.0157 đến 0.0009 là khoảng 0,95 Giới hạn trên của khoảng tin cậy Bayes rất gần với 0, vì vậy chúng ta có thể kết luận rằng gia tăng quy mô ngân hàng có tác động làm giảm tỷ lệ nợ xấu

_cons 1667628 0749401 2.23 0.053 -.0027634 336289 group 0088742 0078116 1.14 0.285 -.0087968 0265453 size -.0079247 0040593 -1.95 0.083 -.0171074 0012581 npl Coefficient Std err t P>|t| [95% conf interval]

Source SS df MS Number of obs = 12

Hồi quy Bayes với tiên nghiệm có thông tin

Hồi quy Bayes tại 2.1 được thực hiện với tiên nghiệm phi thông tin cho các tham số Điểm mạnh (và cũng là điểm yếu) của mô hình Bayes là có thể chỉ định phân phối tiên nghiệm đầy đủ thông tin, điều này có thể cải thiện kết quả Điểm mạnh là nếu chúng ta có kiến thức đáng tin cậy trước đó về phân phối của một tham số, việc kết hợp điều này vào mô hình của chúng ta sẽ cải thiện kết quả và có khả năng thực hiện các phân tích mà phương pháp tần suất không thực hiện được Điểm yếu của Bayes là nếu không có thông tin tiên nghiệm phù hợp thì có thể dẫn đến kết quả bị thiên lệch

Chúng ta sẽ tiến hành hồi quy với thông tin tiên nghiệm sau:

𝜎 2 ~ InvGamma (2,5; 2,5) Để đơn giản, chúng ta giả định rằng tất cả các hệ số được là phân phối độc lập, tuân theo quy luật phân phối chuẩn với giá trị trung bình bằng 0 và phương sai 𝜎 2 , phân phối tham số phương sai tuân có dạng phân phối gamma nghịch đảo Trong thực tế, mỗi tham số khác nhau nên có thông tin tiên nghiệm về phương sai khác nhau, ít nhất là đối với các tham số có các thang đo khác nhau

Bây giờ chúng ta sẽ tiến hành hồi quy Bayes theo tiên nghiệm trên, theo đó chúng ta chỉ định phân phối chuẩn N(0, {var}) cho thông tin tiên nghiệm cho các hệ số và phân phối Gamma nghịch đảo igamma (2.5, 2.5) trước cho phương sai Câu lệnh sẽ có dạng bayesmh npl group size, likelihood(normal({var})) prior({npl:}, normal(0, {var})) prior({var}, igamma(2.5, 2.5))

Hồi quy tuyến tính Bayes đa thông tin

Tiếp tục với các thông tin tiên nghiệm, chúng ta sẽ xem xét tiên nghiệm Zellner’s g-prior (Zellner 1986), đây là một trong những tiên nghiệm được sử dụng phổ biến cho các hệ số hồi quy trong một hồi quy tuyến tính Quay trở lại ví dụ trên với biến bổ sung là biến tương tác giữa biến age và biến group

Công thức toán học của các tiên nghiệm như sau:

𝜎 2 ~ InvGamma(ѵ 0 ⁄2, ѵ 0 𝜎 0 2 ⁄ 2) trong đó g phản ánh kích thước mẫu tiên nghiệm, ѵ 0 là bậc tự do tiên nghiệm cho phân phối gamma nghịch đảo, 𝜎 0 2 là phương sai tiên nghiệm cho phân phối gamma var 3342262 1233504 005443 3081315 1656805 6376226

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -11.338328 max = 07085 avg = 0606

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size _cons} ~ normal(0,{var}) (1)

Priors: npl ~ normal(xb_npl,{var})

34 nghịch đảo Chúng ta sử dụng các giá trị của các tham số tương tự như trong Hoff (2009): 𝑔 = 12, ѵ 0 = 1 và 𝜎 0 2 = 8) Đối số đầu tiên là số chiều của phân phối, trong ví dụ của chúng ta là 3, đối số thứ hai là bậc tự do trước, trong ví dụ này và đối số là 12 cuối cùng là tham số phương sai, là {var} trong thí dụ Giá trị trung bình được giả định là một vectơ không có thứ nguyên tương ứng bayesmh npl group size, likelihood(normal({var})) prior({npl:}, zellnersg0(3,12,{var})) prior({var}, igamma(0.5, 4))

Những kết quả này phù hợp với kết quả hồi quy Bayes của 2.1 hơn của 2.2, nhưng tỷ lệ chấp nhận thấp và cần phải điều tra thêm.

Chuẩn đoán hội tụ

Chúng ta có thể sử dụng lệnh bayesgraph để kiểm tra trực quan hội tụ chuỗi MCMC của các ước tính tham số Bayesgraph cung cấp nhiều loại đồ thị, ví dụ: chúng ta xem xét chẩn đoán đồ họa cho hệ số group Lệnh chuẩn đoán hội tụ bằng đồ thị thực hiện như sau: bayesgraph diagnostics {npl:group} var 7050131 3046248 021483 6316182 3314988 1.506648

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -17.406536 max = 0694 avg = 05506

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size _cons} ~ zellnersg(3,12,0,{var}) (1)

Priors: npl ~ normal(xb_npl,{var})

Các chẩn đoán được hiển thị bao gồm biểu đồ vết, biểu đồ tự tương quan, biểu đồ phân phối và ước tính mật độ hạt nhân của chuỗi MCMC Cả biểu đồ vết và biểu đồ tự tương quan đều chứng tỏ sự tự tương quan của chuỗi MCMC là thấp, hình dạng của biểu đồ vết là đồng nhất, không thể hiện nhiều xu hướng Chúng ta có thể kết luận không có vấn đề hội tụ trong hồi quy Bayes trong ví dụ này

Tương tự, chúng ta có thể xem xét chẩn đoán cho các thông số mô hình khác Để xem tất cả các biểu đồ cùng một lúc, chúng ta sử dụng lệnh: bayesgraph diagnostics _all

Các kết quả khác trong phân tích Bayes là kích thước mẫu hiệu quả và số liệu thống kê liên quan đến chúng Để trích xuất kết quả này, chúng ta sử dụng lệnh: bayesstats ess

Các ước tính của ESS càng gần với kích thước mẫu MCMC, thì mẫu MCMC càng ít tương quan và các ước tính của chúng ta về các tham số càng chính xác Thực tế, gần như không có trường hợp các ước tính của ESS càng gần với kích thước mẫu MCMC trong thuật toán MH, tuy nhiên nếu các giá trị này dưới 1% của kích thước mẫu MCMC thì đây chính là một dấu hiệu cảnh báo Trong ví dụ này, ESS của {var} hơi thấp, vì vậy chúng ta cần xem xét việc cải thiện hiệu quả lấy mẫu của nó Chúng ta có thể thực hiện việc này thông qua Blocking {var} Thông thường, bạn nên tách hệ số hồi quy và phương sai trong hai khối riêng biệt

Thời gian tương quan cho thấy độ trễ tự tương quan trong mẫu MCMC Thời gian tương quan của hệ số từ 29 đến 36, trong khi phương sai cao hơn là 37 Điều này chỉ ra hiệu quả thấp hơn của MCMC đối với phương sai, đòi hỏi phải có nghiên cứu sâu hơn.

ESS Corr time Efficiency max = 0694 avg = 05506 Efficiency: min = 02011Efficiency summaries MCMC sample size = 10,000

Biểu đồ chuẩn đoán hội tụ cho thấy Để khắc phục cập nhật tham số phương sai một cách riêng biệt với các hệ số hồi quy bằng cách đặt tham số phương sai trong một khối riêng biệt Chúng ta sẽ thực hiện điều này thông qua lệnh bayesmh npl group size, likelihood(normal({var})) prior({npl:}, zellnersg0(3,12,{var})) prior({var}, igamma(0.5, 4)) block({var})

Tỷ lệ chấp nhận và hiệu quả của chúng ta hiện đã cao hơn Các chuỗi MCMC hiện đang pha trộn tốt hơn nhiều Chúng ta có thể xem xét việc tăng kích thước mẫu MCMC mặc định để hạ thấp mức độ tự tương quan thấp hơn nữa

Chúng ta có thể kiểm tra lại biểu đồ chuẩn đoán hội tụ của tham số group và var thông qua lệnh: bayesgraph diagnostics {npl:group} {var} var 7406099 3241765 011955 6640351 3286438 1.558305

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -17.049738 max = 07474 avg = 07348

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size _cons} ~ zellnersg(3,12,0,{var}) (1)

Priors: npl ~ normal(xb_npl,{var})

Tóm tắt kết quả hậu nghiệm

Có thể sử dụng hàm bayesstats để tạo bảng tóm tắt kết quả hậu nghiệm cho các tham số mô hình Cụ thể, ta có thể tính ước lượng hệ số chuẩn hóa cho biến nhóm, là 𝛽̂ nhóm × 𝜎 𝑋 ⁄𝜎 𝑌, trong đó 𝜎 𝑋 và 𝜎 𝑌 lần lượt là độ lệch chuẩn mẫu của các tham số nhóm và npl Do nhóm và size có thang đo khác nhau, cần chuẩn hóa hệ số để so sánh tác động của chúng đến npl Để chuẩn hóa, cần tạo tổ hợp sizegroup bằng cách chạy lại lệnh 2.4 và tạo tổ hợp này bằng lệnh: bayesmh npl nhóm size, likelihood(normal({var})) prior({npl:}, zellnersg0(3,12,{var})) prior({var}, igamma(0.5, 4)) block({var}) saving(sizegroup_simdata) estimates store sizegroup

40 Để tính toán độ lệch chuẩn của mẫu và lưu chúng trong các tỷ lệ vô hướng tương ứng, chúng ta sử dụng lệnh summarize group scalar sd_x = r(sd)

Tương tự cho biến size summarize size scalar sd_y = r(sd) file sizegroup_simdata.dta saved. var 7330655 3321807 014262 6537271 3324997 1.54211

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -17.065348 max = 08541 avg = 07481

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size _cons} ~ zellnersg(3,12,0,{var}) (1)

Priors: npl ~ normal(xb_npl,{var})

scalar sd_x = r(sd) group 12 25 452267 0 1 Variable Obs Mean Std dev Min Max

Tương tự cho biến npl summarize npl scalar sd_z = r(sd)

Hệ số chuẩn hóa là một biểu thức của tham số mô hình {change: group}, vì vậy chúng ta chỉ định nó trong dấu ngoặc đơn Như vậy, chúng ta sẽ tiến hành chuẩn hóa cho tham số group thông qua lệnh bayesstats summary (group_std:{npl:group}*sd_x/sd_z) Ước tính trung bình hậu nghiệm của hệ số group chuẩn hóa là -1.99 với khoảng tin cậy 95% là [-86,02; 82,12]

Tương tự chúng ta sẽ tiến hành chuẩn hóa cho tham số size thông qua lệnh bayesstats summary (group_std:{npl:size}*sd_y/sd_z)

Như vậy, group có tác động đến npl mạnh hơn so với size

Variable Obs Mean Std dev Min Max

scalar sd_z = r(sd) npl 12 0200432 0088579 0057625 03125 Variable Obs Mean Std dev Min Max group_std -1.992522 41.50072 1.42004 -2.358159 -86.01986 82.11532 Mean Std dev MCSE Median [95% cred interval]

Equal-tailed group_std : {npl:group}*sd_x/sd_z

Posterior summary statistics MCMC sample size = 10,000 group_std 3561316 40.92034 1.45241 -1.612476 -79.4291 80.69677

Mean Std dev MCSE Median [95% cred interval]

Equal-tailed group_std : {npl:size}*sd_y/sd_z

Posterior summary statistics MCMC sample size = 10,000

So sánh mô hình

Giống phương pháp tần suất, trong cách tiếp cận Bayes, chúng ta có thể sử dụng các tiêu chí thông tin khác nhau để so sánh các mô hình khác nhau Phương pháp Bayes, các mô hình có thể được so sánh với nhau rất linh hoạt: bạn có thể so sánh các mô hình với các phân phối khác nhau cho kết quả, bạn có thể so sánh các mô hình với các giá trị gốc khác nhau, bạn có thể so sánh các mô hình với các dạng khác nhau cho hàm hồi quy và hơn thế nữa Điều kiện duy nhất đó là các mô hình nghiên cứu phải có cũng dữ liệu nghiên cứu như nhau

Bây giờ chúng ta sẽ so sánh mô hình rút gọn và mô hình đầy đủ với biến bổ sung trong mô hình đầy đủ là biến tương tác sizegroup Chúng ta vẫn tiếp tục sử dụng phân phối tiên nghiệm Zellner’s g-prior cho các hệ số hồi quy và gamma nghịch đảo cho phương sai Chúng ta sẽ thực hiện sô sánh mô hình thông qua phân tích nhân tố Bayes (Bayes Factor)

Lưu ý, để so sánh, các mô hình cần phải được lưu lại thông qua tùy chọn saving(filename_simdata) và lưu trữ thông qua lệnh estimates store filename bayesmh npl group size sizegroup, likelihood(normal({var})) prior({npl:}, zellnersg0(4,12,{var})) prior({var}, igamma(0.5, 4)) block({var}) saving(full_simdata)

Chúng ta có thể sử dụng lệnh bayesstats ic để so sánh các mô hình Chúng ta liệt kê tên của các kết quả ước lượng tương ứng theo sau tên lệnh bayesstats ic full sizegroup

Theo phân tích nhân tố Bayes, mô phỏng thông tin tiên nghiệm được lựa chọn tối ưu sẽ có giá trị trung bình của Log BF (Nhân tố Bayes) và Log ML (Khả năng cận biên) cao nhất, trong khi giá trị trung bình của DIC (Tiêu chí sai lệch thông tin) nhỏ nhất Dựa trên bảng báo cáo, mô hình full_simdata.dta saved đáp ứng các tiêu chuẩn này.

Note: Adaptation tolerance is not met in at least one of the blocks. var 6967587 2983274 010856 6283932 3273512 1.467969

_cons 7219719 7.434843 500899 7729597 -14.64185 16.40267 sizegroup -.111086 4.864292 168839 -.0412556 -9.582823 9.616815 size -.0374636 4028009 027376 -.0452494 -.8799164 7888096 group 2.253278 96.45696 3.34496 7621633 -190.13 189.8151 npl

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -18.5603 max = 08315 avg = 05707

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_npl.

{npl:group size sizegroup _cons} ~ zellnersg(4,12,0,{var}) (1)

Priors: npl ~ normal(xb_npl,{var})

Burn-in using Laplace–Metropolis approximation.

Note: Marginal likelihood (ML) is computed sizegroup 22.22704 -17.06535 1.494953 full 22.94349 -18.5603 DIC log(ML) log(BF) Bayesian information criteria

44 hình sizegroup có tiêu DIC, log(ML) và log(BF) tốt hơn, điều này cho thấy mô hình 2 có lợi thế hơn tuy nhiên ưu thế của mô hình này chưa phải vượt trội, do vậy chúng ta cần phân tích sâu hơn thông qua so sánh xác suất hậu nghiệm của hai mô hình thông qua bayestest model bayestest model full sizegroup

Thông qua so sánh xác suất hậu nghiệm hai mô hình, ta thấy mô hình rút gọn sizegroup có xác suất hậu nghiệm P(M|y) cao hơn, do vậy có thể khẳng định mô hình rút gọn diễn giải kết quả Bayes tốt hơn

Sau khi so sánh xong các mô hình, hãy xóa các tệp đã lưu để quá trình phân tích diễn ra thuận lợi hơn Sử dụng lệnh "erase sizegroup_simdata.dta" để xóa tệp "sizegroup_simdata.dta" và lệnh "erase full_simdata.dta" để xóa tệp "full_simdata.dta".

Dự báo Bayes (chỉ có thể thực hiện trên bản Stata 16 trở lên)

Việc phân tích chuẩn đoán hội tụ bằng hình ảnh và Grubin chỉ cho thấy đặc tính của chuỗi MCMC chứ chưa nói lên được mức độ phù hợp (fit) của mô hình với biến quan sát, do vậy chúng ta cần tiến hành kiểm định dự báo hậu nghiệm Dự đoán Bayes rất hữu ích để kiểm tra sự phù hợp của mô hình và dự đoán các quan sát trong tương lai

Phân tích Bayes dựa trên các giả định rằng các tham số mô hình là các đại lượng ngẫu nhiên được phân phối theo một số niềm tin trước đó (thông tin tiên nghiệm) và dữ liệu quan sát được là cố định Mục tiêu chính của suy luận Bayes là ước tính phân phối hậu nghiệm của các tham số mô hình thông qua việc kết hợp niềm tin trước đó với bằng chứng từ dữ liệu quan sát và hình thành các suy luận

Note: Marginal likelihood (ML) is computed using sizegroup -17.0653 0.5000 0.8168 full -18.5603 0.5000 0.1832 log(ML) P(M) P(M|y) Bayesian model tests

Ước tính giá trị kết quả trong tương lai là một trong những mục tiêu của kiểm định dự đoán hậu nghiệm Các dự đoán Bayes đóng vai trò thiết yếu trong nhiều ứng dụng, bao gồm dự báo tối ưu, phân loại tối ưu, hỗ trợ dữ liệu bị thiếu và kiểm tra độ phù hợp của mô hình.

Dự báo của Bayes khác với dự báo của phương pháp tần suất Dự báo theo phương pháp tần suất là một hàm xác định của các tham số mô hình ước tính Ví dụ, trong một hồi quy tuyến tính, công cụ dự đoán tuyến tính là sự kết hợp tuyến tính của các hệ số hồi quy ước tính và các hiệp biến quan sát, được sử dụng để dự đoán các giá trị của kết quả liên tục Mặt khác, các dự đoán Bayes là các hàm của các kết quả được mô phỏng và do đó nó là các đại lượng ngẫu nhiên Kết quả được mô phỏng là các giá trị kết quả mới được tạo ra từ cái gọi là “phân phối dự báo hậu nghiệm”, chúng ta sẽ thảo luận thuật ngữ này trong phần tiếp theo

Phân phối dự báo tiên nghiệm và hậu nghiệm

Trước khi dữ liệu y được quan sát, phân phối của y là

Hàm phân phối xác suất cận biên của y, ký hiệu là 𝑝(y), có thể được tính bằng tích phân hàm khả năng 𝑝(y|𝜃) nhân với hàm phân phối xác suất của 𝜃 và tích phân theo 𝜃, tức là: ∫ 𝑝(y, 𝜃)𝑑𝜃 = ∫ 𝑝(y|𝜃)𝑝(𝜃)𝑑𝜃.

Giả sử rằng y obs là dữ liệu được quan sát và y = y new là dữ liệu mới, chưa được quan sát (trong tương lai) Phân phối dự báo hậu nghiệm của y new là

𝑝(y new |y obs ) = ∫ 𝑝( y new |𝜃)𝑝(𝜃|y obs )𝑑𝜃 (2) trong đó 𝑝(𝜃|y obs ) là phân phối hậu nghiệm của 𝜃 Bạn có thể xem phân phối dự đoán hậu nghiệm (2) là phân phối dự đoán tiên nghiệm (1) được cập nhật lại sau khi quan sát dữ liệu y obs

Giống như phân phối hậu nghiệm của các tham số mô hình, phân phối dự đoán 𝑝(y new |y obs ) là một dạng tích phân không giới hạn, do vậy rất khó tính toán mà

46 phải tính xấp xỉ Mục tiêu của dự đoán Bayes là mô phỏng dữ liệu từ 𝑝(y new |y obs ) Chúng ta sẽ coi những dữ liệu này là kết quả mô phỏng, y sim

Công thức (2) cung cấp một phương pháp mô phỏng các giá trị kết quả mới thông qua quy trình hai bước Đầu tiên, thông số mô hình 𝜃 ∗ được mô phỏng từ phân phối hậu nghiệm 𝑝(𝜃|y obs ) của chúng Sau đó, các giá trị kết quả mới y sim được mô phỏng từ hàm khả năng 𝑝(y sim |𝜃 ∗ ) Bằng cách sử dụng các tham số mô hình được mô phỏng từ bước 1 Hai bước này được lặp lại với số lần lặp lại MCMC được chỉ định trước, T Kết quả là một mẫu MCMC của các kết quả được mô phỏng, (y sim, 1 , y sim, 2 , y sim, 3 , …, y sim, T Mẫu này được sử dụng để ước tính phân phối dự đoán hậu nghiệm

Như vậy, không giống như dự đoán tần suất, tạo ra một giá trị duy nhất cho mỗi quan sát, dự đoán Bayes tạo ra một mẫu các giá trị được mô phỏng T cho mỗi quan sát Nếu bạn có n quan sát trong tập dữ liệu, kết quả của một dự đoán Bayes sẽ là một ma trận 𝑇 × 𝑛 (cho mỗi kết quả hoặc biến phụ thuộc) Do đó, các dự đoán của Bayes thường được tính toán cho một tập hợp con các quan sát hoặc cho các tóm tắt khác nhau về các quan sát như trung bình, lượng tử, giá trị tối thiểu và tối đa, v.v Đôi khi, một mẫu nhỏ hơn 𝑅 ≪ 𝑇 Bản sao MCMC của các kết quả được mô phỏng sẽ được sử dụng để khám phá sự phân bố hậu nghiệm của các kết quả được mô phỏng Trong các trường hợp khác, các tóm tắt hậu nghiệm về các bản sao MCMC chẳng hạn như các trung bình và trung vị hậu nghiệm của các kết quả mô phỏng được quan tâm

Kiểm định dự báo hậu nghiệm và tái tạo bản sao kết quả

Ngoài việc dự đoán các quan sát trong tương lai, dự báo Bayes cũng rất hữu ích trong việc kiểm định sự phù hợp mô hình Việc kiểm định mô hình được thực hiện thông qua kiểm tra dự báo hậu nghiệm, quá trình này sẽ so sánh các đặc điểm khác nhau của phân phối dự đoán hậu nghiệm với các đặc điểm quan sát được trong dữ liệu Khái niệm về dữ liệu được sao chép (replicated data) hoặc các kết quả được sao chép (replicated outcomes) xuất hiện khi chúng ta kiểm tra dự báo hậu nghiệm cho các mô hình hồi quy Trong thiết lập hồi quy, phân phối dự báo hậu nghiệm phụ thuộc vào ma trận hiệp phương sai dữ liệu 𝑋, 𝑝(y new |y obs ) 47

𝑝(y new |y obs , X) Ma trận dữ liệu X có thể chứa các giá trị quan sát được sử dụng để phù hợp với mô hình Bayes, X obs , hoặc giá trị mới X new Các kết quả được lặp lại là các kết quả được mô phỏng từ phân phối dự đoán hậu nghiệm 𝑝(y new |y obs , 𝑋 obs ), sử dụng dữ liệu hiệp biến quan sát được Nói cách khác, các kết quả được sao chép là những kết quả mà chúng ta sẽ quan sát được nếu chúng ta lặp lại thử nghiệm của mình một lần nữa Chúng ta sẽ biểu thị kết quả lặp lại là y rep Kết quả được lặp lại còn được gọi là dự đoán trong mẫu, trong khi kết quả được mô phỏng bằng cách sử dụng dữ liệu hiệp biến mới, X new , được gọi là dự đoán ngoài mẫu Các dự đoán ngoài mẫu có thể được sử dụng để dự báo và xác nhận sự phù hợp của mô hình Trong trường hợp thứ hai, dữ liệu được chia thành subsamples training (mẫu con được huấn luyện) và subsamples test (mẫu con kiểm định): subsamples training được sử dụng để phù hợp (fit) với mô hình Bayesian và subsamples test được sử dụng để đánh giá độ chính xác dự đoán của mô hình

Kiểm tra dự báo hậu nghiệm được thực hiện bằng cách so sánh phân phối (hoặc các khía cạnh nhất định của nó) của dữ liệu được sao chép với dữ liệu quan sát được Điều này có thể được thực hiện trực quan bằng cách kiểm tra biểu đồ và biểu đồ lượng tử Phổ biến hơn, ta có thể thực hiện các phép đo khác biệt như thống kê trung bình, tối thiểu và tối đa được tính toán cho dữ liệu sao chép và cho dữ liệu quan sát bằng cách sử dụng các giá trị p dự báo hậu nghiệm Điều quan trọng là nhận ra sự khác biệt giữa các kiểm tra chẩn đoán MCMC và kiểm tra dự báo hậu nghiệm Kiểm tra chẩn đoán MCMC giúp ta biết các thuộc tính của lấy mẫu MCMC, trong khi kiểm tra dự báo hậu nghiệm giúp ta biết được mô tả dữ liệu quan sát tốt như thế nào Để thực hành phân tích dự báo Bayes hậu nghiệm, chúng ta sẽ quay lại thí nghiệm của ví dụ về bệnh truyền nhiễm hiếm gặp của Hoff(2009) mà chúng ta đã phân tích mô hình nhị thức Beta trong chương 1 Một mẫu ngẫu nhiên nhỏ gồm 20 đối tượng từ một thành phố được xét nghiệm nghi nhiễm và không quan sát thấy ai bị nhiễm Tham số được quan tâm 𝜃, 𝜃 𝜖 [0, 1], là tỷ lệ cá thể bị nhiễm bệnh trong thành phố Kết quả y là số đối tượng bị nhiễm bệnh trong mẫu 20 người Do đó, phân phối lấy mẫu cho kết quả y được giả định là phân phối nhị thức,

𝑦|𝜃~binomial (20, 𝜃) Dữ liệu quan sát của chúng ta chứa một quan sát là 0 vì chúng ta không quan sát thấy bất kỳ đối tượng bị nhiễm bệnh nào trong mẫu của chúng ta Chúng ta có thể dễ dàng tạo các dữ liệu này trong Stata như sau: set obs 1 generate byte y = 0

CÁC DẠNG MÔ HÌNH HỒI QUY THEO CÁCH TIẾP CẬN BAYES CƠ BẢN

Hồi quy Logistic theo Bayes (Bayesian Logistic regression)

Để nghiên cứu hồi quy Logistic theo Bayes, chúng ta sẽ sử dụng tập dữ liệu debt.xlsx đánh giá các yếu tố ảnh hưởng đến rủi ro tín dụng của 27 doanh nghiệp trên địa bàn thành phố Hồ Chí Minh Dữ liệu bao gồm các biến số sau:

Rủi ro tín dụng (risk) nhận giá trị là 1 nếu doanh nghiệp đang có nợ nhóm 2,

3, 4, 5 tại các ngân hàng thương mại, nhận giá trị là 0 nếu doanh nghiệp đang có nợ nhóm 1 tại các ngân hàng thương mại

Khả năng thanh toán nhanh (quick) được đo lường bằng tỷ lệ giữa tài sản ngắn hạn (đã loại trừ hàng tồn kho) so với nợ ngắn hạn của doanh nghiệp

Tỷ lệ nợ phải trả trên vốn chủ sở hữu (debt)

Lợi nhuận ròng trên vốn chủ sở hữu bình quân (roe)

Kinh nghiêm quản lý (expr) được đo lường bằng số năm quản lý của chủ doanh nghiệp

Bộ dữ liệu có thể tải tại đây:

Chúng ta có thể mô tả dữ liệu describe

Mục đích của nghiên cứu là tìm hiểu mối quan hệ giữa rủi ro tín dụng với các yếu tố: Khả năng thanh toán nhanh (quick), Tỷ lệ nợ phải trả trên vốn chủ sở hữu (debt), Lợi suất ròng trên vốn chủ sở hữu bình quân (roe) và Kinh nghiệm quản lý (expr) Để đạt được mục tiêu này, phương pháp hồi quy logistic chuẩn được thực hiện bằng lệnh logit risk quick debt roe expr.

Note: Dataset has changed since last saved.

Sorted by: expr byte %8.0g roe float %8.0g debt float %8.0g quick float %8.0g risk byte %8.0g name type format label Variable label

Note: 1 failure and 3 successes completely determined.

_cons -.4354262 4.354891 -0.10 0.920 -8.970856 8.100004 expr 0589676 5850204 0.10 0.920 -1.087651 1.205587 roe -81.63161 140.9113 -0.58 0.562 -357.8126 194.5494 debt 8.071142 8.623498 0.94 0.349 -8.830603 24.97289 quick -5.256306 5.612353 -0.94 0.349 -16.25632 5.743705 risk Coefficient Std err z P>|z| [95% conf interval]

Logistic regression Number of obs = 27

Trong mô hình này chúng ta gặp phải vấn đề đa cộng tuyến và giảm số quan sát vì dự đoán hoàn hảo Kết quả là, các hệ số hồi quy tương ứng với các biến số về cơ bản không có ý nghĩa thống kê Phân tích logit tiêu chuẩn trong trường hợp này bị hạn chế vì kích cỡ mẫu tương đối nhỏ

Tiếp theo, chúng ta sẽ xem xét hồi quy Bayes với cùng tập dữ liệu này Chúng ta tiến hành hồi quy logistic bằng cách sử dụng bayesmh và áp dụng tiên nghiệm gần như là phi thông tin với phân phối chuẩn N (0; 10000) cho tất cả các tham số hồi quy bayesmh risk quick debt roe expr, likelihood(logit) prior({risk:}, normal(0,10000))

Các ước tính hậu nghiệm trung bình của of {risk:quick}, {risk:debt}, {risk:roe}, and {risk: cons} là quá lớn

Nếu chúng ta giảm độ lệch chuẩn thông tin tiên nghiệm xuống 10 lần, chúng ta quan sát thấy rằng quy mô của các ước tính giảm theo cùng một độ lớn

Note: There is a high autocorrelation after 500 lags.

_cons 2.195719 8.583707 1.81059 1.210037 -11.5926 21.31436 expr -.9012631 1.281938 238275 -.7045127 -3.928006 8930481 roe -70.52595 70.24091 15.7058 -68.54221 -217.2652 53.32245 debt 22.23246 11.73597 2.13911 21.6813 3.42425 46.9125 quick -13.85756 7.486883 1.03412 -13.35225 -30.39657 -2.073251 risk Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -18.166749 max = 005242 avg = 003079

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_risk.

{risk:quick debt roe expr _cons} ~ normal(0,10000) (1)

Prior: risk ~ logit(xb_risk)

69 bayesmh risk quick debt roe expr, likelihood(logit) prior({risk:}, normal(0,100))

Do vậy, chúng ta có thể kết luận rằng các tham số hồi quy có độ nhạy cao đối với việc lựa chọn các giá trị tiên nghiệm và thang đo của chúng không thể được xác định bằng dữ liệu đơn lẻ Nói cách khác, các thông số mô hình này không thể xác định được nếu chỉ dựa một hàm khả năng Kết luận này phù hợp với kết quả của hồi quy logit cơ bản

Chúng ta có thể xem xét sử dụng bộ dữ liệu cordebt.xlsx của Lê Hoàng Anh và Mai Bình Dương (2015) vì nó có các thuộc tính tương tự như nghiên cứu hiện tại Bộ dữ liệu này có thể được tải xuống từ đường dẫn được cung cấp.

_cons 3.890041 4.587613 281757 3.655199 -4.558724 13.70313 expr -.924767 6523291 038357 -.858666 -2.351017 1801107 roe -1.974187 9.462512 535098 -1.858919 -19.97094 15.79209 debt 9.352197 4.69747 252121 8.829888 2.118133 19.79223 quick -5.892698 3.200367 190184 -5.568487 -12.99544 -.6831767 risk Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -11.655259 max = 03471 avg = 02995

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_risk.

{risk:quick debt roe expr _cons} ~ normal(0,100) (1)

Prior: risk ~ logit(xb_risk)

Chúng ta cũng sử dụng hồi quy bayesmh với các tiên nghiệm phi thông tin cho cordebt.xlsx và thu được các ước tính trung bình hậu nghiệm cho các tham số hồi quy bayesmh risk quick debt roe expr, likelihood(logit) prior({risk:}, normal(0,100))

Với thông tin bổ sung này, chúng ta có thể tạo ra nhiều thông tin cơ bản hơn cho 5 thông số quan tâm — chúng ta tập trung vào {risk:quick} với phân phối N(- 5,4), {risk:debt} với phân phối N(6,4), {risk:roe} với phân phối N(-11,49), {risk:expr} với phân phối N(-2,1), và {risk:_cons} với phân phối N(9,16) Như vậy câu lệnh cho ví dụ của chúng ta như sau bayesmh risk quick debt roe expr, likelihood(logit) prior({risk:quick}, normal( -5,4)) prior({risk:debt}, normal(6,4)) prior({risk:roe}, normal(-11,49)) prior({risk:expr}, normal(-2,1)) prior({risk:_cons}, normal(9,16))

_cons 8.836843 3.885206 144794 8.550491 2.103634 17.03942 expr -1.60754 61163 023676 -1.524161 -2.916521 -.6121312 roe -10.7899 7.003388 410617 -10.74185 -25.70727 1.794299 debt 6.060001 1.917262 103562 5.802542 3.062508 10.48165 quick -4.676611 1.792842 09878 -4.485216 -8.483769 -1.700555 risk Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -21.355647 max = 072 avg = 04701

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_risk.

{risk:quick debt roe expr _cons} ~ normal(0,100) (1)

Prior: risk ~ logit(xb_risk)

Bây giờ chúng ta thu được các kết quả hợp lý hơn, cũng tương đồng với các kết quả của Lê Hoàng Anh và Mai Bình Dương (2015) Đối với phân tích cuối cùng, chúng ta có thể xem xét các bộ dữ liệu bệnh tim khác để xác minh tính hợp lý của các thông số tiên nghiệm này của chúng ta và để kiểm tra độ nhạy của các thông số với các thông tin tiên nghiệm trước đó khác

Hồi quy Mixed-effects logistic

Ví dụ dữ liệu từ cuộc điều tra tỷ suất sinh ở Bangladesh năm 1989 (Huq và Cleland 1990) được phân tích bằng mô hình hồi quy logistic Trong đó, biến phản hồi c_use được mô tả dựa trên các biến cố định (urban, age, child) và một biến ngẫu nhiên (district) Mô hình này cho thấy sự khác biệt về tỷ lệ sử dụng biện pháp tránh thai ở các khu vực khác nhau.

Chúng ta sử dụng tùy chọn reffects( ) để chỉ định biến tác động ngẫu nhiên district Các tham số tác động ngẫu nhiên tương ứng {c_use:i.district} được chỉ định tiên nghiệm có phân phối chuẩn có trung bình bằng 0 với phương sai {district:var}

_cons 8.310299 3.008405 1154 8.354167 2.351626 14.3578 expr -1.471623 4946694 019014 -1.44583 -2.454953 -.5257444 roe -11.42291 6.797652 270256 -11.53309 -24.76198 2.163708 debt 6.340957 1.632654 080804 6.304866 3.223823 9.758445 quick -4.754486 1.374502 06149 -4.76438 -7.42482 -2.013858 risk Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood = -7.0825498 max = 06796 avg = 05794

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_risk.

Priors: risk ~ logit(xb_risk)

72 thông tin tiên nghiệm tương đối yếu normal (0, 100) được áp dụng cho các tham số tác động cố định {c_use:urban}, {c_use:age}, {c_use:child*}, và {c_use: cons} tham số phương sai {district:var} được gán với tiên nghiệm phi thông tin igamma(0.01, 0.01) và cách lấy mẫu Gibbs được sử dụng cho nó Để thực hành với dữ liệu, ta gõ câu lệnh trên stata use https://www.stata-press.com/data/r16/bangladesh Để thực hiện hồi quy chúng ta sẽ gõ lệnh set seed 14 bayesmh c_use urban age child*, likelihood(logit) reffects(district) prior({c_use:i.district}, normal(0,{district:var})) prior({c_use:urban age child* _cons}, normal(0, 100)) prior({district:var}, igamma(0.01,0.01)) block({district:var}, gibbs)

Mặc dù hiệu suất trung bình 0,03 không phải là cao nhưng không có dấu hiệu cho các vấn đề hội tụ Chúng ta có thể kiểm chứng thông qua biểu đồ chuẩn đoán hội tụ bayesgraph diagnostics _all

Hồi quy Probit thứ bậc

Hồi quy probit thứ bậc và logit thứ bậc thích hợp để lập mô hình các biến phản hồi thứ tự Bạn có thể thực hiện phân tích Bayes về một kết quả thứ tự bằng cách chỉ định hàm khả năng oprobit hoặc ologit Ngoài các hệ số hồi quy trong các mô var 7883405 1629664 013155 7702844 5245053 1.158099 district

_cons -2.392141 1466759 012123 -2.38987 -2.693918 -2.114821 children 3491118 2.595152 164406 4261787 -4.536137 5.268181 child3 3757766 7.786313 493439 150796 -14.41566 14.87531 child2 6953894 5.193458 329626 5987734 -9.199891 10.47416 child1 7916376 2.60349 165179 7167644 -4.11921 5.640862 age -.0293507 0083398 000657 -.0292693 -.0461193 -.0135803 urban 6564717 1151361 007739 6604857 4246681 8813127 c_use

Mean Std Dev MCSE Median [95% Cred Interval]

Log marginal-likelihood = -1391.1511 max = 02492 avg = 02097

Metropolis-Hastings and Gibbs sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_c_use.

{c_use:i.district} ~ normal(0,{district:var}) (1)

Priors: c_use ~ logit(xb_c_use)

Simulation 10000 1000 2000 3000 4000 5000 Burn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

BayesMS tự động đề xuất các tham số đại diện cho các điểm cắt của một công cụ dự đoán tuyến tính Các tham số điểm cắt sẽ được khai báo theo dạng {tên_biến_phản_hồi: cut1}, {tên_biến_phản_hồi: cut2},

Trong ví dụ tiếp theo, chúng ta sẽ xem xét dữ liệu về sửa chữa xe ô tô và mô hình hóa biến thứ tự rep77, bản ghi nhận sửa chữa, các biến độc lập là oreign, length, và mpg Biến rep77 có 5 mức, vì vậy các tham số điểm cắt là {rep77: cut1}, {rep77: cut2}, {rep77: cut3} và {rep77: cut4} Các biến độc lập đều dương, vì vậy sẽ là hợp lý khi sử dụng tiên nghiệm hàm mũ cho các tham số điểm cắt Cấp số nhân tiên nghiệm được kiểm soát bởi một siêu tham số {lambda} Dựa trên phạm vi của các yếu tố dự đoán độc lập, chúng ta chỉ định {lambda} có tiên nghiệm phân phối uniform trong phạm vi 10 đến 40 Chúng ta gán tiên nghiệm có phân phối chuẩn N (0; 1) cho các hệ số hồi quy Để tải dữ liệu, ta nhập vào stata câu lệnh use https://www.stata-press.com/data/r16/fullauto bayesmh rep77 foreign length mpg, likelihood(oprobit) prior({rep77: foreign length mpg}, normal(0,1)) prior({rep77:_cut1 _cut2 _cut3 _cut4}, exponential({lambda0})) prior({lambda}, uniform(10,40)) block(lambda) dots

Khoảng tin cậy hậu nghiệm cho thấy foreign, length, và mpg là một trong những yếu tố giải thích cho rep77 Dựa trên MCSE, các ước tính trung bình hậu nghiệm của chúng khá chính xác Ước tính trung bình hậu nghiệm của các điểm cắt, như dự kiến, không chính xác bằng Giá trị trung bình hậu nghiệm ước tính cho {lambda} là 18,52

Chúng ta đã đặt siêu tham số {lambda} trong một khối riêng biệt vì mục đích lấy mẫu tham số phức tạp này độc lập so với các tham số mô hình còn lại.

Note: There is a high autocorrelation after 500 lags. lambda 21.76839 7.776813 180861 20.40241 10.67956 37.92088

_cut1 13.09562 1.661638 496271 13.32837 10.05156 15.82848 mpg 1678911 0256322 005391 1678505 1178424 2173581 length 0581917 0070848 002043 0593121 0443153 0700636 foreign 1.802833 335838 040705 1.805137 1.127549 2.43547 rep77

Mean Std Dev MCSE Median [95% Cred Interval]

Log marginal-likelihood = -106.79492 max = 1849 avg = 02495

Random-walk Metropolis-Hastings sampling Burn-in = 2,500

Bayesian ordered probit regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_rep77.

{rep77:_cut1 _cut4} ~ exponential({lambda})

{rep77:foreign length mpg} ~ normal(0,1) (1)

Priors: rep77 ~ oprobit(xb_rep77,{rep77:_cut1 _cut4})

Simulation 10000 1000 2000 3000 4000 5000 Burn-in 2500 aaaaaaaaa1000aaaaaaaaa2000 done

Dựa trên biểu đồ phân tán hai biến, tham số này dường như độc lập với các tham số khác của mô hình

Tương tự như bất kỳ phân tích MCMC nào, chúng ta nên xác minh sự hội tụ của tất cả các thông số Tuy nhiên, ở đây chúng ta chỉ hiển thị biểu đồ chuẩn đoán hội tụ cho tham số được quan tâm nhất là {lambda}.

Các biểu đồ chẩn đoán cho thấy tham số {lambda} đạt tiêu chuẩn về yêu cầu hội tụ

Trong lần chạy thứ hai này, chúng ta nhận thấy rằng hiệu suất lấy mẫu tối thiểu là dưới 1% vì vậy MCMC có thể không hội tụ Ví dụ: sai số chuẩn MCMC được báo cáo cho {district: var} là khoảng 0,014, cao hơn ba lần so với sai số tương ứng là 0,004 trong lần chạy trước đó Do vậy, kết quả từ lần chạy cuối cùng này không đáng tin cậy.

Hồi quy dữ liệu bảng với mô hình phân tích đa tầng

Two level random intercept model or panel data model var 7883405 1629664 013155 7702844 5245053 1.158099 district

_cons -2.392141 1466759 012123 -2.38987 -2.693918 -2.114821 children 3491118 2.595152 164406 4261787 -4.536137 5.268181 child3 3757766 7.786313 493439 150796 -14.41566 14.87531 child2 6953894 5.193458 329626 5987734 -9.199891 10.47416 child1 7916376 2.60349 165179 7167644 -4.11921 5.640862 age -.0293507 0083398 000657 -.0292693 -.0461193 -.0135803 urban 6564717 1151361 007739 6604857 4246681 8813127 c_use

Mean Std Dev MCSE Median [95% Cred Interval]

Log marginal-likelihood = -1391.1511 max = 02492 avg = 02097

Metropolis-Hastings and Gibbs sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_c_use.

{c_use:i.district} ~ normal(0,{district:var}) (1)

Priors: c_use ~ logit(xb_c_use)

Simulation 10000 1000 2000 3000 4000 5000 6000 7000.Burn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

Thach và Ngoc (2021) đã phân tích một tập dữ liệu bảng bao gồm 10 quốc gia ASEAN nhằm xem xét tác động của tự do kinh tế đến vấn đề tham nhũng tại các quốc gia này Mỗi quốc gia được xác định thông qua nhóm biến id

Bộ dữ liệu được tải tại đây:

Mô hình hai cấp sau đây được xem xét:

Mô hình hồi quy tác động ngẫu nhiên được sử dụng để nghiên cứu mối quan hệ giữa chỉ số nhận thức tham nhũng (PCI) và chỉ số tự do thương mại (Trade) Trong đó, PCI được xem là biến phụ thuộc, còn Trade đóng vai trò là biến độc lập Mô hình này sử dụng phương pháp ước lượng tối đa hóa giá trị kỳ vọng (maximum likelihood) để ước lượng các tham số mô hình.

LR test vs linear model: chibar2(01) = 467.14 Prob >= chibar2 = 0.0000 var(Residual) 1550453 0170197 1250318 1922635 var(_cons) 4.276282 2.023389 1.691637 10.80999 id: Identity

Random-effects parameters Estimate Std err [95% conf interval]

_cons 3.312166 740272 4.47 0.000 1.861259 4.763072 trade 0099863 003681 2.71 0.007 0027716 0172009 pci Coefficient Std err z P>|z| [95% conf interval]

Wald chi2(1) = 7.36 max = 24 avg = 19.4 min = 5

Group variable: id Number of groups = 9

Mixed-effects ML regression Number of obs = 175

Xem xét mô hình Bayesian sau đây cho những dữ liệu sau: pci 𝑖𝑗 = 𝛽 0 + 𝛽 1 𝑡𝑟𝑎𝑑𝑒 𝑖𝑗 + 𝑢 𝑗 + 𝜖 𝑖𝑗

Mô hình có bốn tham số chính cần quan tâm: hệ số hồi quy 𝛽 0 , 𝛽 1 và phương sai 𝜎 0 2 , 𝜎 𝑢 2 nhân tố ngẫu nhiên 𝑢 𝑗 được coi là các tham số trở ngại (nuisance parameters) Chúng ta sử dụng phân phối chuẩn làm thông tin tiên nghiệm cho các hệ số hồi quy và yếu tố tác động ngẫu nhiên và phân phối gamma nghịch đảo là tiên nghiệm cho các tham số phương sai Các thông tin tiên nghiệm được lựa chọn gần như là phi thông tin, do vậy ta kỳ vọng kết quả thu được cũng tương tự như phương pháp tần suất Để tiến hành hồi quy mô hình bayesmh chúng ta cần đưa các nhân tố ngẫu nhiên đối với lợn vào mô hình hồi quy của mình Điều này có thể được thực hiện đơn giản bằng cách yếu tố thêm vào danh sách các biến các yếu tố tác động ngẫu nhiên U[id]

Ngoài hai hệ số hồi quy và hai thành phần phương sai, chúng ta có 10 tham số tác động ngẫu nhiên Đối với các yếu tố khác của mô hình, bayesmh sẽ tự động tạo các tham số của hàm hồi quy {pci: trade} cho hệ số hồi quy của trade và {pci:_cons} cho hằng số Nó cũng sẽ tạo các tham số hiệu ứng ngẫu nhiên {U:1 id}, {U:2 id}, , {U:10 id} và thành phần phương sai tương ứng {var_U} Vì vậy, chúng ta chỉ cần tạo một tham số còn lại cho phương sai Chúng ta sẽ sử dụng {var_0} để khớp với ký hiệu toán học của chúng ta

Trong ví dụ này, chúng ta sẽ tiến hành phân tích năm mô phỏng cho mô hình Bayes được chỉ định để minh họa một số khó khăn chung khi áp dụng MH MCMC đa tầng

3.3.1 Mô phỏng đầu tiên — phương pháp lấy mẫu MH mặc định

Trong mô phỏng đầu tiên, chúng ta sử dụng mô phỏng mặc định của thuật toán MH Chúng ta có nhiều tham số trong mô hình của mình, vì vậy quá trình mô phỏng có thể sẽ mất một ít thời gian Tuy nhiên, với mục đích chỉ mô tả cho ví dụ này, chúng ta có thể đẩy nhanh kết quả bằng cách chỉ sử dụng quy mô chuỗi MCMC là 5.000 thay vì như mặc định là 10.000 Để theo dõi tiến trình của mô phỏng, chúng ta cũng chỉ định dots Và sử dụng tùy chọn rseed ( ) để chỉ định phân phối ngẫu nhiên thay vì set seed bayesmh pci trade U[id], likelihood(normal({var_0})) prior({pci:_cons}, normal(0, 100)) prior({pci:trade}, normal(0, 100)) prior({var_0}, igamma(0.001, 0.001)) prior({var_U}, igamma(0.001, 0.001)) mcmcsize(5000) dots rseed(14)

Kết quả báo cáo của bayesmh tương tự như kết quả từ phương pháp sử dụng maximum likelihood, nhưng hiệu suất tối thiểu trong trường hợp này khá thấp var_U 1.085917 2157205 075311 1.09129 6466739 1.513035 var_0 175688 040227 011161 1645027 1312342 2996461

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood max = 002598 avg = 001862

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 7,500

(1) Parameters are elements of the linear form xb_pci.

Priors: pci ~ normal(xb_pci,{var_0})

Burn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

83 thấp, chỉ đạt 0,001 cho thấy mô hình Bayes đang gặp vấn đề với sự hội tụ MCMC đối với một số tham số

Chúng ta sử dụng bayesstats ess để xác định tham số mô hình có hiệu quả thấp nhất bayesstats ess

Tham số {pci:_cons} có hiệu quả thấp nhất, 0.0014

Bây giờ chúng ta sẽ xem xét biểu đồ chuẩn đoán hội tụ của tham số {pci:_cons} bayesgraph diagnostics {pci:_cons} var_U 8.20 609.40 0.0016 var_0 12.99 384.86 0.0026

ESS Corr time Efficiency max = 002598 avg = 001862

Efficiency summaries MCMC sample size = 5,000

Chúng ta thấy rằng biểu đồ vết thể hiện nhiều xu hướng và không cho thấy sự trộn lẫn tốt do vậy mức độ tự tương quan cao Chuỗi MCMC của chúng ta dường như không hội tụ và do đó chúng ta nên thận trọng về kết quả thu được

Chúng ta cũng có thể xem các biểu đồ vết và biểu đồ tự tương quan của tất cả các tham số chính bayesgraph trace _all, byparm(cols(2))

Biểu đồ theo dõi của tất cả các tham số dường như không có bất kỳ xu hướng nào bayesgraph ac _all, byparm

Biểu đồ tự tương quan cho thấy tham số {pci:trade}, hằng số {pci:_cons} và các thành phần phương sai {var_0}, {var_U} đều có mức độ tự tương quan khá cao 3.3.2 Mô phỏng thứ hai — blocking các tham số

Tiếp tục ví dụ trên, chúng ta sẽ cố gắng cải thiện hiệu quả của thuật toán MH bằng cách blocking các tham số mô hình thành các khối để lấy mẫu một cách độc lập Chúng ta xem xét một khối riêng biệt cho mỗi tham số mô hình; các tham số hiệu ứng ngẫu nhiên sẽ cùng một khối riêng biệt Chúng ta cũng chỉ định nomodelsummary để loại bỏ tóm tắt mô hình của bayesmh Để blocking các tham số, chúng ta có thể chỉ định tùy chọn block ( ) riêng biệt cho từng tham số hoặc nhóm tất cả các tham số trong một tùy chọn block ( ) và sử dụng tùy chọn con (sub- option) split của block ( ) bayesmh pci trade U[id], likelihood(normal({var_0})) prior({pci:_cons}, normal(0, 100)) prior({pci:trade}, normal(0, 100)) prior({var_0}, igamma(0.001, 0.001)) prior({var_U}, igamma(0.001, 0.001)) block({pci:} {var_0 var_U}, split) mcmcsize(5000) dots rseed(14) nomodelsummary

Blocking đã giúp cải thiện hiệu quả: hiệu suất trung bình hiện là 0,05, nhưng hiệu quả tối thiểu vẫn còn thấp var_U 7.364246 4.359845 391871 6.222825 2.36798 18.58589 var_0 1575804 0173772 000588 1567375 1259063 1936591

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood max = 1747 avg = 0509

Random-walk Metropolis–Hastings sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 7,500

Simulation 5000 1000 2000 3000 4000 5000 doneBurn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

Biểu đồ vết và biểu đồ tự tương quan dưới đây cho thấy sự cải thiện đối với các thành phần phương sai nhưng không cải thiện đối với hệ số hồi quy bayesgraph trace _all, byparm(cols(2)) bayesgraph ac _all, byparm

3.3.3 Mô phỏng thứ ba — lấy mẫu Gibbs

Quy trình MCMC hiệu quả nhất cho mô hình Bayes là lấy mẫu Gibbs, cách lấy mẫu này có thể được thiết lập như sau Để yêu cầu lấy mẫu Gibbs cho một khối

87 tham số mô hình, trước tiên chúng ta phải xác định tiên nghiệm trong một câu lệnh prior ( ) riêng biệt và sau đó đặt chúng trong một khối block ( ) riêng biệt với tùy chọn con (suboption) là split gibbs bayesmh pci trade U[id], likelihood(normal({var_0})) prior({pci:_cons}, normal(0, 100)) prior({pci:trade}, normal(0, 100)) prior({var_0}, igamma(0.001, 0.001)) prior({var_U}, igamma(0.001, 0.001)) block({pci:} {var_0 var_U}, split gibbs) mcmcsize(5000) dots rseed(14) nomodelsummary

Hiệu suất trung bình chuỗi tăng đột biến lên 0,42 nhưng hiệu suất tối thiểu vẫn còn thấp

Chúng ta có thể kiểm tra lại các ô chẩn đoán để biết các thông số nào của mô hình đang thiếu hiệu quả bayesgraph trace _all, byparm(cols(2)) var_U 5.867224 3.658157 053163 4.935743 2.158509 15.32535 var_0 1579363 0176631 00029 1566845 1273093 1957365

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood max = 947 avg = 4245

Metropolis–Hastings and Gibbs sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 7,500

Simulation 5000 1000 2000 3000 4000 5000 doneBurn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

Các tham số mô hình đa cấp tuyến tính thỏa mãn tiêu chuẩn hội tụ ngoại trừ hằng số Có thể cải thiện khả năng trộn của mô hình bằng cách sử dụng lấy mẫu Gibbs cho các hiệu ứng ngẫu nhiên.

0.001)) prior({var_U}, igamma(0.001, 0.001)) block({pci:} {var_0 var_U}, split gibbs) block({U}, gibbs) mcmcsize(5000) dots rseed(14) nomodelsummary

Mô hình đường cong tăng trưởng — một mô hình hệ số chặn ngẫu nhiên 93 3.5 Hiệp phương sai phi cấu trúc cho các tác động ngẫu nhiên

từ Two level random intercept model or panel data model, chúng ta mở rộng mô

Mô hình chặn ngẫu nhiên bổ sung thêm yếu tố nhiễu ngẫu nhiên vào mô hình hồi quy, thể hiện qua hai tham số: tác động ngẫu nhiên của quốc gia (𝑢 0𝑗) và hệ số ngẫu nhiên của quốc gia trong từng năm (𝑢 1𝑗 𝑦𝑒𝑎𝑟 𝑖𝑗) Những tham số này giúp tính đến các yếu tố không thể quan sát được có thể ảnh hưởng đến biến phụ thuộc.

Cấu trúc hiệp phương sai độc lập cho các tác động ngẫu nhiên

Trước tiên chúng ta sẽ giả định rằng, các yếu tố ngẫu nhiên của u0j và u1j là độc lập Chúng ta có thể sử dụng mixed để tiến hành hồi quy tần suất mixed pci trade || id: year

Chúng ta xem xét mô hình Bayes cho dữ liệu sau

LR test vs linear model: chi2(2) = 467.14 Prob > chi2 = 0.0000 var(Residual) 1550475 0170212 1250315 1922693 var(_cons) 4.275181 2.022613 1.691399 10.80595 var(year) 5.13e-17 4.51e-16 1.67e-24 1.57e-09 id: Independent

Random-effects parameters Estimate Std err [95% conf interval]

_cons 3.312157 74019 4.47 0.000 1.861411 4.762903 trade 0099864 003681 2.71 0.007 0027717 0172011 pci Coefficient Std err z P>|z| [95% conf interval]

Wald chi2(1) = 7.36 max = 24 avg = 19.4 min = 5

Group variable: id Number of groups = 9

Mixed-effects ML regression Number of obs = 175

Mô hình có năm tham số chính được quan tâm: hệ số hồi quy 𝛽 0 và 𝛽 1 và thành phần phương sai 𝜎 0 2 ; 𝜎 𝜏0 2 và 𝜎 𝜏1 2 là các siêu tham số về mặt kỹ thuật vì chúng được chỉ định làm tham số trung bình của các phân phối tiên nghiệm cho các tác động ngẫu nhiên của 𝜏 𝑜𝑗 và 𝜏 1𝑗 Tác động ngẫu nhiên của 𝜏 𝑜𝑗 và 𝜏 1𝑗 được coi là tham số phiền toái (nuisance parameters - Một tham số phải được hạch toán vào các hoạt động thống kê, nhưng điều đó không có liên quan hoặc có ý nghĩa với mục tiêu của phân tích thông số phiền toái có thể can thiệp vào việc phân tích các thông số quan tâm, nhưng cũng có thể trở thành thông số của bản thân quan tâm nếu họ trở thành tâm điểm của phân tích) Chúng ta tiếp tục sử dụng các phân phối chuẩn cho các hệ số hồi quy và hiệu ứng ngẫu nhiên; và các phân phối gamma nghịch đảo cho các tham số phương sai Chúng ta chỉ định phi thông tin cho các tiên nghiệm trong ví dụ này

Chúng ta tiến hành hồi quy mô hình này bằng cách sử dụng bayesmh, mô hình bao gồm các hiệu ứng ngẫu nhiên đối với pci và sự tương tác của chúng với trade Với tác động ngẫu nhiên, chúng ta thêm các lệnh chặn ngẫu nhiên cho biến id như T0[id] và chúng ta bao gồm các hệ số ngẫu nhiên vào trade dưới dạng c.trade#T1[id], trong đó T0 và T1 ứng với 𝜏 𝑜 và 𝜏 1

Chúng ta sẽ hồi quy mô hình bằng cách sử dụng bayesmh Trong ví dụ này, chúng ta thực hiện block các tham số và sử dụng lấy mẫu Gibbs cho các khối Để ngắn gọn, chúng tôi cũng kết hợp các thông số kỹ thuật tương tự trước đó trong một lệnh nhưng sử dụng chỉ định con prior( ) split để tiếp tục xử lý các tham số từ cùng một prior( ) trong câu lệnh như các khối riêng biệt trong quá trình mô phỏng

Câu lệnh được thực hiện như sau: bayesmh pci T0[id] c.trade#T1[id], likelihood(normal({var_0})) noconstant prior({T0[id]}, normal({pci:_cons}, {var_T0})) prior({T1[id]}, normal({pci:trade}, {var_T1})) prior({pci:trade _cons}, normal(0, 1e2) split) prior({var_0 var_T0 var_T1}, igamma(0.001, 0.001) split) block({var_0 var_T0 var_T1}, gibbs split) block({pci:}, gibbs split) block({T0}, gibbs) block({T1}, gibbs) mcmcsize(5000) rseed(17) dots notable

AR (acceptance rate – tỷ lệ chấp nhận) của chúng ta tốt và hiệu quả cao, do vậy chúng ta không có lý do để nghi ngờ sự không hội tụ Tuy nhiên, điều quan trọng là phải thực hiện chẩn đoán hội tụ đồ họa để xác nhận điều này Chúng ta đã sử dụng tùy chọn notable để loại bỏ tóm tắt ước tính các hệ số hồi quy để tập trung vào việc kiểm tra sự hội tụ MCMC của thông tin tiên nghiệm và hiển thị lại các hệ số theo mixed

Hãy xem xét các đồ thị chẩn đoán Để ngắn gọn, chúng ta chỉ kiểm định các biểu đồ chẩn đoán cho giá trị trung bình của các lần chặn ngẫu nhiên, nhưng trong

Log marginal-likelihood max = 09771 avg = 04648

Bayesian normal regression MCMC iterations = 7,500

(1) Parameter is an element of the linear form xb_pci.

{T1[id]} ~ normal({pci:trade},{var_T1}) (1)

{T0[id]} ~ normal({pci:_cons},{var_T0}) (1)

Priors: pci ~ normal(xb_pci,{var_0})

Simulation 5000 1000 2000 3000 4000 5000 doneBurn-in 2500 1000 2000 done

97 nghiên cứu thực tế, sự hội tụ phải được thiết lập cho tất cả các tham số trước khi có thể đưa ra bất kỳ suy luận nào bayesgraph diagnostics {pci:_cons}

Các đồ thị chẩn đoán hội tụ có vẻ tốt

Các ước tính trung bình hậu nghiệm của chúng ta về các tham số mô hình chính phù hợp với các kết quả có theo phương pháp hàm khả năng tối đa (maximum likelihood) từ mixed, đúng như kỳ vọng khi chúng ta thực hiện hồi quy với tiên nghiệm phi thông tin bayesstats summary {pci:trade _cons} {var_T1 var_T0 var_0} var_0 1392888 0160445 000858 1380222 1114672 1738369 var_T0 11.62708 10.18738 1.4306 9.102731 2.486609 36.02963 var_T1 0009708 000826 000072 0007607 0002479 0030532

Mean Std dev MCSE Median [95% cred interval]

Posterior summary statistics MCMC sample size = 5,000

3.5 Hiệp phương sai phi cấu trúc cho các tác động ngẫu nhiên

Trong ví dụ này, chúng tôi giả định rằng các tác động ngẫu nhiên 𝜏 𝑜𝑗 và 𝜏 1𝑗 là tương quan với nhau Một lần nữa, chúng ta có thể sử dụng mixed để tiến hành hồi quy mô hình theo cách tiếp cận hàm khả năng tối đa (maximum likelihood) mixed pci trade || id: year, cov(unstructured)

Chúng ta sẽ điều chỉnh mô hình Bayesian trước đó để tính đến mối tương quan giữa các tác động ngẫu nhiên:

LR test vs linear model: chi2(3) = 553.00 Prob > chi2 = 0.0000 var(Residual) 0828228 0093109 0664444 1032384 cov(year,_cons) -4.76456 2.488571 -9.64207 1129496 var(_cons) 9816.582 5123.924 3529.083 27306.04 var(year) 0023129 0012088 0008304 0064421 id: Unstructured

Random-effects parameters Estimate Std err [95% conf interval]

_cons 6.545213 7068849 9.26 0.000 5.159744 7.930682 trade -.011983 0044892 -2.67 0.008 -.0207817 -.0031844 pci Coefficient Std err z P>|z| [95% conf interval]

Wald chi2(1) = 7.13 max = 24 avg = 19.4 min = 5

Group variable: id Number of groups = 9

Mixed-effects ML regression Number of obs = 175

Iteration 9: log likelihood = -71.687175 (not concave)

Iteration 8: log likelihood = -80.623498 (not concave)

Iteration 7: log likelihood = -89.481325 (not concave)

Iteration 6: log likelihood = -112.66082 (not concave)

Iteration 5: log likelihood = -112.74246 (not concave)

Iteration 4: log likelihood = -112.86136 (not concave)

Iteration 3: log likelihood = -113.02008 (not concave)

Iteration 2: log likelihood = -113.18098 (not concave)

Iteration 1: log likelihood = -113.50927 (not concave)

Iteration 0: log likelihood = -113.69887 (not concave)

𝜎 21 2 𝜎 𝜏1 2 ] Các thành phần 𝜎 𝜏0 2 , 𝜎 𝜏1 2 của Σ đại diện cho sai số chuẩn của 𝜏 𝑜𝑗 và 𝜏 1𝑗 , trong khi 𝜎 21 là hiệp phương sai giữa chúng Chúng ta áp dụng phân phối nghịch đảo- Wishart thông tin yếu với bậc tự do là 3 và ma trận đơn vị

Trong phân phối chuẩn đa chiều với hiệp phương sai phi cấu trúc, phương pháp lấy mẫu Gibbs không có sẵn cho các tham số trung bình Do đó, phương pháp này sẽ bị loại khỏi các khối tương ứng trong lệnh `bayesmh`.

Hiệu suất lấy mẫu trung bình đạt khoảng 23% cho thấy không có dấu hiệu cho các vấn đề hội tụ Các ước tính trung bình hậu nghiệm của các thông số mô hình chính gần với kết quả theo phương pháp hàm khả năng tối đa (maximum likelihood) từ lệnh mixed.

Hồi quy logistic đa tầng (Multilevel logistic regression)

Trong phần này chúng ta sẽ sử dụng lại bộ dữ liệu từ nghiên cứu của Lê Hoàng Anh và Mai Bình Dương (2015) Bộ dữ liệu này được kết hợp thêm biến type chứa các thông tin chi tiết về loại hình doanh nghiệp từ hồ sơ tín dụng (gồm 4 loại là: doanh nghiệp tư nhân (nhận giá trị là 1), công ty cổ phần (nhận giá trị là 2), công ty TNHH (nhân giá trị là 3), loại hình khác (nhận giá trị là 4)) Bộ dữ liệu mới newdebt.xlsx có thể được tải tại đây:

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood max = 611 avg = 227

Metropolis–Hastings and Gibbs sampling Burn-in = 2,500

Bayesian normal regression MCMC iterations = 7,500

(1) Parameter is an element of the linear form xb_pci.

{T0[id] T1[id]} ~ mvnormal(2,{pci:_cons},{pci:trade},{Sigma,m}) (1)

Priors: pci ~ normal(xb_pci,{var_0})

Simulation 5000 1000 2000 3000 4000 5000 doneBurn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

Mô hình hồi quy logistic được áp dụng cho biến phụ thuộc risk sử dụng các biến tác động cố định là quick, debt, roe và expr và biến tác động ngẫu nhiên type để giải thích sự khác biệt giữa các loại hình doanh nghiệp

Tương tự mô hình chặn ngẫu nhiên Bayes, mô hình hai cấp sử dụng bayesmh thực hiện như sau Chúng ta bao gồm U[type] trong danh mục các biến để chỉ định các điểm chặn ngẫu nhiên cho nhóm biến type Các tham số tác động ngẫu nhiên tương ứng {U[type]} được chỉ định phân phối chuẩn cho tiên nghiệm trung bình bằng 0 với phương sai {var_U} Phân phối tiên nghiệm ít thông tin Normal (0, 100) được chỉ định cho các tham số hiệu ứng cố định {risk: quick}, {risk: debt}, {risk: roe}, {risk: expr} và {risk: _cons} Thông tin tiên nghiệm của tham số phương sai {var U} được chỉ định bởi phân phối phi thông tin igamma(0.01, 0.01) với cách lấy mẫu Gibbs Để tiến hành hồi quy logistic đa tầng trong ví dụ này chúng ta sử dụng lệnh bayesmh risk quick debt roe expr U[type], likelihood(logit) prior({risk:quick debt roe expr _cons}, normal(0, 100)) prior({var_U}, igamma(0.01,0.01)) block({var_U}, gibbs) dots rseed(17)

Mặc dù hiệu suất trung bình không cao (0,05), nhưng không có dấu hiện nào cho thấy các vấn đề hội tụ Điều này có thể được xác minh thông qua biểu đồ chẩn đoán hội tụ bằng cách sử dụng lệnh bayesgraph diagnostics Các ước tính về các tham số chính trong hồi quy Bayes gần với các ước tính hệ số hồi quy thu được từ lệnh melogit.

Mô hình phi tuyến ba tầng (Three-level nonlinear model)

Chúng tôi xem lại ví dụ trong phân tích ảnh hưởng của guar phụ gia trong chế độ ăn đối với mức đường huyết sau khi uống rượu Tổng cộng có bảy đối tượng tham gia vào nghiên cứu, được xác định bởi biến đối tượng Đường huyết của họ được đo tại các thời điểm được xác định bởi biến time Biến nhị phân Guar xác định các thử nghiệm có và không có phụ gia Để tiếp cận dữ liệu cho nghiên cứu này, chúng ta sử dụng lệnh use https://www.stata-press.com/data/r17/glucose var_U 1.032051 4.587504 184044 1850834 0076452 7.00766

_cons 8.650332 3.580001 151178 8.304505 2.721974 16.65469 expr -1.570774 5648335 025166 -1.521175 -2.906379 -.6782178 roe -11.58341 7.174442 394492 -11.16679 -26.98988 1.487556 debt 6.269255 1.882154 092135 6.014936 3.318165 10.62769 quick -4.72947 1.653258 087113 -4.51373 -8.452083 -1.989746 risk

Mean Std dev MCSE Median [95% cred interval]

Log marginal-likelihood max = 06213 avg = 04657

Metropolis–Hastings and Gibbs sampling Burn-in = 2,500

Bayesian logistic regression MCMC iterations = 12,500

(1) Parameters are elements of the linear form xb_risk.

{risk:quick debt roe expr _cons} ~ normal(0,100) (1)

Priors: risk ~ logit(xb_risk)

Simulation 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 doneBurn-in 2500 aaaaaaaaa1000aaaaaaaaa2000aaaaa done

103 Để có cái nhìn tổng quát về dữ liệu chúng ta sử dụng lệnh describe để mô tả biến

Mức đường dự kiến được phân tích theo một mô hình được đề xuất bởi Hand và Crowder (1996) Đây là một mô hình phi tuyến ba tầng bao gồm các hiệu ứng ngẫu nhiên subject-level U1[subject] và U2[subject] và hiệu ứng ngẫu nhiên guar- within-subject UU1[subject>guar] và UU2[subject>guar] Chúng ta xem xét mô hình với các cặp U1 và U2, và UU1 và UU2 với giả định rằng chúng độc lập Đặc tính hàm khả năng (likelihood) tương tự như đặc tính được sử dụng bởi lệnh menl nhưng được thay bằng bayesmh chúng ta cũng chỉ định các bản phân phối tiên nghiệm cho các thông số mô hình Các hiệu ứng ngẫu nhiên được gán giá trị tiên nghiệm phân phối chuẩn theo mặc định với các thành phần phương sai tương ứng {var_U1}, {var_U2}, {var_UU1} và {var_UU2} Tham số {phi1:_cons}, {phi2:_cons} và {phi3} được gán với tiên nghiệm phân phối chuẩn N (0, 100) và tất cả các thành phần phương sai được chỉ định bởi tiên nghiệm igamma (0.01, 0.01) Lấy mẫu Gibbs được sử dụng cho các thành phần phương sai, và {phi1:_cons}, {phi2:_cons} và {phi3} sẽ được lấy mẫu trong các khối riêng biệt Chúng ta sử dụng tùy chọn define( ) để xác định các tham số {phi1:} và {phi2:} dưới dạng kết hợp tuyến tính của các tác động ngẫu nhiên tương ứng, bao gồm cả hằng số Để có tập trung vào từng vấn đề được quan tâm, chúng ta sẽ loại bỏ bảng ước tính và hiển thị lại kết quả này sau đó bằng cách sử dụng bayesstats summary Mô hình chứa nhiều tham số nên sẽ mất khoảng thời gian để chạy Câu lệnh có dạng sau:

104 bayesmh glucose = ({phi1:} + {phi2:}*c.time#c.time#c.time*exp(- {phi3}*time)), likelihood(normal({var})) define(phi1: U1[subject] UU1[subject>guar]) define(phi2: U2[subject] UU2[subject>guar]) prior({phi1:_cons} {phi2:_cons} {phi3}, normal(0, 100) split) prior({var var_U1 var_UU1 var_U2 var_UU2}, igamma(0.01, 0.01) split) block({phi1:_cons} {phi2:_cons}, split) block({var var_U1 var_UU1 var_U2 var_UU2}, gibbs split) mcmcsize(5000) rseed(17) notable

Lệnh bayesmh báo cáo hiệu suất lấy mẫu trung bình hợp lý khoảng 12% nhưng hiệu suất tối thiểu dưới 1%, vì vậy chúng ta nên xem xét việc cải thiện hiệu quả lấy mẫu cho một số tham số Ví dụ này không có dấu hiệu rõ ràng về sự không hội tụ, nhưng điều quan trọng là phải đánh giá sự hội tụ MCMC một cách trực quan bằng cách sử dụng, ví dụ: chẩn đoán bằng đồ thị bayesgraph hoặc phổ biến hơn bằng cách chạy nhiều chuỗi và đánh giá thống kê Gelman-Rubin

Hãy xem kết quả và so sánh chúng với kết quả được báo cáo bởi lệnh menl Chúng ta sẽ báo cáo các thành phần phương sai dưới dạng độ lệch chuẩn để dễ dàng khớp với kết quả từ menl Câu lệnh được sử dụng như sau:

105 bayesstats summary {phi1:_cons} {phi2:_cons} {phi3} (sd_U1:sqrt({var_U1})) (sd_U2:sqrt({var_U2})) (sd_UU1:sqrt({var_UU1})) (sd_UU2:sqrt({var_UU2})) (sd:sqrt({var})) Ước tính trung bình hậu nghiệm cho các hệ số {phi1:_cons}, {phi2:_cons} và {phi3} và độ lệch chuẩn phần dư gần với các ước tính từ menl Các ước tính Bayes về các thành phần phương sai thì cao hơn Hơn nữa, giá trị trung bình cho độ lệch chuẩn của {U2} và {UU1} không chỉ cao hơn mà còn tập trung hơn với khoảng tin cậy 95% là [0.06, 0.30] và [0.07, 0.37] Trong khi đó, khoảng tin cậy tương ứng 95% của ước tính menl khá rộng, [0.0003, 6.3] và [0.0007, 6], điều này cho thấy các ước tính kém tin cậy hơn Để cải thiện hiệu quả lấy mẫu trong ví dụ này, chúng ta có thể đánh giá lại mô hình bằng cách xác định lại các hiệu ứng ngẫu nhiên U1 và U2 với các hằng số {phi1:_cons} và {phi2:_cons} để các hằng số này trở thành tiên nghiệm cho các tác động ngẫu nhiên U1 và U2 Điều này sẽ cho phép chúng ta sử dụng lấy mẫu Gibbs cho {phi1:_cons} và {phi2:_cons} Câu lệnh có dạng như sau bayesmh glucose = ({phi1:} + {phi2:}*c.time#c.time#c.time*exp(-{phi3}*time)) likelihood(normal({var})) define(phi1: U1[subject] UU1[subject>guar], noconstant) define(phi2: U2[subject] UU2[subject>guar], noconstant) prior({U1[subject]}, normal({phi1:_cons}, {var_U1}))

106 prior({U2[subject]}, normal({phi2:_cons}, {var_U2})) prior({phi1:_cons} {phi2:_cons} {phi3}, normal(0, 100) split) prior({var var_U1 var_UU1 var_U2 var_UU2}, igamma(0.01, 0.01) split) block({phi1:_cons} {phi2:_cons}, gibbs split) block({var var_U1 var_UU1 var_U2 var_UU2}, gibbs split) mcmcsize(5000) rseed(17) notable

Hiệu suất tối thiểu hiện được tăng lên khoảng 2%, nhưng hiệu suất tối đa bị giảm xuống HIệu quả trung bình vẫn đạt ở mức 12% bayesstats summary {phi1:_cons} {phi2:_cons} {phi3} (sd_U1:sqrt({var_U1})) (sd_U2:sqrt({var_U2})) (sd_UU1:sqrt({var_UU1})) (sd_UU2:sqrt({var_UU2})) (sd:sqrt({var}))

Chúng ta đạt được kết quả tương tự như ví dụ trên.

Mô hình sống sót (survival analysis)

Phân tích sống sót thường được sử dụng trong y học, phục vụ cho việc chuẩn đoán, xác định giai đoạn bệnh nhằm lên phác đồ điều trị cho bệnh nhân Tuy nhiên phương pháp này ngày nay cũng được áp dụng cho nhiều lĩnh vực khác như kinh tế Ví dụ, phân tích sống sót có thể được sử dụng để ước tính thời gian máy móc, thiết bị gặp lỗi, hoặc ước tính khoảng thời gian có thể khai thác máy móc từ đó xây dựng kế hoạch đầu tư, khấu hao hoặc thiết lập thời gian bảo trì, bảo dưỡng thiết bị để sản xuất có thể được thực hiện một cách xuyên suốt, không bị gián đoạn

Bayesmh cung cấp các mô hình khả năng linh hoạt (kiểu stexponential, stgamma(), stloglogistic(), stlognormal() và stweibull()) trong hàm likelihood() để phân tích dữ liệu thời gian tồn tại Bạn có thể phân tích khả năng thất bại và kiểm duyệt bên phải bằng hàm con failure() trong likelihood(), đồng thời xét tới loại bỏ bên trái bằng hàm con ltruncated() Các tham số dựa trên nguy cơ tỷ lệ (PH) và thời gian thất bại tích lũy (AFT) có thể được chọn cho stexponential và stweibull() qua các hàm ph (mặc định) và aft.

Khi hồi quy các mô hình sống sót, bạn có hai tùy chọn cho chỉ số các thông số phụ của các phân bố tỷ lệ sống sót

Ví dụ: đối với phân phối Weibull, bạn có thể lập mô hình thông số hình dạng p trong chỉ số nhật ký bằng cách sử dụng likelihood (stweibull (lnp)) hoặc likelihood (stweibull (lnp), logparam) (mặc định) hoặc trong số liệu ban đầu bằng cách sử dụng likelihood (stweibull (p), nologparam) Tương tự, đối với phân phối lognormal, bạn có thể lập mô hình độ lệch chuẩn bằng cách sử dụng likelihood (stlognormal (lnstd)) (mặc định) hoặc phương sai bằng cách sử dụng likelihood (stlognormal (var), nologparam), v.v

Việc sử dụng tham số nào cho các tham số phụ thường phụ thuộc vào các tiên nghiệm được chọn Ví dụ, trong mô hình Weibull, chúng ta có thể sử dụng giá trị tiên nghiệm phân phối chuẩn cho tham số log-shape lnp và tiên nghiệm phân phối đều cho tham số hình dạng p

Bây giờ chúng ta sẽ phân tích một vài ví dụ ở bên dưới

Bây giờ chúng ta sẽ xem xét ví dụ cancer.dta, ghi lại thời gian sống sót của bệnh nhân trong quá trình thử nghiệm thuốc điều trị ung thư Trong số 48 người tham gia, 20 người nhận giả dược (drug = 1), 14 người nhận một loại điều trị (drug

= 2), và 14 người nhận một loại điều trị khác (drug = 3) Chúng ta sẽ tiến hành phân tích thời gian từ khi được điều trị cho đến khi tử vong, được đo bằng tháng (với biến là studytime), như một hàm điều trị được điều chỉnh theo age Biến đã died ghi lại trạng thái tử vong cho mỗi chủ thể, trong đó, died = 1 có nghĩa là một chủ thể đã tử vong và đã died = 0 có nghĩa là một chủ thể vẫn còn sống và do đó được coi là đã được kiểm duyệt bên phải (right-censored)

Ban đầu, hãy bỏ qua trạng thái thất bại died và giả định rằng studytime ghi lại thời gian tử vong cho tất cả các chủ thể Để tham khảo, trước tiên hãy tiến hành hồi quy mô hình Weibull cổ điển bằng cách sử dụng streg Để truy cập dữ liệu, chúng ta sử dụng lệnh use https://www.stata-press.com/data/r17/cancer

Để tiến hành phân tích sống sót (survival analysis), chúng ta sử dụng lệnh stset để xác định dữ liệu dạng st trong bộ nhớ, đồng thời thông báo cho Stata về các biến chính và vai trò của chúng trong phân tích Ta nhập lệnh như sau: stset studytime stregn i.drug age, distribution(weibull) nolog.

Bây giờ chúng ta sẽ hồi quy mô hình Bayesian Weibull bằng cách sử dụng bayesmh Để so sánh kết quả với streg, chúng ta sử dụng tiên nghiệm thông tin yếu cho các thông số mô hình và chỉ định tùy chọn eform ( ) để báo cáo tỷ lệ nguy hiểm (hệ số lũy thừa) thay vì các hệ số được báo cáo theo mặc định của bayesmh Chúng tôi cũng lấy mẫu tham số riêng biệt với các hệ số để cải thiện hiệu quả bayesmh studytime i.drug age, likelihood(stweibull({lnp})) prior({studytime:} {lnp}, normal(0,10000)) rseed(17) eform(Haz ratio) block({lnp})

Kết quả giữa bayesmh và streg là tương tự, giống kỳ vọng khi chúng ta sử dụng thông tin yếu

Theo mặc định, mô hình bayesmh Weibull hồi quy bằng cách sử dụng log của tham số hình dạng phân phối Weibull bayesstats summary (p:exp({lnp})) (reciprocal: 1/exp({lnp}))

Tùy thuộc vào dữ liệu và tiên nghiệm, chúng ta có thể tham số hóa mô hình để sử dụng tham số hình dạng trong số liệu ban đầu Chúng ta có thể làm điều này bằng cách chỉ định tùy chọn con nologparam trong likelihood( )

Chúng ta hãy trang bị lại mô hình trên bằng cách sử dụng tham số hóa trực tiếp của hình dạng tham số và chỉ định tiên nghiệm phân phối đều cho nó bayesmh studytime i.drug age, likelihood(stweibull({p}), nologparam) prior({studytime:}, normal(0,10000)) prior({p}, uniform(0,10)) rseed(17) eform(Haz ratio) block({p}) initial({p} 1)

Chúng ta thu được kết quả tương tự

Tiếp tục với tập dữ liệu về bệnh ung thư, bây giờ chúng ta sẽ tiến hành kiểm định right-censoring, khi died = 0

Trước tiên, chúng ta sẽ tiến hành hồi quy mô hình Weibull cho mục đích so sánh Giống như trước đó, chúng ta cũng cần thiết lập stset stset studytime, failure(died)

112 streg i.drug age, distribution(weibull) nolog

Với bayesmh, chúng ta sẽ chỉ định chỉ báo thất bại trong tùy chọn con failure( ) trong likelihood( ) bayesmh studytime i.drug age, likelihood(stweibull({lnp}), failure(died)) prior({studytime:} {lnp}, normal(0,1000)) rseed(17) eform(Haz ratio)

Kết quả trong ví dụ này cũng tương tự như kết quả từ streg.

Phân tích Bayes về điểm thay đổi (change-point)

Các vấn đề về điểm thay đổi trong dữ liệu ngẫu nhiên, thường là dữ liệu chuỗi thời gian, trải qua một số thay đổi đột ngột tại một số thời điểm Vấn đề được quan tâm là xác định vị trí của điểm thay đổi và ước tính các thuộc tính của quá trình ngẫu nhiên trước và sau khi thay đổi

Trong ví dụ này chúng ta sẽ phân tích dữ liệu thảm họa khai thác than ở Anh trong những năm 1851 đến 1962 của Carlin, Gelfand và Smith (1992) Dữ liệu ban đầu được Maguire, Pearson và Wynn (1952) thu thập và sau đó được cập nhật bởi Jarrett (1979) coal.dta chứa 112 quan sát và bao gồm biến id ghi lại các số quan sát; count, ghi lại số lượng các thảm họa khai thác than có số người tử vong trên 10 người; và

114 year, ghi lại các năm tương ứng với các thảm họa Để truy cập dữ liệu này, chúng ta sẽ nhập lệnh use https://www.stata-press.com/data/r17/coal

Các số liệu cho thấy tỷ lệ tai nạn giảm đột ngột từ 1887-1895, có thể liên quan đến việc giảm lao động trong ngành khai thác than (Raftery và Akman 1986) Mô hình Bayesian với tham số điểm thay đổi (cp) được áp dụng để ước lượng tỷ lệ tử vong trước và sau cp Cụ thể, phân phối Poisson với giá trị trung bình μ1 được sử dụng nếu year < cp, và Poisson với trung bình μ2 được sử dụng nếu year ≥ cp.

Mô hình có ba tham số 𝝁 𝟏 , 𝝁 𝟐 và cp trong lệnh của bayesian chúng ta sẽ gọi 3 tham số này lần lượt là {mu1}, {mu2} và {cp} Một đặc điểm quan trọng của mô hình này là đặc điểm kỹ thuật của phân phối hỗn hợp cho count Để thiết lập đặc điểm này trong bayes, chúng ta chỉ định biểu thức thay thế

({mu1}*sign(year={cp})) biểu thức trên được xem như giá trị trung bình của phân phối Poisson dpoisson( ) Để đảm bảo tính khả thi của trạng thái ban đầu, chúng ta chỉ định các giá trị ban đầu trong tùy chọn initial( ) Do tự tương quan cao trong chuỗi MCMC, chúng ta tăng kích thước MCMC để đạt được độ chính xác cao hơn trong các ước tính của chúng ta Chúng ta thay đổi tiêu đề mặc định thành tiêu đề cụ thể cho phân tích của chúng ta Để theo dõi tiến trình mô phỏng, chúng ta yêu cầu bayesmh hiển thị một dấu chấm sau mỗi 500 lần lặp và một số lặp lại sau mỗi 5.000 lần lặp set seed 14 bayesmh count, likelihood(dpoisson({mu1}*sign(year={cp}))) prior({mu1} {mu2}, flat) prior({cp}, uniform(1851,1962)) initial({mu1} 1 {mu2}

1 {cp} 1906) mcmcsize(40000) title(Change-point analysis) dots(500, every(5000))

Theo kết quả ước tính, sự thay đổi xảy ra trong nửa đầu năm 1890 Tỷ lệ thảm họa đã giảm đáng kể, từ mức trung bình ước tính là 3,2 xuống 0,9

Các biểu đồ chẩn đoán, ví dụ, cho {cp} không chỉ ra bất kỳ vấn đề hội tụ nào (Điều này cũng đúng với các thông số khác.) bayesgraph diagnostics {cp}

Mật độ thảm họa được hiển thị góc dưới cùng bên phải có thể cung cấp thêm chi tiết cho mô hình Bên cạnh thời điểm thảm họa gia tăng chính thì còn có 2 thời điểm gia tăng nhỏ hơn vào khoảng các năm 1886 và 1896, tương ứng với các đỉnh cục bộ về số lượng thảm họa vào những khoảng thời gian này: 4 vào năm 1886 và 3 vào năm 1896 Sau năm 1890, số lượng thảm họa trung bình giảm khoảng 3,4 lần với phạm vi đáng tin cậy 95% là [2,5, 4,6].

Cần nhớ sự hội tụ phải được kiểm định không chỉ cho tất cả các tham số của mô hình mà còn cho các vấn đề quan tâm khác, ví dụ trong nghiên cứu này là ratio

Các ô chẩn đoán cho ratio có hình dạng hợp lý, thể hiện được sự hội tụ của chuỗi MCMC bayesgraph diagnostics (ratio:{mu1}/{mu2})

Mô hình tác động ngẫu nhiên trong phân tích tổng hợp (meta-analysis)

Để minh họa cho phân tích tổng hợp, chúng ta sẽ phân tích dữ liệu trong nghiên cứu của Carlin (1992) và dữ liệu trong nghiên cứu của Yusuf, Simon, and Ellenberg (1987) Dữ liệu tóm tắt kết quả của 22 thử nghiệm lâm sàng về beta- blockers được sử dụng như thuốc điều trị nhồi máu cơ tim

3.10.1 Mô hình phân tính Normal–normal

Trong ví dụ này, chúng ta tập trung mô hình ước tính log odds-ratios từ 22 nghiên cứu Để truy cập bộ dữ liệu, chúng ta dùng lệnh use https://www.statapress.com/data/r17/betablockers_wide Để có cái nhìn sơ lược, chúng ta có thể mô tả dữ liệu

Các ước lượng của log odds-ratios và phương sai của chúng được ghi lại trong các biến D và var tương ứng Chúng được tính toán từ các biến deaths0, total0, deaths1, và total1 Biến study ghi lại các định danh nghiên cứu

Trong mô hình normal–normal, chúng ta giả định một mô hình tác động ngẫu nhiên để ước tính tỷ log odds-ratios với phân phối chuẩn cho sai số và yếu tố tác động ngẫu nhiên

D i = 𝑑 + 𝑢 𝑖 + ϵ i = d i + ϵ 𝑖 trong đó ϵ i ~ N(0, var i ) và d i ~ N(d, 𝜎 2 ) sai số ϵ i đại diện cho sự không chắc chắn về ước tính của log odds-ratios trong mỗi nghiên cứu i và được giả định là các phương sai trong các nghiên cứu cụ thể đã biết var i Tác động ngẫu nhiên d i đại diện cho các ước tính log odds-ratios khác nhau từ các nghiên cứu khác nhau Các ước tính về giá trị trung bình và phương sai của vấn đề được quan tâm trong phân tích tổng hợp, 𝐝 ước tính tác động thật và 𝜎 2 là ước tính sự biến động trong việc

120 ước tính ảnh hưởng này qua các nghiên cứu 𝜎 2 hàm ý rằng, ước tính các tác động thật của các nghiên cứu có sự đồng nhất cao

Trong phân tích Bayes, chúng ta sẽ chỉ định các phân phối tiên nghiệm cho d và 𝝈 𝟐 Theo Carlin (1992), chúng ta sử dụng tiên nghiệm phi thông tin cho các tham số: phân phối chuẩn với phương sai lớn đối với d và gamma nghịch đảo với bậc tự do rất nhỏ cho 𝝈 𝟐

𝜎 2 ~ InvGamma(0.001, 0.001) Chúng ta chỉ định normal( ) likelihood với bayesmh và yêu cầu các phương sai quan sát cụ thể bằng cách chỉ định biến var là đối số phương sai normal ( ) Chúng ta đưa D[study] vào danh sách các hiệp biến để xác định các tác động ngẫu nhiên di Chúng ta tuân theo công thức mô hình ở trên để xác định các bản phân phối tiên nghiệm Để cải thiện hiệu quả, chúng ta sẽ yêu cầu đặt tất cả các tham số trong các khối riêng biệt và sử dụng lấy mẫu Gibbs cho tham số trung bình {d} và tham số phương sai {sig2} bayesmh D D[study], likelihood(normal(var)) noconstant prior({D[study]}, normal({d},{sig2})) prior({d}, normal(0,1000)) prior({sig2}, igamma(0.001,0.001)) block({sig2}, gibbs) block({d}, gibbs) seed(17)

Giá trị trung bình hậu nghiệm d và sig2 là -0.254 và 0.191 được sử dụng để ước tính giá trị d và phương sai 𝜎 2 của mô hình với độ lệch chuẩn là 0.06 và 0.021,

AR đạt 0.76 cho thấy mô hình đạt hiệu quả

Chúng ta có thể tính toán hiệu quả của các thông số chính bằng cách sử dụng bayesstats ess bayesstats ess {d} {sig2}

Hiệu quả đạt mức chấp nhận được, nhưng thời gian tương quan khá lớn, mức độ tự tương quan chỉ nhỏ sau độ trễ 40 hoặc lâu hơn Độ chính xác của ước lượng giá trị trung bình và phương sai có thể so sánh với độ chính xác dựa trên 249 quan sát độc lập đối với giá trị trung bình và 220 quan sát độc lập đối với phương sai

Chúng ta có thể kiểm tra lại mức độ hội tụ thông qua chuẩn đoán hình ảnh bayesgraph diagnostics {d} {sig2}

Các đồ thị chẩn đoán trông có vẻ hợp lý cho cả hai tham số, nhưng mực độ tự tương quan khá cao Bạn có thể cân nhắc việc tăng kích thước MCMC để đạt được các ước tính chính xác hơn về các ước tính hậu nghiệm

3.10.2 Mô hình phân tích Binomial-normal

Thay vì lập mô hình trực tiếp các ước tính về tỷ lệ log odds-ratios, người ta có thể lập mô hình xác suất thành công (một sự kiện quan tâm) trong mỗi nhóm Đặt 𝐩 𝐢 𝐓 và 𝐩 𝐢 𝐂 là xác suất thành công của các nhóm điều trị và nhóm chứng trong thử nghiệm thứ i Mô hình phân tích tổng hợp tác động ngẫu nhiên có dạng sau logit(𝑝 𝑖 𝐶 ) = 𝜇 𝑖 logit(𝑝 𝑖 𝑇 ) = 𝜇 𝑖 + 𝑑 𝑖 Trong đó, 𝝁 𝒊 là log odds của việc điều trị thành công trong nhóm chứng của nghiên cứu i và 𝝁 𝒊 + 𝒅 𝒊 là log odds của việc điều trị thành công trong nhóm điều trị tại nghiên cứu i 𝒅 𝒊 được xem như các tác động ngẫu nhiên và chúng được giả định là tuân theo phân phối chuẩn

𝑑 𝑖 ~ i i d 𝑁 (𝑑, 𝜎 2 ) trong đó d là tác động tổng thể và 𝝈 𝟐 là độ biến thiên của nó qua các thử nghiệm Chúng ta có 𝑦 𝑖 𝐶 là ca điều thành công trong số tổng số mẫu 𝑛 𝑖 𝐶 của nhóm đối chứng và 𝑦 𝑖 𝑇 là số ca điều trị thành công trong tổng số mẫu 𝑛 𝑖 𝑇 của nhóm điều trị từ thử nghiệm thứ i

𝑦 𝑖 𝑇 ~ Binomial (𝑝 𝑖 𝑇 , 𝑛 𝑖 𝑇 ) Các tác động ngẫu nhiên thường được giả định là phân phối chuẩn

𝑑 𝑖 ~ i i d 𝑁 (𝑑, 𝜎 2 ) trong đó d là tác động tổng thể và là tham số chính trong mô hình và 𝝈 𝟐 là độ biến thiên của nó qua các thử nghiệm

Chúng ta có thể viết lại mô hình trên dưới dạng sau logit(𝑝 𝑖 ) = 𝜇 𝑖 + (𝑇 𝑖 == 1)𝑑 𝑖

𝑑 𝑖 ~ i i d 𝑁 (𝑑, 𝜎 2 ) trong đó Ti là biến nhị phân với Ti = 0 là nhóm đối chứng và Ti = 1 là nhóm được điều trị

Trong phân tích Bayes, chúng ta sẽ chỉ định các phân phối tiên nghiệm cho 𝝁 𝒊 , d và 𝝈 𝟐

𝜎 2 ~ InvGamma (0.001, 0.001) Chúng ta tiếp tục sử dụng ví dụ trên cho mô hình Binomial-normal model use https://www.stata-press.com/data/r17/betablockers_long describe

Biến treat ghi lại biến nhị phân điều trị với treat == 0 là nhóm chứng và biến treat ==1 là nhóm điều trị

Chúng ta sử dụng biến M[study] để chỉ định các tác động ngẫu nhiên của 𝜇 𝑖, 1.treat#D[study] cho các tác động ngẫu nhiên (𝑇 𝑖 == 1)𝑑 𝑖 Hàm binomial( ) được sử dụng cho tử vong Các siêu tham số và tác động ngẫu nhiên {D[study]} được chia thành các khối riêng biệt, trong khi sig2 được lấy mẫu Gibbs để tăng hiệu quả thuật toán.

124 prior({d}, normal(0,1000)) prior({sig2}, igamma(0.001,0.001)) block({D[study]}, split) block({d sig2}, gibbs split) rseed(17)

Mô hình này có thêm 22 thông số so với ví dụ trước, ước lượng trung bình hậu nghiệm của d và phương sai 𝝈 𝟐 lần lượt là -0.249 và 0.018, sai số chuẩn hậu nghiệm là 0.065 và 0.0225 Ước tính này cũng tương tự với nghiên cứu của Carlin (1992)

So với thông số trên, hiệu quả và các thống kê khác cho các thông số chính cũng tương tự bayesstats ess {d} {sig2}

Các biểu đồ chẩn đoán trông tương tự như các biểu đồ được hiển thị trong ví dụ phần 3.11.1 bayesgraph diagnostics {d} {sig2}

3.12 Mô hình tăng trưởng tiềm ẩn (Latent growth model)

Trong phần này, chúng ta sẽ phân tích tỷ lệ tội phạm trong bốn quý năm 1995 tại Mỹ Các biến tỷ lệ tội phạm lncrime0 đến lncrime3 ghi nhận các phép đo tỷ lệ tội phạm trên thang log Tỷ lệ tội phạm quan sát được giả định tuân theo một mô hình tăng trưởng tuyến tính với hệ số chặn ngẫu nhiên I và độ dốc ngẫu nhiên S lncrime i = I + iS + ϵ trong đó I và S là các biến tiềm ẩn và 𝛜 là vectơ phần dư tuân theo quy luật phân phối chuẩn với giá trị 0 trung bình và phương sai 𝝈 𝟐 Hệ số cho các mức chặn ngẫu nhiên được chỉ định là 1 và hệ số cho độ dốc được chỉ định là 0, 1, 2 và 3, tương ứng với 4 quý I và S được giả định là có tương quan Để tiếp cận dữ liệu trong ví dụ này chúng ta sử dụng lệnh use https://www.stata-press.com/data/r17/sem_lcm Để mô tả dữ liệu chúng ta sử dụng lệnh describe

Ngày đăng: 06/05/2024, 16:40

HÌNH ẢNH LIÊN QUAN

Bảng sau cung cấp một số quy tắc ngón tay cái: - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
Bảng sau cung cấp một số quy tắc ngón tay cái: (Trang 18)
Đồ thị Cusum cũng có thể được sử dụng để đánh giá tốc độ trộn của chuỗi. - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
th ị Cusum cũng có thể được sử dụng để đánh giá tốc độ trộn của chuỗi (Trang 30)
Hình sizegroup có tiêu DIC, log(ML) và log(BF) tốt hơn, điều này cho thấy mô hình 2  có lợi thế hơn tuy nhiên ưu thế của mô hình này chưa phải vượt trội, do vậy chúng ta  cần phân tích sâu hơn thông qua so sánh xác suất hậu nghiệm của hai mô hình thông  q - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
Hình sizegroup có tiêu DIC, log(ML) và log(BF) tốt hơn, điều này cho thấy mô hình 2 có lợi thế hơn tuy nhiên ưu thế của mô hình này chưa phải vượt trội, do vậy chúng ta cần phân tích sâu hơn thông qua so sánh xác suất hậu nghiệm của hai mô hình thông q (Trang 50)
Bảng trên cho thấy giá trị trung bình dự báo hậu nghiệm là 0,95, tương đồng  với tớnh toỏn trước đú của chỳng ta 20 ì 0.0476  =  0.952 sử dụng ước tớnh trung  bình hậu nghiệm của ?, 0.0476 - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
Bảng tr ên cho thấy giá trị trung bình dự báo hậu nghiệm là 0,95, tương đồng với tớnh toỏn trước đú của chỳng ta 20 ì 0.0476 = 0.952 sử dụng ước tớnh trung bình hậu nghiệm của ?, 0.0476 (Trang 57)
Bảng tóm tắt cho thấy rằng, so với dữ liệu quan sát, dữ liệu sao chép có giá trị  trung bình  và độ lệch chuẩn tương tự nhưng, giá trị tối thiểu và tối đa thì có sự  khác biệt - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
Bảng t óm tắt cho thấy rằng, so với dữ liệu quan sát, dữ liệu sao chép có giá trị trung bình và độ lệch chuẩn tương tự nhưng, giá trị tối thiểu và tối đa thì có sự khác biệt (Trang 63)
Bảng  kết  quả  hiển  thị  giá  trị  trung  bình  và  độ  lệch  chuẩn  hậu  nghiệm  của  {minsl}, giá trị p dự báo ước tính hậu nghiệm - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
ng kết quả hiển thị giá trị trung bình và độ lệch chuẩn hậu nghiệm của {minsl}, giá trị p dự báo ước tính hậu nghiệm (Trang 67)
Hình  chặn  ngẫu  nhiên   (random-intercept  model)  để  bổ  sung  các  tác  động  ngẫu  nhiên trong tham số  year - Tài liệu tham khảo: Hướng dẫn sử dụng phương pháp Bayes trên Stata - Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
nh chặn ngẫu nhiên (random-intercept model) để bổ sung các tác động ngẫu nhiên trong tham số year (Trang 100)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w