2.2 Tiêu chuẩn thông tin Bayesian (BIC)
2.2.1 Nguồn gốc của BIC
Một mơ hình có thể được tìm thấy bằng cách tính tốn xác suất hậu nghiệm của mỗi mơ hình và lựa chọn mơ hình với xác suất hậu nghiệm lớn nhất. Cho các mơ hình, kí hiệu là M1, M2, ..., Mk và y là vectơ của dữ liệu quan sáty1, ..., yn. Lý thuyết của Bayes cung cấp xác suất hậu nghiệm của các mơ hình
P(Mj |y) = P(Mj) f(y)
Z
Θj
f(y |Mj, θj)π(θj |Mj)dθj (2.9)
ở đó Θj là khơng gian tham số của θj. Trong biểu thức này
f(y|Mj, θj) =Ln,j(θj) là hàm hợp lý của dữ liệu của mơ hình thứ j và các tham số của nó,
π(θj |Mj) là mật độ tiên nghiệm của θj cho mơ hình Mj, f(y) là hàm hợp lý khơng điều kiện của dữ liệu.
Sau cùng là tính tốn thơng qua
f(y) = k X j=1 P(Mj)λn,j(y) ở đó λn,j(y) = Z Θj Ln,j(θj)π(θj |Mj)dθj (2.10) là hàm hợp lý biên duyên hoặc mật độ biên dun của mơ hình j. Trong các so sánh của các xác suất hậu nghiệm P(Mj | y) qua các mơ hình khác nhau, f(y) khơng quan trọng vì nó là hằng số qua các mơ hình.
Đặt
Khi đó P(Mj |y) = P(Mj) exp(1 2BIC exact n,j ) Pk j0=1P(Mj0) exp(1 2BIC exact n,j0 ) (2.12)
Các giá trị BIC chính xác này ít khi sử dụng trong thực hành vì khó tính tốn. Hơn nữa cách tiếp cận này địi hỏi chi tiết hóa của các tiên nghiệm cho tất cả các mơ hình và tất cả các tham số trong các mơ hình. Biểu thức BIC mà sẽ được dẫn ra trong phần sau là hữu hiệu và tiệm cận với BIC chính xác. Chúng ta mong muốn tìm một xấp xỉ cho λn,j(y). Ta có
λn,j(y) = Z
Θ
exp{nhn,j(θ)}π(θ |Mj)dθ,
với hn,j(θ) =n−1`n,j(θ) và plà độ dài của θ. Phương pháp xấp xỉ Laplace cơ bản phù hợp cho các tích phân như vậy, và theo phương pháp này
Z Θ exp{nh(θ)}g(θ)dθ = (2π n )p/2exp{nh(θ0)}{g(θ0)J(θ0) −1/2 +O(n−1), ở đóθ0 là giá trị mà cực đại hàm h(.) và J(θ0) là ma trận Hessian−∂2h(θ)/∂θ∂θt tạiθ0. Chú ý rằng các xấp xỉ trở thành chính xác khi h là một dạng toàn phương âm (chẳng hạn với loga hàm hợp lý Gaussian) và g là một hằng số. Với trường hợp ta đang xét, h(θ) = n−1`n,j(θ) và các cực đại của nó bằng ước lượng hợp lý cực đại θˆj cho mơ hình Mj. vì vậy, vớiJn,j( ˆθj)như trong (2.3)
λn,j(y) ≈ Ln,j(ˆθ)(2π)p/2n−p/2 Jn,j( ˆθj) −1/2 π( ˆθj |Mj) (2.13) Quay trở lại (2.9) và (2.10), điều này dẫn đến một vài xấp xỉ có thể xảy ra với mỗi λn,j(y). Xấp xỉ đầu tiên đạt được bởi xấp xỉ đạt được ở vế phải của (2.13). Sau đó lấy logarit và nhân với 2, chúng ta được xấp xỉ và kí hiệu là BICn,j∗ . Ta có 2 logλn,j(y) gần với
BICn,j∗ = 2`n,j( ˆθj)−pjlogn+pjlog(2π)−log
Jn,j( ˆθj)
ở đó pj là độ dài của θj. Bỏ qua các số hạng sau, khi đó đưa đến một xấp xỉ đơn giản hơn mà chúng ta công nhận như BIC, đó là
2 logλn,j(y)≈BICn,j = 2`n,j,max−pjlogn (2.15) Hoặc P(Mj |y) ≈ P(Mj) exp(1 2BICn,j) Pk j0=1P(Mj0) exp(1 2BICn,j0)
Để có được những xấp xỉ trên thì ước lượng hợp lý cực đại phải là điểm trong của không gian tham và các hàm loga hợp lý, mật độ tiên nghiệm phải khả vi cấp 2. Kết quả đầu tiên thu được bởi Schwarz (1978) giả định rằng các điều kiện là mạnh hơn, đặc biệt các mơ hình ơng làm việc là thuộc họ mũ.
Chú ý rằng các phân bố tiên nghiệm hồn tồn biến mất trong cơng thức của BIC. Khơng có phân bố tiên nghiệm nào là cần thiết để đạt được các giá trị BIC, chỉ có cực đại loga hàm hợp lý là được sử dụng. Với kích thước mẫu lớn, BIC cung cấp một cách dễ dàng hơn để tính tốn loại trừ với tính tốn thực của hàm hợp lý biên duyên hoặc các thừa số Bayes. Đối với hai mơ hình M1 và M2, thừa số Bayes là bằng với sự chênh lệch hậu nghiệm chia cho sự chênh lệch tiên nghiệm,
P(M2 |y)/P(M1 |y) P(M2)/P(M1) =
λn,2(y) λn,1(y).
Điều này có thể sử dụng cho từng cặp so sánh của các mơ hình.