Định ngĩa BIC

Một phần của tài liệu (LUẬN văn THẠC sĩ) các tiêu chuẩn lựa chọn mô hình chuỗi thời gian (Trang 43 - 48)

2.2 Tiêu chuẩn thông tin Bayesian (BIC)

2.2.2 Định ngĩa BIC

Tiêu chuẩn thông tin Bayesian của Schwarz (1978) và Akaike (1977, 1978) đã đưa đến dạng của một hình phạt loga hàm hợp lý. Cụ thể là,

BIC(M) = 2 log−likelihoodmax(M)−(logn) dim(M) (2.16) đối với mỗi mơ hình ứng cử viên M, với dim(M) là số các tham số ước lượng trong mơ hình và n là kích thước mẫu của dữ liệu. Mơ hình với giá trị BIC cao

nhất được chọn như là mơ hình tốt nhất. BIC của (2.16) được xây dựng khá tương tự như AIC của (2.5), với một hình phạt mạnh hơn cho những mơ hình phức tạp (với n ≥ 8). Bây giờ chúng ta chỉ ra hoạt động của BIC trong một danh sách các ví dụ.

Ví dụ: Phân phối mũ và Weibull

Đối với mơ hình Wellbull, ta có hàm hợp lý là Ln(y, θ, γ) =e−θγPni=1yγi .θnγ.γn. n Y i=1 yiγ−1

⇒`n(θ, γ) =−θγPni=1yiγ+nγlnθ+nlnγ+ (γ −1)Pni=1lnyi. Để lựa chọn mơ hình tốt nhất theo BIC chúng ta tính

BIC(wei) = 2 n X

i=1

{−(ˆθyi)ˆγ+ ˆγln ˆθ+ ln ˆγ+ (ˆγ−1) lnyi} −2 lnn. Với γ = 1 tương ứng với mơ hình mũ, và ta có

BIC(exp) = 2 n X

i=1

(lnθe−eθyi)−lnn,

ở đây θelà ước lượng hợp lý cực đại cho θ trong mơ hình mũ, (ˆθ,γˆ) là ước lượng hợp lý cực đại trong mơ hình Weibull. Mơ hình tốt nhất có giá trị BIC cao nhất. Ví dụ: Dữ liệu trọng lượng sinh thấp

Mơ hình Giá trị BIC Thứ tự Mơ hình Giá trị BIC x1 -239.914 (2) x1, x3, x4 -246.471 x1, x2 -239.174 (1) x1, x3, x5 -246.296 x1, x3 -242.395 (4) x1, x4, x5 -245.387 x1, x4 -243.502 x1, x2, x3, x5 -247.644 x1, x5 -243.382 x1, x2, x4, x5 -244.226 x1, x2, x3 -242.849 (5) x1, x3, x4, x5 -249.094 x1, x2, x4 -240.800 (3) x1, x2, x3, x4 -245.142 x1, x2, x5 -243.826 x1, x2, x3, x4, x5 -248.869

Chúng ta xem xét các biến tương tự như trong ví dụ 2.6 Đó là một hằng số đánh chặn x1 = 1;x2 là trọng lượng của người mẹ trước khi mang thai; x3 là tuổi của người mẹ;x4 chỉ chủng tộc đen; x5 là chỉ các chủng tộc khác và x4=x5 là chỉ chủng tộc trắng. Đối với mơ hình hồi quy logistic tìm được BIC có cơng thức BIC = 2 n X i=1 {yiln ˆpi+ (1−yi) ln(1−pˆi)} −length(β) lnn

ở đó pˆi là ước lượng xác suất cho Yi = 1 và length(β) là số các hệ số hồi quy ước lượng. Kích thước mẫu n = 189, với ln 189≈5.2417. Các giá trị của BIC có thể dễ dàng đạt được từ công thức này trong R qua hàm

AIC(fitted.object, k = log(sample.size)).

Trong bảng 2.2 chúng ta kiểm tra 24 mơ hình mà ln bao gồm một hằng số đánh chặn x1 = 1.

Theo bảng 2.2, mơ hình BIC tốt nhất là mơ hình chỉ chứa biến x2 và thêm vào một hằng số đánh chặn. Ước lượng hệ số đánh chặn với mơ hình này bằng0.998, với tham số ước lượng độ dốc là −0.014 cho x2, dẫn đến mơ hình phù hợp:

ˆ

P(trọng lượng sinh thấp|x2) = exp(0.998−0.014x2) 1 + exp(0.998−0.014x2)

Mơ hình tốt thứ hai là mơ hình chỉ gồm x1, tiếp theo là mơ hình chứa cả x2 và x4. Mơ hình kí hiệu (3) ở trên là mơ hình tốt nhất bởi AIC, mơ hình tốt thứ hai trong AIC là mơ hình chứa cả x2, x4, x5. Ở đây chúng ta chú ý rằng khuynh hướng của BIC là để lựa chọn các mơ hình với ít biến hơn những mơ hình chọn bởi AIC.

Có những thuận lợi và khó khăn khác nhau khi so sánh hai tiêu chuẩn AIC và BIC. Nhưng có thể chỉ ra rằng BIC đáp ứng đầy đủ một trong những khuyết điểm của AIC, đó là khơng thành cơng trong việc phát hiện ra mơ hình thật với xác suất 1 khi kích thước mẫu tăng lên. Tiêu chuẩn BIC có xu hướng lựa chọn những mơ hình đơn giản hơn. Bây giờ chúng ta xem xét ví dụ sau.

Ví dụ: Tỷ lệ tử vong ở Ai Cập cổ đại

Bao lâu cho một cuộc sống? Một tập hợp duy nhất của tuổi thọ ở La Mã Ai Cập được thu thập bởi W.Spiegelberg vào năm 1901 và được phân tích bởi Karl Pearson (1902). Bộ dữ liệu chứa tuổi tử vong của 141 xác ướp Ai Cập ở thời kỳ La Mã, 82 đàn ông và 59 phụ nữ, có niên đại từ 100 năm trước công nguyên. Tuổi thọ thay đổi từ 1 đến 96 và Pearson cho rằng chúng có thể được coi như là một mẫu ngẫu nhiên. Chúng ta sẽ sử dụng AIC để lưạ chọn mơ hình tốt nhất của một bộ sưu tập nhỏ của các mơ hình tham số ứng cử viên cho tỷ lệ tử vong.

Đối với mỗi mơ hình đề xuất f(t, θ), chúng ta cực đại loga hàm hợp lý

`n(θ) = n X

i=1

logf(ti, θ), với t1, ..., tn là các tuổi thọ và sau đó tính tốn

AIC = 2`n(ˆθ)−2p, với p là độ dài của θ.

Chúng ta xét 9 mơ hình sau:

Mơ hình 1 là theo luật số mũ, với mật độ b.exp(−bt). Mơ hình 2 là Gamma, với mật độ {ba/Γ(a)}ta−1exp(−bt).

Mơ hình 3 là loga chuẩn, với mật độ tương ứng với mật độΦ{(logt−µ)/σ}/(σt). Mơ hình 4 là Gompertz mà đưa đến tỉ lệ tử vong hoặc nguy hiểm h(t) = f(t)/F[t;∞). Mơ hình này tương ứng với mật độ f(t) = exp{−H(t)}h(t), với H(t) = R0th(s)ds = (a/b){exp(bt)−1} là tỷ lệ nguy hiểm tích lũy.

Mơ hình 5 là Makeham mở rộng của Gompertz, với tỷ lệ nguy hiểm h(t) = k+a.exp(bt), với k mà k+a.exp(bt0)>0, ở đó t0 là tuổi nhỏ nhất (t0 = 1). Mơ hình 6 sử dụng các tham số như nhau (a, b) cho cả nam và nữ .

Mơ hình 7 sử dụng (a, b1) và (a, b2) cho nam và nữ (cùng có tham số a). Mơ hình 8 sử dụng (a1, b) và (a2, b) cho nam và nữ (cùng có tham số b).

Mơ hình 9 sử dụng (a1, b1) và (a2, b2) mà khơng có các tham số chung cho hai nhóm.

Các tham số Các tham số ước lượng `n(ˆθ) AIC Mơ hình 1, b 0.033 -623.777 -1249.553 (7) Mơ hình 2, a, b 1.609 0.052 -615.386 -1234.772 (6) Mơ hình 3, µ, σ 3.082 0.967 -629.937 -1263.874 (8) Mơ hình 4, a, b 0.019 0.021 -611.353 -1226.706 (4) Mơ hình 5, k, a, b -0.012 0.029 0.016 -611.319 -1228.637 (5) Mơ hình 6, a, b 0.019 0.021 -611.353 -1226.706 (4) Mơ hình 7, a, b1, b2 0.019 0.018 0.026 -610.076 -1226.151 (3) Mơ hình 8, a1, b, a2 0.016 0.024 0.022 -608.520 -1223.040 (1) Mơ hình 9, a1, b1, a2, b2 0.016 0.024 0.022 0.020 -608.520 -1225.040 (2)

Bảng 2.3. Tỷ lệ tử vong ở Ai Cập cổ đại: Các tham số ước lượng, cực đại loga hàm hợp lý và điểm số AIC cho 9 mơ hình

Các tham số `n(ˆθ) BIC Thứ tự Mơ hình 1, b -623.777 -1252.503 (7) Mơ hình 2, a, b -615.386 -1240.670 (6) Mơ hình 3, µ, σ -629.937 -1269.772 (8) Mơ hình 4, a, b -611.353 -1232.604 (2) Mơ hình 5, k, a, b -611.319 -1237.484 (5) Mơ hình 6, a, b -611.353 -1232.604 (2) Mơ hình 7, a, b1, b2 -610.076 -1234.998 (3) Mơ hình 8, a1, b, a2 -608.520 -1231.886 (1) Mơ hình 9, a1, b1, a2, b2 -608.520 -1236.835 (4)

Bảng 2.4. Tỷ lệ tử vong ở Ai Cập cổ đại: Cực đại của loga hàm hợp lý và các điểm số BIC cho 9 mơ hình ứng cử viên.

Các giá trị BIC trong số các mơ hình thu được dễ dàng bằng cách sử dụng bảng 2.3, các kết quả được giới thiệu trong bảng 2.4. Các giá trị cực đại của loga hàm

hợp lý được tìm thấy ở cột `n(ˆθ). Chúng ta tính tốn

BIC = 2`n(ˆθ)−plnn,

với p là độ dàiθ và n= 141,lnn = 4.949. Hình phạt của BIC ngặt hơn của AIC. Mơ hình 1 có một tham số, kết quả làBIC1 = 2(−623.777)−ln 141 =−1252.503 Mơ hình2,3,4và 6 có hai tham số. Trong số 4 mơ hình này, mơ hình Gompertz (mơ hình 4) là tốt nhất vì có điểm số BIC cao nhất. các mơ hình 5,7,8 có 3 tham số, với các giá trị BIC đưa ra trong bảng. Mơ hình 8 là tốt nhất trong danh sách của các mơ hình ứng cử viên theo cách chọn bởi BIC.

Như vậy mơ hình tốt nhất trong cả hai tiêu chuẩn AIC và BIC là trùng nhau. Lượng phạt của BIC đối với những dữ liệu lớn hơn nặng hơn của AIC, các mơ hình lớn hơn nhận hình phạt nặng hơn. Điều này rõ ràng bằng cách xem xét mơ hình 9, mơ hình này có xếp hạng 2 với AIC, trong khi nó nhận xếp hạng thấp hơn là 4 đối với BIC. Khi kích thước n lớn hơn thì hình phạt nặng hơn sử dụng trong BIC. Đặc biệt khi kích thước mẫu lớn chúng ta mong đợi tìm thấy các xếp hạng khác nhau khi so sánh lựa chọn bởi AIC và BIC.

Một phần của tài liệu (LUẬN văn THẠC sĩ) các tiêu chuẩn lựa chọn mô hình chuỗi thời gian (Trang 43 - 48)

Tải bản đầy đủ (PDF)

(64 trang)