AIC và khoảng cách Kullback Leibler

Một phần của tài liệu (LUẬN văn THẠC sĩ) các tiêu chuẩn lựa chọn mô hình chuỗi thời gian (Trang 35 - 41)

2.1 Tiêu chuẩn thông tin Akaike

2.1.4 AIC và khoảng cách Kullback Leibler

Ý tưởng của AIC là "phạt" một lượng từ hàm hợp lý cực đại cho những mơ hình phức tạp. Phần này sẽ chỉ ra tại sao công thức của AIC có dạng (2.5) cho cả hai trường hợp độc lập cùng phân bố và mơ hình hồi quy. Chìa khóa là ước

lượng giá trị kỳ vọng của khoảng cách Kullback - Leibler từ mơ hình thật tới mơ hình tham số.

Trường hợp độc lập cùng phân phối

Ước lượng hợp lý cực đại θˆnhằm mục đích tới giá trị tham số sai số nhỏ nhất mà cực tiểu khoảng cách Kullback - Leibler. Với ước lượng hợp lý cực đại θˆthì khoảng cách Kullback - Leibler là

KL(g, f(.,θ)) =ˆ Z

g(y){logg(y)−logf(y,θ)}dyˆ =

Z

gloggdy−Rn với Rn =R

g(y) logf(y,θ)dyˆ

Ở đây khoảng cách Kullback - Leibler càng nhỏ thì mơ hình tham số càng gần với mơ hình thật. Ta thấy R gloggdy giống nhau cho mọi mơ hình nên mơ hình nào có Rn càng lớn càng tốt. Tuy nhiên Rn là biến ngẫu nhiên, ta xét kỳ vọng Qn của nó

Qn =EgRn =Eg Z

g(y) logf(y,θ)dyˆ (2.6) Chiến lược AIC là ước lượng Qn cho mỗi mô hình ứng cử viên và sau đó lựa chọn mơ hình với ước lượng Qn cao nhất, điều này tương đương với tìm kiếm cho mơ hình với ước lượng khoảng cách Kullback - Leibler nhỏ nhất. Để ước lượng Qn từ dữ liệu, một khả năng để thay thế g(y)dy trong Rn với phân phối thực nghiệm của dữ liệu, dẫn đến

ˆ Qn =n−1 n X i=1 logf(Yi,θ) =ˆ n−1`n(ˆθ)

Ký hiệu Vn = √n(ˆθ−θ0), Zn là trung bình của các biến độc lập cùng phân bố có trung bình 0,

Zi= logf(Yi, θ0)−Q0, với

Q0= Z

Kết quả là

ˆ

Qn−Rn =Zn+n−1VntJ Vn+Op(n−1) (2.7) Chứng minh (2.7):

Thật vậy, đầu tiên chúng ta sử dụng số hạng thứ hai của khai triển Taylor mở rộng của Rn, sử dụng hàm điểm số và hàm thơng tin của mơ hình tìm được

Rn = Z

g(y){logf(y, θ0) +u(y, θ0)t(ˆθ−θ0) + 1

2(ˆθ−θ0) tI(y, θ0)(ˆθ−θ0)}dy =Q0− 1 2n −1VntJ Vn (Vì Egu(Y, θ0) =R

g(y)u(y, θ0)dy= 0 nên R

g(y)u(y, θ0)t(ˆθ−θ0)dy= 0) Tương tự, số hạng thứ hai của khai triển Taylor mở rộng của Qnˆ dẫn đến

ˆ Qn = 1 n n X i=1

{logf(Yi, θ0) +u(Yi, θ0)t(ˆθ−θ0) + 1

2(ˆθ−θ0) tI(Yi, θ0)(ˆθ−θ0)} = 1 n n X i=1 (logf(Yi, θ0)−Q0+Q0) + (ˆθ−θ0) 1 n X u(Yi, θ0) | {z } Utn + 1 2(ˆθ−θ0) t 1 n n X i=1 I(Yi, θ0)(ˆθ−θ0) | {z } −Jn = 1 n n X i=1 (logf(Yi, θ0)−Q0) | {z } Ztn +1 n n X i=1 Q0 | {z } Q0 +Utn(ˆθ−θ0)− 1 2(ˆθ−θ0) tJn(ˆθ−θ0) =Q0+Zn+Utn(ˆθ−θ0)−1 2(ˆθ−θ0) t Jn(ˆθ−θ0), ở đó Jn =−1 n Pn i=1I(Yi, θ) −→p J.

Điều này chỉ ra rằng Qˆn −Rn có thể được mở rộng như là Zn+n−1√

nUtnVn+Op(n−1), kết hợp với

⇒(2.7) được chứng minh.

Ta có VntJ Vn −→d W = (U0)tJ−1U0, ở đó U0 ∼Nq(0, K) Từ (2.7) dẫn đến xấp xỉ

E( ˆQn−Qn)≈p∗/n, với p∗ =EW =T r(J−1K) (2.8) ⇒Qn ≈Qˆn−p∗/n.

Như vậy cần chọn mơ hình có Qˆn−p∗/n lớn nhất mà ˆ

Qn−p∗/n=n−1{`n(ˆθ)−p∗}, do đó cần chọn mơ hình có `n(ˆθ)−p∗ lớn nhất.

Nhận xét:

Nếu mơ hình xấp xỉ là chính xác, tức g(y) = f(y, θ0), khi đó J = K và p∗=p=length(θ), kích thước của mơ hình. Cũng trong trường hợp đó,n−1VntJ Vn gần với n−1χ2p. Lấy p∗ = p, ngay cả khi khơng có sự kiểm tra phù hợp nào của mơ hình, dẫn đến công thức AIC (2.5).

Trường hợp hồi quy

Như chúng ta đã thấy, phép đo khoảng cách kéo theo khi phân tích ước lượng hợp lý cực đại trong những mơ hình như vậy là phù hợp với khoảng cách Kullback - Leibler, cũng liên quan đến phân phối của các vectơ x trong không gian của các covarian. Đối với một mơ hình tham số đưa ra với dữ liệu hồi quy quan sát (x1, y1),(x1, y2), ..,(xn, yn), hồi quy tương tự với (2.6) là

Qn =EgRn =Egn−1 n X

i=1 Z

g(y|xi) logf(y|xi,θ)dyˆ

bao gồm phân phối thực nghiệm của các vectơ covarianx1, ..., xn. Một ước lượng ban đầu của Qn là

ˆ Qn =n−1 n X i=1 logf(Yi|xi,θ).ˆ

Cho θ0,n là giá trị tham số sai số nhỏ nhất liên quan đến với phân phối thực nghiệm của x1, ..., xn, tức là cực đại của

n−1 n X

i=1 Z

Một số hạng thứ hai của Taylor mở rộng dẫn đến Rn =Q0,n− 1 2n −1VntJnVn, ở đó Vn =√n(ˆθ−θ0,n) và Jn =−n−1 n X i=1 Z g(y|xi)I(y|xi, θ0,n)dy; Q0,n =n−1 n X i=1 Z

g(y|xi) logf(y|xi, θ0,n)dy.

Tương tự, số hạng thứ hai của Taylor mở rộng của Qˆn dẫn đến ˆ Qn =Q0,n+Zn+Utn(ˆθ−θ0,n)− 1 2(ˆθ−θ0,n) tJn(ˆ˜ θ−θ0,n) =Q0,n+Zn+1 2n −1VntJnVn+Op(n−1), với Zn là trung bình của các biến cố có trung bình 0

Zi = logf(Yi|xi, θ0,n)− Z

g(y|xi) logf(y|xi, θ0,n)dy.

Làm tương tự cho trường hợp độc lập cùng phân bố ta cũng được kết quả tương tự.

Tóm lại, cho một lớp các mơ hình. Dùng tiêu chuẩn AIC để lựa chọn mơ hình tốt nhất ta làm như sau:

Bước 1: Tính giá trị AIC cho mỗi mơ hình. Bước 2: Chọn mơ hình có giá trị AIC lớn nhất.

Ví dụ: Dữ liệu trọng lượng sinh thấp

Trong bộ dữ liệu về trọng lượng sinh thấp có n= 189 phụ nữ và những đứa trẻ mới sinh. Kí hiệu: x1 là hằng số đánh chặn (x1 = 1);x2 là trọng lượng người mẹ trước khi mang thai; x = (1, x2)t;x3 là tuổi người mẹ; x4 là chủng tộc đen; x5 là chủng tộc khác; z = (x3, x4, x5)t. Vì trọng lượng của người mẹ được cho là có ảnh hưởng, nên chúng ta luôn bao gồm biến x2 trong tất cả mô hình.

Mơ hình `n(ˆθ) length(θ) Giá trị AIC Thứ tự x1, x2 -114.345 2 -232.691 x1, x2, x3 -113.562 3 -233.123 x1, x2, x4 -112.537 3 -231.075 (1) x1, x2, x5 -114.050 3 -234.101 x1, x2, x3, x4 -112.087 4 -232.175 (3) x1, x2, x3, x5 -113.339 4 -234.677 x1, x2, x4, x5 -111.630 4 -231.259 (2) x1, x2, x3, x4, x5 -111.330 5 -232.661

Bảng 2.1. Các giá trị AIC cho 8 mơ hình ứng cử viên hồi quy logistic cho dữ liệu trọng lượng sinh thấp

Trong kí hiệu mơ hình hồi quy logistic có cơng thức: P(trọng lượng sinh thấp|x, z) = exp(x

tβ+ztγ) 1 + exp(xtβ+ztγ),

với β = (β1, β2)t và γ = (γ1, γ2, γ3)t là các tham số ước lượng. Sử dụng xấp xỉ chuẩn cho ước lượng hợp lí cực đại θˆ= ( ˆβ,γˆ) ≈d Np(θ0, n−1Jn−1), chúng ta thu được p - giá trị tương ứng 1.307,−0.014,−0.026,1.004,0.443.

Đối với mơ hình đặc biệt này, rất dễ dàng để tính tốn cực đại loga hàm hợp lý và tìm được giá trị AIC theo yêu cầu. Thật vậy

AIC = 2 n X

i=1

{yiln ˆpi+ (1−yi) ln(1−pˆi)} −2k,

ở đó pˆi là ước lượng xác suất cho Yi = 1 dưới mơ hình và k là số các tham số ước lượng. AIC lựa chọn mơ hình chỉ bao gồm x4, xem bảng 2.1 với ước lượng xác suất trọng lượng sinh thấp

ˆ

P(trọng lượng sinh thấp|x, z) = exp(1.198−0.0166x2+ 0.891x4) 1 + exp(1.198−0.0166x2+ 0.891x4), Chúng ta chú ý rằng AIC khác nhau giữa các mơ hình xếp hạng tốt nhất là nhỏ, vì vậy chúng ta khơng thể địi hỏi chắc chắn rằng với bất kì mức độ nào mà AIC lựa chọn mơ hình x4 là cần thiết hơn các mơ hình khác.

Một phần của tài liệu (LUẬN văn THẠC sĩ) các tiêu chuẩn lựa chọn mô hình chuỗi thời gian (Trang 35 - 41)

Tải bản đầy đủ (PDF)

(64 trang)