2.1 Tiêu chuẩn thông tin Akaike
2.1.1 Khoảng cách Kullback Leibler
Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullblack - Leibler là một "độ đo" không đối xứng dùng để đo sự khác nhau giữa hai phân bố P và Q. Cụ thể hơn, độ lệch Kullback - Leibler của Q khỏi P ký hiệu là KL(P || Q) là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn khoảng cách Kullback - Leibler đo số bit trung bình dư ra để mã hóa một mẫu
khi dùng Q thay vì dùng P. Khái niệm này xuất hiện trong lý thuyết thông tin và được đưa ra bởi Solomon Kullback và Richard Leibler năm 1951.
Định nghĩa 2.1.1 (i) Cho các phân phối xác suất rời rạc P và Q. Khoảng cách Kullblack - Leibler của Q từ P được định nghĩa là
KL(P||Q) =X i
P(i) lnP(i) Q(i)
(ii) Cho các phân phối xác suất liên tục P và Q. Khoảng cách Kullback - Leibler của Q từ P được định nghĩa là tích phân
KL(P||Q) = Z +∞ −∞ p(x) lnp(x) q(x)dx ở đó p và q là kí hiệu mật độ của P và Q.
(iii) Tổng quát hơn, nếu P và Q là các độ đo xác suất trên một tập X và Q liên tục tuyệt đối theo P, khi đó khoảng cách Kullblack - Leibler từ P tới Q được định nghĩa là KL(P||Q) = Z X lndP dQdP ở đó dP
dQ là đạo hàm Radon - Nikodym của Q theo P. Nếu µ là một độ đo nào đó trên X mà p= dP
dµ và q = dQ
dµ tồn tại, khi đó khoảng cách Kullback - Leibler từ P tới Q là
KL(P||Q) = Z X plnp qdµ Tính chất
(i) KL(P||Q) ≥0. KL(P||Q) = 0⇔P =Q hầu khắp nơi.
(ii) Khoảng cách Kullback - Leibler là định nghĩa tốt cho phân phối liên tục và bất biến dưới các phép biến đổi tham số.
(iii) Khoảng cách Kullback - Leibler là cộng tính đối với các phân phối độc lập. Nếu P1, P2 là các phân phối độc lập với P(x, y) = P1(x).P2(y) và Q(x, y) =
Q1(x).Q2(y) khi đó
KL(P||Q) =KL(P1||Q1) +KL(P2||Q2)
(iv) Khoảng cách Kullback - Leibler của phân phối Q từ phân phối P không phải là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P.
2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback - Leibler
Mục tiêu của phần này là tìm hiểu về mối liên hệ giữa phương pháp hợp lý cựa đại và khoảng cách Kullback - Leibler trong hai trường hợp độc lập cùng phân bố và trường hợp truy hồi quy. Trước hết, chúng ta bắt đầu với một minh họa đơn giản để thấy được cách hoạt động của phương pháp hợp lý cực đại, nó sử dụng dữ liệu và một mơ hình tham số để cung cấp một mơ hình ước lượng.
Ví dụ: Ước lượng dữ liệu trọng lượng sinh thấp
Trong bộ dữ liệu về trọng lượng thấp (Hosmer and Lemeshow, 1999) có một tổng n = 189 phụ nữ và những đứa trẻ mới sinh. ở đây chúng ta chỉ ra cách mà phương pháp hợp lý cực đại sử dụng để ước lượng các tham số của mơ hình đưa ra. Các biến kết quảY1, ..., Yn độc lập là các biến ngẫu nhiên nhị phân (0 - 1), tức cho giá trị là 1 khi đứa trẻ sinh có trọng lượng thấp và 0 trong trường hợp ngược lại. Các biến khác x2,i là trọng lượng của người mẹ;x3,i là tuổi người mẹ; x4,i chỉ chủng tộc đen; x5,i chỉ chủng tộc khác. Chúng ta có xi = (1, x2,i, x3,i, x4,i, x5,i)t. Hầu hết mơ hình thơng thường cho các tình huống như vậy là mơ hình hồi quy logistic, cho cơng thức
P(Yi = 1|xi) = pi = exp(x t iθ) 1 + exp(xtθ)
với i= 1, ..., n;θ là một vectơ tham số 5 chiều. hàm hợp lý Ln(θ) là tích của các số hạng pyii (1−pi)1−yi, dẫn đến loga hàm hợp lý có dạng `n(θ) = n X i=1 {yilnpi+ (1−yi) ln(1−pi)} = n X i=1 yixtiθ−ln{1 + exp(xtiθ)}
Một ước lượng hợp lý cực đại cho θ được tìm thấy bằng cách cực đại `n(θ) theo θ,θˆ= (1.307,−0.014,−0.026,1.004,0.443)t.
Nhìn chung các mơ hình mà chúng ta xây dựng cho các quan sát Y = (Y1, ..., Yn) chứa một số các tham số θ = (θ1, ..., θp)T, kí hiệu f(y, θ) là hàm mật độ đồng thời cho Y. Khi đó hàm hợp lý sẽ là
Ln(θ) = f(yobs, θ),
với yobs là giá trị dữ liệu quan sát. Chúng ta thường làm việc với loga hàm hợp lý `n(θ) = logLn(θ) thay vì hàm hợp lý. Ước lượng hợp lý cực đại của θ làm cực đại Ln(θ) là ˆ θ= ˆθM L =argmax θ (Ln) =argmax θ (`n) a. Trường hợp độc lập và cùng phân phối
Hàm hợp lý và loga hàm hợp lý có thể được viết là Ln(θ) = n Y i=1 f(yi, θ) và `n(θ) = n X i=1 logf(yi, θ)
Khoảng cách gắn liền với phương pháp hợp lý cực đại là khoảng cách Kullback - Leibler
KL(g, f(., θ)) = Z
g(y) log g(y) f(y, θ)dy =
Z
g(y) logg(y)dy− Z
g(y) logf(y, θ)dy
(2.1)
nó là khoảng cách từ mật độ đúng g tới xấp xỉ của nó là f(., θ). Áp dụng luật số lớn
1
n`n(θ)−−→a.s. Z
Ước lượng hợp lý cực đại θˆmà cực đại `n(θ) có xu hướng hội tụ hầu chắc chắn tới θ0 là giá trị cực tiểu của khoảng cách Kullback - Leibler từ mơ hình thật tới mơ hình xấp xỉ. Như vậy
ˆ
θ −−→a.s. θ0 =argmin θ
{KL(g, f(., θ))} giá trị θ0 gọi là sai số nhỏ nhất hoặc xấp xỉ tốt nhất. Nhận xét:
Như vậy ước lượng hợp lý cực đại nhằm cung cấp xấp xỉ tham số tốt nhất với mật độ đúng g trong lớp tham số f(., θ). Nếu mơ hình tham số là thật sự đầy đủ và chính xác, khi đó g(y) = f(y, θ0) và cực tiểu của khoảng cách Kullback - Leibler là bằng 0.
Ta xác định
u(y, θ) = ∂logf(y, θ)
∂θ và I(y, θ) = ∂
2logf(y, θ) ∂θ∂θt
u(y, θ) là một hàm vectơ p - chiều thường gọi là vectơ điểm số của mơ hình với các thành phần ∂logf(y, θ)
∂θj với j = 1, ..., p;I(y, θ) là một ma trận cỡ p×p gọi là hàm ma trận thơng tin của mơ hình, các thành phần của nó là các đạo hàm cấp hai ∂
2logf(y, θ)
∂θj∂θk với j, k = 1, ..., p. Chú ý rằng vì tham số sai số nhỏ nhất cực tiểu khoảng cách Kullback - Leibler nên
Egu(Y, θ0) = Z
g(y)u(y, θ0)dy = 0 Chúng ta cũng cần xác định
J =−EgI(Y, θ0) và K =V argu(Y, θ0) (2.2) Các ma trận cỡ p×p là giống nhau khi g(y) bằng với f(y, θ0),∀y. Trong các trường hợp như vậy, ma trận
J(θ0) = Z
f(y, θ0)u(y, θ0)u(y, θ0)tdy=− Z
f(y, θ0)I(y, θ0)dy (2.3) được gọi là ma trận thơng tin Fisher của mơ hình.
Dưới các điều kiện chính quy và cơ bản khác nhau, có thể chứng minh rằng ˆ
θ =θ0+J−1Un+Op(n−1/2) ở đó, Un =n−1Pni=1u(Yi, θ0).
Kí hiệu Zn =Op(n−1/2), nghĩa là √nZn = Op(1) hội tụ tới 0 theo xác suất. Từ định lý giới hạn trung tâm có sự hội tụ theo phân phối
√
nUn −→d U0 ∼Np(0, K) Kết hợp với trên suy ra
√
n(ˆθ−θ0)−→d J−1U0 =Np(0, J−1KJ−1). b. Trường hợp hồi quy
Các mơ hình hồi quy bao gồm các quan sát (xi, Yi). Ký hiệu g(y|x) là mật độ thật cho Y|x. Mơ hình tham số sử dụng mật độ f(y|x, θ), khi đó loga hàm hợp lý sẽ là `n(θ) = n X i=1 logf(yi|xi, θ).
Giả sử xa hơn rằng có một số phân phối covarian cơ sở C mà tạo ra các vectơ covarian x1, ..., xn. Khi đó 1
n Pn
i=1a(xi) hội tụ tới R a(x)dC(x), với một hàm a bất kỳ sao cho tích phân này tồn tại và loga hàm hợp lý
1
n`n(θ) → Z Z
g(y|x) logf(y|x, θ)dydC(x)
Đối với vectơ covarian x đã cho, khoảng cách Kullback - Leibler được xác định như sau
KLx(g(.|x), f(.|x, θ)) = Z
g(y|x) log g(y|x) f(y|x, θ)dy
Một cách đầy đủ khoảng cách Kullback - Leibler đạt được bởi tích phân KLx theo phân phối covarian
KL(g, fθ) = Z Z
g(y|x) log g(y|x)
Ước lượng hợp lý cực đại θˆcó xu hướng hội tụ hầu chắc chắn tới giá trị tham số sai số nhỏ nhất mà cực tiểu KL(g, fθ).
Để đưa ra các kết quả, ta cần hàm điểm số p×1 và hàm ma trận thơng tin p×p của mơ hình
u(y|x, θ) = ∂logf(y|x, θ)
∂θ và I(y|x, θ) = ∂
2logf(y|x, θ) ∂θ∂θt
Choθ0,n là giá trị tham số sai số nhỏ nhất liên quan với mật độg(y|x). Xác định các ma trận Jn =−n−1 n X i=1 Z g(y|xi)I(y|xi, θ0,n)dy, Kn =n−1 n X i=1 V argu(Y|xi, θ0,n);
đây là những mơ hình hồi quy tương đồng của J và K. Dưới các điều kiện bản chất của loại tuyến tính có một sự hội tụ theo xác suất củaJn và Kn tới các giới hạn J và K và √ nUn =n−1/2 n X i=1 u(Yi|xi, θ0,n)
hội tụ theo phân phối tới U0∼Np(0, K). Một đại diện quan trọng cho ước lượng hợp lý cực đại là
√
n(ˆθ−θ0,n) =Jn−1√
nUn+Op(1)
mà cũng dẫn đến phân phối giới hạn chuẩn, thậm chí khi mơ hình giả định khơng bằng mơ hình thật,
√
n(ˆθ−θ0,n) −→d J−1U0 ∼Np(0, J−1KJ−1) Các ước lượng cho Jn và Kn là
ˆ Jn =−n−1∂2`n(ˆθ)/∂θ∂θt=−n−1 n X i=1 I(yi|xi,θ)ˆ ˆ Kn =n−1 n X u(yi|xi,θ)u(yi|xi,ˆ θ)ˆt (2.4)
Chú ý rằngJn =Kn khi mơ hình giả định bằng với mơ hình thật và trong trường hợp này Jˆn và Kˆn là các ước lượng của cùng một ma trận.
Ví dụ: Hồi quy tuyến tính chuẩn
Giả sử Yi = xtiβ+σεi với β là một vectơ p - chiều của các hệ số hồi quy, ở đó ε1, ..., εn là độc lập cùng phân phối. Hàm hợp lý là Ln(σ) = 1 (σ√2π)ne −Pn i=1(yi−xt iβ)2 2σ2 Khi đó loga hàm hợp lý là `n(σ) = n X i=1 {−1 2(yi−x t iβ)2/σ2−lnσ−1 2ln(2π)}
Giả sử rằng εi không nhất thiết là chuẩn nhưng có trung bình 0, độ lệch chuẩn 1. Sau khi tính tốn dẫn đến J = 1 σ2 P n 0 0 2 và Kn = 1 σ2 P n k3xn k3xtn 2 +k4 với P
n =n−1Pni=1xixti, k3=Eε3i và k4=Eε4i −3. Ví dụ: Hồi quy Poisson
Xem xét mơ hình hồi quy Poisson cho dữ liệu độc lập Y1, ..., Yn trong các số hạng của các vectơ covarian p - chiều x1, ..., xn mà Yi là Poisson với tham số ξi = exp(xt
iβ). Ta có
f(Yi|xi, β) = e
−ξi.(ξi)Yi Yi!
⇒lnf(Yi|xi, β) =−ξi+Yilnξi−lnYi! =−exp(xtiβ) +Yi(xtiβ)−lnYi! ⇒u(Yi|xi, β) = ∂lnf(Yi|xi, β) ∂β =−xtiexp(xtiβ) +Yixti, ∂2lnf(Yi|xi, β) ∂β∂β =−exp(xtiβ)xixti ⇒I(Yi|xi, β) =−exp(xtiβ)xixti ⇒Jˆn =−n−1 n X i=1 I(Yi|xi,β) =ˆ n−1 n X i=1 ˆ ξixixti, ở đó, ξiˆ = exp(xtiβ).ˆ Ước lượng cho Kn là
ˆ Kn =n−1 n X i=1 u(Yi|xi,β)u(Yˆ i|xi,β)ˆ t =n−1 n X i=1 (Yi−ξˆi)2xixti
Khi mơ hình giả định bằng mơ hình thật các ma trận ước lượng này là như nhau.