quát
Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mô hình [CMD07]. Một kiểu tham chiếu có thể đƣợc biểu diễn bằng hàm khoảng cách ∆, kỳ vọng mục tiêu f , dữ liệu D, hàm f và phân bố mô hình pθ, hàm mục tiêu GEC là ∆(f, E[f x ] ). Trong [MC10], Gideon S. Mann và Andrew McCallum
đặt những hàm là phân bố xác suất điều kiện và đặt ∆ p, q = D(p||q), phân kỳ KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn hóa.
(2.5) Trong đó p là phân bố mục tiêu và
(2.6)
Với tiềm năng không chính thức
(2.7) Trong đó fm(x,j) là một đặc trƣng phụ thuộc chỉ vào chuỗi quan sát x và j* đƣợc định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho một số j.
Tính toán Gradient (Độ chênh lệch)
Để tính độ chênh lệch của GEC, D(p ||p θ), đầu tiên giảm những điều kiện ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu đƣợc độ chênh lệch nhƣ sau:
(2.8) Trong đó y-j = <y1..(j-1)y(j+1..n)>. Bƣớc cuối cùng nhƣ sau từ định nghĩa của xác suất biên P(yi|x). Bây giờ, nhận đƣợc dạng quen thuộc lấy ra độ chênh lệch của chuỗi nhãn cụ thể, tiếp tục:
(2.9) Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu đƣợc dạng cuối cùng của độ chênh lệch nhƣ sau:
(2.10)
Ở đây, số hạng thứ 2 dễ dàng đƣợc thu thập từ thuật toán tiến/lùi, nhƣng đạt đƣợc số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính toán số hạng này một cách chất phác sẽ đòi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình bày một phƣơng pháp hiệu quả hơn và chỉ đòi hỏi một thực thi của tiến/lùi. Đầu tiên, chia xác suất thành 2 phần:
. (2.11) Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tƣơng tự nhƣ thuật toán tiến/lùi, xây dựng một giàn kết quả trung gian:
(2.12)
Để hiệu quả, đƣợc lƣu ở mỗi giai
đoạn trong giàn. có thể đƣợc tính theo cách
tƣơng tự. Để tính giàn cần thời gian O(ns2
) và một giàn phải đƣợc tính cho mỗi nhãn, do đó thời gian là O(ns3
).