quát
Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mơ hình [CMD07]. Một kiểu tham chiếu cĩ thể đƣợc biểu diễn bằng hàm khoảng cách ∆, kỳ vọng mục tiêu f , dữ liệu D, hàm f và phân bớ mơ hình pθ, hàm mục tiêu GEC là ∆(f, E[f x ] ). Trong [MC10], Gideon S. Mann và Andrew McCallum
đặt những hàm là phân bớ xác suất điều kiện và đặt ∆ p, q = D(p||q), phân kỳ KL là độ đo khơng đới xứng giữa 2 phân bớ xác suất p và q. Đới với huấn luyện bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn hĩa.
(2.5) Trong đĩ p là phân bớ mục tiêu và
(2.6)
Với tiềm năng khơng chính thức
(2.7) Trong đĩ fm(x,j) là một đặc trƣng phụ thuộc chỉ vào chuỗi quan sát x và j* đƣợc định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) cĩ mặt cho một sớ j.
Tính tốn Gradient (Độ chênh lệch)
Để tính độ chênh lệch của GEC, D(p ||p θ), đầu tiên giảm những điều kiện ràng buộc cĩ tính đến dẫn xuất thành phần và các tác giả thu đƣợc độ chênh lệch nhƣ sau:
(2.8) Trong đĩ y-j = <y1..(j-1)y(j+1..n)>. Bƣớc cuới cùng nhƣ sau từ định nghĩa của xác suất biên P(yi|x). Bây giờ, nhận đƣợc dạng quen thuộc lấy ra độ chênh lệch của chuỗi nhãn cụ thể, tiếp tục:
(2.9) Sau khi kết hợp các sớ hạng và sắp xếp lại, sẽ thu đƣợc dạng cuới cùng của độ chênh lệch nhƣ sau:
(2.10)
Ở đây, sớ hạng thứ 2 dễ dàng đƣợc thu thập từ thuật tốn tiến/lùi, nhƣng đạt đƣợc sớ hạng thứ nhất thì ít nhiều phức tạp hơn. Tính tốn sớ hạng này một cách chất phác sẽ địi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình bày một phƣơng pháp hiệu quả hơn và chỉ địi hỏi một thực thi của tiến/lùi. Đầu tiên, chia xác suất thành 2 phần:
. (2.11) Vậy làm thế nào để tính những sớ hạng này một cách hiệu quả? Tƣơng tự nhƣ thuật tốn tiến/lùi, xây dựng một giàn kết quả trung gian:
(2.12)
Để hiệu quả, đƣợc lƣu ở mỗi giai
đoạn trong giàn. cĩ thể đƣợc tính theo cách
tƣơng tự. Để tính giàn cần thời gian O(ns2
) và một giàn phải đƣợc tính cho mỗi nhãn, do đĩ thời gian là O(ns3
).