Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát

Một phần của tài liệu Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát (Trang 25)

quát

Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mô hình [CMD07]. Một kiểu tham chiếu có thể đƣợc biểu diễn bằng hàm khoảng cách ∆, kỳ vọng mục tiêu f , dữ liệu D, hàm f và phân bố mô hình pθ, hàm mục tiêu GEC là ∆(f, E[f x ] ). Trong [MC10], Gideon S. Mann và Andrew McCallum

đặt những hàm là phân bố xác suất điều kiện và đặt ∆ p, q = D(p||q), phân kỳ KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn hóa.

(2.5) Trong đó p là phân bố mục tiêu và

(2.6)

Với tiềm năng không chính thức

(2.7) Trong đó fm(x,j) là một đặc trƣng phụ thuộc chỉ vào chuỗi quan sát x và j* đƣợc định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho một số j.

Tính toán Gradient (Độ chênh lệch)

Để tính độ chênh lệch của GEC, D(p ||p θ), đầu tiên giảm những điều kiện ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu đƣợc độ chênh lệch nhƣ sau:

(2.8) Trong đó y-j = <y1..(j-1)y(j+1..n)>. Bƣớc cuối cùng nhƣ sau từ định nghĩa của xác suất biên P(yi|x). Bây giờ, nhận đƣợc dạng quen thuộc lấy ra độ chênh lệch của chuỗi nhãn cụ thể, tiếp tục:

(2.9) Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu đƣợc dạng cuối cùng của độ chênh lệch nhƣ sau:

(2.10)

Ở đây, số hạng thứ 2 dễ dàng đƣợc thu thập từ thuật toán tiến/lùi, nhƣng đạt đƣợc số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính toán số hạng này một cách chất phác sẽ đòi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình bày một phƣơng pháp hiệu quả hơn và chỉ đòi hỏi một thực thi của tiến/lùi. Đầu tiên, chia xác suất thành 2 phần:

. (2.11) Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tƣơng tự nhƣ thuật toán tiến/lùi, xây dựng một giàn kết quả trung gian:

(2.12)

Để hiệu quả, đƣợc lƣu ở mỗi giai

đoạn trong giàn. có thể đƣợc tính theo cách

tƣơng tự. Để tính giàn cần thời gian O(ns2

) và một giàn phải đƣợc tính cho mỗi nhãn, do đó thời gian là O(ns3

).

Một phần của tài liệu Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát (Trang 25)