Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát

Một phần của tài liệu LUẬN VĂN:TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT ppt (Trang 26 - 28)

quát

Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mô hình [CMD07]. Một kiểu tham chiếu có thể được biểu diễn bằng hàm khoảng cách , kỳ vọng mục tiêu , dữ liệu D, hàm f và phân bố mô hình , hàm mục tiêu GEC là . Trong [MC10], Gideon S. Mann và Andrew McCallum đặt những hàm là phân bố xác suất điều kiện và đặt , phân kỳ KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn hóa.

(2.5)

Trong đó là phân bố mục tiêu và

(2.6)

Với tiềm năng không chính thức

(2.7) Trong đó fm(x,j) là một đặc trưng phụ thuộc chỉ vào chuỗi quan sát x và j* được định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho một số j.

Để tính độ chênh lệch của GEC, D( , đầu tiên giảm những điều kiện ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu được độ chênh lệch như sau:

(2.8) Trong đó y-j = <y1..(j-1)y(j+1..n)>. Bước cuối cùng như sau từ định nghĩa của xác suất biên P(yi|x). Bây giờ, nhận được dạng quen thuộc lấy ra độ chênh lệch của chuỗi nhãn cụ thể, tiếp tục:

(2.9) Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu được dạng cuối cùng của độ chênh lệch như sau:

(2.10)

Ở đây, số hạng thứ 2 dễ dàng được thu thập từ thuật toán tiến/lùi, nhưng đạt được số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính toán số hạng này một cách chất phác sẽ đòi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình

bày một phương pháp hiệu quả hơn và chỉ đòi hỏi một thực thi của tiến/lùi. Đầu tiên, chia xác suất thành 2 phần:

. (2.11)

Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tương tự như thuật toán tiến/lùi, xây dựng một giàn kết quả trung gian:

(2.12)

Để hiệu quả, được lưu ở mỗi giai

đoạn trong giàn. có thể được tính theo cách tương tự. Để tính giàn cần thời gian O(ns2) và một giàn phải được tính cho mỗi nhãn, do đó thời gian là O(ns3).

Một phần của tài liệu LUẬN VĂN:TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT ppt (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(51 trang)