Kỹ thuật sử dụng để đánh giá tham số cho mô hình CRFs là làm cực đại hóa độ đo likelihood của tập huấn luyện.
Giả sử dữ liệu huấn luyện gồm một tập N cặp, mỗi cặp gồm một chuỗi quan sát và một chuỗi trạng thái tƣơng ứng = {( (i), (i))} i = 1... }. Độ đo likelihood giữa tập huấn luyện và mô hình điều kiện tƣơng ứng ( | , ) là
ở đây ( là cáctham số của mô hình và là phân phối thực nghiệm đồng thời của x, y trong tập huấn luyện.
Nguyên lý cực đại likelihood:
Các tham số tốt nhất của mô hình là các tham số làm cực đại hàm likelihood.
ML = arg max L() (3.7)
ML đảm bảo những dữ liệu mà chúng ta quan sát đƣợc trong tập huấn luyện sẽ nhận đƣợc xác suất cao trong mô hình. Nói cách khác, các tham số làm
cực đại hàm likelihood sẽ làm phân phối trong mô hình gần nhất với phân phối thực nghiệm trong tập huấn luyện. Vì việc tính dựa theo công chức (3.7) rất khó khăn, nên thay vì tính toán trực tiếp, cần xác định làm cực đại logarit của hàm likelihood:
Vì hàm logarit là hàm đơn điệu, nên việc làm này không làm thay đổi giá trị của đƣợc chọn.
Thay p(y|x, ) của mô hình CRF vào công thức (3.8), ta có:
ở đây, (1, 2,…, n) và (1, 1,…, 1) là các vector tham số của mô hình, f là vector các thuộc tính (f1(yi-1, yi, x), f2(yi-1, yi, x),…), g là vector các thuộc tính (g1(yi, x), g2(yi, x),…).
Hàm log likelihood cho mô hình CRFs là một hàm lõm và trơn trong toàn bộ không gian của tham số. Bản chất của hàm lõm của log-likelihood cho phép ta có thể tìm đƣợc giá trị cực đại toàn cục bằng cách thiết lập các thành phần của vector gradient của log-likelihood bằng không. Mỗi thành phần trong vector gradient của hàm log-likelihood là đạo hàm log-likelihood theo tham số k, nhận đƣợc:
Việc thiết lập phƣơng trình trên bằng 0 tƣơng đƣơng với việc đƣa ra một ràng buộc cho mô hình: giá trị trung bình của fk theo phân phối ) bằng giá trị trung bình của fk theo phân phối thực nghiệm .
Về phƣơng diện toán học, bài toán ƣớc lƣợng tham số cho một mô hình CRFs chính là bài toán tìm cực trị của hàm log-likelihood. Trong các phƣơng pháp tìm cực trị của hàm đa biến bằng cách sử dụng các thông tin về vector gradient, phƣơng pháp L-BFGS đƣợc đánh giá là hội tụ nhanh và hiệu quả hơn so với các phƣơng pháp khác. Ƣu điểm của phƣơng pháp này là tránh đƣợc việc tính toán trực tiếp ma trận Hessian của hàm log-likelihood trong quá trình tìm cực trị.
Thuật toán gán nhãn cho dữ liệu dạng chuỗi:
Tại mỗi vị trí i trong chuỗi quan sát, ta xác định ma trận |S|*|S| nhƣ sau : (3.11)
Chuỗi trạng thái y* mô tả tốt nhất cho chuỗi dữ liệu quan sát x là nghiệm của phƣơng trình :
*
= (3.13)
Thuật toán Viterbi tìm chuỗi y*:
Gọi là xác suất của “chuỗi trạng thái độ dài kết thúc bởi trạng thái và có xác suất lớn nhất”, biết chuỗi quan sát là x. Với mọi trạng thái ‟ trong tập trạng thái :
(3.14)
Đặt (3.15)
Giả sử chuỗi dữ liệu quan sát x có độ dài n, sử dụng kỹ thuật quay lui để tìm chuỗi trạng thái * tƣơng ứng nhƣ sau:
Bước 1: Với mọi thuộc tập trạng thái tìm
Bước lặp: Chừng nào
*