Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng . Mỗi thành phần
Trong bài toán nhâ ̣n biết các loa ̣i thực thể , X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên , Y là một chuỗi ngẫu nhiên các tên thực thể tương ứng với các câu này và mỗi mô ̣t thành phần Yi của Y có miề n giá tri ̣ là tâ ̣p tất cả các nhãn tên thực thể (tên người, tên đi ̣a danh,...).
Cho mô ̣t đồ thi ̣ vô hướng không có chu trình G=(V, E), với V là tập các đỉnh của đồ thi ̣ và E là tập các cạnh vô hướng nối các đỉnh đồ thị . Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xa ̣ mô ̣t -mô ̣t giữa mô ̣t đỉnh và mô ̣t thành phần của YvY. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional Random Field - CRF) khi vớ i điều kiê ̣n X, các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thi ̣ G:
P(Yv | X,Y,v)P(Yv |X,Y,N(v)) (II.2.4) Ở đây , N(v) là tập tất cả các đỉnh kề với v. Như vậy , mô ̣t CRF là mô ̣t trường ngẫu nhiên phu ̣ thuô ̣c toàn cu ̣c vào X. Trong các bài toán xử lý dữ liê ̣u da ̣ng chuỗi, G đơn giản chỉ là da ̣ng chuỗi G=(V={1,2,…m},E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1, Y2, ..., Yn). Mô hình đồ thi ̣ cho CRF có dạng:
Hình 5: Đồ thị vô hướng mô tả CRF
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G − đồ thị biểu diễn cấu trúc của mô ̣t CRF . Áp dụng kết quả của Hammerley -Clifford cho các
Yn-1
Y1
X
Y3
với điều kiê ̣n biết chuỗi dữ liê ̣u quan sát , bằng tích của các hàm tiềm năng như sau : ( | ) A( | ) A C p A y x x (II.2.5)
Vì trong các bài toán xử lý dữ liệu dạng chuỗi , đồ thi ̣ biểu diễn cấu tr úc của một CRF có dạng đường thẳng như trong hình 5, nên tâ ̣p C phải là hợp của E và
V. Trong đó , E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con A hoặc chỉ gồm mô ̣t đỉnh hoă ̣c chỉ gồm mô ̣t ca ̣nh của G.
Bằng cách áp du ̣ng nguyên lý cực đa ̣i hóa Entropy , Lafferty xác đi ̣nh hàm tiềm năng của mô ̣t CRF có da ̣ng mô ̣t hàm mũ:
| exp |
A k k
k
A f A
x x (II.2.6)
Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và k là trọng số chỉ mức đô ̣ biểu đa ̣t thông tin của thuô ̣c tính fk.
Tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G , có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính tra ̣ng thái (kí hiệu là
s). Thay các hàm tiềm năng vào công thức (3.2) và thêm vào đó một thừa sổ chuẩn hóa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liê ̣u quan sát luôn bằng 1, ta được:
1 1 ( | ) exp ( , , ) ( , ) ( ) i k k k i i i k k k i p t s Z y x y y x y x x (II.2.7)
Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng ; tk là thuô ̣c tính của toàn bô ̣ chuỗi quan sát và các tra ̣ng thái ta ̣i ví trí i-1, i trong chuỗi trạng thái; sk là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí i trong chuỗi tra ̣ng thái. Ví dụ:
si =
Thừa số chuẩn hóa Z(x) được tính như sau: 1 ( ) exp k k( i , i, ) k k( , )i y i k i k Z t s x y y x y x (II.2.8) ..) ,..., , (1 2 1,2
là các vector các tham số của mô hình . Giá trị các tham số đươ ̣c ước lượng nhờ các phương pháp ước lượng tham số cho mô hình sẽ được đề cập trong phần sau.
Mỗi thuộc tính trạng thái hoặc thuộc tính chuyển trạng thái được biểu đạt bởi các hàm nhận giá trị thực gọi là hàm đặc trưng. Tổng quát hơn ta có thể định nghĩa lại các hàm đặc trưng tưng ứng với các thuộc tính trạng thái hoặc thuộc tính chuyển trạng thái lần lượt là fij(y, y‟, x) và fio(y, y‟, x) như trong phần II.2.1. Ta có thể viết lại (II.2.7) như sau:
1 1 1 ( | ) exp ( , , ) ( ) K k k i i i i k p f y y x Z x y x (II.2.9)
Ta thấy (II.2.9) và (II.2.3) khá giống nhau. Điểm khác biệt ở đây chính là ở thừa số chuẩn hóa và giá trị của hàm đặc trưng fk. Thứ nhất, HMMs sử dụng một hằng chuẩn hóa độc lập đối với phân phối đồng thời, còn CRFs sử dụng một thừa số chuẩn hóa phụ thuộc vào chuỗi quan sát Z(x) đối với phân phối điều kiện. Thứ hai, hàm đặc trưng trong CRFs có thể là tùy ý trên toàn bộ chuỗi quan sát, hay nói cách khác các đặc trưng trong CRFs đa dạng hơn nhiều so với các đặc trưng của HMMs. Vì thế việc triển khai trong CRFs cũng phức tạp hơn rất nhiều so với mô hình HMMs. Hơn nữa, các đặc trưng này không nhất thiết chỉ xác định đối với một trạng thái hay một quan sát, điều này cho phép hy vọng CRFs có thể sử dụng ít dữ liệu huấn luyện hơn so với HMMs cho việc ước lượng mô hình.
ti =
1 nếuxi-1= “Bill”, xi=”Clinton” vàyi-1=B_PER, yi=I_PER 0 nếu ngược la ̣i