Phần này mô tả các biểu diễn vector đặc trưng thường được sử dụng trong mô hình gán nhãn Maximum Entropy và cũng được sử dụng trong thuật toán perceptron.
Maximum Entropy áp dụng trong bài toán gán nhãn được trình bày trong bài báo của Ratnaparkhi 96 [18] và trong [13]. Vấn đề gán nhãn được phân tách thành chuỗi các quyết định trong bài toán gán nhãn theo cách quan sát từ trái qua phải. Tại mỗi điểm sẽ có một “history” – ngữ cảnh của quyết định gán nhãn được tạo ra, và việc cần làm chính là việc đoán nhận nhãn được đưa ra đối với ngữ cảnh đó. Thông thường một ngữ cảnh là một bộ 4 – (ti-1, ti-2, w[1:n], i). Trong đó ti-2, ti-1 là hai nhãn đã được gán trước đó, w[1:n] là chuỗi từ cần gán nhãn gồm n từ, và từ đang quan sát hiện thời là từ thứ i trong chuỗi từ w[1:n]. Ta gọi H là tập tất cả các ngữ cảnh có thể. Mô hình Maximum Entropy biểu diễn việc gán nhãn thông qua một biểu diễn vectơ đặc trưng của cặp ngữ cảnh-nhãn. Một biểu diễn vectơ đặc trưng:
là một hàm ánh xạ trực tiếp mỗi cặp ngữ cảnh-nhãn vào vectơ đặc trưng
d chiều. Mỗi thành phần s(h,t) với s = 1…d có thể là một hàm tùy ý đối với (h,t). Thông thường mỗi đặc trưng s có thể là một hàm chỉ định (hàm chỉ nhận giá trị 0 hoặc 1) (ví dụ như trong bài báo của Ratnaparkhi 96). Ví dụ, nếu từ hiện thời wi là
the và t=DT:
Các đặc trưng tương tự có thể được định nghĩa đối với mỗi cặp từ/nhãn xuất hiện trong dữ liệu huấn luyện. Một kiểu đặc trưng khác có thể được sử dụng với mỗi trigram của các nhãn, ví dụ:
1 nếu từ hiện thời wi là the và t=DT 0 trong trường hợp ngược lại
Các đặc trưng tương tự có thể được định nghĩa đối với tất cả các trigram của các nhãn xuất hiện trong dữ liệu huấn luyện. Một ưu điểm của mô hình này chính là việc tự do trong cách định nghĩa các đặc trưng, trong khi người ta đã chỉ ra rằng có rất nhiều các đặc trưng không thể đưa vào mô hình sinh được. Để thuận tiện ta sẽ sử dụng kí hiệu vectơ các cặp từ/nhãn là (w[1:n], t[1:n]). Trong đó w[1:n] là chuỗi gồm n từ, t[1:n] là một chuỗi nhãn đầu vào. Ta sử dụng là một biểu diễn “toàn cục” (global presentation), còn là một biểu diễn “cục bộ” (local presentation). Các biểu diễn toàn cục được nhắc đến trong bài báo này được hiểu như là các hàm đơn giản của các đặc trưng cục bộ:
Trong đó hi = <ti-1, ti-1, w[1:n], i> . Mỗi đặc trưng toàn cục s(w[1:n], t[1:n]) đơn giản chỉ là giá trị tổng của các biểu diễn cục bộ trên tất cả các cặp ngữ cảnh/nhãn trong (w[1:n], t[1:n]). Nếu các đặc trưng cục bộ là các hàm chỉ định (chỉ nhận giá trị là 0 hoặc 1) thì thuộc tính toàn cục chính là một hàm đếm. Ví dụ với
1000 được định nghĩa như trên, thì 1000(w[1:n], t[1:n]) chính là số lần xuất hiện của từ the được gán nhãn DT xuất hiện trong (w[1:n], t[1:n]).