Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần, một là thông tin ngữ cảnh tai vị trí i của chuỗi dữ liệu quan sát, một là phần thông tin về nhãn tương
ứng. Công việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh
(context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại môt vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context predicate) tại vị trí đó. Mỗi thông tin ngữ cảnh tại i khi kết hợp với thông tin nhãn tương ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dữ liệu quan sát tại i. Như
vậy một khi đã có các mẫu ngữ cảnh, ta có thể rút ra được hàng nghìn thuộc tính một cách tựđộng từ tập dữ liệu huấn luyện.
Xét một cửa sổ trượt với kích cỡ bằng 5 trượt dọc theo dữ liệu đang xét như ví dụ
trong hình 14. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng cho MEM, CRF và SVM được cho trong bảng 7.
44
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng
Loại Ký hiệu Giải thích Thông tin
từ vựng
w-2, w-1, w0, w1, w2 wicho biết dữ liệu quan sát được tại vị trí thứ i trong chuỗi đầu vào (chuỗi đầu vào
được coi là chuỗi nằm trong cửa số trượt với kích cỡ 5). Trong đó wi là dữ liệu quan sát được ngay tại vị trí hiện tại. Thông tin nhãn từ loại t-2, t-1 ti cho biết nhãn của từ tại vị trí thứ i trong chuỗi đầu vào.
Ký hiệu thông tin ngữ cảnh (còn được gọi là lịch sử) là h, thông tin về nhãn là t, xác suất đồng thời của lịch sửh và thông tin về nhãn tđược xác định bằng các tham số
mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Khi cho trước (h, t), một đặc trưng phải tồn tại trên bất cứ từ nào hoặc nhãn nào trong lịch sửh, và phải chứa thông tin giúp dự đoán nhãn t, ví dụ như thông tin chính tả của từ hiện tại, hoặc thông tin về hai nhãn trước từ hiện tại. Ngữ cảnh từ và nhãn xác định đối với một đặc trưng được cho bằng định nghĩa của lịch sửh, như công thức (4.1).
, , , , , , ,
{ }
i i i 1 i 2 i 1 i 2 i 1 i 2
h w w w w w t t (4.1) Ví dụ: Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi “3000 đồng” ta được ngữ cảnh w0: đồng. Giả sử trong dữ liệu huấn luyện, từđồng trong chuỗi dữ liệu trên
được gán nhãn Nu (Với Nu là nhãn danh từđơn vị trong tập nhãn Viet Tree Bank), kết hợp với ngữ cảnh ta có thể rút ra được một thuộc tính của chuỗi dữ liệu quan sát là
fi(h,t) = 1 nếu từ hiện tại là “đồng” và nhãn là Nu 0 nếu ngược lại N N , N C tiếng máy_bay , bầu_trời như w-2 w-1 w0 w1 w2 R V V A
được vút lên cao
t1 t2
V Dứt
45