Các đặc trưng dựa vào thông tin từ vựng và thông t- 123docz.net

Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần, một là thông tin ngữ cảnh tai vị trí i của chuỗi dữ liệu quan sát, một là phần thông tin về nhãn tương

ứng. Công việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh

(context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại môt vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context predicate) tại vị trí đó. Mỗi thông tin ngữ cảnh tại i khi kết hợp với thông tin nhãn tương ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dữ liệu quan sát tại i. Như

vậy một khi đã có các mẫu ngữ cảnh, ta có thể rút ra được hàng nghìn thuộc tính một cách tựđộng từ tập dữ liệu huấn luyện.

Xét một cửa sổ trượt với kích cỡ bằng 5 trượt dọc theo dữ liệu đang xét như ví dụ

trong hình 14. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng cho MEM, CRF và SVM được cho trong bảng 7.

Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng

Loại Ký hiệu Giải thích Thông tin

từ vựng

w-2, w-1, w0, w1, w2 wicho biết dữ liệu quan sát được tại vị trí thứ i trong chuỗi đầu vào (chuỗi đầu vào

được coi là chuỗi nằm trong cửa số trượt với kích cỡ 5). Trong đó wi là dữ liệu quan sát được ngay tại vị trí hiện tại. Thông tin nhãn từ loại t-2, t-1 ti cho biết nhãn của từ tại vị trí thứ i trong chuỗi đầu vào.

Ký hiệu thông tin ngữ cảnh (còn được gọi là lịch sử) là h, thông tin về nhãn là t, xác suất đồng thời của lịch sửh và thông tin về nhãn tđược xác định bằng các tham số

mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Khi cho trước (h, t), một đặc trưng phải tồn tại trên bất cứ từ nào hoặc nhãn nào trong lịch sửh, và phải chứa thông tin giúp dự đoán nhãn t, ví dụ như thông tin chính tả của từ hiện tại, hoặc thông tin về hai nhãn trước từ hiện tại. Ngữ cảnh từ và nhãn xác định đối với một đặc trưng được cho bằng định nghĩa của lịch sửh, như công thức (4.1).

, , , , , , ,

{ }

i i i 1 i 2 i 1 i 2 i 1 i 2

h  w w w w w t t      (4.1) Ví dụ: Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi “3000 đồng” ta được ngữ cảnh w0: đồng. Giả sử trong dữ liệu huấn luyện, từđồng trong chuỗi dữ liệu trên

được gán nhãn Nu (Với Nu là nhãn danh từđơn vị trong tập nhãn Viet Tree Bank), kết hợp với ngữ cảnh ta có thể rút ra được một thuộc tính của chuỗi dữ liệu quan sát là

fi(h,t) = 1 nếu từ hiện tại là “đồng” và nhãn là Nu 0 nếu ngược lại N N , N C tiếng máy_bay , bầu_trời như w-2 w-1 w0 w1 w2 R V V A

được vút lên cao

t1 t2

V Dứt

Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại

Các nghiên cứu dựa trên phương pháp lai

Hạn chế của mô hình MEM