STT Tên nhãn Ý nghĩa của nhãn
1 NN Danh từ thường 2 NC Danh từ chỉ loại 3 NP Danh từ riêng 4 VB Động từ 5 JJ Tính từ 6 PP Đại từ 7 D Định từ và số từ 8 AD Phụ từ 9 IN Giới từ 10 CC Liên từ 11 UH Thán từ 12 RB Trợ từ 13 TN Thành ngữ 14 X Các từ không thể gán nhãn được 15++ Ký hiệu Các ký hiệu đặc biệt khác (#, ^, &, …) Một câu ví dụ ở bộ dữ liệu thứ hai:
Tờ//NC Wall_Street_Journal//NP ghi//VB lời//NC phát_biểu//VB của//IN Tổng_Giám_đốc//NN kiêm//VB Giám_đốc_điều_hành//NN Mazda//NP,//, Hisakazu_Imaki//NP ://: Chúng_tơi//PP sẽ//AD đảm_nhiệm//VB vai_trị//NN phát_triển//VB nền_tảng//NN kiến_trúc//NN cho//IN các//D thế_hệ//NN xe//NN Ford//NP hạng//NC nhỏ//JJ trong//IN tương_lai//NN.//.
Nhìn chung cả hai tập nhãn đều mới được xây dựng ở mức thô, nhưng tạm thời trong các yêu cầu trước mắt thì số lượng nhãn là đủ đáp ứng yêu cầu thực nghiệm để
đối chiếu, so sánh kết quả đạt được khi sử dụng các mơ hình học máy khác nhau cho bài tốn gán nhãn từ loại.
4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị
Lựa chọn các thuộc tính từ tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất, giữ vai trò quyết định chất lượng của một hệ thống gán nhãn từ loại. Các thuộc tính được lựa chọn càng tinh tế thì độ chính xác của hệ thống càng tăng. Tập các đặc trưng sử dụng trong thực nghiệm của khố luận này được xây dựng như sau:
• Tiếp thu một số đặc trưng tiêu biểu và thông dụng thường được sử dụng trong nhiều ngôn ngữ trên thế giới (như tiếng Anh [15], tiếng Thái [12], tiếng Trung Quốc [20], …)
• Bố sung thêm một số đặc trưng có khả năng là hữu ích, phù hợp với đặc điểm riêng của tiếng Việt đã được đề xuất trong một vài nghiên cứu trước đây ([4]). Với cách xây dựng như trên, tập đặc trưng được sử dụng trong thực nghiệm của khoá luân bao gồm các đặc trưng sau:
4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại
Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần, một là thông tin ngữ cảnh tai vị trí i của chuỗi dữ liệu quan sát, một là phần thông tin về nhãn tương ứng. Cơng việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh
(context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm
tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại mơt vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context predicate) tại vị trí đó. Mỗi thông tin ngữ cảnh tại i khi kết hợp với thơng tin nhãn tương ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dữ liệu quan sát tại i. Như vậy một khi đã có các mẫu ngữ cảnh, ta có thể rút ra được hàng nghìn thuộc tính một cách tự động từ tập dữ liệu huấn luyện.
Xét một cửa sổ trượt với kích cỡ bằng 5 trượt dọc theo dữ liệu đang xét như ví dụ trong hình 14. Thơng tin từ vựng và thơng tin từ loại sử dụng cho việc lựa chọn đặc trưng cho MEM, CRF và SVM được cho trong bảng 7.
V Dứt
t1 t2
N N , N C
tiếng máy_bay , bầu_trời như
w-2 w-1 w0 w1 w2
R V V A
được vút lên cao
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệuBảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng
Loại Ký hiệu Giải thích
Thơng tin từ vựng
Thơng tin nhãn từ loại
w-2, w-1, w0, w1, w2 wi cho biết dữ liệu quan sát được tại vị trí
thứ i trong chuỗi đầu vào (chuỗi đầu vào được coi là chuỗi nằm trong cửa số trượt với kích cỡ 5). Trong đó wi là dữ liệu quan sát được ngay tại vị trí hiện tại.
t-2, t-1 ti cho biết nhãn của từ tại vị trí thứ i trong
chuỗi đầu vào.
Ký hiệu thông tin ngữ cảnh (cịn được gọi là lịch sử) là h, thơng tin về nhãn là t, xác suất đồng thời của lịch sử h và thông tin về nhãn t được xác định bằng các tham số mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Khi cho
trước (h, t), một đặc trưng phải tồn tại trên bất cứ từ nào hoặc nhãn nào trong lịch sử h, và phải chứa thơng tin giúp dự đốn nhãn t, ví dụ như thơng tin chính tả của từ hiện
tại, hoặc thông tin về hai nhãn trước từ hiện tại. Ngữ cảnh từ và nhãn xác định đối với một đặc trưng được cho bằng định nghĩa của lịch sử h, như công thức (4.1).
hi = {wi, wi+1, wi+2, wi−1,
wi−2,ti−1,ti−2,} (4.1)
Ví dụ: Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi “3000 đồng” ta được ngữ cảnh w0: đồng. Giả sử trong dữ liệu huấn luyện, từ đồng trong chuỗi dữ liệu trên được gán nhãn Nu (Với Nu là nhãn danh từ đơn vị trong tập nhãn Viet Tree Bank), kết hợp với ngữ cảnh ta có thể rút ra được một thuộc tính của chuỗi dữ liệu quan sát là
fi(h,t) = 1 nếu từ hiện tại là “đồng” và nhãn là Nu 0 nếu ngược lại
4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy
Một đặc trưng quan trọng khác cần được xem xét đến là các đặc trưng có thể được xây dựng bằng chuẩn hóa biểu thức chính quy. Các mẫu ngữ cảnh biểu thức chính quy có tác dụng hỗ trợ xác định nhãn từ loại một các nhanh chóng và chính xác hơn. Trong nhiều trường hợp nếu chỉ dựa vào thông tin về từ và từ loại của các từ trước và sau từ đang xét thì có thể gặp phải nhập nhằng làm ảnh hưởng đến kết quả của hệ thống. Trong khi đó, nếu dựa vào các mẫu ngữ cảnh biểu thức chính quy thì sẽ xác định được ngay các nhãn từ loại.
Bảng dưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định dữ liệu có dạng số: