1 Bảng thuật ngữ An h Việt
3.2 Kết quả gán nhãn từ loại dựa vào thông tin mức từ
Fold Precision 1 85.17 2 85.64 3 85.51 4 85.71 5 85.81 Trung bình 85.57
3.3.2 Gán nhãn từ loại dựa vào hình vị
Vì bộ gán nhãn từ loại dựa trên thông tin về từ cho kết quả không được cao, còn cách xa độ chính xác mà Ratnaparkhi thực hiện gán nhãn từ loại cho tiếng Anh, chúng tôi tiếp tục nghiên cứu một cách biểu diễn đặc trưng khác đã được xây dựng thành công cho tiếng Trung [22]. Với đặc điểm tiếng Việt rằng hình vị cấu tạo nên từ, chúng tôi thiết kế tập đặc trưng mới dựa trên thông tin về hình vị như sau:
Đặc trưng - Features
Chúng tôi đã tiến hành thử nghiệm với loại đặc trưng dựa trên hình vị như mô tả trong phần dưới đây:
• Hình vịSi ( i= -2,-1,0,1,2)
• Sự liên kết hình vị với hình vị hiện tại với window size = 2
• Thẻ của hình vị đằng trước POS(S−1W0)
• Thẻ của 2 hình vị đằng trước từ hiện tại POS(S−2W0)POS(S−1W0)
• Hình vị đang xét có phải dấu câu?
• Hình vị đang xét có phải hình vị đầu tiên của một câu?
• Hình vị đang xét có ký tự đầu tiên viết hoa hay không?
Trong đó với chú ý thêm là đặc trưng POS(S−1W0) chính là nhãn từ loại của hình vị đầu tiên thuộc từ đứng ngay trước từ hiện tại. Và POS(S−2W0)POS(S−1W0) chính là nhãn từ loại của hình vị đầu tiên thuộc từ đứng trước và cách từ hiện tại 1 từ. Giả sử xét ví dụ câu đầu vào là:Từ lâu ông được biết đến là nhà quản_lý tài_ba .
Bảng 3.3: Kết quả gán nhãn từ loại dựa vào thông tin hình vị.Fold Precision