Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ. [5] đƣa ra mô hình phân lớp loại từ sẽ tạo một token tƣơng ứng với tất cả các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ƣớc lƣợng hơn. Ngoài ra, có một mô hình tƣơng tự đối với động từ của ngôn ngữ đích.
Trang 40
Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2 ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee đƣợc tách thành Fruchte và tee, trong đó từ đƣợc đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra, tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa riêng biệt đƣợc nối với nhau.
Về vấn đề từ chƣa gặp trong ngữ liệu huấn luyện, chẳng hạn nhƣ tên riêng, tác giả không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ làm giảm lƣợng từ chƣa gặp. Giảm đƣợc 8,9% số từ chƣa gặp. Các bƣớc xử lý này cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đƣa ra kết quả của hệ dịch với ngữ liệu đƣợc gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch.
[21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại, hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là từ loại. Tuy nhiên tác giả không đƣa kết luận cuối cùng và không lý giải kết quả này.