II. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ
2.3.5.1. Tích hợp thông tin hình thái vào mô hình
2.3.1. 2.3.2. 2.3.3. 2.3.4. 2.3.5.
2.3.5.1. Tích hợp thông tin hình thái vào mô hình
Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ. Birch, Osborne, Koehn [27] đưa ra mô hình phân lớp loại từ sẽ tạo một token tương ứng với tất cả các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ước lượng hơn. Ngoài ra, có một mô hình tương tự đối với động từ của ngôn ngữ đích.
Trong bài báo [28], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2 ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee được tách thành Fruchte và tee, trong đó từ được đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra, tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa riêng biệt được nối với nhau.
Về vấn đề từ chưa gặp trong ngữ liệu huấn luyện, chẳng hạn như tên riêng, tác giả không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ làm giảm lượng từ chưa gặp. Giảm được 8,9% số từ chưa gặp. Các bước xử lý này cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và phụ tố cải tiến
nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đưa ra kết quả của hệ dịch với ngữ liệu được gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch.
Maria Holmqvist, Sara Stymne, Lars Ahrenberg [29] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại, hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là từ loại. Tuy nhiên tác giả không đưa kết luận cuối cùng và không lý giải kết quả này.