Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thƣờng mắc phải một số lỗi sau: dịch sai nghĩa hoặc không dịch đƣợc từ tiếng Anh sang tiếng Việt. Trƣờng hợp dịch sai nghĩa nguyên nhân chính là do một từ thƣờng có nhiều nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không dịch đƣợc từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ đƣợc các câu kiểm tra.
Trƣờng hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau:
* I like reading book.
+ Tôi thích đọc sách.
* Book early if you want good seats.
Trang 44
Từ “book” trong câu đầu tiên đƣợc dịch đúng là “sách”. Tuy nhiên, từ “book” trong
câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn
có chỗ ngồi tốt.”
Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích
và kết luận rằng từ loại thực từ và mang tính phổ quát nhƣ danh từ, động từ, tính từ
và đại từ của hai ngôn ngữ có tính tƣơng đồng.
Xét trƣờng hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like
reading book.” thì chữ “book” đƣợc gán nhãn là danh từ, khi dịch danh từ “book” ra
tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “sách”. Trong câu “Book early if you want good seats.” thì chữ “book” đƣợc gán nhãn là động từ, khi dịch “book” động từ ra tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “đặt chỗ”.
Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hƣởng của nhãn từ loại tiếng Anh vào hệ dịch thống kê.