Thông tin từ loại

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 44)

Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thường mắc phải một số lỗi sau: dịch sai nghĩa hoặc không dịch được từ tiếng Anh sang tiếng Việt. Trường hợp dịch sai nghĩa nguyên nhân chính là do một từ thường có nhiều nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không dịch được từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ được các câu kiểm tra.

Trường hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau: * I like reading book. + Tôi thích đọc

sách.

* Book early if you want good seats.

Từ “book” trong câu đầu tiên được dịch đúng là “sách”. Tuy nhiên, từ “book” trong câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn có chỗ ngồi tốt.”

Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích và kết luận rằng từ loại thực từ và mang tính phổ quát như danh từ, động từ, tính từ

và đại từ của hai ngôn ngữ có tính tương đồng.

Xét trường hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like reading book.” thì chữ “book” được gán nhãn là danh từ, khi dịch danh từ “book” ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “sách”. Trong câu “Book early if you want good seats.” thì chữ “book” được gán nhãn là động từ, khi dịch “book” động từ ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “đặt chỗ”.

Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hưởng của nhãn từ loại tiếng Anh vào hệ dịch thống kê.

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 44)

Tải bản đầy đủ (DOCX)

(96 trang)
w