Hạn chế của mô hình dịch thống kê dựa trên đơn vị cụm từ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Dịch máy Anh - Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ (Trang 35 - 36)

L ỜI MỞ ĐẦ U

4.1 Hạn chế của mô hình dịch thống kê dựa trên đơn vị cụm từ

Cách tiếp cận dựa trên đơn vị cụm từ hiện đang là hướng tiếp cận được đánh giá tốt nhất. Tuy nhiên, do sự thiếu hụt các thông tin ngôn ngữ, mô hình dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được một số vấn đề như ngữ pháp, khả

năng lựa chọn cụm từ với tính chính xác cao, dịch tên, lượng từ vựng có hạn và việc chuyển đổi cú pháp [23].

1. Hệ thống không có khả năng học để dịch được những từ không xuất hiện trong tập dữ liệu học vì hệ thống không có khả năng sinh ra từđó. Một ví dụ đơn giản là trong dữ liệu huấn luyện có từ “house” nhưng không có từ “houses”. Hệ thống luôn hiểu 2 từ này là 2 từ độc lập nhau. Như vậy khi gặp từ “houses” hệ thống không có khả năng sinh ra từ “houses” từ từ “house” dẫn đến không dịch được từ

này. Đối với những ngôn ngữ có độ biến cách cao, khi lượng dữ liệu học nhỏ, hệ

thống không có thông tin về hình thái từ sẽ gặp phải những khó khăn này.

2. Do sự thiếu hụt thông tin về ngôn ngữ nên hệ thống không có khả năng phân biệt những ngữ cảnh khác nhau của câu cần dịch, dẫn đến việc không chọn được nghĩa phù hợp cho một từ có nhiều cách dịch khác nhau. Khi mô hình dịch dựa trên đơn vị cụm từ đã học rất nhiều khả năng dịch khác nhau cho một từ hoặc cụm từ cụ thể, việc lựa chọn cách dịch nào được quyết định chủ yếu bởi độ phù hợp thông qua xác suất dịch dựa trên dữ liệu huấn luyện đó chứ không dựa vào các thông tin về ngôn ngữ. Trong thực tế, các yếu tố ngôn ngữ như thì, phân biệt

giống, số, ngôi, loại từ, ... đóng vai trò quan trọng để lựa chọn từ phù hợp trong ngữ cảnh cụ thể.

3. Hệ thống bị giới hạn trong việc học những luật cú pháp đơn giản của 1 cặp ngôn ngữ, dẫn tới những khó khăn khi xử lý trật tự từ trong quá trình dịch. Ví dụ, một thực tế dễ nhận thấy là một cụm danh từ tiếng Việt có chuỗi cấu trúc từ loại “danh_từ tính_từ” sẽ hầu hết tương ứng với chuỗi cấu trúc “tính_từ danh_từ” trong tiếng Anh.

Hiện nay, rất nhiều cách tiếp cận khác nhau ra đời nhằm cải thiện chất lượng của hệ dịch. Những thông tin về ngữ nghĩa như hình thái từ, cú pháp (syntactic) hay ngữ nghĩa (semantic) đã thể hiện tính hiệu quả của nó khi được tích hợp vào các bước tiền xử lý hay hậu xử lý của quá trình dịch. Ví dụ, cải thiện chất lượng hệ

dịch bằng tiền xử lý hình thái ngôn ngữ Arabic thông qua việc tách lấy gốc từ

hoặc tách bỏ các phụ tố để dịch sang các từ tiếng Anh riêng lẻ [13], thực hiện chuyển đổi vị trí các từ trong câu tiếng Đức trước khi dịch để chúng có thứ tự

giống với thứ tự từ trong câu tiếng Anh [10]. Điều này cũng đã được áp dụng với cặp ngôn ngữ Anh-Việt trong [38]. Tuy nhiên, sự tích hợp chặt chẽ thông tin ngôn ngữ vào mô hình dịch (translation model) vẫn được quan tâm nhiều hơn bởi 2 nguyên nhân chính sau:

1. Các mô hình dịch thực hiện trên các thể hiện tổng quát hơn. Với những ngôn ngữ có sự biến đổi hình thái, dạng thức đơn giản của từ (lemma) có thể dẫn tới xác suất phong phú hơn dạng thức nguyên mẫu của từ (word).

Điều này cũng khắc phục được một phần vấn đề dữ liệu thưa.

2. Nhiều khả năng dịch có thể được giải thích trên mức hình thái, cú pháp, hay mức ngữ nghĩa. Có thêm các thông tin đó trong mô hình dịch cho phép mô hình hóa trực tiếp những khía cạnh này. Ví dụ, biến đổi trật tự từ ở mức câu được thể hiện chủ yếu bằng những luật cú pháp cơ bản, ... Qua đánh giá những ưu nhược điểm của các phương pháp thống kê này, chúng tôi chọn phương pháp dịch thống kê dựa trên đơn vị cụm từ có tích hợp thêm các thông tin về ngôn ngữở mức từ (factored translation model - FTM) cho quá trình dịch Anh-Việt. Mô hình này cùng với cấu hình phù hợp đã góp phần cải thiện chất lượng của hệ dịch EVSMT1.0 [3].

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Dịch máy Anh - Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(63 trang)