Bộ mã hóa tự động

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 39 - 41)

Các tác giả phát hiện ra rằng việc sử dụng cả dữ liệu đơn ngữ nguồn và dữ liệu đơn ngữ đích khơng mang lại những cải thiện đáng kể. Sử dụng kho ngữ liệu song ngữ và ngữ liệu đơn ngữ tiếng Anh, các tác giả đã đạt được cải tiến thêm +4,7 BLEU cho hướng dịch Trung-Anh. Kết quả tương tự với việc sử dụng kho ngữ liệu song ngữ và đơn ngữ tiếng Trung cho hướng dịch Anh- Trung. Phương pháp này cũng hoạt động tốt hơn Back-Translation +1,8BLEU

cho hướng Trung-Anh và +1.0 BLEU cho hướng Anh-Trung.

1.5.4. Tự huấn luyện đảo chiều

Ý tưởng làm giàu ngữ liệu huấn luyện bằng đơn ngữ tương tự như dịch ngược được giới thiệu trong bài [10], các tác giả sử dụng kỹ thuật được gọi là tự huấn luyện đảo chiều. Trong kỹ thuật này, các tác giả sử dụng ngữ liệu song ngữ để huấn luyện mơ hình dịch đích-nguồn, sau đó sử dụng mơ hình này để dịch một số lượng lớn dữ liệu đơn ngữ đích sang dữ liệu nguồn, cặp câu đích -

nguồn này được coi là ngữ liệu song ngữ dùng để huấn luyện mơ hình dịch mới (mơ hình “giả lập”). Đồng thời, các tác giả cũng sử dụng ngữ liệu song ngữ ban đầu để huấn luyện mơ hình dịch “thật”. Mơ hình dịch “thật” và mơ hình “giả lập” được kết hợp với nhau một cách cân bằng bằng phương pháp MERT [84] để được mơ hình dịch tốt hơn.

1.6. Gióng hàng từ trong dịch máy thống kê

Gióng hàng từ là một nhiệm vụ xác định sự tương ứng giữa các từ trong các cặp câu song ngữ [67]. Đây là bước đầu tiên trong hầu hết các cách tiếp cận hiện tại của SMT. Ayan và cộng sự [3] đã chỉ ra rằng, chất lượng của gióng hàng từ đóng vai trị rất quan trọng cho sự thành cơng của một hệ thống SMT. Các phương pháp khác nhau đã được đề xuất để xác định gióng hàng từ trong các văn bản song ngữ. Hình 1.10 minh họa một kết quả gióng hàng từ cho cặp câu Việt - Anh: câu tiếng Việt “Shaffer đã nói với CNN vào hơm thứ bảy.” và câu tiếng Anh “Shaffer told CNN on Saturday.”. Các từ tiếng Anh được nối với các từ tiếng Việt tương ứng trong cặp câu. Hình 1.11 minh họa gióng hàng này được biểu diễn dưới dạng bảng.

Nói chung, các phương pháp gióng hàng từ có thể được phân chia thành hai loại: (i) cách tiếp cận dựa trên mơ hình phân biệt và (ii) cách tiếp cận dựa

trên mô hình sinh.

Cách tiếp cận thứ nhất (i) dựa vào quá trình huấn luyện trên một tập các đặc trưng, điển hình là các nghiên cứu của Moore [77] và Liu [67]. Cách tiếp cận này có ưu điểm là linh hoạt trong việc kết hợp các đặc trưng mới [71]. Tuy nhiên, hạn chế của cách tiếp cận này là dữ liệu huấn luyện cần phải được gán nhãn; cơng việc này địi hỏi nhiều thời gian, chi phí để thực hiện và nó khơng sẵn có với hầu hết các cặp ngơn ngữ [69]. Ngồi ra, rất khó khăn để chọn dữ liệu đại diện cho việc huấn luyện để đảm bảo rằng các mơ hình sẽ hoạt động tốt trên dữ liệu không quan sát được, đặc biệt khi dữ liệu song ngữ đến từ nhiều nguồn thuộc nhiều lĩnh vực khác nhau [67].

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(127 trang)