1 53 Huấn luyện hai chiều
18 Kết luận Chương 1
Chương 1 tĩm tắt và hệ thống hĩa các khái niệm, kiến thức nền tảng cho dịch máy nĩi chung, dịch máy thống kê nĩi riêng, các thành phần của hệ thống dịch máy thống kê, phương pháp đánh giá hệ thống dịch máy đang được sử dụng Trong chương 1 cũng trình bày các nghiên cứu nhằm nâng cao chất lượng hệ SMT nĩi chung và SMT cho cặp ngơn ngữ Việt – Anh nĩi riêng Vì tiếng Việt được coi là ngơn ngữ cĩ tài nguyên hạn chế, đặc điểm ngơn ngữ cĩ nhiều điểm khơng tương đồng với tiếng Anh, do vậy để nâng cao chất lượng hệ SMT cho cặp ngơn ngữ Việt – Anh, NCS nhận thấy cĩ thể tiếp cận theo hai hướng:
(1) tăng cường dữ liệu cho dịch máy thống kê;
(2) nâng cao chất lượng hệ dịch máy thống kê trên cơ sở nâng cao độ chính xác của giĩng hàng từ
Qua đĩ phân tích, đưa ra các vấn đề nghiên cứu cịn bỏ ngỏ và mục tiêu nghiên cứu của luận án
CHƯƠNG 2
TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN
CHO DỊCH MÁY THỐNG KÊ CẶP NGƠN NGỮ VIỆT -ANH BẰNG KỸ THUẬT DỊCH NGƯỢC
Chương này trình bày nội dung nghiên cứu phương pháp tăng cường dữ liệu huấn luyện cho hệ thống dịch máy thống kê và đề xuất áp dụng kỹ thuật dịch ngược (BT Back-translation) để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngơn ngữ Việt - Anh Nội dung chính bao gồm: nghiên cứu về các phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê; phương pháp sinh dữ liệu giả lập để làm giàu ngữ liệu song song sử dụng các kỹ thuật dịch ngược; đề xuất áp dụng kỹ thuật dịch ngược với ngơn ngữ trung gian tiếng Đức để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngơn ngữ Việt - Anh; đề xuất một số độ đo thích nghi đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu; thực nghiệm và đánh giá kết quả đạt được để chứng minh hiệu quả của phương pháp đề xuất