CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN
1.8. Kết luận Chương 1
Chương 1 tóm tắt và hệ thống hóa các khái niệm, kiến thức nền tảng cho dịch máy nói chung, dịch máy thống kê nói riêng, các thành phần của hệ thống dịch máy thống kê, phương pháp đánh giá hệ thống dịch máy đang được sử dụng. Trong chương 1 cũng trình bày các nghiên cứu nhằm nâng cao chất lượng hệ SMT nói chung và SMT cho cặp ngơn ngữ Việt – Anh nói riêng. Vì tiếng Việt được coi là ngơn ngữ có tài ngun hạn chế, đặc điểm ngơn ngữ có nhiều điểm khơng tương đồng với tiếng Anh, do vậy để nâng cao chất lượng hệ SMT cho cặp ngôn ngữ Việt – Anh, NCS nhận thấy có thể tiếp cận theo hai hướng:
(1) tăng cường dữ liệu cho dịch máy thống kê;
(2) nâng cao chất lượng hệ dịch máy thống kê trên cơ sở nâng cao độ
chính xác của gióng hàng từ.
Qua đó phân tích, đưa ra các vấn đề nghiên cứu còn bỏ ngỏ và mục tiêu
CHƯƠNG 2.
TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN
CHO DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH
BẰNG KỸ THUẬT DỊCH NGƯỢC
Chương này trình bày nội dung nghiên cứu phương pháp tăng cường dữ liệu huấn luyện cho hệ thống dịch máy thống kê và đề xuất áp dụng kỹ thuật dịch ngược (BT Back-translation) để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt - Anh. Nội dung chính bao gồm: nghiên cứu về các phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê; phương pháp sinh dữ liệu giả lập để làm giàu ngữ liệu song song sử dụng các kỹ thuật dịch ngược; đề xuất áp dụng kỹ thuật dịch ngược với ngôn ngữ trung gian tiếng Đức để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt - Anh; đề xuất một số độ đo thích nghi đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu; thực nghiệm và đánh giá kết quả đạt được để chứng minh hiệu quả của phương pháp đề xuất.