CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN
2.4. Thử nghiệm và đánh giá các kết quả
2.4.4. Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được
cường với toàn bộ câu dịch ngược được thêm vào dữ liệu gốc
Trong thí nghiệm này luận án đã áp dụng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian tiếng Đức để tạo kho ngữ liệu giả lập từ kho ngữ liệu IWSLT15. Các câu tiếng Anh của kho ngữ liệu IWSLT15 được dịch sang tiếng Đức, sau đó dịch trở lại từ tiếng Đức sang tiếng Anh. Toàn bộ các tiếng Anh
thu được kết hợp với câu tiếng Việt tương ứng trong kho ngữ liệu ban đầu song ngữ tạo thành kho ngữ liệu giả lập. Kết hợp kho ngữ liệu giả lập này và kho ngữ liệu IWSLT15 ban đầu để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp với cặp ngôn ngữ Việt - Anh. Mơ hình dịch được tinh chỉnh bằng bộ dữ liệu “tst2012”. Mơ hình sau khi huấn luyện và tinh chỉnh được đánh giá trên bộ dữ liệu “tst2013” (phần 2.4.1). Kết quả thử nghiệm được trình bày trong Bảng 2.4.
So sánh với kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu IWSLT15 gốc ở Bảng 2.3, Bảng 2.4 cho thấy việc bổ sung toàn bộ dữ liệu thu được sau khi dịch ngược đã làm cho hệ thống dịch kém đi, thể hiện ở điểm
BLEU của hệ thống dịch giảm từ 24,45 còn 24,39, tức ∆𝐵𝐿𝐸𝑈= −0,06. Do đó cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ.
Bảng 2.4. Kết quả thử nghiệm mơ hình MOSES với dữ liệu huấn luyện được tăng cường bằng toàn bộ câu dịch ngược
Tiêu chí Mơ hình dịch MOSES
Số lượng cặp câu trong kho
ngữ liệu ban đầu 133.317
Số lượng cặp câu
tăng cường 133.317
Tổng số lượng cặp câu của
BLEU 24,39
∆𝐵𝐿𝐸𝑈 -0,06