7. Bố cục của luận án
2.4.4. Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được
tăng cường với tồn bộ câu dịch ngược được thêm vào dữ liệu gốc
Trong thí nghiệm này luận án đã áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian tiếng Đức để tạo kho ngữ liệu giả lập từ kho ngữ liệu IWSLT15. Các câu tiếng Anh của kho ngữ liệu IWSLT15 được dịch sang tiếng Đức, sau đĩ dịch trở lại từ tiếng Đức sang tiếng Anh. Tồn bộ các tiếng Anh thu được kết hợp với câu tiếng Việt tương ứng trong kho ngữ liệu ban đầu song ngữ tạo thành kho ngữ liệu giả lập. Kết hợp kho ngữ liệu giả lập này và kho ngữ liệu IWSLT15 ban đầu để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp với cặp ngơn ngữ Việt - Anh. Mơ hình dịch được tinh chỉnh bằng bộ dữ liệu “tst2012”. Mơ hình sau khi huấn luyện và tinh chỉnh được đánh giá trên bộ dữ liệu “tst2013” (phần 2.4.1). Kết quả thử nghiệm được trình bày trong Bảng 2.4.
So sánh với kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu IWSLT15 gốc ở Bảng 2.3, Bảng 2.4 cho thấy việc bổ sung tồn bộ dữ liệu thu được sau khi dịch ngược đã làm cho hệ thống dịch kém đi, thể hiện ở điểm BLEU của hệ thống dịch giảm từ 24,45 cịn 24,39, tức ∆���� = −0,06. Do đĩ cần phải cĩ phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ
liệu huấn luyện song ngữ.
Bảng 2.4. Kết quả thử nghiệm mơ hình MOSES với dữ liệu huấn luyện được tăng cường bằng tồn bộ câu dịch ngược
Tiêu chí Mơ hình dịch MOSES
Số lượng cặp câu trong kho ngữ liệu
ban đầu 133.317
Số lượng cặp câu
tăng cường 133.317
Tổng số lượng cặp câu của dữ liệu
BLEU 24,39
∆���� -0,06