Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 68 - 69)

7. Bố cục của luận án

2.4.4. Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được

cường với tồn bộ câu dịch ngược được thêm vào dữ liệu gốc

Trong thí nghiệm này luận án đã áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian tiếng Đức để tạo kho ngữ liệu giả lập từ kho ngữ liệu IWSLT15. Các câu tiếng Anh của kho ngữ liệu IWSLT15 được dịch sang tiếng

Đức, sau đĩ dịch trở lại từ tiếng Đức sang tiếng Anh. Tồn bộ các tiếng Anh

thu được kết hợp với câu tiếng Việt tương ứng trong kho ngữ liệu ban đầu song ngữ tạo thành kho ngữ liệu giả lập. Kết hợp kho ngữ liệu giả lập này và kho ngữ liệu IWSLT15 ban đầu để huấn luyện mơ hình dịch máy thống kê MOSES

dựa trên cụm từ phân cấp với cặpngơn ngữ Việt - Anh. Mơ hình dịch được tinh chỉnh bằng bộ dữ liệu “tst2012”. Mơ hình sau khi huấn luyện và tinh chỉnh được đánh giá trên bộ dữ liệu “tst2013”(phần 2.4.1). Kếtquả thử nghiệm được trình bày trong Bảng 2.4.

So sánh với kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu IWSLT15 gốc ở Bảng 2.3, Bảng 2.4 cho thấy việc bổ sung tồn bộ dữ liệu thu được sau khi dịch ngược đã làm cho hệ thống dịch kém đi, thể hiện ởđiểm BLEU của hệ thống dịch giảm từ 24,45 cịn 24,39, tức ∆𝐵𝐿𝐸𝑈= −0,06. Do đĩ cần phải cĩ phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ.

Bảng 2.4. Kết quả thử nghiệm mơ hình MOSES với dữ liệu huấn luyện được

tăng cường bằng tồn bộ câu dịch ngược

Tiêu chí Mơ hình dịch MOSES

Sốlượng cặp câu trong kho

ngữ liệu ban đầu 133.317 Sốlượng cặp câu

tăng cường 133.317 Tổng sốlượng cặp câu của

BLEU 24,39

∆𝐵𝐿𝐸𝑈 -0,06

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 68 - 69)

Tải bản đầy đủ (PDF)

(127 trang)