Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 68 - 69)

7. Bố cục của luận án

2.4.4. Kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu được

tăng cường với tồn bộ câu dịch ngược được thêm vào dữ liệu gốc

Trong thí nghiệm này luận án đã áp dụng kỹ thuật dịch ngược sử dụng ngơn ngữ trung gian tiếng Đức để tạo kho ngữ liệu giả lập từ kho ngữ liệu IWSLT15. Các câu tiếng Anh của kho ngữ liệu IWSLT15 được dịch sang tiếng Đức, sau đĩ dịch trở lại từ tiếng Đức sang tiếng Anh. Tồn bộ các tiếng Anh thu được kết hợp với câu tiếng Việt tương ứng trong kho ngữ liệu ban đầu song ngữ tạo thành kho ngữ liệu giả lập. Kết hợp kho ngữ liệu giả lập này và kho ngữ liệu IWSLT15 ban đầu để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp với cặp ngơn ngữ Việt - Anh. Mơ hình dịch được tinh chỉnh bằng bộ dữ liệu “tst2012”. Mơ hình sau khi huấn luyện và tinh chỉnh được đánh giá trên bộ dữ liệu “tst2013” (phần 2.4.1). Kết quả thử nghiệm được trình bày trong Bảng 2.4.

So sánh với kết quả thử nghiệm với mơ hình huấn luyện trên kho ngữ liệu IWSLT15 gốc ở Bảng 2.3, Bảng 2.4 cho thấy việc bổ sung tồn bộ dữ liệu thu được sau khi dịch ngược đã làm cho hệ thống dịch kém đi, thể hiện ở điểm BLEU của hệ thống dịch giảm từ 24,45 cịn 24,39, tức ∆���� = −0,06. Do đĩ cần phải cĩ phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ

liệu huấn luyện song ngữ.

Bảng 2.4. Kết quả thử nghiệm mơ hình MOSES với dữ liệu huấn luyện được tăng cường bằng tồn bộ câu dịch ngược

Tiêu chí Mơ hình dịch MOSES

Số lượng cặp câu trong kho ngữ liệu

ban đầu 133.317

Số lượng cặp câu

tăng cường 133.317

Tổng số lượng cặp câu của dữ liệu

BLEU 24,39

∆���� -0,06

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 68 - 69)

Tải bản đầy đủ (DOC)

(127 trang)
w