3 44 Thử nghiệm mơ hình được cải tiến giĩng hàng từ sử dụng các kỹ thuật
35 Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB
Như đã trình bày trong Chương 2 của luận án, dịch ngược cĩ thể mang lại kết quả tốt hơn cho hệ SMT, nhất là đối với các cặp ngơn ngữ cĩ tài nguyên hạn chế Bên cạnh đĩ, trong chương 2 cũng thử nghiệm và đánh giá việc sử dụng tồn bộ dữ liệu giả lập thu được sau khi dịch ngược cĩ thể làm cho chất lượng của hệ thống dịch máy bị giảm sút, do đĩ cần phải cĩ phương pháp lựa chọn dữ liệu giả lập phù hợp để lựa chọn và thu được bộ ngữ liệu huấn luyện đủ tốt để huấn luyện hệ SMT
Trong các phần trước của chương này, luận án đã trình bày phương pháp chia nhỏ từ, cải tiến phương pháp giĩng hàng từ nhằm tăng chất lượng giĩng hàng từ, qua đĩ tăng chất lượng của hệ SMT Các thử nghiệm, đánh giá bằng điểm BLEU cho thấy: việc áp dụng kỹ thuật chia nhỏ từ với tham số thích hợp cĩ thể giúp tăng chất lượng của hệ SMT
Dịch ngược nằm trong bước tiền xử lý dữ liệu, chia nhỏ từ thuộc bước huấn luyện hệ dịch, do đĩ luận án đề xuất kết hợp hai phương pháp: dịch ngược với độ đo thích nghi và chia nhỏ từ với cải tiến giĩng hàng từ nhằm làm tăng chất lượng của hệ SMT Mơ hình đề xuất được thể hiện trong Hình 3 5 Trong phần này, luận án cũng thực hiện các thử nghiệm với bộ song ngữ EVB của tác giả Ngơ Quốc Hưng (file EVBCorpus_EVBNews_v2 0 rar ) tải về từ địa chỉ https://sites google com/a/uit edu vn/hungnq/evbcorpus
6 000 24,65 0,20 8 000 24,82 0,27 SMT-Wordpiece-A* 24,87 0,42 SMT-Unigram-A* 4 000 24,73 0,28 5 000 24,80 0,35 6 000 24,69 0,24 SMT-Morfessor1-A* 24,46 0,01 SMT-Morfessor2-A* 24,95 0,50