7. Bố cục của luận án
3.5.1. Mơ hình đề xuất kết hợp dịch ngược và chia nhỏ từ
Mơ hình kết hợp được thể hiện trong Hình 3.7. Trong đĩ, ngữ liệu huấn luyện ban đầu sẽ được dịch ngược ở phía ngơn ngữ đích, sau đĩ áp dụng các kỹ thuật lựa chọn thích nghi đã đề cập trong Chương 2 để lựa chọn câu phía đích, kết hợp với các câu phía nguồn tương ứng để tạo ra các cặp câu song ngữ giả lập. Các cặp câu song ngữ giả lập này kết hợp với kho ngữ liệu ban đầu để tạo thành kho ngữ liệu huấn luyện đầy đủ. Các câu phía đích của kho ngữ liệu đầy đủ được sử dụng để huấn luyện mơ hình ngơn ngữ phía đích. Khi đưa kho ngữ liệu đầy đủ vào huấn luyện hệ SMT, các câu phía đích được chia nhỏ bằng các phương pháp chia nhỏ đã trình bày trong Chương 3. Các câu đã được chia nhỏ phía đích kết hợp với các câu phía nguồn để tạo thành kho ngữ liệu huấn luyện đã chia nhỏ. trong khi khi thực hiện huấnluyện giĩng hàng từ trên kho ngữ liệu huấn luyện đã chia nhỏ, kỹ thuật cải tiến phương pháp giĩng hàng từ được áp dụng để thu được bảng giĩng hàng từ đã được chuẩn hĩa. Bảng giĩng hàng từ này được sử dụng để tiếp tục huấn luyện hệ SMT.
Kho song ngữ đầy đủ Kho song ngữ
huấn luyện
Chuẩn hĩa dữ liệu
Giĩng hàng từ
(tạo bảng giĩng hàng A)
Trích rút cụm từ Huấn luyện mơ hình ngơn ngữ
Sinh mơ hình dịch Tinh chỉnh tham số
Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hĩa bảng giĩng hàng (Tạo bảng giĩng hàng A*) Chia nhỏ từ (subword)
phía tiếng Anh
Kho song ngữ đánh giá Đánh giá hệ thống Dịch ngược các câu phía đích Lựa chọn thích nghi các câu giả lập Kho song ngữ giả lập
Hình 3.7. Mơ hình kết hợp dịch ngược và chia nhỏ từ.
3.5.2. Dữ liệu và mơi trường thử nghiệm
Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngơ Quốc Hưng (https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus), bộ dữ liệu bao gồm 1.000 văn bản song ngữ Việt –Anh, sau khi chuẩn hĩa dữ liệu, bộ dữ liệu cĩ 45.308 cặp câu song ngữ. từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1.482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1.527 cặp câu để làm dữ liệu đánh
giá, phân cịn lại 42.299 cặp câu để làm dữ liệu huấn luyện. Mơ tả đặc điểm của các tập dữ liệu mơ tả trong bảng 3.9.
Bảng 3.9. Các bộ dữ liệu sử dụng trong các thử nghiệm
Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau:
- Mơ hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mơ hình
đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81]. Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của
nhĩm Facebook AI Research.
- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K.
- Phần mềm MOSES (http://www.statmt.org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh;
- Mơ hình ngơn ngữ trong hệ SMT được huấn luyện bằng cơng cụ
KenLM;
- Mơ hình giĩng hàng từ là mơ hình IBM-HHM với cơng cụ giĩng hàng được sử dụng là GIZA++ Toolkit [86].
Bộ dữ liệu (EVB)
Huấn luyện Tinh chỉnh tham số Đánh giá Tiếng
Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt
Số lượng câu 42.299 42.299 1.482 1.482 1.527 1.527 Số lượng từ 821.224 1.121.425 27.868 37.717 31.086 42.559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35.426 16.022 5.305 3.157 5.647 3.257