Mơ hình đề xuất kết hợp dịch ngược và chia nhỏ từ

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 103 - 106)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

3.5. Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB

3.5.1. Mơ hình đề xuất kết hợp dịch ngược và chia nhỏ từ

Mơ hình kết hợp được thể hiện trong Hình 3.7. Trong đó, ngữ liệu huấn luyện ban đầu sẽ được dịch ngược ở phía ngơn ngữ đích, sau đó áp dụng các kỹ thuật lựa chọn thích nghi đã đề cập trong Chương 2 để lựa chọn câu phía đích, kết hợp với các câu phía nguồn tương ứng để tạo ra các cặp câu song ngữ giả lập. Các cặp câu song ngữ giả lập này kết hợp với kho ngữ liệu ban đầu để tạo thành kho ngữ liệu huấn luyện đầy đủ. Các câu phía đích của kho ngữ liệu đầy đủ được sử dụng để huấn luyện mơ hình ngơn ngữ phía đích. Khi đưa kho ngữ liệu đầy đủ vào huấn luyện hệ SMT, các câu phía đích được chia nhỏ bằng các phương pháp chia nhỏ đã trình bày trong Chương 3. Các câu đã được chia nhỏ phía đích kết hợp với các câu phía nguồn để tạo thành kho ngữ liệu huấn luyện đã chia nhỏ. trong khi khi thực hiện huấn luyện gióng hàng từ trên kho ngữ liệu huấn luyện đã chia nhỏ, kỹ thuật cải tiến phương pháp gióng hàng từ được áp dụng để thu được bảng gióng hàng từ đã được chuẩn hóa. Bảng gióng hàng từ này được sử dụng để tiếp tục huấn luyện hệ SMT.

Kho song ngữ đầy đủ Kho song ngữ

huấn luyện

Chuẩn hóa dữ liệu

Gióng hàng từ

(tạo bảng gióng hàng A)

Trích rút cụm từ Huấn luyện mơ hình ngơn ngữ

Sinh mơ hình dịch Tinh chỉnh tham số

Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hóa bảng gióng hàng (Tạo bảng gióng hàng A*)

Chia nhỏ từ (subword) phía tiếng Anh

Kho song ngữ đánh giá Đánh giá hệ thống Dịch ngược các câu phía đích Lựa chọn thích nghi các câu giả lập Kho song ngữ giả lập

Hình 3.7. Mơ hình kết hợp dịch ngược và chia nhỏ từ.

3.5.2. Dữ liệu và môi trường thử nghiệm

Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngô Quốc Hưng (https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus), bộ dữ liệu bao gồm 1.000 văn bản song ngữ Việt – Anh, sau khi chuẩn hóa dữ liệu, bộ dữ liệu có 45.308 cặp câu song ngữ. từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1.482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1.527 cặp câu để làm dữ liệu đánh

giá, phân còn lại 42.299 cặp câu để làm dữ liệu huấn luyện. Mô tả đặc điểm của các tập dữ liệu mô tả trong bảng 3.9.

Bảng 3.9. Các bộ dữ liệu sử dụng trong các thử nghiệm

Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau:

- Mơ hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mơ hình

đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhóm Facebook AI

Research [81]. Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của

nhóm Facebook AI Research.

- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước

bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K.

- Phần mềm MOSES (http://www.statmt.org/moses/) với mơ hình dịch

máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh;

- Mơ hình ngơn ngữ trong hệ SMT được huấn luyện bằng công cụ

KenLM;

- Mơ hình gióng hàng từ là mơ hình IBM-HHM với cơng cụ gióng hàng

được sử dụng là GIZA++ Toolkit [86].

Bộ dữ liệu (EVB)

Huấn luyện Tinh chỉnh tham số Đánh giá

Tiếng

Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt

Số lượng câu 42.299 42.299 1.482 1.482 1.527 1.527 Số lượng từ 821.224 1.121.425 27.868 37.717 31.086 42.559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35.426 16.022 5.305 3.157 5.647 3.257

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 103 - 106)

Tải bản đầy đủ (PDF)

(127 trang)