52 Dữ liệu và mơi trường thử nghiệm

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 104 - 106)

Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngơ Quốc Hưng (https://sites google com/a/uit edu vn/hungnq/evbcorpus), bộ dữ liệu bao

gồm 1 000 văn bản song ngữ Việt – Anh, sau khi chuẩn hĩa dữ liệu, bộ dữ liệu cĩ 45 308 cặp câu song ngữ từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1 482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1 527 cặp câu để làm dữ liệu đánh

giá, phân cịn lại 42 299 cặp câu để làm dữ liệu huấn luyện Mơ tả đặc điểm của các tập dữ liệu mơ tả trong bảng 3 9

Bảng 3 9 Các bộ dữ liệu sử dụng trong các thử nghiệm

Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau: - Mơ hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mơ hình đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhĩm Facebook AI Research [81] Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo

perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của nhĩm Facebook AI Research

- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K

- Phần mềm MOSES (http://www statmt org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh;

- Mơ hình ngơn ngữ trong hệ SMT được huấn luyện bằng cơng cụ KenLM;

- Mơ hình giĩng hàng từ là mơ hình IBM-HHM với cơng cụ giĩng hàng được sử dụng là GIZA++ Toolkit [86]

Bộ dữ liệu (EVB)

Huấn luyện Tinh chỉnh tham số Đánh giá Tiếng Tiếng Anh Việt Tiếng Tiếng Anh Việt Tiếng Tiếng Anh Việt Số lượng câu 42 299 42 299 1 482 1 482 1 527 1 527 Số lượng từ 821 224 1 121 425 27 868 37 717 31 086 42 559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35 426 16 022 5 305 3 157 5 647 3 257

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 104 - 106)

Tải bản đầy đủ (DOCX)

(127 trang)
w