Các bộ dữ liệu sử dụng trong các thử nghiệm- 123docz.net

Các bộ dữ liệu sử dụng trong các thử nghiệm

Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau:

- Mơ hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mơ hình

đã được huấn luyện sẵn cho cặp ngơn ngữ Anh-Đức của nhóm Facebook AI

Research [81]. Mơ hình ngơn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mơ hình ngơn ngữ tiếng Anh đã được huấn luyện sẵn của

nhóm Facebook AI Research.

- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước

bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K.

- Phần mềm MOSES (http://www.statmt.org/moses/) với mơ hình dịch

máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh;

- Mơ hình ngơn ngữ trong hệ SMT được huấn luyện bằng công cụ

KenLM;

- Mơ hình gióng hàng từ là mơ hình IBM-HHM với cơng cụ gióng hàng

được sử dụng là GIZA++ Toolkit [86].

Bộ dữ liệu (EVB)

Huấn luyện Tinh chỉnh tham số Đánh giá

Tiếng

Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt

Số lượng câu 42.299 42.299 1.482 1.482 1.527 1.527 Số lượng từ 821.224 1.121.425 27.868 37.717 31.086 42.559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35.426 16.022 5.305 3.157 5.647 3.257

3.5.3. Kết quả thử nghiệm

* Mơ hình baseline:

Baseline là mơ hình SMT với các tham số cài đặt mặc định, không áp dụng bất kỳ kỹ thuật nào khác với các bộ dữ liệu được tạo ra từ bộ EVB ban đầu với các mô tả trong bảng 3.10. Kết quả thu được như sau:

- Số lượng cặp câu song ngữ huấn luyện: 42.299

- Điểm BLEU của hệ thống: 23,09

BaselineBT là mơ hình SMT huấn luyện trên bộ dữ liệu EVB kết hợp với toàn bộ dữ liệu giả lập thu được sau quá trình dịch ngược EN-DE-EN. Kết quả thu được như sau:

Số lượng cặp câu song ngữ huấn luyện: 84.598 Điểm BLEU của hệ thống: 23,02

* Thử nghiệm với kỹ thuật BT có áp dụng các độ đo thích nghi đề xuất trong Chương 2 của luận án:

Để thực hiện thử nghiệm, NCS sử dụng hệ thống dịch máy EN-DE-EN được huấn luyện trước để thu được các cặp câu giả lập, sau đó áp dụng kỹ thuật lựa chọn thích nghi với độ đo theo hiệu (H) và độ đo theo tỷ lệ (T). Kết quả thử nghiệm được trình bày trong bảng 3.10 và bảng 3.11.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 105 - 106)

Các bộ dữ liệu sử dụng trong các thử nghiệm

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê