Phương án thực hiện các thử nghiệm

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 66 - 67)

7. Bố cục của luận án

2.4.2. Phương án thực hiện các thử nghiệm

Phương án thực hiện các thử nghiệm để đánh giá kết quả đạt được của các phương pháp đề xuất được minh họa bằng sơ đồ Hình 2.5. Các bước thực hiện như sau:

1. Sử dụng kho ngữ liệu song ngữ “IWLST’15” gốc để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngơn ngữ Việt

2.

- Anh và đánh giá chất lượng của mơ hình dịch máy thu được.

Hình 2.5. Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN 3. Áp dụng kỹ thuật dịch ngược đã trình bày ở Mục 2.3.2 để sinh các cặp câu song ngữ Việt - Anh giả lập. Đầu tiên, các câu đơn ngữ tiếng Anh trong kho ngữ liệu “IWLST’15” gốc được dịch sang tiếng Đức sử dụng hệ thống dịch máy Anh-Đức đã được huấn luyện trước của Facebook AI Research. Câu tiếng Đức thu được lại được dịch trở lại tiếng Anh sử dụng hệ thống dịch máy Đức- Anh đã được huấn luyện trước của Facebook AI Research. Tiếp theo, sử dụng

HỆ THỐNG SMT (VI-EN)

HỆ THỐNG DỊCH MÁY EN-DE-EN

Lựa chọn câu e’ (so sánh e’ và e) Các câu giả lập phía đích (e’)

Các câu giả lập được chọn (e’*)

Kho song ngữ giả lập (VE*) Các câu phía nguồn tương ứng (v*)

Kho song ngữ huấn luyện (IWSLT15 + VE*) Kho song ngữ ban đầu (IWSLT15)

các độ đo thích nghi đã được đề xuất trong Mục 2.3.3. để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu tiếng Anh được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc tạo thành kho ngữ liệu huấn luyện mới “IWLST’15 + VE*”.

4. Sử dụng kho ngữ liệu song ngữ “IWLST’15+ VE* ” để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp và đánh giá chất lượng của mơ hình dịch máy thu được.

5. So sánh các kết quả thử nghiệm đánh giá mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ “IWSLT15” gốc và mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ đã được tăng cường “IWLST’15+VE* ”. Từ đĩ đánh giá được hiệu quả của các phương pháp đã đề xuất trong Mục 2.3.1.

6. Bước dịch ngược được thực hiện trên máy chủ với 04 card đồ họa NVIDIA GeForce 1080Ti. Các thử nghiệm đối với hệ thống MOSES được thực hiện trên máy trạm HP WorkStation Z420, cấu hình như sau: CPU Intel Xeon E5-2680 2.70 GHz, bộ nhớ RAM 32 GB, card đồ họa NVIDIA GeForce GTX 1050 Ti, ổ cứng HDD 1TB, hệ điều hành Ubuntu bionic 18.04.05.

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 66 - 67)

Tải bản đầy đủ (DOC)

(127 trang)
w