Phương án thực hiện các thử nghiệm

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 66 - 67)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.4. Thử nghiệm và đánh giá các kết quả

2.4.2. Phương án thực hiện các thử nghiệm

Phương án thực hiện các thử nghiệm để đánh giá kết quả đạt được của các phương pháp đề xuất được minh họa bằng sơ đồ Hình 2.5. Các bước thực hiện như

sau:

1. Sử dụng kho ngữ liệu song ngữ “IWLST’15” gốc để huấn luyện mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngôn ngữ Việt

- Anh và đánh giá chất lượng của mơ hình dịch máy thu được.

HỆ THỐNG SMT

(VI-EN)

Kho song ngữ ban đầu

(IWSLT15)

Câu phía đích (e)

Lựa chọn câu e’

(so sánh e’ và e)

Các câu phía nguồn tương ứng (v*) Các câu giả lập được chọn (e’*) HỆ THỐNG DỊCH MÁY EN-DE-EN Các câu giả lập phía đích (e’) Kho song ngữ giả lập (VE*) Kho song ngữ huấn luyện (IWSLT15 + VE*)

Hình 2.5. Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN

2. Áp dụng kỹ thuật dịch ngược đã trình bày ở Mục 2.3.2 để sinh các cặp câu song ngữ Việt - Anh giả lập. Đầu tiên, các câu đơn ngữ tiếng Anh trong kho ngữ liệu “IWLST’15” gốc được dịch sang tiếng Đức sử dụng hệ thống dịch

máy Anh-Đức đã được huấn luyện trước của Facebook AI Research. Câu tiếng

Đức thu được lại được dịch trở lại tiếng Anh sử dụng hệ thống dịch máy Đức- Anh đã được huấn luyện trước của Facebook AI Research. Tiếp theo, sử dụng

các độ đo thích nghi đã được đề xuất trong Mục 2.3.3. để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu tiếng Anh được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc tạo thành kho ngữ liệu huấn luyện mới “IWLST’15 + VE*”.

3. Sử dụng kho ngữ liệu song ngữ “IWLST’15+ VE* ” để huấn luyện mô hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp và đánh giá chất lượng của mơ hình dịch máy thu được.

4. So sánh các kết quả thử nghiệm đánh giá mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ “IWSLT15” gốc và mơ hình dịch với dữ liệu huấn luyện là kho ngữ liệu song ngữ đã được tăng cường “IWLST’15+VE* ”. Từ đó đánh giá được hiệu quả của các phương pháp đã đề xuất trong Mục

2.3.1.

5. Bước dịch ngược được thực hiện trên máy chủ với 04 card đồ họa

NVIDIA GeForce 1080Ti. Các thử nghiệm đối với hệ thống MOSES được thực

hiện trên máy trạm HP WorkStation Z420, cấu hình như sau: CPU Intel Xeon

E5-2680 2.70 GHz, bộ nhớ RAM 32 GB, card đồ họa NVIDIA GeForce GTX

1050 Ti, ổ cứng HDD 1TB, hệ điều hành Ubuntu bionic 18.04.05.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 66 - 67)

Tải bản đầy đủ (PDF)

(127 trang)