Phương pháp đề xuất

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 56 - 58)

7. Bố cục của luận án

2.3.1. Phương pháp đề xuất

Phương pháp tăng cường dữ liệu huấn luyện đề xuất là kết hợp kỹ thuật dịch ngược với ngơn ngữ trung gian tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đĩ dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới cĩ nghĩa tương đương với các câu gốc. Sau khi thực hiện các bước dịch ngược, dữ liệu huấn luyện sẽ được tăng cường, bổ sung thêm các cặp câu mới giúp nâng cao độ chính xác của mơ hình dịch máy thống kê. Đối với các phương pháp tăng cường dữ liệu bằng kỹ thuật dịch ngược thơng thường, tất cả các dữ liệu được sinh ra bởi dịch ngược sẽ được đưa vào bổ sung cho bộ dữ liệu. Tuy nhiên, trong các dữ liệu được sinh ra bởi dịch ngược cĩ thể cĩ cả các dữ liệu cĩ chất lượng kém làm ảnh hưởng đến chất lượng của mơ hình dịch máy. Cải tiến ở phương pháp đề xuất là thêm vào một bước lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu cĩ chất lượng kém để nâng cao độ chính xác của mơ hình dịch máy thống kê.

Phương pháp đề xuất bao gồm 3 bước như sau (minh họa trong sơ đồ ở Hình 2.2).

- Bước 1: Back-translation: Bước này sử dụng kỹ thuật dịch ngược dùng ngơn ngữ trung gian tiếng Đức để sinh ra các câu tiếng Anh cĩ nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật này gồm hai bước: bước 1, câu tiếng Anh

được dịch sang một câu tiếng Đức và bước 2, câu tiếng Đức thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới.

- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành một cặp câu song ngữ Việt - Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu huấn luyện cho mơ hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mơ hình học máy. Việc bổ sung các dữ liệu chất lượng kém cĩ thể dẫn tới làm giảm độ chính xác của mơ hình học máy. Do đĩ luận án đã đề xuất bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song ngữ tăng cường, bao gồm các cặp câu song ngữ Việt - Anh mới được lựa chọn.

X

- Bước 3: Huấn luyện mơ hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mơ hình dịch máy thống kê Việt - Anh.

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 56 - 58)

Tải bản đầy đủ (DOC)

(127 trang)
w