Phương pháp đề xuất

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 56 - 58)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.3. Đề xuất phương pháp tăng cường dữ liệu huấn luyện cho hệ thống dịch

2.3.1. Phương pháp đề xuất

Phương pháp tăng cường dữ liệu huấn luyện đề xuất là kết hợp kỹ thuật dịch ngược với ngôn ngữ trung gian tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Sau khi thực hiện các bước dịch ngược, dữ liệu huấn luyện sẽ được tăng cường, bổ sung thêm các cặp câu mới giúp nâng cao độ chính xác của mơ hình dịch máy thống kê. Đối với các phương pháp tăng cường dữ liệu bằng kỹ thuật dịch ngược thông thường, tất cả các dữ liệu được sinh ra bởi dịch ngược sẽ được đưa vào bổ sung cho bộ dữ liệu. Tuy nhiên, trong các dữ liệu được sinh ra bởi dịch ngược có thể có cả các dữ liệu có chất lượng kém làm ảnh hưởng đến chất lượng của mơ hình dịch máy. Cải tiến ở phương pháp đề xuất là thêm vào một bước lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ chính xác của mơ hình dịch máy thống kê.

Phương pháp đề xuất bao gồm 3 bước như sau (minh họa trong sơ đồ ở

Hình 2.2).

- Bước 1: Back-translation: Bước này sử dụng kỹ thuật dịch ngược dùng ngôn ngữ trung gian tiếng Đức để sinh ra các câu tiếng Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban đầu,

được dịch sang một câu tiếng Đức và bước 2, câu tiếng Đức thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới.

- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành một cặp câu song ngữ Việt - Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu huấn luyện cho mơ hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mơ hình học máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của mơ hình học máy. Do đó luận án đã đề xuất bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song ngữ tăng cường, bao gồm các cặp câu song ngữ Việt - Anh mới được lựa chọn.

Các câu tiếng Anh Các câu tiếng Việt Kho song ngữ ban đầu

Bước 1: Dịch ngược

Các câu giả lập phía tiếng Anh Bước 2: Lựa chọn dữ liệu

Ngữ liệu song ngữ tăng cường

Kho ngữ liệu song ngữ huấn luyện (ngữ liệu huấn luyện +

ngữ liệu tăng cường)

Bước 3: Huấn luyện mơ hình dịch máy thống kê

Mơ hình dịch máy đã được huấn luyện

- Bước 3: Huấn luyện mơ hình dịch máy thống kê: Dữ liệu huấn luyện

song ngữ tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô hình dịch máy thống kê Việt - Anh.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 56 - 58)

Tải bản đầy đủ (PDF)

(127 trang)