Các kết quả nghiên cứu của luận án

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 112 - 113)

Hiệnnay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể, tuy nhiên, dịch máy thống kê vẫn cĩ những thế mạnh và cĩ thể phát huy như: dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, khơng địi hỏi tài nguyên phần cứng cao như dịch máy nơ-ron; từ đĩ cĩ thể thấy rằng dịch máy thống kê cĩ thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực khoa học kỹ thuật quân sự) trên các hệ thống máy tính cĩ cấu hình vừa phải, hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngơn ngữ Việt – Anh, trong đĩ tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng giĩng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng từng phần của hệ thống dịch máy thống kê, từ đĩ nâng cao chất lượng tổng thể của cả hệ thống. Các kết quả chính của luận án bao gồm:

i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu

giả lập là câu phía đích (tiếng Anh) thơng qua ngơn ngữ trung gian (tiếng Đức) vì cặp ngơn ngữ Anh – Đức là cặp ngơn ngữ cĩ tài nguyên phong phú, được quan tâm nghiên cứu nhiều và cĩ các mơ hình dịch được huấn luyện sẵn cĩ chất lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu bằng mơ hình ngơn ngữ nhằm bổ sung ngữ liệu huấn luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu khơng sử dụng các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau khi bổ sung dữ liệu huấn luyện.

ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng cho dịch máy nơ-ron nhằm giải quyết bài tốn từ hiếm (rare words) và từ nằm ngồi bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng giĩng hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngơn ngữ

tiếng Anh, trên cơ sở đĩ, đề xuất cải tiến mơ hình giĩng hàng trong đĩ áp dụng các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật tốn giĩng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch máy thống kê.

iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu

IWSLT2015, EVB.

Kết quả thử nghiệm trên tập dữ liệu cho thấy các phương pháp đề xuất đều tăng chất lượng hệ dịch bằng đánh giá điểm BLEU, độ tăng phụ thuộc và tham số và phương pháp cụ thể áp dụng trong từng thử nghiệm.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 112 - 113)

Tải bản đầy đủ (PDF)

(127 trang)