Các kết quả nghiên cứu của luận án

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 112 - 113)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

1. Các kết quả nghiên cứu của luận án

Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể, tuy nhiên, dịch máy thống kê vẫn có những thế mạnh và có thể phát huy như: dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, khơng địi hỏi tài ngun phần cứng cao như dịch máy nơ-ron; từ đó có thể thấy rằng dịch máy thống kê có thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực khoa học kỹ thuật quân sự) trên các hệ thống máy tính có cấu hình vừa phải, hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt – Anh, trong đó tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng gióng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng từng phần của hệ thống dịch máy thống kê, từ đó nâng cao chất lượng tổng thể của cả hệ thống. Các kết quả chính của luận án bao gồm:

i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ

sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu giả lập là câu phía đích (tiếng Anh) thơng qua ngơn ngữ trung gian (tiếng Đức) vì cặp ngơn ngữ Anh – Đức là cặp ngơn ngữ có tài nguyên phong phú, được quan tâm nghiên cứu nhiều và có các mơ hình dịch được huấn luyện sẵn có chất lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu bằng mơ hình ngơn ngữ nhằm bổ sung ngữ liệu huấn luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu không sử dụng các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau khi bổ sung dữ liệu huấn luyện.

ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa

trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng cho dịch máy nơ-ron nhằm giải quyết bài toán từ hiếm (rare words) và từ nằm ngoài bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng gióng hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngơn ngữ

tiếng Anh, trên cơ sở đó, đề xuất cải tiến mơ hình gióng hàng trong đó áp dụng các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật tốn gióng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch máy thống kê.

iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu

IWSLT2015, EVB.

Kết quả thử nghiệm trên tập dữ liệu cho thấy các phương pháp đề xuất đều tăng chất lượng hệ dịch bằng đánh giá điểm BLEU, độ tăng phụ thuộc và tham số và phương pháp cụ thể áp dụng trong từng thử nghiệm.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 112 - 113)

Tải bản đầy đủ (PDF)

(127 trang)