Kết luận Chương 3

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 111 - 112)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

3.6. Kết luận Chương 3

Trong chương này một phương pháp cải tiến mơ hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngôn ngữ Việt - Anh để giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa hai ngôn ngữ tiếng Anh và tiếng Việt nhằm nâng cao chất lượng hệ thống SMT đã được đề xuất. Phương pháp đề xuất bao gồm 2 cải tiến đối với mơ hình gióng

hàng:

1. Áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa

vào gióng hàng trong hệ thống dịch máy Việt - Anh.

2. Đề xuất thuật tốn tạo bảng gióng hàng từ A* từ bảng A thu được ở bước gióng hàng từ với dữ liệu đã được chia nhỏ từ trước khi xây dựng mơ hình dịch, giúp giữ ngun chất lượng mơ hình ngơn ngữ trong hệ thống dịch máy.

Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor. Các kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ dịch thống dịch máy thống kê với cặp ngôn ngữ Việt - Anh, các kỹ thuật áp dụng đều làm cho hệ thống dịch tăng điểm BLEU so với hệ thống trước khi cải tiến.

Trong chương này, luận án đã tiến hành các thử nghiệm cho mơ hình kết hợp hai phương pháp đã trình bày ở chương 2 và chương 3 với bộ dữ liệu EVB. Kết quả thử nghiệm đã cho thấy việc áp dụng kết hợp 2 phương pháp cho kết quả cao hơn so với sử dụng đơn lẻ từng phương pháp.

Kết quả nghiên cứu chính trong chương đã được cơng bố ở cơng trình

KẾT LUẬN

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 111 - 112)

Tải bản đầy đủ (PDF)

(127 trang)