7. Bố cục của luận án
3.6. Kết luận Chương 3
Trong chương này một phương pháp cải tiến mơ hình giĩng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngơn ngữ Việt - Anh để giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa
hai ngơn ngữ tiếng Anh và tiếng Việtnhằmnâng cao chất lượng hệ thống SMT
đã được đề xuất. Phương pháp đề xuất bao gồm 2 cải tiến đối với mơ hình giĩng
hàng:
1. Áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa
vào giĩng hàng trong hệ thống dịch máy Việt - Anh.
2. Đề xuất thuật tốn tạo bảng giĩng hàng từ A* từ bảng A thu được ở bước giĩng hàng từ với dữ liệu đã được chia nhỏ từ trước khi xây dựng mơ hình dịch, giúp giữ nguyên chất lượng mơ hình ngơn ngữ trong hệ thống dịch máy.
Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor. Các kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ dịch thống dịch máy thống kê với cặp ngơn ngữ Việt - Anh, các kỹ thuật áp dụng đều làm cho hệ thống dịch tăng điểm BLEU so với hệ thống trước khi cải tiến.
Trong chương này, luận án đã tiến hành các thử nghiệm cho mơ hình kết hợp hai phương pháp đã trình bày ở chương 2 và chương 3 với bộ dữ liệu EVB.
Kết quả thử nghiệm đã cho thấy việc áp dụng kết hợp 2 phương pháp cho kết quả cao hơn so với sử dụng đơn lẻ từng phương pháp.
Kết quả nghiên cứu chính trong chương đã được cơng bố ở cơng trình [CT4].
KẾT LUẬN