Luận án này sử dụng hệ thống dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] là hệ thống dịch máy thống kê mã nguồn mở cho phép dịch tự động trên nhiều cặp song ngữ Trong quá trình huấn luyện mơ hình, thuật tốn tìm kiếm tính xác suất dịch cao nhất trong các khả năng cĩ thể dịch ra MOSES được sử dụng để thử nghiệm các đề xuất, cải tiến của luận án Cấu trúc tổng quát của hệ thống được tĩm tắt gồm năm giai đoạn chính:
1 Chuẩn bị dữ liệu: Kho ngữ liệu song ngữ được tách từ, làm sạch dữ liệu (ví dụ như loại bỏ các câu quá dài, câu quá ngắn)
2 Huấn luyện mơ hình ngơn ngữ: Mơ hình ngơn ngữ được xây dựng từ phía ngơn ngữ đích hoặc dữ liệu đơn ngữ
3 Huấn luyện mơ hình dịch: là giai đoạn tốn nhiều thời gian nhất vì hệ thống học cách giĩng hàng từ, trích rút các cụm từ, sinh ra bảng giĩng hàng cụm từ, xây dựng mơ hình dịch và sắp xếp lại
4 Tinh chỉnh tham số: Hệ thống điều chỉnh tham số của mơ hình dịch đã được huấn luyện với tập ngữ liệu phù hợp Bước này được thực hiện nhiều lần đến khi đạt ngưỡng hoặc mơ hình dịch khơng được cải thiện sau khi tinh chỉnh Trong hệ thống MOSES, tinh chỉnh tham số được thực hiện bằng nhiều thuật tốn, các thực nghiệm trong luận án sử dụng thuật tốn MERT (Minimum error rate training) để tinh chỉnh tham số
5 Cuối cùng, độ đo tự động (ví dụ như BLEU [91]) đánh giá hệ thống bằng cách so sánh với bản dịch mẫu của con người
Chuẩn bị dữ liệu Huấn luyện Mơ hình ngơn ngữ Huấn luyện Mơ hình dịch Tinh chỉnh tham số Đánh giá
Hình 1 5 Các giai đoạn xây dựng hệ dịch máy thống kê
Trong các giai đoạn kể trên, 4 giai đoạn đầu cĩ ảnh hưởng đến chất lượng của hệ thống dịch máy Mơ hình ngơn ngữ và mơ hình dịch đã được quan tâm nghiên cứu rất nhiều, hiện nay các mơ hình đã đạt đến mức gần như “hồn chỉnh”, do đĩ khĩ cĩ khả năng cải tiến để nâng cao chất lượng của mơ hình Cặp ngơn ngữ Việt-Anh cĩ tài nguyên hạn chế, do đĩ luận án tập trung vào giai đoạn chuẩn bị dữ liệu để nâng cao chất lượng hệ thống dịch máy Bên cạnh đĩ, trong giai đoạn huấn luyện mơ hình dịch, giĩng hàng từ là bước quan trọng để
từ đĩ sinh ra mơ hình, bo gồm bảng giĩng hàng từ, bảng giĩng hàng cụm từ, với ngữ liệu huấn luyện ít, việc giĩng hàng từ cĩ thể bị sai lệch ảnh hưởng xấu đến chất lượng mơ hình dịch, vì vậy luận án cũng hướng đến nâng cao chất lượng giĩng hàng từ với tài nguyên hạn chế để từ đĩ nâng cao chất lượng hệ dịch máy thống kê Việt – Anh