Ở đây có thể thấy sau khi chuyển đổi trật tự các gióng hàng đã giảm đáng kể. Hiện tại, có hai hƣớng tiếp cận chính trong bài tốn chuyển đổi trật tự từ trong dịch máy thống kê:
- Chuyển đổi trật tự từ của câu ngơn ngữ nguồn, hay cịn gọi là tiền xử lý (pre-processing).
- Chuyển đổi trật tự từ của câu ngôn ngữ đích, hay cịn gọi là hậu xử lý (post-processing).
2.2.4. Mơ hình log-tuyến tính áp dụng cho bài tốn dịch máy
Ở trên chúng ta đã biết đến hệ dịch thống kê dựa trên đơn vị cụm từ áp dụng công thức Bayes, hệ dịch thống kê này bao gồm 3 mơ hình thành phần chính:
- Bảng xác suất dịch cụm từ (mơ hình dịch - translation model) - Mơ hình sắp xếp trật tự từ (word reordering)
- Mơ hình ngơn ngữ(language model).
Trên thực tế, có nhiều yếu tố tác động trực tiếp tới quá trình dịch và m i thành phần lại tác động dƣới những trọng số khác nhau tới kết quả dịch. Chính vì vậy, cách tính trực tiếp mơ hình dịch sử dụng mơ hình log-tuyến tính đã đƣợc đề xuất bởi Och và Ney[5]. Mơ hình log-tuyến tính đƣợc mơ hình dƣới cơng thức tổng quát sau:
1
( ) in i i( )
p x exp h x Công thức 2.3) (Với trọng số λ và hàm đ c trƣng h(x))
Trong mơ hình log-tuyến tính áp dụng cho bài tốn dịch máy, m i điểm dữ liệu ở đây là việc dịch một câu nhƣ là một vec-tơ. Và một mơ hình là một tập các vectơ đ c trƣng tƣơng ứng. Các hàm đ c trƣng đƣợc huấn luyện độc lập và đƣợc kết hợp với giả định rằng chúng là độc lập với nhau. Nhƣ vậy, mơ hình log-tuyến tính đƣợc sử dụng trong q trình dịch có nhiều ý nghĩa khác nhau. Thứ nhất là việc đánh trọng số các thành phần khác nhau là rất linh hoạt và có thể áp dụng m i tập trọng số khác nhau cho các c p ngôn ngữ khác nhau, tối ƣu
nhất cho từng c p. Thứ hai là cấu trúc này cho phép chúng ta có thể thêm các thành phần thơng tin hữu ích khác vào mơ hình dịch dƣới dạng các hàm thuộc tính tƣơng tự nhƣ thuộc tính mơ hình dịch, mơ hình ngơn ngữ, mơ hình trật tự từ…
Khi đó, bài tốn dịch máy thống kê sẽ trở thành bài tốn tìm kiếm: Vbest = argmaxv{p(v|e)}=
argmaxv{ ∑ ihi(x) } (Công thức 2.4)
Mơ hình dịch máy thống kê dựa vào cụm từ đƣợc mơ hình hóa nhƣ sau(hình 2.6):