Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch.
Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu:
- Dịch từ cây cú pháp sang câu (tree-to-string ) [34]
o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô
hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích.
o Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào
bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL).
- Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)
Trang 30
o Câu nguồn và câu đích đƣợc phân tích ra thành cây cú pháp, thƣờng là
cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự.
o Cây cú pháp của câu đích đƣợc đổi trật tự và kết hợp với cây cú pháp của
câu nguồn.
- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)
Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ con.
- Dịch dựa trên mệnh đề (clause level restructuring)
Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng sáu bƣớc chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tƣơng đồng về trật từ từ giữa câu nguồn và câu đích.
Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ƣu điểm của phƣơng pháp này nhƣ sau:
Trang 31
- Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn nhƣ chuyển
tân ngữ của câu tiếng Anh sang cuối câu trƣớc khi dịch sang tiếng Đức.
- Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn.
- Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn nhƣ
chuyển đổi trật tự giữa chủ ngữ và tân ngữ.
- Có thể khai thác mô hình ngôn ngữ cú pháp:
o Cây cú pháp đúng sẽ tạo ra câu dịch đúng.
o Cho phép chuyển đổi trật tự ở xa. Chẳng hạn nhƣ chuyển động từ chính
về cuối câu.
Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chƣa khai thác hết thông tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ trong câu là chuỗi token. Tác giả đƣa ra lý do của thông tin cú pháp chƣa thật sự có ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra, thông tin cú pháp khá là phức tạp, khó để con ngƣời theo dõi khi huấn luyện cũng nhƣ khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại hiểu rõ về lý thuyết ngôn ngữ.