Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách như là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách.
Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của
house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt. Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhưng chưa gặp từ houses thì sẽ không dịch được từ này.
Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này được phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức được tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này được xem như là một vector đại diện chứa nhiều thông tin khác nhau.
Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ loại, biến cách
Câu nguồn Câu đích
Từ Từ
Nguyên mẫu Nguyên mẫu
Từ loại Từ loại
Hình thái Hình thái
Hình 2.5. Mô hình dịch factored SMT
Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ. Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba bước nhỏ.
Từ häuse được thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ loại NN | số đếm Plural và được dịch theo các bước:
- Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích haus → house, home, building, shell
- Dịch các factor nguyên mẫu, từ loại, hình thái NN|plural → NN|singular, NN|plural
- Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor house + NN|singular → house|house|NN|singular house + NN|plural → houses|house|NN|singular home + NN|singular → home|home|NN|singular home + NN|plural → homes|home|NN|singular …
Quá trình dịch từ nguyên mẫu và các factor giống như dịch dựa trên ngữ. Hệ thống sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bước dịch, hệ thống sẽ tạo ra một bảng dịch.
Bước phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ.
Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ như mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất như sau:
1
= ,
=1
Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Như vậy, để tính xác suất dịch từ câu sang câu , ta phải tính từng hàm đặc trưng bao gồm hàm đặc trưng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bước dịch và phát sinh.
Hàm đặc trưng cho mô hình ngôn ngữ bigram sẽ là:
== …
1 2 1 −1
(2.9) Đối với các bước dịch, mỗi câu , sẽ được tách ra nhiều cặp ngữ , . Cách
tính xác suất cặp ngữ, cũng tương tự cho mô hình dịch trong dịch máy thống kê dựa trên ngữ. Hàm đặc trưng cho bước dịch được tính như sau:
, = ,
(2.10)
Hàm đặc trưng cho bước phát sinh như sau:
, =
(2.11)
là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ
. Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất , , | và
| , , . Các giá trịphân phối này hệthống thống kê từngữliệu đơn ngữ của ngôn ngữ đích.
Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái như từ loại, số đếm, giới tính, thì (quá khứ, tương lai…)