Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chƣa sử dụng thông tin ngôn ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách nhƣ là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách.
Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của
house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt.
Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhƣng chƣa gặp từ houses
thì sẽ không dịch đƣợc từ này.
Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này đƣợc phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức đƣợc tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này đƣợc xem nhƣ là một vector đại diện chứa nhiều thông tin khác nhau.
Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ loại, biến cách
Hình 2.5. Mô hình dịch factored SMT
Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ. Tuy nhiên, bƣớc tạo mô hình dịch của hệ factored SMT sẽ đƣợc chia ra thành ba bƣớc nhỏ.
Ví dụ từ tiếng Đức häuse khi đƣợc dịch sang tiếng Anh sẽ đƣợc xử lý nhƣ sau:
Câu đích Từ Từ loại Hình thái Câu nguồn Từ Từ loại Hình thái
Trang 27
Từ häuse đƣợc thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ
loại NN | số đếm Plural và đƣợc dịch theo các bƣớc:
- Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích
haus → house, home, building, shell
- Dịch các factor nguyên mẫu, từ loại, hình thái
NN|plural → NN|singular, NN|plural
- Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor
house + NN|singular → house|house|NN|singular house + NN|plural → houses|house|NN|singular home + NN|singular → home|home|NN|singular home + NN|plural → homes|home|NN|singular …
Quá trình dịch từ nguyên mẫu và các factor giống nhƣ dịch dựa trên ngữ. Hệ thống sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bƣớc dịch, hệ thống sẽ tạo ra một bảng dịch.
Bƣớc phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ.
Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ nhƣ mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều
bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất 𝑝 𝑣 𝑒 nhƣ
sau: 𝑝 𝑣 𝑒 = 1 𝑍𝑒𝑥𝑝 𝜆𝑖𝑖 𝑣, 𝑒 𝑛 𝑖=1 (2.8)
Trang 28
Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Nhƣ vậy, để tính xác
suất dịch từ câu 𝑒 sang câu 𝑣, ta phải tính từng hàm đặc trƣng 𝑖 bao gồm hàm đặc
trƣng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bƣớc dịch và phát sinh. Hàm đặc trƣng cho mô hình ngôn ngữ bigram sẽ là:
𝐿𝑀 𝑣 𝑒 = 𝑝 𝑣 = 𝑝 𝑣1 𝑝 𝑣2 𝑣1 … 𝑝 𝑣𝑚 𝑣𝑚−1
(2.9)
Đối với các bƣớc dịch, mỗi câu 𝑒, 𝑣 sẽ đƣợc tách ra nhiều cặp ngữ 𝑒 𝑗, 𝑣 𝑗 . Cách
tính xác suất cặp ngữ 𝜏 𝑒 𝑗, 𝑣 𝑗 cũng tƣơng tự cho mô hình dịch trong dịch máy
thống kê dựa trên ngữ. Hàm đặc trƣng cho bƣớc dịch đƣợc tính nhƣ sau:
𝜏 𝑒, 𝑣 = 𝜏 𝑒 𝑗, 𝑣 𝑗
𝑗
(2.10)
Hàm đặc trƣng cho bƣớc phát sinh nhƣ sau:
𝐺 𝑒, 𝑣 = 𝛾 𝑣𝑘
𝑘
(2.11)
𝛾 𝑣𝑘 là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ
𝑣𝑘. Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural
thành từ ở dạng đầy đủ houses sẽ học xác suất 𝑝 𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙|𝑜𝑢𝑠𝑒𝑠 và
𝑝 𝑜𝑢𝑠𝑒𝑠| 𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙 . Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích.
Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái nhƣ từ loại, số đếm, giới tính, thì (quá khứ, tƣơng lai…)
Trang 29