Mô hình dịch thống kê factored (Factored SMT)- 123docz.net

Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chƣa sử dụng thông tin ngôn ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách nhƣ là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách.

Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của

house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt.

Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhƣng chƣa gặp từ houses

thì sẽ không dịch đƣợc từ này.

Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này đƣợc phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức đƣợc tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này đƣợc xem nhƣ là một vector đại diện chứa nhiều thông tin khác nhau.

Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ loại, biến cách

Hình 2.5. Mô hình dịch factored SMT

Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ. Tuy nhiên, bƣớc tạo mô hình dịch của hệ factored SMT sẽ đƣợc chia ra thành ba bƣớc nhỏ.

Ví dụ từ tiếng Đức häuse khi đƣợc dịch sang tiếng Anh sẽ đƣợc xử lý nhƣ sau:

Câu đích Từ Từ loại Hình thái Câu nguồn Từ Từ loại Hình thái

Trang 27

Từ häuse đƣợc thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ

loại NN | số đếm Plural và đƣợc dịch theo các bƣớc:

- Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích

haus → house, home, building, shell

- Dịch các factor nguyên mẫu, từ loại, hình thái

NN|plural → NN|singular, NN|plural

- Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor

Quá trình dịch từ nguyên mẫu và các factor giống nhƣ dịch dựa trên ngữ. Hệ thống sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bƣớc dịch, hệ thống sẽ tạo ra một bảng dịch.

Bƣớc phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ.

Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ nhƣ mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều

bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất 𝑝 𝑣 𝑒 nhƣ

sau: 𝑝 𝑣 𝑒 = 1 𝑍𝑒𝑥𝑝 𝜆𝑖𝑕𝑖 𝑣, 𝑒 𝑛 𝑖=1 (2.8)

Trang 28

Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Nhƣ vậy, để tính xác

suất dịch từ câu 𝑒 sang câu 𝑣, ta phải tính từng hàm đặc trƣng 𝑕𝑖 bao gồm hàm đặc

trƣng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bƣớc dịch và phát sinh. Hàm đặc trƣng cho mô hình ngôn ngữ bigram sẽ là:

𝑕𝐿𝑀 𝑣 𝑒 = 𝑝 𝑣 = 𝑝 𝑣1 𝑝 𝑣2 𝑣1 … 𝑝 𝑣𝑚 𝑣𝑚−1

(2.9)

Đối với các bƣớc dịch, mỗi câu 𝑒, 𝑣 sẽ đƣợc tách ra nhiều cặp ngữ 𝑒 𝑗, 𝑣 𝑗 . Cách

tính xác suất cặp ngữ 𝜏 𝑒 𝑗, 𝑣 𝑗 cũng tƣơng tự cho mô hình dịch trong dịch máy

thống kê dựa trên ngữ. Hàm đặc trƣng cho bƣớc dịch đƣợc tính nhƣ sau:

𝑕𝜏 𝑒, 𝑣 = 𝜏 𝑒 𝑗, 𝑣 𝑗

𝑗

(2.10)

Hàm đặc trƣng cho bƣớc phát sinh nhƣ sau:

𝑕𝐺 𝑒, 𝑣 = 𝛾 𝑣𝑘

𝑘

(2.11)

𝛾 𝑣𝑘 là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ

𝑣𝑘. Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural

thành từ ở dạng đầy đủ houses sẽ học xác suất 𝑝 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙|𝑕𝑜𝑢𝑠𝑒𝑠 và

𝑝 𝑕𝑜𝑢𝑠𝑒𝑠| 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙 . Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích.

Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái nhƣ từ loại, số đếm, giới tính, thì (quá khứ, tƣơng lai…)

Trang 29

Mô hình dịch thống kê factored (Factored SMT)

Dùng thông tin cú pháp

Sử dụng thông tin từ loại