Mô hình Entropy cho dịch máy

3.2. Mô hình Entropy tƣơng tự cho mô hình dịch bảng cụm từ

3.2.2. Mô hình Entropy cho dịch máy

M i c p cụm từ , chúng ta định nghĩa tập h trợ SP )=

tại m i phần tử = ..., là một dẫn suất khác của s,t chuyển từ s sang t với xác suất là P )= P( ) x...x P( ). M i c p cụm từ có nhiều phần từ trong tập h trợ. Ví dụ, c p cụm từ p(Lan in Viet Nam, Lan ở Viet Nam) có 3 thành phần trong tập h trợ:

- S1 = {p(Lan, Lan), p(in, ở), p(Viet Nam, Viet Nam)} - S2= {p(Lan, Lan), p(in Viet Nam, ở Viet Nam)} - S3= {p(Lan in, Lan ở), p(Viet Nam, Viet Nam)}

S , S2và S3là mã hóa 3 giả định khác nhau về sự kiện của dịch từ “Lan in Viet Nam” sang “Lan ở Viet Nam”.

S giả định rằng sự kiện này đƣợc tạo ra bởi 3 sự kiện độc lập A1, B1 và

hợp duy nhất A1∩ B1, đƣợc độc lập từ C1. Và S3nhóm A1và C1độc lập từ B1. Theo dự kiến, sự kiện này đƣợc mã hóa trong các cụm từ c p p chính nó là A1∩

B ∩C1, trong đó giả định rằng A1, B1and C1là tất cả phụ thuộc.

Chúng ta có thể thấy rằng nếu bất kỳ sự kiện S1, S2ho c S3có một "xác

suất tƣơng tự" là sự kiện đƣợc mã hóa trong các c p cụm từ, chúng ta có thể

loại bỏ cụm từ c p này với một tác động tối thiểu trong các cụm từ dự đoán. Để chính thức hóa ý niệm về "xác suất tƣơng tự", ta áp dụng các entropy tƣơng đối ho c sự phân kỳ KullbackLeibler, và xác định sự phân kỳ giữa một mô hình dịch cắt gọt Pp (s, t) và mô hình không đƣợc cắt gọt p(s, t) là:

D ( P) = - ∑ log

Công thức 3.1

Trong đó

, là độ lệch giữa xác suất đƣợc tạo ra từ mô hình đƣợc cắt gọt và xác suất ban đầu từ mô hình chƣa đƣợc cắt gọt cho m i c p ngôn ngữ nguồn – đích là s,t. Đây là tần suất các c p s,t xuất hiện, và đƣa ra bởi P s,t .

Mục tiêu là tối thiểu giá trị D P), có thể thực hiện cắt gọt cục bộ c p cụm từ p s,t với giá trị thấp nhất cho - log

Lý tƣởng nhất là giảm thiểu entropy tƣơng đối cho tất cả các câu nguồn và câu đích có thể, chứ không phải tất cả các cụm từ trong mô hình. Tuy nhiên, giảm thiểu một hàm mục tiêu nhƣ vậy sẽ khó do phải sắp xếp lại, vì xác suất đƣợc gán cho một c p cụm từ trong một c p câu của m i mô hình sẽ phụ thuộc vào vị trí của tất cả các c p cụm từ khác đƣợc sử dụng trong câu. Bởi vì các vấn đề là phụ thuộc nhau, nên không thể giảm bớt vấn đề này để giảm vấn đề cục bộ. Vì vậy, giả định rằng tất cả các c p cụm từ có xác suất nhƣ nhau, bất kể các bối cảnh nội dung trong một câu.

Nhƣ vậy, thuật toán cắt gọt có một ngƣỡng và cắt gọt tất cả các c p cụm từ mà không đáp ứng đƣợc các tiêu chí sau:

- log

> Công thức 3.2 Các thành phần chính của hàm này là tỷ lệ tạo ra giữa mô hình cắt gọt và mô hình không đƣợc cắt gọt bởi

, và trọng lƣợng cho m i c p s,t bởi P (s,t). Việc tính giá trị

đƣợc trình bày tại các mục dƣới đây.

.5 Gióng hàng sau khi chuyển đổi

Thuật toán giải mã A* cho dịch máy