ng dụng cho mơ hình dịch máy dựa vào cụm

3.3.1. Mơ hình dịch

Các mơ hình dịch trong Mose đƣợc cấu tạo bởi một mơ hình dịch cụm từ và một mơ hình sắp xếp lại cụm từ đó. Trong những mơ hình đầu tiên, m i c p cụm từ p s,t , xác suất của việc dịch từ s sang t bằng cách kết hợp nhiều đ c tính

, đƣợc đo theo , là (p)=∏ .

Các mơ hình sắp xếp lại tƣơng tự, nhƣng sắp xếp lại cục bộ giữa p với cụm từ trƣớc đó và tiếp theo phía đích, và , ho c nhiều hơn.

(p| , ,) = ∏ Công thức 3.6) 3.3.2. y dựng tập h trợ

Vê cơ bản, thực hiện các mơ hình này là tƣơng đối để tính tốn các thành phần đƣợc mô tả trong cơng thức 3.5. Đó là P s,t , P p s|t và argmax(SP(p(s,t))).

Tính tốn phân bổ đồng đều và phân phối đa thức P s,t là đơn giản, phân bổ đồng đều đảm bảo cùng 1 giá trị cho tất cả s và t, và phối đa thức có thể đƣợc mơ hình hóa bằng cách chiết xuất ra số đếm từ ngữ liệu giống nhau.

Tính P s|t cũng là khơng q khó khăn, vì ta chỉ cần tính tính PT(p(s,t)), và có thể đƣợc thực hiện bằng cách lấy các đ c tính dịch của p áp dụng cho các trọng số của m i đ c tính đó.

Thách thức nhất đó là tính giá trị argmax SP p s,t , tƣơng tự nhƣ việc giải mã trong dịch máy, chúng ta cần tìm bản dịch tốt nhất ̂ cho một câu s, với giá trị ̂ argma P(s|t)P(t). Trong thực tế, chúng ta khơng tìm khơng gian của bản dịch, nhƣng trong khơng gian nguồn đó là các chu i của bản dịch cụm từ ( ,......, ( nó có thể áp dụng từ s để tạo ra đầu ra t với điểm số

cho bởi P(t)∏ .

Thuật toán này xác định SP p s,t có thể đƣợc mơ tả nhƣ một sự tƣơng thích với thuật tốn giải mã trong Mose, nơi mà chúng tơi giới hạn khơng gian tìm kiếm thành khơng gian con SP p s,t , khơng gian tìm kiếm này chỉ cấu tạo bởi đầu ra t, mà khơng sử dụng p của chính nó. Điều này có thể đƣợc thực hiện bằng cách sử dụng bắt buộc thuật toán giải mã đề xuất trong Schwartz, 2008.

Thứ hai, đó là số điểm của một giả định dịch không phụ thuộc vào xác xuất P t của mơ hình ngơn ngữ, vì tất cả nguồn trong khơng gian tìm kiếm có t nhƣ nhau, do đó chúng tơi loại bỏ xác xuất này từ số điểm đ c tính.

Cuối cùng, thay vì sử dụng tìm kiếm Beam, ta phải hiểu hết mọi khía cạnh tìm kiếm của tất cả các khơng gian tìm kiếm, để giảm bớt các giả định phát sinh một l i tìm kiếm trong giai đoạn này. Điều này là có thể, vì c p cụm từ thƣờng nhỏ hơn so với văn bản ít hơn 8 từ , và bởi vì có ràng buộc khơng gian tìm kiếm cho t, nên độ lớn nhỏ hơn khơng gian tìm kiếm thơng thƣờng với tất cả các bản dịch.

3.3.3. Thuật toán Pruning

Thuật toán đƣợc dùng để tạo ra một mơ hình dịch đƣợc cắt gọt nhƣ sau: thực hiện duyệt qua tất cả các cụm từ ( ,......, ( . Và giải mã

bằng cách sử dụng thuật toán giải mã, từ đến , để có đƣờng đi tốt nhất S. Nếu khơng có đƣờng đi đƣợc tìm thấy nghĩa là là nguyên tử. Sau đó thực hiện cắt gọt dựa trên cơng thức 3.5.

Thuật tốn 1: Cắt gọt độc lập Yêu cầu: Ngƣỡng cắt gọt , Mơ hình chƣa đƣợc cắt gọt { ( ,......, ( } for ( , ) ( ,......, ( } do S:=argmax(SP( ))\ Score:= If S then Score: = P(s,t)log∏ End if

If score then

Prune( )

End if End for

Return Mơ hình dã cắt gọt

Nút thắt chính trong thuật tốn này là tìm argmax(SP(s,t)), trong khi điều này xuất hiện tƣơng đối đơn giản và tƣơng tự nhƣ một cơng việc giải mã tài liệu, kích thƣớc của cơng việc là một trật tự khác nhau về độ lớn, vì chúng ta cần giải mã m i c p cụm từ trong mơ hình dịch, trong đó có thể khơng phải là cho mơ hình lớn với hàng triệu c p cụm từ, và sẽ đƣợc giải quyết trong mục “Pruning Setup” đƣợc trình bày cụ thể ở mục sau.

Một vấn đề khác với thuật toán này là việc quyết định để cắt gọt m i c p cụm từ đƣợc giả định, và tất cả các c p cụm từ khác vẫn đƣợc giữ nguyên trong mơ hình. Vì vậy, có một thách thức c p cụm từ là đƣợc cắt gọt bởi vì dẫn xuất của sử dụng và dẫn đến bản dịch giống nhau. Tuy nhiên, nếu cũng xảy ra việc đƣợc cắt gọt thì một dẫn xuất nhƣ vậy sẽ khơng cịn. Một giải pháp để thực hiện giải quyết vấn đề này là thực hiện cắt gọt l p đi l p lại từ c p cụm từ nhỏ nhất số từ và tăng kích thƣớc của m i lần l p. Tuy nhiên, việc này là khơng mong muốn, vì mơ hình sẽ hƣớng vào việc loại bỏ các c p cụm từ nhỏ, mà các c p cụm từ nhỏ này thƣờng hữu ích hơn vì chúng đƣợc sử dụng trong nhiều dẫn xuất để thay thế các c p cụm từ lớn hơn. Trong ví dụ trên, các mơ hình sẽ loại bỏ và giữ , khi chƣa có lựa chọn tốt nhất có thể để giữ và

CHƢƠNG 4. ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES

Để phục vụ cho việc thử nghiệm hệ dịch, tôi sử dụng phần mềm opensource Moses làm công cụ thử nghiệm.

Moses là một hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng các mơ hình dịch cho bất kỳ c p ngôn ngữ nào với đầu vào là một tập hợp các văn bản song ngữ, đƣợc nhiều trƣờng đại học, nhóm nghiên cứu nổi tiếng về xử lý ngôn ngữ tự nhiên và dịch máy thống kê nhƣ Edinburg Scotland , RWTH Aachen (Germany), ... tham gia phát triển. Đây là phần mềm có chất lƣợng khá tốt, khả năng mở rộng cao đƣợc dùng để xây dựng nhiều hệ thống dịch thử nghiệm cho nhiều c p ngôn ngữ nhƣ Anh-Czech, Anh-Trung, Anh-Pháp, ..

Moses cho phép chúng ta tự đào tạo mơ hình dịch cho c p câu song ngữ. Nhiệm vụ của chúng ta là thu thập và cung cấp dữ liệu đầu vào là các bộ ngữ liệu song ngữ, sau đó Moses sẽ tự động huấn luyện các mơ hình dịch.

Hệ thống dịch máy thống kê này chứa một số thành phần sau:

- Tệp phrase-table: tệp này chứa các cụm song ngữ theo định dạng: “cụm từ ở ngơn ngữ đích | cụm từ ở ngơn ngữ nguồn | xác suất”

- tệp moses.ini chứa các tham số cho bộ giải mã nhƣ: đƣờng dẫn đến tệp

phrase-table, đƣờng dẫn đến tệp chứa mơ hình ngơn ngữ, số lƣợng tối đa cụm

từ của ngơn ngữ đích đƣợc dịch bởi một cụm từ của ngôn ngữ nguồn, ....

Để xây dựng đƣợc mơ hình dịch thống kê, ta có thể sử dụng script: train-

model.perl với một số tham số sau:

- -root-dir -- cài đ t thƣ mục gốc nơi lƣu trữ các tệp đầu ra

- -corpus -- tên của tệp văn bản huấn luyện (bao gồm cả 2 ngôn ngữ

nguồn và đích

- -e -- đi mở rộng của tệp văn bản huấn luyện ngơn ngữ đích

- -f -- đuôi mở rộng của tệp văn bản huấn luyện ngôn ngữ nguồn

- -lm -- language model: <factor>:<order>:<filename> : thiết lập file

cấu hình mơ hình ngơn ngữ theo định dạng đã trình bày trong phần 3.3

- -max-phrase-length -- độ dài lớn nhất của các cụm từ lƣu trữ trong tệp

phrase-table.

Ng dụng cho mơ hình dịch máy dựa vào cụm

.5 Gióng hàng sau khi chuyển đổi

Thuật toán giải mã A* cho dịch máy