0
Tải bản đầy đủ (.pdf) (129 trang)

Mô hình dịch dựa trên cụm từ

Một phần của tài liệu KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH VIỆT (Trang 35 -36 )

Cách tiếp cận hiện thành công nhất với SMT là sử dụng cách dịch theo cụm từ. Xem minh họa ở Hình 1.6, trước hết, câu đầu vào tiếng Anh "Of course John

Hình 1.6: Dịch dựa trên cụm từ. Câu đầu vào được tách ra thành các cụm từ, dịch một-một các cụm từ tiếng Anh sang tiếng Việt và có thể sắp xếp lại trật

tự các cụm từ.

has fun with the game" được tách ra thành các cụm từ: Of course, John, has fun with the, game; sau đó, dịch một-một các cụm từ tiếng Anh sang tiếng Việt: Of course → Tất_nhiên, John → John, has fun with the → đã thích_thú với, game

→ trò_chơi; cuối cùng, có thể sắp xếp lại trật tự các cụm từ này. Ở đây, cụm từ là chuỗi các từ liền kề nhau không nhất thiết là cụm từ trong ngôn ngữ học (theo định nghĩa trong ngữ pháp). Trong phương pháp này, câu đầu vào được chia thành một chuỗi các cụm từ; những cụm từ được ánh xạ một-một đến các cụm từ đầu ra, có thể được sắp xếp lại thứ tự các cụm từ. Thông thường, các mô hình cụm từ được ước lượng từ ngữ liệu song ngữ đã được gióng hàng từ. Tất cả các cặp cụm từ nhất quán với gióng hàng từ sẽ được rút trích và gán với một xác suất tương ứng.

Theo Koehn [62], câu ngôn ngữ nguồnf được tách thànhI cụm từf1,f2, ..., fI. Mỗi cụm từfi trong f được dịch ra thành một cụm từ ei tương ứng trong e. Quá trình này được thực hiện dựa vào phân phối xác suất φ(fi|ei). Ngoài ra, các cụm từ ei được sắp xếp lại theo một thứ tự nhất định dựa trên mô hình chuyển đổi

d(ai −bi−1), với ai là vị trí bắt đầu của cụm từ fi và bi−1 là vị trí kết thúc của cụm từei−1. Khi đó, xác suất dịchP r(f|e)được tính theo công thức:

P r(f|e) =

I Y

i=1

φ(fi|ei)d(ai−bi−1) (1.8)

Một phần của tài liệu KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH VIỆT (Trang 35 -36 )

×