0
Tải bản đầy đủ (.pdf) (129 trang)

Tích hợp cụm từ song ngữ vào dịch máy

Một phần của tài liệu KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH VIỆT (Trang 105 -107 )

4 Xác định cụm từ song ngữ cho dịch máy thống kê

4.3 Tích hợp cụm từ song ngữ vào dịch máy

Bảng cụm từ (hay còn gọi là phrase table) đóng vai trò rất quan trọng đối với các hệ thống SMT dựa trên cụm từ. Tuy nhiên, như Ren và cộng sự trong [99] đã chỉ ra rằng, do những lỗi trong quá trình gióng hàng từ tự động và sự mở rộng các từ không được gióng hàng (unaligned word) trong giai đoạn rút trích cụm từ, dẫn đến nhiều cụm từ vô nghĩa sẽ được rút trích và kết quả tính xác suất dịch cụm từ không đúng. Để giảm bớt vấn đề này, tương tự các nghiên cứu của Ren [99], Bouamor [9], chúng tôi tích hợp các cụm từ song ngữ sau khi được rút trích từ ngữ liệu vào hệ thống SMT Anh - Việt theo hai cách:

1. Xây dựng thêm một bảng cụm từ từ các cụm từ song ngữ được rút trích tự động. Xác suất dịch của các cụm được tính theo các công thức (4.3) và (4.4). Bảng4.2 trình bày ví dụ về một số cụm từ song ngữ được rút trích tự động từ ngữ liệu song ngữ Anh - Việt sử dụng trong thực nghiệm. Chúng tôi kết hợp bảng cụm từ ban đầu (được tạo ra trong quá trình huấn luyện mô hình dịch) và bảng cụm từ được tạo ra từ các cụm từ song ngữ vào trong hệ thống SMT. Như vậy, đối với mỗi cụm từ trong câu đầu vào, trong quá trình dịch bộ giải mã sẽ tìm kiếm tất cả các cụm dịch ứng cử viên trong cả hai bảng cụm từ (chúng tôi gọi là phương pháp APT).

2. Sử dụng các cụm từ song ngữ được rút trích tự động như là câu song ngữ và thêm chúng vào dữ liệu huấn luyện, sau đó huấn luyện lại mô hình dịch. Bằng cách tăng số lần xuất hiện của các cụm từ song ngữ, đây là những cụm từ song ngữ có chất lượng tốt. Với cách làm này, các gióng hàng lỗi sẽ giảm và việc ước lượng xác suất dịch cụm từ sẽ hợp lý hơn [99] (chúng tôi gọi là phương pháp ABP).

Bảng 4.2:Ví dụ về một số cụm từ song ngữ được sử dụng trong thực nghiệm.

Cụm từ tiếng Anh Cụm từ tiếng Việt Xác suất

a useful contact một đầu_mối hữu_ích 0.4999 gusts of rage cơn giận điên lên 0.9999 an american military official một quan_chức quân_đội mỹ 0.9999 a second language một ngôn_ngữ thứ_hai 0.7999 a normal reaction một phản_ứng thông_thường 0.9999 the right number con_số chính_xác 0.3333 a pleasant surprise một sự ngạc_nhiên thú_vị 0.3333 a good journey chúc thượng_lộ_bình_an 0.3333 a cheap hotel một khách_sạn rẻ_tiền 0.9999 a famous conductor người chỉ_huy_dàn_nhạc nổi_tiếng 0.9999

4.4 Thực nghiệm

4.4.1 Thực nghiệm về rút trích cụm từ song ngữ

4.4.1.1 Cài đặt thực nghiệm

Một phần của tài liệu KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH VIỆT (Trang 105 -107 )

×