Các đặc trưng khác sử dụng trong mô hình dịch phra- 123docz.net

L ỜI MỞ ĐẦ U

3.2 Các đặc trưng khác sử dụng trong mô hình dịch phrase-based

3.2.1 Xác suất dịch theo 2 hướng

Thông thường, ta áp dụng công thức Bayes để tính xác suất p(v|e) = p(e|v)*p(v)*p(e)-1. Tuy nhiên, trong dữ liệu huấn luyện có thể tồn tại một cụm từ

hiếm e ánh xạ tới một cụm từ phổ biến v. Trong trường hợp này, φ( )e|v là rất cao, thậm chí có thể bằng 1. Khi đó, nếu ta gặp lại cụm từe trong dữ liệu test thì cụm từ dịch sai này hầu như là được sử dụng để sinh ra xác suất dịch cao nhất. Vì ta có p(e|v) cao, và p(v) cao vì v là một cụm từ phổ biến.

Như vậy, tốt hơn là ta sử dụng xác suất dịch trực tiếp p(v|e) trong trường hợp như

thế. Trong công thức log-linear, ta có thể biểu diễn xác suất dịch p(e|v), p(v|e)

hoặc cả 2 xác suất dịch đó như các hàm đặc trưng.

Trong thực tế, mô hình sử dụng xác suất dịch theo cả 2 hướng cho kết quả dịch tốt hơn mô hình dịch theo 1 hướng nào đó.

3.2.2 Tính trọng số từ vựng

Một số cặp cụm từ hiếm có thể dẫn tới nhiều vấn đề, đặc biệt là khi chúng được thu thập từ dữ liệu bị nhiễu. Nếu cả cụm từ e và v đều chỉ xuất hiện 1 lần thì

( ) ( )e|v =φ v|e =1

φ . Khi đó ta rất khó để xác định được độ tin cậy của một cụm

từ hiếm gặp. Nếu ta phân tích cụm đó ra thành việc dịch các từ trong cụm đó, ta có thể kiểm tra chúng tương ứng với nhau như thế nào. Việc làm này gọi là tính trọng số từ vựng (lexical weighting).

Có nhiều phương pháp tính trọng số từ vựng khác nhau, hầu hết các phương pháp bắt nguồn từ các mô hình IBM. Các cặp cụm từđược sinh ra từ một gióng hàng từ. Với mỗi cặp cụm từ, ta cũng có các gióng hàng giữa các từ trong cụm từđó.

Dựa trên gióng hàng này, ta có thể tính xác suất dịch từ vựng của một cụm từ v với 1 cụm từe cho trước là: ( ) { ( ) } ( ) ( ) ( ) ∏ ∑ = ∈ ∀ ∈ = dodai v i i j a i i e v w a j i j a e v lex 1 , | , | 1 , |

Trong công thức này, mỗi từ vi được sinh bởi gióng hàng với các từ ej với xác suất dịch từ w(vi|ej)được ước lượng từ dữ liệu đã được gióng hàng từ. Nếu 1 từ

tiếng Việt được gióng hàng với nhiều từ tiếng Anh, ta lấy trung bình các xác suất dịch các từ tương ứng đó. Nếu một từ tiếng Việt không gióng hàng với từ tiếng Anh nào, thì từ tiếng Việt đó gióng hàng với từ NULL.

Xét ví dụ như hình 3.1. Trong đó, phrase tiếng Việt báo_cáo tài_chính được ghép cặp với phrase tiếng Anh a financial report. Trọng số từ vựng cho cặp cụm từ này là: w(tài_chính|finalcial) của từ tiếng Việt tài_chính gióng hàng với từ

tiếng Anh finalcial; và báo_cáo gióng hàng với 2 từ tiếng Anh a report, do đó tham số cho trường hợp này là trung bình của 2 xác suất dịch từ tương ứng.

a financial report

báo_cáo tài_chính

lex(v|e,a) = 1/2(w(báo_cáo|a) + w(báo_cáo|report)) * w(tài_chính|finalcial)

Hình 3.1: Trọng số từ vựng của một cặp cụm từ (v, e) với gióng hàng a, phân phối xác suất dịch từ vựng w cho trước.

Trong thực tế, mô hình có thểđược cải thiện chất lượng khi ta sử dụng cả 2 chiều dịch lex(e|v,a) và lex(v|e,a).

3.2.3 Hàm phạt từ và hàm phạt cụm từ

Đặc trưng của hàm phạt từ (word penalty) đảm bảo cho câu đầu ra ứng với một câu đầu vào là không quá ngắn hoặc quá dài. Tùy thuộc vào dữ liệu học mà ta sẽ ưu tiên cách dịch ngắn hơn (ω < 1) hay cách dịch dài hơn (ω > 1).

Tương tự, hàm phạt cụm từ (phrase penalty) cũng nhằm định ra cách dịch cụm từ

dài hay cụm từ ngắn là phù hợp hơn với dữ liệu đưa vào. Một câu mới đưa vào sẽ

toán điểm số dựa trên cách dịch, trật tự từ, mô hình ngôn ngữ sẽ định ra cách phân tách câu đó. Vậy cụm từ dài tốt hơn hay cụm từ ngắn tốt hơn? Xu hướng lựa chọn này có thể được quyết định qua tham số ρ với giá trị tương tự như ω. Nghĩa là, nếu ρ<1 thì ta có xu hướng thích các cụm từ dài hơn và ngược lại, với

CHƯƠNG IV – DỊCH MÁY THỐNG KÊ TÍCH HỢP THÊM THÔNG TIN NGÔN NGỮ

Chương này sẽ giới thiệu chi tiết về ý tưởng và ý nghĩa của hệ dịch máy thống kê có tích hợp thêm thông tin ngôn ngữ. Trong đó các thông tin ngôn ngữ được sử

dụng như sau:

- word là thông tin về từ

- POS là thông tin về nhãn từ loại

- lemma là gốc của từ tiếng Anh khi qua biến đổi hình thái ở dạng đơn giản. Tức là từ qua phân tích hình thái sẽ thành dạng lemma + s/ed/en/ing với s

chỉ dạng số nhiều; ed chỉ thì quá khứ; en chỉ thì hoàn thành; ing chỉ thể

tiếp diễn.

- morphology là thông tin hình thái mà cụ thểởđây chính là s/ed/en/ing. Trong các phần tiếp theo của luận văn tôi sử dụng những từ này với các ý nghĩa như vậy.