Các nghiên cứu đã có về tích hợp WSD vào SMT

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 49)

C(SU )= {pЄ P| p(ƒ )= (ƒ) với tất cả các ƒЄ SU }

5.1 Các nghiên cứu đã có về tích hợp WSD vào SMT

Trong [14], Cabezas và Resnik đã trình bày các kết quả tốt khi tích hợp WSD vào Pharaoh. Họ đã sử dụng kỹ thuật của WSD để huấn luyện mô hình dịch từ cảm ngữ cảnh. Ngữ liệu huấn luyện được sinh tự động từ kho ngữ liệu song ngữ. Kết quả thực nghiệm cho thấy chất lượng dịch có tăng lên.

Năm 2007, Chan, Ng và Chaing đã nghiên cứu tích hợp WSD vào dịch máy thống kê dựa vào cụm từ phân cấp [15]. Dữ liệu huấn luyện các mô hình WSD cũng được sinh tự động từ kho ngữ liệu song ngữ đã được dóng hàng từ. Họ cũng đã đưa ra hai thuộc tính mới liên quan đến WSD cho hệ dịch máy của mình. Kết quả thực nghiệm trên một kho ngữ liệu song ngữ Anh-Trung chuẩn cho thấy chất lượng dịch tăng lên đáng kể. Cùng năm đó, Carpuat và Wu sử dụng một tiếp cận tương tự với nhóm Chan nhưng áp dụng cho dịch máy thống kê dựa vào cụm từ truyền thống và chỉ sử dụng một thuộc tính liên quan tới WSD [16]. Kết quả thực nghiệm họ đưa ra cũng cho thấy chất lượng dịch được cải tiến đáng kể. 5.2 Tích hợp WSD vào SMT

Sau khi đã được huấn luyện, các mô hình WSD có thể được dùng làm thuộc tính cho SMT. Hệ dịch thống kê mà chúng tôi sử dụng là hệ thống dịch dựa trên mô hình logarit tuyến tính (log-linear) nên việc thêm thuộc tính mới là dễ dàng. Trọng số của thuộc tính này được điều chỉnh bằng huấn luyện cực tiểu sai số (Minimum Error Rate Training). Trước pha decoding, trong khi xác định các lựa chọn dịch cụm từ, các mô hình WSD sẽ được áp dụng để tính giá trị thuộc tính WSD cho từng cụm từ. Như vậy giá trị thuộc tính này chỉ cần được tính 1 lần cho các lựa chọn dịch và sau đó được sử dụng bình thường như các thuộc tính khác trong pha decoding [26].

Cho trước một cụm từ nguồn với nhiều khả năng dịch, việc tính điểm WSD cho nó là đơn giản khi cụm từ này đã có mô hình WSD. Trong luận văn, chúng tôi chỉ huấn luyện mô hình WSD cho các cụm từ mà độ dài nhỏ hơn hoặc bằng 3 (thường là 2).

5.3 Thực Nghiệm

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 49)