Mô hình dịch máy thống kê dựa trên cú pháp

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 30)

Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch. Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu:

- Dịch từ cây cú pháp sang câu (tree-to-string ) [34]

o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích.

o Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL).

- Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) [33]

oCâu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự.

oCây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu nguồn.

- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)

Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ con.

- Dịch dựa trên mệnh đề (clause level restructuring)

Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng sáu bước chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tương đồng về trật từ từ giữa câu nguồn và câu đích.

Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ưu điểm của phương pháp này như sau:

- Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức.

- Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn.

- Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ.

- Có thể khai thác mô hình ngôn ngữ cú pháp:

o Cây cú pháp đúng sẽ tạo ra câu dịch đúng.

o Cho phép chuyển đổi trật tự ở xa. Chẳng hạn như chuyển động từ chính về cuối câu.

Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chưa khai thác hết thông tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ trong câu là chuỗi token. Tác giả đưa ra lý do của thông tin cú pháp chưa thật sự có ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra, thông tin cú pháp khá là phức tạp, khó để con người theo dõi khi huấn luyện cũng như khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại hiểu rõ về lý thuyết ngôn ngữ.

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 30)

Tải bản đầy đủ (DOCX)

(96 trang)
w