Dùng thông tin cú pháp

II. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ

2.3. Tích hợp tri thức ngôn ngữ vào dịch máy thống kê

2.3.2. Dùng thông tin cú pháp

Xia và McCord [16] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh. Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn ngữ. Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp.

Nhóm nghiên cứu của Collins [17] đưa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%.

Nhóm nghiên cứu của Zhang [18] đưa ra mô hình tương tự như Xia và McCord [19]. Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lưới. Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS.

Một hướng cải tiến gióng hàng từ do May và Knight [20] đề ra như sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi

câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp. Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi.

Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [21] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%.

Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch. Và đó cũng là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác.

Ưu điểm của phương pháp dịch thống kê

Sử dụng luật biến đổi hình thái từ