Dùng thông tin cú pháp

Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh. Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn ngữ. Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp.

Nhóm nghiên cứu của Collins [7] đưa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%.

Nhóm nghiên cứu của Zhang [35] đưa ra mô hình tương tự như Xia và McCord [11]. Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lưới. Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS.

[12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này được dùng để đảo cho ngôn ngữ nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá.

Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao nhất sẽ được chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ

liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU.

Một hướng cải tiến gióng hàng từ do May và Knight [14] đề ra như sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp. Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi. Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm

BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%. Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết từ mới mà họ phát sinh ra được chỉ giới hạn trong các liên kết mà GIZA++ gán ban đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33] thì sẽ phát hiện được tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phương pháp tìm kiếm Greedy nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm được nhiều thời gian hơn.

Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú

pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch. Và đó cũng là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác.

Mô hình dịch thống kê factored (Factored SMT)

Sử dụng thông tin từ loại