Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác nhƣ dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tƣơng đƣơng giữa hai ngôn ngữ, giảm bớt các trƣờng hợp gióng hàng không phải 1-1.
Nicola Ueffing và Hermann Ney [23] đƣa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái nhƣ tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh thƣờng không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích. Tác giả đƣa ra mô hình cải tiến chất lƣợng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc và du lịch.
Tác giả đƣa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại.
- Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trƣớc động từ
thƣờng đƣợc bỏ qua và thay vào đó, ngƣời ta thể hiện thông qua đuôi của động từ. Phần cuối này cho biết động từ đang ở thì tƣơng lai hay là các dạng trợ động từ nhƣ “should”, “would” trong tiếng Anh. Để giải quyết vấn đề này, tác giả đề ra phƣơng pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have” đƣợc nối thành “you_will_have” tƣơng ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan.
- Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với
câu khẳng định: Trợ động từ đƣợc đảo ra trƣớc đại từ và động từ chính chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban
Trang 38
Nha, tác giả đƣa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hƣởng đến kết quả dịch (nhƣ công bố của [27] khi dịch từ tiếng Đức sang Anh). Nhƣng tác giả không bỏ trợ động từ ở thì quá khứ. Khi xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” đƣợc chuyển thành “how_you_are”
Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh – Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ.
Trong bài báo của Nguyễn Phƣơng Thái và Akira Shimazu [32], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes. Câu nguồn đã đƣợc chuyển đổi ở phần tiền xử lý. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến đƣợc 3,28% so với phrase-base SMT bằng Pharaoh.
Trong nghiên cứu này, tác giả đƣa ra mô hình khác với [10] và [6] ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trƣng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái.
Tác giả đƣa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố nhƣ tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” đƣợc chuyển thành “book_s”, “booking” chuyển thành “book_ing”.
Trang 39
Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đƣa vào huấn luyện. Các luật chuyển đổi sẽ đƣợc rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận đƣợc cùng với câu đích sẽ là đầu vào của hệ dịch.
Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại. Phƣơng pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thƣớc ngữ liệu nhỏ.
Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm đƣợc phần nào trƣờng hợp từ chƣa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố và đảo trật tự theo tiếng Việt, mô hình tăng cƣờng gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ.