II. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ
2.3.4. Sử dụng luật biến đổi hình thái từ
Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác như dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tương đương giữa hai ngôn ngữ, giảm bớt các trường hợp gióng hàng không phải 1-1.
Nicola Ueffing và Hermann Ney [24] đưa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái như tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh thường không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích. Tác giả đưa ra mô hình cải tiến chất lượng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình Maximum Entropy (ME). Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc và du lịch.
Tác giả đưa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại.
- Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trước động từ thường
được bỏ qua và thay vào đó, người ta thể hiện thông qua đuôi của động từ. Phần cuối này cho biết động từ đang ở thì tương lai hay là các dạng trợ động từ như “should”, “would” trong tiếng Anh. Để giải quyết vấn đề này, tác giả đề ra phương
pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have” được nối thành “you_will_have” tương ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan.
- Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu khẳng
định: Trợ động từ được đảo ra trước đại từ và động từ chính chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban Nha, tác giả đưa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hưởng đến kết quả dịch (như công bố của [25] khi dịch từ tiếng Đức sang Anh). Nhưng tác giả không bỏ trợ động từ ở thì quá khứ. Khi xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” được chuyển thành “how_you_are”
Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh – Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ.
Trong bài báo của Nguyễn Phương Thái và Akira Shimazu [26], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes. Câu nguồn đã được chuyển đổi ở phần tiền xử lý. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến được 3,28% so với phrase-base SMT bằng Pharaoh.
Trong nghiên cứu này, tác giả đưa ra mô hình khác ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trƣng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái.
Tác giả đưa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố như tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” được chuyển thành “book_s”, “booking” chuyển thành “book_ing”.
Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đưa vào huấn luyện. Các luật chuyển đổi sẽ được rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận được cùng với câu đích sẽ là đầu vào của hệ dịch.
Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại. Phương pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thƣớc ngữ liệu nhỏ.
Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm được phần nào trường hợp từ chưa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố và đảo trật tự theo tiếng Việt, mô hình tăng cƣờng gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ.