Nhóm nghiên cứu của [9] đưa ra phương pháp mới về sử dụng thông tin cú pháp cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê như là mô hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU tăng thêm 25% so với hệ base-line syntax-based SMT.
Hướng tiếp cận này khai thác được tri thức ngôn ngữ khá hiệu quả, nhất là đối với các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra dạng đúng của từ.
CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI
Trong các hướng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê, luận văn khảo sát ảnh hưởng của các tri thức hình thái và từ loại vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu đầu vào và chọn mô hình dịch. Chương này trình bày chi tiết về các cách tích hợp tri thức ngôn ngữ được đưa vào trong luận văn.
Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn.
Mô hình dịch thống kê Anh – Việt
Tích hợp thông tin: Ngữ liệu song ngữ - Từ loại Tiếng Anh - Hình thái từ Mô hình dịch Tiếng Việt Tích hợp thông tin: Mô hình ngôn ngữ - Ranh giới từ Bộ giải mã - Từ loại
Câu tiếng Anh
Câu dịch tiếng Việt
Hình 4.1. Mô hình chung của luận văn
Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận văn còn khảo sát, đánh giá mức độ ảnh hưởng của các thông tin này vào hệ dịch thống kê Anh – Việt.
Phần thí nghiệm của đề tài thực hiện các hướng tiếp cận như sau:
- Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và phụ tố.
o Gán nhãn từ loại vào mỗi từ tiếng Anh o
Phân tích từ thành nguyên mẫu và phụ tố
o Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ. - Tích hợp thông tin ranh giới từ, từ loại tiếng Việt
o Tách từ tiếng Việt
o Gán nhãn từ loại tiếng Việt
- Sử dụng mô hình factored SMT cho hệ Anh – Việt
o Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt
o Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại cho tiếng Anh và tiếng Việt