1.3 Dịch máy thống kê
1.3.3.1 Mô hình dịch dựa trên từ
Mô hình dịch dựa trên từ là thế hệ đầu tiên của SMT, được nghiên cứu và phát triển bởi IBM [51]. Với mô hình dịch này, đơn vị được dịch là các từ. Giả sử chúng ta cần dịch câu tiếng Anh "He is a good student" sang tiếng Việt theo đơn vị từ. Ví dụ, ta có bản dịch tiếng Việt là"Anh_ấy là một sinh_viên giỏi". Hình 1.5mô tả ví dụ về quá trình dịch dựa trên từ, gồm 2 bước: (1) dịch theo từng từ: He →
Anh_ấy, is → là, a → một, good → giỏi, student → sinh_viên; (2) sắp xếp lại trật tự từ: Anh_ấy là một giỏi sinh_viên → Anh_ấy là một sinh_viên giỏi.
Ở đây, số từ trong câu được dịch là khác nhau phụ thuộc vào các từ ghép, hình thái từ và thành ngữ. Tham số độ dài của chuỗi từ được dịch gọi là độ hỗn loạn (fertility) [57], tức là số từ của ngôn ngữ đích mà từ của ngôn ngữ nguồn sinh ra. Tuy nhiên, tuỳ vào đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh - Việt cũng giống với cặp ngôn ngữ Anh - Trung, Anh - Nhật, ..., hệ dịch phải đối mặt với khó khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng khi dịch sang câu tiếng Việt. Trong quá trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt có thể là1-1,1-không,1-nhiều,nhiều-1 hoặcnhiều-nhiều. Mô hình dịch dựa trên đơn vị từ không cho kết quả tốt trong trường hợp kết nối nhiều-1 hoặc
nhiều-nhiều với trật tự các từ trong câu tương ứng là khác nhau. Khi đó, mô hình dựa trên đơn vị cụm từ được đề xuất để giải quyết vấn đề này.