Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm 1980, được đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
máy Anh-Pháp Candide. Ý tưởng dịch máy bằng thống kê rất đơn giản và
thuần túy tốn học: Thay vì xây dựng các từ điển, các quy luật chuyển đổi
bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên
thống kê. Cách tiếp cận này khơng địi hỏi sự phân tích sâu về ngơn ngữ, chúng thực hiện hồn tồn tự động các q trình phân tích, chuyển đổi, tạo
câu dựa trên kết quả thống kê có được từ kho ngữ liệu (corpus).
Phương pháp dịch dựa trên thống kê địi hỏi phải có một tập dữ liệu cực lớn các câu tương đương giữa ngôn ngữ nguồn và ngơn ngữ đích để có thể ra kết quả thống kê chính xác, đây là trở ngại lớn cho các đề án dịch theo đuổi phương pháp này vì việc xây dựng kho ngữ liệu lớn như vậy địi hỏi cơng sức và chi phí rất lớn. Chỉ một số tập đoàn, tổ chức lớn trên thế giới (như hãng IBM, .v.v.) mới đủ sức theo đuổi đến cùng phương pháp này.
Hiện nay, do sức mạnh tính tốn và lưu trữ của máy tính tăng lên rất
đáng kể, một số đề án dịch máy bằng thống kê đã cho ra nhiều kết quả đáng
giá với khối lượng tri thức khổng lồ sử dụng trong thống kê. Nếu hệ dịch máy bằng thống kê đầu tiên là hệ Candide của IBM sử dụng 2.205.733 cặp mẫu câu Anh-Pháp tương đương thì hiện nay một số hệ dịch Arabian-Anh được sử dụng trong các mục đích an ninh của cơ quan NSA sử dụng tới hơn 150 triệu cặp mẫu câu Arập-Anh tương đương.
Một điều rất đáng ngạc nhiên nhưng rất logic là phương pháp dịch bằng thống kê không quan tâm đến việc xử lý ngữ nghĩa nhưng chất lượng dịch của các phương pháp này rất cao, hệ dịch Arập-Anh của NSA được đề cập ở trên thậm chí khơng sử dụng từ điển nhưng vẫn có thể dịch được nghĩa bóng của nhiều thành ngữ Arập. Vào thời điểm hiện nay, các hệ dịch bằng thống kê đi tiên phong trong việc đạt được các câu dịch có chất lượng cao.
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG