Dịch máy thống kê

Vào cuối những năm 1980, ý tưởng về SMT được ra đời ở phòng thí nghiệm của IBM Research6 trong bối cảnh thành công của các phương pháp thống kê trong nhận dạng giọng nói [60]. Bằng cách mô hình hóa nhiệm vụ dịch là một bài toán tối ưu hóa thống kê (statistical optimization), dự án Candide [26] đã đặt MT trên một nền tảng toán học vững chắc.

Các hệ thống SMT hiện đang được phát triển mạnh mẽ với một số lượng lớn các phòng thí nghiệm nghiên cứu học thuật. Ngoài ra, nhiều hệ thống SMT thương mại cũng đang được phát triển bởi các công ty phần mềm lớn như IBM, Microsoft và Google. Theo Koehn [60], người sử dụng Internet dịch 50 triệu trang web mỗi ngày, sử dụng các hệ thống được cung cấp bởi Google, Yahoo, Microsoft và một số công ty khác.

SMT là một phương pháp MT mà bản dịch được tạo ra trên cơ sở các mô hình thống kê, trong đó các tham số của mô hình được ước lượng từ việc phân tích các ngữ liệu (văn bản đơn ngữ hoặc song ngữ). Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ ngữ liệu. Dịch máy dựa trên phương pháp thống kê tìm câue ở ngôn ngữ đích phù hợp nhất (có xác suất cao nhất) khi cho trước câu f ở ngôn ngữ nguồn, như biểu diễn ở công thức (1.1). Hình1.3 mô hình hoá bài toán MT dựa trên phương pháp thống kê.

e∗ = arg max e

P r(e|f) (1.1)

Phương pháp thống kê có một số ưu điểm so với các phương pháp khác. Các mối quan hệ giữa các từ, cụm từ và cấu trúc ngữ pháp thường không rõ ràng. Các phân bố xác suất và kỹ thuật thống kê cho phép chúng ta xác định điều này [13]. Một mô hình thống kê có thể được huấn luyện trên số lượng lớn dữ liệu và tăng số

Hình 1.3: Mô hình hoá bài toán dịch máy dựa trên phương pháp thống kê.

lượng dữ liệu huấn luyện sẽ cho phép các mô hình xác định thêm các "hiện tượng ngôn ngữ" (linguistic phenomena) trong các ngôn ngữ. Vì vậy, khi tăng số lượng dữ liệu huấn luyện sẽ dẫn đến các bản dịch chất lượng cao hơn.

Một lợi ích nữa của kỹ thuật thống kê là không cần phải dựa vào các đặc trưng riêng biệt của các ngôn ngữ có liên quan, chẳng hạn như các mô hình ngôn ngữ cụ thể của bản dịch hay ngữ pháp [13]. Nhiều đặc trưng của các mô hình dịch là độc lập ngôn ngữ (language-independent) và có thể được điều chỉnh cho cặp ngôn ngữ cụ thể bằng cách ước lượng các tham số mô hình. Điều này cho phép các hệ thống SMT được xây dựng cho nhiều cặp ngôn ngữ với sửa đổi tối thiểu về mặt kỹ thuật. Để tăng chất lượng dịch, tri thức cụ thể của ngôn ngữ có liên quan thường được yêu cầu. Mô hình thống kê đã được phát triển để kết hợp thông tin ngôn ngữ cụ thể bổ sung tương đối dễ dàng, bao gồm các đặc điểm hình thái, trật tự từ và các mô hình ngữ pháp.

Mô hình dịch dựa trên cụm từ

Mô hình dịch dựa trên cú pháp