Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.
Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt:
Học sinh học sinh học.
Trang 51 Học_sinh học_sinh học.
Hoặc là:
Học_sinh học sinh_học.
Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ đƣợc rút ra.
Do đó, chúng tôi khảo sát sự ảnh hƣởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ đƣợc tách từ.
Xét cặp câu sau:
* Conservation efforts to save the saola have faced numerous difficulties .
+ Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .
Câu tiếng Việt trong cặp câu đầu vào này sẽ đƣợc tách từ:
* Conservation efforts to save the saola have faced numerous difficulties .
+ Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .
4.2.2. Thông tin từ loại
Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phƣơng pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trƣớc và không quan tâm đến yếu tố ngôn ngữ.
Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ đƣợc gọi là Factored language model (FLM). Một ƣu điểm của FLM là có thể ƣớc lƣợng xác suất của chuỗi từ chƣa gặp trƣớc đó.
Trang 52
Để khảo sát ảnh hƣởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ đƣợc thống kê để tạo thành mô hình ngôn ngữ.
Xét ví dụ ở phần trên, câu tiếng Việt sẽ đƣợc gán nhãn nhƣ sau:
* Conservation efforts to save the saola have faced numerous difficulties .
+ Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU
Khi đƣa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại.
Hình 4.2. Mô hình ngôn ngữ từ vựng
Hình 4.3. Mô hình ngôn ngữ từ loại
Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trƣớc. Với các tham số này, hệ dịch có thể ƣớc lƣợng cho các chuỗi từ mới chƣa gặp trong ngữ liệu.