7. Bố cục của luận án
3.2. Các kỹ thuật chia nhỏ từ
Các hệ thống SMT thường dùng mơ hình giĩng hàng IBM, các mơ hình này chỉ sử dụng các cặp câu song ngữ để xây dựng bảng giĩng hàng từ. Do đĩ các mơ hình thường gặp vấn đề khi giĩng hàng với các từ hiếm (rare word), tức là các từ cĩ tần suất xuất hiện thấp nhưng lại là thành phần quan trọng của câu. Phân bố xác suất giĩng hàng của các từ hiếm này thường bị lệch (bias) [123]. Trong một cặp câu (�, )� , với mỗi từ phía đích � ∈ � và hai từ phía nguồn
,
� �����∈ � với �����là từ hiếm và � là từ bình thường, do từ hiếm �����chỉ cùng xuất hiện với một vài từ phía đích nên nĩ làm tăng xác suất cĩ điều kiện cho những từ phía đích. Mơ hình dịch cĩ nhiều khả năng sẽ tạo ra �(�|�����) >
)
�(�|� và do đĩ hầu hết các từ phía đích sẽ được giĩng với ����� tức là phân bố xác suất giĩng hàng của từ hiếm �����sẽ bị lệch (bias).
Ngồi ra, trong dịch máy trên mạng nơ-ron thường xảy hiện tượng từ nằm ngồi bảng từ vựng do sự xuất hiện các từ hiếm và từ chưa gặp trong bảng từ vựng. Kỹ thuật chia nhỏ từ thường được sử dụng như một phương pháp biểu diễn từ nhằm mục đích giảm kích thước bảng từ vựng, từ đĩ hạn chế hiện tượng OOV, trong đĩ các từ hiếm và từ chưa biết được mã hĩa dưới dạng chuỗi các subword (từ con).
Kỹ thuật chia nhỏ từ là kỹ thuật phân đoạn các từ thành các từ con (subword units). Hình 3.2 dưới đây là ví dụ về việc chia nhỏ từ.
Kỹ thuật chia nhỏ từ được thực hiện dựa trên quan sát rằng một số loại từ cĩ thể dịch thơng qua các đơn vị nhỏ hơn, ví dụ:
- Các thực thể tên: Giữa các ngơn ngữ cùng bảng chữ cái, tên thường cĩ thể được sao chép từ nguồn sang đích. Nếu bảng chữ cái hoặc âm tiết khác nhau cần phải phiên âm hoặc chuyển ngữ. Ví dụ
Barack Obama (English; German) Барак Обама (Russian)
�������(ba-ra-ku o-ba-ma) (Japanese)
- Các từ mượn hoặc các từ cùng nguồn gốc: cĩ thể khác nhau do qui tắc khác nhau giữa các ngơn ngữ, do đĩ cĩ thể dịch mức ký tự. Ví dụ:
claustrophobia (English) Klaustrophobie (German)
Клаустрофобия (Klaustrofobiâ) (Russian)
- Các từ cĩ hình thái phức tạp: là các từ chứa nhiều hình vị
(morphemes) ví dụ các từ ghép (compound), từ liên kết (affixation, sweetish ‘sweet’ + ‘-ish’
→ süßlich ‘süß’ +‘-lich’), các từ biến đổi (inflection). Chúng cĩ thể dịch bằng cách dịch các hình vị tách rời. Ví dụ:
solar system (English)
Sonnensystem (Sonne + System) (German) Naprendszer (Nap + Rendszer) (Hungarian)
Theo thống kê của Sennrich [104] trong 100 từ hiếm tiếng Đức lấy từ kho ngữ liệu được thu thập từ văn bản pháp qui và từ các trang web đa số các từ đều cĩ khả năng dịch thay thế bằng các từ thơng thường là chính các từ con của nĩ, trong đĩ cĩ: 56 từ ghép, 21 thực thể tên, 6 từ mượn và 5 từ liên kết, 01 số từ, 01 định danh ngơn ngữ máy tính.
Một số kỹ thuật chia nhỏ từ hiện nay đang được sử dụng phổ biến và đem lại hiệu quả trong lĩnh vực xử lý ngơn ngữ tự nhiên là BPE [104], Wordpiece [102], unigram [61] và morfessor [106] sẽ được nghiên cứu ở phần tiếp theo.