Thông tin ranh giới từ

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 51)

Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.

Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học.

Học_sinh học_sinh học. Hoặc là:

Học_sinh học sinh_học.

Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được rút ra.

Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ được tách từ.

Xét cặp câu sau:

* Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .

Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ:

* Conservation efforts to save the saola have faced numerous difficulties . +Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .

4.2.2. Thông tin từloại

Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ.

Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó.

Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn ngữ.

Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau:

* Conservation efforts to save the saola have faced numerous difficulties . + Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU

Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại.

-0.4073871 đối_mặt với nhiều -0.1396443 đối_mặt với

Hình 4.2. Mô hình ngôn ngữ từ vựng

-0.2439401 Vv Cp Aa -0.5738485 Vv Cp Nn Hình 4.3. Mô hình ngôn ngữ từ loại

Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi từ mới chưa gặp trong ngữ liệu.

Một phần của tài liệu tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt (Trang 51)

Tải bản đầy đủ (DOCX)

(96 trang)
w