Minh họa gióng hàng từ cho cặp câu Việt-Anh dạng liên kết

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 41 - 42)

Cách tiếp cận thứ hai (ii) thường sử dụng mơ hình sinh, trong đó các mơ hình IBM của Brown và cộng sự [13] được sử dụng rộng rãi nhất. Thuật toán cực đại kỳ vọng [29] được sử dụng để ước lượng xác suất của mơ hình gióng hàng trên ngữ liệu song ngữ. Các mơ hình này về cơ bản là độc lập với ngôn ngữ và các tham số của nó được ước lượng từ ngữ liệu với tối thiểu việc tiền xử lý [113]. Tuy nhiên, chất lượng của gióng hàng thường khá thấp đối với các cặp ngơn ngữ có nhiều khác biệt về cấu trúc cú pháp như Anh - Việt, Anh - Trung, vv… Vì vậy, sử dụng thêm các nguồn tri thức bên ngồi như thơng tin về từ vựng, thơng tin về cú pháp là thật sự cần thiết để cải thiện chất lượng của

gióng hàng.

Trong các nghiên cứu trước đây, các mơ hình IBM được cải tiến với nhiều phương pháp khác nhau. Varea và cộng sự [39] sử dụng mơ hình Maximum Entropy (ME) phụ thuộc ngữ cảnh để chứa nhiều hơn các phụ thuộc. Tức là, một ngữ cảnh lớn hơn được sử dụng trong mơ hình dịch thay vì chỉ sử dụng xác suất dịch từ. Một cải tiến khác đối với các mơ hình IBM dựa trên mơ hình từ vựng đối xứng được đề xuất bởi Zens và cộng sự [134]. Họ áp dụng

phương pháp nội suy tuyến tính (linear interpolation) để tính xác suất theo hai hướng (hướng dịch chuẩn từ ngôn ngữ nguồn sang ngơn ngữ đích và hướng dịch ngược lại). Ngồi ra, các tác giả đã mơ tả q trình làm trơn (smoothing) từ vựng bằng cách sử dụng hình thức từ gốc (word base form). Đặc biệt cho các ngôn ngữ biến cách cao (inflected language) như tiếng Đức, điều này dẫn đến những cải tiến đáng kể về mặt thống kê. Moore [78] đã khảo sát ba phương pháp đơn giản để cải tiến mơ hình IBM 1: (i) gắn trọng số cho xác suất gióng hàng với từ rỗng (hay cịn gọi là từ null), (ii) làm trơn q trình ước lượng xác

Shaffer told CNN on Saturday .

[1-1] [2-2] [2-3] [2-4] [3-5] [4-6] [5-7] [5-8] [5-9]

suất cho các từ hiếm và (iii) sử dụng phương pháp ước lượng dựa trên kinh nghiệm (heuristic) để khởi tạo hoặc thay thế trong quá trình huấn luyện các tham số của mơ hình. Các kết quả thực nghiệm của tác giả với ngữ liệu Anh - Pháp cho thấy tỷ lệ lỗi gióng hàng giảm khi áp dụng ba phương pháp này. Như vậy, trong các nghiên cứu liên quan về cải tiến các mơ hình IBM như NCS đã trình bày, mỗi nghiên cứu đưa ra một (hoặc một số) phương pháp khác nhau. Tuy nhiên, trong các nghiên cứu này, các tác giả chưa sử dụng nguồn tri thức mở rộng (ngoài ngữ liệu song ngữ dùng để huấn luyện) vào q trình gióng

hàng.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(127 trang)