Xuất áp dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 87 - 89)

7. Bố cục của luận án

3.3.2. xuất áp dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa

vào giĩng hàng

Việc chia nhỏ từ nhằm mục đích giảm kích thước bảng từ vựng, từ đĩ tăng tần suất xuất hiện của từ trong ngữ liệu huấn luyện, giảm số lượng các từ cĩ tần suất xuất hiện thấp (các từ hiếm). Áp dụng chia nhỏ từ giúp giảm số lượng từ hiếm trong kho ngữ liệu. Ngồi ra, chia nhỏ từ cũng cĩ thể giải quyết được các vấn đề sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh và tiếng Việt. Luận án đề xuất sử dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa vào giĩng hàng bởi vì: Dữ liệu đơn ngữ phía tiếng Anh nhiều hơn và ngơn ngữ tiếng Anh phổ biến hơn cĩ sẵn nhiều mơ hình xử lý ngơn ngữ được

tiền huấn luyện (pretrained model) tốt. Hơn nữa, do tiếng Anh là ngơn ngữ đa hình, trong đĩ mỗi từ cĩ nhiều hình thái khác nhau bằng cách thêm vào các tiền tố, hậu tố khi cĩ thay đổi về từ loại, thì của động từ, ... Khi dịch một câu tiếng Việt sang tiếng Anh, một từ tiếng Việt cĩ thể chỉ tương ứng với một phần của một từ tiếng Anh. Nếu kỹ thuật chia nhỏ từ tách được từ gốc và các tiền tố, hậu tố thì chất lượng của bảng giĩng hàng từ sẽ được nâng lên [123].

Kỹ thuật chia nhỏ từ được áp dụng trên kho ngữ liệu huấn luyện C(V,E) trong đĩ V là tập các câu tiếng Việt, E là tập các câu tiếng Anh tương ứng. Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’.

��

′ = �������(�)

Chúng ta thu được kho ngữ liệu C’(V,E’). Sau đĩ, bước giĩng hàng từ được thực hiện trên kho ngữ liệu C’(V,E’) và thu được bảng giĩng hàng từ A(V

E’).

Các kỹ thuật chia nhỏ từ được đề xuất sử dụng là BPE, Unigram, wordpiece và Morfessor. Các kỹ thuật BPE, Wordpiece và unigram là các kỹ thuật thường được sử dụng cho các bài tốn xử lý ngơn ngữ tự nhiên nĩi chung và bài tốn dịch máy nĩi riêng trên mạng nơ-ron. Mục tiêu của các kỹ thuật này là mã hĩa các từ hiếm và từ chưa biết dưới dạng chuỗi các từ con nhằm hỗ trợ để hệ thống dịch máy mạng nơ-ron cĩ khả năng dịch trong suốt (transparent translation) tức là cĩ thể dịch được một số từ hiếm và từ chưa biết dựa trên việc dịch các từ con. Hiện nay, cĩ rất ít cơng bố sử dụng các kỹ thuật này cho dịch máy thống kê nĩi chung và chưa cĩ nghiên cứu nào cho dịch máy thơng kê cặp ngơn ngữ Việt - Anh. Luận án đề xuất sử dụng các kỹ thuật này áp dụng cho hệ dịch máy thống kê với cặp ngơn ngữ Việt - Anh. Các kết quả thử nghiệm thấy việc áp dụng các kỹ thuật này đều giúp tăng chất lượng hệ dịch, các kỹ thuật áp dụng đều giúp tăng điểm BLEU so với kết quả của mơ hình cơ sở (baseline model). Khác với các kỹ thuật trên, Morfessor là một cơng cụ phân tích hình thái dựa trên học máy thống kê. Morfessor cĩ thể dùng để chia nhỏ từ bằng phân tích hình thái. Luận án đề xuất sử dụng kỹ thuật này để chia nhỏ từ nhằm giải quyết vấn đề sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh (đa hình) và tiếng Việt (đơn hình). Kết quả thực nghiệm cho thấy việc áp dụng kỹ

thuật này cũng làm tăng chất lượng hệ dịch và giúp tăng điểm BLEU của mơ hình so với mơ hình baseline.

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. (Trang 87 - 89)

Tải bản đầy đủ (DOC)

(127 trang)
w