Xuất áp dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 87 - 89)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

3.3.2. xuất áp dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa

vào gióng hàng

Việc chia nhỏ từ nhằm mục đích giảm kích thước bảng từ vựng, từ đó tăng tần suất xuất hiện của từ trong ngữ liệu huấn luyện, giảm số lượng các từ có tần suất xuất hiện thấp (các từ hiếm). Áp dụng chia nhỏ từ giúp giảm số lượng từ hiếm trong kho ngữ liệu. Ngồi ra, chia nhỏ từ cũng có thể giải quyết được các vấn đề sự khác biệt về hình thái từ giữa hai ngôn ngữ tiếng Anh và tiếng Việt. Luận án đề xuất sử dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa vào gióng hàng bởi vì: Dữ liệu đơn ngữ phía tiếng Anh nhiều hơn

tiền huấn luyện (pretrained model) tốt. Hơn nữa, do tiếng Anh là ngơn ngữ đa hình, trong đó mỗi từ có nhiều hình thái khác nhau bằng cách thêm vào các tiền tố, hậu tố khi có thay đổi về từ loại, thì của động từ, ... Khi dịch một câu tiếng Việt sang tiếng Anh, một từ tiếng Việt có thể chỉ tương ứng với một phần của một từ tiếng Anh. Nếu kỹ thuật chia nhỏ từ tách được từ gốc và các tiền tố, hậu tố thì chất lượng của bảng gióng hàng từ sẽ được nâng lên [123].

Kỹ thuật chia nhỏ từ được áp dụng trên kho ngữ liệu huấn luyện C(V,E) trong đó V là tập các câu tiếng Việt, E là tập các câu tiếng Anh tương ứng. Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện

chia nhỏ từ được tập E’.

𝐸′ = 𝑠𝑢𝑏𝑤𝑜𝑟𝑑(𝐸)

Chúng ta thu được kho ngữ liệu C’(V,E’). Sau đó, bước gióng hàng từ được thực hiện trên kho ngữ liệu C’(V,E’) và thu được bảng gióng hàng từ A(V → E’).

Các kỹ thuật chia nhỏ từ được đề xuất sử dụng là BPE, Unigram, wordpiece và Morfessor. Các kỹ thuật BPE, Wordpiece và unigram là các kỹ thuật thường được sử dụng cho các bài tốn xử lý ngơn ngữ tự nhiên nói chung và bài tốn dịch máy nói riêng trên mạng nơ-ron. Mục tiêu của các kỹ thuật này là mã hóa các từ hiếm và từ chưa biết dưới dạng chuỗi các từ con nhằm hỗ trợ để hệ thống dịch máy mạng nơ-ron có khả năng dịch trong suốt (transparent translation) tức là có thể dịch được một số từ hiếm và từ chưa biết dựa trên việc dịch các từ con. Hiện nay, có rất ít cơng bố sử dụng các kỹ thuật này cho dịch máy thống kê nói chung và chưa có nghiên cứu nào cho dịch máy thơng kê cặp ngôn ngữ Việt - Anh. Luận án đề xuất sử dụng các kỹ thuật này áp dụng cho hệ dịch máy thống kê với cặp ngôn ngữ Việt - Anh. Các kết quả thử nghiệm thấy việc áp dụng các kỹ thuật này đều giúp tăng chất lượng hệ dịch, các kỹ thuật áp dụng đều giúp tăng điểm BLEU so với kết quả của mơ hình cơ sở (baseline model). Khác với các kỹ thuật trên, Morfessor là một cơng cụ phân tích hình thái dựa trên học máy thống kê. Morfessor có thể dùng để chia nhỏ từ bằng phân tích hình thái. Luận án đề xuất sử dụng kỹ thuật này để chia nhỏ từ nhằm giải quyết vấn đề sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh (đa hình) và tiếng Việt (đơn hình). Kết quả thực nghiệm cho thấy việc áp dụng kỹ

thuật này cũng làm tăng chất lượng hệ dịch và giúp tăng điểm BLEU của mơ hình so với mơ hình baseline.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 87 - 89)

Tải bản đầy đủ (PDF)

(127 trang)