Viết lại văn bản bằng mô hình dịch

Một phần của tài liệu Nghiên cứu, phát triển công cụ sinh mô tả sản phẩm cho thương mại điện tử (Trang 44 - 45)

3.2.1.1. Ngôn ngữ trung gian

Ngôn ngữ chốt, trung gian hay “pivot language” là một thuật ngữ trong dịch máy, chỉ những ngôn ngữ được sử dụng làm cầu nối trung gian trong quá trình dịch. Ví dụ khi cần dịch từ Tiếng Phạn sang Tiếng Tây Ban Nha, mô hình dịch sẽ dịch nội dung Tiếng Phạn sang một ngôn ngữ trung gian và dịch tiếp từ ngôn ngữ trung gian này sang tiếng Tây Ban Nha. Điều này là cần thiết để tránh sự bùng nổ tổ hợp khi phải xây dựng từng mô hình dịch cho tất cả các cặp ngôn ngữ. Ý tưởng này được Kay [33] đề xuất lần đầu tiên vào năm 1997, khi ông đã quan sát thấy rằng sự khó khăn trong việc dịch văn bản từ một ngôn ngữ nguồn sang ngôn ngữ đích bất kỳ có thể được giải quyết trong điều kiện nếu có bản dịch chất lượng tốt nào đó của một ngôn ngữ thứ ba. Các ngôn ngữ thường được sử dụng làm ngôn ngữ trung gian bao gồm Tiếng Anh, Tiếng Pháp, Tiếng Nga, và Tiếng Ả Rập.

3.2.1.2. Viết lại nội dung bằng mô hình dịch

Áp dụng ý tưởng về ngôn ngữ chốt, Mallinson và các cộng sự [34] đã giới thiệu một phương pháp cho phép viết lại nội dung văn bản bằng cách sử dụng các mô hình dịch. Trong phương pháp này, các tác giả đã sử dụng một tập hợp 3 ngôn ngữ chốt

32

bao gồm Tiếng Pháp, Tiếng Séc, Tiếng Đức cùng 6 mô hình dịch (Tương ứng với các cặp Tiếng Anh -> Tiếng Pháp, Tiếng Anh -> Tiếng Séc, Tiếng Anh -> Tiếng Đức, Tiếng Pháp -> Tiếng Anh, Tiếng Séc -> Tiếng Anh, Tiếng Đức -> Tiếng Anh) để viết lại nội dung các văn bản Tiếng Anh. Trong quá trình xử lý, các văn bản Tiếng Anh nguồn sẽ được dịch ra nhiều ngôn ngữ trung gian tạo ra các phiên bản dịch của chúng. Sau đó các bản dịch này sẽ được tính toán một cách độc lập sự phân phối trên từ vựng đích và được kết hợp trong một công thức để tìm ra những từ vựng hợp lý nhất trong kết quả cuối cùng. Ví dụ với hai bản dịch và và từ ở vị trí trong câu đích có thể xây dựng ra hai phân phối

và cùng công thức kết hợp như sau:

(9) Các trọng số đối với mỗi phân phối là các giá trị được tính bởi công thức

. Do đó, công thức ở trên cũng có thể viết lại như sau:

(10) Áp dụng một phần ý tưởng trên, luận văn sẽ sử dụng hướng tiếp cận đơn giản hơn, cũng sử dụng cặp ngôn ngữ chốt là Tiếng Pháp và Tiếng Đức nhưng thay vì tìm ra các trọng số , phương pháp sử dụng mô hình BART cho tác vụ dịch và RoBERTa cho tác vụ đánh giá khả năng giữ nguyên ý nghĩa của câu. Cách thức đánh giá là lấy câu nào có ngữ nghĩa giống với câu gốc nhất.

Một phần của tài liệu Nghiên cứu, phát triển công cụ sinh mô tả sản phẩm cho thương mại điện tử (Trang 44 - 45)