Phƣơng pháp dịch máy trên nền ví dụ

Một phần của tài liệu MÔ HÌNH ôtômát hữu hạn TRONG hệ THỐNG DỊCH tự ĐỘNG ANH VIỆT (Trang 30 - 34)

Dịch máy là một trong những ứng dụng phổ biến nhất của xử lý ngôn ngữ tự nhiên. Nhiều phương pháp dịch máy khác nhau đã và đang được nghiên cứu như dịch máy dựa trên luật, dựa trên ví dụ, dịch máy thống kê, .... Do sự bùng nổ thông tin, những phương pháp dịch máy dựa trên tập ngữ liệu (song ngữ , đồng nghĩa...) phát triển mạnh mẽ. Phương pháp dịch máy trên nền ví dụ đã được Makoto Nagao đưa ra và được công bố rộng rãi từ năm 1984. Phương pháp này đạt hiệu quả cao khi dịch văn bản thuộc một lĩnh vực cụ thể như: y học, dự báo thời tiết, hướng dẫn sử dụng máy móc.

* Khái niệm về dịch máy trên nền ví dụ (Example –Based Machine Translation)

Dịch máy trên nền ví dụ là phương pháp dịch dựa trên các tập mẫu tương tự. Tập các mẫu ở đây bao gồm tập các câu ở ngôn ngữ nguồn và tập các câu dịch tương ứng với chúng ở ngôn ngữ đích (sau đây gọi là các cặp câu ví dụ) .

Theo [3], điểm cốt lõi và bản chất nhất của EBMT dễ dàng phân biệt so với các phương pháp, các cách tiếp cận khác, chính là việc không đi sâu vào phân tích cú pháp của câu trong văn bản. Thay vào đó, chúng ta phân tách câu cần dịch thành những “câu con” đơn giản hơn. Sau đó, áp dụng những thuật toán so khớp để tìm kiếm trong tập mẫu câu tương tự nhất với mỗt câu con đó, và vì thế dịch được chúng sang ngôn ngữ đích. Việc cuối cùng chỉ là thực hiện các thao tác thêm bớt

31

sửa xóa các từ ngữ thích hợp dựa vào từ điển đồng nghĩa và song ngữ để thu được câu dịch tương ứng trong ngôn ngữ đích

Hệ thống dịch máy trên nền ví dụ gồm ba thành phần chính:

- Thành phần so khớp (Matching Fragment Component) của từng câu dựa vào tập mẫu là các ví dụ cho trước

- Thành phần nhận dạng các đoạn tương ứng giữa câu ở ngôn ngữ nguồn và ngôn ngữ đích.

- Thành phần kết hợp các đoạn đã được dịch để có được câu dịch hoàn chỉnh của câu đầu vào

Ví dụ: Giả sử câu tiếng Anh đầu vào cần dịch là

I became a famous person in business

Sau quá trình tìm kiếm câu tương tự nhất từ tập ngữ liệu các cặp câu song ngữ Anh – Việt ta tìm được cặp câu tương tự nhất so với câu đầu vào như sau : He is a person in business

Anh ấy là một người trong kinh doanh .

Xác định được các thao tác cần thay thế để biến câu dịch tiếng việt của câu trong tập mẫu thành câu dịch tiếng việt cho câu đầu vào là :

- Thay thế “He” bằng “I”

- Thay thế “ is “ bằng “ became “

- Chèn từ “ famous “ vào vị trí thích hợp

Sau khi thực hiện các thao tác trên ta tra nghĩa tiếng việt của từ tiếng anh tương ứng trong từ điển Anh-Việt ta thu được kết quả câu dịch như sau :

Tôi muốn trở thành một người nổi tiếng trong kinh doanh

So với các phương pháp dịch máy khác , dịch máy dựa trên nền ví dụ có những ưu điểm sau

- Dễ dàng cải tiến , nâng cấp chất lượng dịch bằng cách thêm những ví dụ trong lĩnh vực cần dịch vào tập cơ sở ngữ liệu .

- Chất lượng dịch tương đối tin cậy

32

Về mặt giải thuật, quá trình dịch một câu đầu vào sẽ gồm 4 bước sau:

 Tìm ví dụ “giống” với câu đầu vào nhất từ tập ngữ liệu song ngữ. Trong tập ngữ liệu song ngữ, các cặp câu đều đã được gióng hàng từ để biết từ nào trong bản dịch tiếng Việt là tương ứng với từ đang xét trong tiếng Anh.

 Tạo mẫu dịch.

o Xác định các thành phần khác nhau di của ví dụ được chọn ra ở bước trước so với câu đầu vào.

o Sử dụng từ điển song ngữ để xác định phần nghĩa tương ứng của mỗi di trong câu ngôn ngữ đích.

o Sản sinh mẫu cho s bằng cách: giữ nguyên phần giống nhau với input, còn những phần khác nhau được biểu diển thành các biến.

 Chọn ra mẫu dịch thích hợp nhất.

 Thay thế các từ trong mẫu dịch, tạo câu đích.

Hình 3.1. Mô hình tổng quát cho một hệ EBMT

Hình 3.1 là mô hình tổng quát cho một hệ thống dịch máy trên nền ví dụ (EBMT).Hệ thống EBMT cần sử dụng các nguồn ngữ liệu: tập ngữ liệu song ngữ, là tập các cặp câu tương ứng thuộc ngôn ngữ nguồn và ngôn ngữ đích, một từ điển

33

song ngữ, dùng trong quá trình dịch và xác định thành phần tương ứng trong bản dịch.

*Khoảng cách sửa đổi (edit distance)

Khái niệm khoảng cách sửa đổi đóng vai trò chủ đạo trong việc tìm ra câu giống câu mẫu nhất. Khái niệm này có thể mô tả như sau:

Cho 2 xâu kí tự: X = <x1, …, xm> và Y = <y1, …, yn>. Cho phép thực hiện các phép biến đổi với xâu X:

 Insert: chèn vào sau kí tự thứ I của X một kí tự bất kì.

 Delete: Xóa một kí tự bất kì của X.

 Replace: Thay thế một kí tự của X bằng một kí tự bất kì.

Bài toán đặt ra là xác định d(X, Y) là số lượng phép biến đổi ít nhất cần thực hiện đối với xâu X để biến nó thành xâu Y. Gọi d(X, Y) là khoảng cách sửa đổi xâu X thành xâu Y.

Tương tự như vậy, ta cũng có khái niệm khoảng cách sửa đổi đối với hai câu.:

Cho 2 câu c1 và c2 được biểu diễn dưới dạng một dãy các từ: c1 = <w1, …wm>, c2 = <w1, …, wn>. Để thu được câu c1 từ câu c2 ta cần thực hiện các thao tác:

* Thêm từ vào c2. * Xoá từ trong c2.

* Thay thế một từ trong c2 bằng một từ trong c1.

Khoảng cách sửa đổi (edit-distance) giữa hai câu s1s2 (được biểu diễn bằng dãy các từ) được định nghĩa bằng thương số giữa chi phí biến đổi tối thiểu để thu được s2 từ s1 và tổng số từ trong hai câu đó.

d(s1,s2) =   2 1 2 1, s s L L s s C  Trong đó:

34

Một phần của tài liệu MÔ HÌNH ôtômát hữu hạn TRONG hệ THỐNG DỊCH tự ĐỘNG ANH VIỆT (Trang 30 - 34)