Tổng quát về hệ thống dịch máy Anh_Việt

Một phần của tài liệu MÔ HÌNH ôtômát hữu hạn TRONG hệ THỐNG DỊCH tự ĐỘNG ANH VIỆT (Trang 57 - 59)

Hệ thống dịch Anh – Việt tự động được xây dựng theo trình tự gồm 3 giai đoạn chính

1. Xây dựng đồ thị chứa ngữ liệu phục vụ cho việc tìm kiếm câu mẫu tương tự với câu đầu vào nhất

- Tệp đầu vào : bộ ngữ liệu gồm 30 cặp câu song ngữ anh việt ( mỗi câu ghi trên 1 dòng).

- Kết quả : xây dựng được đồ thị chứa các lớp đồ thị đã được phân chia theo số từ nội dung và từ chức năng trong câu .

- Nội dung công việc : Thực hiện quá trình gán nhãn cho các câu tiếng anh , sử dụng lý thuyết về ôtômát hữu hạn đơn định để xây dựng đồ thị .

2 . Tìm kiếm câu tương tự với câu đầu vào

a. Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập các đồ thị sẽ được tìm kiếm.

b. Với mỗi đồ thị thuộc tập đồ thị trên, thực hiện so khớp dựa trên giải thuật A* để tìm ra các ví dụ “giống với câu đầu vào nhất”.

- Ngữ liệu vào : câu tiếng anh cần dịch , đồ thị biểu diễn tập ngữ liệu mẫu - Kết quả : tìm câu tiếng anh gần giống với câu đầu vào nhất cũng với dãy bản

ghi các thao tác Insert , Substitution , Delete , Exact cần thực hiện để biến câu mẫu thành câu đích

58

o Xác định số từ nội dung và từ chức năng của câu đầu vào .

o Khoanh vùng tập mẫu: Từ câu đầu vào, xác định tập các đồ thị sẽ được tìm kiếm dựa trên số từ nội dung và từ chức năng

o Với mỗi đồ thị thuộc tập đồ thị trên, thực hiện so khớp dựa trên giải thuật A* để tìm ra các ví dụ “giống với câu đầu vào nhất”.

3.Thực hiện quá trình dịch để đạt được câu dịch đích từ câu tương tự tìm được ở bước trước.

- Ngữ liệu vào : câu tương tự với câu đầu vào và danh sách các toán tử cần thực hiện thay thế .

- Kết quả : câu dịch tiếng việt cho câu tiếng anh đầu vào . - Nội dung hoạt động :

o Thực hiện các phép thay thế để biến ví dụ thành câu đầu ra. Bước này bao gồm việc phân tích hình thái từ và tra từ trong từ điển.

o Thực hiện thêm từ vào ví dụ để tạo thành câu đầu ra. Bước này cũng cần phân tích hình thái từ để tìm ra nghĩa tiếng Việt. Ngoài ra, cần sử dụng chương trình phân tích cú pháp để xác định vị trí các từ cần thêm.

59

Một phần của tài liệu MÔ HÌNH ôtômát hữu hạn TRONG hệ THỐNG DỊCH tự ĐỘNG ANH VIỆT (Trang 57 - 59)