Sơ lược về dịch máy

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 28 - 30)

Không lâu sau khi những chiếc máy tính điện tử đầu tiên4 ra đời, Warren Weaver5 (1949) đưa ra ý tưởng rằng, có thể một ngày nào đó máy tính nhận đầu vào là một tài liệu viết bằng một số ngôn ngữ nào đó (ngôn ngữ nguồn) và tự động tạo ra một tài liệu tương đương viết bằng một số ngôn ngữ khác (ngôn ngữ đích) - một nhiệm vụ mà bây giờ chúng ta gọi là MT. Từ đó đến nay, sau hơn 60 năm nghiên cứu và phát triển, các dịch vụ MT bây giờ đã trở nên phổ biến rộng rãi và được sử dụng miễn phí, nó nhận được hàng trăm triệu yêu cầu mỗi tuần [42].

4ENIAC - Máy tính điện tử đầu tiên ra đời năm 1946 [75].

5Tiến sĩ Warren Weaver (17/7/1894 - 24/11/1978), là một nhà khoa học người Mỹ. Ông là một trong những người đi tiên phong về MT [60].

Hình 1.2: Kim tự tháp dịch máy.

Tính hữu ích của công nghệ MT tăng lên cùng với chất lượng dịch. Theo Koehn [60], việc sử dụng MT có thể được chia thành ba loại: (i) dịch tài liệu tiếng nước ngoài cho mục đích hiểu nội dung, (ii) dịch văn bản để xuất bản ở các ngôn ngữ khác và (iii) thông tin liên lạc, chẳng hạn như dịch email, chat, vv. Mỗi một ứng dụng đòi hỏi tốc độ và chất lượng khác nhau.

Một số tiêu chí có thể được sử dụng để phân loại các cách tiếp cận MT, nhưng tiêu chí phân loại phổ biến nhất được sử dụng là mức độ phân tích ngôn ngữ (linguistic analysis) theo yêu cầu của hệ thống để tạo ra các bản dịch. Thông thường, điều này có thể được thể hiện một cách trực quan bằng sơ đồ "kim tự tháp dịch máy" (machine translation pyramid) như mô tả trong Hình 1.2.

Trước kỹ thuật dịch thống kê, có bốn cách tiếp cận cho bài toán MT [51], bao gồm: dịch trực tiếp [53], dịch dựa trên chuyển đổi [66], dịch liên ngữ [81] và dịch dựa trên ví dụ [87, 103]. Trong cách dịch trực tiếp, quá trình dịch được thực hiện từng từ một bằng cách sử dụng từ điển song ngữ lớn và sắp xếp lại thứ tự các từ theo các quy tắc cho trước. Cách tiếp cận chuyển đổi dựa vào việc phân tích một câu trước khi dịch, sau đó dịch cấu trúc câu và tạo ra một câu trong ngôn ngữ khác. Cách tiếp cận thứ ba là phân tích các thông tin của câu để tạo thành một biểu diễn ý nghĩa trừu tượng, điều này được biết đến như là một "ngôn ngữ quốc tế" (hay liên ngữ - interlingua) trước khi tạo ra một câu trong ngôn ngữ khác. Đối

với cách tiếp cận dựa trên ví dụ, hệ thống dịch tìm câu tương tự với câu đầu vào trong ngữ liệu song ngữ (các ví dụ) và thực hiện một số thay đổi thích hợp trong quá trình dịch [60].

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt luận án TS công nghệ thông tin 62 48 01 01 (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(129 trang)