Các phương pháp dịch máy

10 432 1
Các phương pháp dịch máy

Đang tải... (xem toàn văn)

Thông tin tài liệu

Các phương pháp dịch máy Có nhiều quan điểm phân loại các hệ dịch máy khác nhau, thông dụng nhất là phân loại theo mục đích của hệ dịch (dịch tự động hoàn toàn, dịch bán tự động, trợ dịch, từ điển, ) và phân loại theo hướng tiếp cận kỹ thuật. Phần sau đây sẽ đề cập đến phân loại hệ dịch theo hướng tiếp cận kỹ thuật vì đây cũng là cơ sở để phát triển các nghiên cứu của luận văn. Có 3 chiến lược dịch máy chủ yếu và các biến thể đi theo các cách tiếp cận khác nhau: dựa trên luật (rule-based), dựa trên cơ sở tri thức (knowledge- based), dựa trên thống kê (statistics-based), dựa vào kho ngữ liệu (corpus- based), .v.v. Ba chiến lược chủ yếu đó là: • Dịch trực tiếp • Dịch dựa trên chuyển đổi • Dịch dựa trên ngôn ngữ trung gian (liên ngữ) Các triển khai hệ thống dịch trong thực tế không phải luôn luôn sử dụng chỉ một hướng tiếp cận, nhiều hệ thống kết hợp các phương pháp tiếp cận khác nhau để đạt được kết quả tốt nhất. Có nhiều hướng tiếp cận theo cấp độ từ đơn giản đến phức tạp, bao gồm: dịch trực tiếp, dịch theo chuyển đổi cú pháp, chuyển đổi cú pháp + phân giải ngữ nghĩa, dịch qua ngôn ngữ trung gian, dịch dựa trên luật, dịch dựa trên thống kê, dịch dựa trên cơ sở tri thức, dịch dựa trên ngữ liệu. Dưới đây chúng tôi sẽ khái quát căn bản lý thuyết về ngôn ngữ học áp dụng trong dịch máy, cũng như mô tả một số khái niệm, cách tiếp cận, và chiến lược áp dụng trong dịch máy: I) Vấn đề ngôn ngữ trong dich máy: Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin và Truyền thông. Cái khó nằm ở chỗ làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Minh họa lại bằng thí dụ của Marvin Minsky (1992), một cây đa cây đề của ngành trí tuệ nhân tạo (Artificial Intelligence): “Xét từ “sợi dây” chang hạn. Ngày nay không một máy tính nào có thể hiểu nghĩa từ này như con người. Còn chúng ta ai cũng biết có thể dùng sợi dây để kéo một vật, nhưng không thể đẩy một vật bằng sợi dây này. Ta có thể gói một gói hàng hoặc thả diều bằng một sợi dây, nhưng không thể ăn sợi dây. Trong vài phút, một đứa trẻ nhỏ có thể chỉ ra hàng trăm cách dùng hoặc không dùng một sợi dây, nhưng không máy tính nào có thể làm việc này.” [11] Tiếng Anh và tiếng Việt là ngôn ngữ của hai dân tộc khác nhau, có nền văn hóa khác nhau. Nên, yếu tố khác nhau giữa tiếng Anh và tiếng Việt là một khó khăn trong vấn đề xử lý ngữ nghĩa. Có thể nói, có những khái niệm trong tiếng Anh có thể sử dụng cho tất cả sự vật với cùng một nghĩa nhưng trong tiếng Việt thì không phải như vậy. Trong những ngữ cảnh khác nhau, ý nghĩa của một từ là khác nhau. Ngữ cảnh ở đây có thể được xem như là nội dung của văn bản đang đề cập, ý nghĩa của các câu trước hoặc sau có liên quan đến nó trong đoạn văn, hoặc các từ có liên quan với nó trong câu. Ví dụ minh họa như: Nếu ta viết “An old driver drives the car” thì nghĩa ở đây của an old driver là một người tài xế già, và nếu ta viết “I installed that old driver into this computer” thì cụm đó lại mang nghĩa là trình điều khiển cũ. Có những ngữ cảnh rất khác như trong câu “I book two books from Mr. Book”, từ Book cuối cùng là tên riêng, không được dịch mà phải giữ nguyên. Có những thành ngữ rất đặc biệt như: “It is raining cats and dogs” (trời mưa tầm tã), hay “to be or not to be” (câu nói nổi tiếng của Hamlet “sống hay là chết”) không trình dịch máy nào có thể dịch nếu không quy chiếu từ điển. Nhưng cũng có những thành ngữ như “keep an eye on something” (để mắt vào), trình dịch có thể hoàn toàn hiểu được nếu gắn nghĩa theo cách thông thường và ghép nối lại. Tham chiếu sang tiếng Việt, chúng ta cũng gặp sự nhập nhằng của ngôn ngữ dưới một góc độ khác, nêu ví dụ sau: Ông già đi nhanh quá” Chúng ta có 3 cách hiểu: Cách 1: “Ông già” | “đi” | “nhanh” | “quá” Cách 2: “Ông” | “già đi” | “nhanh” | “quá” Cách 3: Ông già đã chết (khuất) một cách đột ngột. (nghĩa bóng) Đặc điểm của Tiếng Việt Đặc điểm của Tiếng Anh Được xếp là loại hình đơn lập (isolate) hay còn gọi là loại hình phi hình thái. Được xếp là loại hình hòa kết (flexion) Trong hoạt động ngôn ngữ, từ không biến đoi hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ. Ví dụ: Chị ngã em nâng và Em ngã chị nâng Từ có biến đoi hình thái, ý nghĩa ngữ pháp nằm ở trong từ. Ví dụ: I see him và He sees me Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ. Ví dụ: Gạo xay và Xay gạo; đang học và học rồi ; “nó bảo sao Phương thức ngữ pháp chủ yếu là phụ tố (affix). Ví dụ: studying và studied không tới”, “sao không bảo nó tới”, “sao không tới bảo nó” .v.v. Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Ranh giới từ được xác định bằng khoảng trắng hoặc dấu câu. Tồn tại loại từ đặc biệt “ từ chỉ loại” (classifier) hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ, như: cái bàn, cuốn sách, bức thư, con chó, con sông, vì sao .v.v. Có hiện tượng láy và nói lái trong tiếng Việt. Ví dụ: lấp lánh, lung linh, .v.v. Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là rất pho biến. Trong khi hiện tượng này không có trong tiếng Việt. Ví dụ: anticomputerizational ( anticompute- er-ize-ation-al) Bảng 2.1: Bảng so sáng khái quát tiếng Anh - tiếng Việt. II) Kho ngữ liệu Ngữ liệu là các nguồn dữ liệu được sử dụng cho các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ngữ liệu thường là tập hợp các câu dưới dạng tiếng nói hay văn bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý ngôn ngữ tự nhiên. Các thông tin này được trích chọn sao cho phù hợp với các yêu cầu của bài toán. Các ngữ liệu trong đó không chứa các thông tin về ngôn ngữ được gọi là ngữ liệu thô (hay ngữ liệu trắng). Việc thêm thông tin vào ngữ liệu thô thường được làm bằng tay, đôi khi có sự hỗ trợ nhất định của phần mềm. Có thể xem ngữ liệu như một cơ sở tri thức thô, trong đó, thông tin được thêm  vào để chuấn bị cho việc trích chọn tri thức về sau được dễ dàng hơn. Với nguồn ngữ liệu càng lớn thì việc trích chọn các tri thức về ngôn ngữ càng chính xác và đầy đủ hơn. Đe trích chọn thông tin về ngôn ngữ trên các nguồn ngữ liệu chúng ta thường dùng các giải thuật học. Các giải thuật học có thể sử dụng thông tin trong các ngữ liệu để rút ra (một cách tự động hay bán tự động) tập các luật cần thiết cho xử lý ngôn ngữ tự nhiên. Tập các luật này chính là cơ sở tri thức. Để trích chọn các tri thức về ngôn ngữ một cách chính xác, chúng ta cần có các ngữ liệu chính xác, các ngữ liệu như thế được gọi là ngữ liệu vàng (golden corpus). III) Dich trực tiếp Tiếp cận dịch trực tiếp được áp dụng vào các chương trình dịch từ sớm nhất so với các hướng tiếp cận khác, đây là hướng tiếp cận được sử dụng và phát triển khá thành công trong hệ thống dịch Mark II (1964). Dịch trực tiếp là phương pháp phát triển cho cặp ngôn ngữ cụ thể, tiến trình dịch là một quá trình biến đổi từ ngôn ngữ nguồn sang ngôn ngữ đích dựa trên từ điển song ngữ và một số quy tắc từ vựng kết hợp với một số quy tắc xử lý ngữ pháp đơn giản. Sơ đồ hệ dịch trực tiếp được thể hiện ở mô hình dưới đây: Dịch trực tiếp sẽ thực hiện dịch ngôn ngữ bằng cách thay thế những từ trong ngôn ngữ nguồn với những từ trong ngôn ngữ đích một cách máy móc. Dịch trực tiếp không phụ thuộc nhiều vào các quan hệ ngữ pháp và ngữ cảnh. Dịch trực tiếp phù hợp cho những ứng dụng nơi mà văn bản dịch có khối lượng từ nhỏ, nghĩa từ là đơn trị và số lượng câu không lớn. Các hệ dịch trực tiếp hoạt động tương đối tốt khi phiên dịch các tài liệu kỹ thuật. Dịch trực tiếp dựa vào từ điển song ngữ một cách triệt để, cách thức thực hiện dịch trực tiếp đơn giản như tên gọi của nó. Vì tính đơn giản này, có thể nói, dịch trực tiếp không hình thành nên một nền tảng lý thuyết đi kèm, không có phương pháp luận. Nên cũng có nhà nghiên cứu gọi thuật ngữ dịch trực tiếp là dịch nhớ. Nói cách khác, dịch trực tiếp chỉ áp dụng được trong những miền xác định hẹp (chuyên ngành). Một hệ dịch trực tiếp hoạt động theo 3 giai đoạn: ■ Tiền xử lý: Ngắt đoạn cần dịch thành dãy các câu. ■ Xử lý: Hệ phân tích câu cần dịch thành dãy các từ, sau đó dựa trên từ điển song ngữ, tìm hình thái và nghĩa cho từng từ hay cụm từ. ■ Sinh câu đích thích hợp. Các hệ dịch trực tiếp có ưu điểm là đơn giản và có tốc độ nhanh. Phương pháp rất thích hợp với việc dịch trong những lĩnh vực chuyên môn (không có nhiều nhập nhằng về ngữ nghĩa) và cho kết quả khá tốt khi áp dụng cho các cặp ngôn ngữ có nhiều điểm tương đồng về ngữ pháp và từ vựng (như tiếng Pháp và tiếng Anh, ). Với những cặp ngôn ngữ ít tương đồng hơn, hoặc với nguồn có không gian nghĩa mở (như các tác phẩm văn học), cách tiếp cận này tỏ ra thiếu hiệu quả. Biến thể của dịch trực tiếp, áp dụng cho các chuyên ngành hẹp, đi theo hướng phrase-based (đơn vị được dịch là một chuổi các từ liên tiếp) chứ không phải là word-based (đơn vị để dịch là từ, word-for-word) là một phương pháp mới, hiệu quả hơn trong xu hướng dịch trực tiếp. IV) Dich chuyển đổi 1) Dich chuyển đổi cú pháp Cũng có tài liệu gọi vắn tắt thuật ngữ này là dịch chuyển đổi. Dịch chuyển đổi cú pháp thực hiện phân tích cú pháp câu được nhập vào và sau đó áp dụng những luật ngôn ngữ và từ vựng (hay còn được gọi là những luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ này sang ngôn ngữ khác. Do đó, không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu trúc nhưng khác nghĩa nhau. So với dịch trực tiếp, các hệ thống dịch chuyển đổi đi xa hơn các hệ dịch trực tiếp trong việc phân tích ngữ pháp (và ngữ nghĩa) của ngôn ngữ nguồn và ngôn ngữ đích. Đầu tiên, hệ dịch chuyển đổi tiến hành phân tích ngữ pháp trong ngôn ngữ nguồn, sau đó cố gắng chuyển đổi sáng cấu trúc ngữ pháp tương đương ở ngôn ngữ đích và cuối cùng sinh câu đích từ cấu trúc ngữ pháp đã chuyển đổi. Sơ đồ hoạt động của hệ dịch chuyển đổi được thể hiện ở mô hình dưới đây: Ta có thể nhận thấy một vài đặc điểm của sơ đồ trên : • Sự phụ thuộc nặng nề của quá trình dịch đối với ngôn ngữ nguồn. Cây cú pháp của ngôn ngữ nguồn quyết định cách thức biên dịch văn bản sang ngôn ngữ đích. Điều này dẫn đến sự suy biến của bước tong hợp : ta không thấy có khối tổng hợp cú pháp của ngôn ngữ đích. Công đoạn phức tạp nhất chính là phân tích cú pháp. Kết quả là phải cần rất nhiều quy tắc dịch (cho những tình huống khác biệt giữa hai ngôn ngữ) kéo theo rất nhiều quy tắc phân tích văn phạm (có dạng tương tự nhau trên ngôn ngữ nguồn nhưng khác nhau về luật dịch sang ngôn ngữ đích) • Dữ liệu chỉ sử dụng được cho dịch một chiều và cho một cặp ngôn ngữ. Để dịch ngược lại ta phải xây dựng lại toàn bộ hệ quy tắc và từ vựng. Con người dịch ngôn ngữ theo một cách hoàn toàn khác. Việc đọc hiểu đúng câu văn (phân tích) không chiếm nhiều thời gian và công sức. Khó khăn chính màngười dịch thường gặp là khi chuyển ngữ : tổng hợp câu văn của ngôn ngữ đích. Chất lượng bản dịch phụ thuộc chủ yếu vào công việc tống hợp này. Một biến thể của dịch chuyển đối cú pháp là dịch chuyển đối cú pháp cộng phân giải ngữ nghĩa. 2) Dich chuyển đổi cú pháp cống phân giải ngữ nghĩa: Dung hoà giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa. Hệ dịch chủ yếu dựa vào phân tích cú pháp, và chỉ phân giải ngữ nghĩa ở mức cần thiết để khử nhập nhằng nghĩa. 3) Quy trình dich chuyển đổi: Thông thường, trong các hệ dịch máy theo phương pháp chuyển đối chấp nhận sơ đồ dịch gồm các bước sau: • Phân tích: - Ngắt câu để từ đoạn văn chọn ra một câu. - Phân tích từ vựng: xử lý tiếp đầu, tiếp đuôi, ghép từ (đối với những ngôn ngữ biến hình thì phần ghép từ là suy biến, còn đối với những ngôn ngữ đơn lập thì phần xử lý tiếp đầu, tiếp đuôi là suy biến) - Phân tích văn phạm: xây dựng tập các cây cú pháp của câu nguồn. - Xử lý nhập nhằng: chọn ra cây cú pháp thích hợp nhất theo một tiêu chí nào đó. Nói cách khác, các bước trên sẽ dựa trên từ điển song ngữ và kiến thức về văn phạm của ngôn ngữ nguồn, hệ phân tích câu cần dịch thành dãy hình thái của các từ sau đó dựng cây cú pháp cho câu. • Chuyển đối: - Chuyển đối cây cú pháp : Thông thường là ứng với mỗi luật sinh của ngôn ngữ nguồn có kèm theo một quy tắc dịch (chọn luật tương ứng trong ngôn ngữ đích để xây dựng cây cú pháp của ngôn ngữ đích từ cây cú pháp của ngôn ngữ nguồn). • Sinh câu đích: - Từ cây cú pháp. tong hợp từ vựng và phát sinh bản dịch. Ưu điểm hơn so với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả dịch tốt hơn do câu đích sinh ra chuyển tải được cả nội dung về ngữ pháp và ngữ nghĩa. Nhược điểm của các hệ dịch chuyển đổi phải đối mặt với vấn đề nhập nhằng về văn phạm và nhập nhằng về ngữ nghĩa, có nhiều phương pháp được xây dựng để vượt qua hai vấn đề nan giải này, nhưng hiện tại chưa có một phương pháp nào chứng tỏ sự vượt trội về mặt kết quả. Việc phân tích văn phạm của hệ dịch chuyển đổi có thể dừng ở nhiều mức độ, tùy vào sự chi tiết của bộ luật văn phạm mà hệ dịch sử dụng. Mức độ chi tiết của hệ luật văn phạm càng cao thì hệ dịch càng phân tích được chính xác các thành phần trong câu nguồn và kết quả dịch cũng càng chính xác hơn; nhưng, mức độ chi tiết cao cũng kéo theo sự phức tạp của bộ luật văn phạm và khả năng phải đối mặt với sự nhập nhằng của hệ dịch cũng tăng lên. Thật vậy, cú pháp, cấu trúc, ngữ nghĩa của các ngôn ngữ khác nhau là không tương đồng (không có tương ứng 1:1 giữa các cặp ngôn ngữ), một quy tắc trong ngôn ngữ nguồn có thể tương ứng với nhiều quy tắc trong ngôn ngữ khác và ngược lại ^ số quy tắc phải xây dựng để đối chiếu, so sánh giữa các cặp ngôn ngữ tăng lên nhiều lần. V) Dich máy dưa trên thống kê (Statistical Machine Translation) Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm 1980, được đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp Candide. Ý tưởng dịch máy bằng thống kê rất đơn giản và thuần túy toán học: Thay vì xây dựng các từ điển, các quy luật chuyển đoi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên thống kê. Cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo câu dựa trên kết quả thống kê có được từ kho ngữ liệu (corpus). Phương pháp dịch dựa trên thống kê đòi hỏi phải có một tập dữ liệu cực lớn các câu tương đương giữa ngôn ngữ nguồn và ngôn ngữ đích để có thể ra kết quả thống kê chính xác, đây là trở ngại lớn cho các đề án dịch theo đuổi phương pháp này vì việc xây dựng kho ngữ liệu lớn như vậy đòi hỏi công sức và chi phí rất lớn. Chỉ một số tập đoàn, tổ chức lớn trên thế giới (như hãng IBM, .v.v.) mới đủ sức theo đuổi đến cùng phương pháp này. Hiện nay, do sức mạnh tính toán và lưu trữ của máy tính tăng lên rất đáng kể, một số đề án dịch máy bằng thống kê đã cho ra nhiều kết quả đáng giá với khối lượng tri thức khổng lồ sử dụng trong thống kê. Nếu hệ dịch máy bằng thống kê đầu tiên là hệ Candide của IBM sử dụng 2.205.733 cặp mẫu câu Anh- Pháp tương đương thì hiện nay một số hệ dịch Arabian-Anh được sử dụng trong các mục đích an ninh của cơ quan NSA sử dụng tới hơn 150 triệu cặp mẫu câu Arập-Anh tương đương. Một điều rất đáng ngạc nhiên nhưng rất logic là phương pháp dịch bằng thống kê không quan tâm đến việc xử lý ngữ nghĩa nhưng chất lượng dịch của các phương pháp này rất cao, hệ dịch Arập-Anh của NSA được đề cập ở trên thậm chí không sử dụng từ điển nhưng vẫn có thể dịch được nghĩa bóng của nhiều thành ngữ Arập. Vào thời điểm hiện nay, các hệ dịch bằng thống kê đi tiên phong trong việc đạt được các câu dịch có chất lượng cao. VI) Dich máy dưa trên mẫu ví dụ (Example-Based Machine Translation) Ý tưởng về tiếp cận dịch bằng ví dụ được giới thiệu lần đầu tiên bởi Nagao vào năm 1984 trong nỗ lực xây dựng hệ dịch tự động Nhật-Anh. Tư tưởng của tiếp cận dịch bằng ví dụ rất đơn giản: Đe dịch một câu chúng ta có thể sử dụng kết quả dịch của một câu khác gần giống như vậy sửa đoi đi đôi chút. Sơ đồ của một hệ dịch bằng ví dụ được thể hiện ở mô hình dưới đây: Tiếp cận dịch bằng ví dụ có nhiều ưu điểm: • Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có một tập các ví dụ đủ phong phú. • Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng và ngữ pháp. • Tập dữ liệu càng phong phú, chất lượng dịch càng cao. Đây là ưu thế rất lớn so với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng nếu tri thức dịch nhiều lên. Tiếp cận dịch bằng ví dụ có hai điểm yếu đó là sự quá phụ thuộc vào chất lượng của các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiện khá chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìm kiếm sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu). VII) Dich dựa trên cơ sở tri thức Dựa trên lập luận “muốn dịch được trước hết phải hiểu được”, máy tính phải được trang bị tri thức ngôn ngữ và tri thức về thế giới thực y như con người. Đây là một công việc cực kỳ khó khăn. Vì vậy, chất lượng các hệ dịch dựa trên cách tiếp cận này còn rất hạn chế. VIII) Dich dựa trên ngữ liệu Đặc điểm của các hệ dịch theo cách tiếp cận này là thay vì xây dựng bộ luật bằng tay, hay dựa trên thống kê thì xây dựng các bộ luật dựa trên các công nghệ “máy học” để có được các bộ luật chuyển đổi nhờ vào kho ngữ liệu. Các bộ luật này hoàn toàn tuân thủ các lý thuyết ngôn ngữ và dễ đọc hơn các luật rút ra từ thống kê. Các bộ luật này còn có ưu điểm đầy đủ hơn, dễ kiểm soát hơn so với các luật do các nhà ngôn ngữ học đưa ra. Hơn nữa, còn có sự tương tác giữa hai phía: người dùng và hệ dịch bởi công nghệ máy học, làm cho hệ dịch dựa trên ngữ liệu trở nên “gần người” hơn. IX) Dich liên ngữ Như mô hình và lý thuyết đã nêu, dịch liên ngữ là một phương pháp dịch máy sát nghĩa nhất. Các hệ dịch chuyển đổi là một bước tiến so với các hệ dịch trực tiếp về mặt tìm hiểu cấu trúc của câu, dịch liên ngữ còn tiếp tục đi xa hơn nữa với việc cố gắng xây dựng một cấu trúc chung cho việc biểu đạt các ý tưởng (dạng liên ngữ) của bất kỳ câu văn nào. Sơ đồ hình tháp dưới đây thể hiện sự tương quan giữa ba phương pháp dịch trong việc xử lý dữ liệu dịch, trong đó, dịch liên ngữ nằm ở mức cao nhất trong việc hiểu ý nghĩa của câu: 1) Ưu điểm Các hệ dịch máy theo mô hình liên ngữ có nhiều ưu điểm: • Nếu hệ dịch liên ngữ thành công thì kết quả dịch chắc chắn là rất tốt do câu đích biểu đạt được nội dung của câu nguồn cả về mặt từ vựng, ngữ pháp và ngữ nghĩa. • Việc xây dựng các hệ dịch đa ngôn ngữ bằng liên ngữ rất thuận lợi, với các hệ dịch khác khi muốn hỗ trợ thêm một ngôn ngữ mới cần xây dựng tri thức chuyển đoi giữa ngôn ngữ mới với tất cả các ngôn ngữ đã hỗ trợ từ trước, với hệ dịch liên ngữ, ta chỉ cần xây dựng tri thức chuyển đoi giữa ngôn ngữ mới và liên ngữ. 2) Nhược điểm • Vấn đề khó khăn nhất trong hệ dịch liên ngữ là xây dựng liên ngữ đủ phong phú để có thể biểu đạt mọi sắc thái trong các ngôn ngữ khác, cho đến thời điểm hiện tại, chưa có mô hình thực tế cũng như lý thuyết nào đạt được điều này. • Nói cách khác, dịch liên ngữ xây dựng một ngôn ngữ trung gian biểu diễn độc lập với mọi ngôn ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất của mọi ngôn ngữ có trong hệ dịch đó. Khi dịch một ngôn ngữ nguồn A sang ngôn ngữ đích B thì hệ dịch thực hiện việc chuyển từ ngôn ngữ nguồn A sang ngôn ngữ trung gian, sau đó chuyển từ ngôn ngữ trung gian dịch sang ngôn ngữ đích B. Ưu điểm của hệ liên ngôn ngữ là số lượng bộ dịch được dùng bởi hệ dịch liên ngôn ngữ không nhiều. Song, khó khăn lớn nhất là không dễ xây dựng một ngôn ngữ trung gian! Để làm rõ hơn vấn đề này, chúng tôi sẽ trình bày bằng cây phả hệ phân hoạch liên ngữ dưới đây. 3) Phân hoạch liên ngữ Trong cuốn “Ethnologue Language Family Index” đưa ra một sự phân loại chi tiết các ngôn ngữ trên thế giới, tổng cộng 6,809 thứ tiếng, bao gồm 108 họ ngôn ngữ. Theo tài liệu này thì ở Việt nam có gần 70 triệu người nói các ngôn ngữ thuộc họ Austro - Asiatic; hơn 2 triệu người nói các ngôn ngữ họ Daic; ngoài ra còn có các ngôn ngữ thuộc họ Miao-Yao, Austronesian và Tibeto-Burman. Tiếng Việt được xếp trong nhóm Việt-Mường, dòng Môn- Khơ me, họ Austro - Asiatic theo cây phân cấp (trích đoạn) như trên hình 2.6. Tiếng Anh được xếp trong nhóm West dòng Germanic họ Indo-European theo trích đoạn cây phân cấp như trên hình 2.7. Theo sơ đồ này thì tiếng Việt và tiếng Mường rất gần nhau vì cùng nhóm Việt Mường; còn tiếng Việt và tiếng Khơ me tuy không thuộc cùng nhóm nhưng thuộc cùng dòng Môn-Khơ me nên cũng khá gần nhau. Tương tự, tiếng Anh và tiếng Scots rất gần nhau; còn tiếng Anh và tiếng Đức thì cùng thuộc một nhóm West. Trong khi đó tiếng Anh và tiếng Thụy điển xa nhau hơn: cùng thuộc dòng Germanic. [16] [17] [18] Austro-Asiatic (168) Mon-Khmer (147) Eastern Mon-Khmer (67) Bahnaric (40) Central Bahnaric (6) North Bahnaric (14) South Bahnaric (9) West Bahnaric (11) Katuic (19) Central Katuic (5) East Katuic (8) West Katuic (6) Khmer (2) KHMER, CENTRAL [KMR] (Cambodia) KHMER, NORTHERN [KXM] (Thailand) Viet-Muong (10) Chut (3) AREM [AEM] (Viet Nam) MALENG [PKT] (Laos) CHUT [SCB] (Viet Nam) Cuoi (2) HUNG [HNU] (Laos) THO [TOU] (Viet Nam) Muong (3) BO [BGL] (Laos) MUONG [MTQ] (Viet Nam) NGUÔN [NUO] (Viet Nam) Thavung (1) AHEU [THM] (Thailand) Vietnamese (1) VIETNAMESE [VIE] (Viet Nam) Hình 2.6: Cây phả hệ ngôn ngữ họ Austro-Asiatic Indo-European (443) Germanic (58) East (1) GOTHIC [GOF] (Ukraine) North (14) East Scandinavian (8) Danish-Swedish (8) West Scandinavian (6) FAROESE [FAE] (Denmark) ICELANDIC [JOE] (Iceland) JAMSKA [JMK] (Sweden) NORN [NON] (United Kingdom) NORWEGIAN, NYNORSK [NRN] (Norway) TRAVELLER NORWEGIAN [RMG] (Norway) West (43) English (5) CAYMAN ISLANDS ENGLISH [CYE] (Cayman Islands) ENGLISH [ENG] (United Kingdom) ANGLOROMANI [RME] (United Kingdom) SCOTS [SCO] (United Kingdom) YINGLISH [YIB] (USA) Frisian (3) FRISIAN, WESTERN [FRI] (Netherlands) FRISIAN, NORTHERN [FRR] (Germany) FRISIAN, EASTERN [FRS] (Germany) High German (19) German (17) Yiddish (2) Low Saxon-Low Franconian (16) Low Franconian (3) Low Saxon (13) Hình 2.7: Cây phả hệ ngôn ngữ họ Indo-European Rõ ràng, giữa tiếng Anh và tiếng Việt không có gì chung trong phả hệ ngôn ngữ. Theo cách diễn đạt này và theo cây phả hệ thì thực tế ta có một lớp các liên ngữ khác nhau được truy xuất theo các cấp độ khác nhau tùy thuộc vào các nhóm, dòng, họ ngôn ngữ khác nhau. Điều này một phần lý giải vì sao không thể xây dựng một liên ngữ đầy đủ, hoàn toàn độc lập ngôn ngữ được. [16] [17] [18] . Các phương pháp dịch máy Có nhiều quan điểm phân loại các hệ dịch máy khác nhau, thông dụng nhất là phân loại theo mục đích của hệ dịch (dịch tự động hoàn toàn, dịch bán tự động, trợ dịch, . hệ dịch máy Anh -Pháp Candide. Ý tưởng dịch máy bằng thống kê rất đơn giản và thuần túy toán học: Thay vì xây dựng các từ điển, các quy luật chuyển đoi bằng tay, hệ dịch này tự động xây dựng các. bản dịch. Ưu điểm hơn so với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả dịch tốt hơn do câu đích sinh ra chuyển tải được cả nội dung về ngữ pháp và ngữ nghĩa. Nhược điểm của các hệ dịch

Ngày đăng: 18/05/2015, 18:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan