Trong bối cảnh đó, chúng tôi chọn vẫn đề lỗi trong bản dịch máy của văn bản ngôn ngữ học từ tiếng Hán sang tiếng Việt và từ tiếng Việt sang tiếng Hán làm đề tài luận văn thạc sĩ của mình
Kết cầu của luận vănNgoài phần mở đầu, kết luận, danh mục tài liệu tham khảo, mục lục, luận văn có 3 chương.
Cơ sở lý thuyết về dịch thuật, lỗi, lỗi dich máy và dich máyChương nay chủ yếu là giới thiệu lý thuyết liên quan đến dé tai, trình bày những khái niệm về lỗi, lỗi dịch máy và dịch máy về những khó khăn của máy tính khi xử lý thông tin.
+ Chương 2: Các lỗi trong văn bản dịch máy
Chương này chủ yéu là phân tích và miêu tả các lỗi về từ vựng, ngữ đoạn,câu và một số lỗi khác trong dịch máy các văn bản ngôn ngữ học từ tiếng Hán sang tiếng Việt và tiếng Việt sang tiếng Hán.
Nguyên nhân gây lỗi và phương pháp giải quyết trong quá trìnhChương này chủ yếu là giới thiệu, phân tích nguyên nhân gây lỗi và đưa ra một sô phương pháp giải quyết van đề lỗi, nhằm cải thiện chất lượng dịch máy, giúp cho dịch máy được ứng dụng rộng rãi trong thực tiễn.
CƠ SỞ LÝ THUYETNguyên lý cơ bản của các cách tiếp cận dịch máy 1 Tiếp cận dịch máy dựa trên chuyển đổiNói một cách khái quát, một quá trình dịch máy điển hình dựa trên sự chuyền đổi có thé được mô tả như một phương pháp "phân tích độc lập - tao sinh độc lập - chuyên đổi liên quan" Còn toàn bộ quá trình dich máy có thé được chia thành sáu bước: (1) phân tích từ vựng của ngôn ngữ nguồn (2) phân tích cú pháp của ngôn ngữ nguồn (3) chuyền đổi từ vựng từ ngôn ngữ nguồn sang ngôn ngữ đích (4) chuyền đổi cau trúc câu từ ngôn ngữ nguồn sang ngôn ngữ đích (Š) tạo cú pháp của ngôn ngữ đích (6) tạo hình thái và nghĩa của ngôn ngữ đích.
Các cách tiếp cận dịch máy dựa trên chuyển đôi khác nhau có độ sâu khác nhau của ngôn ngữ học khi tiến hành sáu bước trên, và do đó cũng tạo ra các loại phương pháp dịch máy khác nhau Trong đó, phương pháp dịch trực tiếp bỏ qua những thông tin về cú pháp, ngữ nghĩa và ngữ cảnh, lại trực tiếp dịch ngôn ngữ nguồn sang ngôn ngữ đích thông qua từ điển Phương pháp dịch máy
10 nay không cân nhắc cú pháp và ngữ nghĩa của câu, nó chỉ dựa vào từ điển nên độ chính xác và khả năng mở rộng của nó hơi kém và phạm vi sử dụng của đó tương đối hẹp Cách tiếp cận dich máy dựa trên chuyên đổi bậc sâu sẽ phân tích ngôn ngữ nguồn ở cấp độ cú pháp, thậm chí cả cấp độ ngữ nghĩa, làm như thê khiến cho văn bản dịch máy chính xác hơn Phương pháp này chuyền đổi câu ngôn ngữ nguồn thành một hình thái của ngôn ngữ nguồn ở bước một, sau đó chuyền đổi hình thái bên trong của ngôn ngữ nguồn thành hình thái bên trong của ngôn ngữ đích, và cuối cùng tạo ngôn ngữ đích theo hình thái và nghĩa của ngôn ngữ đích Toàn bộ quá trình chuyên đổi yêu cầu phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa, phân tích diễn ngôn của câu, v.v Các bước dịch cụ thé được trình bày như sau:
Bảng 1.1: Bảng sơ đồ về các bước dich 1.3.1.2 Tiếp cận dịch máy dựa trên ngôn ngữ trung gian (dịch liên ngữ)
Sự khác biệt giữa phương pháp dựa trên ngôn ngữ trung gian và phương pháp dựa trên biến đồi là dịch liên ngữ là chuyên ngôn ngữ nguồn thành một biểu thức trung gian của một ngôn ngữ mới (khi dịch tiếng Hán sang tiếng Việt, ngôn ngữ trung gian thường là tiếng Anh) Sau đó chuyên ngôn ngữ trung gian thành ngôn ngữ đích.
Ngôn ngữ trung gian này không có định và mang tính linh hoạt có thể sử
11 dụng trong các hệ thống khác nhau Nó đóng một vai trò quan trọng trong việc nâng cao hiệu quả của dịch thuật đa ngôn ngữ, đồng thời cải thiện chất lượng của bản dịch, sơ đồ được trình bày như sau:
Ngôn ngữ A : ngu trung gian) Ngôn ngữ C
Bảng 1.2: Bảng sơ đồ về cải thiện chất lượng bản dịch
1.3.1.3 Tiếp cận dịch máy dựa trên khối liệu truyền thong
Phương pháp dịch máy dựa trên thống kê được Weaver đề xuất lần đầu tiên vào năm 1949 Nó chủ yếu dụng ý tưởng của luận thông tin và coi quá trình dịch thuật như một quá trình mã hóa và giải mã Bằng phương thức thống kê hiện tượng ngôn ngữ trong kho ngữ liệu song ngữ có quy mô lớn, sau đó nhận được xác suất dịch trong quá trình từ ngôn ngữ nguồn sang ngôn ngữ đích, đây chính là mô hình dịch Sau đó, chọn một mô hình ngôn ngữ cụ thé dé huấn luyện thích hợp với ngôn ngữ đích Cuối cùng, chúng ta tinh toán kết hợp mô hình dịch và mô hình ngôn ngữ, nhằm sàng lọc ra bản dịch phù hợp nhất.
Phương pháp dịch dựa trên mẫu ví dụ là nhập các mẫu ví dụ Song ngữ vào kho mẫu ví dụ Khi nhập một câu ngôn ngữ nguồn, hệ thống sẽ tự động tìm kiếm trong kho mau vi dụ dé lay câu ngôn ngữ nguồn giống nhất với câu đầu vào và tìm bản dịch tương ứng của nó Sau đó điều chỉnh câu đã dịch theo câu nhập vào đề xuất ra kết quả dịch cuối cùng Điểm mau chốt của phương pháp dịch máy dựa trên mẫu ví dụ là tính toán độ giống giữa câu nhập vào và câu ngôn ngữ nguồn trong kho mẫu ví dụ, từ đó dé tìm được câu ngôn ngữ nguồn giống nhất với câu nhập vào Hiện nay, các phương pháp dịch máy dựa trên mẫu ví dụ đã được sử dụng trong các hệ thống "dịch máy do con người hỗ trợ" một cách rộng rãi.
Hai phương pháp này đều có ưu điểm và nhược điểm riêng Đối với phương pháp dựa trên thống kê, việc huấn luyện các mô hình ngôn ngữ và mô
12 hình dịch đòi hỏi có các kho ngữ liệu song ngữ chất lượng cao với số lượng to dé hỗ trợ Dù phương pháp dịch dựa trên mẫu vi dụ sử dụng các kho mẫu có chất lượng cao, dịch thuật đa ngôn ngữ, đa lĩnh vực cần có kho mẫu ví dụ quy mô lớn.
1.3.1.4 Tiếp cận dịch máy dựa trên mạng nơ ron
Những năm gần đây, với sự ra đời của học sâu (deep-learning), các phương pháp dựa trên mạng nơ-ron đã có những bước đột phá và tiến bộ vượt bậc trong nhiều lĩnh vực khác nhau như nhận dạng hình ảnh, nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên So với các phương pháp dịch máy dựa trên thống kê truyền thống, hệ thống dịch mạng nơ-ron (NMT) có yêu cầu nghiêm ngặt hơn về quy mô kho ngữ liệu, nhưng về học sâu của dịch máy thống kê không kịp được Các kiến trúc mạng phổ biến trong dịch máy mạng nơ-ron ở giai đoạn này chủ yếu bao gồm RNN (recurrent neural network, mạng nơ-ron hồi quy),
CNN (convolutional neural network, mạng nơ-ron tích hợp), LSTM (long- short-time memory, mạng bộ nhớ dai-ngan), v.v
1.3.2 Những khó khăn của máy tính khi xử lý thông tin
Dé thực hiện chuyên đổi giữa hai ngôn ngữ, trước hết máy tinh cần "đọc hiểu" ngôn ngữ nguồn, tuy nhiên, sự tồn tại của từ hoặc câu có hai hoặc nhiều nghĩa là trở ngại lớn nhất mà máy tính phải đối mặt Ví dụ, câu tiếng Hán "3È
{l= \—4H" câu này có ba nghĩa với hai loại phân đoạn từ, một là "#ÈlJ/
=Ä —#" > “ Một nhúm ba người chỳng tụi”; Hai là “‡#ẩ{ẽ]/—* A/— 2”
> Chỳng tụi (cứ) ba người một nhúm; Ba là “4ẩ{ẽ]—* \/—-/#H” > “ Cả ba chúng tôi, một nhóm” Nhưng máy tính chỉ có thể nhận biết được một loại phân đoạn từ là “FR V/=4 A240”, thiếu một loại phân đoạn từ Còn có một ví dụ khác cũng như vậy là câu tiếng Hán “& 3“; #ƒ”, câu này cũng có hai nghĩa với hai loại phân đoàn từ, một là “®3#7Ei/#ƒ” > “Cuộc sống đại học tốt đẹp” Còn có một phân đoạn từ khác là “2&*⁄Z“E/3{#ƒ”” “Việc làm của sinh viên tot” Trong tiêng Việt có nhiêu từ hoặc câu có trường hợp như trước đã nói,
13 một câu theo phân đoạn từ khác như thì có ý nghĩa hoàn toàn khác nhau, điểm này là điểm khó nhất đối với máy tính, tuy có kỹ thuật mạng nơ - ron và học van sâu rộng, van là một van đề chưa giải quyết được.
Trong quá trình dịch máy, vẫn đề chính của nó chủ yếu là lẫn lộn nghĩa của các từ hoặc câu có hơn hai ý nghĩa Sự lẫn lộn chủ yếu được chia thành lẫn lộn mang tính giao lộ và lẫn lộn mang tính tổ hợp Sự lẫn lộn về giao lộ có nghĩa là ABC có thé được chia thành AB / C và A / BC, chăng hạn như "JE Z£/
KEE" và "Ib AEE" Sự lẫn lộn về tổ hợp có nghĩa là AB có thé được hiểu là AB hoặc A/ B Đối với tiếng Việt, sự lẫn lộn được phân bồ ở nhiều cấp độ khác nhau về từ vựng, cấu trúc cú pháp và ngữ nghĩa.
1.3.2.1 Lẫn lộn trong bậc từ vựng
4#MXX E7VÀ VIỆT - HÁN Có thé nói, khảo sát và phân tích lỗi xuất hiện trong văn bản dich máy làLỗi về thuật ngữNgôn ngữ học là một ngành khoa học có nhiều thuật ngữ Đặc biệt là trong ngôn ngữ học tri nhận có nhiều thuật ngữ và cũng có học giả đã nêu ra những nguyên tắc và yêu cầu về bản dịch thuật ngữ Độ chính xác là một yêu cầu đối với tất cả các bản dịch, không chỉ bản dịch thuật ngữ có yêu cầu duy nhất này và các bản dịch khác cũng có Nhưng nó quá rộng đối với bản dịch thuật ngữ, và độ chính xác của bản dịch thuật ngữ phải là "có hệ thống, dễ phân biệt, dễ đọc, dé hiểu" (Hou Guo Jin , 2011) Tính 6n định là thuộc tinh tự nhiên của các thuật ngữ, bởi vì các thuật ngữ là một phần quan trọng của lý thuyết, và sự ra đời của lý thuyết có nghĩa là các thuật ngữ của lý thuyết đã được cố định như một thành phan kết nối của khung lý thuyết Do đó, các thuật ngữ ồn định trong
18 ngôn ngữ nguồn có thé không nhất thiết 6n định do số lượng lớn của các phiên bản khi được dịch sang ngôn ngữ đích Đó là tính ôn định về mặt khái niệm của một thuật ngữ, và tính ồn định của hình thức biéu diễn của nó là hai điều khác nhau Tính dé hiệu của thuật ngữ có nghĩa là bản dịch của thuật ngữ có thé dé dàng được dịch ngược sang văn bản nguồn Nhưng trường hợp đa nghĩa, trường hợp không rõ ràng, tính khoa học của thuật ngữ, tần suất sử dụng thuật ngữ đều là hạn chế đối với việc dịch ngược Một bản dịch tốt có thé không được dịch ngược và những bản dịch có thể được dịch ngược lại chắc là một bản dịch hay Và việc dịch ngược lại không phụ thuộc vào tính dễ hiểu của thuật ngữ, mà phụ thuộc vào tính quy tac của thuật ngữ (Hou Guo Jin, 2009, 2011) Tinh ngắn gọn của thuật ngữ có nghĩa là thuật ngữ phải có càng ít âm tiết càng tốt (Lu Bing Fu, 2009), ngắn gọn va dé hiéu, hiểu nghĩa của từ (Gao Shu Fang, 2005), và tuân theo quy luật kinh tế của ngôn ngữ tai các lớp hình thái và ngữ âm (Yu Wei Chang, 2000) Tuy nhiên, ở tầm vĩ mô, các nguyên lý kinh tế luôn là những nguyên lý cơ bản nhất, không phải là nguyên lý riêng của thuật ngữ.
Xét từ góc độ thuật ngữ, thuật ngữ là trọng tâm của lý thuyết, và những người hoặc máy tính chưa quen với lý thuyết, bản dịch của chúng thì không đạt được yêu cầu tính ngăn gọn và dé hiểu, và nghĩa của từ rõ ràng Hơn nữa đôi khi trong bản dịch, hình thức "đơn giản" bị hy sinh cho nghĩa "rõ ràng".
Thuật ngữ là những danh từ và cụm từ này có tính chuyên môn cao Khi dùng máy tính dịch các thuật ngữ thường có ba loại lỗi sai lớn gồm: thứ nhất là dùng những từ có nghĩa giống nhau thay vào thuật ngữ, thứ hai là bản địch hoàn toàn sai sót, còn thứ ba là trực tiếp dịch sang tiếng Anh Tiếp theo, chúng tôi sẽ khảo sát và bàn luận về những thuật ngữ có lỗi sai thường gặp.
2.1.1.1 Dùng những từ có nghĩa giống nhau thay vào thuật ngữ Đây là một loại lỗi thường gặp trong văn bản dịch máy, đã chiếm 65% lỗi trong lỗi về thuật ngữ, hai từ này có nghĩa giống nhau và máy tính không phán đoán được trường hợp nào dùng từ nào và từ nào hợp với thói quen ngôn ngữ của người nói hơn.
Ví dụ như: từ “JERKFEL YO” từ tiếng Hán dịch sang tiếng Việt, ban dich máy là “nền tảng lý thuyết”, còn dịch chính xác và đúng là “cơ sở lý thuyết” Từ
“nền tảng” và “cơ sở” đều có nghĩa là “EHH”, nhưng trong thói quen người nói, chúng ta thường nói là cơ sở lý thuyết chứ không nói nền tảng lý thuyết Ngược lai, từ “cơ sở lý thuyết” từ tiếng Việt dich sang tiếng Hán, ban dịch máy là “## ve zeit”, còn dịch chính xác là “FEF FEV”, bản dịch máy và bản chính xác có i; nghĩa giống nhau nhưng mà trật tự từ khác nhau.
Cũn cú một vớ dụ khỏc là từ “i ANB ?ù 32” dịch từ tiếng Hỏn sang tiếng
Việt, máy tính dịch từ nảy thành “ngôn ngữ học nhận thức”, nhưng trong giới nghiên cứu và các cuốn sách ngôn ngữ học, từ nảy là “ngôn ngữ học tri nhận”.
Từ “tri nhận” và “nhận thức” đều có thể dịch thành tiếng Hán là “i\ #11” Nhưng
“IAN” kết hợp với “if 3%” chỉ có thé dịch thành “tri nhận” Ngược lại, từ
“ngôn ngữ học tri nhận” dịch sang tiếng Hán, ban dịch máy là “iA RB”, có nghĩa giống nhau như mà không hợp với độ chính xác.
Ngoài ra, còn có một ví dụ khác, chăng hạn như từ “ ye We th
(categor1zation)”, máy tinh dich thành từ “sự phan loại”, nhưng dich chính xác phải là từ “phạm trù hóa”, phạm trù hóa cũng có nghĩa phân loại, có nghĩa là dé một loại sự vật trong cùng một danh mục hoặc một nhóm Trong kho dữ liệu máy tính không có thuật ngữ như vậy, chỉ có thê dùng từ có nghĩa giống nhau dé thay vào Từ “ju (category)” cũng thé, máy tinh dịch thành từ “thé loại” nhưng dịch chính xác là từ “phạm trù” Từ thể loại và từ phạm trù có một SỐ ý nghĩa giống nhau, có biểu đạt nghĩa là dé sự vật có đặc trưng giống nhau vào một loại và nhóm Nhưng trong ngôn ngữ học tri nhận, người ta chỉ có thé nói phạm trù, không bao giờ có người nói thể loại Ngược lại bản dịch máy của từ
“phạm trù hóa” dùng máy dich sang tiếng Hán là “4}28”, từ “ÿð?{kL” có thê dùng từ “2}3§” để giải thích ý nghĩa, nhưng ma dùng trong thuật ngữ ngôn ngữ học thì gây lỗi.
Tất cả thuật ngữ trong ngôn ngữ học đều mang tính duy nhất và tính chuyên dụng, không thể dùng từ khác thay cho, do vậy, khi máy tính dịch các từ trên thường gặp lỗi, dùng từ khác có nghĩa giống nhau thay cho.
Ngoài các ví dụ trên, còn có nhiều ví dụ khác chúng tôi xin đưa vào phụ lục 1 phục vụ tham khảo.
2.1.1.2 Dịch thuật ngữ sai hoàn toàn
Từ trong văn bản dịch máy có nghĩa hoàn toàn sai, khác với nghĩa nguồn và từ tiếng Hán và từ Tiếng Việt không có liên quan gì về ý nghĩa Loại lỗi này chiếm 22% trong lỗi về thuật ngữ Đây cũng là một trường hợp thường gặp trong dịch máy Ví dụ như:
Dich từ tiếng Hán sang tiếng Việt: W242} — interdiscipinary subject — chủ dé bên giới/ môn học bên lề — môn khoa học liên ngành
Từ “WAZ FL” là một thuật ngữ chung cho các ngành học mới được tạo ra bởi hai hoặc nhiều ngành khoa học khác nhau có giao điểm chung Một số chủ đề nghiên cứu khoa học lớn có liên quan đến hai hoặc nhiều ngành khoa học, va trong quá trình nghiên cứu, các ngành khoa học mới nổi lên xuất hiện ở điểm giao chung của các lĩnh vực liên quan này Nhưng khi dùng máy dịch từ nay, máy tính không phán đoán và hiểu được ý nghĩa trên thì dịch thành “chủ đề bên giới” Hai từ này có nghĩa hoàn toàn khác nhau.
Ngược lại, bản dịch máy của từ “môn khoa học liên ngành” dịch sang tiếng
Hán là từ “Pee RAE” Từ “ESR BLE” và từ “WAR”, hai từ này có nghĩa có liên quan nhưng mà hoan toàn khác nhau, từ “##*3##‡3“” nói về khoa học có liên quan đến nhiều môn khoa học, từ “GWA” nói về môn khoa học liên quan đến một hoặc nhiều ngành Máy tinh dịch như thé thi không phụ hợp với độ chính xác Còn có một ví dụ khác là:
Dịch từ tiếng Hán sang tiếng Việt:
2| HH — extension — gia hạn — phái sinh
May tính dịch từ “5| FA” là “gia hạn”, chắc là không đúng, từ “5| FA” có
21 nghĩa là bắt nguồn từ ý nghĩa của một sự vật sang ý nghĩa của sự vật khác.
Nhưng từ “gia hạn” có nghĩa là kéo dài thêm một thời gian nữa sau khi đã hết hạn hoặc đã hết thời gian có giá trị Tuân theo nguyên tắc tính dễ hiểu và tính chính xác Từ “| can phải dịch thành từ “phái sinh” có nghĩa là từ hoặc nghĩa từ được tạo ra từ một yếu tố gốc bang cach thêm, bởi hay bi đôi một vài thành tố nào đó Nhìn từ góc độ định nghĩa của từ, dịch thành từ “ phái sinh” thì hợp hơn so với từ “gia hạn” Ngược lại, bản dịch máy cua từ “phái sinh” sang tiếng Hán là “#7“E!J”, từ “#17 4E YY” và từ “5| FA” có nghĩa hoàn toản khác nhau, từ “871” là danh từ có nghĩa là hợp chất diễn sinh, nhưng từ “5| A” là động từ có nghĩa khác với từ “&JE3⁄J” Còn có một ví dụ rất thú vị là:
Dich từ tiếng Hán sang tiếng Việt: #417 — metonymy — phép hoán dụ.
Lỗi về đại từ nhân xưngĐại từ nhân xưng là một bộ phận nhỏ của các bộ phận ngôn ngữ trong lời nói, nhưng nó là một bộ phận quan trọng trong ngôn ngữ giao tiếp hàng ngày
Nhiều nhà Việt ngữ học đã có những công trình nghiên cứu về đại từ nhân xưng (còn gọi là đại từ xưng hô) trong tiếng Việt và các nhà nghiên cứu đã đưa ra những khái niệm về đại từ xưng hô trong tiếng Việt Nguyễn Kim Thản cho rằng: “Đại từ nhân xưng dùng đề trỏ người hay động vật, vật thể Đặc điểm ngữ pháp của nó giống đặc điểm ngữ pháp của danh từ ở chỗ không thể trực tiếp làm vị ngữ mà phải có hệ từ” [Nghiên cứu ngữ pháp tiếng Việt, 1997, Nxb
Giáo Dục Hà Nội]. Đại từ nhân xưng trong tiếng Việt rất nhiều và đa dạng, và được sử dụng dé phù hợp với các ngữ cảnh khác nhau Khi máy tính dịch những đại từ nhân xưng thường tạo ra lỗi, loại từ này chiếm khoảng 56% khi dùng máy tinh dich đại từ nhân xưng Còn vì tính phức tạp của đại từ nhân xưng trong tiếng Việt, loại lỗi này thường xuất hiện trong quá trình dịch từ tiếng Hán sang tiếng Việt.
- PUL BAM S SY, Be WF i, “WB, FED tt, HS ey LARS, HOUMA ABBE HK, DLA RFT DLA BH EM Hh RRZ.
Văn bản dịch máy: Ví dụ, khi trẻ mới học đêm, trẻ luôn cử động các ngón tay trong khi đếm, khi chơi trò choi,_anh ta thường tự nói và bày tỏ suy nghĩ của mình, vì điêu này có thê giúp anh ta suy nghĩ rõ ràng hon.
Văn bản chính xác: Vi du khi trẻ con mới học đếm, thường là đếm ngón tay, khi choi trò chơi, nó cũng thường tự nói một mình suy nghĩ của nó, vì như vậy có thể giúp trẻ suy nghĩ rõ ràng hơn.
Từ “fik”, máy tính thường dịch thành từ “anh ta”, không có liên quan đến câu trên và ngữ cảnh, trong câu này cũng như vậy Máy tính dịch từ “4b” không liên quan đến từ “JL (trẻ con)” trong câu trên, đối tượng nói ở toàn câu là trẻ con, chỉ tự dich từ “ft” trong câu này thành “anh ta”, dich như vậy chắc là không đúng, chúng ta phải tương ứng với từ tiếng Hán và hợp với ngữ cảnh
32 toàn câu dịch thành từ “trẻ” hay “nó”, không được dịch thành anh ta.
Còn có một ví dụ khác:
Văn bản dịch máy: Bà nội hỏi: "Con di dau vay?"
Văn bản chính xác: Ba hoi: “Chau di đâu vay?”
Câu bản dịch máy không có vấn đề gì về mặt ngữ pháp, nhưng về mặt ngữ cảnh thì dùng sai đại từ nhân xưng, bà đây hỏi chau, chứ không phải hỏi con bà đi đâu.
Còn có một ví dụ khác là:
ZC) FEMA: “MME PS?”Lỗi về ngữ đoạnNgữ đoạn là nhóm từ tạo thành một đơn vi trong nội bộ một câu, có rất nhiều ngữ đoạn trong cả tiếng Trung và tiếng Việt Nhưng khi máy tính dịch những ngữ đoạn từ tiếng Hán sang tiếng Việt có rất nhiều lỗi, và những lỗi có thê chia thành ba loại gồm: (1) Dịch ngữ đoạn sai hoàn toàn, loại lỗi này khoảng chiếm 52% trong lỗi về ngữ đoạn (2) Thiếu từ trong ngữ đoạn, loại lỗi này chiếm khoảng 80% trong lỗi về ngữ đoạn (3) làm lẫn lộn từ có nghĩa giống nhau, loại lỗi này chiếm khoảng 78.2% trong lỗi về ngữ đoạn.
2.2.1 Dịch ngữ đoạn sai hoàn toàn
Khi máy tính dịch ngữ đoạn giống như thuật ngữ cũng xuất hiện vấn đề dịch ngữ đoạn sai hoàn toàn Chung ta thường gặp trường hợp như van bản dịch máy là ngữ đoạn giải thích nguyên văn bản nhưng nghĩa giải thích không tương ứng với nguyên văn bản Ví dụ như:
Dịch từ tiếng Hán sang tiếng Việt: S