Vì vậy, việc khảo sát lỗi cần có sự kếthợp giữa ngôn ngữ học và tin học để các phần mềm xử lý lỗi được thực hiện và phát triển.Mục đích của luận án là khảo sát các loại lỗi n
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-TRẦN LÊ TÂM LINH
NHỮNG LỖI NGÔN NGỮ CỦA PHẦN MỀM GOOGLE TRANSLATE KHI DỊCH TỰ ĐỘNG ANH-VIỆT CÁC HỢP ĐỒNG KINH TẾ
Trang 2Thành phố Hồ Chí Minh - năm 2017
Công trình được hoàn thành tại:
Người hướng dẫn khoa học: 1
2
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo họp tại
Vào hồi giờ ngày tháng năm
Phản biện độc lập 1
Phản biện độc lập 2
Có thể tìm hiểu luận án tại thư viện: (ghi tên các thư viện nộp luận án)
Trang 33
Trang 4MỞ ĐẦU
1 Lý do và mục đích nghiên cứu
Lỗi ngôn ngữ khi dịch tự động Anh – Việt là một đề tài đang được quan tâm Hiệnnay, số lượng các văn bản hợp đồng kinh tế Anh-Việt ngày càng nhiều nhưng việc dịch tựđộng để đáp ứng cho nhu cầu này còn rất hạn chế Vì vậy, việc khảo sát lỗi cần có sự kếthợp giữa ngôn ngữ học và tin học để các phần mềm xử lý lỗi được thực hiện và phát triển.Mục đích của luận án là khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng
và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt, để tìm ra nguyên nhân dẫnđến lỗi và tìm cách khắc phục
2 Lịch sử vấn đề
a) Lịch sử nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về lỗi như:
Richards (1971), công bố hai công trình liên quan đến cách tiếp cận không tương phản đối
với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai Schachter (1974), nhận xét lỗi trong quá trình phân tích lỗi Steel (1976) công bố nghiên cứu sự biến đổi trật tự từ: nghiên cứu loại hình ngôn ngữ Nhóm các tác giả Schachter và Murcia (1977) đã phân tích những trở ngại trong việc phân tích lỗi Cuối thập niên này, Kroll và Schafer (1978) có
công trình phân tích lỗi và giảng dạy phép ghép từ.
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý thuyết nhiều:
Williams (1981) công bố hiện tượng học về lỗi, Corder (1981) phân tích lỗi và tính liên
ngành của ngôn ngữ học Sau đó, Selinker (1984) công bố công trình phân tích lỗi trong ngôn ngữ trung gian Taylor (1986) viết lỗi và cách giải thích lỗi.
Ở Việt Nam, đề tài về trật tự từ được nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm
như: Lý thuyết trật tự từ trong cú pháp (Lý Toàn Thắng, 2002) là công trình hữu ích có thể
giúp cho việc khảo sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn Nguyễn Thị Quỳnh Hoa
(2004) khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và tiếng
Việt Trần Thị Minh Phượng (2005) khảo sát những lỗi thường gặp về trật tự từ ở người Việt học tiếng Anh Đinh Điền (2006) so sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt Đỗ Minh Hùng (2007) viết lỗi ngữ pháp tiếng Anh thường gặp của người Việt Nam Phạm Thị Tuyết Hương (2009) nghiên cứu trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt) Năm 2009, có
trong các công trình về lỗi như: lỗi ngữ pháp và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009), lỗi từ vựng và
cách khắc phục (Hồ Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) và lỗi chính tả và cách khắc phục (Lê Trung Hoa, 2009) Ngoài ra còn có lỗi ngôn ngữ của người nước ngoài học tiếng Việt (Nguyễn Linh Chi, 2009).
b) Lịch sử nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên 1960, công trình
của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông hướng tới khoa học dịch
thuật, trong tác phẩm này ông đặc biệt quan tâm đến những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh Catford (1965) có công trình lý thuyết ngôn ngữ về dịch thuật.
Newmark (1979) cho thấy nhiều vấn đề xảy ra trong lý thuyết và phương pháp dịch thuật
của
Trang 5Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng kính khoa học
như: khoa học hóa những vấn đề về dịch thuật và những phương pháp dịch thuật (Wilss, 1982), vấn đề trong đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay những cách tiếp
cận đối với dịch thuật (Newman, 1988 và Newmark, 1988).
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương
pháp dịch thuật Julian Edge (1990) có công trình nêu nguyên nhân mắc lỗi và cách sửa
lỗi Bell (1991) ứng dụng lý thuyết dịch Nord (1992) và Neubert & Shreve (1995) phân tích văn bản khi huấn luyện dịch thuật Jakobson (1998) bàn về những khía cạnh ngôn ngữ trong dịch thuật.
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơntrong các công trình của Harry Aveling (2002), Na (2005) hay Gyse Hansen (2010) nhằmkhắc phục được khả năng dịch thuật của người cũng như của máy
c) Lịch sử nghiên cứu dịch tự động
Dịch tự động đã được nghĩ đến từ thời Leibtniz và Descartes ở đầu thế kỷ XVII, nhưngkhông có ứng dụng thực tế Tuy nhiên, quá trình nghiên cứu này vẫn tiếp diễn qua các thời
kỳ Petr Smirnov-Troyanskii (1937), Weaver (1949),v.v gần đây nhất là Popovic vàBurchardt (2007) cho rằng cải tiến dịch tự động thống kê bằng cách sử dụng việc khử nhậpnhằng ngữ nghĩa của từ
Tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủyếu là dịch tự động Anh-Việt, với các phương pháp khác nhau như: phương pháp dịch tựđộng dựa theo luật,dịch tự động dựa trên thống kê và đến năm 2010, EVTRAN 4.0 ra đời,phần mềm này có thể dịch tự động một đoạn văn bản từ Anh sang Việt và ngược lại
d) Lịch sử nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhàngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những nét tương đồng và dị biệtcủa các loại hình ngôn ngữ Nổi bật nhất là công trình phân loại lỗi cho việc đánh giá dịch
tự động (Flanagan, 1994), phân tích lỗi và tiếng quốc tế (Ellis, 1997)
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công trình giá trị nhưphân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá xác định lỗi trong dịch tựđộng thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro và Ney, 2006, 2010) Nhữngnghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động
3 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phầnmềm Google Translate (dịch tự động thống kê ) khi dịch các hợp đồng kinh tế
- Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp và lỗi cấu trúc câu.Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết vănbản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kếtvăn bản
4 Phương pháp nghiên cứu và nguồn ngữ liệu
a) Phương pháp nghiên cứu
Những phương pháp nghiên cứu chủ yếu được sử dụng trong luận án: phương pháp miêu
tả, phương pháp so sánh đối chiếu Bên cạnh đó, chúng tôi còn sử dụng một thủ pháp xử
lý ngữ liệu Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng haicông cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL
Trang 6Luận án sử dụng phần mềm BLAST và BLAST-VCL nhằm xây dựng, kiểm định tiêu chí phân loại lỗi và tiến hành qua các bước: thu thập, chuẩn hóa và xử lý ngữ liệu Ở giai đoạn tiền xử lý, ngữ liệu được tách ra: ngôn ngữ nguồn tiếng Anh (src file), ngôn ngữ đích tiếng Việt (ref file) dịch thủ công và ngôn ngữ đích tiếng Việt dịch tự động được thực hiện bởi Google Translate Sau khi chọn lọc, phân tích và xử lý các tập tin
các công cụ trên sẽ tự động thống kê kết quả (xem Hình 1).
và nhóm LEGAL bao gồm các hợp đồng kinh tế Anh-Việt để giao dịch tại Việt Nam
5 Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loạihình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chíphân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tếkhi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dungdịch sát với nội dung văn bản gốc Hiện nay, các công trình dịch tự động còn có ứng dụngrất tốt trong việc giảng dạy ngôn ngữ Một trong các phương pháp đào tạo cử nhân biênphiên dịch hiện nay là cho sinh viên phân tích các lỗi của dịch máy và từ đó rút ra những
kinh nghiệm cho dịch thuật Phương pháp này được gọi là “Học lỗi từ dịch máy” (Machine
translation as a bad model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn ngườihọc cách giải thích và chỉnh sửa Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trongviệc học và dạy biên phiên dịch
6 Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm ba chương:
Trang 7Chương 1: Cơ sở lý thuyết, khái quát một số vấn đề chung về khái niệm lỗi, cơ sở lýluận của việc phân tích lỗi và lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ củaGoogle Translate khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm của dịch
tự động - trình bày những thuận lợi và khó khăn trong dịch tự động, khái niệm hợp đồngkinh tế; đặc điểm loại hình tiếng Anh và tiếng Việt; nhận diện và phân loại lỗi ngôn ngữkhi dịch tự động - nêu cơ sở lý luận của việc phân tích lỗi trong chuyển dịch, giới thiệu cácbước phân tích ngữ liệu khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lýngữ liệu; cuối cùng, lập tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động bao gồm: lỗi chính
tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống và lỗi ngẫu nhiên
Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê toàn bộ kết quả lỗi chính tả (lỗisai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và lỗi từ vựng (lỗi nhậpnhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại lỗi chính tả và từ vựng thuộclỗi hệ thống và ngẫu nhiên
Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự động hợpđồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai từ công cụ, lỗidịch sai khi có sự hòa hợp giữa chủ từ và động từ, lỗi thừa từ và lỗi thiếu từ) Lỗi trật tự từ
sẽ được phân tích dựa theo tiêu chí BLAST và BLAST-VCL và phân tích các loại lỗi ngữpháp thuộc lỗi hệ thống và thuộc lỗi ngẫu nhiên
Trang 8CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Khái niệm lỗi
Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google Translatekhi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào ba loại lỗi ngôn ngữ:chính tả, từ vựng và ngữ pháp Tuy nhiên, có hai loại lỗi đặc trưng cho dịch tự động khôngthể bỏ qua đó là lỗi hệ thống và lỗi ngẫu nhiên.Vì vậy, mục này nêu khái niệm của các lỗitrên Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối chương 1
1.1.1.Khái niệm lỗi chính tả
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu(thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ
Theo Nguyễn Đức Dân (2015): “ Sai chính tả là câu viết không đúng quy định về chính tả,không đúng quy tắc về dấu câu, không đúng quy tắc viết tắt”
1.1.2.Khái niệm lỗi từ vựng
“Sai từ vựng là câu mà giữa các từ trong đó không tương hợp về nghĩa.” (NguyễnĐức Dân, 2015) và “Lỗi từ vựng có thể do viết sai âm, hiểu sai nghĩa, dùng sai chức năngngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện Nam, 2001)
1.1.3.Khái niệm lỗi ngữ pháp
Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng nguyên tắcngữ pháp, nghĩa là viết không đúng cấu trúc câu Thường là những câu cụt, thiếu chủ ngữhay vị ngữ, thậm chí thiếu cả hai.”
1.1.4.Lỗi hệ thống
- Lỗi hệ thống là những lỗi mang tính khách quan và bất biến theo thời gian (tạmthời chỉ xét vào thời điểm nghiên cứu là từ tháng 8/2012 đến tháng 2/2014, bởi vì đặctrưng của dịch tự động thống kê là khối ngữ liệu càng lớn thì càng dịch tốt Vì vậy, nhữngqui ước này có thể thay đổi trong tương lai là điều tất yếu)
- Phân loại lỗi hệ thống thông qua khoảng cách Levenshtein
Để cho dễ quan sát, chúng tôi qui ước khoảng cách Levenshtein của dịch tự động nhưsau: giữa năm 2012 và năm 2014 là L1, năm 2012 và câu tham chiếu (dịch thủ công) là L2
và năm 2014 và câu tham chiếu là L3
Ví dụ: Other documents as and when necessary.
Câu tham chiếu: Các tài liệu khác nếu thấy cần thiết.
Dịch tự động T.8/2012: Các tài liệu khác và khi cần thiết
Dịch tự động T.02/2014: Các tài liệu khác và khi cần thiết
Kết quả nhận được theo khoảng cách Levenshtein: L1=0, L2=7 và L3=7 và độ lệch L2=0 Như vậy, hai lần dịch tự động với thời gian khác nhau nhưng cho kết quả như nhau.Vậy đây là lỗi hệ thống
L3-1.1.5 Lỗi ngẫu nhiên
- Lỗi ngẫu nhiên mang yếu tố chủ quan vì có thể do bất cẩn từ khâu nhập ngữ liệu chongôn ngữ nguồn hay do khâu tách các cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữliệu
Trang 9- Phân loại lỗi ngẫu nhiên thông qua khoảng cách Levenshtein
Độ lệch Levenshtein L2 và L3 lớn hơn 4, sẽ cho ra kết quả lỗi ngẫu nhiên và có haitrường hợp xảy ra là dịch tự động năm 2014 tốt hơn dịch tự động năm 2012 và ngược lại
1.2 Cơ sở lý luận của việc phân tích lỗi dịch thuật
Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân dịch(người dịch / máy dịch) gây ra Việc thu thập các mẫu ngôn ngữ nguồn cũng như ngôn ngữđích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân loại lỗi và giải thíchnguyên nhân mắc lỗi
1.2.1.Định nghĩa lỗi dịch thuật và lỗi dịch tự động
a) Định nghĩa lỗi dịch thuật
Lỗi dịch thuật là những sai sót trong khi dịch, không thực hiện đúng quy tắc nghiêncứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa của văn bảnngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi ngữ pháp, lỗi ngữ dụng…)
b) Định nghĩa lỗi dịch tự động
Theo Hutchins và Somers (1992), các loại lỗi trong dịch tự động chính là những
nhập nhằng (ambiguity) về từ vựng, cấu trúc và từ định lượng Nhập nhằng từ vựng được
nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giaothoa Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) vànhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity)
1.2.2.Các bước xử lý ngữ liệu trước khi phân tích lỗi
Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt,chúng tôi sử dụng phần mềm BLAST nhằm xây dựng và kiểm định hệ tiêu chí phân loạilỗi Sau đây là các bước xử lý ngữ liệu: thu thập ngữ liệu, chuẩn hóa ngữ liệu, xử lý ngữliệu
a) Nhận dạng lỗi dịch tự động
Có hai cách phân biệt lỗi khi dịch tự động Anh-Việt:
Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên và lặp lại sau mỗi lần dịch (lỗi hệthống)
Cách 2: Những lỗi nào cho ra kết quả dịch khác nhau trong những thời điểm khácnhau xuất phát từ nguyên nhân chủ quan như nhập sai ngữ liệu, độ dài câu, dấu chấm câu,qui ước viết hoa, viết tắt, v.v (lỗi ngẫu nhiên)
b) Phân tích lỗi dịch tự động Anh-Việt
Căn cứ vào lý thuyết của Corder (1981) và Ellis (1997), luận án thực hiện các bước sauđây để phân tích lỗi dịch tự động: thu thập các loại lỗi, xác định từng loại lỗi, miêu tả lỗi,giải thích lỗi và đánh giá lỗi
Trang 101.3 Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế
1.3.1 Đặc điểm của dịch tự động
a) Khái niệm về dịch tự động
Dịch tự động là việc lập chương trình cho máy tính điện tử tự chuyển ngữ các văn
bản từ trong một ngôn ngữ này sang một ngôn ngữ khác Ngôn ngữ của văn bản gốc gọi là
ngôn ngữ nguồn, ngôn ngữ của văn bản dịch gọi là ngôn ngữ đích Hai văn bản dịch gọi là
tương đương nhau nếu nó được người đọc hiểu giống nhau
b) Những thuận lợi và khó khăn trong dịch tự động
- Thuận lợi của dịch tự động là dịch nhanh (tiết kiệm rất nhiều thời gian); chi phíthấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mậtcao cho người sử dụng dịch vụ (những bản dịch mang tính cá nhân)
- Khó khăn của dịch tự động chưa cho ra kết quả chính xác một cách nhất quán, chỉdịch từng từ rời rạc mà không cần hiểu, do đó, cần phải chỉnh sửa bằng tay sau khi đượcdịch tự động Ngoài ra, chất lượng dịch tự động còn thấp đối với những văn bản có nhiều
từ hoặc ngữ Dịch tự động chỉ dựa vào luật hình thức và luật hệ thống nên đôi khi gặp khókhăn đối với câu nhập nhằng Trong khi đó, dịch thủ công giải quyết bằng cách tập trungvào ngữ cảnh, sử dụng kinh nghiệm hay trực giác
c) Các cách tiếp cận đối với dịch tự động
Theo Koeln (2014), có sáu cách tiếp cận dịch tự động: dịch tự động từng từ một
(direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch tự động liên ngữ (interlingual MT), dịch tự động dựa trên ngôn ngữ có kiểm soát (controlled language MT),
dịch tự động dựa trên ví dụ (example-based MT) và dịch tự động dựa trên thống kê (SMT) Ngoài ra, còn có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa trên qui luật (rule-
based MT), dựa trên cơ sở tri thức (knowledge-based MT), dựa trên ngữ liệu (corpus-based MT) và dựa trên cách tiếp cận lai (hybrid MTS) (Đinh Điền, 2006b).
1.3.2 Đặc điểm về loại hình của tiếng Việt và tiếng Anh
- Tiếng Việt được xếp vào loại hình đơn lập (isolate) hay còn gọi là loại phi hình thái,không biến hình, đơn tiết
- Tiếng Anh được xếp vào loại hình hòa kết (flexional) hay biến hình
1.3.3 Hợp đồng kinh tế
a) Khái niệm hợp đồng kinh tế
Hợp đồng kinh tế là sự thỏa thuận bằng văn bản, tài liệu giao dịch giữa các bên ký kết vềviệc thực hiện công việc sản xuất, trao đổi hàng hóa, dịch vụ, nghiên cứu ứng dụng tiến bộkhoa học kỹ thuật và các thỏa thuận khác có mục đích kinh doanh với sự quy định rõ ràng
về quyền và nghĩa vụ của mỗi bên để xây dựng và thực hiện kế hoạch của mình
b) Các loại hợp đồng kinh tế
Dựa trên những căn cứ khác nhau, mà người ta phân hợp đồng kinh tế thành nhiều loạikhác nhau: căn cứ thời hạn thực hiện hợp đồng, căn cứ vào tính chất quan hệ của hợp đồng
và căn cứ vào nội dung giao dịch của mối quan hệ hợp đồng
1.3.4 Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động
Dưới góc nhìn của ngôn ngữ học, luận án chỉ khảo sát loại lỗi theo tiêu chí BLAST:
Trang 11- Loại I: là loại lỗi không hợp với cách nói của người sử dụng ngôn ngữ đích nhưng
có thể tạm chấp nhận được vì vẫn mang đủ nghĩa theo ngữ cảnh
- Loại II: được xem là sai hoàn toàn
Có 3 loại lỗi ngôn ngữ khi dịch tự động hợp đống kinh tế Anh-Việt được phân tíchtrong luận án này:
a) Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt
bao gồm lỗi sai ở thành phần của cấu trúc âm tiết (thanh điệu, phụ âm đầu, vần), lỗiviết hoa, lỗi viết tắt, lỗi dấu câu
b) Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt
Những câu dịch không có ý nghĩa tạo ra những lỗi ngữ nghĩa (sense) Theo tiêu chíBLAST, lỗi ngữ nghĩa thuộc về lỗi từ vựng chủ yếu khi dịch tự động hợp đồng kinh tếAnh-Việt bao gồm: lỗi nhập nhằng nghĩa là lỗi do chọn sai mục từ trong từ điển(ambiguity), lỗi hiểu sai nghĩa thành ngữ (idiom) và lỗi hiểu sai nghĩa thuật ngữ (term)
c) Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt
Lỗi ngữ pháp bao gồm: lỗi trật tự từ (word order); lỗi thừa hay thiếu một hay nhiềuthành tố trong cấu trúc còn được gọi là lỗi thừa từ (extra), lỗi thiếu từ (missing) và lỗi dokhông hòa hợp giữa chủ từ và động từ (agreement)
Nhận xét chương 1:
Dịch tự động Anh-Việt các hợp đồng kinh tế là một phương tiện hỗ trợ thiết thực hữudụng cho con người Do mỗi ngôn ngữ có tính tương đồng và tính dị biệt, nên khi dịch tựđộng không thể không mắc lỗi, chủ yếu là lỗi từ vựng, lỗi chính tả và lỗi ngữ pháp GoogleTranslate giúp cho nhân loại có thể hiểu nhau hơn qua dịch thuật, với ưu điểm là dịchnhanh với số lượng trang văn bản khá nhiều trong thời gian ngắn Tuy nhiên, do sự khácnhau về loại hình của từng ngôn ngữ chẳng hạn như tiếng Anh, ngôn ngữ hòa kết, và tiếngViệt, ngôn ngữ đơn lập, nên hạn chế của dịch máy không thể tránh khỏi Vì vậy, cần cómột cơ sở lý thuyết để minh định cho vấn đề đặt ra, những cách tiếp cận giúp chúng ta hiểu
rõ hơn nguyên nhân mắc lỗi và các phần mềm vi tính ra đời hỗ trợ cho ngôn ngữ học nhưBLAST, BLAST-VCL Đó là tiền đề nhận diện và phân loại lỗi như lỗi chính tả, lỗi từvựng và lỗi ngữ pháp
Khi nghiên cứu những gì mà các nhà ngôn ngữ học đi trước đã nêu ra về vấn đề dịch
tự động, chúng tôi đưa ra một bức tranh tổng quát về các khái niệm có liên quan đến dịch
tự động trong chương này, đồng thời cũng cố gắng giải thích nguyên nhân và cơ sở đểphân tích và phân loại lỗi, trên cơ sở nghiên cứu những quy luật chi phối chúng Dịch tựđộng là một vấn đề hết sức lý thú đòi hỏi một sự nghiên cứu sâu hơn để có thể tìm ra đượcnhững quy tắc hoạt động của chúng, những giải pháp hữu hiệu, khả thi để khắc phục nhữngloại lỗi mà chúng tôi đã khảo sát trên cơ sở ngữ liệu là các hợp đồng kinh tế thương mạiAnh – Việt
Các khái niệm, quy tắc chúng tôi nêu ra trong chương này chưa đủ để giải thích mọihiện tượng về khả năng đóng góp của dịch tự động Google Translate, nhưng chúng là một
số kết luận mang tính lý thuyết rút ra từ những dữ liệu thực tế mà chúng tôi thu thập được
Trang 12trong thời gian làm luận án Các khái niệm quy tắc này mong là có thể gợi ý cho nhữngnghiên cứu tiếp theo về đề tài này trên cơ sở những dữ liệu phong phú hơn.
Trang 13CHƯƠNG 2 PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG
Sau khi thống kê và lập ra các tiêu chí để phân loại qua phần mềm BLAST, chúng tanhận thấy có hai loại I và loại II (theo qui ước ở 1.3.4 chương 1) xuất hiện hầu hết trongcác loại lỗi khảo sát
âm tiết, cụ thể là khi chuyển dịch tự động bị thiếu phụ ầm đầu Trường hợp dịch thiếu âmtiết này chiếm tỉ lệ đáng kể (5,76 %) trong thời điểm khảo sát ngữ liệu của luận án này(năm 2012-2014), nhưng do đặc điểm nổi bật của dịch tự động thống kê của phần mềmGoogle Translate lỗi này có thể khắc phục được kể từ năm 2015 đến nay
2.1.1 Lỗi dịch sai chữ số - loại I (gồm 7 lỗi và chiếm tỉ lệ là 0,81%) là dịch thiếu nhất
quán trong việc xét “chữ” hay “số” Mặc dù là lỗi do dịch sai chữ số nhưng vẫn mang đủnghĩa theo ngữ cảnh
Ví dụ: March 16, 1994 (Ngữ liệu LEGAL, số 707), (DTC) là ngày 16 tháng 3 năm 1994
và (DTĐ) là ngày 16 Tháng Ba 1994 Vậy, dịch thù công đúng văn phong tiếng Việt hơn
dịch tự động
2.1.2 Lỗi dịch sai chữ số - loại II (có 240 lỗi, chiếm tỉ lệ 22,68%) tạo nên câu văn hoàn toàn không lưu loát đồng thời cũng không mang đầy đủ ý nghĩa theo ngữ cảnh
Ví dụ: 2.2 The Rules on license trade (Ngữ liệu LEGAL, số 353) (DTĐ) là 2,2 Các quy
định về giấy phép thương mại
Trường hợp này do máy hiểu đây là số thập phân nên khi dịch sang tiếng Việt đã đổi dấuchấm thành dấu phẩy ở số “2.2” và làm cho câu không có nghĩa
2.1.3 Lỗi dịch sai dấu câu - loại I (có 28 lỗi và chiếm 3,23 %) là do đặt thiếu hoặc dư
các dấu chấm, dấu phẩy, dấu hai chấm trong câu và cả những lỗi viết hoa hoặc viết thường.Tuy nhiên, chúng vẫn mang đủ nghĩa theo ngữ cảnh
Ví dụ: Article 17 The mode of payment (Ngữ liệu LEGAL, số 353), (DTĐ) là Điều 17 Phương thức thanh toán
Trong ví dụ này, chúng ta thấy ngôn ngữ đích vẫn có nghĩa bởi vì không có dấu chấmnhưng từ “Phuơng” vẫn đuợc viết hoa