Giải pháp chỉnh sửa công cụ dịch tự động GT khi dị- 123docz.net

ỨNG DỤNG KẾT QUẢ ĐỐI CHIẾU NHỮNG PHƯƠNG TIỆN DIỄN ĐẠT CÂU NGHI VẤN CỦA TIẾNG ANH VÀ TIẾNG

Phần 2. Dịch các câu sau đây

4.3.2 Giải pháp chỉnh sửa công cụ dịch tự động GT khi dịch các câu nghi vấn

Việc thiết lập cơ sở ngữ liệu song ngữ Anh-Việt như thế nào để thuận lợi cho vấn đề dịch thuật chính là đối tượng nghiên cứu của các nhà ngôn ngữ học, và các nhà tin học cài đặt phần mềm khi thiết kế các khung mẫu luật (templates). Chẳng hạn, khi chuyển dịch các câu nghi vấn từ tiếng Việt sang tiếng Anh sẽ theo quy tắc chuyển đổi nào nhằm thiết kế các khung mẫu luật để huấn luyện cho dịch máy. Có thể thấy rằng hiện nay GT cũng đã dịch thành công một số cấu trúc câu đơn giản với độ tin cậy cao. GT có thể chiếu từ loại trong tiếng Anh tương ứng sang tiếng Việt, và ngay cả có thể chiếu các thành ngữ tương đương từ Việt sang Anh trong một số trường hợp.

Kết quả nghiên cứu cho thấy nếu nhập dữ liệu bình thường theo cách nói của người Việt, GT không thể dịch chính xác các câu nghi vấn từ tiếng Việt sang tiếng Anh.

Dựa trên các giả thuyết về giải pháp dịch và các phép thử dịch câu nghi vấn trong cả hai ngôn ngữ, chúng tôi có những nhận xét sau đây:

Thứ nhất, kết quả của phép thử về cách chuyển dịch các từ ngữ xưng hô trong câu nghi vấn với ngữ cảnh giao tiếp tại lớp học từ tiếng Hoa, Pháp và Anh sang tiếng Việt (độ dài văn bản khoảng 500 ký tự) cho thấy GT hầu như đã chọn phương án sử dụng cách xưng hô tôi cho vai người phát ngôn và bạn trong vai người thụ ngôn làm chiến lược dịch từ ngôn ngữ nguồn Hoa, Pháp, Anh sang tiếng Việt khi chuyển dịch các hành vi ngôn ngữ trong lớp học dưới hình thức văn bản ở cấp độ câu sang tiếng Việt.

Theo thống kê mô tả từ các Bảng 11.1, 11.2 và 11.3 tại Phụ lục 11 của luận án, từ ngữ liệu nguồn từ sinh viên Trung Quốc, sinh viên Pháp, và sinh viên Mỹ GT đã cung cấp kết quả chuyển dịch các từ ngữ dùng để xưng hô từ tiếng Hoa, tiếng Pháp và tiếng Anh của ngôn ngữ nguồn sang ngôn ngữ đích (tiếng Việt), với vai giao tiếp thứ nhất là người phát ngôn (Sp1) và người thụ ngôn (Sp2) trong mối quan hệ xã hội. Từ kết quả thử nghiệm qua ba bảng thống kê trên cho thấy kết quả dịch của GT chưa đáp ứng được nhu cầu của người dùng trong giao tiếp trong lớp học. GT không thể nhận diện và hiểu đúng các từ ngữ xưng hô trong lớp học vốn vô cùng đa dạng và phong phú trong tiếng Việt. Do vậy, để GT có thể hiểu được cách dịch các từ ngữ xưng hô trong phép chiếu từ vựng trên nguồn ngữ liệu song ngữ hiện có, người dùng nên mã hóa lại các từ ngữ xưng hô này - đây là những từ ngữ mà sau đó chính người dùng sẽ phải giải mã lại cho những từ đã được mã hóa trong kết quả dịch - để GT có thể hiểu được ý nghĩa của những từ ngữ này trong quá trình chuyển tải nội dung của cả câu nghi vấn từ ngôn ngữ nguồn sang ngôn ngữ đích.

Thứ hai, với mẫu khảo sát là 320 câu nghi vấn từ nguồn ngữ liệu song ngữ (Xem Phụ lục 3 và Phụ lục 4), có thể thấy câu nghi vấn trong tiếng Việt hầu như dài hơn câu nghi vấn trong tiếng Anh xét trên tổng thể khối dữ liệu khảo sát. Điều này có ý nghĩa chiến lược khi xây dựng cây cú pháp cho GT đối dịch Anh-Việt và Việt-Anh, việc dịch theo kiểu chọn lọc “từ đối từ” khi thực hiện phép chiếu từ loại từ ngôn ngữ nguồn sang ngôn ngữ đích sẽ chênh lệch nhau về số lượng từ vựng do chiều dài của câu quy định. Sự chênh lệch về độ dài của câu nghi vấn trong cả hai ngôn ngữ một phần có thể do câu nghi vấn trong tiếng Việt có các tiểu từ tình thái cuối câu,

trong khi câu nghi vấn của tiếng Anh lại không có loại từ hoặc tổ hợp từ để hỏi này ở cuối câu.

Trên ngữ liệu song ngữ, kết quả khảo sát 320 câu nghi vấn trên nguồn ngữ liệu song ngữ Anh – Việt được trình bày trong Bảng 4.1. Cứ liệu trong Bảng 4.2 cho thấy độ dài tối đa của câu nghi vấn trong tiếng Anh trên dữ liệu khảo sát là 130 ký tự, và ngắn nhất là 3 ký tự, trong khi câu nghi vấn dài nhất trong tiếng Việt là 128 và ngắn nhất có độ dài đo bằng ký tự là 4. Trong tiếng Anh các câu nghi vấn có độ dài là 28 ký tự xuất hiện nhiếu nhất trên cứ liệu khảo sát, trong khi các câu nghi vấn trong tiếng Việt xuất hiện nhiều nhất là loại câu có chiều dài 24 ký tự. Trung vị của câu nghi vấn trong tiếng Anh là 29 trong khi đó, trung vị của câu nghi vấn trong tiếng Việt ở mức 34 xét theo chiều dài tính bằng ký tự. Trung bình cộng về chiều dài của các câu nghi vấn trong tiếng Anh 32,25 trong khi câu nghi vấn trong tiếng Việt ở mức 36,82. Mức độ dao động quanh mức chuẩn trung bình của các câu nghi vấn trong tiếng Việt cao hơn trong tiếng Anh, nên có thể kết luận rằng hầu như các câu nghi vấn trong tiếng Việt dài hơn câu nghi vấn trong tiếng Anh xét trên đơn vị đo độ dài là ký tự.

Thứ ba, Bảng 3.4a và 3.4b trong Chương 3 đã cho kết quả thống kê tần số xuất hiện 40 từ ngữ làm phương tiện chỉ dẫn ý nghĩa tình thái và 27 từ ngữ chỉ xuất xưng hô khác nhau trong mẫu khảo sát là 2023 câu nghi vấn trong tiếng Việt. Đây là những thử thách lớn đang làm rào cản trong việc dịch từ Việt sang Anh của GT. Số lượng từ ngữ xưng hô đa dạng này trong câu nghi vấn từ 5 hành vi ngôn ngữ khảo sát là một thách thức lớn đối với GT khi thử nghiệm tại thời điểm đang xét. Qua các phép thử để kiểm định độ tin cậy của GT trong việc đối dịch qua lại giữa hai ngôn ngữ đang xét, GT chỉ có khả năng dịch các đại từ trung tính I, you, he, she, it, we, you, và they sang tiếng Việt tương ứng. Điều này đã chứng tỏ GT không dễ chấp nhận những từ ngữ xưng và hô đa dạng và phong phú trong tiếng Việt, ngay cả các tác tử hỏi hay các từ kèm để hỏi trong câu nghi vấn vì GT không thể giải mã được các từ ngữ này khi chuyển dịch từ ngôn ngữ nguồn – tiếng Việt sang ngôn ngữ đích – tiếng Anh. Kết quả dịch cũng cho thấy với ngữ cảnh được cung cấp đầy đủ GT vẫn

không thể chuyển dịch đúng các từ ngữ xưng hô này theo mong đợi của người dùng. Chẳng hạn, GT cho kết quả sai khi chuyển dịch cô ở ngôi thứ hai số đơn thành she ở ngôi thứ ba số đơn; không hiểu các từ mi, tớ, tui, bồ, bà cô,… khi chuyển dịch từ Việt sang Anh.

Tuy nhiên, thay vì xem những ngôn ngữ của sinh viên là “lệch chuẩn” không thể chấp nhận, khi tìm biện pháp để hóa giải các từ đa nghĩa luận án đã tận dụng ngôn ngữ 8x/9x của sinh viên để khử nhập nhằng các từ đa nghĩa trong cách nhập dữ liệu tiếng Việt cho chương trình dịch của GT, nhằm phục vụ lại cho sinh viên. Bản thân sinh viên cũng phải học cách nhập ngữ liệu dưới hình thức văn bản dành cho chuyển dịch Việt - Anh và Anh Việt cho GT theo ngữ liệu song ngữ mà GT đã được huấn luyện. Các phép thử với ngôn ngữ 8x/9x trên chương trình dịch máy GT cho kết quả dịch rất khả quan. Chẳng hạn, xét 2 ví dụ sau:

166. Nguồn ngữ liệu: Bạn có thể cho tôi mượn cuốn sách của bạn được không?

Cách nhập dữ liệu: Bạn có thể cho tôi mượn cuốn sách của bạn (dc_hok?)

⇒ GT dịch: Can you lend me your book (dc_hok)? (Sau khi loại bỏ từ trong ngoặc, câu có thể chấp nhận được trên bình diện ngữ dụng)

Giải pháp: đổi (mã hóa) được không thành dc_hok, được không ạ thành dc ko_ak theo khuynh hướng ngôn ngữ mạng, để giải nhập nhằng về từ đa nghĩa trong nguồn ngữ liệu song ngữ của GT cho kết quả GT dịch chính xác, sau đó khử các ngôn ngữ 9x này trong câu tiếng Anh.

167. Nguồn ngữ liệu: Xin vui lòng cho mượn sách của bạn nha?

Cách nhập dữ liệu: Xin vui lòng cho mượn sách của bạn (nhak)?

⇒ GT dịch: Please lend me your book (nhak)? (Sau khi loại bỏ từ trong ngoặc, câu có thể chấp nhận được trên bình diện ngữ dụng)

Thực trạng yếu kém của GT chính là chưa hiểu được các tiểu từ tình thái cuối câu tiếng Việt. Do chưa có tập hợp rỗng nào được quy ước trên nguồn ngữ liệu song

ngữ cho những phần không tương ứng khi GT thực hiện phép chiếu các từ ngữ tương ứng và chính xác qua lại cho những từ ngữ mà trong tiếng Anh không có sự tương ứng đối xứng nào so với trong tiếng Việt. Trong nhiều trường hợp, GT đã không thể xử lý dịch tự động các tiểu từ tình thái cuối câu trong tiếng Việt, vì trong tiếng Anh không có các tiểu từ tình thái cuối câu tương ứng nên không thể dịch theo cách “một đối một”, do vậy, không thể chuyển tải được đúng nghĩa của những tiểu từ tình thái cuối câu để hỏi. Chẳng hạn, tiểu từ tình thái nhỉ trong Hôm nay vui nhỉ?

được chuyển dịch thành children. Nguyên nhân có thể do GT nhạy cảm với các ngôn ngữ Châu Âu không có thanh điệu này nên khó chấp nhận được các dấu câu thể hiện thanh điệu như sắc, huyền, hỏi, ngã, nặng trên từng con chữ trong tiếng Việt, điều này dẫn tới GT lập tức nhận dạng nhỉ thành nhi (con).

Qua những nhận xét từ các kết quả khảo sát về độ tin cậy trong vấn đề dịch thuật của GT, có thể thấy rằng để nâng chất lượng và độ tin cậy trong việc dịch Việt – Anh cho GT, cần mã hóa lại dữ liệu theo quy ước mang tính đề nghị theo 9 bước như sau trước khi nhập dữ liệu vào cho chương trình GT.

1/ Các từ ngữ chỉ xuất xưng hô ở ngôi thứ nhất số đơn trong tiếng Việt (ngôn ngữ nguồn) được mã hóa thành tôi khi yêu cầu GT chuyển dịch sang tiếng Anh;

2/ Các từ ngữ chỉ xuất xưng hô ở ngôi thứ nhất số phức trong tiếng Việt (ngôn ngữ nguồn) được mã hóa thành chúng tôi hoặc chúng ta tùy theo ngữ nghĩa cần thể hiện trong bối cảnh giao tiếp cụ thể;

3/ Các từ ngữ chỉ xuất xưng hô ở ngôi thứ hai (vai đối xưng) trong tiếng Việt trong ngôn ngữ nguồn được mã hóa thành bạn khi ở số đơn và các bạn khi ở số phức trong quá trình nhập dữ liệu trước khi yêu cầu GT chuyển dịch sang tiếng Anh;

4/ Các từ ngữ chỉ xuất xưng hô ở ngôi thứ ba số đơn trong tiếng Việt trong ngôn ngữ nguồn được mã hóa thành anh ấy nếu có giới tính là nam và cô ấy hoặc chị ấy nếu giới tính là nữ trong quá trình nhập dữ liệu tiếng Việt trước khi yêu cầu GT chuyển dịch sang tiếng Anh;

5/ Các từ ngữ chỉ xuất xưng hô ở ngôi thứ ba, số phức trong tiếng Việt trong ngôn ngữ nguồn được mã hóa thành họ nếu chỉ xuất nhân xưng và mã hóa chúng nó nếu là đồ vật hoặc trẻ con trong quá trình nhập dữ liệu tiếng Việt trước khi yêu cầu GT chuyển dịch sang tiếng Anh;

6/ Trường hợp có các hô ngữ đầu câu nên có dấu phẩy để ngăn cách với phần được nói phía sau. Loại bỏ các ngữ khí từ làm phương tiện tình thái trong các hô ngữ đầu câu như ơi, à, đấy à, … thay vào đó bằng các danh từ hoặc đại từ chỉ xuất xưng hô cụ thể đứng đầu câu và được ngăn cách với phần nội dung phía sau bởi dấu phẩy. Trường hợp danh từ chỉ tên riêng nên đặt trong ngoặc kép;

7/ Sắp xếp thành phần nòng cốt của câu nghi vấn trong tiếng Việt theo cấu trúc Chủ-Vị, theo thứ tự S-V-O;

8/ Các từ kèm để hỏi, các tiểu từ hay tổ hợp từ tình thái cuối câu được mã hóa theo ngôn ngữ mạng đề nghị trong Bảng 4.3 để hóa giải và khắc phục những nhập nhằng về từ đa nghĩa cho máy dịch tự động GT;

9/ Những từ đã được mã hóa sau khi chuyển qua ngôn ngữ đích trong bản dịch có thể được lược bỏ. Những từ được mã hóa này có thể đặt trong dấu ngoặc đơn để dễ dàng lược bỏ trong ngôn ngữ đích.

Mô hình thêm vào ngôn ngữ 8x/9x để hóa giải nhập nhằng về từ đa nghĩa được tác giả thiết kế nhằm đề nghị bổ sung vào kho ngữ liệu song ngữ Việt-Anh để chương trình của máy dịch có thể “học” trên ngữ liệu văn bản theo dạng ký hiệu, loại bỏ tiểu từ tình thái cuối câu. Chính những từ tình thái trong tiếng Việt làm ảnh hưởng đến cây cú pháp và phép chiếu từ vựng trên mẫu đã được huấn luyện của GT. Các từ kèm và tiểu từ tình thái cuối câu trong câu nghi vấn có thể được những chuyên gia tin học cài phần mềm mã hóa và tập huấn lại cho GT thể hiện dưới hình thức là một tập hợp rỗng “∅”, khi chuyển dịch Việt- Anh. Người dùng có thể bỏ các từ trong ngoặc đơn hoặc mã hóa lại theo các ví dụ minh họa từ bảng đề nghị mã hóa dữ liệu (Bảng 4.2). GT sẽ dễ chấp nhận và hiểu được nguyên tắc chiếu trên dữ liệu song ngữ mà không ảnh hưởng đến việc nhận diện những từ quan trọng đang đảm nhiệm những vai nghĩa chính trong câu.

Trong trường hợp máy dịch không thể chọn được từ nào thích hợp do chưa lập trình về từ đa nghĩa, những từ trong tiếng Việt không có lập trình liên kết đối ứng trong tiếng Anh sẽ trả về giá trị chính nó. Đây là ưu thế của ngôn ngữ mạng (8x/9x) mà tác giả luận án muốn dùng để khử nhập nhằng về từ đa nghĩa, khắc phục nhược điểm của GT, tăng độ tin cậy cho GT để công cụ dịch máy này xứng đáng là công cụ có ích cho người dùng.

Ngôn ngữ “blog” quả thật khủng khiếp nhưng thực sự vẫn đang tồn tại song song cùng ngôn ngữ toàn dân, và đang được sử dụng thịnh hành trên các diễn đàn “web”

dành cho thế hệ của tuổi “teen” - học sinh và thế hệ thanh niên - sinh viên. Tiến trình mã hóa dữ liệu trước khi nhập dữ liệu cho GT chuyển dịch Việt-Anh sẽ nằm ở từ thứ hai trong từng ô tại Bảng 4.2. Để GT không thể chiếu sai từ loại, làm ảnh hưởng đến trật tự từ trong câu, những tổ hợp từ gồm 2 từ trở lên cần phải giữ dấu nối “_ ” để liên kết các từ thành tổ hợp cố định và nằm trong ngoặc đơn, sau đó được loại bỏ trong ngôn ngữ đích của bản dịch tiếng Anh.

Đề nghị này cũng nhằm phục vụ cho vấn đề thiết kế ngữ liệu song ngữ cho người dùng trong việc đối dịch Việt-Anh các loại câu nghi vấn có chứa các tiểu từ tình thái cuối câu để không làm ảnh hưởng đến cấu trúc chung của hệ thống dựa trên sự so khớp mẫu từ những cây cú pháp tương ứng trong câu.

Giả thuyết nghiên cứu:

Dựa trên những đề nghị này luận án đề ra một giả thuyết cần kiểm định như sau:

“Nếu áp dụng 9 nguyên tắc nhập dữ liệu như đã được đề nghị trong Chương 4 thì GT sẽ dịch các câu nghi vấn từ tiếng Việt sang tiếng Anh tốt hơn.”

Kết quả và nhận xét

Tổng số câu được chuyển dịch từ tiếng Việt sang tiếng Anh là 36. Tổng số câu sai là 36/36 (100%). Kết quả thử nghiệm cho thấy GT không thể dịch được chính xác các câu nghi vấn trong tiếng Việt khi máy dịch thực hiện nhiệm vụ chuyển dịch theo yêu cầu của người dùng ngôn ngữ. Tuy nhiên, khi nhập dữ liệu theo 9 nguyên tắc trên, những điểm yếu về khả năng “đọc hiểu” ngôn ngữ nguồn để chuyển dịch qua ngôn ngữ đích của GT có thể được khắc phục, các rào cản về ngôn ngữ nhất là từ xưng hô và từ đa nghĩa đã không còn là trở ngại lớn. Độ tin cậy của GT tăng một cách đáng kể khi thẩm định lại lần hai với sự hiệu chỉnh theo đề nghị như một chiến lược dịch Việt-Anh.

Bảng 4.8: Kết quả kiểm định giả thuyết khoa học thứ nhất – GT dịch 36 câu nghi vấn

Kiểm định giả thuyết 1:

Chiến lược dịch câu nghi vấn từ Việt sang Anh trong 5 HVNN (36 câu nghi vấn)

Số câu

đúng % Số

câu

sai %

Lần 1: Kiểm định độ tin cậy trong chương trình dịch

Việt - Anh của GT 0 0 36 100

Lần 2: Kiểm định độ tin cậy trong chương trình dịch

Việt - Anh của GT theo chiến lược

dịch Việt - Anh đề nghị 34 94.44 2 5.56

Biểu đồ 4.4: So sánh kết quả thử nghiệm độ tin cậy của GT qua hai cách nhập dữ liệu khác nhau

94.44 100

5.56

0 20 40 60 80 100 120

Lần 1: Kiểm định độ tin cậy trong chương trình dịch

Việt - Anh của GT

Lần 2: Kiểm định độ tin cậy trong chương trình dịch Việt - Anh của GT theo chiến lược dịch Việt - Anh

đề nghị trong Chương 4

Câu sai

% Câu đúng

Kết quả kiểm định trong Biểu đồ 4.4 cho thấy khi đề nghị cho GT dịch tự động 36 câu nghi vấn từ Anh sang Việt theo ngôn ngữ tự nhiên trích từ các phiếu điều tra ngôn ngữ của sinh viên, GT cho kết quả dịch sai 100% trong lần dịch đầu tiên.

Trong lần dịch thứ hai theo cách nhập dữ liệu tiếng Việt đề nghị GT cho kết quả dịch đúng lên đến 94,44%.

Tổng số câu nghi vấn tiếng Việt được thẩm định là 36. Số câu đúng trên bình diện ngữ kết, ngữ nghĩa và ngữ dụng khi GT chuyển dịch từ tiếng Việt sang tiếng Anh là 34/36 (94,44%). Số câu sai khi GT chuyển dịch từ tiếng Việt sang tiếng Anh là 2/36 (5,56%). Tuy các câu nghi vấn trong tiếng Anh thu được từ kết quả dịch máy vẫn

Giải pháp chỉnh sửa công cụ dịch tự động GT khi dịch các câu nghi vấn

Phương pháp nghiên cứu và nguồn tư liệu

Về phương diện hình thức