Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt

8 14 0
Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt.

TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM SỐ 01 THÁNG 10 NĂM 2013 KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ” TRONG DỊCH TỰ ĐỘNG HOA – VIỆT Trần Thanh Phƣớc, Trần Văn Thọ* TÓM TẮT Cấu trúc “之前/之后”là dạng ngữ pháp thƣờng gặp tiếng Hoa văn nói văn viết Trong dịch tự động thống kê Hoa – Việt, hệ thống dịch máy thƣờng dịch sai ngữ nghĩa trật tự từ cấu trúc ngữ pháp Trong báo này, chúng tơi trình bày phƣơng pháp khắc phục lỗi dịch sai nói cách phân loại cấu trúc nói thành loại khác dựa vào thơng tin cú pháp, ngữ nghĩa chúng để từ chúng tơi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt Chúng thực nghiệm phƣơng pháp ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000 mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian tiếng Hoa kết điểm BLEU dịch Hoa-Việt đạt đƣợc 47,23 so với 14,15 Google Translator cho câu tiếng Hoa có chứa cấu trúc ABSTRACT Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about semanticand word orderofthisgrammatical structure In this paper, we will present a methodto fixthe abovewrong translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto Vietnamese We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and 80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator forChinesesentencescontainingthese structures GIỚI THIỆU Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chƣa thấy cơng bố thức ngoại trừ Google Translator có thực thơng qua ngơn ngữ trung gian tiếng Anh Việc dịch Hoa-Việt-Hoa wesbite khác (nhƣ EVTrans[11], website dichhay.com[12], ) dựa Google Translator Chất lƣợng dịch Hoa – Việt - Hoa theo cách thức bắc cầu nhƣ cho kết dịch thấp kết dịch Hoa-Việt phải chịu sai sót qua hai lần dịch (từ Hoa sang Anh từ Anh sang Việt) Trong nghiên cứu này, dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt theo phƣơng pháp thống kê dựa kho ngữ liệu song ngữ Hoa-Việt (Statistical Machine Translation) Chất lƣợng dịch tự động Hoa Việt cho kết tƣơng đối tốt tiếng Hoa Việt loại hình đơn lập nên có số đặc điểm ngữ pháp giống Tuy nhiên, số cấu trúc đặc biệt ngữ pháp tiếng Hoa, hệ thống lại cho kết dịch không mong muốn Một cấu trúc đặc biệt cấu trúc “之前/之后” (sẽ trình *ThS Trần Thanh Phƣớc – Khoa CNTT - Trƣờng ĐH Công nghiệp Thực phẩm Tp.HCM bày phần 2), gây lỗi nhƣ: dịch sai nghĩa, sai trật tự từ, Để khắc phục cấu trúc ngữ pháp đặc biệt nói tiếng Hoa có nhiều phƣơng pháp khác phƣơng pháp khử mơ hồ ngữ nghĩa Ví dụ tiếng Hoa, từ 的 thƣờng xuất văn nói nhƣ viết đƣợc dịch sang ngôn ngữ khác với nhiều nghĩa khác tùy vào ngữ cảnh trƣớc sau Vì vậy, nhóm tác giả Pi-Chuan Chang, Dan Jurafsky Christofer D.Manning trƣờng đại học Stanford giải vấn đề theo cách khử mơ hồ nghĩa từ “的”[6] Chính mơ hồ nghĩa nguyên nhân gây lỗi dịch dù mơ hình dịch thống kê theo ngữ (Phrase-Based SMT) Theo [6], dựa vào ngữ pháp từ 的, nhóm tác giả chia từ 的 thành lớp riêng biệt Tƣơng ứng với phân lớp, nhóm tác giả tách ngữ đứng trƣớc sau từ 的, đánh nhãn từ 的 theo lớp phân biệt; sau dựa vào cấu trúc ngữ pháp phân lớp, nhóm tác giả đảo 81 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM trật tự ngữ đứng trƣớc sau từ 的 Kết thử nghiệm với MT02[6] (878 câu), với hệ sở (Baseline)[5] hệ dịch Hoa-Anh cho kết điểm BLEU 32.51 sau khử mơ hồ nghĩa từ 的 điểm BLEU tăng thêm 1.24 điểm Trong báo này, sử dụng cách tiếp cận nhƣng áp dụng cho cấu trúc “之前/之后 ” Cấu trúc xuất thƣờng xuyên văn tiếng Hoa tùy vào ngữ đứng trƣớc sau chúng mà cấu trúc cho ý nghĩa khác Đây nguyên nhân gây lỗi sai nghĩa sai trật tự từ chuyển ngữ Hoa - Việt Để khử mơ hồ nghĩa cấu trúc chia chúng thành loại khác nhau, cụ thể cấu trúc “之 前” chia làm loại, cấu trúc “之后” chia làm TRẦN THANH PHƢỚC loại Tƣơng ứng với loại, biến đổi từ đảo trật tự từ ngữ đứng trƣớc cấu trúc trƣớc cho qua hệ thống huấn luyện dịch PHÂN LOẠI CẤU TR C “之前/之后” Cấu trúc dùng để biểu thị sớm hay muộn so với mốc thời gian hay trƣớc sau địa điểm Cách dùng thƣờng thấy văn viết Từ “前” có nghĩa gốc “trƣớc”; từ “后” có nghĩa gốc “sau” Khi kết hợp với từ “之” tạo thành “之 前 - 之后” Tùy vào ngữ cảnh mà cụm từ “之 前 - 之后” có nghĩa khác 2.1 Cấu trúc 之前 Cấu trúc có nghĩa sau: “Phía trước”: Nếu ngữ đứng trƣớc “之前” danh từ cụm danh từ “Trước”: Nếu ngữ đứng trƣớc “之前” thuộc phạm trù thời gian “Trước khi”: Nếu ngữ đứng trƣớc “之前” động từ 2.2 Cấu trúc 之后 Cấu trúc “之后” gồm nghĩa sau: “Phía sau”: Nếu ngữ đứng trƣớc “之后” danh từ cụm danh từ “Sau”: Nếu ngữ đứng trƣớc “之后” thuộc phạm trù thời gian 82 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC “Sau khi”: Nếu ngữ đứng trƣớc “之后” động từ KHỬ MƠ HỒ NGHĨ CẤU TR C “ 之前/之后 ” Trong hệ dịch máy thống kê Hoa-Việt, gặp câu có cấu trúc “之前/之后 ”, hệ thống dịch sai ngữ nghĩa trật tự từ cấu trúc Để khắc phục lỗi này, chúng tơi tiền xử lý câu có cấu trúc nhƣ trƣớc đƣa vào hệ thống dịch máy Đầu tiên, tách ngữ đứng trƣớc chúng (ngữ P); sau chúng tơi sử dụng phƣơng pháp Maximum Matching[4] từ điển 80.000 từ để tách từ ngữ P Dựa vào từ điển từ loại động từ, từ loại thời gian để phân loại ngữ P đƣa phƣơng pháp xử lý cho trƣờng hợp cụ thể (hình 1) 3.1 Ngữ P chứa từ loại thời gian: ■ “之前/之后” đƣợc dịch “trƣớc sau” ■ “之前” đƣợc chuyển đổi thành “trƣớc”; “之后” đƣợc đổi thành “sau” ■ Đảo trật tự: “Trƣớc sau” đƣợc chuyển trƣớc ngữ P (hình 2) 3.2 Ngữ P chứa từ thời gian, chứa cụm động từ : ■ “之前/之后” đƣợc dịch “trƣớc sau khi” ■ “之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi” ■ Đảo trật tự: „trƣớc sau khi” đƣợc chuyển đến vị trí sau từ thời gian, trƣớc cụm động từ (hình 3) 3.3 Ngữ P chứa từ thời gian, chứa cụm danh từ: ■ “之前/之后” đƣợc dịch “phía trƣớc phía sau” ■ Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển đến vị trí sau từ thời gian, trƣớc cụm danh từ (hình 4) 83 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC Hình Lƣu đồ khử mơ hồ nghĩa cấu trúc “之前/之后” Hình Trƣớc ngữ P chứa từ thời gian Hình Ngữ P chứa từ thời gian + cụm động từ 84 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC Hình Ngữ P chứa từ thời gian + danh từ 3.4 Ngữ P không chứa từ thời gian, chứa cụm động từ ■ ■ ■ “之前/之后” đƣợc dịch “trƣớc sau khi” “之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi” Đảo trật tự: “trƣớc sau khi” đƣợc chuyển trƣớc ngữ P (hình 5) Hình Ngữ P chứa động từ 3.5 Ngữ P không chứa từ thời gian, chứa cụm danh từ ■ ■ “之前/之后” đƣợc dịch “phía trƣớc phía sau” Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển trƣớc ngữ P (hình 6) Hình Ngữ P khơng chứa từ thời gian – chứa cụm danh từ KẾT QUẢ THỬ NGHIỆM VÀ THẢO LUẬN Chúng thực hai thử nghiệm sau: ● Thử nghiệm 1: Dùng 10.000 cặp câu song ngữ tự tạo; chủ yếu đƣợc lấy từ sách dạy tiếng Hoa[7][8]; website diễn đàn tiếng Hoa[9][10] ; 9.000 câu dành cho (dev) Chúng sử dụng tập ngữ liệu thực thử nghiệm sau: ■ Thử nghiệm dịch tự động với hệ SMT sở (SMT Baseline)[5]: Không xử lý cấu trúc ■ Thử nghiệm dịch tự động với hệ SMT sở [5] qua tiền xử lý cấu trúc 85 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM Trong 500 câu test có 19 câu dạng cấu trúc Điểm BLEU[5] sở: 47,58; Điểm BLEU có xử lý cấu trúc: 48,85 (tăng 1,07) ● Thử nghiệm 2: Để việc đánh giá kết cách trực quan, tiến hành thử nghiệm cách sử dụng câu tiếng Hoa có cấu trúc “之前/之后” 41 sách “301 Câu Đàm Thoại Tiếng Hoa – Tập 2”[3] sách “Giáo Trình Ngữ Pháp Tiếng Hoa”[2] Tổng cộng câu đƣợc dịch qua ba hệ thống: Dịch sở dùng tool Moses[5], dịch sau phân loại cấu trúc (dùng tool Moses[5]) dịch Google ● Translator Kết dịch đƣợc thể bảng 1, hình Cả ba hệ thống: Dịch phân loại, dịch sở dịch Google chứa lỗi dịch sai từ Tuy nhiên, không bàn lỗi Ở quan tâm đến lỗi cấu trúc “之前/之后” gây ■ TRẦN THANH PHƢỚC Những phần tô màu đỏ cho thấy lỗi dịch sở Google Có hai lỗi chủ yếu dịch cấu trúc này: dịch sai nghĩa sai trật tự từ Ví dụ nhƣ câu số 4: “早上起床以后,你 做哪些事?” Trong ngữ cảnh này, từ “之后” dịch “sau khi”; dịch sở cho kết “sau này” Google cho kết kết “hôm sau” (sai ngữ nghĩa) Bên cạnh đó, ngữ “早上起床以后” dịch “sáng sớm sau thức dậy”; dịch sở cho kết “sáng sớm thức dậy sau này,” Google cho kết “thức dậy vào sáng hôm sau” (sai trật tự từ) Ở đây, không sâu vào nguyên nhân dịch sai hệ thống Google, hệ thống phải trải qua hai lần dịch dịch câu Hoa – Việt; lỗi câu tiếng Việt bao gồm lỗi dịch từ Hoa sang Anh từ Anh sang Việt Trong phần này, bàn luận nguyên nhân dịch sai dịch sở Bảng So sánh kết dịch qua ba hệ thống Hình Hình chụp dịch google ngày 15 13 Trong ngữ liệu huấn luyện hệ dịch sở, từ câu đƣợc dịch tƣơng ứng nhƣ sau (hình 8): 86 TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM TRẦN THANH PHƢỚC Hình Kết dịch s Trong kho ngữ liệu huấn luyện, từ “之后” Theo nhƣ phân loại phần 2, ngữ “早上 đƣợc dịch “sau này” có xác suất cao 起床” (đứng trƣớc “之后”) có chứa từ thời đƣợc dịch thành “sau khi” “sau” Do đó, gian (早上) động từ (起床) nên trƣớc hệ thống dịch sở dịch “之后” thành “sau cho hệ thống dịch sở, khử này” Kết không với ý nghĩa mơ hồ nghĩa cấu trúc câu cách ngƣời dịch, gây hai lỗi: sai nghĩa, sai trật tự biến đổi đảo trật tự từ (hình 9) từ Hình Biến đổi đảo trật tự từ Tƣơng ứng với câu sau biến đổi đảo trật tự từ, kết dịch có chất lƣợng cao nhiều so với câu dịch sở Google, gần với câu ngƣời dịch KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong báo này, khử mơ hồ ngữ nghĩa cấu trúc “之前/之后” tiếng Hoa cách phân loại chúng để từ biến đổi nhƣ đảo trật tự từ ngữ đứng trƣớc cấu trúc Việc biến đổi đảo trật tự từ giúp cho việc đối chiếu, gióng hàng từ câu tiếng Hoa tiếng Việt đƣợc tốt hơn, xác kết thử nghiệm hệ dịch thống kê Hoa-Việt cho thấy điểm BLEU cao so với dịch sở Google Translator Trong tƣơng lai, áp dụng cách tiếp cận để xử lý cấu trúc mơ hồ khác tiếng Hoa để góp phần nâng cao chất lƣợng dịch tự động Hoa-Việt TÀI LIỆU THAM KHẢO [1] Đinh Điền, (2006), Giáo tr nh xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia, 2006 [2] Tô Cẩm Duy (2008), Giáo tr nh Ngữ pháp tiếng Hoa, NXB Trẻ [3] Học Viện Ngôn Ngữ Bắc Kinh, (2010), 301 Câu Đàm Thoại Tiếng Hoa – Tập 2, NXB Khoa Học Xã Hội [4] Pak-kwong and Chorkin Chan, (1996), Chinese Word Segmentation based on Maximum Matching and Word Binding Force, in proceedings of 16th conference on Computational linguistics – volume (pp 200 – 203) [5] Philipp Koehn, (2010), Statistical Machine Translation System – User Manual and Code Guide, Cambdrige University Press [6] Pichuan and Jurafsky, (2009), Disambiguating “DE” for Chinese – English Machine Translation, in proceedings of the 87 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM fourth workshop on statistical machine translation, (pp 215 - 223) [7] Học viện ngôn ngữ Bắc Kinh, (2010), 301 câu đàm thoại đàm thoại tiếng Hoa – Tập 1, NXB Khoa học xã hội [8] Hữu Lý – Tuấn Anh, (2008), 3.000 Câu đàm thoại tiếng Hoa, NXB Giao thông vận tải TRẦN THANH PHƢỚC [9] Tiếng_hoa_online_DTT, www.dantiengtrung.com.vn [10]Học_tiếng_Hoa_online, www.tienghoa.net [11]Dịch_tự_động_online, http://vdict.com/?autotranslation [12]Dịch_tự_động_online, http://www.dichhay.com/2011/06/dich-ten-tutiengviet-sang-tieng-hoa.html 88 ... Nếu ngữ đứng trƣớc ? ?之后? ?? động từ KHỬ MƠ HỒ NGHĨ CẤU TR C “ 之前 /之后 ” Trong hệ dịch máy thống kê Hoa- Việt, gặp câu có cấu trúc “之前/ 之后 ”, hệ thống dịch sai ngữ nghĩa trật tự từ cấu trúc Để khắc phục... trước”: Nếu ngữ đứng trƣớc “之前? ?? danh từ cụm danh từ “Trước”: Nếu ngữ đứng trƣớc “之前? ?? thuộc phạm trù thời gian “Trước khi”: Nếu ngữ đứng trƣớc “之前? ?? động từ 2.2 Cấu trúc 之后 Cấu trúc ? ?之后? ?? gồm nghĩa. .. nguyên nhân gây lỗi sai nghĩa sai trật tự từ chuyển ngữ Hoa - Việt Để khử mơ hồ nghĩa cấu trúc chia chúng thành loại khác nhau, cụ thể cấu trúc “之 ? ?” chia làm loại, cấu trúc ? ?之后? ?? chia làm TRẦN THANH

Ngày đăng: 13/05/2021, 21:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan