Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

11 46 0
Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dịch máy là bài toán lâu đời và khó nhưng đã thu hút được sự quan tâm của rất nhiều nhóm nghiên cứu trong nước và trên thế giới do tiềm năng ứng dụng của nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng phức tạp hơn.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Xử lý câu hỏi phản dịch tự động Hoa-Việt Processing Yes - No Questions in the Chinese - Vietnamese Machine Translation Trần Thanh Phước, Đinh Điền Abstract: Machine translation is a tradtional and difficult problem, therefore, improving the quality of machine translation is a necessary issue In this paper, we present a method to improve the quality of Chinese – Vietnamese machine translation When translating from Chinese into Vietnamese, one of the most frequently encountered errors is the wrong translation “yes - no question”, so, we will apply some rules to convert “yes-no question” in the Chinese to common question We have experimented this problem on the 10,000 pairs of ChineseVietnamese parallel corpus and 77,000-entry Chinese Vietnamese Dictionary and we reach the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator thương mại tên EVTran Nhóm chủ yếu sử dụng phương pháp dịch dựa luật (RBMT: Rule-based Machine Translation) - Nhóm nghiên cứu Đinh Điền (Trường Đại Học Khoa Học Tự Nhiên TP.HCM): khởi đầu từ năm 1995 theo cách tiếp cận dựa luật từ năm 2005 họ phát triển thêm cách tiếp cận dựa thống kê (SMT: Statistical Machine Translation) có kết hợp tri thức ngơn ngữ để nâng cao chất lượng - Nhóm nghiên cứu Phan Thị Tươi (Trường ĐạiHọc Bách Khoa TP.HCM): sử dụng phương pháp phân tích cú pháp có xác suất để dịch văn Anh-Việt Việt-Anh[6] - Cty Lạc Việt phát triển công cụ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành: tin học, toán học, y học kế toán, kỹ thuật[7] - Đối với dịch tự động có liên quan tiếng Việt, chủ yếu dịch tự động Anh - Việt, có số nhóm nghiên cứu khác với cách tiếp cận khác nhau, cụ thể là: Gần Google Translator (www translate google.com): sử dụng phương pháp dịch máy thống kê dựa kho ngữ liệu song ngữ khổng lồ khai thác từ Internet Google Translator hỗ trợ 50 ngôn ngữ bao gồm tiếng Việt Tốc độ dịch nhanh có tính tương tác với người dùng nhằm tăng chất lượng dịch cho lần sau Đối với tin thông thường, chất lượng dịch Anh-Việt, Việt-Anh Google Translator xem tốt Nhóm Lê Khánh Hùng phát triển hệ dịch Anh-Việt từ đầu năm 1990 có Về dịch tự động, Hoa-Việt hay Việt-Hoa đến chưa có nhóm cơng bố thức ngoại trừ I GIỚI THIỆU Dịch máy tốn lâu đời khó thu hút quan tâm nhiều nhóm nghiên cứu nước giới tiềm ứng dụng Tuy nhiên, chất nhập nhằng ngôn ngữ cấp độ khía cạnh cộng với khác biệt ngơn ngữ khiến tốn chuyển ngữ lại phức tạp Đặc biệt ngơn ngữ có khác biệt trật tự từ tiếng Hoa tiếng Việt - - 71 - Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT Google Translator có thực việc dịch Hoa-Việt, Việt-Hoa thơng qua ngơn ngữ trung gian tiếng Anh Ví dụ: để dịch văn từ tiếng Hoa sang tiếng Việt, trước tiên hệ thống dịch từ tiếng Hoa sang tiếng Anh, sau dịch tiếp văn kết tiếng Anh sang tiếng Việt Chính phải dịch theo kiểu bắc cầu khiến chất lượng dịch chung bị giảm đáng kể Nhìn chung, tiếng Hoa tiếng Việt loại hình đơn lập (isolated) nên hai ngơn ngữ có nhiều điểm tương đồng văn phạm, có số điểm dị biệt trật tự từ, hư từ số cấu trúc đặc biệt Một cấu trúc đặc biệt “câu hỏi phản” Kết dịch tự động cho cấu trúc đặc biệt thường bị sai lệch ngữ nghĩa, trật tự từ tính tự nhiên dịch ngơn ngữ đích Trong nghiên cứu này, dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt theo phương pháp dịch máy thống kê (SMT) kết hợp với số luật chuyển đổi cấu trúc câu hỏi phản Cụ thể, báo chúng tơi trình bày nội dung sau: - Tổng quan dịch tự động Hoa - Việt - Cấu trúc câu hỏi phản tiếng Hoa - Chuyển đổi câu hỏi phản tiếng Hoa - Thực nghiệm, kết kết luận II TỔNG QUAN VỀ DỊCH TỰ ĐỘNG HOA – VIỆT Đến nay, thấy có hai hướng tiếp cận dịch tự động, dịch dựa luật (RBMT) dịch dựa ngữ liệu (CBMT: CorpusBased Machine Translation) Theo hướng RBMT đòi hỏi hệ thống phải có tập luật phân tích, chuyển đổi ngôn ngữ nguồn, tập luật tạo sinh ngơn ngữ đích với kho tài ngun ngơn ngữ cần thiết Để xây dựng tập luật hay kho tài ngun địi hỏi thời gian cơng sức nhiều chuyên gia ngôn ngữ tin học kết hình thức hóa ngơn ngữ tự nhiên mức độ cao Vì vậy, việc Tập V-1, Số (27), tháng 5/2012 dịch tự động Hoa-Việt hay Việt-Hoa theo hướng tiếp cận giai đoạn chưa khả thi May mắn cách tiếp cận CBMT mà cụ thể SMT cho phép khắc phục khó khăn nói Theo cách tiếp cận SMT, chủ yếu cần xây dựng kho ngữ liệu song ngữ Hoa-Việt với số lượng lớn chất lượng tốt Khác với cặp ngôn ngữ phổ biến khác (như: Anh-Pháp, Anh-Hoa, , ), kho ngữ liệu song ngữ Hoa-Việt lớn tốt chưa có sẵn, đó, nghiên cứu này, chúng tơi phải tự xây dựng kho ngữ liệu Hoa-Việt Bên cạnh việc phụ thuộc vào ngữ liệu song ngữ dùng để huấn luyện, chất lượng dịch SMT phụ thuộc nhiều vào đặc điểm cặp ngôn ngữ cần dịch Nếu hai ngơn ngữ có nhiều điểm tương đồng từ vựng (về hình thái, từ vựng hóa), trật tự từ, chất lượng dịch cao Tiếng Hoa tiếng Việt thuộc loại hình ngơn ngữ đơn lập, nên hai ngơn ngữ có nhiều điểm tương đồng mặt hình thái từ, từ vựng hóa (65% vốn từ tiếng Việt vay mượn từ tiếng Hoa) Tuy nhiên, số cấu trúc đặc biệt, hai ngôn ngữ Hoa Việt có khác biệt, như: trật tự giới ngữ, trạng ngữ thời gian, câu hỏi phản (yes/no question), Trong trường hợp đặc biệt này, cách tiếp cận SMT thường cho kết dịch cịn thấp kết dóng hàng từ (word alignment) bị sai lệch nhiều Chính vậy, với trường hợp này, đưa vào số luật chuyển đổi cách tiếp cận RMBT để chuyển đổi cấu trúc đặc biệt sang dạng thơng thường nhằm nâng cao chất lượng dóng hàng từ SMT từ kết dịch chung hệ thống cải thiện đáng kể II.1 Đặc điểm ngôn ngữ dịch Hoa-Việt Trong phần này, khảo sát số đặc điểm trình dịch từ tiếng Hoa sang tiếng Việt: Về mặt loại hình ngơn ngữ (language typology), tiếng Hoa tiếng Việt thuộc loại hình đơn lập, nên có điểm tương đồng như: - 72 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT + Trong hoạt động ngôn ngữ, từ không biến hình: Tiếng Việt Tơi hỏi anh Tiếng Hoa 我 Phiên âm Pinyin wǒ wèn tā tā wèn wǒ Tiếng Anh I ask him He asks me Tuy nhiên, số cấu trúc, giữa, tiếng Hoa tiếng Việt có số khác biệt như: Anh hỏi tơi + Trật tự giới ngữ: 他 他 我 Tiếng Việt + Phương thức ngữ pháp chủ yếu trật tự từ từ hư: Tiếng Việt cửa trước Tiếng Hoa 前 Phiên âm Pinyin qián mēn mēn qián Tiếng Anh front door at somebody’s door trước cửa 前 Tiếng Việt Học sinh học sinh học Tiếng Hoa 学生学生物 Phiên âm Pinyin xué shēng xué shēng wù Tiếng Anh pupils learn biology Tiếng Hoa 我 Phiên âm Pinyin wǒ mǎi yī běn shū Tiếng Anh I buy a book 一本 wō mēn zāi dà xué xué xí hàn yǔ Tiếng Anh We learn Chinese at the university 在大学学 在大学 Tiếng Việt Tối mai xem phim Tiếng Hoa 明天 上我 去看 影 Phiên âm pinyin míng tiān wǎn shàng wǒ mēn qù kàn diàn yǐng Tiếng Anh We’ll go to the cinema on tomorrow evening phía sau thư viện nhà ăn 之后 是 食堂 Phiên âm pinyin tú shū gn zhī hịu shi shí tang Tiếng Anh behind the library is the diningroom + Câu hỏi phản: + Dùng hư từ để thể thể phủ định, nghi vấn: Khẳng định Phủ định Nghi vấn Anh ăn cơm Anh không ăn cơm Anh ăn cơm không ? 他吃 他不吃 他吃 Phiên âm pinyin tā chī fàn Tā bú chī fàn Tā chī fàn mā? Tiếng Anh He rice He doesn’t eat rice Does he eat rice? eats Phiên âm pinyin Tiếng Hoa Tôi mua sách Tiếng Hoa 我 Tiếng Việt Tiếng Việt Tiếng Việt Tiếng Hoa + Cấu trúc cố định 之前,之后,以前,以后: + Có từ loại trước danh từ: Ngơn ngữ Chúng học tiếng Hoa trường đại học + Trạng ngữ thời gian: + Ranh giới từ không xác định khoảng trắng: Thể loại Tập V-1, Số (27), tháng 5/2012 ? Tiếng Việt Anh có không ? Tiếng Hoa 你去不去? Phiên âm pinyin nǐ qù bú qù? Tiếng Anh Do you go ? Hư từ Đây cấu trúc mà chúng tơi muốn xử lý báo Chi tiết cấu trúc trình bày phần III II.2 Đặc điểm dịch thống kê Hoa-Việt Hệ thống dịch máy thống kê cần kho ngữ liệu gồm hai tập tin song ngữ Hoa - Việt sau: - 73 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 - Tập tin tiếng Hoa: Tách từ tả tiếng Hoa (kể dấu) với khoảng trắng phản dịch sang tiếng Việt phải có từ “khơng” Dịch câu tiếng Việt “Bạn thích xem phim khơng?” - Tập tin tiếng Việt: Tách từ tả tiếng Việt với dấu (bao gồm dấu , ! ? “” : ) - Chia tập tin Hoa – Việt thành ba tập tin riêng lẻ theo tỉ lệ sau: 90% dành cho huấn luyện (train), 5% dành cho điều chỉnh tham số (dev) 5% dành cho thử nghiệm dịch (test) Lưu ý: Các câu tập tin Hoa – Việt phải tương ứng 1-1 với Để có kết dịch câu hỏi phản này, điều cần xóa từ thừa (là từ không dịch sang tiếng Việt) cấu trúc thêm từ để hỏi cuối câu Câu hỏi sau chuyển đổi ví dụ là: 你喜 看 影 ? Với thay đổi này, kết dịch tương ứng xác Sử dụng công cụ Moses [5] để huấn luyện dịch với tham số mặc định Đây công cụ dịch thống kê mã nguồn mở phổ biến - Dóng hàng từ Hoa-Việt thường cho kết từ tiếng Hoa có nghĩa tương ứng với từ tiếng Việt Ví dụ kho ngữ liệu huấn luyện có kết dóng hàng từ sau: 你↔ bạn; 喜 ↔ thích; 不↔ khơng; 看↔ xem; 影↔ phim; ?↔ ? Do đó, câu tiếng Hoa không chứa cấu trúc ngữ pháp đặc biệt dịch thống kê Hoa-Việt cho kết dịch với chất lượng tốt Tuy nhiên, với cấu trúc đặc biệt tiếng Hoa (bao gồm từ kết hợp lại) số từ cấu trúc đặc biệt khơng cịn giữ ngun ý nghĩa ban đầu chúng Trong câu hỏi phản, số từ không dịch sang tiếng Việt câu tiếng Việt thường thêm từ để hỏi “khơng” cuối câu Ví dụ, ta có câu hỏi phản sau: 你 喜 不 喜 看 影 ? Từ “喜 ” có nghĩa “thích” từ “不” có nghĩa “khơng” Kết dịch thống kê thường cho kết “Bạn thích khơng thích xem phim?” Trong trường hợp này, từ “不喜 ” (“khơng thích”) khơng dịch sang tiếng Việt, đóng vai trị hư từ để tạo nên cấu trúc câu hỏi phản, cuối câu hỏi II.3 Xây dựng kho ngữ liệu Để phục vụ nghiên cứu này, xây dựng kho ngữ liệu: kho ngữ liệu đơn ngữ gồm 77.000 mục từ (từ điển tiếng Hoa); kho ngữ liệu song ngữ Hoa – Việt gồm 10.000 cặp câu Từ điển đơn ngữ tiếng Hoa 77.000 mục từ lấy từ trang web [10] gồm 64.000 mục từ phần lại lấy từ sách [3] Từ điển thứ tự tăng dần, làm ngữ liệu nguồn cho thuật toán Maximum Matching [4] để tách từ tiếng Hoa xử lý câu hỏi phản Kho ngữ liệu song ngữ 10.000 cặp câu tổng hợp tay từ sách đàm thoại tiếng Hoa [3], [8] diễn đàn tiếng Hoa online, chủ yếu từ trang web [9] Do ngữ liệu nhập từ sách, diễn đàn định dạng tay nên chất lượng kho ngữ liệu tốt Văn kho ngữ liệu chủ yếu văn giao tiếp phổ thông, thường gặp giao tiếp tiếng Hoa, chiều dài câu tương đối ngắn, bình quân khoảng 10 từ câu Vì kho ngữ liệu tập trung phổ biến câu giao tiếp nên số lượng câu hỏi xuất nhiều Chi tiết kho ngữ liệu song ngữ trình bày Bảng - 74 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Bảng Đặc điểm câu kho ngữ liệu song ngữ Tiêu đề Số lượng Tập V-1, Số (27), tháng 5/2012 + Dạng 2: Thể khẳng định động từ/ tính từ + tân ngữ + thể phủ định động từ / tính từ + tân ngữ (Hình 2) % Sách [3] 4.000 40% tổng số câu Sách [8] 3.000 30% tổng số câu Trang web [9] 3.000 30% tổng số câu Số từ trung bình câu 10 từ Câu hỏi 2.929 29% tổng số câu Câu hỏi phản 212 2,2% tổng số câu 7,3% tổng số câu hỏi Trong ví dụ này, từ “看” có nghĩa “xem” (động từ), từ “ 影” có nghĩa “ti vi” (tân ngữ) Hình Câu hỏi phản hình thức 2-dạng III CẤU TRÚC CÂU HỎI CHÍNH PHẢN TRONG TIẾNG HOA Câu hỏi phản: Là dạng câu hỏi sử dụng thể khẳng định phủ định động từ hình dung từ (tính từ) để hỏi Thể phủ định câu hỏi phản là: 不/没 没 + động từ / hình dung từ Có hình thức sau: - Hình Câu hỏi phản hình thức - Hình thứ 1: Liên kết thể khẳng định phủ định động từ cụm tính từ, có dạng: để nêu câu hỏi Trong tiếng việt, “是不是” có nghĩa “phải không”; nghĩa từ là: “是” nghĩa “là”; “不” nghĩa “khơng” (Hình 3) + Dạng 1: Thể khẳng định động từ/ tính từ + thể phủ định động từ / tính từ + tân ngữ (hình 1) Tân ngữ từ đứng sau động từ bổ nghĩa cho động từ, tân ngữ thường danh từ cụm danh từ Ví dụ câu sau từ “喝” động Hình thức 2: Nếu người nói có đánh giá hay nhận xét việc, tượng đó; muốn xác minh rõ ràng dùng “是不是” - Hình thức 3: Dùng thể khẳng định động từ / tính từ + 没有 Trong câu hỏi, từ “没有” dịch sang tiếng việt có từ (“uống”) từ “啤酒” tân ngữ (“bia”): nghĩa “chưa” Ở thể khẳng định, “没有” có nghĩa “khơng có” (Hình 4) Hình Câu hỏi phản hình thức 1-dạng Hình Câu hỏi phản hình thức - 75 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Trong ba hình thức câu hỏi phản, hình thức đơn giản cố định, có từ “没有?” Do đó, báo chúng tơi khơng xử lý hình thức đơn giản hệ thống dịch SMT[5] tự học Chúng tập trung vào dạng hình thức hình thức Tập V-1, Số (27), tháng 5/2012 Tìm câu đầu vào có chứa từ “不” “没” hay khơng Nếu có từ khơng phải nằm đầu cuối câu có khả câu câu hỏi phản IV CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN SANG CÂU HỎI THƠNG THƯỜNG Như phần II.2 (Đặc điểm dịch thống kê HoaViệt) chúng tơi trình bày lỗi sai dịch câu hỏi phản dịch thống kê Hoa-Việt Do đó, câu hỏi phản, trước cho qua hệ thống dịch, tiến hành chuyển đối chúng sang câu hỏi thông thường Câu hỏi thông thường câu hỏi sau xóa từ thừa bổ sung từ thiếu câu hỏi phản Tương ứng với câu hỏi thông thường, dựa vào kết dóng hàng từ kho ngữ liệu huấn luyện, câu dịch đích cho kết xác Ví dụ: Câu hỏi phản: 你喜 不喜 看 影?Sau xóa từ thừa “不喜 ” bổ sung từ để hỏi “ ” cuối câu, ta câu hỏi thông thường “你喜 看 影 ?” Kết dịch thống kê ví dụ cho kết xác người dịch Hình Chuyển đổi câu hỏi phản sang câu hỏi thơng thường Câu hỏi phản kết dịch: 你 喜 Bạn thích 不 喜 Khơng thích 看 影 Xem phim ? Tách từ câu hỏi phản phương pháp Maximum Matching (MM)[4] ? Sau chuyển đổi sang câu hỏi thông thường kết dịch tương ứng: 你 喜 看 影 ? Bạn thích Xem phim Khơng ? - Phương pháp chuyển đổi (Hình 5) Phần trình bày mơ hình tổng quát trình chuyển đổi câu tiếng Hoa trước cho qua hệ thống dịch thống kê Hoa-Việt Kiểm tra câu tiếng Hoa có khả câu hỏi phản hay khơng? Có hai hướng tách từ phổ biết nay, tách từ dựa vào từ điển tách từ dựa vào thống kê (điển hình phương pháp tách từ CRF nhóm tác giả PiChuan Chang, Michel Galley, Christorpher D.Manning trường đại học Stanford) Trong nghiên cứu này, tách từ câu có khả câu hỏi phản (các câu hỏi có chứa từ “不” “没”) phương pháp Maximum Matching Với từ điển đơn ngữ tiếng Hoa gồm 77.000 mục từ định dạng chuyên gia Hoa ngữ công ty Kim Từ Điển nên chất lượng từ điển tốt Chất lượng phương pháp tách từ MM - 76 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT phụ thuộc vào chất lượng từ điển nên nghiên cứu sử dụng phương pháp truyền thống từ điển sẵn có để tách từ Qua khảo sát, với số lượng câu hỏi phản 212 câu, kết tách từ theo thuật toán MM từ điển 77.000 mục từ cho kết xác 100% Tập V-1, Số (27), tháng 5/2012 Thêm từ “ ” cuối câu (trước dấu ?) - Ví dụ câu hỏi phản “你喝不喝啤酒?” chuyển đổi sau: (Hình 6) Phương pháp Maximum Matching: Còn gọi LRMM (Left Right Maximum Matching) Ở phương pháp , duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển thực lặp lại hết câu Giả sử có chuỗi ký tự C1 , C2 , …, Cn Chúng ta áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải từ hay khơng, sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục thực tìm từ dài Phương pháp thực tách từ đơn giản, nhanh cần dựa vào từ điển để thực Tuy nhiên, khuyết điểm phương pháp từ điển, nghĩa độ xác thực tách từ phụ thuộc hoàn toàn vào tính đủ, tính xác từ điển Kiểm tra câu hỏi phản dạng – Chuyển sang câu hỏi thơng thường Hình thức - Dạng 1: Quy tắc chuyển đổi cho dạng sau: - Xác định câu hỏi có chứa từ “不” “没” hay khơng Hình Chuyển đổi câu hỏi phản hình thức – dạng sang câu hỏi thơng thường Dạng 2: Mơ hình chuyển đổi sau Quy tắc chuyển đổi cho dạng sau: - Xác định câu hỏi có chứa từ “不” “没” hay khơng + Nếu có, Tách từ câu hỏi Xác định từ liền sau từ “不/没”, tìm từ ngữ phía trước từ “不/没” Nếu hai từ giống câu câu hỏi phản dạng hình thức 1, ta tiến hành chuyển đổi sau: Xóa từ “不/没” động từ/tính từ phía sau Thêm từ “ ” cuối câu (trước dấu ?) + Nếu có, Tách từ câu hỏi Xác định từ liền trước từ liền sau từ “不/没” (trong tiếng Hoa từ đứng liền sau từ “不/没” phải động từ tính từ) Nếu hai từ giống câu câu hỏi phản dạng hình thức 1, ta tiến hành chuyển đổi sau: Xóa từ “不/没” động từ/tính từ phía sau - Ví dụ câu hỏi phản “你看 chuyển đổi sau (Hình 7) - 77 - 影不看?” Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Đối với câu hỏi chứa cụm từ “是不是” khơng cần tách từ câu hỏi chắn câu hỏi phản thuộc hình thức 2, cụm từ dịch “phải không” Quy tắc chuyển đổi cho dạng sau: - Xác định câu hỏi có chứa cụm từ “是不是” + Nếu có, Xác định câu có chứa động từ hay khơng Nếu có: Xóa cụm từ “是不是” thêm từ “ ” cuối câu Nếu khơng có: Xóa cụm từ “不是” thêm từ “ ” cuối câu Hình Chuyển đổi câu hỏi phản hình thức – dạng sang câu hỏi thông thường - Ví dụ câu hỏi phản “是不是你 不想参加 Ở dạng dạng hình thức 1, gặp câu có khả câu hỏi phản, để xác định câu có thực câu hỏi phản hay khơng phải tách từ kiểm định Việc tách từ quan trọng, bỏ qua bước có khả nhận 个活 了?” chuyển đổi sau (Hình 8) - diện bị sai Ví dụ câu “学生不学 ”, khơng tách từ câu thõa mãn đặc trưng dạng hình thức câu hỏi phản Trong câu từ động từ “学” (học) đứng trước sau từ “不” nên thuộc câu hỏi phản Tuy nhiên, từ “学” trường hợp từ độc lập, câu sau tách từ có dạng sau: Hình Chuyển đổi câu hỏi phản hình thức sang câu hỏi thơng thường Kết thử nghiệm thảo luận Rõ ràng sau tách từ, từ đứng trước sau từ “不” khơng cịn giống câu khơng phải câu hỏi phản Qua ví dụ cho thấy việc tách từ quan trọng cần thiết tốn nhận diện xác câu hỏi phản Trong báo thực hai thử nghiệm sau: - Hình thức 2: 是不是: 是不是 - 78 - Thử nghiệm 1: Dùng 10.000 cặp câu song ngữ tự tạo: 9.000 dành cho huấn luyện (train), 500 dành cho kiểm tra (test) 500 dành cho điều chỉnh tham số (dev) Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Bảng So sánh kết dịch qua ba hệ thống Hình 10 Hình chụp dịch google ngày 01/06/2011 + Thử nghiệm dịch tự động SMT Baseline[5] - (khơng xử lý câu hỏi phản) + Thử nghiệm dịch tự động SMT Baseline[5] qua tiền xử lý câu hỏi phản + Trong 500 câu test có 14 câu hỏi phản Điểm BLEU[5] Baseline: 46,96; Điểm BLEU có xử lý phản: 47,23 - 79 - Thử nghiệm 2: Sử dụng câu hỏi phản 24 ôn tập sách “301 Câu Đàm Thoại Tiếng Hoa” –Trương Văn Giới – Lê Khắc Kiều Lục dịch; Nhà xuất Khoa Học Xã Hội [3] Sử dụng câu hỏi phản sách “Giáo Trình Ngữ Pháp Tiếng Hoa” – tác giả Tô Cẩm Duy – Nhà xuất Trẻ [2] Tổng Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT cộng câu dịch qua ba hệ thống: Dịch Baseline dùng tool Moses[5], dịch xử lý phản (dùng tool Moses[5]) dịch Google Translator Kết dịch thể bảng dịch google thể Hình 10 Các phần chữ màu nhạt phần dịch bị sai hệ dịch sở (dịch chưa xử lý câu hỏi phản) câu dịch Google Lỗi chủ yếu dịch cấu trúc này: dịch thừa từ thiếu từ Ví dụ câu số 4: “你喝不喝啤酒?” Trong câu dịch sở cho kết “Bạn uống không uống bia?” Google cho kết “không uống bia uống rượu?”, câu dịch “bạn uống bia không?” Ở đây, không sâu vào nguyên nhân dịch sai hệ thống Google, hệ thống phải trải qua hai lần dịch dịch câu Hoa–Việt; lỗi câu tiếng Việt bao gồm lỗi dịch từ Hoa sang Anh từ Anh sang Việt Trong phần này, bàn luận nguyên nhân dịch sai dịch sở Trong ngữ liệu huấn luyện hệ dịch sở, từ câu dịch tương ứng là: “你 (bạn) 喝 (uống) 不 (không) 喝 (uống) 啤酒 (bia)?” Do đó, hệ thống dịch sở dịch câu thành “bạn uống không uống bia?” Kết không với ý nghĩa người dịch, gây hai lỗi: thừa thiếu từ Tập V-1, Số (27), tháng 5/2012 Tương ứng với câu sau biến đổi (xóa thêm từ), kết dịch có chất lượng cao nhiều so với câu dịch sở Google, với câu người dịch V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo này, dựa kho ngữ liệu tự tạo, thực việc dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt mà không thông qua ngôn ngữ trung gian tiếng Anh Bên cạnh đó, chúng tơi khắc phục tốt lỗi câu hỏi phản ngơn ngữ tiếng Hoa gây cho kết dịch gần mong muốn Hướng tới, tiếp tục khắc phục lỗi trật tự từ thường xảy câu chứa từ: “后” ,“以后”,“之后”, từ “的”… Đồng thời nghiên cứu, thử nghiệm phương pháp như: tách từ HoaViệt, gán nhãn từ loại hoa việt, phân loại văn bản,… nhằm tìm phương pháp hiệu để cải tiến dịch tự động Hoa-Việt cho kết tốt LỜI CẢM ƠN Đề tài thực tài trợ quỹ Nafosted trường ĐH Khoa học Tự nhiên, thuộc ĐHQG Tp.HCM TÀI LIỆU THAM KHẢO Theo phân loại phần III, câu “你喝不喝啤 酒?” thuộc câu hỏi phản dạng hình thức nên trước cho hệ thống dịch sở, chuyển đổi câu hỏi phản sang câu hỏi thơng thường (Hình 9) [1] ĐINH ĐIỀN, Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia, 2006 [2] TÔ CẨM DUY, Giáo trình Ngữ pháp tiếng Hoa, Nhà Xuất Bản Trẻ, 2006 [3] TRƯƠNG VĂN GIỚI, LÊ KHẮC KIỀU LỤC biên dịch từ Học Viện Ngôn Ngữ Bắc Kinh, 301 Câu Đàm Thoại Tiếng Hoa tập - 2, Nhà Xuất Bản Khoa Học Xã Hội, 2009 [4] Pak-kwong and Chorkin Chan, Chinese Word Segmentation based on Maximum Matching and Word Binding Force, Department of Computer Science – The University of Hong Kong, Hình Xóa từ thừa thêm từ để hỏi [5] Philipp Koehn, Statistical Machine Translation System – User Manual and Code Guide, University of Edinburgh, September 29, 2010 - 80 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 [6] http:// www.jaist.ac.jp /~bao / VLSP-text/ March2008/ SP3_Baocaokythuat2008thang3.pdf, Báo cáo kỹ thuật, 2008 ĐINH ĐIỀN [7] Công ty Lạc Việt, Vietgle - Dịch tự động, http://www.vietgle.vn/tratu/dich-tu-dong.aspx [8] HỮU LÝ, TUẤN ANH, 3000 câu đàm thoại tiếng Hoa, NXB Giao thông vận tải, 2008 [9] http://www.dantiengtrung.com, tiếng Hoa online dtt [10] http://www.tangthuvien.com, Tin học – công cụ dịch Nhận ngày: 15/06/2011 SƠ LƯỢC VỀ TÁC GIẢ TRẦN THANH PHƯỚC Ngày sinh: 12-07-1981 Tiền Giang Tốt nghiệp Đại học Sư Phạm Tp HCM năm 2006 chuyên ngành Tin học; cao học Tin học năm 2011 Trường Đại học Khoa Học Tự Sinh: 18-01-1966 Tp HCM Tốt nghiệp Đại học ngành Vật lý Điện tử năm 1988 trường ĐH Tổng hợp Tp HCM.; cao học Tin học năm 1996 trường ĐH KH Tự nhiên, Tp HCM; Tiến sĩ Tin học năm 2003 trường ĐH KH Tự nhiên, Tp HCM.; Tiến sĩ Ngôn ngữ học năm 2005 trường Đại học Khoa học Xã hội & Nhân văn, Tp HCM.; Được phong Phó Giáo sư Tin học năm 2007 Công tác giảng dạy nghiên cứu xử lý ngôn ngữ tự nhiên khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên Tp.HCM từ năm 1996 đến ĐT: 090 827 8207 Email: ddien@fit.hcmus.edu.vn Nhiên Tp HCM Tham gia giảng dạy khoa Công nghệ Thông tin Trường Đại học Công Nghiệp Thực Phẩm Tp HCM Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên ĐT: 0908 350 132 Email: phuoctt@cntp.edu.vn - 81 - ... tiền xử lý câu hỏi phản + Trong 500 câu test có 14 câu hỏi phản Điểm BLEU[5] Baseline: 46,96; Điểm BLEU có xử lý phản: 47,23 - 79 - Thử nghiệm 2: Sử dụng câu hỏi phản 24 ơn tập sách “301 Câu Đàm... câu câu hỏi phản IV CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN SANG CÂU HỎI THƠNG THƯỜNG Như phần II.2 (Đặc điểm dịch thống kê HoaViệt) chúng tơi trình bày lỗi sai dịch câu hỏi phản dịch thống kê Hoa-Việt. .. đó, câu hỏi phản, trước cho qua hệ thống dịch, tiến hành chuyển đối chúng sang câu hỏi thông thường Câu hỏi thông thường câu hỏi sau xóa từ thừa bổ sung từ thiếu câu hỏi phản Tương ứng với câu hỏi

Ngày đăng: 25/10/2020, 22:50

Hình ảnh liên quan

+ Trong hoạt động ngôn ngữ, từ không biến hình: - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

rong.

hoạt động ngôn ngữ, từ không biến hình: Xem tại trang 3 của tài liệu.
Trong ba hình thức của câu hỏi chính phản, hình thức 3 đơn giản và cố định, chỉ có từ “没有 ?” - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

rong.

ba hình thức của câu hỏi chính phản, hình thức 3 đơn giản và cố định, chỉ có từ “没有 ?” Xem tại trang 6 của tài liệu.
-Ph ương pháp chuyển đổi (Hình 5) - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

h.

ương pháp chuyển đổi (Hình 5) Xem tại trang 6 của tài liệu.
Hình thức 1-Dạng 1: - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Hình th.

ức 1-Dạng 1: Xem tại trang 7 của tài liệu.
Hình 7. Chuyển đổi câu hỏi chính phản hình thức 1 – dạng 2 sang câu hỏi thông thường  - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Hình 7..

Chuyển đổi câu hỏi chính phản hình thức 1 – dạng 2 sang câu hỏi thông thường Xem tại trang 8 của tài liệu.
Ở dạng 1 và dạng 2ở hình thức 1, khi gặp một câu có  khả  năng  là  câu  hỏi  chính  phản, để  xác  định  câu  này có thực sự là câu hỏi chính phản hay không chúng  ta  phải  tách  từ  và  kiểm định - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

d.

ạng 1 và dạng 2ở hình thức 1, khi gặp một câu có khả năng là câu hỏi chính phản, để xác định câu này có thực sự là câu hỏi chính phản hay không chúng ta phải tách từ và kiểm định Xem tại trang 8 của tài liệu.
Hình thức 2: 是不是 是不是 是不是 是不是: - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Hình th.

ức 2: 是不是 是不是 是不是 是不是: Xem tại trang 8 của tài liệu.
Bảng 2. So sánh kết quả dịch qua ba hệ thống. - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Bảng 2..

So sánh kết quả dịch qua ba hệ thống Xem tại trang 9 của tài liệu.
Hình 9. Xóa từ thừa và thêm từ để hỏi - Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Hình 9..

Xóa từ thừa và thêm từ để hỏi Xem tại trang 10 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan