Bài viết trình bày một phương pháp dịch NNE-UKW dựa vào việc phân rã từ và mô hình ngôn ngữ. Kết quả thử nghiệm cho thấy phương pháp của chúng tôi đã tăng điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn từ. Mời các bạn cùng tham khảo!
Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Một Phương Pháp Dịch Từ Mới Trong Dịch Máy Hoa-Việt Trần Thanh Phước Nguyễn Thị Thanh Thảo Khoa Công nghệ Thông tin Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM nguyenthithanthao@hotec.edu.vn Khoa Công nghệ Thông tin Trường Đại Học Tôn Đức Thắng tranthanhphuoc@tonducthang.edu.vn Đinh Điền Trịnh Thanh Duy Khoa Kinh tế Kỹ thuật Trường Bách Khoa Sài Gịn trinhthanhduy@gmail.com Khoa Cơng nghệ Thơng tin Trường Đại Học Khoa Học Tự Nhiên, TP.HCM ddien@fit.hcmus.edu.vn Tóm tắt — Từ (UKW: Unknown word) vấn đề hiển nhiên dịch máy nói chung dịch thống kê Hoa-Việt nói riêng Hơn nữa, so với ngơn ngữ giàu tài nguyên khác tiếng Hoa, Anh kho ngữ liệu song ngữ Hoa-Việt cịn hạn chế, vậy, UKW dịch máy Hoa-Việt lại nhiều Mặt khác, ranh giới từ tiếng Hoa tiếng Việt không phân định khoảng trắng, phân đoạn từ thường thực dịch máy Hoa, Việt sang ngôn ngữ khác ngược lại Việc phân đoạn từ làm tăng chất lượng dịch chung lại phát sinh nhiều UKW Chúng chia UKW làm hai phần UKW dạng thực thể có tên UKW khơng thuộc thực thể có tên (NNE-UKW) Trong báo này, chúng tơi trình bày phương pháp dịch NNE-UKW dựa vào việc phân rã từ mơ hình ngơn ngữ Kết thử nghiệm cho thấy phương pháp tăng điểm BLEU so với hệ dịch sở hệ dịch phân đoạn từ Không giống ngôn ngữ phương Tây (điển hình tiếng Anh), từ tiếng Hoa tiếng Việt không phân định khoảng trắng Một câu tiếng Hoa bao gồm dãy ký tự nằm liên tiếp khơng có khoảng trắng ký tự Trong tiếng Việt, từ tả cách với khoảng trắng, dấu câu nằm liền sau từ tả Do đó, việc phân đoạn từ thường giải dịch máy Hoa, Việt sang ngôn ngữ khác Việc phân đoạn từ làm tăng chất lượng dịch thường phát sinh nhiều UKW so với hệ dịch sở (hệ dịch không phân đoạn từ, xem ký tự tiếng Hoa từ tả tiếng Việt đơn vị độc lập) Một ví dụ ngữ liệu thử nghiệm sau: từ tiếng Hoa 车票 (vé xe: bus ticket) UKW hệ dịch phân đoạn từ không UKW hệ dịch sở (Hình 1) Từ khóa — NNE-UKW, unknown word, dịch máy HoaViệt, phân rã từ, mơ hình ngơn ngữ I GIỚI THIỆU Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn chất lượng kho ngữ liệu song ngữ Kho ngữ liệu lớn tinh khiết chất lượng hệ dịch cao Để có ngữ liệu song ngữ cho hệ dịch máy thống kê (SMT: statistical machine translation), bên cạnh phương pháp thu thập tay tốn phương pháp rút trích tự động từ website song ngữ ngày sử dụng rộng rãi Phương pháp rút trích tự động thực cách dị tìm các trang web song ngữ dịch Các trang web song ngữ Hoa-Việt Việt-Hoa khơng nhiều, có dịch thường chưa thực song song Do đó, việc thu thập tự động ngữ liệu song ngữ HoaViệt từ web cịn khó khăn chất lượng ngữ liệu thu thường không cao Hiện tại, kho ngữ liệu hệ thống dù chất lượng tốt số lượng cặp câu chưa nhiều Với kho ngữ liệu hạn chế thế, từ (UKW: Unknown word) hệ dịch Hoa-Việt hiển nhiên so với hệ dịch cho cặp ngôn ngữ giàu tài ngun khác ISBN: 978-604-67-0635-9 Hình Một ví dụ hệ dịch sở (dựa vào ký tự) Từ câu ngữ ngữ liệu huấn luyện, có gióng hàng ký tự 车 (xe) 票 (vé) (chúng không quan tâm đến gióng hàng ký tự khác) Do đó, câu kiểm tra, gặp hai ký tự 车 票, hệ thống dịch chúng Ngược lại, phân đoạn từ, character 车 票 kết hợp thành từ 车票, hệ thống không dịch từ ngữ liệu huấn luyện không tồn Do đó, UKW 车票 phát sinh Chúng chia UKW tiếng Hoa thành hai loại: UKW dạng thực thể có tên UKW khơng thuộc thực thể có tên (NNE-UKW: Not Named Entity UKW) Một từ tiếng Hoa ký tự có nghĩa bao gồm nhiều ký tự kết hợp lại với UKW thường từ bao gồm nhiều ký tự hợp lại Chúng phân rã UKW thành từ nhỏ dịch từ Sau đó, chúng tơi 206 206 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) chọn nghĩa tiếng Việt tốt dựa vào xác suất đồng xuất nghĩa tiếng Việt từ theo kiểu: “A is to B as C is to D”, ví dụ như: [comfortable : uncomfortable = translatable : untranslatable] tiếng Anh Nhóm tác giả phát phương pháp họ dịch xác đến 80% UKW khơng thuộc thực thể có tên Phương pháp thử nghiệm cặp ngôn ngữ như: Pháp-Anh, Đức-Anh Tây Ban NhaAnh Bài báo trình bày sau: Phần 2, chúng tơi trình bày cơng trình liên quan đến tốn xử lý UKW dịch máy Phần nhận dạng dịch UKW trình bày Phần Trong đó, Phần 4, mô tả thử nghiệm số thảo luận Phần kết luận trình bày Phần II CƠNG TRÌNH LIÊN QUAN Hiện có nhiều nghiên cứu với hướng tiếp cận khác nhằm dịch lại UKW, nâng cao hiệu suất dịch máy Dựa vào phép tả từ, nhóm tác giả Joao Silva đồng [1] đề xuất hai phương pháp nhằm khắc phục UKW, là: phát từ nguồn gốc (cognates’ detection) độ tương tự hợp lý (logical analogy) để dịch lại UKW Hướng tiếp cận thực thành công cho cặp ngôn ngữ biến hình Anh - Bồ Đào Nha Một hướng tiếp cận khác để xử lý UKW thực tác giả Matthias Eck đồng [2] Nhóm tác giả tìm định nghĩa UKW ngôn ngữ nguồn dịch định nghĩa UKW (thay dịch UKW) Các định nghĩa UKW rút trích tự động từ từ điển trực tuyến bách khoa toàn thư, sau chúng dịch lại qua hệ thống SMT Kết dịch thay UKW dịch cũ Phương pháp tác giả thử nghiệm cặp ngôn ngữ Anh – Tây Ban Nha Trong báo này, chúng tơi có áp dụng từ điển trực tuyến để tìm dịch nghĩa cho UKW Riêng cặp ngôn ngữ giàu hình thái nhóm tác giả Karunesh Arora đồng [5] sử dụng kỹ thuật xấp xỉ từ vựng để nhận diện tả biến thể từ kho ngữ liệu huấn luyện Tất UKW câu nguồn thay từ biến thể tương ứng tìm thấy ngữ liệu huấn luyện, điều làm giảm nhiều số lượng UKW câu đầu vào Phương pháp tác giả thử nghiệm cặp ngôn ngữ Hin Đi - Nhật III PHƯƠNG PHÁP DỊCH NNE-UKW Chúng phân đoạn từ cho ngữ liệu tiếng Hoa tiếng Việt trước huấn luyện dịch công cụ SMT Trong thử nghiệm, sử dụng công cụ Stanfor Segmenter1 để phân đoạn từ tiếng Hoa, công cụ VnTokenizer2 để phân đoạn từ tiếng Việt, công cụ MOSES3 để thực huấn luyện dịch Kết dịch SMT tiếp tục nhận diện NNE-UKW dịch lại theo mơ hình Hình Ở khía cạnh khác, tác giả Ruiqiang Zhang đồng [6] dịch lại UKW cách phân rã UKW thành từ (subwords) Nhóm tác giả phân rã UKW tiếng Hoa thành từ dịch dựa vào từ (subword-based translation) Từ đơn vị ký tự từ Bên cạnh đó, nhóm tác giả phát rằng, chất lượng dịch tăng đáng kể áp dụng nhận dạng tên riêng (Named Entity recognition: NER) để dịch UKW trước áp dụng dịch dựa vào từ Hình Mơ hình dịch NNE-UKW WordNet phiên âm quốc tế (IPA) sử dụng để xử lý UKW Khan MD đồng [3] sử dụng hai yếu tố để dịch UKW dịch máy dựa ví dụ (EBMT) từ tiếng Anh sang tiếng Bangla Đầu tiên, hệ thống tìm WordNet từ tiếng Anh có nghĩa liên quan đến UKW Từ từ có nghĩa liên quan này, hệ thống chọn từ có nghĩa gần nhất tồn từ điển Anh-Bangla Giả sử khơng tìm từ thỏa mãn, hệ thống sử dụng phiên âm quốc tế để chuyển ngữ cho UKW Bước 1: Chúng tìm kiếm nghĩa NNEUKW từ điển Hoa-Việt trực tuyến Chúng tận dụng phong phú từ vựng từ điển trực tuyến với mong muốn tìm nghĩa tiếng Việt UKW Trong thử nghiệm, sử Download tại: http://nlp.stanford.edu/software/segmenter.shtml Download tại: http://vlsp.vietlp.org:8080/demo/?page=resources Download at: http://www.statmt.org/moses/?n=Moses.Releases Bên cạnh đó, tác giả Philippe Langlais đồng [4] sử dụng phương pháp học tương tự để dịch lại UKW Khái niệm tương tự định nghĩa sau: [A : B = C : D], thể mối quan hệ 207 207 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) dụng từ điển Hoa-Việt trực tuyến từ trang web “https://vi.glosbe.com/zh/vi/” để tra cứu UKW Ví dụ từ 咖哩 (món cà ri: curry), từ UKW kho ngữ liệu song ngữ HoaViệt lại từ vựng có từ điển HoaViệt trực tuyến 𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖2 ) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖(𝑛𝑛−1) ) Nghĩa tiếng Việt tốt nghĩa có tổng xác suất lớn Hình minh họa trình phân rã dịch UKW 手提包 (túi xách tay: handbag), từ không tồn từ điển Hoa-Việt trực tuyến Giả sử phương pháp sử dụng từ điển bước (1) không giải UKW, hệ thống phân rã UKW thành từ dịch nghĩa từ Phương pháp phân rã dịch từ sau: ─ Phân rã UKW thành từ dựa vào từ điển Từ từ gồm nhiều ký tự (hiển nhiên nhỏ UKW), ký tự riêng biệt Một ký tự tiếng Hoa có nghĩa tương ứng tiếng Việt hồn tồn xem ký tự tiếng Hoa từ có nghĩa độc lập Từ tiếng Hoa vô hạn ký tự tiếng Hoa hữu hạn lưu trữ từ điển Do đó, phân rã UKW đến mức ký tự vấn đề UKW khơng cịn Hình Minh họa phân rã dịch NNE-UKW “túi xách tay” từ có tổng xác suất 2-gram cao nhất, từ thay UKW 手提包 dịch tiếng Việt cuối IV ─ Bước kế tiếp, hệ thống dịch từ dựa vào từ điển Một từ có nhiều nghĩa, có nghĩa phổ biến có số nghĩa xuất Để hạn chế khơng gian từ phát sinh, thử nghiệm, chọn nghĩa từ điển Sau bước này, tập hợp nghĩa từ phát sinh A Ngữ liệu thử nghiệm Kho ngữ liệu thử nghiệm bao gồm 30.000 cặp căp Hoa-Việt lấy từ sách dạy đàm thoại tiếng Hoa, diễn đàn tiếng Hoa trực tuyến website song ngữ Hoa-Việt Cụ thể như: sách “301 câu đàm thoại tiếng Hoa” website “http://www.dantiengtrung.com.vn”, website song ngữ “http://www.dongnai.gov.vn”, Chúng sử dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra 5% cho điều chỉnh tham số Các kho ngữ liệu huấn luyện huấn luyện công cụ Moses với tham số mặc định Chúng tơi sử dụng ngữ liệu nhóm VLSP với 212.454 câu tiếng Việt để huấn luyện mơ hình ngôn ngữ tiếng Việt ─ Từ tập hợp nghĩa từ con, hệ thống phát sinh tập hợp nghĩa tiếng Việt cách kết hợp không theo thứ tự tất nghĩa từ UKW Sau bước này, có tập hợp nghĩa tiếng Việt UKW ─ Kế tiếp, hệ thống lọc nghĩa tốt từ tập hợp nghĩa từ Giả sử từ wi (wi = wi1wi2 win) nghĩa tiếng Việt UKW, với wij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) nghĩa tiếng Việt từ n tổng số từ tả từ wi Chúng tơi sử dụng mơ hình ngơn ngữ ngram huấn luyện ngữ liệu tiếng Việt sau: (công thức (1)) 𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 ) … 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 … 𝑤𝑤𝑖𝑖(𝑛𝑛−1) ) B Thực thử nghiệm Chúng sử dụng ngữ liệu để thực ba thử nghiệm sau: Hệ dịch sở (1): xem ký tự tiếng Hoa từ tả tiếng Việt đơn vị độc lập có nghĩa Chúng tơi chèn khoảng trắng vào ký tự tiếng Hoa chèn khoảng trắng vào dấu câu từ tả tiếng Việt Hệ dịch phân đoạn từ (2): phân đoạn từ tiếng Hoa công cụ Stanford Segmenter, công cụ VnTokenizer cho tiếng Việt Sau đó, chúng tơi tiến hành dịch ngữ liệu kiểm tra tiếng Hoa công cụ Moses cho hai trường hợp (1) (2) Kết dịch trường hợp (2) tiếp tục nhận dạng dịch lại NNEUKW (1) Trong thử nghiệm, sử dụng cơng cụ SRILM với mơ hình ngơn ngữ 2-gram để chọn nghĩa tiếng Việt phù hợp Để tránh xác suất 2gram không, tiến hành cộng xác suất với thay nhân chúng lại (công thức (2) 𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 ) + THỬ NGHIỆM VÀ THẢO LUẬN (2) Tùy thuộc vào việc chọn lựa câu ngữ liệu kiểm tra mà điểm BLEU có giá trị khác Hình minh họa điểm BLEU cho cách chọn lựa ngữ Download tại: http://www.speech.sri.com/projects/srilm/download.htm l 208 208 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Kết dịch NNE-UKW 1.500 câu kiểm tra trình bày Bảng liệu kiểm tra theo định dạng sau: 20 câu kho ngữ liệu 18 câu dành cho huấn luyện, câu thứ 19 cho điều chỉnh tham số câu thứ 20 cho kiểm tra Bảng Độ xác dịch NNE-UKW Dịch dựa vào từ điển trực tuyến Dịch dựa vào từ All NNE-UKW Bên cạnh đó, chúng tơi đánh giá độ xác việc dịch NNE-UKW dựa vào công thức sau: 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 đú𝒏𝒏𝒏𝒏 𝑻𝑻𝑻𝒏𝒏𝒏𝒏 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 Câu tiếng Hoa 能 给 我 一张 说明书 吗 ? 去 美术馆 在 这 乘车吗? 我 想 知道 票 价 从 上海 到 北 京 你 喜欢 平面 银幕 的 吗 ? 越南 有 很多 传统 节日 , 如 端午节 、 中秋 节 这 件 晚装 我 要 在 今晚 的 宴 会上穿 Dịch Độ xác (P) 95 60 63,15% 1220 599 49,09% 1315 659 50.11% C Thảo luận Với kết thử nghiệm trên, nhận thấy kết dịch hệ dịch phân đoạn từ thường tốt so với hệ dịch sở Tuy nhiên, hệ dịch phân đoạn từ lại xuất UKW nhiều Bên cạnh đó, chất lượng hệ thống dịch lại UKW thường tốt so với trường hợp dịch phân đoạn từ Điều dễ hiểu chất lượng hệ dịch lại UKW bao gồm chất lượng hệ dịch phân đoạn từ cộng với chất lượng dịch UKW Giả sử kết dịch lại sai hồn tồn chất lượng hệ dịch lại không thấp hệ dịch phân đoạn từ Bảng trình bày sáu trường hợp ngữ liệu kiểm tra Hình Các kết thử nghiệm 𝑷𝑷 𝑷 Tổng UKW (3) Bảng Một số kết dịch qua ba hệ thống Nghĩa tiếng Việt Có thể cho tơi thuyết minh khơng? Đi phịng tranh đón xe phải không? Tôi muốn biết giá vé từ Thượng Hải đến Bắc Kinh Hệ dịch sở Có thể cho tơi tờ cho thấy sách không ? Đi tàng mỹ thuật đón xe phải khơng ? Tơi muốn biết giá vé từ Thượng Hải đến Bắc Kinh Bạn thích loại hình phẳng khơng? Việt Nam có nhiều ngày lễ truyền thống , tết đoan ngọ , tết trung thu bạn thích bình diện bạc mạc khơng ? Việt Nam có nhiều truyền thống lễ tết , trung thu lễ chương Bộ đồ hội cần mặc buổi tiệc tối muốn trang tối mặc Tất hệ dịch có lỗi nghĩa trật tự từ, nhiên, không đề cập lỗi Ở đây, tập trung lỗi hệ thống dịch câu có chứa NNE-UKW Hệ dịch Hệ dịch phân doạn từ Có thể cho tơi 说 明 书 không ? Đi 美术馆 xe phải không ? Tôi muốn biết 票 价 từ Thượng Hải đến Bắc Kinh bạn thích 平 面 银幕 khơng ? Việt Nam có nhiều ngày hội truyền thống, 端午节 , 中秋节 Cái 晚装 muốn tối 宴会 mặc Hệ dịch lại NNE-UKW Có thể cho tơi thuyết minh khơng? phịng tranh đón xe phải khơng? Tơi muốn biết giá vé từ Thượng Hải đến Bắc Kinh Bạn thích mặt hình khơng? Việt Nam có nhiều ngày hội truyền thống, tết đoan ngọ , trung thu liên hoan Cái tối hóa trang tơi muốn tối yến hội mặc sở dịch tất trường hợp, kết dịch hệ dịch thường khơng xác trừ câu số (nhận dạng, dịch đảo trật tự hai ký tự 票 /“vé” 价/ “giá”) Trong trường hợp lại, 209 209 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) ký tự câu tiếng Hoa tồn kho ngữ liệu huấn luyện, hệ dịch sở chọn nghĩa tiếng Việt có xác suất cao làm kết dịch Tuy nhiên, nghĩa thường bị sai Điển từ tiếng Hoa 说明书 trường hợp 1, nghĩa dịch từ “bản thuyết minh” Tuy nhiên, hệ dịch sở lại dịch thành “cho thấy sách” Sở dĩ nghĩa ký tự tương ứng “明/thấy” “书 /sách” có xác suất cao kho ngữ liệu hệ dịch sở Các lỗi sai tương tự trường hợp lại Ở hệ dịch phân đoạn từ, tổng số từ kho ngữ liệu trường hợp so với hệ dịch Phân từ sở nên số lượng gióng hàng từ khả nhận dạng từ hệ dịch so với hệ dịch sở Và kết hệ dịch phát sinh nhiều UKW Mặc khác, từ ngôn ngữ tự nhiên tập mở nên dù kho ngữ liệu có lớn đến mức bao phủ tất từ, việc phát sinh UKW điều tránh khỏi dịch máy Kết dịch trường hợp phân đoạn từ dịch lại qua hệ thống Chúng ta tiếp tục thảo luận cải tiến hệ thống dịch lại thơng qua câu ví dụ bên Bảng minh họa bước xử lý hệ dịch lại trường hợp Bảng Bảng Minh họa bước nhận dạng dịch NNE-UKW đoạn 能 给 我 一张 说明 书吗? 去 美术 馆 在 这 乘车吗? 我 想 知道 票 价 从 上海 到 北 京 Kết dịch phân đoạn từ Có thể cho tơi 说 明 书 không ? Đi 美术馆 xe phải không ? Tôi muốn biết 票 价 từ Thượng Hải đến Bắc Kinh Nhận dạng NNE-UKW Có thể cho 说 明 书/UKW không ? 美 术 馆 /UKW xe phải không ? Tôi muốn biết 票 价 /UKW từ Thượng Hải đến Bắc Kinh Dịch NNEUKW .说明书 … 美 术 馆… phòng tranh … … 票价 … - Dịch dựa vào từ điển trực tuyến - Phân rã UKW dịch dựa vào từ mơ hình ngơn ngữ thuyết minh Giải thích sơ lược - Dịch dựa vào từ điển trực tuyến … giá vé … Bên cạnh cải tiến trên, phát số trường hợp dịch lại bị sai Lỗi sai trường hợp dịch dựa vào từ điển trực tuyến thường sai ngữ cảnh Ví dụ UKW 平面 (ở câu Bảng 2) Theo từ điển từ có nghĩa “mặt bằng”, “mặt phẳng”, “phẳng” Hệ thống dịch lại chọn nghĩa “mặt bằng” để thay cho UKW Tuy nhiên, nghĩa thứ ba “phẳng” chọn lựa cho trường hợp Mặc dù nghĩa “mặt bằng” khơng phù hợp với ngữ cảnh gần với nghĩa từ “phẳng” 你 喜 欢 平面 银幕 的 吗? bạn thích 平 面 银 幕 khơng ? bạn thích 平 面 /UKW 银 幕 /UKW không ? 平面 银幕 mặt hình Dịch dựa vào từ điển trực tuyến 越南 有 很 多 传统 节 日 , 如 端午 节 、 中秋节 Việt Nam có nhiều ngày hội truyền thống, 端 午节 , 中秋节 Việt Nam có nhiều ngày hội truyền thống, 端 午 节 /UKW , 中秋节/UKW 端午节 , 中 秋节 tết đoan ngọ, trung thu liên hoan 这 件 晚装 我 要 在 今晚 的 宴会 上 穿 - Dịch dựa vào từ điển trực tuyến - 宴 会 dịch dựa vào từ điển - 晚 装 dịch dựa vào từ mô hình ngơn ngữ Cái 晚 装 tơi muốn tối 宴 会 mặc Cái 晚 装 /UKW muốn tối 宴会 /UKW mặc 晚 装 宴 会 tối hóa trang yến hội từ dựa vào từ điển mơ hình ngơn ngữ Để hạn chế không gian từ phát sinh, lấy nghĩa tiếng Việt từ điển kết hợp không theo thứ tự nghĩa lại với Việc chọn lựa bị sai nghĩa từ nghĩa từ điển Bên cạnh đó, hệ thống dịch lại chọn nghĩa tiếng Việt tốt dựa vào xác suất 2-gram cao Tuy nhiên số trường hợp xác suất cao khơng đơi với nghĩa tốt Điển UKW 晚装 câu Bảng có nghĩa “đồ hội” hay “trang phục hội” xác suất 2-gram cao tương ứng từ “tối hóa trang” Đối với UKW không tồn từ điển, phân rã chúng thành từ dịch 210 210 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) V KẾT LUẬN TÀI LIỆU THAM KHẢO Trong báo này, đề xuất phương pháp dịch NNE-UKW dịch máy HoaViệt dựa vào từ điển mơ hình ngôn ngữ Kết thực nghiệm cho thấy hệ dịch lại cho chất lượng dịch tốt so với hệ dịch sở, dịch nhiều UKW trường hợp phân đoạn từ, góp phần làm tăng hiệu suất dịch máy Bên cạnh đó, chúng tơi thấy hệ dịch lại UKW cịn nhập nhằng nghĩa hai trường hợp: dịch dựa vào từ điển trực tuyến dịch dựa vào phân rã thành từ [1] [2] [3] [4] Trong tương lai, chúng tơi tích hợp thêm thơng tin từ đồng nghĩa mơ hình ngơn ngữ vào hệ thống để khắc phục lỗi trường hợp dịch dựa vào từ điển trực tuyến Đối với phương pháp dịch dựa vào phân rã thành từ con, điều chỉnh phân rã cách phân rã NNE-UKW mở rộng khơng gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp [5] [6] 211 211 Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso, Dealing with unknown words in statistical machine translation, in proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), pp 176-187, 2012 Matthias Eck, Stephan Vogel, Alex Waibel, Communicating Unknown words in machine translation, in International Conference on Language Resources and Evaluation, pp.15421547, 2008 Khan Md Anwarus Salam, Setsuo Yamada and Setsuo Yamada, How to Translate Unknown Words for English to Bangla Machine Translation Using Transliteration, Journal of computers, vol 8, no 5, pp.481-486, 2013 Philippe Langais and Alexandre Patry, Translating Unknown Words by Analogical Learning, Conference on Empirical Methods in Natural Language Processing, pp.877-886, 2007 Karunesh Arora and Michael Paul and Eiichiro Sumita, Translation of unknown words in phrase-based statistical machine translation for languages of rich morphology, The first International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU - 2008), p.70-75, 2008 Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word Translation by Subword Re-segmentation, in International Joint Conference on Natural Language Processing, pp.225232, 2008 ... rã dịch UKW 手提包 (túi xách tay: handbag), từ không tồn từ điển Hoa-Việt trực tuyến Giả sử phương pháp sử dụng từ điển bước (1) không giải UKW, hệ thống phân rã UKW thành từ dịch nghĩa từ Phương. .. THAM KHẢO Trong báo này, đề xuất phương pháp dịch NNE-UKW dịch máy HoaViệt dựa vào từ điển mơ hình ngơn ngữ Kết thực nghiệm cho thấy hệ dịch lại cho chất lượng dịch tốt so với hệ dịch sở, dịch nhiều... liệu hệ dịch sở Các lỗi sai tương tự trường hợp lại Ở hệ dịch phân đoạn từ, tổng số từ kho ngữ liệu trường hợp so với hệ dịch Phân từ sở nên số lượng gióng hàng từ khả nhận dạng từ hệ dịch so