Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 150 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
150
Dung lượng
3,13 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp GS Vincent Berment Đà Nẵng, 12/2021 MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỞ ĐẦU 1.Đặt vấn đề 2.Mục tiêu nghiên cứu 3.Đối tượng phạm vi nghiên cứu 4.Phương pháp nghiên cứu 5.Bố cục luận án 6.Đóng góp luận án TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 19 1.1 Giới thiệu 19 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động 21 Các phương pháp dịch tự động 21 Kho ngữ liệu dịch tự động 28 Đánh giá chất lượng hệ thống dịch tự động 33 1.3 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt 43 Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch 43 Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 53 2.1 Giới thiệu 53 2.2 Đánh giá chất lượng hệ thống dịch tự động tiếng Việt 54 Tổ chức đánh giá 55 Nhận xét, đánh giá 60 Đề xuất giải pháp đánh giá chất lượng dựa q trình hiệu đính dịch 61 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 69 Tổng quan 69 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 70 Giải pháp nâng cao chất lượng kho ngữ liệu 71 Đánh giá vai trò kho ngữ liệu kết hệ thống dịch 87 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron 91 Tổng quan 91 Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy mạng nơ ron 91 Kết xây dựng hệ thống dịch 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa 104 2.5 Kết luận Chương 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 111 3.1 Giới thiệu 111 3.2 Xây dựng kho ngữ liệu 112 Quy trình bước triển khai 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa 117 Xây dựng kho ngữ liệu ontology 3.3 Kết thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn pháp luật (VIKI Translator) Quy trình bước triển khai Tổ chức huấn luyện mơ hình điều chỉnh Xây dựng mô đun hệ thống dịch 3.4 Đánh giá kết Kết thực nghiệm Đánh giá người dùng 3.5 Kết luận Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Hướng phát triển DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ TÀI LIỆU THAM KHẢO 13 MỞ ĐẦU Đặt vấn đề Nhu cầu trao đổi thông tin quốc gia, văn hóa, người xã hội đại ngày tăng làm cho việc dịch thuật trở nên quan trọng cần thiết Dịch thuật sử dụng người công việc thủ công, chất lượng cao tốc độ chậm, suất thấp giá thành cao mà tái sử dụng Trong đó, phiên dịch viên dù giỏi đến đâu cập nhật hết lượng thơng tin khổng lồ kinh tế tồn cầu phát triển vũ bão Vì vậy, sử dụng hệ thống dịch tự động máy tính để trợ giúp cho trình dịch thuật cần thiết Dịch tự động máy tính cho kết dịch tốt mang lại hiệu với chi phí bỏ ít, dịch nhanh với khối lượng tài liệu lớn thuộc lĩnh vực chuyên môn khác Khi hệ dịch máy trở thành công cụ giúp người tiếp cận kho tri thức khổng lồ viết ngôn ngữ khác Những chương trình máy tính thực cơng việc dịch tự động nhà khoa học giới nghiên cứu phát triển từ kỷ 20 [1] Đối với dịch tự động từ tiếng Việt sang ngơn ngữ khác, có nhiều nghiên cứu sản phẩm ứng dụng nhiều người dùng quan tâm sử dụng, điển hình hệ thống dịch Google, Microsoft, EVTran [2]… Các hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trước, ví dụ dịch từ tiếng Anh sang tiếng Việt ngược lại Khi sử dụng hệ thống dịch tự động, người dùng quan tâm đến chất lượng dịch Tuy nhiên chất lượng dịch tự động cặp ngơn ngữ phổ biến (low-resource) thấp [3], kể dịch từ tiếng Việt sang tiếng Anh ngôn ngữ khác, nên kết dịch chủ yếu để tham khảo, nắm đại ý văn Trong số trường hợp, dịch làm cho người đọc hiểu sai nội dung phần toàn nội dung văn Các hệ thống dịch tự động sử dụng rộng rãi cần có nhiều cải tiến mang lại kết dịch có chất lượng hơn, giúp cho người đọc hiểu văn cần dịch 14 Chính vậy, cần thiết phải có đánh giá mặt khoa học để có số liệu cụ thể minh chứng cho chất lượng hệ thống dịch tiếng Việt, từ phân tích đề xuất giải pháp nhằm nâng cao chất lượng dịch tự động tiếng Việt, giúp hệ thống dịch tự động cho kết dịch xác hơn, trở thành công cụ hiệu giúp cho người dùng hiểu văn tiếng nước ngồi mà khơng phải tốn thời gian tra từ điển Các kết dịch trở thành dịch tham khảo hỗ trợ có hiệu cơng tác dịch thuật Nhằm góp phần giải vấn đề nêu trên, nghiên cứu sinh chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cứu luận án Tiến sỹ kỹ thuật Mục tiêu nghiên cứu Mục tiêu chung nghiên cứu đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt nói chung, phân tích cụ thể cho tốn dịch tự động cặp ngơn ngữ Việt – Anh Các mục tiêu cụ thể gồm: - Đánh giá thực trạng hệ thống dịch tự động tiếng Việt hoạt động nay; - Đề xuất giải pháp nhằm nâng cao chất lượng hệ thống dịch cặp ngôn ngữ Anh – Việt; - Xây dựng hệ thống dịch tự động Anh – Việt lĩnh vực cụ thể văn quy phạm pháp luật Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động - Kho ngữ liệu sử dụng để huấn luyện xây dựng mơ hình dịch tự động - Các phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt hoạt động 15 Với mục tiêu đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu luận án giới hạn số nội dung sau: - Tập trung nghiên cứu, đánh giá hệ thống dịch tự động phổ biến nay, đề xuất giải pháp cải tiến chất lượng dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt ngược lại lĩnh vực hẹp lĩnh vực văn quy phạm pháp luật - Triển khai ứng dụng tảng website nhằm thuận tiện truy cập người dùng Phương pháp nghiên cứu - Phương pháp lý thuyết: Nghiên cứu tài liệu có liên quan đến nội dung đặc trưng ngôn ngữ tiếng Việt, biểu diễn lưu trữ văn bản, trích rút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, phương pháp dịch máy, học máy sử dụng mạng nơ ron, xử lý liệu - Phương pháp thực nghiệm: Trên sở kết nghiên cứu liên quan, triển khai thực nghiệm đánh giá hệ thống dịch tự động, triển khai xây dựng kho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xây dựng huấn luyện mơ hình dịch cho cặp ngơn ngữ Anh – Việt Bố cục luận án Trên sở mục tiêu nghiên cứu đề giới hạn đối tượng, phạm vi nghiên cứu, nhằm đảm bảo tính hợp lý trình tự nghiên cứu thực thời gian triển khai nghiên cứu, luận án tổ chức thành ba chương phần mở đầu, kết luận, cụ thể sau: Chương Tổng quan dịch tự động chất lượng dịch tự động tiếng Việt Chương trình bày tổng quan vấn đề triển khai nghiên cứu luận án, bao gồm khái niệm lĩnh vực dịch tự động, phương pháp dịch, kho ngữ liệu dùng dịch tự động, phương pháp đánh giá chất lượng hệ thống dịch nghiên cứu tổng quan vấn đề cải tiến chất lượng dịch tự động Nội dung chương giới thiệu hệ thống dịch tiếng Việt 16 đánh giá khái quát chất lượng hệ thống, phân tích khía cạnh cần nghiên cứu tổ chức thực nghiệm nhằm cải tiến chất lượng hệ thống dịch, tập trung đến vấn đề quan trọng cải tiến kho ngữ liệu áp dụng phương pháp dịch phù hợp Chương Giải pháp cải tiến chất lượng dịch tự động tiếng Việt Trên sở phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt nghiên cứu, bao gồm phương pháp đánh giá chủ quan khách quan, Chương trình bày quy trình đánh giá xây dựng kịch đánh giá chất lượng số hệ thống dịch tự động Anh - Việt phổ biến Từ thực trạng chất lượng dịch nhận luận án đề xuất số giải pháp nhằm cải tiến chất lượng kho ngữ liệu tiếng Việt khía cạnh số lượng chất lượng, sau triển khai thực nghiệm số giải pháp cải tiến tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện mơ hình dịch tiếng Việt chất lượng tốt Về phương pháp dịch, luận án đề xuất áp dụng mơ hình dịch mạng nơ ron cho cặp ngơn ngữ Anh – Việt để ứng dụng ưu điểm bật phương pháp học máy sử dụng mạng nơ ron Đồng thời, đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa ngữ cảnh, giúp cho hệ thống dịch cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng để hiểu toàn vẹn nội dung văn Chương Thực nghiệm đánh giá kết Từ giải pháp đề xuất Chương 2, nội dung Chương triển khai bước thực nghiệm xây dựng kho ngữ liệu lớn xây dựng mơ hình dịch máy mạng nơ ron cho cặp ngơn ngữ Anh – Việt, sau xây dựng hệ thống dịch lĩnh vực văn quy phạm pháp luật VIKI Translator triển khai môi trường Internet để cung cấp dịch vụ cho người dùng thực tế, qua đánh giá hiệu hệ thống dịch phương pháp đề xuất Đóng góp luận án Luận án có 05 đóng góp sau liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: (1) Triển khai đánh giá chất lượng hệ thống dịch tự động tiếng Việt hoạt động cách đầy đủ chi tiết, từ cơng bố số liệu khoa học minh 17 chứng chất lượng dịch tự động tiếng Việt Các bước thực gồm: xây dựng liệu đánh giá đầy đủ, tin cậy; lập trình ứng dụng hỗ trợ đánh giá; tổ chức đánh giá theo phương pháp chủ quan (đánh giá tự động thông qua số BLEU, NIST) khách quan (do người thực hiện); thu nhận số liệu phân tích, đánh giá Từ q trình triển khai đánh giá này, luận án đề xuất giải pháp đánh giá chất lượng hệ thống dịch thông qua trình hậu xử lý nhằm giúp tiết kiệm thời gian nguồn lực tổ chức đánh giá Kết đóng góp thể cơng trình số (2,6) (2) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu Luận án nghiên cứu minh chứng tác nhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động hệ thống dịch kho ngữ liệu Do đó, luận án tập trung đề xuất triển khai giải pháp khác để cải tiến kho ngữ liệu bao gồm khía cạnh chất lượng khối lượng Các giải pháp cụ thể mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng cách kết hợp thuật tốn Maximum Matching phân tích mối quan hệ thành tố văn bản; giải pháp xác định ranh giới từ ghép tiếng Việt từ mô hình phân phối từ cụm từ văn Giải pháp cải tiến chất lượng dịch tiếng Việt cách cải tiến kho ngữ liệu triển khai cài đặt, thử nghiệm đánh giá cho kết chất lượng dịch cải tiến rõ nét, thể cơng trình (1,4,5,8,9) (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt phương pháp dịch trí tuệ nhân tạo, áp dụng mơ hình học máy mạng nơ ron Đây xem giải pháp mới, tốt thời điểm nghiên cứu đề xuất (năm 2017) để cải tiến chất lượng dịch tự động nói chung, dịch tự động tiếng Việt Giải pháp áp dụng mạng nơ ron mà luận án đề xuất cho phép dịch toàn câu lúc thay dịch theo cụm từ phương pháp dịch máy thống kê Phương pháp mạng nơ ron ưu việt tất phương pháp trước hiểu ngữ nghĩa câu thay dịch dựa nhớ dịch cụm từ Giải pháp luận án đề xuất, triển khai, cài đặt thử nghiệm cho kết dịch có chất lượng tốt nhiều so với phương pháp khác với hệ thống dịch tự động tiếng Việt hoạt động lĩnh vực hẹp thử nghiệm, thể cơng trình (3,7) 18 (4) Đề xuất giải pháp để xây dựng hệ thống dịch tự động hướng ngữ nghĩa Luận án đề xuất mơ hình giải pháp xây dựng hệ thống dịch tự động hướng ngữ nghĩa dựa theo ngữ cảnh thông qua cải tiến mô hình dịch sử dụng mạng nơ ron kết hợp với kho ngữ liệu lớn làm giàu ngữ nghĩa Bằng giải pháp này, kết dịch hệ thống xử lý ngữ nghĩa trước hiển thị cho người dùng, từ biểu diễn thêm tầng ngữ nghĩa khác giúp cho dịch có đầy đủ thơng tin người đọc hiểu tồn vẹn ý nghĩa dịch Kết đóng góp thể (5) cơng trình số (10,11) Đóng góp mặt thực nghiệm sản phẩm sử dụng thực tế: xây dựng, triển khai thực nghiệm hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết thử nghiệm chất lượng dịch tiếng Việt lĩnh vực hẹp (văn quy phạm pháp luật) tốt so với hệ thống dịch tiếng Việt hoạt động Hệ thống dịch cung cấp cho người dùng thông qua môi trường Internet địa https://vikitranslator.com, có 1.500.000 lượt người dùng trang web, 30.000 lượt tải cài đặt phần mềm, nhận đánh tích cực từ phía người dùng với điểm số trung bình 4,5/5,0 từ Google Play Chrome Extensions Có 30 viết từ blog, trang web khác viết đánh giá hướng dẫn sử dụng, với 582.561 liên kết trang chủ hệ thống Bên cạnh đó, kết quan trọng khác có ý nghĩa thực tế đóng góp mặt thực nghiệm mà luận án xây dựng kho ngữ liệu lớn có chất lượng tốt cặp ngơn ngữ Anh – Việt với 1.479.000 cặp câu song ngữ (phần lớn thuộc lĩnh vực văn quy phạm pháp luật) 132 toán dịch tự động tiếng Việt Nghiên cứu đề xuất mơ hình hệ thống dịch tự động hướng ngữ nghĩa, thơng qua hệ thống dịch cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh văn cần dịch giúp cho người đọc hiểu toàn vẹn nội dung văn - Xây dựng triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet Hệ thống dịch sản phẩm ứng dụng giải pháp đề xuất nghiên cứu, xây dựng có sở đánh giá lại tính hiệu giải pháp cải tiến chất lượng dịch tiếng Việt Hệ thống có triệu lượt sử dụng đánh giá tích cực từ phía người dùng Hướng phát triển Để hồn thiện giải pháp hệ thống dịch tự động tiếng Việt giúp hệ thống đạt chất lượng tốt hơn, thời gian tới nghiên cứu sinh tiếp tục tập trung nghiên cứu nội dung sau đây: Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu cao Xây dựng kho ngữ liệu phong phú nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa liệu kết hợp phân tích ngữ nghĩa phương pháp dịch Mở rộng xây dựng kho ngữ liệu lĩnh vực khác triển khai đánh giá, phân tích so sánh Đánh giá yếu tố ngữ cảnh toàn văn để làm tham số đầu vào cho hệ thống dịch, từ nâng cao chất lượng kết dịch 133 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978-604-913-397-8), pp 80-87, 07/2015 Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cứu phương pháp đề xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội thảo khoa học Quốc gia Công nghệ thông tin ứng dụng lĩnh vực CITA2015, Trang 118-121, 06/2015 Nguyễn Văn Bình, Huỳnh Công Pháp, “Cải tiến chất lượng dịch Việt-Anh mô hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc Công nghệ thông tin Truyền thơng” (Hội thảo @), 11/2017 Nguyễn Văn Bình, Huỳnh Công Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of VietnameseRelated Machine Translation Quality”, International Journal of Applied Engineering Research, pp 10242-10248, 12/2017 (Indexed in Scopus) Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017 Huỳnh Cơng Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN: 1859-1531, số 05(114), trang 46-51, 2017 Nguyễn Văn Bình, Huỳnh Công Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp 211-220, 03/2018 (Indexed in Scopus) Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh, “Xây dựng mơ hình thuật tốn hợp liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin ứng dụng lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Đánh giá vai trò kho ngữ liệu chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN 1859-1531, Vol 19, No 1, 01/2021 134 10 Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2021, 06/2021 11 Nguyễn Văn Bình, Huỳnh Cơng Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”, Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus) Ngoài ra, nghiên cứu sinh thực 01 đề tài NCKH cấp Bộ: 12 Nguyễn Văn Bình, Đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp đánh giá chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019 135 TÀI LIỆU THAM KHẢO [1] W Hutchins and H Somers, An Introduction fo Machine Translation Academic Press, Harcourt Brace Jovanovich, Publishers, 1992 [2] Đ T Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngơn ngữ Đời sống, p vol 11(157), 2008 [3] R K Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp 28–39, 2017 [4] W J Hutchins, “Machine Translation: A Brief History,” Concise History of the Language Sciences pp 431–445, 1995, doi: 10.1016/b978-0-08-0425801.50066-0 [5] M Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine Translation, 1984, pp 173–180, doi: 10.7551/mitpress/5779.003.0038 [6] S Sato and M Nagao, “Toward memory-based translation,” in Proceedings of the 13th conference on Computational linguistics -, 1990, vol 3, pp 247–252, doi: 10.3115/991146.991190 [7] H Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers Printed in the Netherlands, pp 113–157, 1999 [8] N Q Phuoc, Y Quan, and C.-Y Ock, “Building a Bidirectional English-Vietnamese Statistical Machine Translation System by Using MOSES,” International Journal of Computer and Electrical Engineering, vol 8, no pp 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168 [9] P Koehn, Statistical Machine Translation Cambridge University Press, 2010 [10] H N Franz Josef Och, “A Systematic Comparison of Various,” Association for Computational Linguistics 2003 [11] D M Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,” DARPA IAO Machine Translation Workshop Santa Monica, CA, 2002 [12] H H A B Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007 Association for Computational Linguistics, Prague, pp 177–180, 2007, doi: 10.5539/ijel.v5n3p143 [13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thơng tin, Học viện cơng nghệ Bưu Viễn thơng, 2013 [14] C Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de systốme, Revue franỗaise de linguistique appliquộe, vol 136 XII, no p 25, 2007, doi: 10.3917/rfla.121.0025 [15] L N M Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp 559–567 [16] P Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc of the 10th Machine Translation Summit, 2005, pp 79– 86, doi: 10.5209/DIDA.19853 [17] J B Carroll, “An Experiment in Evaluating the Quality of Translations,” Mechanical Translation and Computational Linguistics, vol 9, no 3–4 pp 67–75, 1966 [18] J S Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second Workshop on Statistical Machine Translation, 2007, pp 136– 158 [19] M Przybocki, K Peterson, S Bronsart, and G Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach Transl., vol 23, no 2–3, pp 71–103, Sep 2009, doi: 10.1007/s10590-009-9065-6 [20] and I D M Joseph P Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference & Workshop on Emerging Trends in Technology - ICWET ’11 ACM Press, New York, New York, USA, 2011, doi: 10.1145/1980022.1980409 [21] M Snover, B Dorr, R Schwartz, L Micciulla, and J Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT pp 223–231, 2006 [22] D Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 1997, vol 1236, pp 195–206, doi: 10.1007/3-540-63175-5_47 [23] R Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT Summit VI, 1997, pp 232–239 [24] J S White and T A O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey 1994, doi: 10.3115/1075812.1075840 [25] M Denkowski and A Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas 2010 [26] F J Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual 137 Meeting of the Association for Computational Linguistics pp 160–167, 2003 [27] K.-Y Su, M.-W Wu, and J.-S Chang, “A new quantitative quality measure for machine translation systems.” p 433, 1992, doi: 10.3115/992133.992137 [28] V I Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol 10, no pp 707–710, 1966 [29] S Nießen, F J Och, G Leusch, and H Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International Conference on Language Resources and Evaluation, LREC 2000 2000 [30] H S C Tillmann, S Vogel, H Ney, A Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech Communication and Technology 1997 [31] W.-J Z Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002, pp 311–318, doi: 10.1002/andp.19223712302 [32] E Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and Evaluation pp 127–133, 1999 [33] A Popescu-Belis, “An experiment in comparative evaluation: human vs computers,” MT Summit IX pp 307–314, 2003 [34] G N Ramaswamy, J Navrátil, U V Chaudhari, and R D Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, vol pp 61–64, 2003, doi: 10.1109/icassp.2003.1202294 [35] V T Hùng, “Phương pháp công cụ đánh giá tự động hệ thống dịch tự động mạng,” Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, vol 1(18), pp 37–42, 2007 [36] H V Tran, T H Vu, T T Le, P L Nghia, and V V Nguyen, “The English-Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 12th International Workshop on Spoken Language Translation 2015 [37] M Luong and C D Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on spoken language translation pp 76–79, 2015 [38] D T Hoang and O Bojar, “Pivoting methods and data for CzechVietnamese translation via English,” Proceedings of the 19th Annual Conference of the European Association for MT, EAMT2016 pp 190–202, 2016 [39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS A J Southeast Asian Linguist Lang., vol 35, pp 21–36, 2005 138 [40] T.-N.-D Do, V.-B Le, B Bigi, L Besacier, and E Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p 165, 2009, doi: 10.3115/1626431.1626466 [41] L T H Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Oct 2019, pp 315–321, doi: 10.15625/vap.2019.00040 [42] N T Hà, N T M Huyền, and N M Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res Dev Inf Commun Technol., Jul 2018, doi: 10.32913/rd-ict.vol1.no39.550 [43] P N Ln, N V Vinh, and N H Hồng, “Thích ứng miền dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR) Publishing House for Science and Technology, Huế, Oct 28, 2019, doi: 10.15625/vap.2019.00056 [44] T B Ho, N K Pham, T L Ha, and P T Nguyen, “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0,” Special Issue in Journal of Science, Natural Sciences and Technology pp 59– 66, 2008 [45] L K Hung, “One method of interlingual translation,” National Conference on IT Research, Development and Applications CNTT&TT 2003 [46] M Alez, J Us Giménez, and L Arquez, “A Graphical Interface for MT Evaluation and Error Analysis,” Jeju, Republic of Korea Association for Computational Linguistics, pp 139–144, 2012 [47] B Chen and C Cherry, “A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU,” in Association for Computational Linguistics (ACL), 2015, pp 362–367, doi: 10.3115/v1/w14-3346 [48] C.-P Huynh, “Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia.” Institut National Polytechnique de Grenoble - INPG, p 226, 2010 [49] D M Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments from non-parallel corpora,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006, pp 81–88 [50] C P Huynh, “New approach for collecting high quality parallel corpora from multilingual websites,” ACM International Conference Proceeding Series pp 341–344, 2011, doi: 10.1145/2095536.2095599 [51] liệu H C Pháp, “Nghiên cứu xây dựng hệ hệ thống hỗ trợ khai thác 139 dịch tự động.” Đề tài nghiên cứu khoa học cấp Đại học Đà Nẵng, 2012 [52] C B Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des méthodes fondées sur la tâche.pdf.” [53] H.C Pháp, Đ.Đ Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo CNTT ứng dụng lĩnh vực, Lần thứ Đà Nẵng, 2013 [54] Đ Đ T Huỳnh Cơng Pháp, “Giải pháp chuẩn hóa kho ngữ liệu dùng lĩnh vực dịch tự động,” Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, vol 9(58).2012, pp 111–117, 2012 [55] and C.-Y O Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of Named Entity Recognition on English-Vietnamese Neural Machine Translation,” Int J Mach Learn Comput., vol 12, no 2, pp 51–55, 2021, doi: 10.18178/ijmlc.2022.12.2.1078 [56] T Mikolov, “Distributed Representations of Words and Phrases and their Compositionality,” NIPS Deep Learning Workshop pp 1–31, 2013 [57] D Bahdanau, K H Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings 2015 [58] Q Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st International Conference on Machine Learning, 2015, pp 233–239 [59] O V Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network Regularization,” ICLR 2015 : International Conference on Learning Representations 2015 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x [60] Z Li, J Cai, S He, and H Zhao, “Seq2seq Dependency Parsing,” Proceedings of the 27th International Conference on Computational Linguistics, no 15 pp 3203–3214, 2018 [61] Z Yang, Z Hu, Y Deng, C Dyer, and A Smola, “Neural Machine Translation with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp 383–387, doi: 10.18653/v1/E172061 [62] Y Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” https://arxiv.org/abs/ 1609.08144v2, Sep 2016 [63] J D Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord Representations in Vector Space.” 2013, [Online] Available: https://arxiv.org/abs/1301.3781 [64] G Klein, Y Kim, Y Deng, J Crego, J Senellart, and A M Rush, “OpenNMT: Open-source toolkit for neural machine translation,” 20th Annual Conference of the European Association for M Translation, EAMT 2017 p 22, 2017 140 ... chất lượng dịch tự động tiếng Việt Có nhiều nghiên cứu tác giả nước lĩnh vực dịch tự động liên quan đến tiếng Việt Các nhà khoa học đề xuất giải pháp nhằm nâng cao chất lượng dịch máy tiếng Việt, ... đề xây dựng cải tiến chất lượng hệ thống dịch tự động tiếng Việt Từ nghiên cứu trên, thấy toán dịch tự động tiếng Việt hướng nghiên cứu quan tâm năm vừa qua tính cấp thiết dịch tự động ứng dụng... giá chất lượng dịch 43 Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN