Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 158 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
158
Dung lượng
5,24 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 12/2021 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp GS Vincent Berment Đà Nẵng, 12/2021 P A LỜI CAM G ĐOAN E cam đoan cơng trình nghiên cứu Tơi tên Nguyễn Văn Bình Tơi xin tơi thực Các nội dung kết nghiên cứu trình bày Luận án trung thực tham khảo trích dẫn, rõ nguồn tham khảo theo quy định Tác giả Nguyễn Văn Bình P MỤCALỤC G E 0 LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU P A G E 0 DANH MỤC HÌNH VẼ 10 MỞ ĐẦU 13 Đặt vấn đề 13 Mục tiêu nghiên cứu 14 Đối tượng phạm vi nghiên cứu 14 Phương pháp nghiên cứu 15 Bố cục luận án 15 Đóng góp luận án 16 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu 19 19 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động 21 Các phương pháp dịch tự động 21 Kho ngữ liệu dịch tự động 28 Đánh giá chất lượng hệ thống dịch tự động 33 1.3 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt 43 Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch 43 Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG P DỊCH TỰ ĐỘNG TIẾNG VIỆT A G 2.1 Giới thiệu E 2.2 Đánh giá chất lượng hệ thống1dịch tự động tiếng Việt Tổ chức đánh giá Nhận xét, đánh giá 53 53 54 55 60 Đề xuất giải pháp đánh giá chất lượng dựa q trình hiệu đính dịch 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 61 69 Tổng quan 69 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 70 Giải pháp nâng cao chất lượng kho ngữ liệu 71 Đánh giá vai trò kho ngữ liệu kết hệ thống dịch 87 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan 91 91 Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy mạng nơ ron 91 Kết xây dựng hệ thống dịch 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa 104 2.5 Kết luận Chương 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 111 3.1 Giới thiệu 111 3.2 Xây dựng kho ngữ liệu 112 Quy trình bước triển khai 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa 117 Xây dựng kho ngữ liệu ontology 118 P A 3.3 Kết thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn G pháp luật (VIKI Translator) 122 E Quy trình bước triển khai 122 0 điều chỉnh tham số mơ hình Tổ chức huấn luyện mơ hình 122 Xây dựng mơ đun hệ thống dịch 3.4 Đánh giá kết 124 125 Kết thực nghiệm 125 Đánh giá người dùng 128 3.5 Kết luận Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 130 131 Kết luận 131 Hướng phát triển 132 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 133 TÀI LIỆU THAM KHẢO 135 P A TỪ VIẾT TẮT DANH MỤC CÁC G E Thuật ngữ Tiếng Anh Tiếng Việt 0 Automatic Language Processing Ủy ban cố vấn xử lý ngôn ngữ ALPAC Advisory Committee tự động BLEU BiLingual Evaluation Understudy Chỉ số đánh giá chất lượng dịch BLEU CBOW Continuous Bag of Words Mơ hình túi từ liên tục EBMT Example Translation GNMT Google Neural Translation HTER Human Translation Error Rate Chỉ số lỗi dịch người NIST National Institute of Standards and Technology Chỉ số đánh giá chất lượng dịch NIST NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron POS Part of Speech Phân loại từ vựng RNN Recurrent Neural Networks Mạng nơ ron tái phát SMT Statistical Machine Translation Dịch máy thống kê TBL Transformation-Based Learning Dịch máy chuyển đổi TER Translation Edit Rate Chỉ số đo lỗi dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ WMT Workshop on Statistical Machine Translation Hội thảo dịch máy thống kê Based Machine Dịch máy dựa ví dụ Machine Hệ thống dịch tự động sử dụng mạng nơ ron Google P DANH MỤCABẢNG BIỂU G E Bảng 1.1 Chi tiết kho ngữ liệu EuroMatrix Bảng 1.2 Tổng hợp số kho ngữ liệu 30 31 Bảng 1.3 Bảng thang đo tương ứng với mức độ đầy đủ trôi chảy 36 Bảng 1.4 Mô kết đánh giá hình thức xếp hạng 37 Bảng 1.5 Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa MOSES 43 Bảng 1.6 So sánh kết dịch sử dụng MOSES hệ thống Google, Microsoft 44 Bảng 1.7 Kết đánh giá tập liệu TED tst2015 IWSLT 2015 44 Bảng 1.8 Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian 45 Bảng 1.9 Ví dụ số câu hệ thống dịch sai nghĩa 50 Bảng 2.1 Thông tin liệu phục vụ đánh giá 55 Bảng 2.2 Đánh giá kết dịch từ tiếng Anh sang tiếng Việt 57 Bảng 2.3 Đánh giá kết dịch từ tiếng Việt sang tiếng Anh 57 Bảng 2.4 Kết đánh giá phương pháp chủ quan 59 Bảng 2.5 Trung bình số liệu 67 Bảng 2.6 Kết sau hiệu chỉnh dịch 67 Bảng 2.7 Bảng tóm tắt đặc trưng kho ngữ liệu phổ biến 72 Bảng 2.8 Số liệu kho ngữ liệu sử dụng để đánh giá ảnh hưởng đến chất lượng 89 Bảng 2.9 Chất lượng mơ hình dịch nhận Bảng 2.10 Mơ tả liệu phục vụ xây dựng hệ thống dịch 90 103 Bảng 2.11 So sánh chất lượng hệ thống dịch theo phương pháp khác 104 Bảng 3.1 Thống kê số lượng câu kho ngữ liệu xây dựng 114 Bảng 3.2 Tổng hợp quy mô kho ngữ liệu số công bố 115 P A lượng hệ thống dịch Anh-Việt Bảng 3.3 Kết đánh giá so sánh chất 125 G Bảng 3.4 So sánh điểm BLEU đạt ởEmột số nghiên cứu xây dựng hệ thống dịch tiếng Việt 126 Bảng 3.5 So sánh số lượng câu dịch đúng0 127 Bảng 3.6 Ví dụ câu, thuật ngữ mà hệ thống VIKI Translator dịch 127 Kết dịch từ hệ thống VIKI Translator EVTran so sánh xác với gốc bỏ qua việc kiểm tra chữ hoa, chữ thường thể bảng sau: Bảng 3.5 So sánh số lượng câu dịch Số lượng câu đúng/Tổng số câu VIKI Translator EVTran Dịch từ tiếng Anh sang tiếng Việt mục lục Hiệp định 14/30 10/30 Dịch từ tiếng Việt sang tiếng Anh tên quan 15/23 11/23 Một số câu, thuật ngữ mà hệ thống VIKI Translator dịch sau: Bảng 3.6 Ví dụ câu, thuật ngữ mà hệ thống VIKI Translator dịch Bản gốc tiếng Anh Bản gốc tiếng Việt VIKI Translator EVTran The State Bank of Viet Nam Ngân hàng Nhà nước Việt Nam The State Bank of Vietnam The Bank of Viet Nam Ministry of Public Security Bộ Công an Ministry of Public security Police Ministry of Justice Bộ Tư pháp The Ministry of Justice Judicial Ministry of Labour, War invalids and Social Affairs Bộ Lao động Thương binh Xã hội Ministry of Labour, Ministry of Labor - Invalids and War invalids and Social Affairs Social affairs Chapter Sanitary and Chương Biện pháp vệ sinh kiểm dịch Chương Các biện pháp vệ sinh kiểm dịch Chương Các biện pháp vệ sinh kiểm dịch động thực vật Chương 24 Doanh nghiệp vừa nhỏ Chương 24 Doanh nghiệp vừa nhỏ Chương 24 Doanh nghiệp nhỏ vừa Phytosanitary Measures Chapter 24 Small and Medium-sized Enterprises Chapter 27 Administrative and Institutional Provisions Chương 27 Các điều khoản hành thể chế Chương 27 Điều khoản hành thể chế Chương 27 Các quy định thể chế hành Qua so sánh thấy rằng, cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa mơ hình mạng nơ ron mà nghiên cứu xây dựng cho kết tốt Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn pháp luật mà thu thập nên hệ thống dịch dịch phần lớn thuật ngữ liên quan đến lĩnh vực này, số hệ thống khác có tượng dịch sai cụm từ quan trọng Điều cho thấy mơ hình dịch NMT áp dụng hiệu dịch tự động tiếng Việt Đánh giá người dùng Hệ thống dịch VIKI Translator triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức dịch trực tuyến từ tiếng Anh sang tiếng Việt tiếng Việt sang tiếng Anh thông qua môi trường Internet địa chỉ: https://vikitranslator.com Giao diện hệ thống VIKI Translator Hình 3.9 Hình 3.9 Giao diện hệ thống dịch tự động VIKI Translator Ngoài hình thức sử dụng thơng qua website, VIKI Translator cịn cung cấp cách thức sử dụng sau: o Mô đun phần mềm chạy tảng Windows o Mô đun phần mềm chạy tảng Android o Mơ đun tích hợp trình duyệt Chrome (Chrome Extensions) Về bản, phân hệ thị trực tiếp nội dung từ website VIKI Translator gọi hàm API từ website để lấy kết dịch Tổng hợp số kết đạt qua trình triển khai thực nghiệm hệ thống: o Tổng số lượt truy cập sử dụng ứng dụng tất tảng: 1.500.0 người dùng o Tổng số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải ứng dụng Windows: 30.000 lượt o Số người dùng Chrome Extensions: 5.000 người o Đánh giá người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá o Đánh giá người dùng Google Play: 4,5/5 điểm từ 47 đánh giá o Tổng số viết giới thiệu, hướng dẫn sử dụng từ website khác: 30 o Tổng số liên kết từ website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu nay) Hình 3.10 Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics) Hình 3.11 Thống kê tổng số người dùng (Nguồn: Google Analytics) Hình 3.12 Thống kê số lượng liên kết (Nguồn: ahrefs.com) 3.5 Kết luận Chương Nội dung Chương trình bày bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt sở tổng hợp giải pháp cải tiến mặt kho ngữ liệu phương pháp dịch đề xuất chương trước Hệ thống VIKI Translator xây dựng cho kết vượt trội so với hệ thống dịch tiếng Việt qua số liệu đánh giá cụ thể điểm BLEU, NIST WER Hệ thống cho kết khả quan so sánh với số kết xây dựng hệ thống dịch thực nghiên cứu khác Hệ thống dịch Anh – Việt triển khai thực tế gần năm có 1,5 triệu lượt sử dụng, nhận đánh giá tích cực từ phía người dùng Qua cho thấy giải pháp cải tiến mà nghiên cứu đề xuất góp phần xây dựng hệ thống dịch có chất lượng tốt, phù hợp để triển khai tiếp tục nghiên cứu phát triển cho toán dịch tự động tiếng Việt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án triển khai nghiên cứu yếu tố quan trọng ảnh hưởng đến chất lượng kết hệ thống dịch tự động tiếng Việt kho ngữ liệu phương pháp dịch, từ đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt Các nội dung nghiên cứu cụ thể sau: - Nghiên cứu phương pháp đánh giá chất lượng dịch máy, triển khai đánh giá tổng quát chi tiết chất lượng hệ thống dịch tiếng Việt hoạt động nay, cung cấp số liệu làm sở để phân tích, so sánh hệ thống dịch chất lượng dịch lĩnh vực khác hệ thống so sánh với chất lượng hệ thống dịch ngơn ngữ khác Trên sở đưa nhìn tổng thể chất lượng hệ thống dịch tiếng Việt có Nghiên cứu đề xuất phương pháp số đo để tính tốn chất lượng kết dịch q trình người dùng hiệu đính dịch máy Phương pháp đảm bảo tính xác, đồng thời tiết kiệm nguồn lực tổ chức đánh giá - Nghiên cứu kho ngữ liệu phục vụ cho dịch tự động tiếng Việt đề xuất giải pháp nhằm cải tiến chất lượng kho ngữ liệu Các giải pháp cải tiến khía cạnh cải tiến chất lượng số lượng, bao gồm giải pháp mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng cách kết hợp thuật toán Maximum Matching phân tích mối quan hệ thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ cụm từ văn Trên sở nghiên cứu tiến hành xây dựng mô đun phần mềm để mô giải pháp đề xuất thử nghiệm cho kết tốt Từ giải pháp hợp mở rộng kho ngữ liệu nêu trên, nghiên cứu triển khai thu thập kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho hệ thống dịch tự động tiếng Việt - Nghiên cứu phương pháp dịch tự động đề xuất giải pháp ứng dụng mơ hình học máy mạng nơ ron vào toán dịch tự động tiếng Việt nhằm nâng cao chất lượng hệ thống dịch Nghiên cứu tổ chức cài đặt huấn luyện mơ hình dịch thống kê dịch sử dụng mạng nơ ron so sánh kết mơ hình dịch này, qua cho thấy phù hợp mơ hình dịch sử dụng mạng nơ ron tốn dịch tự động tiếng Việt Nghiên cứu đề xuất mơ hình hệ thống dịch tự động hướng ngữ nghĩa, thơng qua hệ thống dịch cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh văn cần dịch giúp cho người đọc hiểu toàn vẹn nội dung văn - Xây dựng triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet Hệ thống dịch sản phẩm ứng dụng giải pháp đề xuất nghiên cứu, xây dựng có sở đánh giá lại tính hiệu giải pháp cải tiến chất lượng dịch tiếng Việt Hệ thống có triệu lượt sử dụng đánh giá tích cực từ phía người dùng Hướng phát triển Để hoàn thiện giải pháp hệ thống dịch tự động tiếng Việt giúp hệ thống đạt chất lượng tốt hơn, thời gian tới nghiên cứu sinh tiếp tục tập trung nghiên cứu nội dung sau đây: - Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu cao - Xây dựng kho ngữ liệu phong phú nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa liệu kết hợp phân tích ngữ nghĩa phương pháp dịch - Mở rộng xây dựng kho ngữ liệu lĩnh vực khác triển khai đánh giá, phân tích so sánh - Đánh giá yếu tố ngữ cảnh toàn văn để làm tham số đầu vào cho hệ thống dịch, từ nâng cao chất lượng kết dịch DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978- 604-913-397-8), pp 80-87, 07/2015 Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cứu phương pháp đề xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội thảo khoa học Quốc gia Công nghệ thông tin ứng dụng lĩnh vực CITA2015, Trang 118-121, 06/2015 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Cải tiến chất lượng dịch Việt-Anh mơ hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông” (Hội thảo @), 11/2017 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of VietnameseRelated Machine Translation Quality”, International Journal of Applied Engineering Research, pp 10242-10248, 12/2017 (Indexed in Scopus) Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017 Huỳnh Cơng Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN: 18591531, số 05(114), trang 46-51, 2017 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp 211-220, 03/2018 (Indexed in Scopus) Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh, “Xây dựng mơ hình thuật toán hợp liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin ứng dụng lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Đánh giá vai trò kho ngữ liệu chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN 1859-1531, Vol 19, No 1, 01/2021 10 Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2021, 06/2021 11 Nguyễn Văn Bình, Huỳnh Cơng Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”, Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus) Ngoài ra, nghiên cứu sinh thực 01 đề tài NCKH cấp Bộ: 12 Nguyễn Văn Bình, Đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp đánh giá chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019 TÀI LIỆU THAM KHẢO [1] W Hutchins and H Somers, An Introduction fo Machine Translation Academic Press, Harcourt Brace Jovanovich, Publishers, 1992 [2] Đ T Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngơn ngữ Đời sống, p vol 11(157), 2008 [3] R K Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp 28–39, 2017 [4] W J Hutchins, “Machine Translation: A Brief History,” Concise History of the Language Sciences pp 431–445, 1995, doi: 10.1016/b978-0-08-0425801.50066-0 [5] M Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine Translation, 1984, pp 173–180, doi: 10.7551/mitpress/5779.003.0038 [6] S Sato and M Nagao, “Toward memory-based translation,” in Proceedings of the 13th conference on Computational linguistics -, 1990, vol 3, pp 247– 252, doi: 10.3115/991146.991190 [7] H Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers Printed in the Netherlands, pp 113–157, 1999 [8] N Q Phuoc, Y Quan, and C.-Y Ock, “Building a Bidirectional EnglishVietnamese Statistical Machine Translation System by Using MOSES,” International Journal of Computer and Electrical Engineering, vol 8, no pp 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168 [9] P Koehn, Statistical Machine Translation Cambridge University Press, 2010 [10] H N Franz Josef Och, “A Systematic Comparison of Various,” Association for Computational Linguistics 2003 [11] D M Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,” DARPA IAO Machine Translation Workshop Santa Monica, CA, 2002 [12] H H A B Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007 Association for Computational Linguistics, Prague, pp 177–180, 2007, doi: 10.5539/ijel.v5n3p143 [13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thông tin, Học viện cơng nghệ Bưu Viễn thơng, 2013 [14] C Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système,” Revue franỗaise de linguistique appliquộe, vol XII, no p 25, 2007, doi: 10.3917/rfla.121.0025 [15] L N M Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp 559–567 [16] P Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc of the 10th Machine Translation Summit, 2005, pp 79–86, doi: 10.5209/DIDA.19853 [17] J B Carroll, “An Experiment in Evaluating the Quality of Translations,” Mechanical Translation and Computational Linguistics, vol 9, no 3–4 pp 67–75, 1966 [18] J S Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second Workshop on Statistical Machine Translation, 2007, pp 136–158 [19] M Przybocki, K Peterson, S Bronsart, and G Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach Transl., vol 23, no 2–3, pp 71–103, Sep 2009, doi: 10.1007/s10590-009-9065-6 [20] and I D M Joseph P Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference & Workshop on Emerging Trends in Technology - ICWET ’11 ACM Press, New York, New York, USA, 2011, doi: 10.1145/1980022.1980409 [21] M Snover, B Dorr, R Schwartz, L Micciulla, and J Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT pp 223–231, 2006 [22] D Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 1997, vol 1236, pp 195–206, doi: 10.1007/3-540-631755_47 [23] R Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT Summit VI, 1997, pp 232–239 [24] J S White and T A O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey 1994, doi: 10.3115/1075812.1075840 [25] M Denkowski and A Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas 2010 [26] F J Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics pp 160–167, 2003 [27] K.-Y Su, M.-W Wu, and J.-S Chang, “A new quantitative quality measure for machine translation systems.” p 433, 1992, doi: 10.3115/992133.992137 [28] V I Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol 10, no pp 707–710, 1966 [29] S Nießen, F J Och, G Leusch, and H Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International Conference on Language Resources and Evaluation, LREC 2000 2000 [30] H S C Tillmann, S Vogel, H Ney, A Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech Communication and Technology 1997 [31] W.-J Z Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002, pp 311–318, doi: 10.1002/andp.19223712302 [32] E Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and Evaluation pp 127–133, 1999 [33] A Popescu-Belis, “An experiment in comparative evaluation: human vs computers,” MT Summit IX pp 307–314, 2003 [34] G N Ramaswamy, J Navrátil, U V Chaudhari, and R D Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings, vol pp 61–64, 2003, doi: 10.1109/icassp.2003.1202294 [35] V T Hùng, “Phương pháp công cụ đánh giá tự động hệ thống dịch tự động mạng,” Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, vol 1(18), pp 37–42, 2007 [36] H V Tran, T H Vu, T T Le, P L Nghia, and V V Nguyen, “The EnglishVietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 12th International Workshop on Spoken Language Translation 2015 [37] M Luong and C D Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on spoken language translation pp 76–79, 2015 [38] D T Hoang and O Bojar, “Pivoting methods and data for Czech-Vietnamese translation via English,” Proceedings of the 19th Annual Conference of the European Association for MT, EAMT2016 pp 190–202, 2016 [39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS A J Southeast Asian Linguist Lang., vol 35, pp 21–36, 2005 [40] T.-N.-D Do, V.-B Le, B Bigi, L Besacier, and E Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p 165, 2009, doi: 10.3115/1626431.1626466 [41] L T H Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Oct 2019, pp 315–321, doi: 10.15625/vap.2019.00040 [42] N T Hà, N T M Huyền, and N M Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res Dev Inf Commun Technol., Jul 2018, doi: 10.32913/rd-ict.vol1.no39.550 [43] P N Ln, N V Vinh, and N H Hồng, “Thích ứng miền dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR) Publishing House for Science and Technology, Huế, Oct 28, 2019, doi: 10.15625/vap.2019.00056 [44] T B Ho, N K Pham, T L Ha, and P T Nguyen, “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0,” Special Issue in Journal of Science, Natural Sciences and Technology pp 59– 66, 2008 [45] L K Hung, “One method of interlingual translation,” National Conference on IT Research, Development and Applications CNTT&TT 2003 [46] M Alez, J Us Giménez, and L Arquez, “A Graphical Interface for MT Evaluation and Error Analysis,” Jeju, Republic of Korea Association for Computational Linguistics, pp 139–144, 2012 [47] B Chen and C Cherry, “A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU,” in Association for Computational Linguistics (ACL), 2015, pp 362–367, doi: 10.3115/v1/w14-3346 [48] C.-P Huynh, “Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia.” Institut National Polytechnique de Grenoble - INPG, p 226, 2010 [49] D M Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments from non-parallel corpora,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006, pp 81–88 [50] C P Huynh, “New approach for collecting high quality parallel corpora from multilingual websites,” ACM International Conference Proceeding Series pp 341–344, 2011, doi: 10.1145/2095536.2095599 [51] H C Pháp, “Nghiên cứu xây dựng hệ hệ thống hỗ trợ khai thác liệu dịch tự động.” Đề tài nghiên cứu khoa học cấp Đại học Đà Nẵng, 2012 [52] C B Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des méthodes fondées sur la tâche.pdf.” [53] H.C Pháp, Đ.Đ Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo CNTT ứng dụng lĩnh vực, Lần thứ Đà Nẵng, 2013 [54] Đ Đ T Huỳnh Cơng Pháp, “Giải pháp chuẩn hóa kho ngữ liệu dùng lĩnh vực dịch tự động,” Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, vol 9(58).2012, pp 111–117, 2012 [55] and C.-Y O Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of Named Entity Recognition on English-Vietnamese Neural Machine Translation,” Int J Mach Learn Comput., vol 12, no 2, pp 51–55, 2021, doi: 10.18178/ijmlc.2022.12.2.1078 [56] T Mikolov, “Distributed Representations of Words and Phrases and their Compositionality,” NIPS Deep Learning Workshop pp 1–31, 2013 [57] D Bahdanau, K H Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings 2015 [58] Q Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st International Conference on Machine Learning, 2015, pp 233–239 [59] O V Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network Regularization,” ICLR 2015 : International Conference on Learning Representations 2015 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x [60] Z Li, J Cai, S He, and H Zhao, “Seq2seq Dependency Parsing,” Proceedings of the 27th International Conference on Computational Linguistics, no 15 pp 3203–3214, 2018 [61] Z Yang, Z Hu, Y Deng, C Dyer, and A Smola, “Neural Machine Translation with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp 383–387, doi: 10.18653/v1/E17-2061 [62] Y Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” https://arxiv.org/abs/ 1609.08144v2, Sep 2016 [63] J D Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord Representations in Vector Space.” 2013, [Online] Available: https://arxiv.org/abs/1301.3781 [64] G Klein, Y Kim, Y Deng, J Crego, J Senellart, and A M Rush, “OpenNMT: Open-source toolkit for neural machine translation,” 20th Annual Conference of the European Association for M Translation, EAMT 2017 p 22, 2017 Đà Nẵng, 12/2021 Đà Nẵng, 12/2021 LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỞ ĐẦU Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục luận án Đóng góp luận án TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động Các phương pháp dịch tự động Kho ngữ liệu dịch tự động Đánh giá chất lượng hệ thống dịch tự động 1.3 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch Nghiên cứu xây dựng cải tiến kho ngữ liệu tiếng Việt 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 1.5 Kết luận Chương GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 2.1 Giới thiệu 2.2 Đánh giá chất lượng hệ thống dịch tự động tiếng Việt Tổ chức đánh giá Nhận xét, đánh giá Đề xuất giải pháp đánh giá chất lượng dựa q trình hiệu đính dịch 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu Giải pháp nâng cao chất lượng kho ngữ liệu Đánh giá vai trò kho ngữ liệu kết hệ thống dịch 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy mạng nơ ron Kết xây dựng hệ thống dịch Giải pháp xây dựng hệ thống dịch ngữ nghĩa 2.5 Kết luận Chương HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 3.1 Giới thiệu 3.2 Xây dựng kho ngữ liệu Quy trình bước triển khai Xây dựng kho ngữ liệu song ngữ số lượng lớn Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa Xây dựng kho ngữ liệu ontology 3.3 Kết thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn pháp luật (VIKI Translator) Quy trình bước triển khai Tổ chức huấn luyện mơ hình dịch điều chỉnh tham số mơ hình Xây dựng mô đun hệ thống dịch 3.4 Đánh giá kết Kết thực nghiệm Đánh giá người dùng 3.5 Kết luận Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Hướng phát triển DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ TÀI LIỆU THAM KHẢO ... tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG P DỊCH TỰ ĐỘNG TIẾNG VIỆT A G 2.1 Giới thiệu E 2.2 Đánh... thống dịch tự động 33 1.3 Các nghiên cứu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt 43 Nghiên cứu xây dựng hệ thống dịch đánh giá chất lượng dịch 43 Nghiên cứu xây dựng cải. .. 19 1.2 Nghiên cứu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động 21 Các phương pháp dịch tự động 21 Kho ngữ liệu dịch tự động 28 Đánh giá chất lượng