Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh. Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ ViệtAnh.
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGƠN NGỮ VIỆT - ANH LUẬN ÁN TIẾN SĨ TỐN HỌC Hà Nội – 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHỊNG VIỆN KHOA HỌC VÀ CƠNG NGHỆ QUÂN SỰ ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: học Mã số: Cơ sở toán học cho tin 9460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phương Thái TS Nguyễn Văn Hùng Hà Nội – 2022 iii LỜI CAM ĐOAN Tơi xin cam đoan, cơng trình nghiên cứu riêng Những nội dung, số liệu kết trình bày luận án hồn tồn trung thực chưa công bố cơng trình khác Các tài liệu tham khảo trích dẫn đầy đủ Hà Nội, ngày tháng năm 2022 Tác giả luận án Đặng Thanh Quyền LỜI CẢM ƠN Luận án thực Viện Khoa học Cơng nghệ qn sự/Bộ Quốc phịng Lời đầu tiên, NCS xin bày tỏ lòng cảm ơn sâu sắc tới PGS.TS Nguyễn Phương Thái, TS Nguyễn Văn Hùng, thầy tận tình giúp đỡ, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học kiểm tra, đánh giá kết nghiên cứu NCS NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng quan Phịng Đào tạo, Viện Cơng nghệ thơng tin sở đào tạo đơn vị quản lý tạo điều kiện, hỗ trợ, giúp đỡ NCS trình học tập, nghiên cứu NCS xin bày tỏ lịng biết ơn chân thành tới thầy Viện KH-CN quân sự, nhà khoa học quân đội bảo nâng đỡ trình học tập, nghiên cứu NCS Chân thành cảm ơn bạn bè, đồng nghiệp nhiều người động viên, chia sẻ, giúp đỡ NCS suốt thời gian qua NCS ghi nhớ công ơn bố mẹ, gia đình xin dành lời cảm ơn đặc biệt tới vợ con, người bên cạnh, động viên chỗ dựa mặt giúp NCS vượt qua khó khăn để hồn thành công việc Tác giả luận án MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG .viii DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU 1 Tính cấp thiết đề tài luận án Mục tiêu nghiên cứu .2 Đối tượng phạm vi nghiên cứu Nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn Bố cục luận án CHƯƠNG TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN 1.1 Tổng quan dịch máy 1.2 Dịch máy thống kê 11 1.2.1 Cơ sở toán học .11 1.2.2 Cấu trúc hệ thống dịch máy thống kê 13 1.3 Dịch máy nơ-ron .15 1.4 Các phương pháp đánh giá hệ thống dịch máy 20 1.4.1 Phương pháp tự động .20 1.4.2 Phương pháp thủ công 22 1.5 Tăng cường liệu huấn luyện cho hệ thống dịch máy 22 1.5.1 Dịch ngược 24 1.5.2 Sao chép liệu đơn ngữ 24 1.5.3 Huấn luyện hai chiều .25 1.5.4 Tự huấn luyện đảo chiều 26 1.6 Gióng hàng từ dịch máy thống kê 27 1.7 Các nghiên cứu liên quan đến dịch máy thống kê cặp ngôn ngữ Việt - Anh 31 1.8 Kết luận Chương 37 CHƯƠNG TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT DỊCH NGƯỢC 38 2.1 Đặt vấn đề 38 2.2 Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ 40 2.3 Đề xuất phương pháp tăng cường liệu huấn luyện cho hệ thống dịch máy thống kê dịch ngược lựa chọn liệu thích nghi 42 2.3.1 Phương pháp đề xuất .43 2.3.2 Đề xuất áp dụng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian tiếng Đức 45 2.3.3 Đề xuất độ đo thích nghi để lựa chọn liệu giả lập 46 2.4 Thử nghiệm đánh giá kết 49 2.4.1 Dữ liệu môi trường thử nghiệm 51 2.4.2 Phương án thực thử nghiệm 53 2.4.3 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu gốc .54 2.4.4 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu tăng cường với toàn câu dịch ngược thêm vào liệu gốc .55 2.4.5 Đánh giá hiệu phương pháp lựa chọn câu giả lập dựa độ đo thích nghi .56 2.5 Kết luận Chương 62 CHƯƠNG CẢI TIẾN MÔ HÌNH GIĨNG HÀNG TỪ TRONG HỆ THỐNG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ .63 3.1 Đặt vấn đề 63 3.2 Các kỹ thuật chia nhỏ từ 66 3.2.1 Chia nhỏ từ thuật tốn mã hóa cặp byte (BPE) .68 3.2.2 Wordpiece 68 3.2.3 Unigram Language Model .69 3.2.4 Morfessor .70 3.3 Cải tiến mơ hình gióng hàng hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ 71 3.3.1 Phương pháp cải tiến mơ hình gióng hàng cho hệ thống SMT cặp ngôn ngữ Việt - Anh sử dụng kỹ thuật chia nhỏ từ 72 3.3.2 Đề xuất áp dụng kỹ thuật chia nhỏ từ phía tiếng Anh trước đưa vào gióng hàng 74 3.3.3 Xây dựng thuật tốn chuẩn hóa bảng gióng hàng tạo bảng gióng hàng A* 76 3.4 Thử nghiệm đánh giá kết 78 3.4.1 Dữ liệu môi trường thử nghiệm 80 3.4.2 Thử nghiệm với mơ hình baseline 81 3.4.3 Thử nghiệm với mơ hình chia nhỏ từ 82 3.4.4 Thử nghiệm mô hình cải tiến gióng hàng từ sử dụng kỹ thuật chia nhỏ từ khác 84 3.5 Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB 89 3.5.1 Mơ hình đề xuất kết hợp dịch ngược chia nhỏ từ .90 3.5.2 Dữ liệu môi trường thử nghiệm 91 3.5.3 Kết thử nghiệm 93 3.6 Kết luận Chương 98 KẾT LUẬN 99 Các kết nghiên cứu luận án 99 Những đóng góp luận án 100 Hướng nghiên cứu 100 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC Đà CƠNG BỐ .102 TÀI LIỆU THAM KHẢO .103 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ℝ� Tập vector số thực n chiều | Số lượng phần tử tập hợp � X∪ Hợp hai tập hợp X Y YX Giao hai tập hợp X Y ∩Y �(∙) Hàm số log(∙) Logarit tự nhiên exp(∙) Hàm mũ (∙)� Chuyển vị ma trận vector ‖∙‖� Dạng chuẩn p ‖∙‖ Dạng chuẩn ∑∙ Tổng chuỗi số ∏∙ Tích chuỗi số �(∙) Phân phối xác suất ~ Biến ngẫu nhiên z với phân phối xác suất P (|) Xác suất có điều kiện X|Y ��[ (�)] Kỳ vọng hàm f(x) BT Back Translation NCS Nghiên cứu sinh MT Dịch máy (Machine Translation) NPL Xử lý ngôn ngữ tự nhiên (Natural Language Processing) NMT Dịch máy nơ-ron (Neural Machine Translation) OOV Từ nằm bảng từ vựng (Out of Vocabulary) SMT Dịch máy thống kê (Statistical Machine Translation) RNN Mạng nơ-ron hồi quy (Recurrent Neural Network) PBSMT Dịch máy thống kê dựa cụm từ (Phrase-based SMT) SBSMT Dịch máy thống kê dựa cú pháp (Syntax-based SMT) BLEU Bilingual Evaluation Understudy EM Thuật toán cực đại kỳ vọng (Expectation Maximization) DANH MỤC CÁC BẢNG Trang Bảng 1.1 Kết thử nghiệm với ngữ liệu công bố [94] 33 Bảng 1.2 Các liệu song ngữ hội thảo IWSLT 2015 [17] .35 Bảng 1.3 Kết đánh giá hệ thống dịch máy Anh–Việt Việt–Anh số liệu song ngữ IWSLT 2015 [17] 36 Bảng 1.4 Danh sách đội tham gia MT campaign cho ngôn ngữ Anh– Việt Việt–Anh hội thảo IWSLT [17] 36 Bảng 2.1 Minh họa câu giả lập nhận từ câu ban đầu sau dịch ngược Anh-Đức-Anh .50 Bảng 2.2 Các liệu sử dụng thử nghiệm 52 Bảng 2.3 Kết thử nghiệm mơ hình MOSES với liệu huấn luyện gốc chưa tăng cường liệu 54 Bảng 2.4 Kết thử nghiệm mơ hình MOSES với liệu huấn luyện tăng cường toàn câu dịch ngược 55 Bảng 2.5 Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với ngưỡng khác 57 Bảng 2.6 Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với ngưỡng khác 59 Bảng 2.7 Kết thử nghiệm phương pháp lựa chọn câu giả lập theo độ đo thích nghi với ngưỡng khác hệ thống MOSES 61 Bảng 3.1 Minh họa gióng hàng cơng cụ GIZA++ chuẩn hóa bảng gióng hàng từ A* .79 Bảng 3.2 Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE sử dụng bảng gióng hàng từ A 83 Bảng 3.3 Tần suất xuất từ tiếng Anh với thuật chia nhỏ từ BPE 85 Bảng 3.4 Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ 86 tiếng Anh, sở đó, đề xuất cải tiến mơ hình gióng hàng áp dụng phương pháp chia nhỏ từ (subword) phía tiếng Anh xây dựng thuật tốn gióng hàng cho phù hợp với phương pháp chia nhỏ từ áp dụng vào dịch máy thống kê iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước sau áp dụng đề xuất cải tiến hệ thống SMT MOSES tập liệu IWSLT2015, EVB Kết thử nghiệm tập liệu cho thấy phương pháp đề xuất tăng chất lượng hệ dịch đánh giá điểm BLEU, độ tăng phụ thuộc tham số phương pháp cụ thể áp dụng thử nghiệm Những đóng góp luận án - Đề xuất phương pháp tăng cường liệu cho dịch máy thống kê cặp ngôn ngữ Việt-Anh sử dụng kỹ thuật dịch ngược độ đo thích nghi - Đề xuất phương pháp cải tiến mơ hình gióng hàng từ sử dụng kỹ thuật chia nhỏ từ Hướng nghiên cứu Mặc dù đạt kết theo mục tiêu đề luận án, hạn chế thời gian khuôn khổ nội dung, luận án tồn số điểm hạn chế: - Việc thử nghiệm đánh giá dựa số số liệu công bố nên thử nghiệm đánh giá chưa đa dạng với nhiều miền liệu khác Chất lượng gióng hàng từ đánh giá thông qua điểm BLEU hệ thống dịch máy mà chưa có thử nghiệm đánh giá độ đo chất lượng gióng hàng từ AER, precision, recall, F-measure nên chưa rõ chất lượng gióng hàng từ thay đổi sau áp dụng phương pháp chia nhỏ từ cải tiến thuật tốn gióng hàng - Dịch ngược sử dụng ngơn ngữ trung gian địi hỏi phải có ngữ liệu huấn luyện đủ lớn để huấn luyện mơ hình dịch phải có mơ hình huấn luyện sẵn chất lượng tốt, nghiên cứu sử dụng mơ hình dịch máy nơ-ron cho cặp ngôn ngữ Anh - Đức - Anh, điều tăng thời gian tăng thời gian huấn luyện mơ hình dịch máy thống kê Để khắc phục tồn nêu trên, NCS đề xuất số hướng nghiên cứu luận án sau: Nghiên cứu, áp dụng kết hợp hai phương pháp đề xuất để nâng cao chất lượng hệ thống dịch máy thống kê, bên cạnh đó, tiếp tục nghiên cứu cải tiến thành phần khác hệ thống dịch máy thống kê mơ hình ngơn ngữ Phương pháp chia nhỏ từ có sẵn xây dựng để áp dụng cho dịch máy nơron, luận án sử dụng cho dịch máy thống kê, nhiên cần nghiên cứu đề xuất phương pháp chia nhỏ từ phù hợp với kiến trúc đặc điểm dịch máy thống kê Nghiên cứu, đề xuất áp dụng phương pháp sử dụng luận án vào dịch máy nơ-ron để xây dựng hệ thống dịch máy tốt cho hai chiều Việt - Anh Anh - Việt DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC Đà CÔNG BỐ [CT1] “Automatic Detection of Problematic Rules in Vietnamese Treebank” RIVF-2015 [CT2] “The JAIST-UET-MITI Machine Translation Systems for IWSLT 2015” IWSLT-2015 [CT3] “Phương pháp tăng cường liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh kỹ thuật back - translation lựa chọn thích nghi” Tạp chí nghiên cứu khoa học công nghệ quân số đặc san tháng 12-2020 [CT4] “Cải tiến mơ hình gióng hàng dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ” Tạp chí nghiên cứu khoa học công nghệ quân số 74 tháng 8-2021 TÀI LIỆU THAM KHẢO Tiếng Anh Al-Onaizan Y, Curin J, Jahr M, Knight K, Lafferty J, Melamed D, et al (1999) Statistical machine translation: Final report JHU Workshop Axelrod A, Elgohary A, Martindale M, Nguyen K, Niu X, Vyas Y, et al (2015) The UMD Machine Translation Systems at IWSLT 2015 Proc IWSLT Ayan NF (2005) Combining linguistic and machine learning techniques for word alignment improvement, PhD Thesis Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate ArXiv Prepr ArXiv14090473 Banón M, Chen P, Haddow B, Heafield K, Hoang H, Espla-Gomis M, et al (2020) ParaCrawl: Web-scale acquisition of parallel corpora Proc 58th Annu Meet Assoc Comput Linguist Tr 4555–67 Bao HT, Khanh PN, Le HT, Thao NTP (2009) Issues and first development phase of the english-vietnamese translation system evsmt1 Proc Third Hanoi Forum Information—Communication Technol Bentivogli L, Bisazza A, Cettolo M, Federico M (2016) Neural versus phrase-based machine translation quality: a case study ArXiv Prepr ArXiv160804631 Bentivogli L, Bisazza A, Cettolo M, Federico M (2018) Neural versus phrase-based mt quality: An in-depth analysis on english–german and english–french Comput Speech Lang Số 49., Tr.52–70 Berg-Kirkpatrick T, Bouchard-Côté A, DeNero J, Klein D (2010) Painless unsupervised learning with features Hum Lang Technol 2010 Annu Conf North Am Chapter Assoc Comput Linguist Tr 582–90 10 Bojar O, Tamchyna A (2011) Improving translation model by monolingual data Proc Sixth Workshop Stat Mach Transl Tr 330–6 11 Brown PF, Cocke J, Della Pietra SA, Della Pietra VJ, Jelinek F, Lafferty J, et al (1990) A statistical approach to machine translation Comput Linguist Số 16.(2), Tr.79–85 12 Brown PF, Della Pietra SA, Della Pietra VJ, Lai JC, Mercer RL (1992) An estimate of an upper bound for the entropy of English Comput Linguist Số 18.(1), Tr.31–40 13 Brown PF, Della Pietra SA, Della Pietra VJ, Mercer RL (1993) The mathematics of statistical machine translation: Parameter estimation Comput Linguist Số 19.(2), Tr.263–311 14 Castilho S, Gaspari F, Moorkens J, Popović M, Toral A (2019) Editors’ foreword to the special issue on human factors in neural machine translation Mach Transl Số 33.(1), Tr.1–7 15 Castilho S, Moorkens J, Gaspari F, Calixto I, Tinsley J, Way A (2017) Is neural machine translation the new state of the art? Prague Bull Math Linguist (108) 16 Castilho S, Moorkens J, Gaspari F, Sennrich R, Sosoni V, Georgakopoulou P, et al (2017) A comparative quality evaluation of PBSMT and NMT using professional translators 17 Cettolo M, Jan N, Sebastian S, Bentivogli L, Cattoni R, Federico M (2015) The iwslt 2015 evaluation campaign Int Workshop Spok Lang Transl 18 Chatzikoumi E (2020) How to evaluate machine translation: A review of automated and human metrics Nat Lang Eng Số 26.(2), Tr.137–61 19 Cheng Y (2019) Semi-supervised learning for neural machine translation Jt Train Neural Mach Transl Springer Tr 25–40 20 Chiang D (2005) A hierarchical phrase-based model for statistical machine translation Proc 43rd Annu Meet Assoc Comput Linguist Acl’05 Tr 263–70 21 Chiang D (2007) Hierarchical phrase-based translation Comput Linguist Số 33.(2), Tr.201–28 22 Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, et al (2014) Learning phrase representations using RNN encoder-decoder for statistical machine translation ArXiv Prepr ArXiv14061078 23 Chung J, Cho K, Bengio Y (2016) A character-level decoder without explicit segmentation for neural machine translation ArXiv Prepr ArXiv160306147 24 Clifton A, Sarkar A (2011) Combining morpheme-based machine translation with post-processing morpheme prediction Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol Tr 32–42 25 Creutz M, Lagus K (2005) Inducing the morphological lexicon of a natural language from unannotated text Proc Int Interdiscip Conf Adapt Knowl Represent Reason AKRR’05 Tr 51–9 26 Creutz M, Lagus K (2002) Unsupervised discovery of morphemes ArXiv Prepr Cs0205057 27 Cui Y, Chen Z, Wei S, Wang S, Liu T, Hu G (2017) Attention-overAttention Neural Networks for Reading Comprehension Proc 55th Annu Meet Assoc Comput Linguist Vol Long Pap , Tr.593–602 28 Currey A, Miceli-Barone AV, Heafield K (2017) Copied monolingual data improves low-resource neural machine translation Proc Second Conf Mach Transl Tr 148–56 29 Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incomplete data via the EM algorithm J R Stat Soc Ser B Methodol Số 39.(1), Tr.1–22 30 Dien D (2003) BTL: an Hybrid Model in the English-Vietnamese Machine Translation System Proc MT Summit IX La USA 2003 31 Dinh D, Ngan NLT, Quang DX, Nam VC (2003) A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation Proc Mach Transl Summit IX Citeseer 32 Doddington G (2002) Automatic evaluation of machine translation quality using n-gram co-occurrence statistics Proc Second Int Conf Hum Lang Technol Res Tr 138–45 33 Dowling M, Lynn T, Poncelas A, Way A (2018) SMT versus NMT: Preliminary comparisons for Irish 34 Dyer C, Chahuneau V, Smith NA (2013) A simple, fast, and effective reparameterization of ibm model Proc 2013 Conf North Am Chapter Assoc Comput Linguist Hum Lang Technol Tr 644–8 35 Dyer C, Clark JH, Lavie A, Smith NA (2011) Unsupervised word alignment with arbitrary features Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol Tr 409–19 36 Edunov S, Ott M, Auli M, Grangier D (2018) Understanding backtranslation at scale ArXiv Prepr ArXiv180809381 37 Farwell D, Wilks Y (1990) ULTRA: a multilingual machine translator New Mexico State University Las Cruces, NM 38 Galley M, Hopkins M, Knight K, Marcu D (2004) What’s in a translation rule? Proc Hum Lang Technol Conf North Am Chapter Assoc Comput Linguist HLT-NAACL 2004 Tr 273–80 39 Garcia-Varea I, Och FJ, Ney H, Casacuberta F (2002) Improving alignment quality in statistical machine translation using contextdependent maximum entropy models COLING 2002 19th Int Conf Comput Linguist 40 Ghaffar SA, Fakhr MW, Sheraton C (2011) English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis Recent Res Math Methods Electr Eng Comput Sci , Tr.50–4 41 Gibadullin I, Valeev A, Khusainova A, Khan A (2019) A survey of methods to leverage monolingual data in low-resource neural machine translation ArXiv Prepr ArXiv191000373 42 Ha T-L, Niehues J, Cho E, Mediani M, Waibel A (2015) The KIT translation systems for IWSLT 2015 Universitätsbibliothek der RWTH Aachen 43 Han D, Martínez-Gómez P, Miyao Y, Sudoh K, Nagata M (2013) Effects of parsing errors on pre-reordering performance for Chinese-toJapanese SMT Proc 27th Pac Asia Conf Lang Inf Comput PACLIC 27 Tr 267–76 44 Ho TB (2005) Current Status of Machine Translation Research in Vietnam Towards Asian wide multi language machine translation project Proc Vietnam Lang Speech Process Workshop 45 Hoang VCD, Koehn P, Haffari G, Cohn T (2018) Iterative backtranslation for neural machine translation Proc 2nd Workshop Neural Mach Transl Gener Tr 18–24 46 Hoang V, Ngo M, Dinh D (2008) A dependency-based word reordering approach for statistical machine translation 2008 IEEE Int Conf Res Innov Vis Future Comput Commun Technol IEEE Tr 120–7 47 Hutchins WJ (2001) Machine translation over fifty years Hist Epistémologie Lang Số 23.(1), Tr.7–31 48 Hutchins WJ, Somers HL (1992) An introduction to machine translation Academic Press London 49 Isabelle P, Cherry C, Foster G (2017) A challenge set approach to evaluating machine translation ArXiv Prepr ArXiv170407431 50 Ittycheriah A, Roukos S (2005) A maximum entropy word aligner for arabic-english machine translation Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 89–96 51 Jia Y, Carl M, Wang X (2019) Post-editing neural machine translation versus phrase-based machine translation for English–Chinese Mach Transl Số 33.(1), Tr.9–29 52 Junczys-Dowmunt M, Dwojak T, Hoang H (2016) Is neural machine translation ready for deployment? A case study on 30 translation directions ArXiv Prepr ArXiv161001108 53 Jurafsky D, Martin JH Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 54 Kamigaito H, Watanabe T, Takamura H, Okumura M, Sumita E (2016) Unsupervised Word Alignment Using Frequency Constraint in Posterior Regularized EM J Nat Lang Process Số 23.(4), Tr.327–51 55 Kay M (1973) Automatic translation of natural languages Daedalus , Tr.217–30 56 Khayrallah H, Koehn P (2018) On the impact of various types of noise on neural machine translation ArXiv Prepr ArXiv180512282 57 Koehn P, Hoang H (2007) Factored translation models Proc 2007 Jt Conf Empir Methods Nat Lang Process Comput Nat Lang Learn EMNLP-CoNLL Tr 868–76 58 Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N, et al (2007) Moses: Open source toolkit for statistical machine translation Proc 45th Annu Meet Assoc Comput Linguist Companion Vol Proc Demo Poster Sess Tr 177–80 59 Koehn P, Knowles R (2017) Six challenges for neural machine translation ArXiv Prepr ArXiv170603872 60 Koehn P, Och FJ, Marcu D (2003) Statistical phrase-based translation UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY INFORMATION SCIENCES INST2003 61 Kudo T (2018) Subword regularization: Improving neural network translation models with multiple subword candidates ArXiv Prepr ArXiv180410959 62 Lample G, Ott M, Conneau A, Denoyer L, Ranzato M (2018) Phrasebased & neural unsupervised machine translation ArXiv Prepr ArXiv180407755 63 Le A-C, Nguyen T-P, Tran Q-L, Linh DB (2018) Integrating Word Embeddings into IBM Word Alignment Models 2018 10th Int Conf Knowl Syst Eng KSE IEEE Tr 79–84 64 Le KH (2003) One method of Interlingua translation Proc Natl Conf IT Res Dev Appl 65 Lee J-H, Lee S-W, Hong G, Hwang Y-S, Kim S-B, Rim HC (2010) A post-processing approach to statistical word alignment reflecting alignment tendency between part-of-speeches Coling 2010 Posters Tr 623–9 66 Lin D, Cherry C (2003) Word Alignment with Cohesion Constraint Companion Vol Proc HLT-NAACL 2003 - Short Pap HLT-NAACL 2003 Truy cập ngày 11/05/2021, Tr 49–51 URL: https://www.aclweb.org/anthology/N03-2017 67 Liu Y, Liu Q, Lin S (2010) Discriminative word alignment by linear modeling Comput Linguist Số 36.(3), Tr.303–39 68 Liu Y, Liu Q, Lin S (2005) Log-linear models for word alignment Proc 43rd Annu Meet Assoc Comput Linguist ACL’05 Tr 459–66 69 Liu Y, Sun M (2015) Contrastive unsupervised word alignment with non- local features Proc AAAI Conf Artif Intell 70 Luong M-T, Manning CD (2015) Stanford neural machine translation systems for spoken language domains Proc Int Workshop Spok Lang Transl Tr 76–9 71 Ma Y, Ozdowska S, Sun Y, Way A (2008) Improving word alignment using syntactic dependencies Association for Computational Linguistics 72 Mahata SK, Mandal S, Das D, Bandyopadhyay S (2018) SMT vs NMT: a comparison over Hindi & Bengali simple sentences ArXiv Prepr ArXiv181204898 73 Menacer MA, Langlois D, Mella O, Fohr D, Jouvet D, Smaïli K (2017) Is statistical machine translation approach dead? ICNLSSP 2017-Int Conf Nat Lang Signal Speech Process Tr 15 74 Mermer C, Saraỗlar M, Sarikaya R (2013) Improving statistical machine translation using Bayesian word alignment and Gibbs sampling IEEE Trans Audio Speech Lang Process Số 21.(5), Tr.1090– 101 75 Mitamura T (1999) Controlled language for multilingual machine translation Proc Mach Transl Summit VII Tr 46–52 76 Mitamura T, Nyberg E, Carbonell JG (1991) An efficient interlingua translation system for multi-lingual document production 77 Moore RC (2005) A discriminative framework for bilingual word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 81–8 78 Moore RC (2004) Improving IBM word alignment model Proc 42nd Annu Meet Assoc Comput Linguist ACL-04 Tr 518–25 79 Müller M, Nguyen T-S, Sperber M, Kilgour K, Stüker S, Waibel A (2015) The 2015 KIT IWSLT Speech-to-Text Systems for English and German Int Workshop Spok Lang Transl IWSLT Citeseer 80 Nagao M (1984) A framework of a mechanical translation between Japanese and English by analogy principle Artif Hum Intell , Tr.351–4 81 Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S (2019) Facebook FAIR’s WMT19 News Translation Task Submission ArXiv Prepr ArXiv190706616 82 Nguyen NT, Le VQ, Nghiem M-Q, Dinh D (2015) A General Approach for Word Reordering in English-Vietnamese-English Statistical Machine Translation Int J Artif Intell Tools Số 24.(06), Tr.1550024 83 Nomura T, Tsukada H, Akiba T Improvement of Word Alignment Models for Vietnamese-to-English Translation 84 Och FJ (2003) Minimum error rate training in statistical machine translation Proc 41st Annu Meet Assoc Comput Linguist Tr 160–7 85 Och FJ, Ney H (2000) A Comparison of Alignment Models for Statistical Machine Translation COLING 2000 Vol 18th Int Conf Comput Linguist COLING 2000 Truy cập ngày 11/05/2021, URL: https://www.aclweb.org/anthology/C00-2163 86 Och FJ, Ney H (2003) A systematic comparison of various statistical alignment models Comput Linguist Số 29.(1), Tr.19–51 87 Och FJ, Ney H (2000) Improved statistical alignment models Proc 38th Annu Meet Assoc Comput Linguist Tr 440–7 88 Och FJ, Ney H (2004) The alignment template approach to statistical machine translation Comput Linguist Số 30.(4), Tr.417–49 89 Ojha AK, Chowdhury KD, Liu C-H, Saxena K (2018) The RGNLP machine translation systems for WAT 2018 ArXiv Prepr ArXiv181200798 90 Ott M, Auli M, Grangier D, Ranzato M (2018) Analyzing uncertainty in neural machine translation Int Conf Mach Learn PMLR Tr 3956–65 91 Papineni K, Roukos S, Ward T, Zhu W-J (2002) Bleu: a method for automatic evaluation of machine translation Proc 40th Annu Meet Assoc Comput Linguist Tr 311–8 92 Park J, Song J, Yoon S (2017) Building a neural machine translation system using only synthetic parallel data ArXiv Prepr ArXiv170400253 93 Pham N-L, Nguyen V-V (2020) Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language VNU J Sci Comput Sci Commun Eng Số 36.(1) 94 Phuoc NQ, Quan Y, Ock C-Y (2016) Building a bidirectional englishvietnamese statistical machine translation system by using moses Int J Comput Electr Eng Số 8.(2), Tr.161 95 Poerner N, Sabet MJ, Roth B, Schütze H (2018) Aligning Very Small Parallel Corpora Using Cross-Lingual Word Embeddings and a Monogamy Objective ArXiv Prepr ArXiv181100066 96 Poncelas A, Popovic M, Shterionov D, Wenniger GM de B, Way A (2019) Combining SMT and NMT back-translated data for efficient NMT ArXiv Prepr ArXiv190903750 97 Poncelas A, Shterionov D, Way A, Wenniger GM de B, Passban P (2018) Investigating Backtranslation in Neural Machine Translation Truy cập ngày 11/05/2021; URL: https://arxiv.org/abs/1804.06189v1 98 Richman T Johns Hopkins scientists win $10.7 million grant to translate little-used languages baltimoresun.com Truy cập ngày 11/05/2021, URL: https://www.baltimoresun.com/latest/bs-md-hopkinslanguage- grant-20171011-story.html 99 Ruiz N, Di Gangi MA, Bertoldi N, Federico M (2019) Assessing the tolerance of neural machine translation systems against speech recognition errors ArXiv Prepr ArXiv190410997 100 Sabet MJ, Faili H, Haffari G (2016) Improving word alignment of rare words with word embeddings Proc COLING 2016 26th Int Conf Comput Linguist Tech Pap Tr 3209–15 101 Sato S, Nagao M (1990) Toward memory-based translation COLNG 1990 Vol Pap Present 13th Int Conf Comput Linguist 102 Schuster M, Nakajima K (2012) Japanese and korean voice search 2012 IEEE Int Conf Acoust Speech Signal Process ICASSP IEEE Tr 5149– 52 103 Sennrich R, Haddow B, Birch A (2015) Improving neural machine translation models with monolingual data ArXiv Prepr ArXiv151106709 104 Sennrich R, Haddow B, Birch A (2015) Neural machine translation of rare words with subword units ArXiv Prepr ArXiv150807909 105 Shterionov D, Nagle P, Casanellas L, Superbo R, O’Dowd T (2017) Empirical evaluation of NMT and PBSMT quality for large-scale translation production 20th Annu Conf Eur Assoc Mach Transl EAMT 2017 106 Smit P, Virpioja S, Grönroos S-A, Kurimo M (2014) Morfessor 2.0: Toolkit for statistical morphological segmentation 14th Conf Eur Chapter Assoc Comput Linguist EACL Gothenbg Swed April 26-30 2014 Aalto University 107 Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J (2006) A study of translation edit rate with targeted human annotation Proc Assoc Mach Transl Am Citeseer 108 Songyot T, Chiang D (2014) Improving word alignment using word similarity Proc 2014 Conf Empir Methods Nat Lang Process EMNLP Tr 1840–5 109 Stahlberg F (2020) Neural machine translation: A review J Artif Intell Res Số 69., Tr.343–418 110 Stahlberg F, Cross J, Stoyanov V (2018) Simple fusion: Return of the language model ArXiv Prepr ArXiv180900125 111 Stahlberg F, Hasler E, Waite A, Byrne B (2016) Syntactically guided neural machine translation ArXiv Prepr ArXiv160504569 112 Sutskever I, Vinyals O, Le QV (2014) Sequence to Sequence Learning with Neural Networks Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2014/hash/a14ac55a4f27472c5d89 4ec1c3c743d2-Abstract.html 113 Talbot D (2005) Constrained EM for parallel text alignment Nat Lang Eng Số 11.(3), Tr.263 114 Tamura A, Watanabe T, Sumita E (2014) Recurrent neural networks for word alignment model Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 1470–80 115 Taskar B, Lacoste-Julien S, Klein D (2005) A discriminative matching approach to word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 73–80 116 Taylor L, Nitschke G (2018) Improving deep learning with generic data augmentation 2018 IEEE Symp Ser Comput Intell SSCI IEEE Tr 1542– 117 Thuong VTHHV, Van VN, Tien TL (2015) The English-Vietnamese Machine Translation System for IWSLT 2015 Proceeding 12th Int Workshop Spok Lang Transl 118 Toral A, Sánchez-Cartagena VM (2017) A multifaceted evaluation of neural versus phrase-based machine translation for language directions ArXiv Prepr ArXiv170102901 119 Tran VH, Vu HT, Pham TH, Van Nguyen V, Le Nguyen M (2016) A reordering model for Vietnamese-English statistical machine translation using dependency information 2016 IEEE RIVF Int Conf Comput Commun Technol Res Innov Vis Future RIVF IEEE Tr 125–30 120 Tran VH, Vu HT, Van Nguyen V, Le Nguyen M (2016) A classifierbased preordering approach for english-vietnamese statistical machine translation Int Conf Intell Text Process Comput Linguist Springer Tr 74–87 121 T Gowda, J May (2020), Finding the Optimal Vocabulary Size for Neural Machine Translation, arXiv:2004.02334v2 122 Unanue IJ, Arratibel LG, Borzeshi EZ, Piccardi M (2018) EnglishBasque statistical and neural machine translation Proc Elev Int Conf Lang Resour Eval LREC 2018 123 Van Bui V, Tran TT, Nguyen NBT, Pham TD, Le AN, Le CA (2015) Improving Word Alignment Through Morphological Analysis Int Symp Integr Uncertain Knowl Model Decis Mak Springer Tr 315–25 124 Vaswani A, Huang L, Chiang D (2012) Smaller alignment models for better translations: Unsupervised word alignment with the l0-norm Proc 50th Annu Meet Assoc Comput Linguist Vol Long Pap Tr 311– 125 Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al (2017) Attention is All you Need Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd05 3c1c4a845aa-Abstract.html 126 Vauquois B (1968) A survey of formal grammars and algorithms for recognition and transformation in mechanical translation Ifip Congr Tr 1114–22 127 Vogel S, Ney H, Tillmann C (1996) HMM-based word alignment in statistical translation COLING 1996 Vol 16th Int Conf Comput Linguist 128 Volkart L, Bouillon P, Girletti S (2018) Statistical vs neural machine translation: A comparison of mth and deepl at swiss post’s language service Proc 40th Conf Transl Comput Tr 145–50 129 Weaver W (1955) Translation Mach Transl Lang Số 14.(15–23), Tr.10 130 Wolk K, Marasek K (2015) PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora ArXiv Prepr ArXiv151201639 131 Yamada K, Knight K (2001) A syntax-based statistical translation model Proc 39th Annu Meet Assoc Comput Linguist Tr 523–30 132 Yang N, Liu S, Li M, Zhou M, Yu N (2013) Word alignment modeling with context dependent deep neural network Proc 51st Annu Meet Assoc Comput Linguist Vol Long Pap Tr 166–75 133 Zeman D (2010) Using TectoMT as a preprocessing tool for phrasebased statistical machine translation Int Conf Text Speech Dialogue Springer Tr 216–23 134 Zens R, Matusov E, Ney H (2004) Improved word alignment using a symmetric lexicon model COLING 2004 Proc 20th Int Conf Comput Linguist Tr 36–42 135 Zhang H, Chiang D (2014) Kneser-Ney smoothing on expected counts Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 765– 74 136 Zheng W, Wang W, Liu D, Zhang C, Zeng Q, Deng Y, et al (2018) Oracle-free detection of translation issue for neural machine translation ArXiv E-Prints ... dù dịch máy thống kê có hạn chế so với dịch máy nơron, nhiều nghiên cứu dịch máy thống kê mang lại kết tốt cho cặp ngôn ngữ tài nguyên hạn hẹp Bên cạnh đó, dịch máy thống kê cài đặt hệ thống máy. .. SỰ ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: học Mã số: Cơ sở toán học cho tin 9460110 LUẬN... thể với ngôn ngữ có nguồn tài nguyên hạn chế - Dịch máy nơ-ron đưa ứng viên dịch không xuất liệu huấn luyện, dịch máy thống kê lựa chọn dịch tốt can thiệp xử lý dịch Trong hệ thống dịch máy thống