1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh

165 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGƠN NGỮ VIỆT - ANH LUẬN ÁN TIẾN SĨ TỐN HỌC Hà Nội – 2022 TIEU LUAN MOI download : skknchat@gmail.com BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: Mã số: Cơ sở toán học cho tin học 9460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Phương Thái TS Nguyễn Văn Hùng Hà Nội – 2022 TIEU LUAN MOI download : skknchat@gmail.com i LỜI CAM ĐOAN Tôi xin cam đoan, công trình nghiên cứu riêng tơi Những nội dung, số liệu kết trình bày luận án hồn tồn trung thực chưa cơng bố cơng trình khác Các tài liệu tham khảo trích dẫn đầy đủ Hà Nội, ngày tháng năm 2022 Tác giả luận án Đặng Thanh Quyền TIEU LUAN MOI download : skknchat@gmail.com ii LỜI CẢM ƠN Luận án thực Viện Khoa học Cơng nghệ qn sự/Bộ Quốc phịng Lời đầu tiên, NCS xin bày tỏ lòng cảm ơn sâu sắc tới PGS.TS Nguyễn Phương Thái, TS Nguyễn Văn Hùng, thầy tận tình giúp đỡ, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học kiểm tra, đánh giá kết nghiên cứu NCS NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng quan Phịng Đào tạo, Viện Cơng nghệ thơng tin sở đào tạo đơn vị quản lý tạo điều kiện, hỗ trợ, giúp đỡ NCS trình học tập, nghiên cứu NCS xin bày tỏ lịng biết ơn chân thành tới thầy cô Viện KH-CN quân sự, nhà khoa học quân đội bảo nâng đỡ trình học tập, nghiên cứu NCS Chân thành cảm ơn bạn bè, đồng nghiệp nhiều người động viên, chia sẻ, giúp đỡ NCS suốt thời gian qua NCS ghi nhớ công ơn bố mẹ, gia đình xin dành lời cảm ơn đặc biệt tới vợ con, người bên cạnh, động viên chỗ dựa mặt giúp NCS vượt qua khó khăn để hồn thành công việc Tác giả luận án TIEU LUAN MOI download : skknchat@gmail.com iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU 1 Tính cấp thiết đề tài luận án Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn Bố cục luận án CHƯƠNG TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN .6 1.1 Tổng quan dịch máy 1.2 Dịch máy thống kê 11 1.2.1 Cơ sở toán học 11 1.2.2 Cấu trúc hệ thống dịch máy thống kê 13 1.3 Dịch máy nơ-ron 15 1.4 Các phương pháp đánh giá hệ thống dịch máy 20 1.4.1 Phương pháp tự động 20 1.4.2 Phương pháp thủ công 22 1.5 Tăng cường liệu huấn luyện cho hệ thống dịch máy 22 1.5.1 Dịch ngược 24 1.5.2 Sao chép liệu đơn ngữ 24 1.5.3 Huấn luyện hai chiều 25 1.5.4 Tự huấn luyện đảo chiều 26 1.6 Gióng hàng từ dịch máy thống kê 27 1.7 Các nghiên cứu liên quan đến dịch máy thống kê cặp ngôn ngữ Việt Anh 31 TIEU LUAN MOI download : skknchat@gmail.com iv 1.8 Kết luận Chương 37 CHƯƠNG TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT DỊCH NGƯỢC 38 2.1 Đặt vấn đề 38 2.2 Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ 40 2.3 Đề xuất phương pháp tăng cường liệu huấn luyện cho hệ thống dịch máy thống kê dịch ngược lựa chọn liệu thích nghi 42 2.3.1 Phương pháp đề xuất 43 2.3.2 Đề xuất áp dụng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian tiếng Đức 45 2.3.3 Đề xuất độ đo thích nghi để lựa chọn liệu giả lập 46 2.4 Thử nghiệm đánh giá kết 49 2.4.1 Dữ liệu môi trường thử nghiệm 51 2.4.2 Phương án thực thử nghiệm 53 2.4.3 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu gốc .54 2.4.4 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu tăng cường với toàn câu dịch ngược thêm vào liệu gốc .55 2.4.5 Đánh giá hiệu phương pháp lựa chọn câu giả lập dựa độ đo thích nghi 56 2.5 Kết luận Chương 62 CHƯƠNG CẢI TIẾN MƠ HÌNH GIĨNG HÀNG TỪ TRONG HỆ THỐNG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ 63 3.1 Đặt vấn đề 63 3.2 Các kỹ thuật chia nhỏ từ 66 3.2.1 Chia nhỏ từ thuật tốn mã hóa cặp byte (BPE) 68 3.2.2 Wordpiece 68 3.2.3 Unigram Language Model 69 3.2.4 Morfessor 70 TIEU LUAN MOI download : skknchat@gmail.com v 3.3 Cải tiến mơ hình gióng hàng hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ 71 3.3.1 Phương pháp cải tiến mô hình gióng hàng cho hệ thống SMT cặp ngơn ngữ Việt - Anh sử dụng kỹ thuật chia nhỏ từ 72 3.3.2 Đề xuất áp dụng kỹ thuật chia nhỏ từ phía tiếng Anh trước đưa vào gióng hàng 74 3.3.3 Xây dựng thuật tốn chuẩn hóa bảng gióng hàng tạo bảng gióng hàng A* 76 3.4 Thử nghiệm đánh giá kết 78 3.4.1 Dữ liệu môi trường thử nghiệm 80 3.4.2 Thử nghiệm với mơ hình baseline 81 3.4.3 Thử nghiệm với mô hình chia nhỏ từ 82 3.4.4 Thử nghiệm mơ hình cải tiến gióng hàng từ sử dụng kỹ thuật chia nhỏ từ khác 84 3.5 Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB 89 3.5.1 Mơ hình đề xuất kết hợp dịch ngược chia nhỏ từ 90 3.5.2 Dữ liệu môi trường thử nghiệm 91 3.5.3 Kết thử nghiệm 93 3.6 Kết luận Chương 98 KẾT LUẬN 99 Các kết nghiên cứu luận án 99 Những đóng góp luận án 100 Hướng nghiên cứu 100 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ .102 TÀI LIỆU THAM KHẢO 103 TIEU LUAN MOI download : skknchat@gmail.com vi ℝ | | X∪Y X∩Y (∙) log(∙) exp(∙) (∙) ‖∙‖ ‖∙‖ ∑∙ ∏∙ (∙) ~ ( | ) [ ( )] DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Tập vector số thực n chiều Số lượng phần tử tập hợp Hợp hai tập hợp X Y Giao hai tập hợp X Y Hàm số Logarit tự nhiên Hàm mũ Chuyển vị ma trận vector Dạng chuẩn p Dạng chuẩn Tổng chuỗi số Tích chuỗi số Phân phối xác suất Biến ngẫu nhiên z với phân phối xác suất P Xác suất có điều kiện X|Y Kỳ vọng hàm f(x) BT Back Translation NCS Nghiên cứu sinh MT Dịch máy (Machine Translation) NPL Xử lý ngôn ngữ tự nhiên (Natural Language Processing) NMT Dịch máy nơ-ron (Neural Machine Translation) OOV Từ nằm bảng từ vựng (Out of Vocabulary) SMT Dịch máy thống kê (Statistical Machine Translation) RNN Mạng nơ-ron hồi quy (Recurrent Neural Network) TIEU LUAN MOI download : skknchat@gmail.com vii PBSMT Dịch máy thống kê dựa cụm từ (Phrase-based SMT) SBSMT Dịch máy thống kê dựa cú pháp (Syntax-based SMT) BLEU Bilingual Evaluation Understudy EM Thuật toán cực đại kỳ vọng (Expectation Maximization) TIEU LUAN MOI download : skknchat@gmail.com viii DANH MỤC CÁC BẢNG Trang Bảng 1.1 Kết thử nghiệm với ngữ liệu công bố [94] 33 Bảng 1.2 Các liệu song ngữ hội thảo IWSLT 2015 [17] 35 Bảng 1.3 Kết đánh giá hệ thống dịch máy Anh–Việt Việt–Anh số liệu song ngữ IWSLT 2015 [17] .36 Bảng 1.4 Danh sách đội tham gia MT campaign cho ngôn ngữ Anh– Việt Việt–Anh hội thảo IWSLT [17] 36 Bảng 2.1 Minh họa câu giả lập nhận từ câu ban đầu sau dịch ngược Anh-Đức-Anh .50 Bảng 2.2 Các liệu sử dụng thử nghiệm 52 Bảng 2.3 Kết thử nghiệm mơ hình MOSES với liệu huấn luyện gốc chưa tăng cường liệu 54 Bảng 2.4 Kết thử nghiệm mơ hình MOSES với liệu huấn luyện tăng cường toàn câu dịch ngược 55 Bảng 2.5 Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với ngưỡng khác 57 Bảng 2.6 Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với ngưỡng khác 59 Bảng 2.7 Kết thử nghiệm phương pháp lựa chọn câu giả lập theo độ đo thích nghi với ngưỡng khác hệ thống MOSES 61 Bảng 3.1 Minh họa gióng hàng cơng cụ GIZA++ chuẩn hóa bảng gióng hàng từ A* .79 Bảng 3.2 Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE sử dụng bảng gióng hàng từ A 83 Bảng 3.3 Tần suất xuất từ tiếng Anh với thuật chia nhỏ từ BPE 85 Bảng 3.4 Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ 86 TIEU LUAN MOI download : skknchat@gmail.com 107 49 Isabelle P, Cherry C, Foster G (2017) A challenge set approach to evaluating machine translation ArXiv Prepr ArXiv170407431 50 Ittycheriah A, Roukos S (2005) A maximum entropy word aligner for arabic-english machine translation Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 89–96 51 Jia Y, Carl M, Wang X (2019) Post-editing neural machine translation versus phrase-based machine translation for English– Chinese Mach Transl Số 33.(1), Tr.9–29 52 Junczys-Dowmunt M, Dwojak T, Hoang H (2016) Is neural machine translation ready for deployment? A case study on 30 translation directions ArXiv Prepr ArXiv161001108 53 Jurafsky D, Martin JH Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 54 Kamigaito H, Watanabe T, Takamura H, Okumura M, Sumita E (2016) Unsupervised Word Alignment Using Frequency Constraint in Posterior Regularized EM J Nat Lang Process Số 23.(4), Tr.327–51 55 Kay M (1973) Automatic translation of natural languages Daedalus , Tr.217–30 56 Khayrallah H, Koehn P (2018) On the impact of various types of noise on neural machine translation ArXiv Prepr ArXiv180512282 57 Koehn P, Hoang H (2007) Factored translation models Proc 2007 Jt Conf Empir Methods Nat Lang Process Comput Nat Lang Learn EMNLP-CoNLL Tr 868–76 58 Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N, et al (2007) Moses: Open source toolkit for statistical machine translation Proc 45th Annu Meet Assoc Comput Linguist Companion Vol Proc Demo Poster Sess Tr 177–80 59 Koehn P, Knowles R (2017) Six challenges for neural machine translation ArXiv Prepr ArXiv170603872 60 Koehn P, Och FJ, Marcu D (2003) Statistical phrase-based translation UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY INFORMATION SCIENCES INST2003 TIEU LUAN MOI download : skknchat@gmail.com 108 61 Kudo T (2018) Subword regularization: Improving neural network translation models with multiple subword candidates ArXiv Prepr ArXiv180410959 62 Lample G, Ott M, Conneau A, Denoyer L, Ranzato M (2018) Phrase-based & neural unsupervised machine translation ArXiv Prepr ArXiv180407755 63 Le A-C, Nguyen T-P, Tran Q-L, Linh DB (2018) Integrating Word Embeddings into IBM Word Alignment Models 2018 10th Int Conf Knowl Syst Eng KSE IEEE Tr 79–84 64 Le KH (2003) One method of Interlingua translation Proc Natl Conf IT Res Dev Appl 65 Lee J-H, Lee S-W, Hong G, Hwang Y-S, Kim S-B, Rim HC (2010) A post-processing approach to statistical word alignment reflecting alignment tendency between part-of-speeches Coling 2010 Posters Tr 623–9 66 Lin D, Cherry C (2003) Word Alignment with Cohesion Constraint Companion Vol Proc HLT-NAACL 2003 - Short Pap HLTNAACL 2003 Truy cập ngày 11/05/2021, Tr 49–51 URL: https://www.aclweb.org/anthology/N03-2017 67 Liu Y, Liu Q, Lin S (2010) Discriminative word alignment by linear modeling Comput Linguist Số 36.(3), Tr.303–39 68 Liu Y, Liu Q, Lin S (2005) Log-linear models for word alignment Proc 43rd Annu Meet Assoc Comput Linguist ACL’05 Tr 459–66 69 Liu Y, Sun M (2015) Contrastive unsupervised word alignment with non-local features Proc AAAI Conf Artif Intell 70 Luong M-T, Manning CD (2015) Stanford neural machine translation systems for spoken language domains Proc Int Workshop Spok Lang Transl Tr 76–9 71 Ma Y, Ozdowska S, Sun Y, Way A (2008) Improving word alignment using syntactic dependencies Association for Computational Linguistics 72 Mahata SK, Mandal S, Das D, Bandyopadhyay S (2018) SMT vs NMT: a comparison over Hindi & Bengali simple sentences ArXiv Prepr ArXiv181204898 TIEU LUAN MOI download : skknchat@gmail.com 109 73 Menacer MA, Langlois D, Mella O, Fohr D, Jouvet D, Smaïli K (2017) Is statistical machine translation approach dead? ICNLSSP 2017-Int Conf Nat Lang Signal Speech Process Tr 15 74 Mermer C, Saraỗlar M, Sarikaya R (2013) Improving statistical machine translation using Bayesian word alignment and Gibbs sampling IEEE Trans Audio Speech Lang Process Số 21.(5), Tr.1090–101 75 Mitamura T (1999) Controlled language for multilingual machine translation Proc Mach Transl Summit VII Tr 46–52 76 Mitamura T, Nyberg E, Carbonell JG (1991) An efficient interlingua translation system for multi-lingual document production 77 Moore RC (2005) A discriminative framework for bilingual word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 81–8 78 Moore RC (2004) Improving IBM word alignment model Proc 42nd Annu Meet Assoc Comput Linguist ACL-04 Tr 518–25 79 Müller M, Nguyen T-S, Sperber M, Kilgour K, Stüker S, Waibel A (2015) The 2015 KIT IWSLT Speech-to-Text Systems for English and German Int Workshop Spok Lang Transl IWSLT Citeseer 80 Nagao M (1984) A framework of a mechanical translation between Japanese and English by analogy principle Artif Hum Intell , Tr.351–4 81 Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S (2019) Facebook FAIR’s WMT19 News Translation Task Submission ArXiv Prepr ArXiv190706616 82 Nguyen NT, Le VQ, Nghiem M-Q, Dinh D (2015) A General Approach for Word Reordering in English-Vietnamese-English Statistical Machine Translation Int J Artif Intell Tools Số 24.(06), Tr.1550024 83 Nomura T, Tsukada H, Akiba T Improvement of Word Alignment Models for Vietnamese-to-English Translation 84 Och FJ (2003) Minimum error rate training in statistical machine translation Proc 41st Annu Meet Assoc Comput Linguist Tr 160–7 85 Och FJ, Ney H (2000) A Comparison of Alignment Models for Statistical Machine Translation COLING 2000 Vol 18th Int Conf Comput Linguist COLING 2000 Truy cập ngày 11/05/2021, URL: https://www.aclweb.org/anthology/C00-2163 TIEU LUAN MOI download : skknchat@gmail.com 110 86 Och FJ, Ney H (2003) A systematic comparison of various statistical alignment models Comput Linguist Số 29.(1), Tr.19–51 87 Och FJ, Ney H (2000) Improved statistical alignment models Proc 38th Annu Meet Assoc Comput Linguist Tr 440–7 88 Och FJ, Ney H (2004) The alignment template approach to statistical machine translation Comput Linguist Số 30.(4), Tr.417–49 89 Ojha AK, Chowdhury KD, Liu C-H, Saxena K (2018) The RGNLP machine translation systems for WAT 2018 ArXiv Prepr ArXiv181200798 90 Ott M, Auli M, Grangier D, Ranzato M (2018) Analyzing uncertainty in neural machine translation Int Conf Mach Learn PMLR Tr 3956–65 91 Papineni K, Roukos S, Ward T, Zhu W-J (2002) Bleu: a method for automatic evaluation of machine translation Proc 40th Annu Meet Assoc Comput Linguist Tr 311–8 92 Park J, Song J, Yoon S (2017) Building a neural machine translation system using only synthetic parallel data ArXiv Prepr ArXiv170400253 93 Pham N-L, Nguyen V-V (2020) Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language VNU J Sci Comput Sci Commun Eng Số 36.(1) 94 Phuoc NQ, Quan Y, Ock C-Y (2016) Building a bidirectional english-vietnamese statistical machine translation system by using moses Int J Comput Electr Eng Số 8.(2), Tr.161 95 Poerner N, Sabet MJ, Roth B, Schütze H (2018) Aligning Very Small Parallel Corpora Using Cross-Lingual Word Embeddings and a Monogamy Objective ArXiv Prepr ArXiv181100066 96 Poncelas A, Popovic M, Shterionov D, Wenniger GM de B, Way A (2019) Combining SMT and NMT back-translated data for efficient NMT ArXiv Prepr ArXiv190903750 97 Poncelas A, Shterionov D, Way A, Wenniger GM de B, Passban P (2018) Investigating Backtranslation in Neural Machine Translation Truy cập ngày 11/05/2021; URL: https://arxiv.org/abs/1804.06189v1 98 Richman T Johns Hopkins scientists win $10.7 million grant to translate little-used languages baltimoresun.com Truy cập ngày 11/05/2021, URL: https://www.baltimoresun.com/latest/bs-md-hopkinslanguage-grant-20171011-story.html TIEU LUAN MOI download : skknchat@gmail.com 111 99 Ruiz N, Di Gangi MA, Bertoldi N, Federico M (2019) Assessing the tolerance of neural machine translation systems against speech recognition errors ArXiv Prepr ArXiv190410997 100 Sabet MJ, Faili H, Haffari G (2016) Improving word alignment of rare words with word embeddings Proc COLING 2016 26th Int Conf Comput Linguist Tech Pap Tr 3209–15 101 Sato S, Nagao M (1990) Toward memory-based translation COLNG 1990 Vol Pap Present 13th Int Conf Comput Linguist 102 Schuster M, Nakajima K (2012) Japanese and korean voice search 2012 IEEE Int Conf Acoust Speech Signal Process ICASSP IEEE Tr 5149– 52 103 Sennrich R, Haddow B, Birch A (2015) Improving neural machine translation models with monolingual data ArXiv Prepr ArXiv151106709 104 Sennrich R, Haddow B, Birch A (2015) Neural machine translation of rare words with subword units ArXiv Prepr ArXiv150807909 105 Shterionov D, Nagle P, Casanellas L, Superbo R, O’Dowd T (2017) Empirical evaluation of NMT and PBSMT quality for largescale translation production 20th Annu Conf Eur Assoc Mach Transl EAMT 2017 106 Smit P, Virpioja S, Grönroos S-A, Kurimo M (2014) Morfessor 2.0: Toolkit for statistical morphological segmentation 14th Conf Eur Chapter Assoc Comput Linguist EACL Gothenbg Swed April 26-30 2014 Aalto University 107 Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J (2006) A study of translation edit rate with targeted human annotation Proc Assoc Mach Transl Am Citeseer 108 Songyot T, Chiang D (2014) Improving word alignment using word similarity Proc 2014 Conf Empir Methods Nat Lang Process EMNLP Tr 1840–5 109 Stahlberg F (2020) Neural machine translation: A review J Artif Intell Res Số 69., Tr.343–418 110 Stahlberg F, Cross J, Stoyanov V (2018) Simple fusion: Return of the language model ArXiv Prepr ArXiv180900125 TIEU LUAN MOI download : skknchat@gmail.com 112 111 Stahlberg F, Hasler E, Waite A, Byrne B (2016) Syntactically guided neural machine translation ArXiv Prepr ArXiv160504569 112 Sutskever I, Vinyals O, Le QV (2014) Sequence to Sequence Learning with Neural Networks Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2014/hash/a14ac55a4f27472c5d89 4ec1c3c743d2-Abstract.html 113 Talbot D (2005) Constrained EM for parallel text alignment Nat Lang Eng Số 11.(3), Tr.263 114 Tamura A, Watanabe T, Sumita E (2014) Recurrent neural networks for word alignment model Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 1470–80 115 Taskar B, Lacoste-Julien S, Klein D (2005) A discriminative matching approach to word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 73–80 116 Taylor L, Nitschke G (2018) Improving deep learning with generic data augmentation 2018 IEEE Symp Ser Comput Intell SSCI IEEE Tr 1542– 117 Thuong VTHHV, Van VN, Tien TL (2015) The EnglishVietnamese Machine Translation System for IWSLT 2015 Proceeding 12th Int Workshop Spok Lang Transl 118 Toral A, Sánchez-Cartagena VM (2017) A multifaceted evaluation of neural versus phrase-based machine translation for language directions ArXiv Prepr ArXiv170102901 119 Tran VH, Vu HT, Pham TH, Van Nguyen V, Le Nguyen M (2016) A reordering model for Vietnamese-English statistical machine translation using dependency information 2016 IEEE RIVF Int Conf Comput Commun Technol Res Innov Vis Future RIVF IEEE Tr 125– 30 120 Tran VH, Vu HT, Van Nguyen V, Le Nguyen M (2016) A classifier-based preordering approach for english-vietnamese statistical machine translation Int Conf Intell Text Process Comput Linguist Springer Tr 74–87 T Gowda, J May (2020), Finding the Optimal Vocabulary Size for Neural Machine Translation, arXiv:2004.02334v2 121 TIEU LUAN MOI download : skknchat@gmail.com 113 122 Unanue IJ, Arratibel LG, Borzeshi EZ, Piccardi M (2018) English-Basque statistical and neural machine translation Proc Elev Int Conf Lang Resour Eval LREC 2018 123 Van Bui V, Tran TT, Nguyen NBT, Pham TD, Le AN, Le CA (2015) Improving Word Alignment Through Morphological Analysis Int Symp Integr Uncertain Knowl Model Decis Mak Springer Tr 315–25 124 Vaswani A, Huang L, Chiang D (2012) Smaller alignment models for better translations: Unsupervised word alignment with the l0norm Proc 50th Annu Meet Assoc Comput Linguist Vol Long Pap Tr 311–9 125 Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al (2017) Attention is All you Need Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd05 3c1c4a845aa-Abstract.html 126 Vauquois B (1968) A survey of formal grammars and algorithms for recognition and transformation in mechanical translation Ifip Congr Tr 1114–22 127 Vogel S, Ney H, Tillmann C (1996) HMM-based word alignment in statistical translation COLING 1996 Vol 16th Int Conf Comput Linguist 128 Volkart L, Bouillon P, Girletti S (2018) Statistical vs neural machine translation: A comparison of mth and deepl at swiss post’s language service Proc 40th Conf Transl Comput Tr 145–50 129 Weaver W (1955) Translation Mach Transl Lang Số 14.(15– 23), Tr.10 130 Wolk K, Marasek K (2015) PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora ArXiv Prepr ArXiv151201639 131 Yamada K, Knight K (2001) A syntax-based statistical translation model Proc 39th Annu Meet Assoc Comput Linguist Tr 523–30 132 Yang N, Liu S, Li M, Zhou M, Yu N (2013) Word alignment modeling with context dependent deep neural network Proc 51st Annu Meet Assoc Comput Linguist Vol Long Pap Tr 166–75 133 Zeman D (2010) Using TectoMT as a preprocessing tool for phrase-based statistical machine translation Int Conf Text Speech Dialogue Springer Tr 216–23 TIEU LUAN MOI download : skknchat@gmail.com 114 134 Zens R, Matusov E, Ney H (2004) Improved word alignment using a symmetric lexicon model COLING 2004 Proc 20th Int Conf Comput Linguist Tr 36–42 135 Zhang H, Chiang D (2014) Kneser-Ney smoothing on expected counts Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 765– 74 136 Zheng W, Wang W, Liu D, Zhang C, Zeng Q, Deng Y, et al (2018) Oracle-free detection of translation issue for neural machine translation ArXiv E-Prints TIEU LUAN MOI download : skknchat@gmail.com ... ĐẶNG THANH QUYỀN PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: Mã số: Cơ sở toán học cho tin học 9460110 LUẬN ÁN TIẾN... luận án nghiên cứu hệ thống dịch máy thống kê cho cặp ngôn ngữ Việt - Anh Phạm vi: Luận án tập trung vào phương pháp nâng cao chất lượng hệ thống dịch máy Việt – Anh, cặp ngôn ngữ có tài nguyên hạn. .. tự từ cho dịch máy thống kê dựa cụm từ cho cặp ngôn ngữ Việt - Anh Dịch máy Việt – Anh, Anh - Việt Không dùng học máy Xây dựng,tăng cường liệu Dịch máy thống kê Tiền / hậu xử lý liệu Dịch máy nơ-ron

Ngày đăng: 07/06/2022, 06:33

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Tháp Vauquois thể hiện quá trình dịch theo các phương pháp khác nhau - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 1.1. Tháp Vauquois thể hiện quá trình dịch theo các phương pháp khác nhau (Trang 20)
Hình 1.3. Nền tảng mã hĩa – giải mã của dịch máy nơ-ron - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 1.3. Nền tảng mã hĩa – giải mã của dịch máy nơ-ron (Trang 23)
Mơ hình dịch (translation - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình dịch (translation (Trang 27)
4. Tinh chỉnh tham số: Hệ thống điều chỉnh tham số của mơ hình dịch đã được huấn luyện với tập ngữ liệu phù hợp - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
4. Tinh chỉnh tham số: Hệ thống điều chỉnh tham số của mơ hình dịch đã được huấn luyện với tập ngữ liệu phù hợp (Trang 30)
Các mơ hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trên - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
c mơ hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trên (Trang 31)
Hình 1.8. Kiến trúc mơ hình transformer - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 1.8. Kiến trúc mơ hình transformer (Trang 35)
Hình 1.9 minh họa bộ mã hĩa tự động trên cặp song ngữ Trung-Anh. Các tác giả đã đánh giá phương pháp trên cặp song ngữ Trung-Anh sử dụng mơ hình dịch NMT dựa trên mạng RNN - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 1.9 minh họa bộ mã hĩa tự động trên cặp song ngữ Trung-Anh. Các tác giả đã đánh giá phương pháp trên cặp song ngữ Trung-Anh sử dụng mơ hình dịch NMT dựa trên mạng RNN (Trang 43)
Hình 1.12. Các hướng tiếp cận cho dịch máy Việt-Anh và Anh-Việt - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 1.12. Các hướng tiếp cận cho dịch máy Việt-Anh và Anh-Việt (Trang 49)
dữ liệu xử lý dữ liệu mơ hình giĩng hàng - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
d ữ liệu xử lý dữ liệu mơ hình giĩng hàng (Trang 49)
Bảng 1.2. Các bộ dữ liệu song ngữ trong hội thảo IWSLT2015 [17] - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 1.2. Các bộ dữ liệu song ngữ trong hội thảo IWSLT2015 [17] (Trang 52)
Bảng 1.3. Kết quả đánh giá các hệ thống dịch máy Anh–Việt và Việt–Anh trên bộ số liệu song ngữ IWSLT 2015 [17]. - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 1.3. Kết quả đánh giá các hệ thống dịch máy Anh–Việt và Việt–Anh trên bộ số liệu song ngữ IWSLT 2015 [17] (Trang 54)
Mơ hình hệ thống dịch máy thống kê sử dụng kỹ thuật dịch ngược tăng cường dữ liệu huấn luyện được trình bày trong Hình 2.1. - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình hệ thống dịch máy thống kê sử dụng kỹ thuật dịch ngược tăng cường dữ liệu huấn luyện được trình bày trong Hình 2.1 (Trang 61)
Mơ hình dịch máy đã được huấn luyện - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình dịch máy đã được huấn luyện (Trang 64)
Hình 2.2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 2.2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất (Trang 64)
Bảng 2.1. Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 2.1. Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch (Trang 70)
hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngơn ngữ Việt - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
hình d ịch máy thống kê MOSES dựa trên cụm từ phân cấp cặp ngơn ngữ Việt (Trang 75)
mơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp và đánh giá chất lượng của mơ hình dịch máy thu được. - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
m ơ hình dịch máy thống kê MOSES dựa trên cụm từ phân cấp và đánh giá chất lượng của mơ hình dịch máy thu được (Trang 76)
Bảng 2.5 cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi theo hiệu để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được đều tăng lên và giá trị tăng cao nhất là ∆ = 0,31 khi áp dụng ngưỡng = −20   - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 2.5 cho thấy khi áp dụng kỹ thuật dịch ngược với độ đo thích nghi theo hiệu để lựa chọn câu “tốt” bổ sung cho dữ liệu huấn luyện thì điểm BLEU của mơ hình dịch thu được đều tăng lên và giá trị tăng cao nhất là ∆ = 0,31 khi áp dụng ngưỡng = −20 (Trang 80)
IDe v: Số vịng lặp tinh chỉnh tham số của mơ hình T test: thời gian chạy bộ dữ liệu test (phút) - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
e v: Số vịng lặp tinh chỉnh tham số của mơ hình T test: thời gian chạy bộ dữ liệu test (phút) (Trang 81)
Bảng 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 2.6. Kết quả thử nghiệm hệ thống dịch trên dữ liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với các ngưỡng khác nhau (Trang 82)
IDe v: Số vịng lặp tinh chỉnh tham số của mơ hình T test: thời gian chạy bộ dữ liệu test (phút) - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
e v: Số vịng lặp tinh chỉnh tham số của mơ hình T test: thời gian chạy bộ dữ liệu test (phút) (Trang 83)
Huấn luyện mơ hình - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
u ấn luyện mơ hình (Trang 89)
Huấn luyện mơ hình ngơn ngữ - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
u ấn luyện mơ hình ngơn ngữ (Trang 102)
Bảng giĩng hàng A* thêm được giĩng hàng từ “thiệp” [8] – “postcard”[4] và - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng gi ĩng hàng A* thêm được giĩng hàng từ “thiệp” [8] – “postcard”[4] và (Trang 110)
Bảng 3.3 cho thấy việc chia nhỏ từ giảm kích thước bảng từ vựng, từ đĩ tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ cĩ tần suất xuất hiện thấp (các từ hiếm). - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 3.3 cho thấy việc chia nhỏ từ giảm kích thước bảng từ vựng, từ đĩ tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ cĩ tần suất xuất hiện thấp (các từ hiếm) (Trang 120)
Sinh mơ hình dịch Tinh chỉnh tham số - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
inh mơ hình dịch Tinh chỉnh tham số (Trang 127)
trên hình 3.7 tương tự như đối với độ đo thích ngh iH với điểm BLEU thu được - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
tr ên hình 3.7 tương tự như đối với độ đo thích ngh iH với điểm BLEU thu được (Trang 132)
Bảng 3.12. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 3.12. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H (Trang 134)
Bảng 3.13. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi T - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 3.13. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi T (Trang 136)
Hình 3.11. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T - (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 3.11. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T (Trang 138)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w