1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh

127 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHỊNG VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: Mã số: Cơ sở toán học cho tin học 9460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: Hà Nội – 2022 i LỜI CAM ĐOAN Tôi xin cam đoan, cơng trình nghiên cứu riêng tơi Những nội dung, số liệu kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác Các tài liệu tham khảo trích dẫn đầy đủ Hà Nội, ngày tháng năm 2022 Tác giả luận án ii LỜI CẢM ƠN Luận án thực Viện Khoa học Công nghệ quân sự/Bộ Quốc phòng Lời đầu tiên, NCS xin bày tỏ lòng cảm ơn sâu sắc tới PGS TS thầy tận tình giúp đỡ, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học kiểm tra, đánh giá kết nghiên cứu NCS NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng quan Phòng Đào tạo, Viện Công nghệ thông tin sở đào tạo đơn vị quản lý tạo điều kiện, hỗ trợ, giúp đỡ NCS trình học tập, nghiên cứu NCS xin bày tỏ lòng biết ơn chân thành tới thầy cô Viện KH-CN quân sự, nhà khoa học quân đội bảo nâng đỡ trình học tập, nghiên cứu NCS Chân thành cảm ơn bạn bè, đồng nghiệp nhiều người động viên, chia sẻ, giúp đỡ NCS suốt thời gian qua NCS ghi nhớ công ơn bố mẹ, gia đình xin dành lời cảm ơn đặc biệt tới vợ con, người bên cạnh, động viên chỗ dựa mặt giúp NCS vượt qua khó khăn để hồn thành cơng việc Tác giả luận án iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Tính cấp thiết đề tài luận án Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn Bố cục luận án CHƯƠNG TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN 1 Tổng quan dịch máy Dịch máy thống kê vi viii x 1 2 3 6 11 Cơ sở toán học 11 2 Cấu trúc hệ thống dịch máy thống kê 13 Dịch máy nơ-ron 15 Các phương pháp đánh giá hệ thống dịch máy 20 Phương pháp tự động 20 Phương pháp thủ công 22 Tăng cường liệu huấn luyện cho hệ thống dịch máy 22 Dịch ngược 24 Sao chép liệu đơn ngữ 24 Huấn luyện hai chiều 25 Tự huấn luyện đảo chiều 26 Gióng hàng từ dịch máy thống kê 27 Các nghiên cứu liên quan đến dịch máy thống kê cặp ngôn ngữ Việt Anh 31 iv Kết luận Chương CHƯƠNG TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT DỊCH NGƯỢC Đặt vấn đề 2 Kỹ thuật dịch ngược làm giàu ngữ liệu song ngữ Đề xuất phương pháp tăng cường liệu huấn luyện cho hệ thống dịch máy thống kê dịch ngược lựa chọn liệu thích nghi Phương pháp đề xuất 37 38 38 40 42 43 Đề xuất áp dụng kỹ thuật dịch ngược sử dụng ngôn ngữ trung gian tiếng Đức 45 3 Đề xuất độ đo thích nghi để lựa chọn liệu giả lập 46 Thử nghiệm đánh giá kết 49 Dữ liệu môi trường thử nghiệm 51 Phương án thực thử nghiệm 53 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu gốc 54 4 Kết thử nghiệm với mơ hình huấn luyện kho ngữ liệu tăng cường với toàn câu dịch ngược thêm vào liệu gốc 55 Đánh giá hiệu phương pháp lựa chọn câu giả lập dựa độ đo thích nghi Kết luận Chương 56 62 CHƯƠNG CẢI TIẾN MƠ HÌNH GIĨNG HÀNG TỪ TRONG HỆ THỐNG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ 63 Đặt vấn đề 63 Các kỹ thuật chia nhỏ từ 66 Chia nhỏ từ thuật tốn mã hóa cặp byte (BPE) 2 Wordpiece 3 Unigram Language Model Morfessor 68 68 69 70 v 3 Cải tiến mô hình gióng hàng hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ 71 3 Phương pháp cải tiến mơ hình gióng hàng cho hệ thống SMT cặp ngơn ngữ Việt - Anh sử dụng kỹ thuật chia nhỏ từ 72 3 Đề xuất áp dụng kỹ thuật chia nhỏ từ phía tiếng Anh trước đưa vào gióng hàng 74 3 Xây dựng thuật tốn chuẩn hóa bảng gióng hàng tạo bảng gióng hàng A* 76 Thử nghiệm đánh giá kết 78 Dữ liệu môi trường thử nghiệm 80 Thử nghiệm với mơ hình baseline 81 Thử nghiệm với mơ hình chia nhỏ từ 82 4 Thử nghiệm mơ hình cải tiến gióng hàng từ sử dụng kỹ thuật chia nhỏ từ khác 84 Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB 89 Mơ hình đề xuất kết hợp dịch ngược chia nhỏ từ 90 Dữ liệu môi trường thử nghiệm 91 Kết thử nghiệm 93 Kết luận Chương 98 KẾT LUẬN Các kết nghiên cứu luận án Những đóng góp luận án Hướng nghiên cứu DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ TÀI LIỆU THAM KHẢO 99 99 100 100 102 103 vi DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ℝ� Tập vector số thực n chiều |� | Số lượng phần tử tập hợp � X∪Y Hợp hai tập hợp X Y X∩Y Giao hai tập hợp X Y �(∙) Hàm số log(∙) Logarit tự nhiên exp( ∙) Hàm mũ (∙)� Chuyển vị ma trận vector ‖∙‖� Dạng chuẩn p ‖∙‖ Dạng chuẩn ∑∙ Tổng chuỗi số ∏∙ Tích chuỗi số �(∙) Phân phối xác suất �~� Biến ngẫu nhiên z với phân phối xác suất P �(�|�) Xác suất có điều kiện X|Y � � [�(�)] Kỳ vọng hàm f(x) BT Back Translation NCS Nghiên cứu sinh MT Dịch máy (Machine Translation) NPL Xử lý ngôn ngữ tự nhiên (Natural Language Processing) NMT Dịch máy nơ-ron (Neural Machine Translation) OOV Từ nằm bảng từ vựng (Out of Vocabulary) SMT Dịch máy thống kê (Statistical Machine Translation) RNN Mạng nơ-ron hồi quy (Recurrent Neural Network) vii PBSMT Dịch máy thống kê dựa cụm từ (Phrase-based SMT) SBSMT Dịch máy thống kê dựa cú pháp (Syntax-based SMT) BLEU Bilingual Evaluation Understudy EM Thuật toán cực đại kỳ vọng (Expectation Maximization) viii DANH MỤC CÁC BẢNG Trang Bảng 1 Kết thử nghiệm với ngữ liệu công bố [94] 33 Bảng Các liệu song ngữ hội thảo IWSLT 2015 [17] 35 Bảng Kết đánh giá hệ thống dịch máy Anh–Việt Việt–Anh số liệu song ngữ IWSLT 2015 [17] 36 Bảng Danh sách đội tham gia MT campaign cho ngôn ngữ Anh– Việt Việt–Anh hội thảo IWSLT [17] 36 Bảng Minh họa câu giả lập nhận từ câu ban đầu sau dịch ngược Anh-Đức-Anh 50 Bảng 2 Các liệu sử dụng thử nghiệm 52 Bảng Kết thử nghiệm mơ hình MOSES với liệu huấn luyện gốc chưa tăng cường liệu 54 Bảng Kết thử nghiệm mơ hình MOSES với liệu huấn luyện tăng cường toàn câu dịch ngược 55 Bảng Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo hiệu với ngưỡng khác 57 Bảng Kết thử nghiệm hệ thống dịch liệu huấn luyện tăng cường sử dụng lựa chọn thích nghi theo tỉ lệ với ngưỡng khác 59 Bảng Kết thử nghiệm phương pháp lựa chọn câu giả lập theo độ đo thích nghi với ngưỡng khác hệ thống MOSES 61 Bảng Minh họa gióng hàng cơng cụ GIZA++ chuẩn hóa bảng gióng hàng từ A* 79 Bảng Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE sử dụng bảng gióng hàng từ A 83 Bảng 3 Tần suất xuất từ tiếng Anh với thuật chia nhỏ từ BPE 85 Bảng Kết thử nghiệm với liệu huấn luyện chia nhỏ từ kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ 86 100 tiếng Anh, sở đó, đề xuất cải tiến mơ hình gióng hàng áp dụng phương pháp chia nhỏ từ (subword) phía tiếng Anh xây dựng thuật tốn gióng hàng cho phù hợp với phương pháp chia nhỏ từ áp dụng vào dịch máy thống kê iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước sau áp dụng đề xuất cải tiến hệ thống SMT MOSES tập liệu IWSLT2015, EVB Kết thử nghiệm tập liệu cho thấy phương pháp đề xuất tăng chất lượng hệ dịch đánh giá điểm BLEU, độ tăng phụ thuộc tham số phương pháp cụ thể áp dụng thử nghiệm Những đóng góp luận án - Đề xuất phương pháp tăng cường liệu cho dịch máy thống kê cặp ngôn ngữ Việt-Anh sử dụng kỹ thuật dịch ngược độ đo thích nghi - Đề xuất phương pháp cải tiến mơ hình gióng hàng từ sử dụng kỹ thuật chia nhỏ từ Hướng nghiên cứu Mặc dù đạt kết theo mục tiêu đề luận án, hạn chế thời gian khuôn khổ nội dung, luận án tồn số điểm hạn chế: - Việc thử nghiệm đánh giá dựa số số liệu công bố nên thử nghiệm đánh giá chưa đa dạng với nhiều miền liệu khác Chất lượng gióng hàng từ đánh giá thơng qua điểm BLEU hệ thống dịch máy mà chưa có thử nghiệm đánh giá độ đo chất lượng gióng hàng từ AER, precision, recall, F-measure nên chưa rõ chất lượng gióng hàng từ thay đổi sau áp dụng phương pháp chia nhỏ từ cải tiến thuật tốn gióng hàng - Dịch ngược sử dụng ngôn ngữ trung gian địi hỏi phải có ngữ liệu huấn luyện đủ lớn để huấn luyện mơ hình dịch phải có mơ hình huấn luyện sẵn chất lượng tốt, nghiên cứu sử dụng mơ hình dịch máy nơ-ron cho cặp 101 ngôn ngữ Anh - Đức - Anh, điều tăng thời gian tăng thời gian huấn luyện mơ hình dịch máy thống kê Để khắc phục tồn nêu trên, NCS đề xuất số hướng nghiên cứu luận án sau: Nghiên cứu, áp dụng kết hợp hai phương pháp đề xuất để nâng cao chất lượng hệ thống dịch máy thống kê, bên cạnh đó, tiếp tục nghiên cứu cải tiến thành phần khác hệ thống dịch máy thống kê mơ hình ngơn ngữ Phương pháp chia nhỏ từ có sẵn xây dựng để áp dụng cho dịch máy nơ-ron, luận án sử dụng cho dịch máy thống kê, nhiên cần nghiên cứu đề xuất phương pháp chia nhỏ từ phù hợp với kiến trúc đặc điểm dịch máy thống kê Nghiên cứu, đề xuất áp dụng phương pháp sử dụng luận án vào dịch máy nơ-ron để xây dựng hệ thống dịch máy tốt cho hai chiều Việt - Anh Anh - Việt 102 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [CT1] “Automatic Detection of Problematic Rules in Vietnamese Treebank” RIVF-2015 [CT2] “The JAIST-UET-MITI Machine Translation Systems for IWSLT 2015” IWSLT-2015 [CT3] “Phương pháp tăng cường liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh kỹ thuật back - translation lựa chọn thích nghi” Tạp chí nghiên cứu khoa học cơng nghệ quân số đặc san tháng 12-2020 [CT4] “Cải tiến mơ hình gióng hàng dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ” Tạp chí nghiên cứu khoa học cơng nghệ quân số 74 tháng 8-2021 103 TÀI LIỆU THAM KHẢO Tiếng Anh Al-Onaizan Y, Curin J, Jahr M, Knight K, Lafferty J, Melamed D, et al (1999) Statistical machine translation: Final report JHU Workshop Axelrod A, Elgohary A, Martindale M, Nguyen K, Niu X, Vyas Y, et al (2015) The UMD Machine Translation Systems at IWSLT 2015 Proc IWSLT Ayan NF (2005) Combining linguistic and machine learning techniques for word alignment improvement, PhD Thesis Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate ArXiv Prepr ArXiv14090473 Banón M, Chen P, Haddow B, Heafield K, Hoang H, Espla-Gomis M, et al (2020) ParaCrawl: Web-scale acquisition of parallel corpora Proc 58th Annu Meet Assoc Comput Linguist Tr 4555–67 Bao HT, Khanh PN, Le HT, Thao NTP (2009) Issues and first development phase of the english-vietnamese translation system evsmt1 Proc Third Hanoi Forum Information—Communication Technol Bentivogli L, Bisazza A, Cettolo M, Federico M (2016) Neural versus phrase-based machine translation quality: a case study ArXiv Prepr ArXiv160804631 Bentivogli L, Bisazza A, Cettolo M, Federico M (2018) Neural versus phrase-based mt quality: An in-depth analysis on english–german and english–french Comput Speech Lang Số 49 , Tr 52–70 Berg-Kirkpatrick T, Bouchard-Côté A, DeNero J, Klein D (2010) Painless unsupervised learning with features Hum Lang Technol 2010 Annu Conf North Am Chapter Assoc Comput Linguist Tr 582–90 10 Bojar O, Tamchyna A (2011) Improving translation model by monolingual data Proc Sixth Workshop Stat Mach Transl Tr 330–6 11 Brown PF, Cocke J, Della Pietra SA, Della Pietra VJ, Jelinek F, Lafferty J, et al (1990) A statistical approach to machine translation Comput Linguist Số 16 (2), Tr 79–85 12 Brown PF, Della Pietra SA, Della Pietra VJ, Lai JC, Mercer RL (1992) An estimate of an upper bound for the entropy of English Comput Linguist Số 18 (1), Tr 31–40 104 13 Brown PF, Della Pietra SA, Della Pietra VJ, Mercer RL (1993) The mathematics of statistical machine translation: Parameter estimation Comput Linguist Số 19 (2), Tr 263–311 14 Castilho S, Gaspari F, Moorkens J, Popović M, Toral A (2019) Editors’ foreword to the special issue on human factors in neural machine translation Mach Transl Số 33 (1), Tr 1–7 15 Castilho S, Moorkens J, Gaspari F, Calixto I, Tinsley J, Way A (2017) Is neural machine translation the new state of the art? Prague Bull Math Linguist (108) 16 Castilho S, Moorkens J, Gaspari F, Sennrich R, Sosoni V, Georgakopoulou P, et al (2017) A comparative quality evaluation of PBSMT and NMT using professional translators 17 Cettolo M, Jan N, Sebastian S, Bentivogli L, Cattoni R, Federico M (2015) The iwslt 2015 evaluation campaign Int Workshop Spok Lang Transl 18 Chatzikoumi E (2020) How to evaluate machine translation: A review of automated and human metrics Nat Lang Eng Số 26 (2), Tr 137–61 19 Cheng Y (2019) Semi-supervised learning for neural machine translation Jt Train Neural Mach Transl Springer Tr 25–40 20 Chiang D (2005) A hierarchical phrase-based model for statistical machine translation Proc 43rd Annu Meet Assoc Comput Linguist Acl’05 Tr 263–70 21 Chiang D (2007) Hierarchical phrase-based translation Comput Linguist Số 33 (2), Tr 201–28 22 Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, et al (2014) Learning phrase representations using RNN encoder-decoder for statistical machine translation ArXiv Prepr ArXiv14061078 23 Chung J, Cho K, Bengio Y (2016) A character-level decoder without explicit segmentation for neural machine translation ArXiv Prepr ArXiv160306147 24 Clifton A, Sarkar A (2011) Combining morpheme-based machine translation with post-processing morpheme prediction Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol Tr 32–42 105 25 Creutz M, Lagus K (2005) Inducing the morphological lexicon of a natural language from unannotated text Proc Int Interdiscip Conf Adapt Knowl Represent Reason AKRR’05 Tr 51–9 26 Creutz M, Lagus K (2002) Unsupervised discovery of morphemes ArXiv Prepr Cs0205057 27 Cui Y, Chen Z, Wei S, Wang S, Liu T, Hu G (2017) Attention-overAttention Neural Networks for Reading Comprehension Proc 55th Annu Meet Assoc Comput Linguist Vol Long Pap , Tr 593–602 28 Currey A, Miceli-Barone AV, Heafield K (2017) Copied monolingual data improves low-resource neural machine translation Proc Second Conf Mach Transl Tr 148–56 29 Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incomplete data via the EM algorithm J R Stat Soc Ser B Methodol Số 39 (1), Tr 1–22 30 Dien D (2003) BTL: an Hybrid Model in the English-Vietnamese Machine Translation System Proc MT Summit IX La USA 2003 31 Dinh D, Ngan NLT, Quang DX, Nam VC (2003) A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation Proc Mach Transl Summit IX Citeseer 32 Doddington G (2002) Automatic evaluation of machine translation quality using n-gram co-occurrence statistics Proc Second Int Conf Hum Lang Technol Res Tr 138–45 33 Dowling M, Lynn T, Poncelas A, Way A (2018) SMT versus NMT: Preliminary comparisons for Irish 34 Dyer C, Chahuneau V, Smith NA (2013) A simple, fast, and effective reparameterization of ibm model Proc 2013 Conf North Am Chapter Assoc Comput Linguist Hum Lang Technol Tr 644–8 35 Dyer C, Clark JH, Lavie A, Smith NA (2011) Unsupervised word alignment with arbitrary features Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol Tr 409–19 36 Edunov S, Ott M, Auli M, Grangier D (2018) Understanding backtranslation at scale ArXiv Prepr ArXiv180809381 37 Farwell D, Wilks Y (1990) ULTRA: a multilingual machine translator New Mexico State University Las Cruces, NM 106 38 Galley M, Hopkins M, Knight K, Marcu D (2004) What’s in a translation rule? Proc Hum Lang Technol Conf North Am Chapter Assoc Comput Linguist HLT-NAACL 2004 Tr 273–80 39 Garcia-Varea I, Och FJ, Ney H, Casacuberta F (2002) Improving alignment quality in statistical machine translation using contextdependent maximum entropy models COLING 2002 19th Int Conf Comput Linguist 40 Ghaffar SA, Fakhr MW, Sheraton C (2011) English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis Recent Res Math Methods Electr Eng Comput Sci , Tr 50–4 41 Gibadullin I, Valeev A, Khusainova A, Khan A (2019) A survey of methods to leverage monolingual data in low-resource neural machine translation ArXiv Prepr ArXiv191000373 42 Ha T-L, Niehues J, Cho E, Mediani M, Waibel A (2015) The KIT translation systems for IWSLT 2015 Universitätsbibliothek der RWTH Aachen 43 Han D, Martínez-Gómez P, Miyao Y, Sudoh K, Nagata M (2013) Effects of parsing errors on pre-reordering performance for Chinese-toJapanese SMT Proc 27th Pac Asia Conf Lang Inf Comput PACLIC 27 Tr 267–76 44 Ho TB (2005) Current Status of Machine Translation Research in Vietnam Towards Asian wide multi language machine translation project Proc Vietnam Lang Speech Process Workshop 45 Hoang VCD, Koehn P, Haffari G, Cohn T (2018) Iterative backtranslation for neural machine translation Proc 2nd Workshop Neural Mach Transl Gener Tr 18–24 46 Hoang V, Ngo M, Dinh D (2008) A dependency-based word reordering approach for statistical machine translation 2008 IEEE Int Conf Res Innov Vis Future Comput Commun Technol IEEE Tr 120–7 47 Hutchins WJ (2001) Machine translation over fifty years Hist Epistémologie Lang Số 23 (1), Tr 7–31 48 Hutchins WJ, Somers HL (1992) An introduction to machine translation Academic Press London 107 49 Isabelle P, Cherry C, Foster G (2017) A challenge set approach to evaluating machine translation ArXiv Prepr ArXiv170407431 50 Ittycheriah A, Roukos S (2005) A maximum entropy word aligner for arabic-english machine translation Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 89–96 51 Jia Y, Carl M, Wang X (2019) Post-editing neural machine translation versus phrase-based machine translation for English–Chinese Mach Transl Số 33 (1), Tr 9–29 52 Junczys-Dowmunt M, Dwojak T, Hoang H (2016) Is neural machine translation ready for deployment? A case study on 30 translation directions ArXiv Prepr ArXiv161001108 53 Jurafsky D, Martin JH Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 54 Kamigaito H, Watanabe T, Takamura H, Okumura M, Sumita E (2016) Unsupervised Word Alignment Using Frequency Constraint in Posterior Regularized EM J Nat Lang Process Số 23 (4), Tr 327–51 55 Kay M (1973) Automatic translation of natural languages Daedalus , Tr 217–30 56 Khayrallah H, Koehn P (2018) On the impact of various types of noise on neural machine translation ArXiv Prepr ArXiv180512282 57 Koehn P, Hoang H (2007) Factored translation models Proc 2007 Jt Conf Empir Methods Nat Lang Process Comput Nat Lang Learn EMNLP-CoNLL Tr 868–76 58 Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N, et al (2007) Moses: Open source toolkit for statistical machine translation Proc 45th Annu Meet Assoc Comput Linguist Companion Vol Proc Demo Poster Sess Tr 177–80 59 Koehn P, Knowles R (2017) Six challenges for neural machine translation ArXiv Prepr ArXiv170603872 60 Koehn P, Och FJ, Marcu D (2003) Statistical phrase-based translation UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY INFORMATION SCIENCES INST2003 108 61 Kudo T (2018) Subword regularization: Improving neural network translation models with multiple subword candidates ArXiv Prepr ArXiv180410959 62 Lample G, Ott M, Conneau A, Denoyer L, Ranzato M (2018) Phrasebased & neural unsupervised machine translation ArXiv Prepr ArXiv180407755 63 Le A-C, Nguyen T-P, Tran Q-L, Linh DB (2018) Integrating Word Embeddings into IBM Word Alignment Models 2018 10th Int Conf Knowl Syst Eng KSE IEEE Tr 79–84 64 Le KH (2003) One method of Interlingua translation Proc Natl Conf IT Res Dev Appl 65 Lee J-H, Lee S-W, Hong G, Hwang Y-S, Kim S-B, Rim HC (2010) A post-processing approach to statistical word alignment reflecting alignment tendency between part-of-speeches Coling 2010 Posters Tr 623–9 66 Lin D, Cherry C (2003) Word Alignment with Cohesion Constraint Companion Vol Proc HLT-NAACL 2003 - Short Pap HLT-NAACL 2003 Truy cập ngày 11/05/2021, Tr 49–51 URL: https://www aclweb org/anthology/N03-2017 67 Liu Y, Liu Q, Lin S (2010) Discriminative word alignment by linear modeling Comput Linguist Số 36 (3), Tr 303–39 68 Liu Y, Liu Q, Lin S (2005) Log-linear models for word alignment Proc 43rd Annu Meet Assoc Comput Linguist ACL’05 Tr 459–66 69 Liu Y, Sun M (2015) Contrastive unsupervised word alignment with nonlocal features Proc AAAI Conf Artif Intell 70 Luong M-T, Manning CD (2015) Stanford neural machine translation systems for spoken language domains Proc Int Workshop Spok Lang Transl Tr 76–9 71 Ma Y, Ozdowska S, Sun Y, Way A (2008) Improving word alignment using syntactic dependencies Association for Computational Linguistics 72 Mahata SK, Mandal S, Das D, Bandyopadhyay S (2018) SMT vs NMT: a comparison over Hindi & Bengali simple sentences ArXiv Prepr ArXiv181204898 109 73 Menacer MA, Langlois D, Mella O, Fohr D, Jouvet D, Smaïli K (2017) Is statistical machine translation approach dead? ICNLSSP 2017-Int Conf Nat Lang Signal Speech Process Tr 1–5 74 Mermer C, Saraỗlar M, Sarikaya R (2013) Improving statistical machine translation using Bayesian word alignment and Gibbs sampling IEEE Trans Audio Speech Lang Process Số 21 (5), Tr 1090–101 75 Mitamura T (1999) Controlled language for multilingual machine translation Proc Mach Transl Summit VII Tr 46–52 76 Mitamura T, Nyberg E, Carbonell JG (1991) An efficient interlingua translation system for multi-lingual document production 77 Moore RC (2005) A discriminative framework for bilingual word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 81–8 78 Moore RC (2004) Improving IBM word alignment model Proc 42nd Annu Meet Assoc Comput Linguist ACL-04 Tr 518–25 79 Müller M, Nguyen T-S, Sperber M, Kilgour K, Stüker S, Waibel A (2015) The 2015 KIT IWSLT Speech-to-Text Systems for English and German Int Workshop Spok Lang Transl IWSLT Citeseer 80 Nagao M (1984) A framework of a mechanical translation between Japanese and English by analogy principle Artif Hum Intell , Tr 351–4 81 Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S (2019) Facebook FAIR’s WMT19 News Translation Task Submission ArXiv Prepr ArXiv190706616 82 Nguyen NT, Le VQ, Nghiem M-Q, Dinh D (2015) A General Approach for Word Reordering in English-Vietnamese-English Statistical Machine Translation Int J Artif Intell Tools Số 24 (06), Tr 1550024 83 Nomura T, Tsukada H, Akiba T Improvement of Word Alignment Models for Vietnamese-to-English Translation 84 Och FJ (2003) Minimum error rate training in statistical machine translation Proc 41st Annu Meet Assoc Comput Linguist Tr 160–7 85 Och FJ, Ney H (2000) A Comparison of Alignment Models for Statistical Machine Translation COLING 2000 Vol 18th Int Conf Comput Linguist COLING 2000 Truy cập ngày 11/05/2021, URL: https://www aclweb org/anthology/C00-2163 110 86 Och FJ, Ney H (2003) A systematic comparison of various statistical alignment models Comput Linguist Số 29 (1), Tr 19–51 87 Och FJ, Ney H (2000) Improved statistical alignment models Proc 38th Annu Meet Assoc Comput Linguist Tr 440–7 88 Och FJ, Ney H (2004) The alignment template approach to statistical machine translation Comput Linguist Số 30 (4), Tr 417–49 89 Ojha AK, Chowdhury KD, Liu C-H, Saxena K (2018) The RGNLP machine translation systems for WAT 2018 ArXiv Prepr ArXiv181200798 90 Ott M, Auli M, Grangier D, Ranzato M (2018) Analyzing uncertainty in neural machine translation Int Conf Mach Learn PMLR Tr 3956–65 91 Papineni K, Roukos S, Ward T, Zhu W-J (2002) Bleu: a method for automatic evaluation of machine translation Proc 40th Annu Meet Assoc Comput Linguist Tr 311–8 92 Park J, Song J, Yoon S (2017) Building a neural machine translation system using only synthetic parallel data ArXiv Prepr ArXiv170400253 93 Pham N-L, Nguyen V-V (2020) Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language VNU J Sci Comput Sci Commun Eng Số 36 (1) 94 Phuoc NQ, Quan Y, Ock C-Y (2016) Building a bidirectional englishvietnamese statistical machine translation system by using moses Int J Comput Electr Eng Số (2), Tr 161 95 Poerner N, Sabet MJ, Roth B, Schütze H (2018) Aligning Very Small Parallel Corpora Using Cross-Lingual Word Embeddings and a Monogamy Objective ArXiv Prepr ArXiv181100066 96 Poncelas A, Popovic M, Shterionov D, Wenniger GM de B, Way A (2019) Combining SMT and NMT back-translated data for efficient NMT ArXiv Prepr ArXiv190903750 97 Poncelas A, Shterionov D, Way A, Wenniger GM de B, Passban P (2018) Investigating Backtranslation in Neural Machine Translation Truy cập ngày 11/05/2021; URL: https://arxiv org/abs/1804 06189v1 98 Richman T Johns Hopkins scientists win $10 million grant to translate little-used languages baltimoresun com Truy cập ngày 11/05/2021, URL: https://www baltimoresun com/latest/bs-md-hopkins-languagegrant-20171011-story html 111 99 Ruiz N, Di Gangi MA, Bertoldi N, Federico M (2019) Assessing the tolerance of neural machine translation systems against speech recognition errors ArXiv Prepr ArXiv190410997 100 Sabet MJ, Faili H, Haffari G (2016) Improving word alignment of rare words with word embeddings Proc COLING 2016 26th Int Conf Comput Linguist Tech Pap Tr 3209–15 101 Sato S, Nagao M (1990) Toward memory-based translation COLNG 1990 Vol Pap Present 13th Int Conf Comput Linguist 102 Schuster M, Nakajima K (2012) Japanese and korean voice search 2012 IEEE Int Conf Acoust Speech Signal Process ICASSP IEEE Tr 5149– 52 103 Sennrich R, Haddow B, Birch A (2015) Improving neural machine translation models with monolingual data ArXiv Prepr ArXiv151106709 104 Sennrich R, Haddow B, Birch A (2015) Neural machine translation of rare words with subword units ArXiv Prepr ArXiv150807909 105 Shterionov D, Nagle P, Casanellas L, Superbo R, O’Dowd T (2017) Empirical evaluation of NMT and PBSMT quality for large-scale translation production 20th Annu Conf Eur Assoc Mach Transl EAMT 2017 106 Smit P, Virpioja S, Grönroos S-A, Kurimo M (2014) Morfessor 0: Toolkit for statistical morphological segmentation 14th Conf Eur Chapter Assoc Comput Linguist EACL Gothenbg Swed April 26-30 2014 Aalto University 107 Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J (2006) A study of translation edit rate with targeted human annotation Proc Assoc Mach Transl Am Citeseer 108 Songyot T, Chiang D (2014) Improving word alignment using word similarity Proc 2014 Conf Empir Methods Nat Lang Process EMNLP Tr 1840–5 109 Stahlberg F (2020) Neural machine translation: A review J Artif Intell Res Số 69 , Tr 343–418 110 Stahlberg F, Cross J, Stoyanov V (2018) Simple fusion: Return of the language model ArXiv Prepr ArXiv180900125 112 111 Stahlberg F, Hasler E, Waite A, Byrne B (2016) Syntactically guided neural machine translation ArXiv Prepr ArXiv160504569 112 Sutskever I, Vinyals O, Le QV (2014) Sequence to Sequence Learning with Neural Networks Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings neurips cc/paper/2014/hash/a14ac55a4f27472c5d89 4ec1c3c743d2-Abstract html 113 Talbot D (2005) Constrained EM for parallel text alignment Nat Lang Eng Số 11 (3), Tr 263 114 Tamura A, Watanabe T, Sumita E (2014) Recurrent neural networks for word alignment model Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 1470–80 115 Taskar B, Lacoste-Julien S, Klein D (2005) A discriminative matching approach to word alignment Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process Tr 73–80 116 Taylor L, Nitschke G (2018) Improving deep learning with generic data augmentation 2018 IEEE Symp Ser Comput Intell SSCI IEEE Tr 1542– 117 Thuong VTHHV, Van VN, Tien TL (2015) The English-Vietnamese Machine Translation System for IWSLT 2015 Proceeding 12th Int Workshop Spok Lang Transl 118 Toral A, Sánchez-Cartagena VM (2017) A multifaceted evaluation of neural versus phrase-based machine translation for language directions ArXiv Prepr ArXiv170102901 119 Tran VH, Vu HT, Pham TH, Van Nguyen V, Le Nguyen M (2016) A reordering model for Vietnamese-English statistical machine translation using dependency information 2016 IEEE RIVF Int Conf Comput Commun Technol Res Innov Vis Future RIVF IEEE Tr 125–30 120 Tran VH, Vu HT, Van Nguyen V, Le Nguyen M (2016) A classifierbased preordering approach for english-vietnamese statistical machine translation Int Conf Intell Text Process Comput Linguist Springer Tr 74–87 121 T Gowda, J May (2020), Finding the Optimal Vocabulary Size for Neural Machine Translation, arXiv:2004 02334v2 113 122 Unanue IJ, Arratibel LG, Borzeshi EZ, Piccardi M (2018) EnglishBasque statistical and neural machine translation Proc Elev Int Conf Lang Resour Eval LREC 2018 123 Van Bui V, Tran TT, Nguyen NBT, Pham TD, Le AN, Le CA (2015) Improving Word Alignment Through Morphological Analysis Int Symp Integr Uncertain Knowl Model Decis Mak Springer Tr 315–25 124 Vaswani A, Huang L, Chiang D (2012) Smaller alignment models for better translations: Unsupervised word alignment with the l0-norm Proc 50th Annu Meet Assoc Comput Linguist Vol Long Pap Tr 311–9 125 Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al (2017) Attention is All you Need Adv Neural Inf Process Syst Curran Associates, Inc Truy cập ngày 06/01/2022, URL: https://proceedings neurips cc/paper/2017/hash/3f5ee243547dee91fbd05 3c1c4a845aa-Abstract html 126 Vauquois B (1968) A survey of formal grammars and algorithms for recognition and transformation in mechanical translation Ifip Congr Tr 1114–22 127 Vogel S, Ney H, Tillmann C (1996) HMM-based word alignment in statistical translation COLING 1996 Vol 16th Int Conf Comput Linguist 128 Volkart L, Bouillon P, Girletti S (2018) Statistical vs neural machine translation: A comparison of mth and deepl at swiss post’s language service Proc 40th Conf Transl Comput Tr 145–50 129 Weaver W (1955) Translation Mach Transl Lang Số 14 (15–23), Tr 10 130 Wolk K, Marasek K (2015) PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora ArXiv Prepr ArXiv151201639 131 Yamada K, Knight K (2001) A syntax-based statistical translation model Proc 39th Annu Meet Assoc Comput Linguist Tr 523–30 132 Yang N, Liu S, Li M, Zhou M, Yu N (2013) Word alignment modeling with context dependent deep neural network Proc 51st Annu Meet Assoc Comput Linguist Vol Long Pap Tr 166–75 133 Zeman D (2010) Using TectoMT as a preprocessing tool for phrasebased statistical machine translation Int Conf Text Speech Dialogue Springer Tr 216–23 114 134 Zens R, Matusov E, Ney H (2004) Improved word alignment using a symmetric lexicon model COLING 2004 Proc 20th Int Conf Comput Linguist Tr 36–42 135 Zhang H, Chiang D (2014) Kneser-Ney smoothing on expected counts Proc 52nd Annu Meet Assoc Comput Linguist Vol Long Pap Tr 765– 74 136 Zheng W, Wang W, Liu D, Zhang C, Zeng Q, Deng Y, et al (2018) Oracle-free detection of translation issue for neural machine translation ArXiv E-Prints ... HỌC VÀ CƠNG NGHỆ QN SỰ PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH Chuyên ngành: Mã số: Cơ sở toán học cho tin học 9460110 LUẬN... hệ thống dịch máy Mặc dù dịch máy thống kê có hạn chế so với dịch máy nơron, nhiều nghiên cứu dịch máy thống kê mang lại kết tốt cho cặp ngơn ngữ tài ngun hạn hẹp Bên cạnh đó, dịch máy thống kê. .. từ cho dịch máy thống kê dựa cụm từ cho cặp ngôn ngữ Việt - Anh Dịch máy Việt – Anh, Anh - Việt Không dùng học máy Xây dựng,tăng cường liệu Dịch máy thống kê Tiền / hậu xử lý liệu Dịch máy nơ-ron

Ngày đăng: 06/06/2022, 15:41

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 11 Tháp Vauquois thể hiện quá trình dịch theo các phương pháp khác nhau - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 11 Tháp Vauquois thể hiện quá trình dịch theo các phương pháp khác nhau (Trang 20)
Hình 13 Nền tảng mã hĩa – giải mã của dịch máy nơ-ron - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 13 Nền tảng mã hĩa – giải mã của dịch máy nơ-ron (Trang 23)
Mơ hình dịch (translation model) Mơ hình ngơn ngữ (language model) Mơ hình thống kê Hệ thống dịch máy thống kê - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình dịch (translation model) Mơ hình ngơn ngữ (language model) Mơ hình thống kê Hệ thống dịch máy thống kê (Trang 25)
từ đĩ sinh ra mơ hình, bo gồm bảng giĩng hàng từ, bảng giĩng hàng cụm từ, với ngữ liệu huấn luyện ít, việc giĩng hàng từ cĩ thể bị sai lệch ảnh hưởng xấu đến chất lượng mơ hình dịch, vì vậy luận án cũng hướng đến nâng cao chất lượng giĩng hàng từ với tài  - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
t ừ đĩ sinh ra mơ hình, bo gồm bảng giĩng hàng từ, bảng giĩng hàng cụm từ, với ngữ liệu huấn luyện ít, việc giĩng hàng từ cĩ thể bị sai lệch ảnh hưởng xấu đến chất lượng mơ hình dịch, vì vậy luận án cũng hướng đến nâng cao chất lượng giĩng hàng từ với tài (Trang 28)
Bảng 14 Danh sách các đội tham gia MT campaign cho ngơn ngữ Anh–Việt và Việt–Anh trong hội thảo IWSLT [17] - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 14 Danh sách các đội tham gia MT campaign cho ngơn ngữ Anh–Việt và Việt–Anh trong hội thảo IWSLT [17] (Trang 49)
Hình 21 Dịch ngược sử dụng ngơn ngữ trung gian để huấn luyện mơ hình SMT - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 21 Dịch ngược sử dụng ngơn ngữ trung gian để huấn luyện mơ hình SMT (Trang 55)
Mơ hình dịch máy đã được huấn luyện - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình dịch máy đã được huấn luyện (Trang 57)
Bảng 21 Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch ngược Anh-Đức-Anh - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 21 Minh họa các câu giả lập nhận được từ câu ban đầu sau khi dịch ngược Anh-Đức-Anh (Trang 63)
Bảng 22 Các bộ dữ liệu sử dụng trong các thử nghiệm - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 22 Các bộ dữ liệu sử dụng trong các thử nghiệm (Trang 65)
Hình 25 Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 25 Tăng cường dữ liệu huấn luyện cho hệ thống SMT VI-EN (Trang 66)
được mơ tả trong phần 2 41 Kết quả thử nghiệm được trình bày trong Bảng 2 3  - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
c mơ tả trong phần 2 41 Kết quả thử nghiệm được trình bày trong Bảng 2 3 (Trang 68)
IDe v: Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút) - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
e v: Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút) (Trang 71)
IDe v: Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút) - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
e v: Số vịng lặp tinh chỉnh tham số của mơ hình Ttest: thời gian chạy bộ dữ liệu test (phút) (Trang 73)
Trích rút cụm từ (tạo bảng giĩng hàng) Giĩng hàng từ - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
r ích rút cụm từ (tạo bảng giĩng hàng) Giĩng hàng từ (Trang 77)
Bảng 31 Minh họa giĩng hàng bằng cơng cụ GIZA++ và chuẩn hĩa bảng giĩng hàng từ A* - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 31 Minh họa giĩng hàng bằng cơng cụ GIZA++ và chuẩn hĩa bảng giĩng hàng từ A* (Trang 92)
Các mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau:Bảng giĩng hàng A* thêm được giĩng hàng từ “thiệp”[8]  – “postcard” [4]  vàbỏ giĩng hàng “chưa”[9] – “postcard”[6] để cĩ giĩng hàng đầy đủ “tấmthiệp”[7,8]-“postcast”[6] - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
c mơ hình, cơng cụ được sử dụng trong các thử nghiệm như sau:Bảng giĩng hàng A* thêm được giĩng hàng từ “thiệp”[8] – “postcard” [4] vàbỏ giĩng hàng “chưa”[9] – “postcard”[6] để cĩ giĩng hàng đầy đủ “tấmthiệp”[7,8]-“postcast”[6] (Trang 93)
Hình 35 Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ Bảng 3 2  Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 35 Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ Bảng 3 2 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ (Trang 96)
mơ hình dịch 4: Huấn luyện mơ hình ngơn - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
m ơ hình dịch 4: Huấn luyện mơ hình ngơn (Trang 96)
bảng giĩng hàng từ (A*) 4: Huấn luyện mơ hình dịch 5: Huấn luyện mơ hình ngơn - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
bảng gi ĩng hàng từ (A*) 4: Huấn luyện mơ hình dịch 5: Huấn luyện mơ hình ngơn (Trang 98)
Bảng 34 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từ - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 34 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để giĩng hàng từ (Trang 99)
SMT-Wordpiece-A* Kết quả thử nghiệm thu được được trình bày trong Bảng 3 5 ( BLEU là kết quả so sánh với baseline) - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
ordpiece A* Kết quả thử nghiệm thu được được trình bày trong Bảng 3 5 ( BLEU là kết quả so sánh với baseline) (Trang 100)
Các kết quả thử nghiệm được trình bày trong Bảng 37 (BLEU là kết quả so sánh với baseline)  - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
c kết quả thử nghiệm được trình bày trong Bảng 37 (BLEU là kết quả so sánh với baseline) (Trang 101)
Huấn luyện mơ hình ngơn ngữ - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
u ấn luyện mơ hình ngơn ngữ (Trang 104)
* Mơ hình baseline: - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
h ình baseline: (Trang 106)
Bảng 311 Kết quả thử nghiệm BT với độ đo thích ngh iT - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 311 Kết quả thử nghiệm BT với độ đo thích ngh iT (Trang 107)
Hình 38 Kết quả thử nghiệm BT với độ đo thích ngh iH - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 38 Kết quả thử nghiệm BT với độ đo thích ngh iH (Trang 107)
Hình 39 Kết quả thử nghiệm BT với độ đo thích ngh iT - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 39 Kết quả thử nghiệm BT với độ đo thích ngh iT (Trang 108)
Bảng 3 12 Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Bảng 3 12 Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H (Trang 108)
Hình 3 10 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi H - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 3 10 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi H (Trang 109)
Hình 311 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T - Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh
Hình 311 Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T (Trang 110)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w