ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC Tự NHIÊN NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DựNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIÊN LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC Tự NHIÊN NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DựNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN Sĩ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thi Minh Huyền PGS.TS Nguyễn Hữu Ngự LỜI CAM ĐOAN Tơi xin cam đoan nội dung trình bày luận án kết nghiên cứu tôi, thực hướng dẫn TS Nguyễn Thị Minh Huyền PGS TS Nguyễn Hữu Ngự Các nội dung trích dẫn từ nghiên cứu tác giả khác trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Nguyễn Tiến Hà LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Thị Minh Huyền PGS.TS Nguyễn Hữu Ngự trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy/cơ giáo Khoa Tốn - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt thầy/cô giáo Bộ môn Tin học, người trực tiếp giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Tôi xin gửi cảm ơn đến TS Nguyễn Văn Vinh, PGS TS Nguyễn Phương Thái, PGS TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội; TS Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS TS Lê Thanh Hương, TS Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội; PGS TS Đỗ Trung Tuấn, TS Đỗ Thanh Hà, TS Lê Hồng Phương, PGS TS Lê Trọng Vĩnh, TS Nguyễn Thị Bích Thủy, TS Vũ Tiến Dũng Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, thầy/cô có góp ý chỉnh sửa để tơi hồn thiện luận án Tôi xin gửi lời cảm ơn đến tất anh, chị, em Bộ môn Tin học, Khoa ToánCơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội Bộ môn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình, bạn bè, đồng nghiệp nơi công tác ủng hộ, chia sẻ, động viên khích lệ tơi học tập, nghiên cứu Mục lục 1.1 1.1.1 Phương pháp thu thập ngữ liệu song ngữ dóng hàng câu 48 1.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch 49 1.2 1.3 1.3.1 Phương pháp tiền xử lý câu dài dịch máy nơ-ron 110 1.3.2 1.3.3 1.3.4 Danh muc chữ viết tắt 1.3.5 ALPAC Automatic Language Processing Advisory Committee 1.3.6 (Hội đồng cố vấn xử lý ngôn ngữ tự động) 1.3.7 BiTES Bilingual Term Extraction System 1.3.8 (Hệ thống trích rút thuật ngữ song ngữ) 1.3.9 BLEU BiLingual Evaluation Understudy 1.3.10 (Chỉ số đánh giá chất lượng dịch song ngữ) 1.3.11 CNN Convolutional Neural Network (Mạng nơ-ron tích chập) 1.3.12 DTW Dynamic Time Warping 1.3.13 (Thuật toán chỉnh thời gian động) 1.3.14 GRU Gated Recurrent Unit (Đơn vị hồi quy cổng) 1.3.15 LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn) 1.3.16 MI Mutual Information (Thông tin tương hỗ) 1.3.17 NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) 1.3.18 NMT Neural Machine Translation (Dịch máy mạng nơ-ron) 1.3.19 OPUS The open parallel corpus (Kho ngữ liệu song song mở) 1.3.20 PBSMT Phrase-Based Statistical Machine Translation 1.3.21 (Dịch máy dựa cụm từ) 1.3.22 trí) PER Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị 1.3.23 RNN Recurrent Neural Network (Mạng nơ-ron hồi quy) 1.3.24 SMT Statistical Machine Translation (Dịch máy thống kê) 1.3.25 SALM Suffix Array tool kit for empirical Language Manipulations 1.3.26 (Công cụ lọc bảng cụm từ Moses) 1.3.27 TER Translation Error Rate (Tỷ lệ lỗi dịch) 1.3.28 TV Television (Truyền hình) 1.3.29 VLSP Vietnamese Language Speech Processing 1.3.30 (Xử lý ngơn ngữ tiếng nói tiếng Việt) 1.3.31 WER Word Error Rate (Tỷ lệ lỗi từ) Danh sách hình vẽ 1.3.32 1.1 1.1 Induction”, CoRR, abs/1906.00376, arxiv.org/abs/1906.00376 arXiv: 1906.00376, URL: http : / / [54] Keiji Yasuda and Eiichiro Sumita (2013), “Building a Bilingual Dictionary from a Japanese-Chinese Patent Corpus”, Proceedings of the 14th International Conference cessing - on Computational Linguistics Volume 2, pp 276-284, DOI: and Intelligent Text Pro- 10.1007/978-3-642-37256-8_23, URL: http://dx.doi.org/10.1007/978-3-642-37256-8_23 [55] Kenji Imamura and Eiichiro Sumita (2018), “Multilingual Parallel Corpus for Global Communication Plan”, Proceedings ofthe Eleventh International Conference on Language Resources and Evaluation (LREC-2018) [56] K Papineni and S Roukos and T Ward and W J Zhu (2002), “Bleu: a method for automatic evaluation of machine translation”, Proc of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp 311-318 [57] Laurent Romary and Patrice Bonhomme (2000), “Parallel alignment of structured documents”, Jean Véronis Parallel Text Processing, Kluwer Academic Publisher, pp 233-253 [58] Le An Ha et al (2008), “Mutual Bilingual Terminology Extraction”, LREC 2008 [59] Le Quang Hung and Le Anh Cuong (2010), “Extracting Parallel Texts from the Web”, Proceeding of The Second International Conference on Knowledge and Systems Engineering, DOI: 10.1109/KSE.2010.14 [60] Lieve Macken and Julia Trushkina and Lidia Rura (2007), “Dutch parallel corpus: MT corpus and translator’s aid”, Proceedings of Machine Translation Summit XI, pp 313-320 [61] Luong Minh-Thang, Pham Hieu, and Christopher D Manning (2015), “Effective CoRR, Approaches abs/1508.04025, abs/1508.04025 to Attention-based arXiv: Neural 1508.04025, Machine URL: Translation”, http://arxiv.org/ [62] Maja Popovic and Hermann Ney (2007), “Word Error Rates: Decomposi- tion over Pos Classes and Applications for Error Analysis”, Proceedings of the Second Workshop on Statistical Machine Translation, pp 48-55, URL: http://dl.acm.org/citation.cfm?id=1626355.1626362 [63] M Anand Kumar and V Dhanalakshmi and K P Soman and V Sharmiladevi (2014), “Improving the Performance of English-Tamil Statistical Machine Translation System using Source-Side Pre-Processing”, CoRR, abs/1409.8581, arXiv: 1409.8581, URL: http://arxiv.org/abs/1409.8581 [64] Markus Freitag, Isaac Caswell, and Scott Roy (2019), “APE at Scale and Its Implications on MT Evaluation Biases”, Proceedings of the Fourth Conference on Machine Translation (Volume 1: Research Papers), pp 34-44, URL: http://www.aclweb.org/anthology/W19-5204 [65] Martin Kay and Martin Roscheisen (1993), “Text-Translation Alignment”, Computational Linguistics, Vol.19 (1), pp 121-142, URL: https://www aclweb.org/anthology/J93-1006 [66] Matthew Snover and Bonnie Dorr and Richard Schwartz and Linnea Mic- ciulla and John Makhoul (2006), “A study of translation edit rate with targeted human annotation”, Proceedings of Association for Machine Translation in the Americas, pp 223-231 [67] Matt Post, Chris Callison-Burch, and Miles Osborne (2012), “Constructing Parallel Corpora for Six Indian Languages via Crowdsourcing”, Proceedings of the Seventh Workshop on Statistical Machine Translation, pp 154-162, URL: http://oldsite.aclweb.org/anthology-new/W/W12/W12-3152 pdf [68] Michel Simard and Pierre Plamondon (1998), “Bilingual sentence align- ment: Balancing Robustness and accuracy”, Proceedings of the Conference of the Association for Machine Translation in the Americas, 59-80 [69] Miguel Graga et al (2019), “Generalizing Back-Translation in Neural Ma- chine Translation”, Proceedings ofthe Fourth Conference on Machine Translation (Volume 1: Research Papers), pp 45-52, URL: http://www.aclweb org/anthology/W19-5205 [70] Mihael Arcan et al (2014), “Enhancing Statistical Machine Translation with Bilingual Terminology in a CAT Environment”, ation for Machine Translation in the Americas Conference: Associ- (AMTA-2014), DOI: 10 13140/2.1.1019.8404 [71] Mohammed M.Sakre and Mohammed M.Kouta and Ali M.N.Allam (May, 2016), “Automated construction of Arabic-English parallel corpus”, Arab World English Journal (AWEJ) Special Issue on Translation, No.5 [72] Myle Ott and Michael Auli and David Grangier and Marc’Aurelio Ranzato (2018), “Analyzing Uncertainty in Neural Machine Translation”, ArXiv, abs/1803.00047 [73] Muller and Meinard (2007), “Dynamic Time Warping”, vol chapter 4, pp 69-84 [74] Naama Twitto, Noam Ordan, and Shuly Wintner (2015), “Statistical Ma- chine Translation with Automatic Identification of Translationese”, Pro- ceedings ofthe Tenth Workshop on Statistical Machine Translation, pp 4757, URL: http://aclweb.org/anthology/W15-3002 [75] Ngo Quoc Hung and Werner Winiwarter and Bartholomaus Wloka (2013), “EVBCorpus - A Multi-Layer English-Vietnamese Bilingual Corpus for Studying Tasks in Comparative Linguistics”, Proceedings of the 11th Workshop on Asian Language Resources (11th ALR within the IJCNLP2013), pp 1-9 [76] Ngo Quoc-Hung and Werner Winiwarter (2012), “Building an English- Vietnamese Bilingual Corpus for Machine Translation”, Proceedings of the2012 International Conference on Asian Language Processing, pp 157- 160 [77] Nguyen Thị Minh Huyen and Mathias Rossignol (2006), “A language- independent method for the alignement of parallel corpora”, Proceedings of 20th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp 223-230 [78] Oriol Vinyals and Alexander Toshev and Samy Bengio and Dumitru Erhan (2015), “Show and Tell: A Neural Image Caption Generator”, Proceedings of The 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), DOI: 10.1109/CVPR 2015.7298935, arXiv: 1411.4555v2 [cs.CV] [79] Peter F Brown, Jennifer C Lai, and Robert L Mercer (1991), “Aligning Sentences in Parallel Corpora”, Proceedings of the 29th Annual Meeting on Association for Computational Linguistics, 169-176, DOI: 10.3115/ 981344.981366, URL: https://doi.org/10.3115/981344.981366 [80] Peter F Brown et al (1990), “A Statistical Approach to Machine Trans- lation”, Comput Linguist., 16 (2), pp 79-85, ISSN: 0891-2017, URL: http: //dl.acm.org/citation.cfm?id=92858.92860 [81] Pham Ngoc-Quan et al (2019), “Improving Zero-shot Translation with Language-Independent Constraints”, Proceedings of the on Machine Translation (Volume 1: Research Papers), Fourth Conference pp 13-23, URL: http://www.aclweb.org/anthology/W19-5202 [82] Philipp Koehn (2002), “Europarl: A Multilingual Corpus for Evaluation of Machine Translation”, Draft [83] Philipp Koehn (2020), Moses Statistical Machine Translation System User Manual and Code Guide, Statistical Machine Translation, URL: http:// www.statmt.org/moses/manual/manual.pdf [84] Philipp Koehn and Franz Josef Och and Daniel Marcu (2003), “Statistical phrase-based translation”, Proceedings of HLT-NAACL 2003, pp 127-133 [85] Philipp Koehn and Rebecca Knowles (2017), “Six Challenges for Neural Machine Translation”, CoRR, abs/1706.03872, arXiv: 1706.03872, URL: http://arxiv.org/abs/1706.03872 [86] Philip Resnik (1998), “Parallel Strands: A Preliminary Investigation into Mining the Web for Bilingual Text”, Machine Translation and the Information Soup, ed by David Farwell, Laurie Gerber, and Eduard Hovy, pp 7282 [87] the tics, Philip Resnik (1999), “Mining the Web for Bilingual Text”, Proceedings of 37th Annual pp Meeting 527-534, of the Association DOI: for Computational 10.3115/1034678.1034757, URL: Linguis- https://www aclweb.org/anthology/P99-1068 [88] Rob Gaizauskas et al (2015), “Extracting bilingual terms from the Web”, Terminology Specialized International Journal Communication, of Vol.21, Theoretical pp and 205-236, Applied DOI: Issues in 10.1075/term.21 2.04gai [89] Rui Wang et al (2017), “Sentence Embedding for Neural Machine Trans- lation Domain Adaptation”, the Association for Proceedings Computational of the Linguistics 55th Annual Meeting of (Volume 2: Short Papers), pp 560-566, DOI: 10.18653/v1/P17-2089 [90] Saba Amsalu (2006), “Data-driven Amharic-English Bilingual Lexicon Ac- quisition”, Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC'06), proceedings/lrec2006/pdf/666_pdf.pdf URL: http://www.lrec-conf.org/ [91] SANJIKA HEWAVITHARANA and Stephan Vogel (2016), “Extracting parallel phrases from comparable data for machine translation”, Natural Language Engineering, Vol.22, pp 549-573, DOI: 10.1017/S1351324916000139 [92] lation: Sara Ebrahim et al (2015), “English-Arabic Statistical Machine TransState of the Art”, Computational Linguistics and Intelligent Text Processing, ed by Alexander Gelbukh, pp 520-533 [93] Sergei Nirenburg et al (2002), “Machine Translation: A Knowledge-Based Approach”, Morgan Kaufmann Publishers Inc.340 Pine Street, Sixth FloorSan Francisco CA United States [94] Shaohui Kuang and Deyi Xiong (2016), “Automatic Long Sentence Seg- mentation for Neural Machine Translation”, Proceeding of the 24th International Conference on Computer Processing of Oriental Languages, ICCPOL 2016, pp 162-174 [95] Shengxiang Gao et al (2018), “A Method to Chinese-Vietnamese Bilingual Metallurgy Term Extraction Based on a Pivot Language”, Proceedings of the 6th CCF Conference, Big Data, pp 3-20, DOI: 10.1007/978-981-132922-7_1 [96] Shuoyang Ding, Hainan Xu, and Philipp Koehn (2019), “ Saliency-driven Word Alignment Interpretation for Neural Machine Translation”, Proceed- ings ofthe Fourth Conference on Machine Translation (Volume 1: Research Papers), pp 1-12, URL: http://www.aclweb.org/anthology/W19-5201 [97] S K Jang and J.S Chang (1997), “A Class-based Approach to Word Alignment”, Computational Linguistics, Vol.23(2), pp 313-343 [98] Solomon Teferra Abate et al (2018), “ Parallel Corpora for bi-Directional Statistical Machine Translation for Seven Ethiopian Language Pairs”, Proceedings of the First Workshop on Linguistic Resources for Natural Lan-guage Processing, pp 83-90, URL: https://www.aclweb.org/anthology/ W18-3812 [99] Stanley F Chen (1993), “Aligning Sentences in Bilingual Corpora Using Lexical Iníormation”, Proceedings of the 31st Annual Meeting on Association for Computational Linguistics, 9-16, DOI: 10.3115/981574.981576, URL: https://doi.org/10.3115/981574.981576 [100] tion”, Stephan Vogel et al (2000), “Statistical Methods for Machine TranslaSpringer, Berlin, Heidelberg, DOI: 10.1007/978-3-662-04230- 4_27 [101] Stig-Arne Gronroos, Sami Virpioja, and Mikko Kurimo ((2015)), “Tuning Phrase-Based Segmented Translation for a Morphologically Complex Tar- get Language”, Proceedings of the Tenth Workshop on Statistical Machine Translation, pp 105-111, URL: http://aclweb.org/anthology/W15- 3010 [102] TAN Min, DUAN Xiangyu, ZHANG Min (2019), “Neural Machine Trans- lation Domain Adaptation Based on Domain Features”, Journal of Chinese Information Processing, Vol.33 (7), p 56, URL: http://jcip.cipsc.org cn/EN/abstract/article_2798.shtml [103] Thomas M Cover and Joy A Thomas (1991), Elements of Information Theory, New York : Wiley, ©1991., ISBN: 978-0-471-24195-9 [104] Trieu Hai Long and Nguyen Le Minh (2017), “A Multilingual Parallel Corpus for Improving Machine Translation on Southeast Asian Languages”, Machine Translation Summit XVI [105] Trieu Hai-Long, Nguyen Phuong-Thai, and Nguyen Le-Minh (2015), “A New Feature to Improve Moore’s Sentence Alignment Method”, VNU Jour- nal of Science: Comp Science & Com, Eng Vol 31 No 1, 32-44 [106] Van Ngoc Sang (2007), “Building Vietnamese -Jrai; Jrai - Vietnamese dictionary”, Research project and technology, Ministry level, Vietnam [107] Van Ngoc Sang, Mohamad Bin Bilal Ali, Noor Dayana Abd Halim (2016), “Building Cham - Vietnamese Electronic Dictionary”, Journal Pendidikan Nusantara, ISSN 2289 -9375 (Print) Special Edition, No 1, pp 215-223 [108] V I Levenshtein (1966), “Binary Codes Capable of Correcting Deletions, Insertions and Reversals”, Soviet Physics Doklady, Vol.10, pp 707-710 [109] Vincent Vandeghinste et al (2006), “METIS-II: Machine Translation for Low Resource Languages”, Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC'06) [110] ory Warren Weaver (1953), “Recent Contributions to the Mathematical Theof Communication”, ETC: A Review of General Semantics, Vol.10, No.4, pp 261-281 [111] Wei Yang, Jinghui Yan, and Yves Lepage (2016), “Extraction of Bilingual Technical the Terms NAACL for Student Chinese-Japanese Research Patent Workshop, Translation”, pp 81-87, Proceedings DOI: of 10.18653/v1/ N16-2012, URL: https://www.aclweb.org/anthology/N16-2012 [112] William A Gale and Kenneth Ward Church (1991), “A program for Align- ing sentences in bilingual corpora”, Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics (ACL) [113] Wujie Zheng and Wenyu Wang and Dian Liu and Changrong Zhang and Qinsong Zeng and Yuetang Deng and Wei Yang and Tao Xie (2018), “Oracle-free Detection of tion”, CoRR, abs/1807.02340 Translation Issue for Neural Machine Transla- [114] Xabier Saralegi and Inaki San Vicente and Antton Gurrutxaga (2008), “Automatic Extraction of Bilingual Terms from Comparable Corpora ina Popular Science Domain”, Proceeding of the Workshop on Comparable Corpora, LREC 2008, pp 27-32 [115] Yasuhiro Ogawa and Makoto Nakamura and Tomohiro Ohno and Kat- suhiko Toyama Japanese (2018), Official Gazette, Telecommunication, 2017.1380272, “Extraction English Vol.2 eprint: https of legal Edition”, (4), pp : //doi bilingual Journal of 359-373, DOI: org/10 phrases from Information the and 10.1080/24751839 1080/24751839.2017 1380272, URL: https://doi org/10.1080/24751839.2017.1380272 [116] Yonghui Wu and Mike Schuster and Zhifeng Chen and Quoc V Le and Mohammad Norouzi and Wolfgang Macherey and Maxim Krikun and Yuan Cao and Qin Gao and Klaus Macherey and Jeff Klingner and Apurva Shah and Melvin Johnson and Xiaobing Liu and Lukasz Kaiser and Stephan Gouws and Yoshikiyo Kato and Taku Kudo and Hideto Kazawa and Keith Stevens and George Kurian and Nishant Patil and Wei Wang and Cliff Young and Jason Smith and Jason Riesa and Alex Rudnick and Oriol Vinyals and Greg Corrado and Macduff Hughes and Jeffrey Dean (2016), “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”, CoRR, abs/1609.08144, arXiv: 1609 1.1316 [117] 08144v2 [cs.CL] Yorick Wilks (1979), “MACHINE TRANSLATION AND ARTIFICIAL INTELLIGENCE"”, Translating and the Computer, B.M Snell (ed.) [118] Yun-Chuang Chiao et al (2006), “Evaluation of multilingual text align- ment Systems: the ARCADE II project”, Proceedings of the Fifth International URL: pdf.pdf Conference http : on //www Language Resources lrec-conf and Evaluation (LREC'06), org/proceedings/lrec2006/pdf/506_ [119] Zi-Yi Dou et al (2019), “Domain Differential Adaptation for Neural Ma- chine Translation”, Proceedings of the 3rd Workshop on Neural Generation and Translation (WNGT 2019), pp 59-69, DOI: 10.18653/v1/D19-5606 1.1317 Phụ lục 1.1318 Một số thuật ngữ sử dụng xây dựng kho ngữ liệu: 1.1319 Kho ngữ liệu: Là tập hợp mảnh ngôn ngữ chọn lựa xếp theo số tiêu chí ngơn ngữ học rõ ràng để sử dụng mẫu ngôn ngữ 1.1320 Kho ngữ liệu số: Là kho ngữ liệu mã hóa theo chuẩn định đồng để khai thác cho ứng dụng khác 1.1321 Kho ngữ liệu song ngữ: Là tập văn viết hai ngôn ngữ 1.1322 Kho ngữ liệu song song đa ngôn ngữ: Là tập văn viết nhiều ngơn ngữ 1.1323 • Dóng hàng văn song ngữ: Dóng hàng mức văn bản: văn kho ngữ liệu ánh xạ với nhau, tài liệu dịch tài liệu • Dóng hàng mức đoạn: đoạn hai văn ánh xạ với nhau, vài đoạn dịch vài đoạn • Dóng hàng mức câu: câu hai văn ánh xạ với nhau, câu dịch câu • Dóng hàng mức cụm từ: cụm từ hai văn ánh xạ với nhau, cụm từ dịch cụm từ • Dóng hàng mức từ: từ hai văn ánh xạ với nhau, từ dịch từ dóng hàng mức cụm từ mức dóng hàng chi tiết 1.1324 kho ngữ liệu song ngữ ... lịch sử dịch máy; kiến trúc hệ thống dịch máy; hướng tiếp cận dịch máy; đánh giá hệ thống dịch máy; tài nguyên ngôn ngữ tài nguyên ngơn ngữ cho hệ thống dịch máy; thích ứng miền dịch máy công... khai phá liệu để xây dựng kho ngữ liệu song ngữ miền y tế cần quan tâm 1.18 Từ lý nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ Việt- Anh theo miền cho hệ thống dịch máy miền liệu ưu... từ, cụm từ song ngữ để xây dựng kho ngữ liệu từ cụm từ song ngữ Việt- Anh Nghiên cứu số kỹ thuật khai thác kho ngữ liệu song ngữ Việt- Anh thu thập dịch máy 1.21 Luận án đạt kết sau: Luận án đề xuất