1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình tích hợp tri thức từ vựng trong dịch tự động hoa việt

200 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN  TRẦN THANH PHƯỚC MƠ HÌNH TÍCH HỢP TRI THỨC TỪ VỰNG TRONG DỊCH TỰ ĐỘNG HOA-VIỆT LUẬN ÁN TIẾN SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Tp Hồ Chí Minh, năm 2018 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẦN THANH PHƯỚC MÔ HÌNH TÍCH HỢP TRI THỨC TỪ VỰNG TRONG DỊCH TỰ ĐỘNG HOA-VIỆT Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62.48.01.01 Phản biện 1: PGS TS Quản Thành Thơ Phản biện 2: PGS TS Đỗ Phúc Phản biện 3: PGS TS Hồ Bảo Quốc Phản biện độc lập 1: PGS TS Phan Huy Khánh Phản biện độc lập 2: PGS TS Nguyễn Phương Thái NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đinh Điền Tp Hồ Chí Minh - năm 2018 LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc đến với Thầy hướng dẫn tôi, PGS TS Đinh Điền Thầy tận tình bảo cho tơi từ ngày đầu chập chững bước vào đường nghiên cứu khoa học Tính cẩn thận, trung thực, kiên nhẫn nghiêm túc cơng việc tơi có ngày hôm phần không nhỏ học bảo từ Thầy Trong trình làm việc với Thầy năm qua (kể từ cịn làm thạc sĩ), có lúc giận hờn, buồn bực loay hoay tìm khơng kết mà bị Thầy la rầy, sâu thẳm lịng tơi ln biết Thầy ln hết lịng tơi, học trị Thầy Một lần nữa, xin gửi lời cảm ơn chân thành đến Thầy Ngồi ra, để có cơng trình nghiên cứu với báo kết thử nghiệm xác đáng khích lệ, tơi giúp đỡ tận tình ngữ liệu từ đồng nghiệp, nghiên cứu viên nhóm VCL c Trung Tâm Đa Ngữ Kim Từ Điển trước Trung Tâm Ngơn Ngữ Học Tính Tốn (CLC) Các bạn Trung Tâm hỗ trợ cho mặt ngữ liệu kiến thức ngôn ngữ học Tôi gửi lời cám ơn đến bạn sinh viên Khoa Ngoại Ngữ (chuyên ngành tiếng Trung) trường Đại Học Tôn Đức Thắng định dạng cho số ngữ liệu tiếng Hoa Tôi muốn bày tỏ lòng biết ơn đến với tập thể thầy cô Khoa Công Nghệ Thông Tin trường Đại Học Khoa Học Tự Nhiên TP.HCM, nơi học tập nghiên cứu từ lúc học thạc sĩ đến Các thầy cơ, anh chị phịng Sau Đại Học trường nhiệt tình hỗ trợ mặt thủ tục cho thời gian học tập làm luận án Tôi chân thành c ảm ơn đồng nghiệp quan cũ tôi, khoa Công Nghệ Thông Tin trường Đại Học Công Nghiệp Thực Phẩm TP.HCM tạo điều kiện thuận lợi cho thời gian đầu làm luận án Tôi gửi đến lời cảm ơn chân thành đến đồng nghiệp, Ban Chủ Nhiệm Khoa Công Nghệ Thông Tin, trường Đại Học Tôn Đức Thắng, nơi làm việc nay, hỗ trợ cho tơi thời gian, góp ý cho tơi nội dung báo khoa học, góp phần cho việc hồn thành luận án tơi Cuối cùng, xin gửi lời cám ơn đến ba mẹ, anh chị em đặc biệt vợ Không có giúp đỡ ủng hộ từ họ, tơi khơng thể hoàn thành luận án LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận án kết nghiên cứu thân Tất tài liệu tham khảo nêu rõ nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo Các cơng trình cơng bố trung thực chưa cơng bố cơng trình khác Tác giả luận án MỤC LỤC DANH MỤC CÁC KÝ HIỆU – CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG .11 DANH MỤC CÁC HÌNH VẼ - ĐỒ THỊ .13 Chương Giới thiệu tổng quan 17 1.1 Sự cần thiết dịch Hoa-Việt 17 1.2 Dịch tự động 19 1.3 Những tồn P-SMT mục tiêu luận án 20 1.4 Đối tượng phương pháp nghiên cứu 23 1.4.1 Đối tượng nghiên cứu 23 1.4.2 Phương pháp nghiên cứu 23 1.5 Các đóng góp luận án 24 1.6 Cấu trúc luận án 24 Chương 2.1 Tổng quan dịch máy Hoa-Việt 27 Dịch máy 27 2.1.1 Khái niệm 27 2.1.2 Các vấn đề dịch máy 27 2.2 Các hướng tiếp cận dịch máy .30 2.2.1 Dịch máy dựa luật 30 2.2.2 Dịch máy dựa thống kê 30 2.2.3 Dịch máy dựa ví dụ 31 2.2.1 Dịch máy dựa mạng nơ ron 31 2.2.2 Các hướng tiếp cận lai 32 2.3 Dịch máy thống kê 32 2.3.1 Dịch máy thống kê dựa từ 33 2.3.2 Mơ hình dịch máy thống kê dựa cụm từ 33 2.3.3 Dịch máy thống kê factored 37 2.3.4 Dịch máy thống kê dựa cú pháp 39 2.3.5 Dịch máy thống kê dựa cụm từ phân cấp 39 2.4 Mơ hình tích hợp tri thức từ vựng 39 2.5 Đánh giá chất lượng dịch máy 41 2.5.1 BLEU 42 2.5.2 TER 42 2.6 Dịch máy liên quan đến tiếng Việt 43 2.6.1 Dịch máy Việt-Anh-Việt 43 2.6.2 Dịch máy Pháp-Việt-Pháp 44 2.6.3 Dịch máy Hoa-Việt-Hoa 44 2.6.4 Dịch máy Việt-Thái 45 2.7 Tri thức từ vựng 45 2.7.1 Từ từ vựng 45 2.7.2 Loại hình đơn lập 46 2.7.3 Tri thức từ vựng 47 2.8 Mối quan hệ hai ngôn ngữ Hoa-Việt .48 2.8.1 Sự giống khác tiếng Hoa tiếng Việt 48 2.8.2 Từ Hán Việt 50 2.8.3 Thực thể có tên 51 2.9 Xây dựng ngữ liệu Hoa-Việt .53 2.9.1 Thu thập ngữ liệu 53 2.9.2 Chuẩn hoá ngữ liệu 56 2.10 Một số công cụ sử dụng luận án 56 2.10.1 Công cụ phân đoạn từ 56 2.10.2 Cơng cụ nhận dạng thực thể có tên 57 2.10.3 Công cụ nhận dạng quan hệ ngữ pháp tiếng Hoa 57 2.10.4 Công cụ dịch máy thống kê dựa cụm từ 57 2.11 Kết luận 58 Chương Điều chỉnh phân đoạn từ cho dịch máy Hoa-Việt .59 3.1 Giới thiệu .59 3.2 Cơng trình liên quan 60 3.2.1 Phân đoạn từ dựa vào hình thái từ 61 3.2.2 Phân đoạn từ dựa vào ngôn ngữ S/T 61 3.2.3 Giải mã dựa vào dàn từ 64 3.2.4 Các phương pháp phân đoạn từ khác 65 3.3 Điều chỉnh phân đoạn từ Hoa-Việt 66 3.3.1 Ứng viên điều chỉnh phân đoạn từ 66 3.3.2 Mơ hình điều chỉnh phân đoạn từ dịch máy Hoa-Việt 67 3.3.3 Điều chỉnh phân đoạn từ cho trường hợp gióng hàng 1-n 69 3.3.4 Điều chỉnh phân đoạn từ cho trường hợp gióng hàng n-1 70 3.3.5 Điều chỉnh phân đoạn từ cho ngữ liệu kiểm tra SMT 72 3.4 Thử nghiệm 73 3.4.1 Ngữ liệu thử nghiệm 73 3.4.2 Kết thử nghiệm 76 3.4.3 Phân tích 78 3.5 Kết luận 81 Chương Cải tiến gióng hàng từ cho dịch máy Hoa-Việt 83 4.1 Giới thiệu .83 4.2 Cơng trình liên quan 85 4.2.1 Cải tiến dựa vào độ tương đồng 86 4.2.2 Cải tiến dựa vào ngôn ngữ bắc cầu/ngôn ngữ trục 86 4.2.3 Tích hợp nhiều hướng tiếp cận gióng hàng từ 88 4.3 Nền tảng mơ hình gióng hàng từ 91 4.3.1 Gióng hàng từ 91 4.3.2 Mơ hình IBM thuật toán cực đại hoá kỳ vọng 92 4.3.3 Các mơ hình IBM nâng cao 93 4.4 Mô hình cải tiến gióng hàng từ 93 4.4.1 Phân đoạn từ cho ngữ liệu Hoa Việt 94 4.4.2 Gióng hàng từ khơng giám sát sử dụng GIZA++ 94 4.4.3 Cải tiến gióng hàng từ dựa vào từ Hán Việt thực thể có tên 95 4.4.4 Cải tiến gióng hàng từ dựa vào từ thực tiếng Hoa 97 4.5 Thử nghiệm thảo luận 102 4.5.1 Ngữ liệu thử nghiệm 102 4.5.2 Đánh giá 103 4.5.3 Kết thử nghiệm 103 4.5.4 4.6 Phân tích 105 Kết luận 107 Chương Đảo trật tự từ cho dịch máy Hoa-Việt 109 5.1 Giới thiệu 109 5.2 Cơng trình liên quan 111 5.2.1 Tiền đảo trật tự 111 5.2.2 Hậu đảo trật tự 116 5.3 Kiến thức tảng 117 5.3.1 Mơ hình đảo trật tự 117 5.3.2 Quan hệ phụ thuộc tiếng Hoa 119 5.4 Xây dựng quy tắc đảo trật tự 122 5.4.1 Rút trích DR ứng viên 122 5.4.2 Xây dựng quy tắc đảo trật tự 125 5.5 Thử nghiệm 138 5.5.1 Ngữ liệu thử nghiệm 138 5.5.2 Đánh giá 138 5.5.3 Kết thử nghiệm 140 5.5.4 Phân tích 141 5.6 Kết luận 145 Chương Xử lý từ dịch máy Hoa-Việt 146 6.1 Giới thiệu 146 6.2 Cơng trình liên quan 149 6.2.1 Dịch Việt - Hoa 149 [19] Dang Ngoc Huy, and Pusadee Seresangtakul (2013), Vietnamese – Thai lexicon for machine translation, in Proceeding of the tenth International Symposium on Natural Language Processing, pp 195-198 [20] David Chiang (2007), Hierachical Phrase-Based Translaton, Journal of Computational Linguistics, Volume 22 Issue 2, pp 201-208 [21] Dinh Dien and Vu Thuy, (2006), A maximum entropy approach for Vietnamese word segmentation, in Proceeding th IEEE International Conference on Computer Science – Research, Innovation and Vision of the Future 2006 (RIVF’06), pp 247 – 252 [22] Dmitriy Genzel (2010), Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation, in Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pp 376384 [23] Franz Josef Och and Hermann Ney (2003), A systematic comparison of various statistical alignment models, Journal Computational Linguistics, pp 1951 [24] Ge Wu, Yuqi Zhang, and Alexander Waibel (2014), Rule-Based Preordering on Multiple Syntactic Levels in Statistical Machine Translation, in Proceedings of the 11th International Workshop on Spoken Language Translation (IWSLT 2014), 2014 [25] Hai Zhao, Masao Utiyama, Eiichiro Sumita, and Bao-Liang Lu (2013), An Empirical Study on Word Segmentation for Chinese Machine Translation, Computational Linguistics and Intelligent Text Processing Volume 7817 of the series Lecture Notes in Computer Science, pp 248-263 [26] Hai Zhao, Tianjiao Yin, JingYi Zhang (2013), Vietnamese to Chinese Machine Translation via Chinese Character as Pivot, Proceedings of the 27th Pacific Asia Conference on Language, Information, and Computation (PACLIC 27), pp 250-259 181 [27] Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh (2010), A simple reordering rule for SOV languages, in Proceeding WMT-Metrics MATR, pp 244-251 [28] Hua Wu and Haifeng Wang (2007), Pivot language approach for phrase - based statistical machine translation, Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp 856-863 [29] Hua-Ping Zhang, Qun Liu, Hong-Kui Yu, Xue-Qi Cheng, and Shuo Bai (2003), Chinese Named Entity Recognition Using Role Model, Computational Linguistics and Chinese Language Processing, Vol 8, No 2, pp 29-60 [30] Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, and Christopher Manning (2005), A Conditional Random Field Word Segmenter, in 4th SIGHAN Workshop on Chinese Language Processing, pp 168-171 [31] Hung Ngo Quoc and Dinh Dien (2014), Building English-Vietnamese Named Entity Corpus with Aligned Bilingual News Articles, In th Workshop on South and Southeast Asian Natural Language Processing, Ireland , pp 85-93 [32] Ibrahim Badr, Rabih Zbib, and James Glass (2009), Syntactic Phrase Reordering for English-to-Arabic Statistical Machine Translation, in Proceedings of the 12th Conference of the European Chapter of the ACL, pp 86-93 [33] Isao Goto, Masao Utiyama, and Eiichiro Sumita (2010), Post-ordering by Parsing for Japanese-English Statistical Machine Translation, in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics , pp 311-316 [34] Jenny Rose Finkel, Trond Grenager, and Christopher Manning (2005), Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling, Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp 363-370 182 [35] Jia Xu, Evgeny Matusov, Richard Zens, and Hermann Ney (2005), Integrated Chinese word segmentation in statistical machine translation, in Proceeding of the International Workshop on Spoken Language Translation , pp 131-137 [36] Jia Xu, Jianfeng Gao, Kristina Toutanova, and Hermann Ney (2008), Bayesian Semi-Supervised Chinese Word Segmentation for Statistical Machine Translation, Proceedings of the 22nd International Conference on Computational Linguistics, pp 1017-1024 [37] Jia Xu, Richard Jens, and Hermann Ney (2004), Do we need Chinese word segmentation for statistical machine translation?, in ACL SIGHAN Workshop 2004, Association for Computational Linguistics, pp 122-128 [38] Jianfeng Gao, Mu Li, and Chang-Ning Huang (2003), Improved Source- Channel Models for Chinese Word Segmentation, in ACL 03 Proceedings of the 41 st Annual Meeting on Association for Computational Linguistics , pp 272-279 [39] Jie Jiang, Jinhua Du, and Andy Way (2010), Source-side Syntactic Reordering Patterns with Functional Words for Improved Phrase-based SMT, in Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation, pp 19-27 [40] Jin-Ji Li, Jungi Kim, Dong-Il Kim, and Jong-Hyeok Lee (2009), Chinese Syntactic Reordering for Adequate Generation of Korean Verbal Phrases in Chinese-to-Korean SMT, Proceedings of the Fourth Workshop on Statistical Machine Translation , pp 190–196 [41] Jingsheng Cai, Masao Utiyama, Eiichiro Sumita, and Yujie Zhang (2014), Dependency-based Pre-ordering for Chinese-English Machine Translation, in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp 155–160 183 [42] Joao Silva, Luisa Coheur, Angela Costa, and Isabel Trancoso (2012), Dealing with unknown words in statistical machine translation, in Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), pp 3977-3981 [43] Katsuhito Sudoh, Xianchao Wu, Kevin Duh, Hajime Tsukada, and Masaaki Nagata (2010), Post-ordering in Statistical Machine Translation, in Proceedings of the 13th Machine Translation Summit, pp 316–323 [44] Keh-Jiann and Chao-jan Chen (2000), Knowledge Extraction for Indentification of Chinese Organization Names, in Second Chinese Language Processing Workshop, Hong Kong, pp 15-21 [45] Kenji Yamada and Kevin Knight (2001), A syntax-based statistical machine translation, Proceedings of ACL, pp 523-530 [46] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics , pp 311-318 [47] Kuzman Ganchev, Joao V Graca, and Ben Tasker (2008), Better Alignments = Better Translations?, in Proceedings of ACL-08: HLT, pp 986-993 [48] Liu Hongjian, Guo Defang, Zhou Quan, Nagamatsu Kenji, andSun Qinghua (2010), A pre-identification method for Chinese Named Entity Recognition, Journal of Software, Volume 5, Number 1, pp 73-80 [49] Maria Holmqvist, Sara Stymne, Jody Foo, and Lars Ahrenberg (2009), Improving alignment for SMT by reordering and augmenting the training corpus, in Proceedings of the Fourth Workshop on Statistical Machine Translation , pp 120–124 [50] Marta R Costa-jussà, and José A R Fonollosa (2010), Statistical machine reordering, in Proceedings of HLT/EMNLP’06, pp 70–76 184 [51] Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, and John Makhoul Snover (2006), A study of translation edit rate with targeted human annotation, Proceedings of Association for Machine Translation in the Americas, pp 223 231 [52] Matthias Eck, Stephan Vogel, Alex Waibel (2008), Communicating Unknown words in machine translation, in International Conference on Language Resources and Evaluation, pp 1542-1547 [53] Maxim Khalilov and Khalil Sima’an (2010), Source reordering using maxent classifiers and supertags, in Proceedings of EAMT’10, pp 292–299 [54] Maxim Khalilov and Khalil Sima’an (2010), A Discriminative Syntactic Model for Source Permutation Via Tree Transduction, in Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation , pp 92-100 [55] Mei Tu, Yu Zhou, and Chengqing Zong (2012), A universal approach to translating Numerical and Time Expressions, in Proceedings IWSLT 2012, International workshop on spoken language translation , pp 209-216 [56] Michael Collins, Philipp Koehn, and Ivona Kucerova (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL), pp 531-540 [57] Michel Galley and Christopher D Manning (2008), A Simple and Effective Hierarchical Phrase Reordering Model, In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing , pp 848-856 [58] Michael Paul, Andrew Finch, and Eiichiro Sumita (2010), Integration of Multiple Bilingually-Learned Segmentation Schemes into Statistical Machine Translation, Proceedings of the Joint 5th Workshop on Statistical Machine Translation and MetricsMATR, pp 400-408 [59] Ming-Hong Bai, Keh-Jiann Chen, Jason S Chang (2008), Improving word alignment by adjusting Chinese word segmentation, in Proceedings of the Third 185 International Joint Conference on Natural Language Processing: Volume -I, India, pp 249-256 [60] Nadir Durrani and Philipp Koehn (2014), Improving Machine Translation via Triangulation and Transliteration, Proceedings of 17th Annual conference of the European Association for Machine Translation, pp 71-78 [61] Nizar Habash (2007), Syntactic Preprocessing for Statistical Machine Translation, in Proceeding of the Machine Translation Summit (MT-Summit), 2007 [62] Peter F Brown, Della Pietra, Della Pietra, and Robert L Mercer (1993), Mercer: The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, Vol 19, No 2, pp 263-311 [63] Philipp Koehn (2010), Statistical machine translation, Cambridge University Press [64] Philipp Koehn, Amittai Axelrod, Alexandra Birch, Chris Callison- Burch, Miles Osborne, David Talbot (2005), Edinburgh system description for the 2005 IWSLT speech translation evaluation, In International Workshop on Spoken Language Translation, IWSLT 2005, pp 68-75 [65] Philipp Koehn, Franz Josef Och, and Daniel Marcu (2003), Statistical phrase-based translation, In Proceedings of HLT-NAACL, pp 48-54 [66] Philipp Koehn, H Hoang, Factored Translation Models (2007), In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing- and Computational Natural Language Learning (ACL), pp 868-876 [67] Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, and Christopher D Manning (2009), Discriminative Reordering with Chinese Grammatical Relations Features, in Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation, pp 51-59 186 [68] Pi-Chuan Chang, Michel Galley, and Christopher D Manning (2008), Optimizing Chinese word segmentation for machine translation performance, in ACL Proceeding of the third workshop on statistical machine translation , pp 224-232 [69] Preslav Nakov and Hwee Tou Ng (2009), Improved Statistical Machine Translation for Resource-Poor Languages Using Related Resource-Rich Languages, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp 1358–1367 [70] Raj Dabre, Fabien Cromieres, Sadao Kurohashi, and Pushpak Bhattacharyya (2015), Leveraging Small Multilingual Corpora for SMT Using Many Pivot Languages, Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL, pp 1192-1202 [71] Ruiqiang Zhang and Eiichiro Sumita (2008), Chinese Unknown word Translation by Subword Re-segmentation, in International Joint Conference on Natural Language Processing, pp 235-232 [72] Santanu Pal, Sudip Kumar Naskar, and Sivaji Bandyopadhyay (2013), A Hybrid Word Alignment Model for Phrase-Based Statistical Machine Translation, Proceedings of the Second Workshop on Hybrid Approaches to Translation, pp 94–101 [73] Sara Stymne (2010), Clustered Word Classes for Preordering in Statistical Machine Translation, in Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics , pp 28–34 [74] Shankar Kumar, Franz Och, and Wolfgang Macherey (2007), Improving Word Alignment with Bridge Languages, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp 42-50 [75] Sharon Goldwater and David McClosky (2005), Improving Statistical MT through Morphological Analysis, in Proceeding HLT 05 Proceedings of the 187 conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp 676-683 [76] Son Bao Pham, Giang Binh Tran, Dang Duc Pham, Kien Chi Phung and Kien Trung Nguyen, An information extraction approach to English-Vietnamese weather bulletins machine translation, in Proceeding of Asian Conference on Intellegent Information and Database Systems, ACIIDS 2009 , pp 161-166 [77] Stephan Vogel, Hermann Ney, and Christoph Tillmann (1996), HMM-Based Word Alignment in Statistical Translation, COLING 1996 Volume 2: The 16th International Conference on Computational Linguistics , pp 836-841 [78] Steve DeNeefe, Ulf Hermjakob, and Kevin Knight (2008), Overcoming Vocabulary Sparsity in MT Using Lattices, AMTA’ 08 Proceeding of the 8th Biennial Conference of the Association for machine translation in the Americas, pp 89-96 [79] Tan Le Ngoc, Ngoc Tien Le, and Dien Dinh (2013), French-Vietnamese statistical machine translation combining with chunk alignments, Journal of Computer Science and Cybernetics, Vol 29, No 4, 2013, pp 358-368 [80] Tetsuji Nakagawa (2015), Efficient Top-Down BTG Parsing for Machine Translation Preordering, in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, pp 208-218 [81] Thai Phuong Nguyen and Akira Shimazu (2006), Improving Phrased-based SMT with morpho-syntactic analysis and transformation, Proceedings of the 7th Conference of the Association for Machine Translation in the Americas , pp 138-147 [82] Theeravat Songyot and David Chiang (2014), Improving Word Alignment using Word Similarity, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1840–1845 188 [83] ThuyLinh Nguyen, Stephan Vogel, and Noah A Smith (2010), Nonparametric Word Segmentation for Machine Translation, Proceedings of the International Conference on Computational Linguistics (COLING), pp 815-823 [84] Tomer Levinboim and David Chiang (2015), Multi-Task Word Alignment Triangulation for Low-Resource Languages, Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL, pp.1221–1226 [85] Tran Quoc Tri, Pham Thi Xuan Thao, Ngo Quoc Hung, Dinh Dien, and Nigel Collier (2007), Named Entity Recognition in Vietnamese Doc uments, Journal of Progress in Informatics, NII (National Institute for Informatics), Tokyo, Japan, Vol, 2007, No,4, pp 1-9 [86] Uri Lerner and Slav Petrov (2013), Source-Side Classifier Preordering for Machine Translation, in Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp 513–523 [87] Victoria Fossum, Kevin Knight and Steven Abney (2008), Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation, In Proceedings of ACL MT Workshop, pp 44-52 [88] Xiaodong Zeng, Lidia S Chao, Derek F Wong, Isabel Trancoso, and Liang Tian (2014), Toward Better Chinese Word Segmentation for SMT via Bilingual Constraints, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp 1360-1369 [89] Xiaolin Wang, Masao Utiyama, Andrew Finch, and Eiichiro Sumita (2014), Refining word segmentation using a manually aligned corpus for statistical machine translation, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1654-1664 [90] Xiaolin Wang, Masao Utiyama, Andrew Finch, and Eiichiro Sumita (2014), Empirical Study of Unsupervised Chinese Word Segmentation Methods for 189 SMT on Large-scale Corpora, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp 752-758 [91] Yanjun Ma and Andy Way (2009), Bilingually motivated Domain Adapted word segmentation for SMT, In EACL 2009 Workshop on Computational Approaches to Semitic Languages, 31 March 2009, Athens, Greece, pp 549-557 [92] Yanjun Ma, Nicolas Stroppa, and Andy Way (2007), Boostrapping word alignment via word packing, in Proceedings of the 45th Annual Meeting of ACL, pp 304–311 [93] Young-Suk Lee (2004), Morphological analysis for statistical machine translation, in Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL, pp 57-62 [94] Youzheng Wu, Jun Zhao, and Bo Xu (2003), Chinese Named Entity Recognition Combining a Statistical Model with Human Knowledge, in Multi NER 03 Proceedings of the ACL 2003 workshop on Multilingual and mixed language named entity recognition, Volume 15, pp 65-72 [95] Zhifa Shen (2008), The roles of Depth and Breadth of Vocabulary Knowledge in EFL Reading Performance, Asian Social Science, Vol, 4, No,12, 2008, pp 135 – 137 190 PHỤ LỤC I DANH MỤC HỌ NGƯỜI HOA Có gần 500 họ người Hoa, bảng sau trình bày số họ tiêu biểu Tiếng Tiếng Tiếng Tiếng Tiếng Tiếng Hoa Việt Hoa Việt Hoa Việt 乐 Nhạc 22 时 Thời 43 苗 Miêu 于 Vu 23 昌 Xương 44 范 Phạm 云 Vân 24 朱 Chu 45 葛 Cát 伍 Ngũ 25 李 Lý 46 蒋 Tương 何 Hà 26 杨 Dương 47 许 Hứa 倪 Nghê 27 柏 Bách 48 诸 Chư 傅 Phó 28 殷 Ân 49 贺 Hạ 冯 Phùng 29 毕 Tất 50 赵 Triệu 凤 Phượng 30 水 Thủy 51 邬 Ổ 10 卡 Tạp 31 汤 Thang 52 邹 Trâu 11 卫 Vệ 32 沈 Trầm 53 郎 Lang 12 吴 Ngô 33 滕 Đằng 54 郑 Trịnh 13 周 Chu 34 潘 Phan 55 郝 Hác 14 喻 Dụ 35 王 Vương 56 钱 Tiễn 15 奚 Hề 36 皮 Bì 57 陈 Trần 16 孙 Tơn 37 秦 Tần 58 雷 Lôi 17 安 An 38 窦 Đậu 59 韦 Vi 18 尤 Vưu 39 章 Chương 60 韩 Hàn 19 常 Thường 40 罗 La 61 马 Mã 20 康 Khang 41 花 Hoa 62 鲁 Lỗ 21 彭 Bành 42 苏 Tô 63 齐 Tề STT STT 191 STT PHỤ LỤC II DANH MỤC TỪ KHOÁ TÊN ĐỊA DANH TIẾNG HOA Bảng sau liệt kê số từ khoá tên địa danh phổ biến tiếng Hoa STT Từ khoá Nghĩa STT Từ khoá Nghĩa 自治区 Khu tự trị 20 峡 Eo đất 省 Tỉnh 21 盆地 Lưu vực 县 Huyện 22 洞 Động 州 Châu 23 平原 Đồng 縣 Huyện 24 冰川 Mặt băng 自治县 Huyện tự trị 25 泉 Suối 市 Thành phố 26 瀑布 Thác 区 Khu/quận 27 河 Sông 盟 Danh 28 江 Sông 10 自治旗 Kỳ tự trị (ngang 29 湖 Hồ huyện) 11 山脉 Sơn mạch 30 灣 Vịnh 12 山 Núi 31 海峡 Kênh 13 峰 Núi 32 水库 Hồ chứa 14 岛 Đảo 33 国 Nước 15 草原 Thảo nguyên 34 路 Đường 16 半岛 Bán đảo 35 港 Cảng 17 沟 Rãnh, cống, khe 36 村 Làng/Thôn 18 关 Quan, cửa ải 37 湖 Hồ 19 沙漠 Sa mạc 192 PHỤ LỤC III DANH MỤC TỪ KHOÁ TÊN TỔ CHỨC TIẾNG HOA Bảng sau liệt kê số từ khoá tên tổ chức phổ biến tiếng Hoa STT Từ khoá Nghĩa STT Từ khoá Nghĩa 部 Bộ 19 司 Ty 楼 Lầu 20 组织 Tổ chức 院 Viện 21 联盟 Đồng minh 所 Sở 22 共同体 Cộng đồng 酒吧 Quán rượu 23 银行 Ngân hàng 大楼 Cửa hàng 24 联 Liên đoàn 学院 Học viện 25 同盟 Liên minh/Đồng minh 大学 Đại học 26 体系 Hệ thống 市场 Thị trường 27 大会 Đại hội 10 会 Hội 28 团 Đồn 11 公司 Cơng ty 29 署 Văn phịng 12 集团 Tập đồn 30 办公厅 Văn phịng 13 中心 Trung tâm 31 办公室 Văn phòng 14 大会 Đại hội 32 总局 Tổng cục 15 学校 Trường 33 室 Phòng 16 局 Cục 34 单位 Đơn vị 17 会议 Hội nghị 35 通讯社 Thông xã 18 部门 Bộ môn 36 队 Đội 193 PHỤ LỤC IV DANH MỤC TỪ HÁN VIỆT Trong kho ngữ liệu CLC gồm 35.623 cặp câu có 1.182 từ Hán-Việt Sau 74 từ Hán Việt tổng số 1.182 từ STT Hoa Việt STT Hoa Việt 游客 du khách 18 袭击 tập kích 信息 tin tức 19 特别 đặc biệt 现在 20 风景 phong cảnh 严重 nghiêm trọng 21 东西 đông tây 第一 đệ 22 心地 tâm địa 地址 địa 23 自然 tự nhiên 当然 đương nhiên 24 海关 hải quan 固定 cố định 25 充血 sung huyết 工作 công tác 26 公园 công viên 10 衣服 y phục 27 继续 kế tục 11 准备 chuẩn bị 28 印象 ấn tượng 12 电话 điện thoại 29 定型 định hình 13 地图 địa đồ 30 朋友 hữu 14 西南 tây nam 32 预算 dự toán 15 行李 hành lý 32 促进 xúc tiến 16 左右 tả hữu 33 人民 nhân dân 17 支票 chi phiếu 34 设立 thiết lập 194 35 演员 diễn viên 55 法定 pháp định 36 处理 xử lý 56 拒绝 cự tuyệt 37 一定 định 57 损害 tổn hại 38 通知 thông tri 58 个人 cá nhân 39 保证 bảo chứng 59 保险 bảo hiểm 40 附近 phụ cận 60 高兴 cao hứng 41 照顾 chiếu cố 61 国家 quốc gia 42 先生 tiên sinh 62 人口 nhân 43 普通 phổ thông 63 所以 44 邮件 bưu kiện 64 同时 đồng thời 45 亲爱 thân 65 工业 công nghiệp 46 人员 nhân viên 66 城市 thành thị 47 指挥 huy 67 种类 chủng loại 48 自动 tự động 68 家长 gia trưởng 49 地方 địa phương 69 参加 tham gia 50 设计 thiết kế 70 参观 tham quan 51 服务 phục vụ 71 指导 đạo 52 音乐 âm nhạc 72 空运 không vận 53 飞机 phi 73 取消 thủ tiêu 54 便利 tiện lợi 74 制度 chế độ 195 ... Các tri thức từ vựng tiếng Hoa tiếng Việt, bao gồm: tri thức hình thái từ (ranh giới từ) , tri thức ngữ pháp (quan hệ phụ thuộc), tri thức ngữ nghĩa (từ Hán Việt, thực thể có tên từ thực) – Mơ hình. .. sai phổ biến dịch tự động từ Hoa sang Việt Một số trật tự từ khác biệt tiếng Hoa tiếng Việt như: trật tự giới ngữ, trật tự danh ngữ, trật tự tính từ danh từ, trật tự liên quan đến từ “的” Giảm... mơ hình ngơn ngữ n-gram áp dụng cho hệ dịch HoaViệt Luận án tập trung cải tiến tồn hai mơ hình cịn lại P-SMT, mơ hình dịch mơ hình đảo trật tự Hình 2.4 trình bày mơ hình tích hợp tri thức từ vựng

Ngày đăng: 08/08/2021, 17:36

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w