Đề xuất các luật đảo trật tự từ thủ công từ việc lựa chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp dụng phương pháp sắp xếp lại trật tự từ để nâng cao chất lượng bản dịch của hệ thống dịch máy AnhViệt. Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử dụng các bộ phân lớp trong kỹ thuật học máy để giải quyết bài toán sắp xếp lại trật tự từ như việc đoán nhận thứ tự đúng của câu đầu vào ở ngôn ngữ nguồn tương ứng với thứ tự trong ngôn ngữ đích.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh Hà Nội - 2019 Lời cam đoan Tôi xin cam đoan luận án kết nghiên cứu tôi, thực hướng dẫn TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh Các nội dung trích dẫn từ nghiên cứu tác giả khác trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Trần Hồng Việt TÓM TẮT Đảo trật tự từ vấn đề quan trọng dịch máy liên quan đến việc làm để sinh thứ tự từ (cụm từ) xác ngơn ngữ đích Trong hệ dịch máy thống kê dựa cụm từ (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn cộng sự, 2003; Och Ney, 2004) [59, 89], việc đảo cụm từ đơn giản chất lượng chưa cao Bên cạnh đó, ngơn ngữ có nhiều đặc điểm khác (đặc biệt khác thứ tự từ ngôn ngữ) dẫn tới mô hình hóa xác q trình dịch [89] Nhiều hướng nghiên cứu giải vấn đề xếp lại trật tự từ bên hệ thống dịch máy thống kê dựa cụm từ Một số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề xếp lại trật tự từ cho kết tốt, đảm bảo cân chất lượng dịch thời gian giải mã qua thực tiền xử lý trình xếp lại Với ưu điểm cấu trúc cú pháp phụ thuộc: kết nối tất từ câu với khả nắm bắt phụ thuộc từ xa với cấu trúc phụ thuộc địa phương tương ứng chặt chẽ với ngữ nghĩa, luận án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cú pháp phụ thuộc" Luận án tập trung giải tồn nêu thơng qua tốn: xếp lại từ câu cần dịch ngôn ngữ nguồn theo thứ tự gần với câu dịch ngơn ngữ đích Các đề xuất thực bước tiền xử lý sử dụng cú pháp phụ thuộc ngôn ngữ nguồn để đưa vào hệ dịch thống kê dựa cụm từ nhằm cải tiến chất lượng dịch máy Kết dịch từ tiếng Anh sang tiếng Việt với liệu IWSLT 2015 hệ thống tốt hai hệ thống dịch phổ biến NMT PBSMT Đóng góp luận án cụ thể sau: • Thứ nhất, luận án đề xuất luật đảo trật tự từ thủ công từ việc lựa chọn đặc trưng ngôn ngữ cú pháp phụ thuộc Từ áp dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch máy Anh-Việt • Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động Chúng coi việc xây dựng luật đảo trật tự từ vấn đề học máy việc dự đốn xác vị trí thành phần luật để đốn thứ tự câu ngơn ngữ nguồn tương ứng với thứ tự câu ngôn ngữ đích Với hai đề xuất gồm: – Khai thác đặc trưng ngôn ngữ đề xuất phương pháp sử dụng phân lớp để giải toán đảo trật tự từ Cụ thể xác định thứ tự phân lớp quan hệ cụm cha-con phân tích phụ thuộc biểu diễn câu đầu vào – Bằng việc khai thác quan hệ cặp từ phân tích phụ thuộc ưu điểm việc biểu diễn dạng word embedding, luận án đề xuất phương pháp sử dụng mạng nơ-ron để giải toán đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước đưa vào hệ dịch để nâng cao chất lượng dịch • Thứ ba, luận án đưa phân tích ảnh hưởng lỗi phân tích cú pháp đến chất lượng dịch qua việc áp dụng luật đảo trật tự từ câu nguồn Các phân tích mang lại lợi ích cho việc cải tiến phương pháp đảo trật tự từ dựa cú pháp phát triển việc phân tích cú pháp phụ thuộc, đặc biệt với ngơn ngữ tiếng Việt Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ thuộc, dịch máy thống kê dựa cụm từ Mục lục Lời cảm ơn Danh mục chữ viết tắt Danh sách hình vẽ 10 Danh sách bảng 13 Lời mở đầu 16 Tổng quan vấn đề liên quan luận án 22 1.1 Tổng quan dịch máy 22 1.2 Dịch máy thống kê 25 1.2.1 Cơ sở toán học 25 1.2.2 Cấu trúc hệ thống dịch máy 27 1.3 Dịch máy mạng nơ-ron 29 1.4 Phân tích cú pháp phụ thuộc 31 1.5 Vấn đề đảo trật tự từ dịch máy 35 1.5.1 Sự khác thứ tự từ ngôn ngữ 35 1.5.2 Đảo trật tự từ dịch máy 36 1.6 Bài toán đảo trật tự từ mơ hình dịch máy dựa cụm từ 37 1.6.1 Mơ hình dịch máy dựa cụm từ 37 1.6.2 Bài toán đảo trật từ tự dựa tiền xử lý 39 1.7 1.8 Các nghiên cứu liên quan 43 1.7.1 Sử dụng luật thủ công cho vấn đề tiền xử lý 44 1.7.2 Sử dụng luật tự động cho vấn đề tiền xử lý 45 Kết luận chương 46 Phương pháp dựa vào luật thủ cơng cho tốn đảo trật tự từ dịch máy thống kê 2.1 48 Phương pháp tiền xử lý cho toán đảo trật tự từ dịch máy 48 2.2 Các nghiên cứu liên quan 50 2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê 52 2.3.1 Phân tích tượng ngơn ngữ vấn đề xếp lại 52 2.3.2 Luật chuyển đổi trật tự từ 55 2.3.3 Tập luật đảo trật tự từ thủ công 57 2.3.4 Tập liệu cài đặt thực nghiệm 59 2.3.5 Kết thực nghiệm 62 Kết luận chương 63 2.4 Phương pháp sử dụng luật trích xuất tự động phân lớp quan hệ 65 3.1 Tiền xử lý dựa phân lớp cho dịch máy dựa cụm từ 65 3.1.1 Vấn đề tiền xử lý dựa phân lớp 66 3.1.2 Đặc trưng 69 3.1.3 Mô hình phân lớp 70 Thực nghiệm 73 3.2.1 Tập liệu cấu hình thực nghiệm 73 3.2.2 Kết thực nghiệm 74 Kết luận chương 76 3.2 3.3 Phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 79 4.1 Thông tin ngữ cảnh từ word embedding 79 4.2 Mơ hình đảo dựa mạng nơ-ron sử dụng cú pháp phụ 4.3 thuộc cho dịch máy thống kê 81 4.2.1 Đặc trưng cho phân lớp huấn luyện mơ hình 82 4.2.2 Khung làm việc cho đảo trật tự từ 87 Thực nghiệm phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 90 4.4 Phân tích thảo luận 93 4.5 Kết luận chương 94 Ảnh hưởng cú pháp phụ thuộc đến chất lượng dịch máy Anh-Việt 96 5.1 Giới thiệu 96 5.2 Phân tích cú pháp phụ thuộc 97 5.2.1 Bài tốn phân tích cú pháp phụ thuộc 98 5.2.2 Định dạng liệu theo chuẩn CoNLL 98 5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc 100 5.3 Ảnh hưởng lỗi phân tích cú pháp phụ thuộc tới chất lượng dịch máy 102 5.3.1 Phương pháp phân tích lỗi 102 5.3.2 Đánh giá 104 5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ 108 5.4 Đánh giá kết dịch độ xác cú pháp phụ thuộc 110 5.5 Kết luận chương 112 Kết luận 114 Danh mục cơng trình khoa học tác giả liên quan đến luận án117 Tài liệu tham khảo 119 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh, hai Thầy trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn đến Thầy/Cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt Thầy/Cô giáo Bộ môn Khoa học máy tính, người trực tiếp giảng dạy giúp đỡ tơi q trình học tập nghiên cứu trường Tôi xin gửi cảm ơn đến GS.TS Nguyễn Thanh Thủy, PGS TS Lê Sỹ Vinh, PGS.TS Nguyễn Phương Thái, PGS.TS Phan Xuân Hiếu, TS Trần Quốc Long, TS Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), TS Ngô Xuân Bách (Học viện Cơng nghệ Bưu Viễn thơng), TS Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Cơng nghệ Việt Nam) Thầy/Cơ có góp ý chỉnh sửa để tơi hồn thiện luận án Tôi xin gửi lời cảm ơn đến tất anh, chị, em bạn bè đồng nghiệp Bộ mơn Khoa học máy tính (Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội) giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình ln ủng hộ, chia sẻ, động viên khích lệ học tập, nghiên cứu [88] Franz J Och and Hermann Ney A systematic comparison of various statistical alignment models Computational Linguistics, 29(1):19–51, 2003 [89] Franz J Och and Hermann Ney The alignment template approach to statistical machine translation Computational Linguistics, 30(4):417– 449, 2004 [90] Franz Josef Och and Hermann Ney A comparison of alignment models for statistical machine translation In Proceedings of Coling 2000, pages 1086–1090, Saarbrucken,Germany, August 2000 [91] Myle Ott, Michael Auli, David Grangier, and Marc Aurelio Ranzato Analyzing uncertainty in neural machine translation In Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmăassan, Stockholm, Sweden, July 10-15, 2018, pages 3953 3962, 2018 [92] K Papineni, S Roukos, T Ward, and W J Zhu 2002 Bleu: a method for automatic evaluation of machine translation In Proc of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 311–318 Philadelphia, PA, July, 2002 [93] Satoshi Sato and Makoto Nagao Toward memory-based translation In COLING, 1990 [94] Dimitar Shterionov, Pat Nagle, Laura Casanellas, Riccardo Superbo, and Tony O’Dowd Empirical evaluation of nmt and pbsmt quality for largescale translation production In Proc of EAMT, pages 75–80, 2017 [95] Matthew Snover, Bonnie J Dorr, R Fletcher Schwartz, and Linnea Micciulla A study of translation edit rate with targeted human annotation 2006 130 [96] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov Dropout: A simple way to prevent neural networks from overfitting Journal of Machine Learning Research, 15:1929–1958, 2014 [97] Andreas Stolcke Srilm - an extensible language modeling toolkit In Proceedings of International Conference on Spoken Language Processing, volume 29, pages 901–904, 2002 [98] Ilya Sutskever, Oriol Vinyals, and Quoc V Le Sequence to sequence learning with neural networks In Proceedings of the 27th International Conference on Neural Information Processing Systems, NIPS’14, pages 3104–3112, Cambridge, MA, USA, 2014 MIT Press [99] Nguyễn Kim Thản Cơ sở ngữ pháp tiếng việt 2008 [100] Christoph Tillmann A unigram orientation model for statistical machine translation In Daniel Marcu Susan Dumais and Salim Roukos, editors, Proceedings of HLT-NAACL 2004: Short Papers, pages 101–104, Boston, Massachusetts, USA, May - May 2004 Association for Computational Linguistics [101] Christoph Tillmann and Hermann Ney Word reordering and a dynamic programming beam search algorithm for statistical machine translation Computational Linguistics, 29:97–133, 2003 [102] Bernard Vauquois A survey of formal grammars and algorithms for recognition and transformation in mechanical translation In IFIP Congress (2), pages 1114–1122, 1968 [103] Van Nguyen Vinh Improving Phrase-based Machine Translation using Clause Splitting and Reordering Model PhD thesis, School of Information Science, Japan Advanced Institute of Science and Technology, 2009 131 [104] Stephan Vogel, Hermann Ney, and Christoph Tillmann HMM-based word alignment in statistical translation In Proceedings of COLING96, pages 836–841, Copenhagen, Denmark, 1996 [105] Chao Wang, Michael Collins, and Philipp Koehn Chinese syntactic reordering for statistical machine translation In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages 737–745, Prague, Czech Republic, June 2007 Association for Computational Linguistics [106] Lipo Wang Support Vector Machines: theory and applications, volume 177 Springer Science & Business Media, 2005 [107] Fei Xia and Michael McCord Improving a statistical mt system with automatically learned rewrite patterns In Proceedings of Coling 2004, pages 508–514, Geneva, Switzerland, Aug 23–Aug 27 2004 COLING [108] Peng Xu, Jaeho Kang, Michael Ringgaard, and Franz Och Using a dependency parser to improve smt for subject-object-verb languages In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 245–253, Boulder, Colorado, June 2009 Association for Computational Linguistics [109] Mohammad Sirvan Yahyaei Reordering in statistical machine translation PhD thesis, Queen Mary, University of London, 2012 [110] Kenji Yamada and Kevin Knight A syntax-based statistical translation model In Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, pages 523–530, Toulouse, France, July 2001 Association for Computational Linguistics 132 [111] Yuqi Zhang, Richard Zens, and Hermann Ney Chunk-level reordering of source language sentences with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007 / AMTA Workshop on Syntax and Structure in Statistical Translation, pages 1–8, 2007 [112] Wujie Zheng, Wenyu Wang, Dian Liu, Changrong Zhang, Qinsong Zeng, Yuetang Deng, Wei Yang, and Tao Xie Oracle-free detection of translation issue for neural machine translation CoRR, abs/1807.02340, 2018 133 Phụ lục Vấn đề đảo trật tự từ dịch máy: 1.1 Sự khác thứ tự từ ngôn ngữ Các ngơn ngữ có từ để tên với ý nghĩa vật (danh từ), Các trậttừ), tựchỉtừthuộc tính hành động (động (tính từ, trạng từ) … Các từ chức giúp kết hợp câu với Trật tự từ giúp xác định mối quan hệ từ Thống kê quan hệ ngôn ngữ sử dụng từ loại khác mô Thống kê quan hệ ngôn ngữ sử dụng từ loại khác mơ tả hình 5.9-5.12(Nguồn: World Atlas of Language Structures ) tả hình 1- 1: Thống ngôn ngữ SVO(chủ ngữ, động động từ, từ, tân Hình Hình 5.9: Thống kê kê cáccác ngơn ngữ SVO (chủ ngữ, tân ngữ) ngữ) (Nguồn: World Atlas of Language Structures http://wals.info/) Trong số trường hợp, số ngôn ngữ lại có đặc điểm: • Các trật tự từ đơi khơng cố định • Các câu khác diễn đạt nghĩa giống Ví dụ: câu tiếng Đức http://wals.info/ 134 Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Hình 1: Thống kê ngơn ngữ SVO(chủ ngữ, động từ, tân ngữ) (Nguồn: World Atlas of Language Structures http://wals.info/) Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Hình 5.10: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Der Mann gibt der Frau das Buch Das Buch gibt der Mann der Frau Der Frau gibt der Mann das Buch • Vị trí từ có nội dung cho phép nhấn mạnh câu • Vai trò cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) nắm bắt hình thái câu Phép phi chiếu: Phép phi chiếu phản ánh qua phụ thuộc phân tích cú pháp phụ thuộc (hình 5.13) Đặc điểm ngơn ngữ này: • Câu khơng phân rã thành cụm từ liên tiếp • Ví dụ ngôn ngữ Latin - NP meam canitiem = my old-age - NP ista gloria = that glory Trong khảo sát ngôn ngữ, ngơn ngữ khác có trật tự từ khác nhau: - Với ngôn ngữ nguồn nào, có ngơn ngữ đích tương ứng 135 Hình 3: Thống kê ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ Hình Thống cácngơn ngơnngữ ngữvới vớicụm cụmtừtừbổ bổnghĩa, nghĩa,cụm cụmdanh danhtừtừ Hình5.11: 3: Thống kêkêcác Hình 4: Thống kê ngôn ngữ với Danh từ, mệnh đề quan hệ Hình 4: Thống kê ngơn ngữ với Danh từ, mệnh đề quan hệ Hình 5.12: hợp: Thống kê ngôn ngữ với Danh từ, mệnh đề quan hệ Một số trường Một số trường hợp: Các trật tự từ không cố định Mộttrật số tự ngơn ngữkhi cókhơng liên quan chặt chẽ có ngôn ngữ - Các từ đôi cố định Các câu khác diễn đạt nghĩa giống khơng vị trí chặt chẽ Các câucó khác diễn đạt nghĩa giống Ví dụ: câu tiếng Đức Víchuyển dụ: câu Luật đổitrong thủ tiếng côngĐức Der Mann gibt der Frau das Buch Mann gibt Một số Der hệ thống dịch der sử Frau dụng das Buch luật chuyển đổi thủ công áp dụng Das Buch gibt der Mann der Frau Das Buch gibtbài dertoán Mann Frau luật chuyển cho sắpder xếp lại trật tự từ Derđổi Frau gibt der Mann das Buch Der Frau gibt der Mann das Buch Vị trí máy từ cặp có nội dungngữ cho phép câu Anh 1. Dịch cho ngôn tiếngnhấn Đứcmạnh – tiếng Vị trí từ có nội dung cho phép nhấn mạnh câu Áp Vaidụng trò từ (chủ ngữ, tân bước: ngữ, tân ngữ gián tiếp) cụm quy từ tắcdanh xếp lại theo Vai trò cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) nắm bắt hình thái câu nắm bắt hình thái câu 4136 Phép phi chiếu: Phép phi chiếu phản ánh qua phụ thuộc phân tích cú pháp phụ thuộc Câu không phân rã thành cụm từ liên tiếp Hình 5.13: Phép phi chiếu ngơn ngữ Latinh Ví dụ ngơn ngữ Latin - NP meam canitiem = my old-age - NP ista gloria = that glory Các ngôn ngữ khác có trật tự từ khác nhau: - Với ngơn ngữ nguồn nào, có ngơn ngữ đích tương ứng - Một số ngơn ngữ có liên quan chặt chẽ có ngơn ngữ khơng có vị trí chặt chẽ 1.2 Bài toán xếp lại trật tự từ Trong dịch máy thống kê, vấn đề đảo trật tự từ vấn đề khó, đơn giản ngơn ngữ khác có thứ tự từ khác Một cách hình thức, xem toán dịch máy thống kê gồm hai toán con: đốn định tập hợp từ Hình 5.14: Dịch từ ngơn ngữ tiếng Đức sang ngôn ngữ tiếng Anh dịch xác định thứ tự từ dịch (bài toán xếp lại) Dịch máy thống kê– dựa cụmcụm [1],động [2] làtừ: mơchuyển hình dịch tốt nhờtớiviệc sắpban xếpđầu lại Với độngmáy từ vị trí cụm từ - mà ngữ cảnh khoảng cách cụm gần – Trong mệnh đề con: chuyển (động từ chính) trực tiếp sau bổ ngữ Mơ hình dịch máy thống kê dựa cụm mà khoảng cách cụm xa – Trong kỳ mệnh đề: chuyển chủ ngữ trực tiếp lên từ xem thách thức Để giải thách thức, Chuyển lên cứu phíatheo trước độngtích từ hợp cú pháp câu vào dịch năm gần– nhiềucác nỗ từ lựcphụ nghiên hướng thống kê– áp [3]: kếtnguyên hợp cụm tổ động hợp cútừpháp câu thể vào dịch Chuyển cácdụng, độngnhư từ không thểtừ,sau ngun máy thống kê Bên cạnh đó, ngồi mức cụm từ, số cơng trình áp dụng – Chuyển phủ định mức mệnh đề sau động từ nguyên thể Dịch máy cho cặp ngôn ngữ tiếng Trung – tiếng Anh 137 Hình 5.15: Dịch từ ngôn ngữ tiếng Trung sang ngôn ngữ tiếng Anh Sắp xếp lại dựa phân tích cú pháp thành phần theo bước – PP sửa đổi VP di chuyển phía sau – Cụm NP thời gian sửa đổi VP di chuyển sau – PP mệnh đề quan hệ (CP) sửa đổi NP di chuyển sau – postpositions di chuyển phía trước cụm NP tiền tệ Dịch máy cho cặp ngôn ngữ tiếng Hàn – tiếng Anh Sử dụng phân tích cú pháp phụ thuộc, nhóm động từ phụ thuộc (VB*) – Các thành phần động từ (prt) – Trợ động từ (aux) – Trợ động từ bị động (auxpass) – Phủ định (neg) – Động từ phản thân (self) 138 Hình 5.16: Dịch từ ngơn ngữ tiếng Hàn sang ngôn ngữ tiếng Anh Đảo ngược vị trí họ dịch chuyển đến cuối câu Sắp xếp trật tự từ áp dụng tương tự với ngôn ngữ tiếng Nhật, tiếng Hindi, tiếng Urdu tiếng Thổ Nhĩ Kỳ Dịch máy cho cặp ngôn ngữ tiếng Ả rập – tiếng Anh Ba kiểu xếp lại trật tự từ gồm: – Các chủ đề động từ là: (a.) pro-dropped, (b.) pre-verbal, or (c.) post-verbal – Các từ bổ nghĩa tính từ thường theo danh từ tương ứng – Tách xếp lại book + his → his book Sử dụng luật tự động cho vấn đề tiền xử lý Kiểu luật: • Ngữ cảnh điều kiện: ràng buộc tới điều kiện, điều kiện gồm: - Tìm kiếm POS tag (T) / nhãn cú pháp (L) - Của nút thời (n), nút cha (p), thứ nhất, thứ hai, 139 Hình 5.17: Dịch từ ngơn ngữ tiếng Ả rập sang ngơn ngữ tiếng Anh • Hành động: hốn vị Ví dụ (1,2,4,3) xếp lại vị trí thứ thứ Thuật tốn học: • Áp dụng thuật tốn tham lam cho việc học luật xếp Bước : Khởi tạo với tập luật rỗng, kho ngữ liệu song ngữ chưa xếp Bước : Xem xét tất luật Bước : Lấy luật có lỗi xếp chọn lỗi làm lại xếp lại nhiều Bước : Bổ sung vào tập luật, áp dụng cho tất câu Bước : Lặp lại bước 2, dừng • Đánh giá qua mơ hình gióng hàng từ IBM Model - Các mơ hình IBM cao có xu hướng đơn điệu(monotone bias) - Độ đo: số liên kết gióng hàng chéo 140 Hình 5.18: Mơ tả luật xếp lại Tập nhãn cho cú pháp phụ thuộc Kho ngữ liệu tiếng Việt (VietTreebank) Đối với tiếng Việt, việc xây dựng treebank có số kết định Với tiếng Việt, treebank nghiên cứu ứng dụng khn khổ VLSP có tên VietTreebank [42] Mục tiêu Viettreebank xây dựng lược đồ giải thích cú pháp với 10.000 câu Tập nhãn Viettreebank gồm có: • Tâp nhãn từ loại: thơng tin từ chứa nhãn từ loại bao gồm: từ loại sở (danh từ, động từ, tính từ ), thơng tin hình thái (số ít, số nhiều, thì, ngơi ), thơng tin phân loại (ví dụ động từ với danh từ, động từ với mệnh đề ), thông tin ngữ nghĩa, hay số thông tin cú pháp khác Với đặc điểm tiếng Việt, tập nhãn từ loại chứa thông tin từ loại sở mà không bao gồm thơng tin hình thái, phân loại • Tập nhãn thành phần cú pháp: tập nhãn chứa nhãn mô tả thành phần cú pháp cụm từ mệnh đề Nhãn thành phần 141 Bảng 5.3: Nhãn cụm từ STT Tên Chú thích NN Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ số lượng MDP Cụm từ hình thái WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHAP Cụm tính từ nghi vấn (lạnh nào, đẹp sao, v.v.) 10 WHRP Cụm từ nghi vấn dùng hỏi thời gian, nơi chốn, v.v.) 11 WHPP Cụm giới từ nghi vấn (với ai, cách nào, v.v.) Bảng 5.4: Nhãn mệnh đề STT Tên Chú thích S Câu trần thuật (khẳng định phủ định) SQ Câu hỏi SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ tính từ) cú pháp thơng tin cú pháp, tạo thành xương sống cú pháp • Tập nhãn chức cú pháp: Nhãn chức cú pháp gán cho thành phần câu chủ xác định loại quan hệ ngữ pháp sau đây: – Chủ-vị – Đề-thuyết – Phần chêm 142 – Bổ ngữ – Phụ ngữ – Sự kết hợp Tập nhãn đa ngôn ngữ Tập nhãn đa ngôn ngữ xây dựng dựa vào hai bước chính: - Thêm tinh chỉnh quan hệ tập nhãn phụ thuộc tiếng Anh để áp dụng tốt với nhiều ngơn ngữ - Bỏ bớt số đặc tính đặc trưng tiếng Anh để phù hợp với nhiều tập ngôn ngữ so với tập nhãn phụ thuộc tiếng Anh ban đầu Bảng 5.5: Nhãn chức cú pháp STT Tên Chú thích SUB Nhãn chức chủ ngữ DOB Nhãn chức tân ngữ trực tiếp IOB Nhãn chức tân ngữ gián tiếp TPC Nhãn chức chủ đề PRD Nhãn chức vị ngữ cụm động từ LGS Nhãn chức chủ ngữ logic câu thể bị động EXT Nhãn chức bổ ngữ phạm vi hay tần suất hành động H Nhãn phần tử trung tâm (của cụm từ mệnh đề) 9-12 TC, CMD, Nhãn phân loại câu: đề thuyết, mệnh lệnh, cảm thán, đặc biệt EXC,SPL 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi 143 Bảng 5.6: Nhóm nhãn đa ngơn ngữ STT Tên nhóm Nhãn phụ thuộc Những phụ thuộc cốt lõi vị từ nsubj, csubj, nsubjpass, csubjpass, dobj, ccomp, xcomp, iobj Những phụ thuộc không cốt lõi nmod, advcl, adcvl, advmod,neg vị từ Những phụ thuộc mệnh đề đặc biệt vocative, aux, mark, discourse, auxpass, punct, expl, cop nummod, acl, amod, appos, Những phụ thuộc danh từ: det, nmod, neg Những phụ thuộc từ khơng thể compound, mwe, goeswith, phân tích nhóm từ ghép name, foreign Những phụ thuộc liên hợp conj, cc, punct Những phụ thuộc sở hữu, case giới từ trường hợp đặc biệt đánh dấu Những phụ thuộc thành phần list, parataxis, remnant, dislocated, tham gia reparandum Những từ phụ thuộc khác root, dep 144 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH- VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC Chuyên ngành: Khoa học máy. .. lượng dịch máy thống kê Anh- Việt dựa vào đảo trật tự từ theo cú pháp phụ thuộc" Mục tiêu luận án • Nghiên cứu đề xuất phương pháp giải toán đảo cụm từ 18 dịch máy thống kê dựa vào cụm theo hướng... tích cú pháp phụ thuộc, đặc biệt với ngơn ngữ tiếng Việt Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ thuộc, dịch máy thống kê dựa cụm từ Mục lục Lời cảm ơn Danh mục