Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 144 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
144
Dung lượng
6,44 MB
Nội dung
Lời cam đoan Tôi xin cam đoan luận án kết nghiên cứu tôi, thực hướng dẫn TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh Các nội dung trích dẫn từ nghiên cứu tác giả khác trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Trần Hồng Việt TÓM TẮT Đảo trật tự từ vấn đề quan trọng dịch máy liên quan đến việc làm để sinh thứ tự từ (cụm từ) xác ngơn ngữ đích Trong hệ dịch máy thống kê dựa cụm từ (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn cộng sự, 2003; Och Ney, 2004) [59, 89], việc đảo cụm từ đơn giản chất lượng chưa cao Bên cạnh đó, ngơn ngữ có nhiều đặc điểm khác (đặc biệt khác thứ tự từ ngôn ngữ) dẫn tới khơng thể mơ hình hóa xác trình dịch [89] Nhiều hướng nghiên cứu giải vấn đề xếp lại trật tự từ bên hệ thống dịch máy thống kê dựa cụm từ Một số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề xếp lại trật tự từ cho kết tốt, đảm bảo cân chất lượng dịch thời gian giải mã qua thực tiền xử lý trình xếp lại Với ưu điểm cấu trúc cú pháp phụ thuộc: kết nối tất từ câu với khả nắm bắt phụ thuộc từ xa với cấu trúc phụ thuộc địa phương tương ứng chặt chẽ với ngữ nghĩa, luận án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cú pháp phụ thuộc" Luận án tập trung giải tồn nêu thông qua toán: xếp lại từ câu cần dịch ngôn ngữ nguồn theo thứ tự gần với câu dịch ngơn ngữ đích Các đề xuất thực bước tiền xử lý sử dụng cú pháp phụ thuộc ngôn ngữ nguồn để đưa vào hệ dịch thống kê dựa cụm từ nhằm cải tiến chất lượng dịch máy Kết dịch từ tiếng Anh sang tiếng Việt với liệu IWSLT 2015 hệ thống tốt hai hệ thống dịch phổ biến NMT PBSMT Đóng góp luận án cụ thể sau: • Thứ nhất, luận án đề xuất luật đảo trật tự từ thủ công từ việc lựa chọn đặc trưng ngôn ngữ cú pháp phụ thuộc Từ áp dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch máy Anh-Việt • Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động Chúng coi việc xây dựng luật đảo trật tự từ vấn đề học máy việc dự đốn xác vị trí thành phần luật để đốn thứ tự câu ngôn ngữ nguồn tương ứng với thứ tự câu ngơn ngữ đích Với hai đề xuất gồm: – Khai thác đặc trưng ngôn ngữ đề xuất phương pháp sử dụng phân lớp để giải toán đảo trật tự từ Cụ thể xác định thứ tự phân lớp quan hệ cụm cha-con phân tích phụ thuộc biểu diễn câu đầu vào – Bằng việc khai thác quan hệ cặp từ phân tích phụ thuộc ưu điểm việc biểu diễn dạng word embedding, luận án đề xuất phương pháp sử dụng mạng nơ-ron để giải toán đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước đưa vào hệ dịch để nâng cao chất lượng dịch • Thứ ba, luận án đưa phân tích ảnh hưởng lỗi phân tích cú pháp đến chất lượng dịch qua việc áp dụng luật đảo trật tự từ câu nguồn Các phân tích mang lại lợi ích cho việc cải tiến phương pháp đảo trật tự từ dựa cú pháp phát triển việc phân tích cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ thuộc, dịch máy thống kê dựa cụm từ Mục lục Lời cảm ơn Danh mục chữ viết tắt Danh sách hình vẽ 10 Danh sách bảng 13 Lời mở đầu 16 Tổng quan vấn đề liên quan luận án 22 1.1 Tổng quan dịch máy 22 1.2 Dịch máy thống kê 25 1.2.1 Cơ sở toán học 25 1.2.2 Cấu trúc hệ thống dịch máy 27 1.3 Dịch máy mạng nơ-ron 29 1.4 Phân tích cú pháp phụ thuộc 31 1.5 Vấn đề đảo trật tự từ dịch máy 35 1.5.1 Sự khác thứ tự từ ngôn ngữ 35 1.5.2 Đảo trật tự từ dịch máy 36 1.6 Bài tốn đảo trật tự từ mơ hình dịch máy dựa cụm từ 37 1.6.1 Mơ hình dịch máy dựa cụm từ 37 1.6.2 Bài toán đảo trật từ tự dựa tiền xử lý 39 1.7 1.8 Các nghiên cứu liên quan 43 1.7.1 Sử dụng luật thủ công cho vấn đề tiền xử lý 44 1.7.2 Sử dụng luật tự động cho vấn đề tiền xử lý 45 Kết luận chương 46 Phương pháp dựa vào luật thủ cơng cho tốn đảo trật tự từ dịch máy thống kê 2.1 48 Phương pháp tiền xử lý cho toán đảo trật tự từ dịch máy 48 2.2 Các nghiên cứu liên quan 50 2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê 52 2.3.1 Phân tích tượng ngôn ngữ vấn đề xếp lại 52 2.3.2 Luật chuyển đổi trật tự từ 55 2.3.3 Tập luật đảo trật tự từ thủ công 57 2.3.4 Tập liệu cài đặt thực nghiệm 59 2.3.5 Kết thực nghiệm 62 Kết luận chương 63 2.4 Phương pháp sử dụng luật trích xuất tự động phân lớp quan hệ 65 3.1 Tiền xử lý dựa phân lớp cho dịch máy dựa cụm từ 65 3.1.1 Vấn đề tiền xử lý dựa phân lớp 66 3.1.2 Đặc trưng 69 3.1.3 Mơ hình phân lớp 70 Thực nghiệm 73 3.2.1 Tập liệu cấu hình thực nghiệm 73 3.2.2 Kết thực nghiệm 74 Kết luận chương 76 3.2 3.3 Phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 79 4.1 Thông tin ngữ cảnh từ word embedding 79 4.2 Mô hình đảo dựa mạng nơ-ron sử dụng cú pháp phụ 4.3 thuộc cho dịch máy thống kê 81 4.2.1 Đặc trưng cho phân lớp huấn luyện mơ hình 82 4.2.2 Khung làm việc cho đảo trật tự từ 87 Thực nghiệm phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 90 4.4 Phân tích thảo luận 93 4.5 Kết luận chương 94 Ảnh hưởng cú pháp phụ thuộc đến chất lượng dịch máy Anh-Việt 96 5.1 Giới thiệu 96 5.2 Phân tích cú pháp phụ thuộc 97 5.2.1 Bài toán phân tích cú pháp phụ thuộc 98 5.2.2 Định dạng liệu theo chuẩn CoNLL 98 5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc 100 5.3 Ảnh hưởng lỗi phân tích cú pháp phụ thuộc tới chất lượng dịch máy 102 5.3.1 Phương pháp phân tích lỗi 102 5.3.2 Đánh giá 104 5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ 108 5.4 Đánh giá kết dịch độ xác cú pháp phụ thuộc 110 5.5 Kết luận chương 112 Kết luận 114 Danh mục công trình khoa học tác giả liên quan đến luận án117 Tài liệu tham khảo 119 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Văn Vinh PGS.TS Nguyễn Lê Minh, hai Thầy trực tiếp hướng dẫn, bảo tận tình, ln hỗ trợ tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Tơi xin gửi lời cảm ơn đến Thầy/Cô giáo Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt Thầy/Cơ giáo Bộ mơn Khoa học máy tính, người trực tiếp giảng dạy giúp đỡ trình học tập nghiên cứu trường Tôi xin gửi cảm ơn đến GS.TS Nguyễn Thanh Thủy, PGS TS Lê Sỹ Vinh, PGS.TS Nguyễn Phương Thái, PGS.TS Phan Xuân Hiếu, TS Trần Quốc Long, TS Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), TS Ngô Xuân Bách (Học viện Công nghệ Bưu Viễn thơng), TS Nguyễn Việt Anh (Viện Cơng nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam) Thầy/Cơ có góp ý chỉnh sửa để tơi hồn thiện luận án Tơi xin gửi lời cảm ơn đến tất anh, chị, em bạn bè đồng nghiệp Bộ môn Khoa học máy tính (Khoa Cơng nghệ thơng tin, Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội) giúp đỡ thời gian làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn đến tất thành viên gia đình ln ủng hộ, chia sẻ, động viên khích lệ tơi học tập, nghiên cứu Danh mục chữ viết tắt MT Machine Translation (Dịch máy) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS-tags Part Of Speech tags (Nhãn từ loại) SMT Statistical Machine Translation (Dịch máy thống kê) PBSMT Phrase-Based Statistical Machine Translation (Dịch máy dựa cụm từ) NMT Neural Machine Translation (Dịch máy mạng nơ-ron) BLEU BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) ME Maximum Entropy (Độ hỗn loạn cực đại) WEKA Waikato Environment for Knowledge Analysis (Mơi trường Waikato cho phân tích tri thức) Danh sách hình vẽ 1.1 Sơ đồ hình tháp thể hệ thống dịch máy khác 23 1.2 Kiến trúc hệ thống dịch máy thống kê 27 1.3 Các bước xây dựng hệ thống dịch máy thống kê dựa cụm từ 28 1.4 Hệ thống dịch máy mạng nơ-ron 30 1.5 Biểu diễn đồ thị phân tích phụ thuộc với nhãn quan hệ 33 1.6 Biểu diễn dạng với liệu phụ thuộc định dạng CoNLL 33 1.7 Ví dụ mơ hình dịch máy dựa cụm từ cho dịch từ ngôn ngữ tiếng Pháp sang tiếng Anh 37 1.8 Kiến trúc mơ hình dịch dựa cụm từ 38 1.9 Ví dụ việc chuyển đổi gióng hàng từ với việc đảo trật tự từ 40 1.10 Các bước thực hệ thống áp dụng phương pháp tiền xử lý 41 1.11 Kiến trúc hệ thống luận án 43 2.1 Ví dụ tiền xử lý cho cặp ngôn ngữ Anh-Việt 49 2.2 Ví dụ POS tags phân tích cú pháp phụ thuộc cho tiếng Anh 50 2.3 Ví dụ POS tags phân tích cú pháp phụ thuộc cho tiếng Việt 51 2.4 Ví dụ phân tích cú pháp phụ thuộc cho câu tiếng Anh sử 2.5 dụng công cụ phân tích Stanford 51 Một số ví dụ đặc trưng ngơn ngữ tiếng Việt 53 10 [88] Franz J Och and Hermann Ney A systematic comparison of various statistical alignment models Computational Linguistics, 29(1):19–51, 2003 [89] Franz J Och and Hermann Ney The alignment template approach to statistical machine translation Computational Linguistics, 30(4):417– 449, 2004 [90] Franz Josef Och and Hermann Ney A comparison of alignment models for statistical machine translation In Proceedings of Coling 2000, pages 1086–1090, Saarbrucken,Germany, August 2000 [91] Myle Ott, Michael Auli, David Grangier, and Marc Aurelio Ranzato Analyzing uncertainty in neural machine translation In Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmăassan, Stockholm, Sweden, July 10-15, 2018, pages 3953– 3962, 2018 [92] K Papineni, S Roukos, T Ward, and W J Zhu 2002 Bleu: a method for automatic evaluation of machine translation In Proc of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 311–318 Philadelphia, PA, July, 2002 [93] Satoshi Sato and Makoto Nagao Toward memory-based translation In COLING, 1990 [94] Dimitar Shterionov, Pat Nagle, Laura Casanellas, Riccardo Superbo, and Tony O’Dowd Empirical evaluation of nmt and pbsmt quality for largescale translation production In Proc of EAMT, pages 75–80, 2017 [95] Matthew Snover, Bonnie J Dorr, R Fletcher Schwartz, and Linnea Micciulla A study of translation edit rate with targeted human annotation 2006 130 [96] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov Dropout: A simple way to prevent neural networks from overfitting Journal of Machine Learning Research, 15:1929–1958, 2014 [97] Andreas Stolcke Srilm - an extensible language modeling toolkit In Proceedings of International Conference on Spoken Language Processing, volume 29, pages 901–904, 2002 [98] Ilya Sutskever, Oriol Vinyals, and Quoc V Le Sequence to sequence learning with neural networks In Proceedings of the 27th International Conference on Neural Information Processing Systems, NIPS’14, pages 3104–3112, Cambridge, MA, USA, 2014 MIT Press [99] Nguyễn Kim Thản Cơ sở ngữ pháp tiếng việt 2008 [100] Christoph Tillmann A unigram orientation model for statistical machine translation In Daniel Marcu Susan Dumais and Salim Roukos, editors, Proceedings of HLT-NAACL 2004: Short Papers, pages 101–104, Boston, Massachusetts, USA, May - May 2004 Association for Computational Linguistics [101] Christoph Tillmann and Hermann Ney Word reordering and a dynamic programming beam search algorithm for statistical machine translation Computational Linguistics, 29:97–133, 2003 [102] Bernard Vauquois A survey of formal grammars and algorithms for recognition and transformation in mechanical translation In IFIP Congress (2), pages 1114–1122, 1968 [103] Van Nguyen Vinh Improving Phrase-based Machine Translation using Clause Splitting and Reordering Model PhD thesis, School of Information Science, Japan Advanced Institute of Science and Technology, 2009 131 [104] Stephan Vogel, Hermann Ney, and Christoph Tillmann HMM-based word alignment in statistical translation In Proceedings of COLING96, pages 836–841, Copenhagen, Denmark, 1996 [105] Chao Wang, Michael Collins, and Philipp Koehn Chinese syntactic reordering for statistical machine translation In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages 737–745, Prague, Czech Republic, June 2007 Association for Computational Linguistics [106] Lipo Wang Support Vector Machines: theory and applications, volume 177 Springer Science & Business Media, 2005 [107] Fei Xia and Michael McCord Improving a statistical mt system with automatically learned rewrite patterns In Proceedings of Coling 2004, pages 508–514, Geneva, Switzerland, Aug 23–Aug 27 2004 COLING [108] Peng Xu, Jaeho Kang, Michael Ringgaard, and Franz Och Using a dependency parser to improve smt for subject-object-verb languages In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 245–253, Boulder, Colorado, June 2009 Association for Computational Linguistics [109] Mohammad Sirvan Yahyaei Reordering in statistical machine translation PhD thesis, Queen Mary, University of London, 2012 [110] Kenji Yamada and Kevin Knight A syntax-based statistical translation model In Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, pages 523–530, Toulouse, France, July 2001 Association for Computational Linguistics 132 [111] Yuqi Zhang, Richard Zens, and Hermann Ney Chunk-level reordering of source language sentences with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007 / AMTA Workshop on Syntax and Structure in Statistical Translation, pages 1–8, 2007 [112] Wujie Zheng, Wenyu Wang, Dian Liu, Changrong Zhang, Qinsong Zeng, Yuetang Deng, Wei Yang, and Tao Xie Oracle-free detection of translation issue for neural machine translation CoRR, abs/1807.02340, 2018 133 Phụ lục Vấn đề đảo trật tự từ dịch máy: 1.1 Sự khác thứ tự từ ngơn ngữ Các ngơn ngữ có từ để tên với ý nghĩa vật (danh từ), Các trậttừ), tựchỉtừthuộc tính hành động (động (tính từ, trạng từ) … Các từ chức giúp kết hợp câu với Trật tự từ giúp xác định mối quan hệ từ Thống kê quan hệ ngôn ngữ sử dụng từ loại khác mô Thống kê quan hệ ngôn ngữ sử dụng từ loại khác mô tả hình 5.9-5.12(Nguồn: World Atlas of Language Structures ) tả hình 1- 1: Thống ngơn ngữ SVO(chủ ngữ, động động từ, từ, tân Hình Hình 5.9: Thống kê kê cáccác ngôn ngữ SVO (chủ ngữ, tân ngữ) ngữ) (Nguồn: World Atlas of Language Structures http://wals.info/) Trong số trường hợp, số ngơn ngữ lại có đặc điểm: • Các trật tự từ đơi khơng cố định • Các câu khác diễn đạt nghĩa giống Ví dụ: câu tiếng Đức http://wals.info/ 134 Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Hình 1: Thống kê ngôn ngữ SVO(chủ ngữ, động từ, tân ngữ) (Nguồn: World Atlas of Language Structures http://wals.info/) Hình 2: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Hình 5.10: Thống kê ngơn ngữ với từ loại Tính từ, Danh từ Der Mann gibt der Frau das Buch Das Buch gibt der Mann der Frau Der Frau gibt der Mann das Buch • Vị trí từ có nội dung cho phép nhấn mạnh câu • Vai trị cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) nắm bắt hình thái câu Phép phi chiếu: Phép phi chiếu phản ánh qua phụ thuộc phân tích cú pháp phụ thuộc (hình 5.13) Đặc điểm ngơn ngữ này: • Câu khơng phân rã thành cụm từ liên tiếp • Ví dụ ngơn ngữ Latin - NP meam canitiem = my old-age - NP ista gloria = that glory Trong khảo sát ngôn ngữ, ngôn ngữ khác có trật tự từ khác nhau: - Với ngơn ngữ nguồn nào, có ngơn ngữ đích tương ứng 135 Hình 3: Thống kê ngơn ngữ với cụm từ bổ nghĩa, cụm danh từ Hình Thống cácngôn ngônngữ ngữvới vớicụm cụmtừtừbổ bổnghĩa, nghĩa,cụm cụmdanh danhtừtừ Hình5.11: 3: Thống kêkêcác Hình 4: Thống kê ngơn ngữ với Danh từ, mệnh đề quan hệ Hình 4: Thống kê ngôn ngữ với Danh từ, mệnh đề quan hệ Hình 5.12: hợp: Thống kê ngơn ngữ với Danh từ, mệnh đề quan hệ Một số trường Một số trường hợp: Các trật tự từ khơng cố định Mộttrật số tự ngơn ngữkhi cókhơng liên quan chặt chẽ có ngơn ngữ - Các từ đôi cố định Các câu khác diễn đạt nghĩa giống khơng vị trí chặt chẽ Các câucó khác diễn đạt nghĩa giống Ví dụ: câu tiếng Đức Víchuyển dụ: câu Luật đổitrong thủ tiếng cơngĐức Der Mann gibt der Frau das Buch Mann gibt Một số Der hệ thống dịch der sử Frau dụng das Buch luật chuyển đổi thủ công áp dụng Das Buch gibt der Mann der Frau Das Buch gibtbài dertoán Mann Frau luật chuyển cho sắpder xếp lại trật tự từ Derđổi Frau gibt der Mann das Buch Der Frau gibt der Mann das Buch Vị trí máy từ cặp có nội dungngữ cho phép câu Anh 1. Dịch cho ngôn tiếngnhấn Đứcmạnh – tiếng Vị trí từ có nội dung cho phép nhấn mạnh câu Áp Vaidụng trò từ (chủ ngữ, tân bước: ngữ, tân ngữ gián tiếp) cụm quy từ tắcdanh xếp lại theo Vai trò cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) nắm bắt hình thái câu nắm bắt hình thái câu 4136 Phép phi chiếu: Phép phi chiếu phản ánh qua phụ thuộc phân tích cú pháp phụ thuộc Câu không phân rã thành cụm từ liên tiếp Hình 5.13: Phép phi chiếu ngơn ngữ Latinh Ví dụ ngơn ngữ Latin - NP meam canitiem = my old-age - NP ista gloria = that glory Các ngơn ngữ khác có trật tự từ khác nhau: - Với ngôn ngữ nguồn nào, có ngơn ngữ đích tương ứng - Một số ngơn ngữ có liên quan chặt chẽ có ngơn ngữ khơng có vị trí chặt chẽ 1.2 Bài toán xếp lại trật tự từ Trong dịch máy thống kê, vấn đề đảo trật tự từ vấn đề khó, đơn giản ngơn ngữ khác có thứ tự từ khác Một cách hình thức, xem tốn dịch máy thống kê gồm hai toán con: đoán định tập hợp từ Hình 5.14: Dịch từ ngơn ngữ tiếng Đức sang ngôn ngữ tiếng Anh dịch xác định thứ tự từ dịch (bài toán xếp lại) Dịch máy thống kê– dựa cụmcụm [1],động [2] làtừ: mơchuyển hình dịch tốt nhờtớiviệc sắpban xếpđầu lại Với độngmáy từ vị trí cụm từ - mà ngữ cảnh khoảng cách cụm gần – Trong mệnh đề con: chuyển (động từ chính) trực tiếp sau bổ ngữ Mơ hình dịch máy thống kê dựa cụm mà khoảng cách cụm xa – Trong kỳ mệnh đề: chuyển chủ ngữ trực tiếp lên từ xem thách thức Để giải thách thức, Chuyển lên cứu phíatheo trước độngtích từ hợp cú pháp câu vào dịch năm gần– nhiềucác nỗ từ lựcphụ nghiên hướng thống kê– áp [3]: kếtnguyên hợp cụm tổ động hợp cútừpháp câu thể vào dịch Chuyển cácdụng, độngnhư từ không thểtừ,sau nguyên máy thống kê Bên cạnh đó, ngồi mức cụm từ, số cơng trình áp dụng – Chuyển phủ định mức mệnh đề sau động từ nguyên thể Dịch máy cho cặp ngôn ngữ tiếng Trung – tiếng Anh 137 Hình 5.15: Dịch từ ngơn ngữ tiếng Trung sang ngôn ngữ tiếng Anh Sắp xếp lại dựa phân tích cú pháp thành phần theo bước – PP sửa đổi VP di chuyển phía sau – Cụm NP thời gian sửa đổi VP di chuyển sau – PP mệnh đề quan hệ (CP) sửa đổi NP di chuyển sau – postpositions di chuyển phía trước cụm NP tiền tệ Dịch máy cho cặp ngôn ngữ tiếng Hàn – tiếng Anh Sử dụng phân tích cú pháp phụ thuộc, nhóm động từ phụ thuộc (VB*) – Các thành phần động từ (prt) – Trợ động từ (aux) – Trợ động từ bị động (auxpass) – Phủ định (neg) – Động từ phản thân (self) 138 Hình 5.16: Dịch từ ngơn ngữ tiếng Hàn sang ngơn ngữ tiếng Anh Đảo ngược vị trí họ dịch chuyển đến cuối câu Sắp xếp trật tự từ áp dụng tương tự với ngôn ngữ tiếng Nhật, tiếng Hindi, tiếng Urdu tiếng Thổ Nhĩ Kỳ Dịch máy cho cặp ngôn ngữ tiếng Ả rập – tiếng Anh Ba kiểu xếp lại trật tự từ gồm: – Các chủ đề động từ là: (a.) pro-dropped, (b.) pre-verbal, or (c.) post-verbal – Các từ bổ nghĩa tính từ thường theo danh từ tương ứng – Tách xếp lại book + his → his book Sử dụng luật tự động cho vấn đề tiền xử lý Kiểu luật: • Ngữ cảnh điều kiện: ràng buộc tới điều kiện, điều kiện gồm: - Tìm kiếm POS tag (T) / nhãn cú pháp (L) - Của nút thời (n), nút cha (p), thứ nhất, thứ hai, 139 Hình 5.17: Dịch từ ngôn ngữ tiếng Ả rập sang ngôn ngữ tiếng Anh • Hành động: hốn vị Ví dụ (1,2,4,3) xếp lại vị trí thứ thứ Thuật tốn học: • Áp dụng thuật toán tham lam cho việc học luật xếp Bước : Khởi tạo với tập luật rỗng, kho ngữ liệu song ngữ chưa xếp Bước : Xem xét tất luật Bước : Lấy luật có lỗi xếp chọn lỗi làm lại xếp lại nhiều Bước : Bổ sung vào tập luật, áp dụng cho tất câu Bước : Lặp lại bước 2, dừng • Đánh giá qua mơ hình gióng hàng từ IBM Model - Các mơ hình IBM cao có xu hướng đơn điệu(monotone bias) - Độ đo: số liên kết gióng hàng chéo 140 Hình 5.18: Mơ tả luật xếp lại Tập nhãn cho cú pháp phụ thuộc Kho ngữ liệu tiếng Việt (VietTreebank) Đối với tiếng Việt, việc xây dựng treebank có số kết định Với tiếng Việt, treebank nghiên cứu ứng dụng khn khổ VLSP có tên VietTreebank [42] Mục tiêu Viettreebank xây dựng lược đồ giải thích cú pháp với 10.000 câu Tập nhãn Viettreebank gồm có: • Tâp nhãn từ loại: thơng tin từ chứa nhãn từ loại bao gồm: từ loại sở (danh từ, động từ, tính từ ), thơng tin hình thái (số ít, số nhiều, thì, ngơi ), thơng tin phân loại (ví dụ động từ với danh từ, động từ với mệnh đề ), thông tin ngữ nghĩa, hay số thông tin cú pháp khác Với đặc điểm tiếng Việt, tập nhãn từ loại chứa thông tin từ loại sở mà không bao gồm thông tin hình thái, phân loại • Tập nhãn thành phần cú pháp: tập nhãn chứa nhãn mô tả thành phần cú pháp cụm từ mệnh đề Nhãn thành phần 141 Bảng 5.3: Nhãn cụm từ STT Tên Chú thích NN Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ số lượng MDP Cụm từ hình thái WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHAP Cụm tính từ nghi vấn (lạnh nào, đẹp sao, v.v.) 10 WHRP Cụm từ nghi vấn dùng hỏi thời gian, nơi chốn, v.v.) 11 WHPP Cụm giới từ nghi vấn (với ai, cách nào, v.v.) Bảng 5.4: Nhãn mệnh đề STT Tên Chú thích S Câu trần thuật (khẳng định phủ định) SQ Câu hỏi SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ tính từ) cú pháp thông tin cú pháp, tạo thành xương sống cú pháp • Tập nhãn chức cú pháp: Nhãn chức cú pháp gán cho thành phần câu chủ xác định loại quan hệ ngữ pháp sau đây: – Chủ-vị – Đề-thuyết – Phần chêm 142 – Bổ ngữ – Phụ ngữ – Sự kết hợp Tập nhãn đa ngôn ngữ Tập nhãn đa ngôn ngữ xây dựng dựa vào hai bước chính: - Thêm tinh chỉnh quan hệ tập nhãn phụ thuộc tiếng Anh để áp dụng tốt với nhiều ngôn ngữ - Bỏ bớt số đặc tính đặc trưng tiếng Anh để phù hợp với nhiều tập ngôn ngữ so với tập nhãn phụ thuộc tiếng Anh ban đầu Bảng 5.5: Nhãn chức cú pháp STT Tên Chú thích SUB Nhãn chức chủ ngữ DOB Nhãn chức tân ngữ trực tiếp IOB Nhãn chức tân ngữ gián tiếp TPC Nhãn chức chủ đề PRD Nhãn chức vị ngữ cụm động từ LGS Nhãn chức chủ ngữ logic câu thể bị động EXT Nhãn chức bổ ngữ phạm vi hay tần suất hành động H Nhãn phần tử trung tâm (của cụm từ mệnh đề) 9-12 TC, CMD, Nhãn phân loại câu: đề thuyết, mệnh lệnh, cảm thán, đặc biệt EXC,SPL 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi 143 Bảng 5.6: Nhóm nhãn đa ngơn ngữ STT Tên nhóm Nhãn phụ thuộc Những phụ thuộc cốt lõi vị từ nsubj, csubj, nsubjpass, csubjpass, dobj, ccomp, xcomp, iobj Những phụ thuộc không cốt lõi nmod, advcl, adcvl, advmod,neg vị từ Những phụ thuộc mệnh đề đặc biệt vocative, aux, mark, discourse, auxpass, punct, expl, cop nummod, acl, amod, appos, Những phụ thuộc danh từ: det, nmod, neg Những phụ thuộc từ compound, mwe, goeswith, phân tích nhóm từ ghép name, foreign Những phụ thuộc liên hợp conj, cc, punct Những phụ thuộc sở hữu, case giới từ trường hợp đặc biệt đánh dấu Những phụ thuộc thành phần list, parataxis, remnant, dislocated, tham gia reparandum Những từ phụ thuộc khác root, dep 144