Luận án tiến sĩ toán học nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Lời cảm ơn Trong trình thực đề tài “Nghiên cứu nâng cao hiệu phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê”, nhận nhiều giúp đỡ, tạo điều kiện Ban Giám hiệu, thầy cô khoa Sau Đại học khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tơi xin bày tỏ lịng cảm ơn chân thành giúp đỡ Tơi xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS Đỗ Trung Tuấn - người thầy tận tình hướng dẫn trực tiếp cho tơi hồn thành luận án Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô khoa Công nghệ Thông tin, trường Đại học Đà Lạt nơi công tác gia đình, bạn bè động viên, khích lệ, tạo điều kiện giúp đỡ suốt q trình thực hồn thành luận án Hà Nội, ngày 10 tháng năm 2020 Nghiên cứu sinh Nguyễn Thị Lương Mục lục Danh sách bảng iv Danh sách hình vẽ vii Mở đầu 1 Cơ sở lý thuyết 1.1 Khái niệm tiếng Việt 1.1.1 Từ 1.1.2 Từ loại 1.1.3 Cụm từ 1.1.4 Câu 1.1.5 Cú pháp 1.1.6 Vai nghĩa 1.2 Cú pháp thành phần 1.2.1 Bài tốn phân tích cú pháp thành phần 1.2.2 Phương pháp phân tích cú pháp thành phần 1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 1.3 Cú pháp phụ thuộc 1.3.1 Bài tốn phân tích cú pháp phụ thuộc 1.3.2 Biểu diễn cú pháp phụ thuộc 1.3.3 Các thuật toán phân tích cú pháp phụ thuộc 1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 1.4 Gán nhãn vai nghĩa 1.4.1 Bài toán gán nhãn vai nghĩa 1.4.2 Các cơng trình liên quan 1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 1.5 Biểu diễn phân bố từ 1.5.1 Mơ hình Skip-gram 1.5.2 Mơ hình túi từ liên tục 1.5.3 Mơ hình GloVe 1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 1.6 Kết luận i 7 7 10 11 14 17 20 21 22 25 28 28 29 31 37 43 43 44 48 49 50 51 52 52 54 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc vai nghĩa tiếng Việt 2.1 Kho ngữ liệu Treebank 2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 2.2.2 Xác định cụm từ trung tâm 2.2.3 Xác định nhãn phụ thuộc 2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 2.2.5 Đánh giá 2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 2.3.2 Tập luật gán nhãn nhãn vai nghĩa 2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 2.3.4 Đánh giá kết 2.4 Kết luận Nâng cao hiệu phân tích cú pháp tiếng Việt 3.1 Phân tích cú pháp thành phần 3.1.1 Một số văn phạm phổ biến 3.1.2 Phương pháp phân tích Shift-Reduce 3.1.3 Phương pháp self-attention 3.1.4 Đánh giá kết 3.1.5 Kết luận phân tích cú pháp thành phần 3.2 Phân tích cú pháp phụ thuộc tiếng Việt 3.2.1 Phân tích cú pháp phụ thuộc dựa bước chuyển 3.2.2 Phân tích cú pháp dựa đồ thị 3.2.3 Sử dụng BiLSTM phân tích cú pháp phụ thuộc 3.2.4 Đánh giá kết 3.2.5 Kết luận phân tích cú pháp phụ thuộc 3.3 Kết luận Phương pháp quy hoạch tuyến tính nguyên gán nhãn tiếng Việt 4.1 Mơ tả thuật tốn 4.1.1 Khảo sát số phương pháp 4.1.2 Phương pháp đề xuất ii 55 56 57 59 69 70 70 75 78 78 81 82 82 83 86 87 87 92 99 102 112 113 113 116 118 122 128 129 vai nghĩa 130 130 130 132 4.2 4.3 4.4 4.5 Quy hoạch tuyến tính nguyên Tập đặc trưng sử dụng 4.3.1 Đặc trưng 4.3.2 Đặc trưng Đánh giá kết 4.4.1 Phương pháp đánh giá 4.4.2 Hệ thống 4.4.3 Chiến lược gán nhãn 4.4.4 Phân tích đặc trưng 4.4.5 Cải tiến dựa vào ILP 4.4.6 Tốc độ học 4.4.7 Sử dụng biểu diễn phân bố Kết luận từ SRL 135 138 138 139 139 139 139 140 141 141 144 145 145 Kết luận 146 Các cơng trình công bố luận án 148 Tài liệu tham khảo 150 Phụ lục 159 iii Danh sách bảng 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Tập nhãn từ loại tiếng Việt Tập nhãn cụm từ tiếng Việt Tổ chức câu tiếng Việt Tập nhãn mệnh đề tiếng Việt Tập nhãn chức cú pháp tiếng Việt Các đặc trưng dùng MSTParser Các đặc trưng dùng MaltParser Ví dụ phân tích cú pháp dựa vào bước chuyển Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Anh tiếng Trung 1.10 Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt 1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 2.1 2.2 2.3 11 12 14 17 33 36 38 40 42 48 2.8 2.9 2.10 2.11 2.12 2.13 2.14 Thống kê nhãn thành phần kho viettreebank Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) tập nhãn phụ thuộc tiếng Anh (SD) Tập quy tắc xác định phần tử trung tâm Một số luật sử dụng để xác định nhãn phụ thuộc Câu tiếng Việt theo định dạng CoNLL-X chưa phân tích Câu tiếng Việt theo định dạng CoNLL-X phân tích phụ thuộc Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] Tập nhãn phụ thuộc Nguyễn Kiêm Hiếu[28] Tập nhãn phụ trợ tiếng Việt Một số luật xác định gán nhãn vai nghĩa thô Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô Một số nhãn vai nghĩa phổ biến Một số câu tiếng Việt gán nhãn vai nghĩa 76 77 77 79 81 82 83 85 3.1 3.2 Tập luật sinh liệu huấn luyện Shift-Reduce Luật suy diễn phân tích cú pháp Shift-reduce mở rộng 94 95 2.4 2.5 2.6 2.7 iv 57 58 68 69 70 76 3.3 3.4 3.24 Tập mẫu đặc trưng mở rộng 95 Dãy bước chuyển phân tích câu “Mảnh đất đạn bom khơng cịn người nghèo.” 97 Tập đặc trưng 98 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98 Kết với tập liệu có số từ ≤ 10 103 Kết với tập liệu có số từ ≤ 35 103 Một số kết phân tích theo mơ hình tích hợp đặc trưng phân bố từ 104 So sánh F1 sử dụng đặc trưng CharLSTM EMLo 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng CharLSTM 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng ELMo 106 Lỗi phân cụm phân tích cú pháp thành phần tiếng Việt 106 Kết MaltParser 116 Kết MSTParser 118 Đặc trưng MaltParser cho tiếng Việt 124 Đặc trưng MSTParser cho tiếng Việt 124 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa bước chuyển 125 Kết phân tích cú pháp phụ thuộc với VTB_U MaltParser126 Kết phân tích cú pháp phụ thuộc với VTB_U MSTParser126 Kết phân tích cú pháp phụ thuộc với VTB_U Bist-Parser127 Kết phân tích cú pháp phụ thuộc với VTB Bist-Parser 127 Kết so sánh phương pháp phân tích cú pháp phụ thuộc VTB_UD 128 Độ xác ASL số nhãn phụ thuộc VTB_UD 128 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Độ xác thuật tốn rút trích Độ xác hệ thống Độ xác chiến lược gán nhãn Tập đặc trưng Độ xác tập đặc trưng bảng 4.4 Tập đặc trưng Độ xác tập đặc trưng bảng 4.6 Ảnh hưởng ILP Độ xác loại đối số 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 v 139 140 140 141 141 142 142 142 143 4.10 4.11 4.12 4.13 Độ xác thuật tốn rút Độ xác hệ thống Ảnh hưởng véctơ từ vị tự Ảnh hưởng véctơ từ từ vi trích 144 144 145 145 Danh sách hình vẽ Các bước xử lý ngôn ngữ tự nhiên Mơ hình tổng qt phân tích cú pháp gán nhãn vai nghĩa Biểu diễn cú pháp thành phần cú pháp phụ thuộc câu Nam đá bóng Phân loại từ tiếng Việt Cây cú pháp thành phần tiếng Việt Quá trình phân tích cú pháp thành phần Cấu trúc phụ thuộc Đồ thị phụ thuộc câu tiếng Việt Ví dụ phân tích cú pháp dựa đồ thị Câu tiếng Anh gán nhãn vai nghĩa Khung vị từ Communication FrameNet Khung vị từ Cognition FrameNet Mô hình CBOW 2.1 Cây cú pháp thành phần “Tôi mong_mỏi công_bằng thực_hiện trả lại cho họ.” 71 Cú pháp phụ thuộc câu “Tôi mong_mỏi công_bằng thực_hiện trả lại cho họ.” 71 Câu tiếng Việt gán nhãn vai nghĩa 80 2.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 2.2 Toán tử thay Toán tử nối Quá trình phân tích cú pháp thành phần Cây cú pháp thành phần “Mảnh đất đạn bom khơng cịn người nghèo.” Mơ hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] Bước mã hóa tổng quát[53] Bước mã hóa tổng quát[53] Minh họa gán nhãn thành phần lỗi cụm động từ với mệnh đề tiếng Việt Minh họa gán nhãn thành phần lỗi cụm danh từ tiếng Việt vii 20 21 28 30 34 44 45 45 51 90 90 93 96 99 100 101 107 108 3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ tiếng Việt 3.11 Minh họa gán nhãn thành phần lỗi cụm liên từ tiếng Việt 3.12 Minh họa lỗi gán nhãn thành phần thành phần cấu trúc ngang cấp tiếng Việt 3.13 Minh họa lỗi gán nhãn thành phần cấu trúc riêng cấu trúc lỗi đính kèm cụm danh từ NP tiếng Việt 3.14 Quá trình lặp lại module RNN chuẩn chứa tầng đơn giản 3.15 Sử dụng BiLSTM phân tích cú pháp phụ thuộc dựa bước chuyển [32] 4.1 4.2 4.3 4.4 4.5 Biểu diễn cú pháp thành phần cú pháp phụ thuộc câu Nam đá bóng Một số lỗi Cách tiếp cận C-by-C W-by-W Trích xuất thành phần câu “Bà nói trai tơi mà” với vị ngữ “là ” Tốc độ học hệ thống viii 109 110 111 112 119 121 131 132 132 135 144 Danh mục từ viết tắt Từ viết tắt Tiếng Anh MST Maximum Spanning Tree CRF Conditional Random Field PCFG LTAG LPCFG SRL ILP LTAG LSTM-LM ELMo biLM GA-RNNG GLUE Ý nghĩa Cây bao trùm cực đại Trường ngẫu nhiên có điều kiện Probabilistic context free Văn phạm phi ngữ cảnh kết grammar hợp với xác suất Lexicalized tree adjoining Văn phạm kết nối từ vựng grammar Lexicalized probabilistic con- Văn phạm phi ngữ cảnh xác text free grammar suất từ vựng Semantic Role Labelling Gán nhãn vai nghĩa Integer Linear Programing Quy hoạch tuyến tính số nguyên Lexicalized Tree Adjoining Văn phạm kết nối từ vựng Grammars hóa Long Short Term Memory - mơ hình ngơn ngữ LSTM Language Model Embedding from Language Mơ hình nhúng ngơn ngữ Model Bidirectional Language Model Mơ hình ngơn ngữ hai chiều Gated Attention Recurrent Văn phạm mạng nơ-rơn hồi Neural Network Grammar quy với chế ý cổng General Language Under- Chỉ số đánh giá mức độ hiểu standing Evaluation ngôn ngữ hệ thống ix [31] Do Ba Lam and Le Thanh Huong (2008), “Implementing a Vietnamese syntactic parser using HPSG”, In Proceedings of the ICT.rda conference, Hanoi, Vietnam [32] Eliyahu Kiperwasser and Yoav Goldberg (2016), “Simple and accurate dependency parsing using bidirectional LSTM feature representations”, Transactions of the Association for Computational Linguistics, pp 313–327 [33] Fillmore Charles J (1968), “The Case for Case”, In Bach and Harms (Ed.): Universals in Linguistic Theory New York: Holt, Rinehart, and Winston, pp 1-88 [34] Daniel Gildea and Daniel Jurafsky (2002), “Automatic labeling of semantic roles”, Computational Linguistics, pp 245-288 [35] Huong Thanh Le and Lam Ba Do and Nhung Thi Pham (2010), “Efficient Syntactic Parsing with Beam Search”, The 2010 IEEE RIVF conference, Nov 01-04, Hanoi, Vietnam [36] He Luheng and Lee Kenton and Lewis Mike and Zettlemoyer Luke (2017), “Deep Semantic Role Labeling: What Works and What’s Next”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp 473-483, Vancouver, Canada [37] He Luheng and Lee Kenton and Lewis Mike and Zettlemoyer Luke (2018), “Jointly Predicting Predicates and Arguments in Neural Semantic Role Labeling”, Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Melbourne, Australia [38] Hochreiter Sepp and Schmidhuber Jurgen (1997), “Long Short-Term Memory”, TMIT Press, volume 9, pp 1735-1780, Cambridge, MA, USA, http://dx.doi.org/10.1162/neco.1997.9.8.1735 [39] I Dan Melamed (2003), “Multitext Grammars and Synchronous Parsers”, Proceedings of HLT/NAACL [40] Jacob Devlin and Ming-Wei Chang and Kenton Lee and Kristina Toutanova (2018), “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” abs/1810.04805 [41] Jiang Guo and Wanxiang Che and David Yarowsky and Haifeng Wang and Ting Liu (2015), “Cross-lingual Dependency Parsing Based on Distributed Representations”, In Proceedings of the 53nd Annual Meeting of the Association for Computational Linguistics, China 153 [42] Jiangming Liu and Yue Zhang (2017a), “In-order transition-based constituent parsing”, Transactions of the Association of Computational Linguistics 5(1), pp 413–424 [43] Joakim Nivre and Johan Hall and Jens Nilsson and Atanas Chanev and Gulsen Eryigit and Sandra Kubler and Svetoslav Marinov and Erwin Marsi (2007), “MaltParser: A language-independent system for data-driven dependency parsing”, Natural Language Engineering, 13(2), pp 95-135 [44] Joakim Nivre (2007), “Data-driven dependency parsing across languages and domains: Perspectives from the CoNLL-2007 shared task”, In Proceedings of the Tenth International Conference on Parsing Technologies, pp 168-170 [45] Jonathan K Kummerfeld and David Hall and James R Curran and Dan Klein (2012), “Parser showdown at the wall street corral: An empirical investigation of error types in parser output”, In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Association for Computational Linguistics, pp 1048–1059 [46] Joshi Aravind K and Schabes Yves (1997), “Tree-Adjoining Grammars”, Springer, volume pp 69-124 [47] Jun Suzuki and Sho Takase and Hidetaka Kamigaito and Makoto Morishita and Masaaki Nagata, (2018), “An Empirical Study of Building a Strong Baseline for Constituency Parsing”, In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)(ACL 2018), short paper, pp 612-618, Melbourne, Australia, July 2018 [48] Junru Zhou and Zhao Hai (2019), “Head-Driven Phrase Structure Grammar Parsing on Penn Treebank” [49] Koby Crammer and Yoram Singer (2003), “Ultraconservative Online Algorithms for Multiclass Problems”, Journal of Machine Learning Research 3: pp.951-991 [50] Kaplan Robert M and Bush James W (1982), “Health-related quality of life measurement for evaluation research and policy analysis “ Health Psychology, 1(1), pp 61-80 [51] Kevin Clark and Minh-Thang Luong and Christopher D Manning and Quoc V Le (2018), “Semi-Supervised Sequence Modeling with Cross-View Training”, vol.abs/1809.08370, http://arxiv.org/abs/1809.08370 154 [52] Kiem-Hieu Nguyen (2017), “BKTreebank: Building a Vietnamese Dependency Treebank”, CoRR abs/1710.05519 [53] Kitaev Nikita and Klein Dan (2018), “Constituency Parsing with a SelfAttentive Encoder”, Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Melbourne, Australia, Association for Computational Linguistics [54] Xiaodong Liu, Pengcheng He, Weizhu Chen and Jianfeng Gao (2019), “Multi-Task Deep Neural Networks for Natural Language Understanding”, CoRR abs/1901.11504 [55] Marie-Catherine de Marneffe, Bill MacCartney and Christopher D Manning (2006), “Generating typed dependency parses from phrase structure parses”, in Proceedings of LREC 2006, Genoa, Italy [56] Marie-Catherine de Marneffe and Natalia Silveira and Timothy Dozat and Katri Haverinen and Filip Ginter and Joakim Nivre and Christopher D Manning (2014), “Universal Stanford Dependencies: A cross-linguistic typology”, In LREC 2014 [57] Marie-Catherine de Marneffe and Miriam Connor and Natalia Silveira and Samuel R Bowman and Timothy Dozat and Christopher D Manning (2013), “More constructions, more genres: Extending Stanford Dependencies”, In Proceedings of the Second International Conference on Dependency Linguistics [58] Marie-Catherine de Marneffe and Christopher D Manning (2008), “Stanford typed dependencies manual”, Stanford University, Technical report [59] Martha Palmer and Paul Kingsbury and Daniel Gildea (2005), “The Proposition Bank: An Annotated Corpus of Semantic Roles”,Journal Computational Linguistics archive, volume 31, number 1, pp.71-106 [60] Mikolov Tomas and Sutskever Ilya and Chen Kai and Corrado Greg S and Dean Jeff (2013), “Distributed Representations of Words and Phrases and their Compositionality”,Curran Associates, Inc., pp 3111-3119, http://papers.nips.cc/paper/5021-distributed-representationsof-words-and-phrases-and-their-compositionality.pdf [61] Monika T Makwana and Deepak C Vegda (2015), “Survey: Natural Language Parsing For Indian Languages”,CoRR, https://dblp.org/rec/bib/journals/corr/MakwanaV15 155 [62] Mohamed Zakaria Kurdi (2016), “Natural Language Processing and Computational Linguistics: Speech, Morphology and Syntax”, Wiley-ISTE, pp 300 [63] Muhua Zhu and Yue Zhang and Wenliang Chen and Min Zhang and Jingbo Zhu, “Fast and Accurate Shift-Reduce Constituent Parsing”, 2013, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, pp 434-443 [64] Nguyen Thanh Huy and Nguyen Kim Anh and Nguyen Phuong Thai (2011), “Building an Efficient Functional-Tag Labeling System for Vietnamese”, KSE, Third International Conference on Knowledge and Systems Engineering [65] Oriol Vinyals and Lukasz Kaiser and Terry Koo and Slav Petrov and Ilya Sutskever and Geoffrey Hinton (2015), “Grammar as a foreign language”, In Advances in Neural Information Processing Systems, pp 2773–2781 [66] Pennington Jeffrey and Socher Richard and Manning Christopher D (2014), “Glove: Global Vectors for Word Representation”, EMNLP, volume 14, pp 1532-1543 [67] Peters Matthew E and Neumann Mark and Iyyer Mohit and Gardner Matt and Clark Christopher and Lee Kenton and Zettlemoyer Luke (2018), “Deep contextualized word representations”,Proc of NAACL [68] Phuong Le-Hong and Azim Roussanaly and Thi-Minh-Huyen Nguyen (2015), “A Syntactic Component for Vietnamese Language Processing “, Journal of Language Modelling, vol 3, issue 1, pp 145-184 [69] Phuong Le-Hong and Thi-Minh-Huyen Nguyen and Phuong Thai Nguyen and Azim Roussanaly (2010), “Automated extraction of tree adjoining grammars from a treebank for VietNamese”, the 10th International Conference on Tree Adjoining Grammars and Related Formalisms, Yale University, New Haven, USA [70] Phuong Le-Hong and Thi-Minh-Huyen Nguyen and Azim Roussanaly (2012) “Vietnamese parsing with an automatically extracted tree-adjoining grammar”, Proceedings of IEEE-RIVF International Conference, Ho Chi Minh City, Vietnam, IEEE, pp 91-96 [71] Phuong Le-Hong and Thi-Minh-Huyen Nguyen and Azim Roussanaly and Vinh Ho-Tuong (2008), “A hybrid approach to word segmentation of Viet156 namese texts”, In Carlos, M-V., Friedrich, O., and Henning, F (ed.), Language and Automata Theory and Applications, Lecture Notes in Computer Science Berlin: Springer Berlin Heidelberg, pp 240-49 [72] Phuong-Thai Nguyen and Xuan-Luong Vu and Thi-Minh-Huyen Nguyen and Van-Hiep Nguyen and Phuong Le-Hong(2009) “Building a large syntactically-annotated corpus of Vietnamese”, In Proceedings of the 3rd Linguistic Annotation Workshop, ACL-IJCNLP, Suntec City, Singapore, pp 182–185 [73] Pollard Carl and Ivan A Sag (1994), “Head-driven phrase structure grammar”, Chicago: University of Chicago Press [74] Vasin Punyakanok, Dan Roth, Wen-tau Yih and Dav Zimak(2004), “Semantic role labeling via integer linear programming inference”, In Proceedings of the 20th International Conference on Computational Linguistics, Switzerland: University of Geneva, pp 1346-52 [75] Quy Nguyen and Yusuke Miyao and Ha Le and Ngan Nguyen (2016), “Challenges and solutions for consistent annotation of vietnamese treebank”,In Proceedings of the Language Resources and Evaluation Conference [76] Ryan McDonald (2006), “Discriminative learning and spanning tree algorithms for dependency parsing”, The Faculties of the University of Pennsylvania [77] Ryan McDonald and Joakim Nivre (2011), “Analyzing and Integrating Dependency Parsers”, Computational Linguistics, 37(1) [78] Sabine Buchholz and Erwin Marsi (2006), “CoNLL-X shared task on multilingual dependency parsing”, Proceeding CoNLL-X ’06 Proceedings of the Tenth Conference on Computational Natural Language Learning, pp 149164 [79] Mitchell Stern, Jacob Andreas and Dan Klein (2017), “A Minimal SpanBased Neural Constituency Parser”, ACL [80] Schuler Karin Kipper (2006), “VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon”,PHD Thesis, University of Pennsylvania, http://verbs.colorado.edu/ kipper/Papers/dissertation.pdf [81] Tu-Bao Ho and Anh-Cuong Le and Minh-Thu Pham and PhuongThai Nguyen and Hoai-Thu Vuong (2009), “An Experimental Study on Lexicalized Statistical Parsing for Vietnamese”, Knowledge and 157 Systems Engineering, International Conference on(KSE), pp 162-167, doi.ieeecomputersociety.org/10.1109/KSE.2009.41 [82] Takase Sho and Suzuki Jun and Nagata Masaaki (2018), “Direct Output Connection for a High-Rank Language Model”, Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp 4599-4609 [83] Tao Ji and Yuanbin Wu and Man Lan, (2019), “Graph-based Dependency Parsing with Graph Neural Networks, Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp 2475–2485, Association for Computational Linguistics, Florence, Italy [84] Timothy Dozat and Christopher D Manning (2017), “Deep Biaffine Attention for Neural Dependency Parsing”,ICLR 2017 [85] Joseph Turian and Lev-Arie Ratinov and Yoshua Bengio (2010), “Word representations: A simple and general method for semi-supervised learning”, In proceedings of ACL, Uppsala, pp 384–394, Sweden [86] VAshish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N Gomez and Lukasz Kaiser and Illia Polosukhin (2017), “Attention Is All You Need”, NIPS [87] Yue Zhang and Stephen Clark (2009), “Transition-Based Parsing of the Chinese Treebank using a Global Discriminative Model”, IWPT, The Association for Computational Linguistics, pp 162-171 [88] Yoshua Bengio and Alessandro Sordoni and Aaron C Courville and Athul Paul Jacob and Zhouhan Lin and Yikang Shen (2018), “Straight to the Tree: Constituency Parsing with Neural Syntactic Distance”, ACL, pp 1171-1180, Association for Computational Linguistics [89] Zhilin Yang and Zihang Dai and Ruslan Salakhutdinov and William W Cohen (2018), “Breaking the softmax bottleneck: A high-rank RNN language model”, In Proceedings of the 6th International Conference on Learning Representations (ICLR 2018) [90] Zhixing Tan and Mingxuan Wang and Jun Xie and Yidong Chen and Xiaodong Shi (2018), “Deep Semantic Role Labeling with Self-Attention”, booktitle “AAAI”, abs/1712.01586, Melbourne, Australia 158 Website [91] http://nlp.stanford.edu/software/lex-parser.shtml [92] http://bionlp.utu.fi/fintreebank.html [93] http://stp.lingfil.uu.se/ mojgan/UPDT.html [94] http://universaldependencies.github.io/docs/ [95] Johan Hall and Jens Nilsson http://www.maltparser.org/ and Joakim Nivre, “MaltParser”, [96] Ryan McDonald and Joakim Nivre , “MSTParser”, http://www.seas.upenn.edu/ strctlrn/MSTParser/MSTParser.html 159 PHỤ LỤC Phụ lục Tập nhãn phụ thuộc tiếng Việt csubj:asubj: chủ ngữ tính từ Quan hệ csubj:asubj mơ tả tính từ làm chủ ngữ Trong tiếng Việt, chủ ngữ thường danh từ, nhiên có số trường hợp tính từ làm chủ ngữ Trong trường hợp này, vị từ thường từ “là” • Xa_xa hố bom root csubj:asubj cop Xa_xa punct nn hố • Khỏe đẹp bom root csubj:asubj cop Khỏe punct đẹp acomp: bổ ngữ tính từ Bổ ngữ tính từ động từ (V) tính từ (A) hay cụm tính từ (AP) có chức bổ ngữ bắt buộc, tương tự bổ ngữ động từ • Cơ nhìn đẹp root nsubj det:pmod Cơ nhìn punct acomp advmod đẹp Chú ý tính từ làm bổ ngữ khơng bắt buộc dùng quan hệ amod Ví dụ: “Nó chạy nhanh” có phụ thuộc amod(chạy, nhanh) amod: bổ nghĩa tính từ danh từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho danh từ 160 • Nam ăn cá sống → amod(cá, sống) root nsubj Nam punct dobj ăn amod cá sống apredmod: bổ nghĩa tính từ vị từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho vị từ Vị từ tiếng Việt thường động từ tính từ • Nam nhanh → apredmod(đi, nhanh) root punct apredmod nsubj Nam nhanh advmod: bổ nghĩa trạng từ Bổ ngữ trạng từ là: • Một trạng từ có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ • Một trạng từ có chức bổ nghĩa thời giạn cho động từ Các từ thường gặp như: “đã”, “sẽ”, “đang” Từ bổ trợ thường động từ cụm động từ • Một trạng từ bổ sung nghĩa cho số từ không tuyệt đối Tiếng Việt thường sử dụng “khoảng”, “gần”, “xấp xỉ”, “chừng”, “gần_đến”, “quãng”, “hơn” Ví dụ: • Cơ đẹp q → advmod(đẹp, q) root nsubj det:pmod Cô punct advmod đẹp • Cô đẹp → advmod(đẹp, rất) 161 root nsubj det:pmod Cô advmod • Nó → advmod(đi, đã) punct đẹp root nsubj advmod punct Nó • Gần 200 người tham gia → advmod(200, Gần) root advmod num Gần 200 nsubj người punct tham_gia advcl: mệnh đề trạng từ bổ nghĩa Một mệnh đề trạng ngữ bổ nghĩa mệnh đề có chức bổ sung ý nghĩa cho động từ vị từ (tính từ, ) Mệnh đề mệnh đề trạng ngữ thời gian, kết quả, cách thức, điều kiện, mục đích Quan hệ phải mệnh đề (nếu trạng từ nhãn advmod ) phụ thuộc vào vị từ câu Ví dụ: • Theo luật, → advcl(đúng, theo) advcl punct nsubj advmod dobj Theo luật , root punct 7 aux: động từ tình thái Quan hệ aux mơ tả quan hệ động từ tình thái (thường “có thể”, “phải”, ) với động từ câu • Tơi bơi → aux(bơi, có_thể) 162 root nsubj aux Tơi có_thể punct bơi • Tôi phải → aux(đi, phải) root nsubj aux Tôi punct phải auxpass: quan hệ bị động Quan hệ auxpass mô tả quan hệ động từ bị động (thường “được”, “bị”) với động từ câu • Tơi bị đánh → auxpass(đánh, bị) root nsubj auxpass Tôi bị punct đánh • Tơi cho kẹo → auxpass(cho, được) root nsubj auxpass Tôi cho punct dobj kẹo appos: phần chêm vào Phần chêm vào danh từ bổ sung nghĩa cho cụm danh từ đứng sau cụm danh từ chính, mục đích làm rõ nghĩa bổ sung thông tin cho danh từ • Ơng Trương Gia Bình, chủ tịch FPT, khai mạc hội nghị → appos(TGB, chủ tịch) 163 nsubj root appos punct punct nn Ông punct nn TGB , dobj chủ_tịch FPT , khai_mạc hội_nghị 10 cc: phần kết hợp Phần kết hợp quan hệ liên từ (conjunction) với từ cụm từ liên kết (conjunct) Thơng thường, từ (head) xác định từ cụm liên kết Liên từ nằm đầu câu • Lan cao xinh xắn → cc(cao, và) root punct conj nsubj Lan cc cao • Và anh yêu em → cc(yêu, và) cc xinh_xắn root nsubj advmod Và anh punct dobj yêu em 11 ccomp: bổ ngữ mệnh đề Bổ ngữ mệnh đề động từ tính từ mệnh đề phụ thuộc với chủ ngữ nội có chức bổ ngữ động từ tính từ • Cơ nói anh thích chơi → ccomp(nói, thích) punct root ccomp mark nsubj det:pmod Cô nsubj nói anh 164 xcomp thích chơi dobj • Tơi cam đoan làm điều → ccomp(cam đoan, làm) • Họ nghĩ giá cổ phiếu FPT tăng → ccomp(nghĩ, tăng) 12 conj: liên kết Liên kết trung tâm cụm liên kết nối liên từ (và, hoặc) Ta coi quan hệ liên kết không đối xứng, cụm liên kết từ chính, cụm liên kết thứ hai từ phụ thuộc • Lan cao xinh xắn → conj(cao, xinh xắn) root punct conj nsubj Lan cc cao xinh_xắn • Họ bơi đá bóng → conj(bơi, đá) punct root nsubj advmod Họ conj cc bơi dobj đá bóng • Ngành nghề kinh doanh cốt lõi FPT viễn thông, công nghiệp nội dung dịch vụ CNTT → conj( viễn thông, công nghiệp); conj( viễn thông, dịch vụ) 13 cop: hệ từ Quan hệ hệ từ với root câu, hệ từ thường từ “là” • Lan sinh viên → cop(sinh_viên, là) root nsubj cop Lan punct sinh_viên 14 csubj: chủ ngữ mệnh đề Chủ ngữ mệnh đề mệnh đề đóng vai trị chủ ngữ câu Đây quan hệ từ mệnh đề từ mệnh đề chủ ngữ • Anh nói khơng → csubj(đúng, nói) 165 root csubj nsubj Anh det:pmod nói neg punct khơng • Gió thổi mạnh làm đổ cối → csubj(làm, thổi) • Phụ nữ viết tiểu thuyết trở thành tượng → csubj(trở thành, viết) 15 dep: phụ thuộc Quan hệ phụ thuộc quan hệ tổng quát, sử dụng ta xác định quan hệ cụ thể từ câu 16 det: hạn định Hạn định quan hệ từ cụm danh từ với từ hạn định Trong tiếng Việt, từ hạn định hay gặp “những”, “các”, “mọi”, “cả”, “tất cả” Ngoài ra, quan hệ det cịn mơ tả phụ thuộc danh từ với đại từ định tiếng Việt, ví dụ “ấy”, “kia”, “này”, “đó”, “bây giờ” Khi đó, gọi tên quan hệ là: det:pmod • Mưa ngày → det(ngày, cả) root nsubj Trời mưa punct tmod det ngày • Tất mèo đen đẹp → det(mèo, những); det(mèo, tất cả) nsubj root det det det:pmod amod nc Tất_cả mèo đen • Anh cao → det:pmod(anh, này) 166 advmod advmod punct đẹp 10