Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
9,12 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VĂN KIỆT NGHIÊN CỨU PHÂN TÍCH CÚ PHÁP PHỤ THUỘC CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH – NĂM 2017 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VĂN KIỆT NGHIÊN CỨU PHÂN TÍCH CÚ PHÁP PHỤ THUỘC CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN LƯU THÙY NGÂN TP HỒ CHÍ MINH – NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu khoa học cá nhân thực hướng dẫn khoa học TS Nguyễn Lưu Thùy Ngân Trong luận văn này, số liệu tài liệu tham khảo có nguồn gốc rõ ràng tuân thủ nguyên tắc nghiên cứu khoa học Những kết nghiên cứu trình bày luận văn trung thực chưa cơng bố hình thức Tơi xin chịu trách nhiệm hồn tồn nghiên cứu Tp HCM, ngày 03 tháng 03 năm 2017 Nguyễn Văn Kiệt LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Lưu Thùy Ngân, Cô người thầy đầy tâm nghiêm túc nghiệp giáo dục nghiên cứu khoa học Cô truyền cảm hứng hướng dẫn tơi q trình học tập nghiên cứu khoa học, từ kiến thức kỹ chuyên môn nghiên cứu khoa học, đặc biệt hồn thành luận văn Một lần nữa, tơi xin cảm ơn chân thành đặc biệt người Cơ kính u Trong q trình học tập, nghiên cứu làm việc trường Đại học Công nghệ thông tin - Đại học Quốc Gia TP HCM, quên công ơn thầy cô giáo giảng dạy hướng dẫn q trình hồn thành mơn học Tơi xin gửi lời cảm ơn chân thành đến quý thầy Để hồn thành luận văn này, tơi khơng thể quên công ơn sinh thành dưỡng dục bố mẹ Cảm ơn bố mẹ, người dõi theo bước nguồn động lực tinh thần lớn chặng đường Dù có hồn thiện đến đâu, tơi khơng tránh khỏi thiếu sót hạn chế việc hồn thành luận văn Tôi hy vọng nhận phản hồi đóng góp ý kiến quý báu từ quý thầy cô Tôi xin trân trọng cảm ơn TP Hồ Chí Minh, tháng 03 năm 2017 Nguyễn Văn Kiệt MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC SƠ ĐỒ MỞ ĐẦU Chương : TỔNG QUAN 14 1.1 Bài tốn phân tích cú pháp phụ thuộc (Dependency Parsing) 14 1.2 Lịch sử phát triển phân tích cú pháp phụ thuộc 15 1.3 Phân tích cú pháp phụ thuộc tiếng Việt 19 1.4 Kết luận 21 Chương : CƠ SỞ LÝ THUYẾT 22 2.1 Phân tích cú pháp phụ thuộc 22 2.2 Lịch sử phát triển cú pháp phụ thuộc 24 2.3 Các hướng tiếp cận phân tích cú pháp hướng liệu (Data-driven) 24 2.4 Ngữ liệu treebank phụ thuộc 26 2.5 Phương pháp tiếp cận nghiên cứu cú pháp phụ thuộc tiếng Việt 28 2.5.1 Phân tích lỗi cú pháp phụ thuộc 28 2.5.2 Phân tích cú pháp phụ thuộc theo hướng transition-based 29 2.5.3 Hiệu đặc trưng siêu nhãn phân tích cú pháp 32 2.6 Các công cụ hỗ trợ phân tích cú pháp phụ thuộc 33 2.7 Kết luận 34 Chương : PHÂN TÍCH LỖI CHO PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT 35 3.1 Phương pháp phân tích lỗi cho phân tích cú pháp phụ thuộc tiếng Việt 35 3.2 Kết phân tích lỗi phân tích cú pháp phụ thuộc tiếng Việt 37 3.2.1 Phân tích lỗi theo chiều dài câu 38 3.2.2 Phân tích lỗi theo cấu trúc đồ thị phụ thuộc 40 3.3.3 Phân tích lỗi theo đặc trưng ngôn ngữ 41 3.3 So sánh với ngôn ngữ khác 46 3.4 Kết luận 48 Chương : PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT VỚI ĐẶC TRƯNG SIÊU NHÃN (SUPERTAGS) 50 4.1 Giới thiệu phân tích cú pháp phụ thuộc với đặc trưng siêu nhãn 50 4.2 Thiết kế siêu nhãn cho phân tích cú pháp phụ thuộc tiếng Việt 51 4.3 Gán siêu nhãn tự động 54 4.4 Đặc trưng siêu nhãn phân tích cú pháp phụ thuộc bước chuyển 55 4.4 Kết luận 56 Chương : THỬ NGHIỆM, ĐÁNH GIÁ VÀ PHÂN TÍCH 57 5.1 Dữ liệu thử nghiệm 57 5.2 Các thông số đánh giá phân tích cú pháp phụ thuộc 57 5.3 Các kết thử nghiệm 57 5.4 Phân tích kết thử nghiệm 62 Chương : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 6.1 Kết luận 66 6.2 Hướng phát triển 67 DANH MỤC CÁC BÀI BÁO KHOA HỌC ĐÃ CÔNG BỐ CỦA ĐỀ TÀI THẠC SĨ 68 PHỤ LỤC 74 PHỤ LỤC 77 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ý nghĩa Kí hiệu POS NLP Transition-based Graph-based CoNLL ACL EACL 10 11 12 13 14 15 COLING UAS LAS VnDT VLSP LTAG HPSG CCG Part of Speech Natural Language Processing Dựa bước chuyển Dựa đồ thị Conference on Computational Natural Language Learning Association for Computational Linguistics European Chapter of the Association for Computational Linguistics International Conference on Computational Linguistic Unlabeled Attachment Score Labeled Attachment Score Vietnamese dependency Treebank Vietnamese Language and Speech Processing Lexicalized Tree-Adjoining Grammar Head-driven Phrase Structure Grammar Combinatory Categorial Grammar DANH MỤC CÁC BẢNG Bảng 1.1 Độ xác MSTParser MaltParser ngơn ngữ 17 Bảng 1.2 So sánh hai parser MSTParser MaltParser 18 Bảng 1.3 Tóm tắt cơng trình phân tích cú pháp phụ thuộc tiếng Việt 20 Bảng 2.1 Danh sách nhãn phụ thuộc treebank VnDT 27 Bảng 2.2 Minh họa q trình phân tích cú pháp phụ thuộc theo Arc-standard 30 Bảng 2.3 Mơ hình đặc trưng theo thuật tốn phân tích Arc-standard 31 Bảng 3.1 Độ xác phân tích cú pháp phụ thuộc tiếng Việt 37 Bảng 3.2 Độ xác MSTParser MaltParser theo tiếng Việt theo chiều dài câu 38 Bảng 3.3 Độ xác/độ phủ MSTParser MaltParser theo chiều dài quan hệ phụ thuộc 39 Bảng 3.4 Độ xác/độ phủ phụ thuộc theo khoảng cách gốc 40 Bảng 3.5 Độ xác/độ phủ phụ thuộc theo số lượng sibling 41 Bảng 4.1 Minh họa thiết kế ba mơ hình siêu nhãn cho câu 52 Bảng 5.1 Độ xác ba siêu nhãn 58 Bảng 5.2 Độ xác ba mơ hình siêu nhãn ngữ liệu treebank VnDT 59 Bảng 5.3 Độ xác phân tích cú pháp tiếng Việt 60 Bảng 5.4 Sự chênh lệch độ xác mơ hình đặc trưng siêu nhãn so với mơ hình sở 61 Bảng 5.5 Tốc độ phân tích cú pháp phụ thuộc tiếng Việt (ms/câu) 61 Bảng 7.1 Các thư viện sử dụng xây dựng demo parser tiếng Việt 74 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây cú pháp phụ thuộc câu tiếng Việt 15 Hình 2.1 Một ví dụ đồ thị phụ câu tiếng Việt 22 Hình 2.2 Minh họa cú pháp phụ thuộc chứa cấu trúc non-projective 23 Hình 2.3 Một ví dụ đồ thị cú pháp phụ thuộc gán nhãn 24 Hình 2.4 Kiến trúc hệ thống phân tích cú pháp phụ thuộc hướng data-driven 25 Hình 2.5 Minh họa chuẩn CoNLL-X cho câu tiếng Việt 28 Hình 4.1 Các phần phụ bắt buộc cho động từ với chủ từ, tân ngữ vị từ 54 Hình 7.1 Kiến trúc chương trình demo phân tích cú pháp 74 Hình 7.2 Màn hình giới thiệu 75 Hình 7.3 Màn hình phân tích cú pháp phụ thuộc 76 Hình 7.4 Màn hình giới thiệu cơng bố khoa học liên quan 76 DANH MỤC CÁC SƠ ĐỒ Sơ đồ 3.1 So sánh độ xác MSTParser tiếng Việt ngơn ngữ khác theo nhãn từ loại 46 Sơ đồ 3.2 So sánh độ xác MaltParser tiếng Việt ngôn ngữ khác theo nhãn từ loại 46 Sơ đồ 3.3 Độ xác gốc, chủ ngữ tân ngữ MaltParser 48 Sơ đồ 3.4 Độ xác gốc, chủ ngữ tân ngữ MSTParser 48 Sơ đồ 5.1 So sánh độ xác parser theo chiều dài câu 62 Sơ đồ 5.2 So sánh độ xác parser theo chiều dài quan hệ phụ thuộc 63 Sơ đồ 5.3 So sánh độ xác parser theo nhãn từ loại 64 Sơ đồ 5.4 So sánh độ xác parser theo nhãn phụ thuộc 65 IOB 40.6 27.45 PRD 24.27 76.69 70.32 CONJ 55.3 50.94 COORD TMP 58.35 38.99 LOC 62.47 45.93 71.36 72.01 AMOD 82.64 79.92 ROOT 93.93 95.87 POB 88.07 92.72 ADV DOB 68.76 79.24 94.86 93.94 DET SUB 65.7 74.37 65.66 60.7 VMOD 83.51 79.04 NMOD 20 40 60 M2 80 100 120 Baseline Sơ đồ 5.4 So sánh độ xác parser theo nhãn phụ thuộc Nhờ vào phân tích này, chúng tơi thấy rõ tính hiệu đặc trưng siêu nhãn tầm quan trọng phân tích cú pháp phụ thuộc 65 Chương : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương này, chúng tơi tổng kết q trình nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt Bên cạnh kết đạt được, chúng tơi gặp khơng khó khăn, từ kết đạt hạn chế, người làm nghiên cứu khát khao kế thừa tiếp tục phát triển tốn phân tích cú pháp phụ thuộc cho tiếng Việt với độ cao tốc độ phân tích cao 6.1 Kết luận 6.1.1 Kết đạt Trong đề tài luận văn này, thực đạt mục tiêu chính: Thứ nhất, chúng tơi thực phân tích lỗi cho hai phương pháp phân tích cú pháp phụ thuộc ngữ liệu treebank phụ thuộc VnDT Chúng thực số so sánh phân tích lỗi với ngơn ngữ khác thực trước Những đóng góp có ý nghĩa khoa học cho nhà nghiên cứu phân tích cú pháp có nhìn sâu sắc trạng phân tích cú pháp phụ thuộc tiếng Việt từ đó, họ tạo mơ hình phân tích cú pháp tốt Thứ hai, nghiên cứu thực cách tiếp cận đơn giản mà hiệu để cải tiến phân tích cú pháp phụ thuộc tiếng Việt – thêm loại đặc trưng ngôn ngữ (linguistic features) - siêu nhãn (supertags), tận dụng thông tin cú pháp biểu diễn siêu nhãn 6.1.2 Hạn chế Đối với phân tích cú pháp phụ thuộc dựa bước chuyển, số lượng đặc trưng nhiều độ xác cao Tuy nhiên, độ xác đặc trưng ảnh hưởng đến độ xác phân tích cú pháp Vì vậy, việc cải tiến gán nhãn cho tiếng Việt góp phần cải thiện độ xác parser Số lượng siêu nhãn (supertags) nhiều, độ xác phân gán siêu nhãn (supertaggers) giảm Việc cân độ xác gán siêu nhãn 66 độ xác phân tích cú pháp phụ thuộc để thiết kế siêu nhãn cho phù hợp thách thức Thời gian chạy phân tích cú pháp phụ thuộc phụ thuộc vào số lượng đặc trưng Vì phân tích cú pháp phải tốn thời gian cho số phân đoạn tách từ, gán nhãn từ loại (POS), gán siêu nhãn Chúng ta cần phải xây dựng phân tích cú pháp phụ thuộc thành khối thống từ tách từ phân tích cú pháp phụ thuộc 6.2 Hướng phát triển Từ kết đạt hạn chế, nghiên cứu thêm số vấn đề đề xuất số phương pháp cải tiến phân tích cú pháp phụ thuộc tiếng Việt Trong tương lai, nghiên cứu tìm hiểu số phương pháp sau để cải tiến phân tích cú pháp phụ thuộc đạt hiệu quả: Chúng ta tận dụng sức mạnh hai mơ hình: graph-based transitionbased để cải tiến phân tích cú pháp cho tiếng Việt Hai mơ hình bù trừ điểm yếu điểm mạnh để tạo thành mơ hình lai mạnh mẽ hơn, tương tự đề xuất Nirve McDonald [41] Chúng ta áp dụng phương pháp làm mịn đặc trưng nhãn từ loại (finedgrained POS features) đề xuất Giangyou cộng [29], để cải thiện phân tích cú pháp phụ thuộc tiếng Việt Chúng ta dùng nhãn từ loại khác để cải tiến độ xác nhãn từ loại tiếng Việt Độ xác nhãn từ loại RDRPOSTagger khoảng 93% 67 DANH MỤC CÁC BÀI BÁO KHOA HỌC ĐÃ CÔNG BỐ CỦA ĐỀ TÀI THẠC SĨ Với kết nghiên cứu từ luận văn này, công bố đóng góp vào lĩnh vực nghiên cứu phân tích cú pháp báo khoa học hội nghị quốc tế: Bài báo “Error Analysis for Vietnamese Dependency Parsing” (“Phân tích lỗi cú pháp phụ thuộc cho tiếng Việt”), trình bày Chương Kiet V Nguyen, and Ngan Luu-Thuy Nguyen “Error Analysis for Vietnamese Dependency Parsing” 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE 2015), Oct 2015 [18] Bài báo “Vietnamese Dependency Parsing with Supertag Features” (“Phân tích cú pháp phụ thuộc với đặc trưng siêu nhãn”), ý tưởng thử nghiệm chúng tơi trình bày Chương Kiet V Nguyen, and Ngan Luu-Thuy Nguyen “Vietnamese Dependency Parsing with Supertag Features” 2016 Seventh International Conference on Knowledge and Systems Engineering (KSE 2016), Oct 2016 [19] 68 TÀI LIỆU THAM KHẢO [1] G Attardi and M Simi, "Dependency Parsing Techniques for Information Extraction," In Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014 and of the Fourth International Workshop EVALITA 2014, 2014 [2] H Cui, R Sun, K Li, M.-Y Kan and T.-S Chua, "Question Answering Passage Retrieval Using Dependency Relations," In Proceedings of ACM SIGIR, pp 400-407, 2005 [3] Y Wu, Q Zhang, X Huang and L Wu, "Phrase Dependency Parsing for Opinion Mining," Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, p 1533–1541, 2009 [4] M R Costa-Jussà and M Farrús, "Statistical machine translation enhancements through linguistic levels: A survey," ACM Computing Surveys (CSUR), p 46(3):42, 2014 [5] A Wiki, "Parsing (State of the art)," [Online] Available: http://www.aclweb.org/aclwiki/index.php?title=Parsing_(State_of_the_art) [Accessed 19 2017] [6] Google, "Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source," Google, [Online] Available: https://research.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html [Accessed 19 2017] [7] VLSP, "https://vlsp.hpda.vn/demo/?page=resources," Đề tài cấp Quốc gia Việt Nam, [Online] Available: https://vlsp.hpda.vn/demo/?page=resources [Accessed 19 2017] [8] D Q Nguyen, M Dras and M Johnson, "An empirical study for Vietnamese dependency parsing," In Proceedings of Australasian Language Technology Association Workshop, pp 143-149, 2016 [9] W Chen, Z Li and M Zhang, "Tutorial: Dependency Parsing: Past, Present, and Future," In Proceedings of the 25th International Conference on Computational Linguistics (COLING), 2014 69 [10] Z Li, W Chen and M Zhang, "Tutorial: Dependency Parsing: Past, Present, and Future," In Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP), 2013 [11] J Nirve and S Kubler, "Tutorial: Dependency Parsing," In Proceedings of COLING/ACL 2006, 2006 [12] Q I Wang and Y Zhang, "Tutorial: Recent Advances in Dependency Parsing," In Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2010 [13] Buchholz, Sabine and E Marsi, "CoNLL-X shared task on multilingual language processing," In Proceedings of the 10th Conference on Computational Natural Language Learning (CoNLL), pp 149-164, 2006 [14] J Nivre, J Hall, S Kubler, R McDonald, J Nilsson, S Riedel and D Yure, "The CoNLL 2007 Shared Task on Dependency Parsing," In Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007, p 915–932 [15] D Nguyen, D Nguyen, S Pham, P.-T Nguyen and M L Nguyen, "From treebank conversion to automatic dependency parsing for Vietnamese," In Proceedings of 19th International Conference on Application of Natural Language to Information Systems, pp 196-207, 2014 [16] L N Thi, L H My, H N Viet, H N T Minh and P L Hong, "Building a treebank for Vietnamese dependency parsing," In Proceedings of the 10th IEEE RIVF International Conference on Computing and Communication Technologies, Research, Innovation, and Vision for the Future, pp 147-151 [17] N Phuong-Thai, V Xuan-Luong, N Thi-Minh-Huyen, N Van-Hiep and L HongPhuong, "Building a Large Syntactically-Annotated Corpus of Vietnamese," In Proceedings of the Third Linguistic Annotation Workshop, p 182–185, 2009 [18] K V Nguyen and N L.-T Nguyen, "Error Analysis for Vietnamese Dependency Parsing," The Seventh International Conference on Knowledge and Systems Engineering (KSE 2015), pp 79-84, 2015 [19] K V Nguyen and N L.-T Nguyen, "Vietnamese Dependency Parsing with Supertag Features," 2016 Seventh International Conference on Knowledge and Systems Engineering (KSE), 2016 [20] N Chomsky, Syntactic Structures, The Hague: Mouton, 1957 70 [21] R McDonald and J Nirve, "Characterizing the Errors of Data-Driven Dependency Parsing Models," In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, p 122–131, 2007 [22] R McDonald and J Nivre, "Tutorial: Recent Advances in Dependency Parsing," In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL), 2014 [23] L Huang, S Fayong and Y Guo, Structures perceptron wih inexact search, In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2012 [24] L Zhang, K Zhao and R McDonald, "Online learning for inexact hypergraph search," In Proceedings of Empirical Methods in Natural Language Processing, 2013 [25] M Ballesteros and J Nivre, "MaltOptimizer: An Optimization Tool for MaltParser," In Proceedings of the System Demonstration Session of the Thirteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), 2013 [26] C Vu-Manh, A T Luong and P Le-Hong, "Improving Vietnamese Dependency Parsing Using Distributed Word Representations," Proceedings of the Sixth International Symposium on Information and Communication Technology, pp 5460, 2015 [27] J Baldrige and R McDonald, "Minimum-Spanning Tree Parser," [Online] Available: Minimum-Spanning Tree Parser [Accessed 19 2017] [28] J H J N A C Joakim Nivre, G Eryigit, S Kubler, S Marinov and E Marsi, "Maltparser: A language-independent system for data-driven dependency parsing," Natural Language Engineering, pp 95-135, 2007 [29] G Zhou, L Cai, K Liu and J Zhao, "Improving Dependency Parsing with FinedGrained Features," In Proceedings of the 5th International Joint Conference on Natural Language Processing, p 228–236, 2011 [30] Y Zhang and J Nivre, "Transition-based Dependency Parsing with Rich Non-local Features," In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, p 188–193, 2011 71 [31] H Ouchi, K Duh and Y Matsumoto, "Improving Dependency Parsers with Supertags," In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, p 154–158, 2014 [32] K Foth, T By and W Menzel, "Guiding a Constraint Dependency Parser with Supertags," In Proceedings of COLING/ACL 2006, pp 289-296, 2006 [33] B R Ambati, T Deoskar and M Steedman, "Using CCG categories to improve Hindi dependency parsing," In Proceedings of ACL, pp 604-609, 2013 [34] J Hall, J Nilsson and J Nivre, "MaltParser," http://www.maltparser.org/ [Accessed 29 2017] [Online] Available: [35] J Nilsson and J Nivre, "MaltEval: An Evaluation and Visualization Tool for Dependency Parsing," LREC [36] H P Le, T M H Nguyen, A Roussanaly and T V Ho, "A hybrid approach to word segmentation of Vietnamese texts," Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, pp 240 249, 2008 [37] D Q Nguyen, D Q Nguyen, D D Pham and S B Pham, "RDRPOSTagger: A Ripple Down Rules-based Part-Of-Speech Tagger," In Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL), pp 17-20, 2014 [38] J R Curran, S Clark and D Vadas, "Multi-Tagging for Lexicalized-Grammar Parsing," Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the AC, pp 697-704, 2006 [39] R McDonald and J Nirve, "Analyzing and Integrating Dependency Parsers," Computational Linguistics - MIT Press Journal, vol 37, no 1, pp 197-230, 2011 [40] Q Nguyen, N Nguyen and Y Miyao, "Utilizing State-of-the-art Parsers to Diagnose Problems in Treebank Annotation for a Less Resourced Language," Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse, pp 1927, 2013 [41] J Nivre and R McDonald, "Integrating Graph-Based and Transition-Based Dependency Parsers," In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-08: HLT), pp 950-958 72 [42] K Sagae and A Lavie, "Parser Combination by Reparsing," In Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, p 129–132, 2006 [43] H Yamada and Y Matsumoto, "Statistical dependency analysis using support vector machines," In Proceedings of IWPT, 2003 [44] L Huang and K Sagae, "Dynamic programming for linear-time incremental parsing," In Proceedings of ACL, pp 1077-1086, 2010 [45] Y Goldberg and M Elhadad, "An Efficient Algorithm for Easy-First NonDirectional Dependency Parsing," In Proceedings of HLT/NAACL, pp 742-750, 2010 [46] R E Fan, K W Chang, C J Hsieh, X R Wang and C J Lin, "LIBLINEAR: A library for large linear classification," Journal of Machine Learning Research, p 1871–1874, 2008 [47] C.-C Chang and C J Lin, "LIBSVM: A Library for Support Vector Machines," 2001 73 PHỤ LỤC CHƯƠNG TRÌNH PHÂN TÍCH CÚ PHÁP Tổ chức chương trình: Hệ thống phân tích cú pháp phụ thuộc chương trình tuần tự, kết nối mơ đun với Chương trình gồm mô đun tách từ, gán nhãn từ loại (POS), gán siêu nhãn (Supertags), parser, mô tả cụ thể qua Hình 7.1: Tách từ Câu POS Supertags Parser Cây cú pháp Đặc trưng Hin ̀ h 7.1 Kiến trúc chương trình demo phân tích cú pháp Các thư viện sử dụng: Trong trình cài đặt thử nghiệm, hệ thống phân tích cú pháp sử dụng số thư viện sau: Bảng 7.1 Các thư viện sử dụng xây dựng demo parser tiếng Việt STT Tên thư viện Hệ thống phân tích cú pháp MaltParser Thư viện giao diện dành cho Java – Jtattoo Thư viện tách từ tiếng Việt vn.hus.nlp.tokenizer Thư viện vẽ stanford parser Thư viện hỗ trợ gán nhãn RDRPOSTagger Thư viện hỗ trợ gán siêu nhãn C&C Phiên 1.9.0 1.6.8 4.1.1 2.0.5 1.2.3 1.0 Trong q trình phân tích lỗi, chúng tơi sử dụng số thư viên khác MSTParser (phiên 0.2) Giao diện: Giao diện đơn giản dễ dàng sử dụng, bao gồm hình: 74 Màn hình giới thiệu trình bày mục tiêu, phạm vi, hướng tiếp cận đóng góp luận văn Hin ̀ h 7.2 Màn hình giới thiệu Màn hình phân tích cú pháp phụ thuộc cho phép người dùng vào câu trả kết cú pháp phụ thuộc biểu diễn dạng đồ thị Bên cạnh đó, hiển thị kết giai đoạn phân tích từ tách từ phân tích cú pháp 75 Hin ̀ h 7.3 Màn hình phân tích cú pháp phụ thuộc Màn hình cơng trình cơng bố giới thiệu báo khoa học đăng hội nghị khoa học quốc tế Hin ̀ h 7.4 Màn hình giới thiệu công bố khoa học liên quan 76 PHỤ LỤC DANH SÁCH SIÊU NHÃN SIÊU NHÃN 1: gồm 62 siêu nhãn khác root; punct/L; sub/R; nmod/L; amod/R; dep/R; amod/L; pob/L; nmod/R; adv/R; det/L; coord/L; conj/L; dob/L; vmod/L; adv/L; prd/L; vmod/R; loc/L; punct/R; pmod/L; det/R; tmp/R; xprd/L; dep/L; x/L; sub/L; dir/L; x/R; mnr/L; tmp/L; prp/L; iob/L; mnr/R; coord/R; conj/R; tpc/R; loc/R; ext/L; pmod/R; prp/R; xmdp/R; prd/R; xmnr/L; voc/L; cnd/R; tpc/L; voc/R; xmdp/L; ext/R; xtmp/R; xadv/R; xtmp/L; cnc/R; dir/R; xprd/R; cnd/L; xmnr/R; dob/R; xadv/L; cnc/L; xloc/L; SIÊU NHÃN 2: gồm 191 siêu nhãn khác root+L; punct/L; sub/R; root+L_R; nmod/L; amod/R; dep/R; amod/L; pob/L+L; nmod/R; adv/R; det/L; coord/L+L; conj/L; dob/L; vmod/L+L; vmod/L; amod/L+L; adv/L; nmod/L+L; dob/L+L; prd/L+R; vmod/R; sub/R+L; dob/L+R; loc/L+L; punct/R; prd/L+L; pmod/L+L; sub/R+R; det/R; dob/L+L_R; tmp/R+L; sub/R+L_R; prd/L; xprd/L+L; dep/L+R; x/L; pob/L; tmp/R; sub/L; dir/L+L; vmod/L+L_R; x/R; vmod/L+R; loc/L; loc/L+L_R; conj/L+R; mnr/L+L; dep/L+L_R; nmod/L+L_R; tmp/L+R; amod/L+R; dep/L; conj/L+L_R; pob/L+L_R; tmp/L+L; mnr/L; tmp/R+R; prp/L+L; tmp/L; tmp/R+L_R; adv/R+L; dep/L+L; conj/L+L; prp/L; prd/L+L_R; iob/L+L_R; mnr/R+L; pob/L+R; mnr/R; sub/L+L; coord/R; conj/R; coord/R+R; mnr/R+R; nmod/L+R; conj/R+L; tmp/L+L_R; iob/L; tpc/R+L; loc/R+L; ext/L+R; adv/L+L; iob/L+L; x/L+L; dep/R+L; pmod/R+L_R; pmod/R+L; loc/R+L_R; dir/L; prp/R+L_R; amod/L+L_R; prp/L+L_R; xmdp/R; mnr/L+R; prd/R+L_R; conj/R+L_R; sub/L+R; xmnr/L; voc/L; x/L+L_R; cnd/R+L_R; dep/R+L_R; tpc/L+L_R; prp/R+L; voc/R+L; voc/L+L_R; x/L+R; vmod/R+L_R; prd/R; sub/L+L_R; cnd/R+R; cnd/R; adv/R+L_R; vmod/R+L; coord/L; prd/R+R; mnr/L+L_R; prd/R+L; tpc/R+L_R; xmdp/L; ext/L+L_R; tpc/L+L; loc/R; loc/L+R; ext/R+L_R; tpc/R; adv/L+L_R; dep/R+R; adv/R+R; tpc/R+R; ext/R+L; xtmp/R; x/R+R; voc/L+L; prp/R+R; xmdp/R+L; iob/L+R; conj/R+R; xprd/L+R; xadv/R; xprd/L; 77 xtmp/L; cnd/R+L; loc/R+R; pmod/L+L_R; cnc/R+L_R; ext/R+R; xmdp/L+L; mnr/R+L_R; pmod/R; xmdp/R+R; dir/R+L; xprd/R+R; pmod/L; dir/L+L_R; ext/L+L; cnd/L+L_R; adv/L+R; xmnr/R+L; dob/R+L; xprd/R+L; nmod/R+R; nmod/R+L_R; prp/R; dob/R+L_R; cnd/L+R; vmod/R+R; x/R+L; xmnr/R; pmod/R+R; voc/R+L_R; amod/R+R; nmod/R+L; xadv/L; prp/L+R; xadv/R+L; xadv/L+L; cnc/L+L_R; xprd/L+L_R; ext/L; dob/R; cnd/L+L; xprd/R; xloc/L; voc/L+R; xloc/L+L; cnc/L+R; xtmp/R+L; xmnr/L+L_R SIÊU NHÃN 3: gồm 203 siêu nhãn khác root+L; punct/L; sub/R; root+sub/L_R; nmod/L; amod/R; root+L_R; dep/R; amod/L; pob/L+L; nmod/R; adv/R; det/L; coord/L+L; conj/L; root+sub/L_dob/R; dob/L; vmod/L+L; vmod/L; amod/L+L; adv/L; nmod/L+L; dob/L+L; prd/L+R; vmod/R; sub/R+L; dob/L+R; loc/L+L; punct/R; prd/L+L; pmod/L+L; sub/R+R; det/R; dob/L+L_R; tmp/R+L; sub/R+L_R; prd/L; xprd/L+L; dep/L+R; root; x/L; pob/L; tmp/R; root+L_dob/R; sub/L; dir/L+L; vmod/L+L_R; x/R; vmod/L+R; loc/L; loc/L+L_R; conj/L+R; mnr/L+L; dep/L+L_R; nmod/L+L_R; tmp/L+R; amod/L+R; dep/L; conj/L+L_R; pob/L+L_R; root+sub/L_prd/R; tmp/L+L; mnr/L; tmp/R+R; prp/L+L; tmp/L; tmp/R+L_R; adv/R+L; dep/L+L; conj/L+L; prp/L; prd/L+L_R; iob/L+L_R; mnr/R+L; pob/L+R; mnr/R; sub/L+L; coord/R; conj/R; coord/R+R; root+L_sub/R; mnr/R+R; nmod/L+R; conj/R+L; tmp/L+L_R; iob/L; tpc/R+L; loc/R+L; ext/L+R; adv/L+L; iob/L+L; x/L+L; dep/R+L; pmod/R+L_R; pmod/R+L; loc/R+L_R; dir/L; prp/R+L_R; amod/L+L_R; prp/L+L_R; xmdp/R; mnr/L+R; prd/R+L_R; conj/R+L_R; sub/L+R; xmnr/L; voc/L; root+sub/L_iob/R; x/L+L_R; cnd/R+L_R; dep/R+L_R; tpc/L+L_R; prp/R+L; voc/R+L; voc/L+L_R; x/L+R; root+prd/L_dob/R; vmod/R+L_R; root+prd/L_R; prd/R; sub/L+L_R; cnd/R+R; cnd/R; adv/R+L_R; vmod/R+L; coord/L; prd/R+R; mnr/L+L_R; prd/R+L; tpc/R+L_R; root+sub/L_sub/R; root+L_iob/R; root+L_prd/R; xmdp/L; ext/L+L_R; tpc/L+L; loc/R; loc/L+R; ext/R+L_R; tpc/R; adv/L+L_R; dep/R+R; adv/R+R; tpc/R+R; ext/R+L; xtmp/R; x/R+R; voc/L+L; prp/R+R; xmdp/R+L; iob/L+R; conj/R+R; xprd/L+R; xadv/R; xprd/L; xtmp/L; cnd/R+L; loc/R+R; pmod/L+L_R; cnc/R+L_R; ext/R+R; xmdp/L+L; mnr/R+L_R; pmod/R; xmdp/R+R; 78 dir/R+L; xprd/R+R; pmod/L; dir/L+L_R; ext/L+L; cnd/L+L_R; adv/L+R; xmnr/R+L; dob/R+L; xprd/R+L; nmod/R+R; nmod/R+L_R; prp/R; dob/R+L_R; cnd/L+R; vmod/R+R; x/R+L; xmnr/R; pmod/R+R; voc/R+L_R; amod/R+R; nmod/R+L; xadv/L; prp/L+R; xadv/R+L; xadv/L+L; cnc/L+L_R; xprd/L+L_R; ext/L; dob/R; cnd/L+L; xprd/R; xloc/L; voc/L+R; xloc/L+L; cnc/L+R; xtmp/R+L; xmnr/L+L_R 79 ... phương pháp phân tích cú pháp phụ thuộc cho tiếng Việt Chương 3: Phân Tích Lỗi Cho Phân Tích Cú Pháp Phụ Thuộc Tiếng Việt Nội dung chương trình bày chi tiết phương pháp phân tích lỗi cho phân tích. .. Phương pháp phân tích lỗi cho phân tích cú pháp phụ thuộc tiếng Việt 35 3.2 Kết phân tích lỗi phân tích cú pháp phụ thuộc tiếng Việt 37 3.2.1 Phân tích lỗi theo chiều dài câu 38 3.2.2 Phân. .. hướng nghiên cứu mở rộng cho dự án nghiên cứu tương lai phân tích cú pháp phụ thuộc tiếng Việt 13 Chương : TỔNG QUAN 1.1 Bài tốn phân tích cú pháp phụ thuộc (Dependency Parsing) Phân tích cú pháp