Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
164,43 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Hà Mỹ Linh PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Hà Mỹ Linh PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 Lời cảm ơn Em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán khoa Toán - Cơ Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội tận tình dạy dỗ giúp đỡ em suốt thời gian học cao học làm việc Bộ môn Tin học Trong trình thực luận văn suốt năm học vừa qua, em nhận bảo hướng dẫn nhiệt tình TS Lê Hồng Phương TS Nguyễn Thị Minh Huyền Em xin gửi tới Thầy Cô lời cảm ơn chân thành Em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập thực luận văn Mặc dù cố gắng để hoàn thành luận văn, hạn chế kinh nghiệm thời gian, nên luận văn tránh khỏi thiếu sót Em mong nhận cảm thông ý kiến đóng góp thầy cô bạn Hà Nội, tháng năm 2015 Học viên Hà Mỹ Linh i Mục lục Danh sách bảng iv Danh sách hình vẽ v Lời mở đầu 1 Tổng quan cú pháp phụ thuộc 1.1 1.2 Cú pháp phụ thuộc 1.1.1 Định nghĩa cú pháp phụ thuộc 1.1.2 Biểu diễn cú pháp phụ thuộc Các thuật toán phân tích cú pháp phụ thuộc 1.2.1 Phân tích cú pháp phụ thuộc dựa đồ thị 1.2.2 Phân tích cú pháp phụ thuộc dựa bước chuyển 11 Xây dựng tập nhãn phụ thuộc cho tiếng Việt 16 2.1 Kho ngữ liệu tiếng Việt - Viettreebank 16 2.2 Tập nhãn quan hệ phụ thuộc đa ngôn ngữ 19 2.3 Tập nhãn quan hệ phụ thuộc cho tiếng Việt 23 Thực nghiệm 3.1 3.2 33 Các công cụ phân tích cú pháp phụ thuộc 33 3.1.1 MSTParser 33 3.1.2 MaltParser 35 Thuật toán xây dựng tài nguyên tiếng Việt tự động 39 3.2.1 40 Tập luật tìm phần tử trung tâm ii 3.2.2 3.3 Thuật toán chuyển tự động từ Viettreebank sang cú pháp phụ thuộc 41 Kết thực nghiệm 45 Kết luận 48 Các công trình công bố liên quan đến luận văn 49 Tài liệu tham khảo 50 Phụ lục 54 iii Danh sách bảng 1.1 Kết phân tích cú pháp phụ thuộc hai mô hình cho hệ thống CoNLL-X (Buchholz Marsi 2006) 1.2 Các đặc trưng dùng MSTParser 10 1.3 Các đặc trưng dùng MaltParser 14 1.4 Ví dụ phân tích cú pháp dựa vào bước chuyển 15 2.1 Tập nhãn từ loại tiếng Việt 18 2.2 Tập nhãn cụm từ tiếng Việt 19 2.3 Tập nhãn mệnh đề tiếng Việt 19 2.4 Tập nhãn chức cú pháp tiếng Việt 20 2.5 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) tập nhãn phụ thuộc tiếng Anh (SD) 32 3.1 Kết MSTParser 35 3.2 Kết MaltParser 39 3.3 Tập quy tắc xác định phần tử trung tâm 40 3.4 Câu tiếng Việt theo định dạng CoNLL-X chưa phân tích 45 3.5 Câu tiếng Việt theo định dạng CoNLL-X phân tích phụ thuộc 46 3.6 Kết phân tích cú pháp phụ thuộc với tập liệu 2700 46 3.7 Kết phân tích cú pháp phụ thuộc với tập liệu 6546 câu 47 iv Danh sách hình vẽ 1.1 Cấu trúc cụm từ 1.2 Đồ thị phụ thuộc câu tiếng Anh 1.3 Ví dụ phân tích cú pháp dựa đồ thị 11 3.1 Cú pháp thành phần câu tiếng Việt 41 v Lời mở đầu Xử lí ngôn ngữ tự nhiên (Natural Language Processing - NLP) nhánh trí tuệ nhân tạo, tập trung ứng dụng nhằm giúp hệ thống máy tính hiểu xử lí ngôn ngữ người Xử lí ngôn ngữ tự nhiên vấn đề khó thu hút nhiều nhóm nghiên cứu liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Phân tích cú pháp vấn đề quan trọng lĩnh vực xử lí ngôn ngữ tự nhiên Với phân tích cú pháp tốt, tích hợp vào nhiều ứng dụng xử lí ngôn ngữ tự nhiên dịch máy, tóm tắt văn bản, hệ thống hỏi đáp, trích chọn thông tin, để tăng tính xác ứng dụng Trong phân tích cú pháp, phân tích cú pháp phụ thuộc nghiên cứu phụ thuộc từ câu dựa ngữ nghĩa Gần đây, phân tích cú pháp phụ thuộc thu hút quan tâm nhiều nhóm nghiên cứu ngôn ngữ tự nhiên giới quan hệ phụ thuộc hai từ câu nghiên cứu khử nhập nhằng ngữ nghĩa câu cú pháp có khả mô hình hóa ngôn ngữ có trật tự từ tự Đối với nhiều ngôn ngữ tiếng Anh, tiếng Pháp, tiếng Trung, có nhiều nghiên cứu công cụ phân tích cú pháp phụ thuộc với hiệu cao Tuy nhiên, tiếp cận cho toán hầu hết dựa học máy đòi hỏi kho ngữ liệu với nhiều thông tin từ loại quan hệ phụ thuộc nên có công bố nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt Hiện nay, công cụ phân tích cú pháp phụ thuộc cho tiếng Việt đạt số kết định Nhóm tác giả Nguyễn Lê Minh cộng [1] sử dụng thuật toán phân tích cú pháp dựa vào đồ thị, thực nghiệm với công cụ MSTParser liệu hạn chế gồm 450 câu làm tay với độ xác 63.11% Nhóm tác giả Lê Hồng Phương cộng [20] nghiên cứu phân tích cú pháp phụ thuộc dựa vào văn phạm kết nối từ vựng hóa, thực nghiệm huấn luyện với 8637 câu kho ngữ liệu cú pháp thành phần tiếng Việt, phân tích 441 câu có độ dài nhỏ 30 từ đạt độ xác 73.21% Gần công bố nhóm nghiên cứu tác giả Nguyễn Quốc Đạt cộng [7], tác giả chuyển tự động kho ngữ liệu cú pháp thành phần sang kho ngữ liệu cú pháp phụ thuộc, với tập 33 nhãn quan hệ phụ thuộc với độ xác 71.66% Tuy nhiên, hầu hết nghiên cứu tiếng Việt chưa thống tập nhãn phụ thuộc, nhãn phụ thuộc chưa mô tả cách rõ ràng hiệu phân tích hạn chế Luận văn trình bày vấn đề phân tích cú pháp phụ thuộc, tập trung vào việc xây dựng tập nhãn phụ thuộc cho tiếng Việt thử nghiệm hai công cụ phân tích cú pháp MaltParser MSTParser Nội dung luận văn gồm có chương: • Chương Tổng quan: Chương trình bày vấn đề liên quan tới cú pháp phụ thuộc, khái niệm phân tích cú pháp phụ thuộc Và số thuật toán phân tích cú pháp phụ thuộc tốt • Chương Xây dựng tập nhãn phụ thuộc cho tiếng Việt: Chương trình bày việc nghiên cứu xây dựng tập nhãn phụ thuộc cho tiếng Việt có đối sánh với tập nhãn phụ thuộc đa ngôn ngữ nhóm nghiên cứu trường Đại học Stanford Ngoài ra, Chương so sánh khác hai nhãn để thấy đặc trưng tiếng Việt • Chương 3: Thực nghiệm: Chương trình bày số công cụ phân tích cú pháp phụ thuộc hiệu nay: MSTParser MaltParser Tiếp theo thuật toán chuyển tự động từ kho ngữ liệu cú pháp thành phần Viettreebank sang kho ngữ liệu cú pháp phụ thuộc Tiến hành thực nghiệm phân tích cú pháp phụ thuộc cho tiếng Việt với hai công cụ trên, sau so sánh kết đạt tập liệu khác đưa kết luận Chương Tổng quan cú pháp phụ thuộc Chương trình bày kiến thức sở sử dụng phần sau, đặc biệt khái niệm liên quan tới phân tích cú pháp phụ thuộc thuật toán phân tích cú pháp phụ thuộc điển hình 1.1 Cú pháp phụ thuộc Cú pháp chủ đề nghiên cứu hai cộng đồng gồm người làm ngôn ngữ người làm tin học Cú pháp vừa đối tượng nghiên cứu, vừa cấp độ cần mô tả cộng đồng người làm ngôn ngữ Đối với cộng đồng người làm tin học, cần làm cho máy tính phân tích cú pháp với hai mục tiêu xây dựng ứng dụng, giải số toán thực tế, đối tượng nghiên cứu họ hệ hình thức thuật toán 1.1.1 Định nghĩa cú pháp phụ thuộc Kiến thức ví dụ phần trình bày theo tài liệu tác giả Joakim Nivre Johan Hall cộng [9] Cú pháp quy tắc dùng tiếng để đặt câu văn cho xác Để sử dụng ngôn ngữ linh hoạt, ta phải hiểu rõ cú pháp Muốn hiểu rõ cú pháp, ta phải hiểu câu, loại câu, mệnh đề, loại mệnh đề, cấu trúc chúng Với câu có hai cách phân tích cú pháp: phân tích cú pháp thành Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008), Nghiên cứu luật hiệu chỉnh kết dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng việt, Kỷ yếu Hội thảo ICT.rda’08, Hanoi, Vietnam, pp 258–267 [2] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010), Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học Điều khiển học [3] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Xây dựng treebank tiếng Việt, Kỷ yếu hội thảo ICT.rda’08, Hà Nội Tài liệu tiếng Anh [4] Christopher D Manning and Hinrich Sch¨ utze (1999), Foundations of Statistical Natural Language Processing, Massachusetts Institute of Technology, USA [5] Daniel Cer, Marie-Catherine de Marneffez, Daniel Jurafskyz, Christopher D Manning (2010), Parsing to Stanford Dependencies: Trade-offs between speed and accuracy, In Proceedings of LREC-10 [6] Danqi Chen and Christopher D Manning (2014) A Fast and Accurate Dependency Parser using Neural Networks, Proceedings of EMNLP [7] Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen and Minh Le Nguyen (2014), From Treebank Conversion to Automatic Dependency Parsing for Vietnamese, In Proceedings of 19th International 50 Conference on Application of Natural Language to Information Systems, NLDB’14, Springer LNCS, pp 196-207 [8] Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, Ting Liu (2015) Cross-lingual Dependency Parsing Based on Distributed Representations, In Proceedings of the 53nd Annual Meeting of the Association for Computational Linguistics, China [9] Joakim Nivre, Johan Hall, Jens Nilsson, Atanas Chanev, Gulsen Eryigit, Sandra Kubler, Svetoslav Marinov, Erwin Marsi (2007), MaltParser: A language-independent system for data-driven dependency parsing, Natural Language Engineering, 13(2), pp 95-135 [10] Joakim Nivre, Marco Kuhlmann, Johan Hall (2009), An Improved Oracle for Dependency Parsing with Online Reordering, In Proceedings of the 11th International Conference on Parsing Technologies (IWPT), Paris, France, pp 73–76 [11] J Pennington, R Socher, and C Manning (2014) Glove: Global vectors for word representation, In Proceedings of EMNLP, pages 1532–1543, Doha, Qatar [12] J Turian, L Ratinov, and Y Bengio (2010), Word representations: A simple and general method for semi-supervised learning, In Proceedings of ACL, pages 384–394, Uppsala, Sweden [13] K Crammer and Y Singer (2003), Ultraconservative Online Algorithms for Multiclass Problems, Journal of Machine Learning Research 3: pp.951-991 [14] Le-Hong, P., T-M-H Nguyen, T-L Nguyen, and M-L Ha (2015), Fast Dependency Parsing using Distributed Word Representations, Springer Proceedings of PAKDD 2015 Workshops (LNAI), HCM City, Vietnam [15] Nguyen, T.L., Ha, M.L., Nguyen, V.H., Nguyen, T.M.H., Le-Hong, P (2013), Building a treebank for Vietnamese dependency parsing, In: The 10th IEEE RIVF, Hanoi, Vietnam, IEEE 51 [16] Marie-Catherine de Marneffe, Christopher D Manning (2008), Stanford typed dependencies manual, Stanford University, Technical report [17] Marie-Catherine de Marneffe, Miriam Connor, Natalia Silveira, Samuel R Bowman, Timothy Dozat and Christopher D Manning (2013), More constructions, more genres: Extending Stanford Dependencies, In Proceedings of the Second International Conference on Dependency Linguistics [18] Marie-Catherine de Marneffe, Natalia Silveira, Timothy Dozat, Katri Haverinen, Filip Ginter, Joakim Nivre, and Christopher D Manning (2014), Universal Stanford Dependencies: A cross-linguistic typology, In LREC 2014 [19] Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J (2013), Distributed representations of words and phrases and their compositionality, In Burges, C., Bottou, L., Welling, M., Ghahramani, Z., Weinberger, K., eds.: Advances in Neural Information Processing Systems 26 Curran Associates, Inc, pp 3111–3119 [20] P Le-Hong, T M H Nguyen, and R Azim (2012), Vietnamese parsing with an automatically extracted tree-adjoining grammar, in Proceedings of the IEEE International Conference in Computer Science: Research, Innovation and Vision of the Future, RIVF, HCMC, Vietnam [21] Ryan McDonald, Joakim Nivre (2011), Analyzing and Integrating Dependency Parsers, Computational Linguistics, 37(1) [22] Ryan McDonald, Joakim Nivre (2006), CoNLL-X Shared Task: Multi-lingual Dependency Parsing, Tenth Conference on Computational Natural Language Learning - New York City [23] Turian, J., Ratinov, L., Bengio, Y (2010), Word representations: A simple and general method for semi-supervised learning, In: Proceedings of ACL, Uppsala, 384–394, Sweden [24] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean (2013), Efficient Estimation of Word Representations in Vector Space, In Proceedings of Workshop at ICLR 52 Website [25] http://www.seas.upenn.edu/ strctlrn/MSTParser/MSTParser.html [26] http://nlp.stanford.edu/software/lex-parser.shtml [27] http://www.maltparser.org [28] http://bionlp.utu.fi/fintreebank.html [29] http://stp.lingfil.uu.se/ mojgan/UPDT.html [30] http://universaldependencies.github.io/docs/ [31] http://www.csie.ntu.edu.tw/ cjlin/liblinear/ 53 [...]...Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008), Nghiên cứu luật hiệu chỉnh kết quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng việt, Kỷ yếu Hội thảo ICT.rda’08, Hanoi, Vietnam, pp 258–267 [2] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010), Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học và Điều... (2010), Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học và Điều khiển học [3] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Xây dựng treebank tiếng Việt, Kỷ yếu hội thảo ICT.rda’08, Hà Nội Tài liệu tiếng Anh [4] Christopher D Manning and Hinrich Sch¨ utze (1999), Foundations of Statistical Natural Language Processing, Massachusetts Institute of Technology, USA [5] Daniel