Kết quả phân tích cú pháp ngữ nghĩa của câu “họ đã hy sinh vì

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa (Trang 64 - 71)

mỗi đơn vị từ vựng được hiển thị trong khung phía dưới, bên trái của hình vẽ. Cơng cụ TuLiPA cho phép sinh đầu ra gồm cả cây dẫn xuất và cây phân tích biểu diễn câu được đặt lần lượt trong hai khung tương ứng là “Derivation tree” và “Derived tree”. Biểu diễn ngữ nghĩa thu được cho câu đầu vào được thể hiện trong phần dưới cùng của công cụ.

Kết luận

Luận văn đã tìm hiểu và xây dựng một hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt, với những điểm quan trọng sau:

• Tìm hiểu bài tốn phân tích cú pháp - phân tích ngữ nghĩa, một trong những bài tốn quan trọng của lĩnh vực xử lí ngơn ngữ tự nhiên. Phân tích các kho ngữ liệu dùng cho phân tích cú pháp - ngữ nghĩa

• Tìm hiểu hệ văn phạm hình thức TAG, cách biểu diễn và tính tốn ngữ nghĩa bằng logic

• Giới thiệu một số cơng cụ phân tích cú pháp, ngữ nghĩa; dữ liệu cho phân tích cú pháp, ngữ nghĩa tiếng Việt

• Kết quả: Mở rộng từ điển tiếng Việt cho máy tính VCL với các thơng tin cú pháp - ngữ nghĩa, kết hợp với công cụ XMG và TuLiPA để xây dựng một hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt. Thực nghiệm đã tiến hành xây dựng khoảng 93 mảnh cây XMG cho phép biểu diễn trên 212 họ cây TAG, trích rút thơng tin hình thái các từ trong từ điển VCL và gán 28 027 mục từ với các họ cây đã xây dựng cho phép biểu diễn cú pháp - ngữ nghĩa một số lượng lớn các câu ngơn ngữ tự nhiên.

Khó khăn và vấn đề cần phát triển • Khó khăn: Từ điển VCL thiếu thông tin:

– VCL không bao gồm thông tin đối số của danh từ, tính từ và các cấu trúc đối số.

– Các thông tin ràng buộc và phân loại động từ, tính từ, danh từ, trạng từ phải xây dựng bằng tay → hiện tại, nhiều cấu trúc bổ nghĩa và ràng

buộc vẫn chưa được xem xét. • Hướng phát triển:

– Xây dựng bộ dữ liệu test gồm tập hợp các câu trong ngôn ngữ tiếng Việt để đánh giá hiệu quả của hệ thống.

– Nghiên cứu tích hợp các mảnh cây XMG đã trích rút tự động trong cơng trình [4] của một số tác giả trước đó vào hệ thống phân tích cú pháp - ngữ nghĩa.

Các cơng trình cơng bố liên quan đến luận văn

[1] Thi Huyen Nguyen, Minh Hai Nguyen, Thi Minh Huyen Nguyen and The Quyen Ngo (2016), “Towards a syntactically and semantically enriched lex- icon for Vietnamese processing”, The 12th IEEE RIVF International Con- ference on Computing and Communication Technologies, Hanoi, Vietnam.

Tài liệu tham khảo

Tài liệu tiếng Việt

[1] Đào Minh Thu, Đào Thị Minh Ngọc, Nguyễn Mai Vân, Lê Kim Ngân, Lê Thanh Hương, Nguyễn Phương Thái, Đỗ Bá Lâm (2009), Tập quy tắc cú pháp tiếng Việt, SP8.5 – Đề tài KC.01.01.05/06-10.

[2] Hoàng Phê (2002), Từ điển tiếng Việt, NXB Đà Nẵng, Việt Nam.

[3] H. M. Linh, N. T. Lương, N. V. Hùng, N. T. M. Huyền, L. H. Phương, P. T. Huê (2015), “Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt”, Hội thảo quốc gia lần thứ 17, Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, pp. 409–414, Hà Nội, Việt Nam.

[4] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà (2010), “Trích rút tự động văn phạm TAG cho tiếng Việt”. Tin học và Điều khiển học, 26(2), pp. 153-171.

[5] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), “Xây dựng treebank tiếng Việt”, Kỷ yếu hội thảo ICT.rd’08, Hà Nội.

[6] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt, NXB Đại học Quốc gia, Hà Nội, Việt Nam.

Tài liệu tiếng Anh

[7] Ann Copestake, Dan Flickinger (2000), “An open source grammar develop- ment environment and broadcoverage English grammar using HPSG”, In PROCEEDINGS OF LREC 2000, pp. 591–600.

[8] Aravind K. Joshi and Yves Schabes (1997),Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars, Springer-Verlag.

[9] Avanti M. Deshpande (2012), “A Survey: Structure of Machine Readable Dictionary”, International Journal of Engineering and Innovative Technol- ogy (IJEIT), vol. 1.

[10] Boullier, Pierre (2000), “Range concatenation grammars”, In Proceedings of the Sixth International Workshop on Parsing Technologies (IWPT 2000), pp. 53–64.

[11] B. Levin (1993), “English Verb Classes and Alternation: A Preliminary In- vestigation”, Chicago: The University of Chicago Press.

[12] Claire Gardent and Laura Kallmeyer (2003), “Semantic construction in Feature-Based TAG”, In Proceedings of the 10th Conference of the Euro- pean Chapter of the Association for Computational Linguistics, pp. 123–130, Budapest, Hungary.

[13] CLEAR (Computational Language and Education Research) (2012), “Verb- Net Annotation Guidelines”, University of Colorado, Boulder.

[14] C. F. Baker, C. J. Fillmore, and J. B.Lowe (1998), “The berkeley framenet project”, In Proceedings of COLING/ACL.

[15] Denys Duchier, Joseph Le Roux, and Yannick Parmentier (2004), “The metagrammar compiler: An NLP application with a multiparadigm archi- tecture”, In Proceedings of the 2nd International Mozart/Oz Conference (MOZ’2004), pp. 175–187, Charleroi, Belgium.

[16] E r ic Villem ont de la C lerger ie (2005), “DyALog: a tabular logic pro- gramming based environment for NLP”, In Proceedings of 2nd Interna- tional Workshop on Constraint Solving and Language Processing, pp. 18–33, Barcelona, Spain.

[17] Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria (2006), “Lexical Markup Framework”, Lexical Markup Framework ISOCD24613-revision-9, ISO Geneva.

[18] Hoang Anh Viet, Dinh Thi Phuong Thu, Huynh Quyet Thang (2007), “Viet- namese Parse Applying the PCFG model”, Proceedings of the Second Asia Pacific International Conference on Information Science and Technology, pp. 13-14.

[19] Johan Bos (1995), “Predicate logic unplugged”, In Proceedings of the tenth Amsterdam Colloquium, pp. 133–142, Amsterdam.

[20] K. K. Schuler (2006), “Verbnet: A broad-coverage, comprehensive verb lex- icon”, Ph.D. dissertation, University of Pennsylvania.

[21] Lam Do B., Huong Le T. (2008), “Implementing A Vietnamese Syntac- tic Parser Using HPSG”, The International Conference on Asian Language Processing (IALP), pp. 12-14, Chiang Mai, Thailand.

[22] Le-Hong P., T M H. Nguyen, and A. Roussanaly (2012), “Vietnamese pars- ing with an automatically extracted tree-adjoining grammar”, Proceedings of IEEE-RIVF International Conference, Ho Chi Minh City, Vietnam. [23] L. Banarescu, C. Bonial, S. Cai, M. Georgescu, K. Griffitt, U. Hermjakob,

K. Knight, P. Koehn, M. Palmer, N. Schneider (2013), “Abstract Meaning Representation for Sembanking”, Proc. Linguistic Annotation Workshop. [24] M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz (1993), “Building

a large annotated corpus of english: The penn treebank”, Computational Linguistics, vol. 19, no. 2, pp. 313–330.

[25] Patrick Blackburn and Johan Bos (2003), Computational semantics, Theo- ria, (18): 27–45.

[26] P. Boullier (1999), “On TAG parsing”, Proc. TALN 99, 6e Conf. Annuelle sur le Traitement Automatique des Langues Naturelles 1, pp. 75–84.

[27] P. Boullier (1999), “On TAG and multi-component TAG parsing”, INRIA Research Report 3668.

[28] P. K. M. Palmer and D. Gildea (2005), “The proposition bank: An annotated corpus of semantic roles”, Journal Computational Linguistics archive, vol. 31, no. 1, pp. 71–106.

[29] Richard Montague, “The proper treatment of quantification in ordinary En- glish” (1974), In Richmond Thomason, editor, Formal Philosophy: Selected Papers of Richard Montague, pp. 247–270, Yale Univ.Press, New Haven. [30] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, and

Xuan Luong Vu (2004), “Developping tools and building linguistic re- sources for Vietnamese morpho-syntactic processing”, In Proceedings of the Fourth International Conference on Language Resources and Evaluation, pp. 1231–1234, Lisbon, Portugal.

[31] T. Lichte (2007), “An MCTAG with tuples for coherent constructions in German”, Proc. 12th Conf. on Formal Grammar 2007 1, 1–12.

[32] T. M. H. Nguyen, L. Romary, M. Rossignol, and X. L. Vu (2006), “A lexicon for Vietnamese language processing”, Language Resources and Evaluation, vol. 40, no. 3-4, pp. 291–309.

[33] XTAG-Research-Group (2001), “A lexicalized tree adjoining grammar for English”, Technical report, Institute for Research in Cognitive Science, Uni- versity of Pennsylvania.

[34] Yannick Parmentier, Timm Lichte, Laura Kallmeyer, Johannes Dellert, and Wolfgang Maier (2008), “TuLiPA: A syntax-semantics parsing environment for mildly context-sensitive formalisms”,In 9th workshop on Tree-Adjoining Grammar and related formalisms (TAG+ 9), pp. 121–128.

Website [35] https://en.wikipedia.org/wiki/Lambda_calculus [36] https://framenet.icsi.berkeley.edu/fndrupal/about [37] http://www.loria.fr/ azim/LLP2/help/fr/index.html

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa (Trang 64 - 71)

Tải bản đầy đủ (PDF)

(71 trang)