Xây dựng từ điển mở rộng dựa trên VCL cho hệ hình thức F-LTAG

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa (Trang 60)

F-LTAG

Dựa trên một số nghiên cứu trình bày trong các chương trước, luận văn tiến hành bổ sung thông tin cú pháp - ngữ nghĩa cho từ điển VCL, hướng tới một bộ từ điển mở rộng gồm các mẩu cây XMG với ba thành phần: Phần thứ nhất chứa mơ tả hình thái và các đặc trưng của từng đơn vị từ vựng. Phần thứ hai bao gồm các mẩu cây XMG và cách thức kết hợp chúng để hình thành các họ

(SNpVpVNpTree) S NP↓[idx:i] NP[idx:x] P Nó l0:Nó(x) (NpPTree) VP V[cateV=transitive] đọc l1:đọc(i, j) NP↓[idx=j] NP[idx=y] N sách l2:sách(y)

Hình 4.1: Xây dựng biểu diễn ngữ nghĩa của câu “Nó đọc sách”

cây (cây cú pháp) cùng với biểu diễn ngữ nghĩa (công thứcLU) tương ứng. Phần thứ ba chứa thông tin về việc kết nối mỗi mục từ với các họ cây (mà từ đó có thể làm từ neo) và quan hệ logic của từ trong câu. Trong đó, một từ nhiều nghĩa có thể được gán với nhiều họ cây và các biểu diễn ngữ nghĩa khác nhau.

Thơng tin hình thái của mỗi từ trong từ điển mở rộng có thể được trích rút tự động dựa trên từ điển VCL. Để tiến hành xây dựng các họ cây cùng với biểu diễn ngữ nghĩa tương ứng, trước hết, chúng ta cần xây dựng tất cả các họ cây cho các cấu trúc vị ngữ động từ trong VCL. Bên cạnh đó, dựa trên một số nghiên cứu trình bày trong phần 4.1, các cấu trúc danh ngữ, tính ngữ, bổ nghĩa, các ràng buộc trong thông tin của mỗi từ và trên các nút trong cây cú pháp cũng cần được bổ sung cho phép sinh ra các cấu trúc hợp lệ.

Ví dụ: Các mơ tả cho phân tích cú pháp - ngữ nghĩa của câu “Nó đọc sách”: • Thơng tin hình thái:

Nó[pos = p;] đọc[pos = v; cateV = transitive;] sách[pos = n;] • Thơng tin từ vựng:

– Mục từ “Nó” có thể là từ neo trong họ cây NpPTree – Mục từ “sách” được gắn với họ câyNpNTree

– Mục từ “đọc” được gắn với họ cây SNpVpVNpTree với mô tả ngữ nghĩa hai đối số

NpDNp NP D những NP*[ctable=+] + NpNTree NP[ctable=-] N mèo ; NpDNpNTree NP D những NP[ctable=+][ctable=-] N mèo NpNNpTree NP N con NP* + NpNTree NP[ctable=-] N mèo ⇒ NpNNpNTree NP N con NP[ctable=-] N mèo ⇒ NpDNpNNpNTree NP D những NP[ctable=+] N con NP[ctable=-] N mèo Hình 4.2: Ràng buộc trong cấu trúc danh ngữ

• Mơ tả của các họ cây cùng với biểu diễn ngữ nghĩa của nó được thể hiện trong hình 4.1

Sau quá trình dẫn xuất và hợp nhất đặc trưng trên các cây cơ bản, biểu diễn ngữ nghĩa bậc một của câu thu được như sau: and(Nó(x), đọc(x, y), sách(y)). Ràng buộc [cateV =transitive] trên cây cú pháp và trong thơng tin hình thái của từ vựng giúp chúng ta hạn chế chỉ cho phép kết nối các động từ ngoại động vào cấu trúc trên để hình thành câySN pV pV N pT ree. Ngồi ra, hình 4.2 là một ví dụ cho việc hạn chế khơng cho phép định từ đứng trước một danh từ khơng đếm được, cụ thể chúng ta có thể nói“những con mèo” mà khơng thể nói“những mèo”. Ví dụ về dữ liệu mẫu trong từ điển mở rộng được mơ tả trong hình 4.3.

4.3 Kết quả

Với sự hỗ trợ của công cụ XMG và TuLiPA, luận văn đã triển khai mở rộng từ điển VCL hướng tới xây dựng hệ thống phân tích cú pháp - ngữ nghĩa cho văn phạm TAG tiếng Việt. Một hệ thống như vậy cung cấp cho chúng ta đầu ra không chỉ là cấu trúc cú pháp mà cả các công thức logic biểu diễn ngữ nghĩa của câu, từ đó, chúng ta có thể thực hiện việc suy luận tri thức mới từ các câu

Hình 4.3: Dữ liệu mẫu trong từ điển mở rộng

ban đầu.

Hiện tại, số lượng mảnh cây của siêu văn phạm XMG đã xây dựng là 93 mảnh cây cho phép mô tả khoảng 212 cây cơ bản TAG, đồng thời, luận văn cũng xây dựng một chương trình bằng ngơn ngữ lập trình Java cho phép trích rút tự động thơng tin hình thái của tất cả các từ trong VCL và gán động từ với các họ cây tương ứng. Ngồi ra, các từ như danh từ, tính từ và các từ đóng vai trị bổ nghĩa được kết nối thủ công chúng với các cấu trúc cú pháp - ngữ nghĩa đã xây dựng. Sau tồn bộ q trình trên, kết quả đạt được như sau: Đã gán được khoảng 23 826 mục từ trong tổng số 44 812 mục từ của từ điển VCL với các cây cơ bản TAG và biểu diễn ngữ nghĩa logic của nó. Ngồi ra, mỗi mục từ trong VCL có thể gắn với nhiều họ cây khác nhau, do đó, từ điển mở rộng đã xây dựng chứa tổng số 28 027 mục từ. Bộ từ điển này có thể được sử dụng làm đầu vào của công cụ TuLiPA, cho phép sinh biểu diễn cú pháp - ngữ nghĩa của một số lượng lớn các câu trong tiếng Việt. Hình 4.4 thể hiện kết quả phân tích cú pháp - ngữ nghĩa của câu “họ đã hi sinh vì tổ quốc”. Trong đó, các cây cơ bản gắn với

Hình 4.4: Kết quả phân tích cú pháp - ngữ nghĩa của câu “họ đã hy sinh vì tổ quốc”

mỗi đơn vị từ vựng được hiển thị trong khung phía dưới, bên trái của hình vẽ. Cơng cụ TuLiPA cho phép sinh đầu ra gồm cả cây dẫn xuất và cây phân tích biểu diễn câu được đặt lần lượt trong hai khung tương ứng là “Derivation tree” và “Derived tree”. Biểu diễn ngữ nghĩa thu được cho câu đầu vào được thể hiện trong phần dưới cùng của công cụ.

Kết luận

Luận văn đã tìm hiểu và xây dựng một hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt, với những điểm quan trọng sau:

• Tìm hiểu bài tốn phân tích cú pháp - phân tích ngữ nghĩa, một trong những bài tốn quan trọng của lĩnh vực xử lí ngơn ngữ tự nhiên. Phân tích các kho ngữ liệu dùng cho phân tích cú pháp - ngữ nghĩa

• Tìm hiểu hệ văn phạm hình thức TAG, cách biểu diễn và tính tốn ngữ nghĩa bằng logic

• Giới thiệu một số cơng cụ phân tích cú pháp, ngữ nghĩa; dữ liệu cho phân tích cú pháp, ngữ nghĩa tiếng Việt

• Kết quả: Mở rộng từ điển tiếng Việt cho máy tính VCL với các thơng tin cú pháp - ngữ nghĩa, kết hợp với công cụ XMG và TuLiPA để xây dựng một hệ thống phân tích cú pháp - ngữ nghĩa tiếng Việt. Thực nghiệm đã tiến hành xây dựng khoảng 93 mảnh cây XMG cho phép biểu diễn trên 212 họ cây TAG, trích rút thơng tin hình thái các từ trong từ điển VCL và gán 28 027 mục từ với các họ cây đã xây dựng cho phép biểu diễn cú pháp - ngữ nghĩa một số lượng lớn các câu ngơn ngữ tự nhiên.

Khó khăn và vấn đề cần phát triển • Khó khăn: Từ điển VCL thiếu thông tin:

– VCL không bao gồm thông tin đối số của danh từ, tính từ và các cấu trúc đối số.

– Các thông tin ràng buộc và phân loại động từ, tính từ, danh từ, trạng từ phải xây dựng bằng tay → hiện tại, nhiều cấu trúc bổ nghĩa và ràng

buộc vẫn chưa được xem xét. • Hướng phát triển:

– Xây dựng bộ dữ liệu test gồm tập hợp các câu trong ngôn ngữ tiếng Việt để đánh giá hiệu quả của hệ thống.

– Nghiên cứu tích hợp các mảnh cây XMG đã trích rút tự động trong cơng trình [4] của một số tác giả trước đó vào hệ thống phân tích cú pháp - ngữ nghĩa.

Các cơng trình cơng bố liên quan đến luận văn

[1] Thi Huyen Nguyen, Minh Hai Nguyen, Thi Minh Huyen Nguyen and The Quyen Ngo (2016), “Towards a syntactically and semantically enriched lex- icon for Vietnamese processing”, The 12th IEEE RIVF International Con- ference on Computing and Communication Technologies, Hanoi, Vietnam.

Tài liệu tham khảo

Tài liệu tiếng Việt

[1] Đào Minh Thu, Đào Thị Minh Ngọc, Nguyễn Mai Vân, Lê Kim Ngân, Lê Thanh Hương, Nguyễn Phương Thái, Đỗ Bá Lâm (2009), Tập quy tắc cú pháp tiếng Việt, SP8.5 – Đề tài KC.01.01.05/06-10.

[2] Hoàng Phê (2002), Từ điển tiếng Việt, NXB Đà Nẵng, Việt Nam.

[3] H. M. Linh, N. T. Lương, N. V. Hùng, N. T. M. Huyền, L. H. Phương, P. T. Huê (2015), “Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt”, Hội thảo quốc gia lần thứ 17, Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, pp. 409–414, Hà Nội, Việt Nam.

[4] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà (2010), “Trích rút tự động văn phạm TAG cho tiếng Việt”. Tin học và Điều khiển học, 26(2), pp. 153-171.

[5] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), “Xây dựng treebank tiếng Việt”, Kỷ yếu hội thảo ICT.rd’08, Hà Nội.

[6] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt, NXB Đại học Quốc gia, Hà Nội, Việt Nam.

Tài liệu tiếng Anh

[7] Ann Copestake, Dan Flickinger (2000), “An open source grammar develop- ment environment and broadcoverage English grammar using HPSG”, In PROCEEDINGS OF LREC 2000, pp. 591–600.

[8] Aravind K. Joshi and Yves Schabes (1997),Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars, Springer-Verlag.

[9] Avanti M. Deshpande (2012), “A Survey: Structure of Machine Readable Dictionary”, International Journal of Engineering and Innovative Technol- ogy (IJEIT), vol. 1.

[10] Boullier, Pierre (2000), “Range concatenation grammars”, In Proceedings of the Sixth International Workshop on Parsing Technologies (IWPT 2000), pp. 53–64.

[11] B. Levin (1993), “English Verb Classes and Alternation: A Preliminary In- vestigation”, Chicago: The University of Chicago Press.

[12] Claire Gardent and Laura Kallmeyer (2003), “Semantic construction in Feature-Based TAG”, In Proceedings of the 10th Conference of the Euro- pean Chapter of the Association for Computational Linguistics, pp. 123–130, Budapest, Hungary.

[13] CLEAR (Computational Language and Education Research) (2012), “Verb- Net Annotation Guidelines”, University of Colorado, Boulder.

[14] C. F. Baker, C. J. Fillmore, and J. B.Lowe (1998), “The berkeley framenet project”, In Proceedings of COLING/ACL.

[15] Denys Duchier, Joseph Le Roux, and Yannick Parmentier (2004), “The metagrammar compiler: An NLP application with a multiparadigm archi- tecture”, In Proceedings of the 2nd International Mozart/Oz Conference (MOZ’2004), pp. 175–187, Charleroi, Belgium.

[16] E r ic Villem ont de la C lerger ie (2005), “DyALog: a tabular logic pro- gramming based environment for NLP”, In Proceedings of 2nd Interna- tional Workshop on Constraint Solving and Language Processing, pp. 18–33, Barcelona, Spain.

[17] Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria (2006), “Lexical Markup Framework”, Lexical Markup Framework ISOCD24613-revision-9, ISO Geneva.

[18] Hoang Anh Viet, Dinh Thi Phuong Thu, Huynh Quyet Thang (2007), “Viet- namese Parse Applying the PCFG model”, Proceedings of the Second Asia Pacific International Conference on Information Science and Technology, pp. 13-14.

[19] Johan Bos (1995), “Predicate logic unplugged”, In Proceedings of the tenth Amsterdam Colloquium, pp. 133–142, Amsterdam.

[20] K. K. Schuler (2006), “Verbnet: A broad-coverage, comprehensive verb lex- icon”, Ph.D. dissertation, University of Pennsylvania.

[21] Lam Do B., Huong Le T. (2008), “Implementing A Vietnamese Syntac- tic Parser Using HPSG”, The International Conference on Asian Language Processing (IALP), pp. 12-14, Chiang Mai, Thailand.

[22] Le-Hong P., T M H. Nguyen, and A. Roussanaly (2012), “Vietnamese pars- ing with an automatically extracted tree-adjoining grammar”, Proceedings of IEEE-RIVF International Conference, Ho Chi Minh City, Vietnam. [23] L. Banarescu, C. Bonial, S. Cai, M. Georgescu, K. Griffitt, U. Hermjakob,

K. Knight, P. Koehn, M. Palmer, N. Schneider (2013), “Abstract Meaning Representation for Sembanking”, Proc. Linguistic Annotation Workshop. [24] M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz (1993), “Building

a large annotated corpus of english: The penn treebank”, Computational Linguistics, vol. 19, no. 2, pp. 313–330.

[25] Patrick Blackburn and Johan Bos (2003), Computational semantics, Theo- ria, (18): 27–45.

[26] P. Boullier (1999), “On TAG parsing”, Proc. TALN 99, 6e Conf. Annuelle sur le Traitement Automatique des Langues Naturelles 1, pp. 75–84.

[27] P. Boullier (1999), “On TAG and multi-component TAG parsing”, INRIA Research Report 3668.

[28] P. K. M. Palmer and D. Gildea (2005), “The proposition bank: An annotated corpus of semantic roles”, Journal Computational Linguistics archive, vol. 31, no. 1, pp. 71–106.

[29] Richard Montague, “The proper treatment of quantification in ordinary En- glish” (1974), In Richmond Thomason, editor, Formal Philosophy: Selected Papers of Richard Montague, pp. 247–270, Yale Univ.Press, New Haven. [30] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, and

Xuan Luong Vu (2004), “Developping tools and building linguistic re- sources for Vietnamese morpho-syntactic processing”, In Proceedings of the Fourth International Conference on Language Resources and Evaluation, pp. 1231–1234, Lisbon, Portugal.

[31] T. Lichte (2007), “An MCTAG with tuples for coherent constructions in German”, Proc. 12th Conf. on Formal Grammar 2007 1, 1–12.

[32] T. M. H. Nguyen, L. Romary, M. Rossignol, and X. L. Vu (2006), “A lexicon for Vietnamese language processing”, Language Resources and Evaluation, vol. 40, no. 3-4, pp. 291–309.

[33] XTAG-Research-Group (2001), “A lexicalized tree adjoining grammar for English”, Technical report, Institute for Research in Cognitive Science, Uni- versity of Pennsylvania.

[34] Yannick Parmentier, Timm Lichte, Laura Kallmeyer, Johannes Dellert, and Wolfgang Maier (2008), “TuLiPA: A syntax-semantics parsing environment for mildly context-sensitive formalisms”,In 9th workshop on Tree-Adjoining Grammar and related formalisms (TAG+ 9), pp. 121–128.

Website [35] https://en.wikipedia.org/wiki/Lambda_calculus [36] https://framenet.icsi.berkeley.edu/fndrupal/about [37] http://www.loria.fr/ azim/LLP2/help/fr/index.html

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa (Trang 60)

Tải bản đầy đủ (PDF)

(71 trang)