1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu tích hợp thành phần ngữ nghia vào văn phạm TAG cho tiếng việt

13 301 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – Năm 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN VĂN HƢNG NGHIÊN CỨU TÍCH HỢP THÀNH PHẦN NGỮ NGHĨA VÀO VĂN PHẠM TAG CHO TIẾNG VIỆT Chuyên ngành: Cơ sơ toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ MINH HUYỀN Hà Nội – Năm 2014 Lời cảm ơn Trong trình thực luận văn suốt trình học lớp cao học Cơ sở toán học cho tin học, em nhận bảo, hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên khoa Toán- Cơ- Tin học, trường đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội tận tình dạy dỗ giúp đỡ em suốt trình học tập Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu, thực đặc biệt việc chưa có hiểu biết hệ thống ngữ pháp, ngữ nghĩa nên luận văn chắn nhiều hạn chế, thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2014 Học viên Nguyễn Văn Hưng MỤC LỤC MỞ ĐẦU Chƣơng 1- KIẾN THỨC CƠ SỞ 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG 1.1.2 Định nghĩa hình thức văn phạm TAG 1.1.3 Các thao tác văn phạm TAG 1.1.4 Cây dẫn xuất văn phạm kết nối Error! Bookmark not defined 1.1.5 Cấu trúc đặc trưng TAG Error! Bookmark not defined 1.2 Phân tích cú pháp tiếng Việt Error! Bookmark not defined 1.2.1 Danh ngữ Error! Bookmark not defined 1.2.2 Động từ Error! Bookmark not defined 1.2.3 Tính từ Error! Bookmark not defined 1.3 Biểu diễn ngữ nghĩa logic vị từ cấp Error! Bookmark not defined 1.3.1 Biểu diễn ngữ nghĩa Error! Bookmark not defined 1.3.2 Phân tích cú pháp biểu diễn ngữ nghĩa Error! Bookmark not defined 1.3.3 Kết hợp tính toán lambda biểu diễn ngữ nghĩa Error! Bookmark not defined Chƣơng 2- TÍCH HỢP NGỮ NGHĨA CHO VĂN PHẠM TAG Error! Bookmark not defined 2.1 Giới thiệu Error! Bookmark not defined 2.2 Giao diện cú pháp/ngữ nghĩa dựa phép hợp với TAG Error! Bookmark not defined 2.3 Văn phạm siêu văn phạm: khai thác thành phần thông tin chung Error! Bookmark not defined 2.4 Cây phân tích xây dựng ngữ nghĩa Error! Bookmark not defined 2.5 Rừng dẫn xuất, từ vựng ngữ nghĩa xây dựng ngữ nghĩa Error! Bookmark not defined Chƣơng 3- XÂY DỰNG VĂN PHẠM TAG CÓ TÍCH HỢP NGỮ NGHĨA CHO TIẾNG VIỆT Error! Bookmark not defined 3.1 Công cụ TULIPA XMG Error! Bookmark not defined 3.2 Dữ liệu đầu vào Error! Bookmark not defined 3.3 Thực nghiệm Error! Bookmark not defined KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Error! Bookmark not defined DANH MỤC CÁC HÌNH Hình 1.1: Mô tả phụ trợ Hình 1.2: Cây phụ trợ Hình 1.3: Cây khởi tạo Hình 1.4 Mô tả phép nối .8 Hình 1.5: Phép nối Hình 1.6: Mô tả phép Error! Bookmark not defined Hình 1.7: Phép Error! Bookmark not defined Hình 1.8: Cây dẫn xuất CFG Error! Bookmark not defined Hình 1.9: Cây dẫn TAG Error! Bookmark not defined Hình 1.10: Cây dẫn xuất Error! Bookmark not defined Hình 1.11: Cấu trúc đặc trưng với phép nối Error! Bookmark not defined Hình 1.12: Cấu trúc đặc trưng với phép Error! Bookmark not defined Hình 2.1- Mô tả ngữ nghĩa câu John loves Mary Error! Bookmark not defined Hình 2.2 Các sở TAG bao gồm ngữ nghĩa Error! Bookmark not defined Hình 2.3 Cây dẫn xuất TAG bao gồm ngữ nghĩa Error! Bookmark not defined Hình 2.4 Cây dẫn xuất cho câu Jean court (Jean chạy) Error! Bookmark not defined Hình 3.1:Kết phân tích cú pháp/ngữ nghĩa câu “An thích Bình” Error! Bookmark not defined Hình 3.2:Kết phân tích cú pháp/ngữ nghĩa câu “Một gió bất ngờ đến” Error! Bookmark not defined MỞ ĐẦU Để máy tính hiểu xử lý ngôn ngữ người toán khó ngành khoa học máy tính Lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing – NLP) đời nhằm giải vấn đề Các toán ứng dụng bật lĩnh vực xử lý ngôn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng giọng nói, dịch tự động, tìm kiếm thông tin, … thu nhiều thành tựu định Các bước để xử lý ngôn ngữ tự nhiên gồm: phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, phân tích ngữ dụng Trong phân tích ngữ nghĩa bước xử lý khó khăn liên quan đến việc hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Bài toán biểu diễn ngữ nghĩa ngôn ngữ tự nhiên nhà khoa học giới nghiên cứu từ nhiều thập kỷ trước, phải kể đến công trình Montague (1974) ngữ nghĩa hình thức, quy tắc ngữ pháp kết hợp đồng thời với quy tắc ngữ nghĩa để xây dựng không cú pháp mà hạng thức lambda biểu diễn nghĩa thành phần cú pháp Cho đến nhà khoa học có nhiều bước tiến quan trọng việc xây dựng mô hình để biểu diễn tính toán ngữ nghĩa phần văn bản, từ cấp độ từ vựng tới cấp độ ngữ, cấp độ câu rộng cấp văn Các công trình nghiên cứu xử lý ngôn ngữ tự nhiên cho tiếng Việt năm gần đạt nhiều thành định Tuy nhiên phần lớn tập trung vào toán phân tích từ vựng, phân tích cú pháp Với kết đạt xử lí từ vựng cú pháp, lúc cần đầu tư cho nghiên cứu xử lí ngữ nghĩa tiếng Việt Luận văntập trung nghiên cứu tích hợp thành phần ngữ nghĩa vào văn phạm TAG cho tiếng Việt Cấu trúc luận văn trình bày sau:  Chƣơng 1: Kiến thức sở: Trong chương này, luận văn giới thiệu kiến thức sở phục vụ cho công việc tích hợp thành phần ngữ nghĩa văn phạm TAG, phân tích cú pháp tiếng việt, biểu diễn ngữ nghĩa logicvị từ cấp  Chƣơng 2: Tích hợp ngữ nghĩa vào văn phạm TAG: Chương nghiên cứu phương pháp xây dựng ngữ nghĩa vào văn phạm TAG  Chƣơng 3: Xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt: Chương nghiên cứu sử dụng công cụ TULIPA để tích hợp thành phần ngữ nghĩa vào văn phạm TAG, xây dựng văn phạm TAG có thành phần ngữ nghĩa cho tiếng Việt đưa kết thực nghiệm số câu tiếng Việt cụ thể  Kết luận: Phần tóm tắt lại nội dung luận văn đưa hướng phát triển luận văn Chƣơng 1- KIẾN THỨC CƠ SỞ Chương diễn giải kiến thức cần thiết cho việc xử lý ngữ nghĩa Các kiến thức sở bao gồm: văn phạm kết nối TAG, phân tích cú pháp tiếng Việt thảo luận phương pháp biểu diễn ngữ nghĩa logicvị từ cấp 1.1 Văn phạm kết nối TAG 1.1.1 Giới thiệu TAG Văn phạm kết nối (Tree Adjoining Grammar-TAG[4]) đưa Joshi, Levy Takahashi (1975), Joshi (1985) TAG thao tác với đối tượng đối tượng có cấu trúc (cây) xâu Việc sử dụng đối tượng có cấu trúc cho phép xây dựng hệ hình thức có khả sinh mạnh tức cho phép sinh mô tả cấu trúc Các hệ hình thức thích hợp với mô tả ngôn ngữ học hệ hình thức có khả sinh yếu, tức sinh tập xâu Cây biểu diễn cấu trúc tương ứng với đơn vị ngôn ngữ học Có hai loại bản: o Cây khởi tạo: tương ứng với cấu trúc gồm thành phần bắt buộc câu o Cây phụ trợ: tương ứng với cấu trúc cho phép thêm vào thành phần phụ câu 1.1.2 Định nghĩa hình thức văn phạm TAG Văn phạm TAG năm (∑, N, I, A, S) đó: - ∑: tập ký hiệu kết thúc (bảng chữ chính) - N: tập ký hiệu không kết thúc (bảng chữ phụ) - I: tập “khởi tạo” (initial trees) - A: tập “phụ trợ” (auxiliary trees) - S: tiên đề, S  N Cây văn phạm mà nút đánh dấu ký hiệu (kết thúc không kết thúc) Cây phụ trợ: có chứa nút trùng tên (cùng phân loại) với nút gốc, nút ký hiệu với dấu * bên cạnh gọi nút chân phụ trợ (xem Hình 1.1) Ví dụ phụ trợ (xem Hình 1.2): Ví dụ khởi tạo (xem Hình 1.3): 1.1.3 Các thao tác văn phạm TAG Thao tác văn phạm TAG gồm: phép nối (adjoining) phép (substitution) a Phép nối Phép nối mô tả hình vẽ sau (xem Hình 1.4): Ví dụ (xem Hình 1.5): Các ràng buộc phép nối: - Với nút thực tối đa phép nối - Phép nối thao tác bắt buộc - Các nút chân nút cấm thực phép nối - Ngoài nút chân, thêm ký hiệu NA cho nút cấm mà phép nối bị cấm TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hữu Đạt- Trần Trí Dõi- Đào Thanh Lan Cơ sở tiếng Việt NXB Giáo dục, 1998 [2] Diệp Quang Ban Ngữ pháp Tiếng Việt NXB Giáo Dục, 2004 [3] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà Trích rút tự động văn phạm TAG cho tiếng Việt Tin học Điều khiển học, 26(2):153–171, 2010 http://mim.hus.vnu.edu.vn/phuonglh/pubs/vnltag.pdf Tiếng Anh [4] Aravind K Joshi and Yves Schabes Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars Springer-Verlag, 1997 [5] A Burchardt, S Walter, A Koller, M Kohlhase, P Blackburn and J Bos, Computational Semantics, tài liệu giảng dạy dự án MiLCA đại học Bonn,Gießen, Osnabr ̈uck, Saarbr ̈ucken und T ̈ubingen, Germany, 2002 [6] P Blackburn, J Bos, Representation and Inference for Natural Language A FirstCourse in Computational Semantics, CSLI Publications, 2005 [7] Duchier, D., Le Roux, J., Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique (2004) [8] Frank, A., van Genabith, J.: GlueTag Linear Logic based Semantics for LTAG In Butt, M., King, T.H., eds.: Proceedings of the LFG01 Conference, Hong Kong(2001) [9] Kallmeyer, L.: Using an Enriched TAG Derivation Structure as Basis for Semantics In: Proceedings of TAG+6 Workshop, Venice (2002) 127 – 136 [10] Copestake, A., Lascarides, A., Flickinger, D.: An algebra for semantic constructionin constraint-based grammars In: Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, Toulouse, France (2001) [11] Gardent, C., Kallmeyer, L.: Semantic construction in ftag In: Proceedings of the 10th meeting of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary (2003) [12] Duchier, D., Le Roux, J., Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique (2004) [13] Shieber, S.: An Introduction to Unification-based Approaches to Grammar CSLILecture Notes (1986) [14] Crabb ́e, B., Duchier, D.: Metagrammar redux In: International Workshop on Constraint Solving and Language Processing - CSLP 2004, Copenhagen (2004) 10 [15] Crabb ́e, B.: Grammatical development with XMG Submitted to LACL05 (2005) [16] Kallmeyer, L., Romero, M.: Ltag semantics with semantic unification In: Proceedings of the 7th International Workshop on Tree Adjoining Grammar and Related Formalisms, Vancouver, BC, Canada (2004) 155–162 [17] Schiehlen, M.: Semantic construction from parse forests In: Proceedings of the 16th International Conference on Computational Linguistics, Copenhagen (1996) [18] Alonso, M.A., Villemonte de la Clergerie, E., Diaz, V.J., Vilares, M.: In: Relating Tabular Parsing Algorithms for LIG and TAG Kluwer Academic Publishers (2002)to appear, revised notes of a paper for IWPT2000 [19] Vũ Xuân Lương and Nguyễn Thị Minh Huyền Building a Vietnamese computational lexicon In Proceedings of the National Symposium on Research, Development and Application of Informationand Communication Technology, pages 283–292, Hanoi, Vietnam, 2008 11 [...]... nối - Ngoài các nút chân, thêm ký hiệu NA cho nút cấm mà ở đó phép nối bị cấm 9 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hữu Đạt- Trần Trí Dõi- Đào Thanh Lan Cơ sở tiếng Việt NXB Giáo dục, 1998 [2] Diệp Quang Ban Ngữ pháp Tiếng Việt NXB Giáo Dục, 2004 [3] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà Trích rút tự động văn phạm TAG cho tiếng Việt Tin học và Điều khiển học, 26(2):153–171,... Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique (2004) [8] Frank, A., van Genabith, J.: GlueTag Linear Logic based Semantics for LTAG In Butt, M., King, T.H., eds.: Proceedings of the LFG01 Conference, Hong Kong(2001) [9] Kallmeyer, L.: Using an Enriched TAG Derivation Structure... Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, and Phan Thị Hà Trích rút tự động văn phạm TAG cho tiếng Việt Tin học và Điều khiển học, 26(2):153–171, 2010 http://mim.hus.vnu.edu.vn/phuonglh/pubs/vnltag.pdf Tiếng Anh [4] Aravind K Joshi and Yves Schabes Handbooks of Formal Languages and Automata, chapter Tree Adjoining Grammars Springer-Verlag, 1997 [5] A Burchardt, S Walter, A Koller, M Kohlhase, P Blackburn... Basis for Semantics In: Proceedings of TAG+ 6 Workshop, Venice (2002) 127 – 136 [10] Copestake, A., Lascarides, A., Flickinger, D.: An algebra for semantic constructionin constraint-based grammars In: Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, Toulouse, France (2001) [11] Gardent, C., Kallmeyer, L.: Semantic construction in ftag In: Proceedings of the 10th meeting... [12] Duchier, D., Le Roux, J., Parmentier, Y.: The metagrammar compiler : An nlp application with a multi-paradigm architecture In: Second International Mozart/Oz Conference - MOZ 2004, Charleroi, Belgique (2004) [13] Shieber, S.: An Introduction to Unification-based Approaches to Grammar CSLILecture Notes (1986) [14] Crabb ́e, B., Duchier, D.: Metagrammar redux In: International Workshop on Constraint... Workshop on Constraint Solving and Language Processing - CSLP 2004, Copenhagen (2004) 10 [15] Crabb ́e, B.: Grammatical development with XMG Submitted to LACL05 (2005) [16] Kallmeyer, L., Romero, M.: Ltag semantics with semantic unification In: Proceedings of the 7th International Workshop on Tree Adjoining Grammar and Related Formalisms, Vancouver, BC, Canada (2004) 155–162 [17] Schiehlen, M.: Semantic... International Conference on Computational Linguistics, Copenhagen (1996) [18] Alonso, M.A., Villemonte de la Clergerie, E., Diaz, V.J., Vilares, M.: 1 In: Relating Tabular Parsing Algorithms for LIG and TAG Kluwer Academic Publishers (2002)to appear, revised notes of a paper for IWPT2000 [19] Vũ Xuân Lương and Nguyễn Thị Minh Huyền Building a Vietnamese computational lexicon In Proceedings of the National

Ngày đăng: 09/09/2016, 23:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w