Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
2,83 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - VŨ THỊ HƯƠNG LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - VŨ THỊ HƯƠNG LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – Năm 2014 MỤC LỤC LỜI CẢM ƠN GIỚI THIỆU CHƯƠNG CƠ SỞ TOÁN HỌC 10 1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT 10 1.1.1 Các khái niệm 10 1.1.2 Các khái niệm ngữ nghĩa 11 1.1.3 Phép hợp (Unification) 12 1.2 TÍNH TOÁN LAMBDA 14 1.2.1 Cú pháp tính toán lambda 15 1.2.2 Biến tự biến ràng buộc 16 1.2.3 Các phép biến đổi 17 CHƯƠNG LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN 21 2.1 CÁC THÀNH PHẦN CƠ BẢN CỦA DRT 21 2.1.1 Tổng quan DRT 21 2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn 24 2.2 NGÔN NGỮ DRS CƠ BẢN VÀ BIỂU DIỄN 27 2.2.1 Ngôn ngữ DRS mở rộng bậc 27 2.2.2 Ngữ nghĩa chủ đích, mệnh đề, trạng thái thông tin khả thay đổi ngữ cảnh 32 2.2.3 Các lượng từ 40 2.2.4 Số nhiều 41 2.2.5 Thời thể 45 2.3 TIỀN GIẢ ĐỊNH (PRESUPPOSITION) 49 2.3.1 Ý nghĩa tiền giả định 49 2.3.2 Một ví dụ 50 CHƯƠNG BIỂU DIỄN DIỄN NGÔN VỚI THAM CHIẾU THỜI GIAN TRONG TIẾNG VIỆT 55 3.1 ĐỊNH VỊ THỜI GIAN 55 3.1.1 Biểu diễn thời gian mối quan hệ với không gian 55 3.1.2 Định vị thời gian 58 3.2 YẾU TỐ THỜI TRONG TIẾNG VIỆT 69 3.2.1 Các quan niệm thời tiếng Việt 69 3.2.2 Cách diễn đạt ý nghĩa thời tiếng Việt 70 3.3 DẤU HIỆU TỪ VỰNG ĐỂ NHẬN BIẾT THỜI TRONG TIẾNG VIỆT 73 KẾT LUẬN 79 TÀI LIỆU THAM KHẢO 80 DANH MỤC HÌNH VẼ Hình 1: Cây cú pháp biểu thức lambda 16 Hình 2: Phân tích cú pháp kết hợp tính toán lambda câu (2) 20 Hình 3: Thời gian biểu diễn theo định hướng không gian 55 Hình 4: Định vị thời gian với ẩm dụ người quan sát đứng yên 56 Hình 5: Định vị thời gian với ẩm dụ người quan sát chuyển động 56 DANH MỤC TỪ VIẾT TẮT Cụm từ đầy đủ Cụm từ viết tắt BV Bound variables CCG Combinatory Categorial Grammar CCP Context change potential DRT Discourse representation theory DRS Discourse representation structure EKAW Knowledge Engineering and Knowledge Management FV Free variables NP Noun phrase LỜI CẢM ƠN Đầu tiên em xin gửi lời cảm ơn chân thành sâu sắc tới TS Nguyễn Thị Minh Huyền bảo, hướng dẫn tận tâm cho em suốt trình thực luận văn Việc hoàn thành luận văn không kể tới hỗ trợ tạo điều kiện Viện Công nghệ thông tin, Viện Khoa học Công nghệ quân sự, Bộ Quốc Phòng quan công tác Tôi xin trân trọng gửi lời cảm ơn tới thủ trưởng, đồng nghiệp, đồng chí Bên cạnh đó, em xin cảm ơn thầy cô, cán nhân viên Bộ môn Tin học nói riêng khoa Toán – Cơ – Tin học, trường Đại học Khoa học Tự nhiên nói chung tận tình dạy dỗ giúp đỡ em từ em sinh viên trường đến năm em trở lại học tập, nghiên cứu khoa với cương vị học viên cao học Tôi xin cảm ơn gia đình, bạn bè tất người quan tâm, tạo điều kiện, động viên cổ vũ để hoàn thành nhiệm vụ Luận văn không tránh khỏi thiếu sót hạn chế thời gian thực hiểu biết thật hệ thống ngữ pháp, ngữ nghĩa tiếng Việt Tôi mong nhận ý kiến đóng góp thầy cô bạn Hà Nội, tháng 11 năm 2014 Học viên Vũ Thị Hương GIỚI THIỆU Sự chi phối ngữ cảnh ngôn ngữ tự nhiên tượng thiên biến vạn hóa vô phức tạp, khiến nhiều nhà ngôn ngữ ngữ nghĩa dày công nghiên cứu Trước đây, quan niệm ngữ nghĩa tắc coi lý thuyết ngữ nghĩa mối quan tâm bản, khái niệm trọng tâm thông tin thật, ý nghĩa câu điều kiện thật mà khả thay đổi thông tin Khi nhà nghiên cứu trọng vào phụ thuộc ngữ cảnh ngôn ngữ mô thức xử lý toán ngữ nghĩa có thay đổi lớn, lý thuyết ngữ nghĩa động thiết kế đặc thù để làm việc với mối tương quan phát ngôn ngữ cảnh phản ánh thay đổi Tuy nhiên, quan hệ thông tin thật có vị trí tối quan trọng thành phần định tất lý thuyết động Trong hai thập kỷ gần đây, lý thuyết ngữ nghĩa động phát triển mạnh mẽ, xoay quanh vấn đề cốt lõi mô tả phụ thuộc ngữ cảnh vào ngữ nghĩa [10] Đó đặc tính có ngôn ngữ tự nhiên tương tác có tính đối ứng Ta kể đến vài lý thuyết ngữ nghĩa động như: - Năm 1991 Groenendijk Stokhof đưa văn phạm Montague động dựa vào logic vị từ - Năm 1991 Chierchia nghiên cứu mối liên kết động tượng thay đại từ - Năm 1996 Kohlhase đưa lý thuyết tính toán ngữ nghĩa dựa vào tính toán lambda - Năm 1997 Eijck Kamp đề xuất cách biểu diễn diễn ngôn ngữ cảnh có Các công cụ biểu diễn ngữ nghĩa động phát triển rộng rãi như: - Named Entity Recognition (Nhận biết tên thực thể): Công cụ xác định cụm từ văn biểu diễn tên người, cụm từ biểu diễn vị trí hay tổ chức,… - Wikifier: Công cụ xác định thực thể khái niệm quan trọng văn bản, xử lý tượng mập mờ nghĩa liên kết tới trang Wikipedia - Context-Sensitive Spelling Correction (Sửa lỗi từ dựa vào ngữ cảnh): Công cụ tìm gợi ý cách sửa cho lỗi sai nghĩa - Co-reference Resolution (Giải đồng tham chiếu): Một thực thể nhắc đến văn theo nhiều cách khác Công cụ phát cụm từ thể thực thể - Context Sensitive Verb Paraphrasing (Chú thích động từ dựa ngữ cảnh): Công cụ phân loại xem xét động từ v ngữ cảnh với động từ ứng viên u, đồng thời xác định ngữ cảnh cho u thay cho v để giữ nguyên ý nghĩa văn không Chúng ta tham khảo minh họa trực tuyến công cụ trang http://cogcomp.cs.illinois.edu/page/demos/ Lý thuyết biểu diễn diễn ngôn (DRT: Discourse Representation Theory) nằm phạm vi ngữ nghĩa động, khác biệt chỗ vai trò bật thật phát ngôn Một công cụ tiêu biểu dựa DRT Boxer Johan Bos phát triển Với đầu vào CCG (Combinatory Categorial Grammar: văn phạm danh mục kết nối), Boxer cho cấu trúc biểu diễn diễn ngôn (tham khảo minh họa http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo) Một công trình khác Valentina Presutti, Francesco Draicchio Aldo Gangemi công bố hội thảo quốc tế EKAW 2012 đưa phương pháp kết hợp DRT với mẫu thể học để trích xuất tri thức [13] Luận văn nghiên cứu DRT với mục đích tạo tiền đề lý thuyết cho ứng dụng biểu diễn diễn ngôn tiếng Việt Cấu trúc luận văn gồm ba phần: Chương trình bày sở toán học sử dụng cho chương sau, bao gồm logic vị từ cấp một, tính toán lambda phép toán hợp xử lý ngôn ngữ Đây công cụ để biểu diễn tính toán ngữ nghĩa Chương hai trình bày lý thuyết biểu diễn diễn ngôn Phần đầu chương giới thiệu cách xây dựng cấu trúc biểu diễn diễn ngôn phương tiện để biểu diễn diễn ngôn cách thể yếu tố cú pháp cấu trúc Mô hình tiền giả định trình bày phần sau Các kết luận ví dụ minh họa áp dụng cho tiếng Anh Chương ba khảo sát cách định vị thời gian phương thức thể yếu tố thời phát ngôn tiếng Việt Từ có nhận xét cách chọn thời gian tham chiếu phù hợp thể trọn vẹn yếu tố thời biểu diễn diễn ngôn tiếng Việt CHƯƠNG CƠ SỞ TOÁN HỌC Chương nhắc lại sở toán học sử dụng chương luận văn, bao gồm logic vị từ tính toán lambda 1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT 1.1.1 Các khái niệm Nội dung phần có tham khảo tài liệu tác giả Đỗ Đức Giáo [2] Để tiện theo dõi, luận văn không trình bày lại khái niệm sở mà nhắc lại thuật ngữ Ta xét câu tiếng Anh sau: (1) If Pedro owns a donkey, he likes it Phân tích cú pháp câu ta được: - Trong mệnh đề thứ nhất: Chủ ngữ danh từ riêng “Pedro”, vị ngữ ngoại động từ “own” với bổ ngữ “donkey” Ta có biểu diễn dạng vị từ đối: own(Pedro,donkey) Vì “donkey” chưa xác định nên ta kí hiệu x, ta có: donkey(x) - Tương tự mệnh đề thứ hai biểu diễn thành: like(Pedro, x) Ta kí hiệu danh từ riêng Pedro a Thay “donkey”, “own” “like” thành vị từ P, Q, R ta biểu diễn ngữ nghĩa câu công thức logic vị từ cấp sau: Trong công thức ta có: - a x biến Biến x bị ràng buộc phạm vi lượng từ , biến khác (nếu có) biến tự - x, a P(x), Q(x), , công thức con) hạng tử 10 ,… (các TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt (1) Nguyễn Đức Dân (1996), Nhận diện thời gian tiếng Việt, Tạp chí Ngôn ngữ số 3, Viện Ngôn ngữ học (2) Đỗ Đức Giáo (2008), Toán rời rạc, Nhà xuất Giáo dục (3) Nguyễn Văn Hán (2012), Định vị thời gian tiếng Việt góc nhìn ngôn ngữ học tri nhận (so sánh với tiếng Anh), Luận án tiến sĩ Ngôn ngữ học, Trường Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia Thành phố Hồ Chí Minh (4) Cao Xuân Hạo (1998), Về ý nghĩa “thì” “thể” tiếng Việt, Tạp chí Ngôn ngữ số 5, Viện Ngôn ngữ học (5) Vũ Thị Ngân (2003), Phạm trù thời thể tiếng Pháp tiếng Việt, Đề tài cấp Đại học Quốc gia Hà Nội, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội (6) Nguyễn Minh Thuyết (1998), Thành phần câu tiếng Việt, Nhà xuất Đại học Quốc gia Hà Nội Tài liệu tiếng Anh (7) A Burchardt, S Walter, A Koller, M Kohlhase, P Blackburn, J Bos (2002), Computational Semantics, MiLCA, Department of Computerlinguistic, Saarlandes Saarbrucken University, Germany 80 (8) A Martelli, U Montanari (1982), An Efficient Unification Algorithm, Journal: ACM Transactions on Programming Languages and Systems, New York, USA (9) F Baader, W Snyder (2001), Unification Theory, Elsevier Science Publishers (10) H Kamp, Josef van Genabith, Uwe Reyle (2011), Discourse Representation Theory, An Updated Survey In: D Gabbay (ed.), Handbook of Philosophical Logic, 2nd ed., Vol XV (11) K von Fintel, Irene Heim (2011), Intensional Semantics, MIT Spring (12) P Selinger (2007), Lecture Notes on the Lambda Calculus, Department of Mathematics and Statistics, Dalhousie University, Halifax, Canada (13) V Presutti, Francesco Draicchio, Aldo Gangemi (2012), Knowledge extraction based on discourse representation theory and linguistic frames, EKAW'12 Proceedings of the 18th international conference on Knowledge Engineering and Knowledge Management, Springer-Verlag Berlin, Heidelberg 81 [...]... vị ngữ là ngoại động từ “own” với bổ ngữ “donkey” Ta có biểu diễn dưới dạng vị từ 2 đối: own(Pedro,donkey) Vì “donkey” chưa xác định nên ta kí hiệu là x, ta có: donkey(x) - Tương tự mệnh đề thứ hai được biểu diễn thành: like(Pedro, x) Ta kí hiệu danh từ riêng Pedro là a Thay “donkey”, “own” và “like” lần lượt thành các vị từ P, Q, R ta được biểu diễn ngữ nghĩa của câu trên bằng công thức logic vị từ... tiếng Việt (1) Nguyễn Đức Dân (1996), Nhận diện thời gian trong tiếng Việt, Tạp chí Ngôn ngữ số 3, Viện Ngôn ngữ học (2) Đỗ Đức Giáo (2008), Toán rời rạc, Nhà xuất bản Giáo dục (3) Nguyễn Văn Hán (2012), Định vị thời gian trong tiếng Việt dưới góc nhìn của ngôn ngữ học tri nhận (so sánh với tiếng Anh), Luận án tiến sĩ Ngôn ngữ học, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Thành phố... Thành phố Hồ Chí Minh (4) Cao Xuân Hạo (1998), Về ý nghĩa “thì” và “thể” trong tiếng Việt, Tạp chí Ngôn ngữ số 5, Viện Ngôn ngữ học (5) Vũ Thị Ngân (2003), Phạm trù thời thể tiếng Pháp và tiếng Việt, Đề tài cấp Đại học Quốc gia Hà Nội, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội (6) Nguyễn Minh Thuyết (1998), Thành phần câu tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội Tài liệu tiếng Anh (7)