1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lý thuyết biểu diễn diễn ngôn

13 97 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 2,83 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- VŨ THỊ HƯƠNG LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2014

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Nguyễn Thị Minh Huyền

Hà Nội – Năm 2014

Trang 3

2

MỤC LỤC

LỜI CẢM ƠN 5

GIỚI THIỆU 6

CHƯƠNG 1 CƠ SỞ TOÁN HỌC 10

1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT 10

1.1.1 Các khái niệm cơ bản 10

1.1.2 Các khái niệm ngữ nghĩa 11

1.1.3 Phép hợp nhất (Unification) 12

1.2 TÍNH TOÁN LAMBDA 14

1.2.1 Cú pháp của tính toán lambda 15

1.2.2 Biến tự do và biến ràng buộc 16

1.2.3 Các phép biến đổi 17

CHƯƠNG 2 LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN 21

2.1 CÁC THÀNH PHẦN CƠ BẢN CỦA DRT 21

2.1.1 Tổng quan về DRT 21

2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn 24

2.2 NGÔN NGỮ DRS CƠ BẢN VÀ BIỂU DIỄN 27

2.2.1 Ngôn ngữ DRS mở rộng bậc một 27

2.2.2 Ngữ nghĩa chủ đích, mệnh đề, trạng thái thông tin và khả năng thay đổi ngữ cảnh 32

2.2.3 Các lượng từ 40

2.2.4 Số nhiều 41

2.2.5 Thời và thể 45

2.3 TIỀN GIẢ ĐỊNH (PRESUPPOSITION) 49

Trang 4

3

2.3.1 Ý nghĩa của tiền giả định 49

2.3.2 Một ví dụ 50

CHƯƠNG 3 BIỂU DIỄN DIỄN NGÔN VỚI THAM CHIẾU THỜI GIAN TRONG TIẾNG VIỆT 55

3.1 ĐỊNH VỊ THỜI GIAN 55

3.1.1 Biểu diễn thời gian trong mối quan hệ với không gian 55

3.1.2 Định vị thời gian 58

3.2 YẾU TỐ THỜI TRONG TIẾNG VIỆT 69

3.2.1 Các quan niệm về thời trong tiếng Việt 69

3.2.2 Cách diễn đạt ý nghĩa thời trong tiếng Việt 70

3.3 DẤU HIỆU TỪ VỰNG ĐỂ NHẬN BIẾT THỜI TRONG TIẾNG VIỆT 73

KẾT LUẬN 79

TÀI LIỆU THAM KHẢO 80

DANH MỤC HÌNH VẼ Hình 1: Cây cú pháp của một biểu thức lambda. 16

Hình 2: Phân tích cú pháp kết hợp tính toán lambda của câu (2). 20

Hình 3: Thời gian được biểu diễn theo định hướng không gian. 55

Hình 4: Định vị thời gian với ẩm dụ người quan sát đứng yên 56

Hình 5: Định vị thời gian với ẩm dụ người quan sát chuyển động 56

DANH MỤC TỪ VIẾT TẮT

Trang 5

4

DRT Discourse representation theory

DRS Discourse representation structure

EKAW Knowledge Engineering and Knowledge Management

Trang 6

5

LỜI CẢM ƠN

Đầu tiên em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới TS Nguyễn Thị Minh Huyền đã luôn chỉ bảo, hướng dẫn tận tâm cho em trong suốt quá trình thực hiện luận văn

Việc hoàn thành luận văn này không thể không kể tới sự hỗ trợ và tạo điều kiện của Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân

sự, Bộ Quốc Phòng là cơ quan tôi đang công tác Tôi xin trân trọng gửi lời cảm ơn tới các thủ trưởng, các đồng nghiệp, các đồng chí của mình

Bên cạnh đó, em cũng xin cảm ơn các thầy cô, các cán bộ và nhân viên của Bộ môn Tin học nói riêng và khoa Toán – Cơ – Tin học, trường Đại học Khoa học Tự nhiên nói chung đã tận tình dạy dỗ và giúp đỡ em từ khi em còn

là sinh viên của trường đến những năm em trở lại học tập, nghiên cứu tại khoa với cương vị học viên cao học

Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình

Luận văn của tôi không tránh khỏi những thiếu sót do hạn chế về thời gian thực hiện và hiểu biết thật hệ thống về ngữ pháp, ngữ nghĩa tiếng Việt Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô và các bạn

Hà Nội, tháng 11 năm 2014

Học viên

Vũ Thị Hương

Trang 7

6

GIỚI THIỆU

Sự chi phối của ngữ cảnh trong ngôn ngữ tự nhiên là một hiện tượng thiên biến vạn hóa vô cùng phức tạp, khiến nhiều nhà ngôn ngữ về ngữ nghĩa dày công nghiên cứu Trước đây, quan niệm về ngữ nghĩa chính tắc coi lý thuyết ngữ nghĩa là mối quan tâm cơ bản, khái niệm trọng tâm là thông tin chứ không phải sự thật, ý nghĩa của một câu không phải là các điều kiện sự thật

mà là khả năng thay đổi thông tin Khi các nhà nghiên cứu chú trọng vào sự phụ thuộc ngữ cảnh trong ngôn ngữ thì mô thức xử lý các bài toán ngữ nghĩa

có sự thay đổi lớn, các lý thuyết ngữ nghĩa động được thiết kế đặc thù để làm việc với mối tương quan giữa phát ngôn và ngữ cảnh đã phản ánh được sự thay đổi đó Tuy nhiên, quan hệ giữa thông tin và sự thật vẫn có vị trí tối quan trọng và là thành phần quyết định của tất cả các lý thuyết động

Trong hai thập kỷ gần đây, các lý thuyết về ngữ nghĩa động phát triển mạnh mẽ, xoay quanh vấn đề cốt lõi là mô tả sự phụ thuộc ngữ cảnh vào ngữ nghĩa [10] Đó là đặc tính luôn có trong các ngôn ngữ tự nhiên và sự tương tác này có tính đối ứng Ta có thể kể đến một vài lý thuyết ngữ nghĩa động như:

- Năm 1991 Groenendijk và Stokhof đưa ra văn phạm Montague động dựa vào logic vị từ

- Năm 1991 Chierchia nghiên cứu mối liên kết động trong hiện tượng thay thế đại từ

- Năm 1996 Kohlhase đưa ra lý thuyết tính toán ngữ nghĩa dựa vào tính toán lambda

Trang 8

7

- Năm 1997 Eijck và Kamp đề xuất cách biểu diễn diễn ngôn trong ngữ cảnh đã có

Các công cụ biểu diễn ngữ nghĩa động hiện nay cũng phát triển rất rộng rãi như:

- Named Entity Recognition (Nhận biết tên thực thể): Công cụ này xác định cụm từ nào trong văn bản biểu diễn tên người, cụm từ nào biểu diễn vị trí hay tổ chức,…

- Wikifier: Công cụ xác định các thực thể và khái niệm quan trọng trong văn bản, xử lý hiện tượng mập mờ về nghĩa và liên kết tới trang Wikipedia

- Context-Sensitive Spelling Correction (Sửa lỗi từ dựa vào ngữ cảnh): Công cụ này tìm ra và gợi ý cách sửa cho những lỗi sai về nghĩa

- Co-reference Resolution (Giải quyết đồng tham chiếu): Một thực thể có thể được nhắc đến trong văn bản theo nhiều cách khác nhau Công cụ này phát hiện ra các cụm từ thể hiện cùng một thực thể

- Context Sensitive Verb Paraphrasing (Chú thích động từ dựa trên ngữ cảnh): Công cụ này là một bộ phân loại xem xét động từ v và ngữ cảnh của nó cùng với một động từ ứng viên u, đồng thời xác định trong một ngữ cảnh đã cho nào đó u có thể thay thế cho v để vẫn giữ nguyên ý nghĩa văn bản không

Chúng ta có thể tham khảo minh họa trực tuyến của các công cụ này trên trang

http://cogcomp.cs.illinois.edu/page/demos/

Trang 9

8

Lý thuyết biểu diễn diễn ngôn (DRT: Discourse Representation Theory)

nằm trong phạm vi ngữ nghĩa động, nhưng khác biệt ở chỗ nó chỉ ra được vai trò cực kỳ nổi bật của sự thật trong phát ngôn Một công cụ tiêu biểu dựa trên DRT hiện nay là Boxer do Johan Bos phát triển Với đầu vào là CCG

(Combinatory Categorial Grammar: văn phạm danh mục kết nối), Boxer cho

ra cấu trúc biểu diễn diễn ngôn (tham khảo minh họa tại

http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo) Một công trình khác do Valentina Presutti, Francesco Draicchio và Aldo Gangemi công bố tại hội thảo quốc tế EKAW 2012 đưa ra phương pháp kết hợp DRT với các mẫu bản thể học để trích xuất tri thức [13]

Luận văn nghiên cứu về DRT với mục đích tạo tiền đề lý thuyết cho ứng dụng biểu diễn diễn ngôn tiếng Việt Cấu trúc của luận văn gồm ba phần:

Chương đầu tiên trình bày về cơ sở toán học sử dụng cho các chương sau, bao gồm logic vị từ cấp một, tính toán lambda và phép toán hợp nhất trong xử lý ngôn ngữ Đây là các công cụ chính để biểu diễn và tính toán ngữ nghĩa

Chương hai trình bày về lý thuyết biểu diễn diễn ngôn Phần đầu của chương giới thiệu cách xây dựng cấu trúc biểu diễn diễn ngôn là phương tiện

để biểu diễn diễn ngôn cũng như cách thể hiện những yếu tố cú pháp trong các cấu trúc đó Mô hình tiền giả định được trình bày ở phần sau Các kết luận và

ví dụ minh họa đều áp dụng cho tiếng Anh

Chương ba khảo sát cách định vị thời gian và những phương thức thể hiện yếu tố thời trong phát ngôn tiếng Việt Từ đó có những nhận xét về cách

Trang 10

9 chọn thời gian tham chiếu phù hợp và thể hiện trọn vẹn được yếu tố thời trong khi biểu diễn diễn ngôn tiếng Việt

Trang 11

10

CHƯƠNG 1 CƠ SỞ TOÁN HỌC

Chương này nhắc lại các cơ sở về toán học sẽ được sử dụng trong các chương tiếp theo của luận văn, bao gồm logic vị từ và tính toán lambda

1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT

1.1.1 Các khái niệm cơ bản

Nội dung phần này có tham khảo tài liệu của tác giả Đỗ Đức Giáo [2]

Để tiện theo dõi, luận văn không trình bày lại các khái niệm cơ sở mà chỉ nhắc lại các thuật ngữ Ta xét câu tiếng Anh sau:

(1) If Pedro owns a donkey, he likes it

Phân tích cú pháp của câu trên ta được:

- Trong mệnh đề thứ nhất: Chủ ngữ là danh từ riêng “Pedro”, vị ngữ là ngoại động từ “own” với bổ ngữ “donkey” Ta có biểu diễn dưới dạng vị từ 2 đối: own(Pedro,donkey) Vì “donkey” chưa xác định nên ta kí hiệu là x, ta có: donkey(x)

- Tương tự mệnh đề thứ hai được biểu diễn thành: like(Pedro, x) Ta kí hiệu danh từ riêng Pedro là a

Thay “donkey”, “own” và “like” lần lượt thành các vị từ P, Q, R ta được biểu diễn ngữ nghĩa của câu trên bằng công thức logic vị từ cấp một như sau:

Trong công thức trên ta có:

- a là hằng x là biến Biến x bị ràng buộc trong phạm vi lượng từ , các biến khác (nếu có) sẽ là biến tự do

công thức con) là các hạng tử

Trang 12

80

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

(1) Nguyễn Đức Dân (1996), Nhận diện thời gian trong tiếng Việt, Tạp chí

Ngôn ngữ số 3, Viện Ngôn ngữ học

(2) Đỗ Đức Giáo (2008), Toán rời rạc, Nhà xuất bản Giáo dục

(3) Nguyễn Văn Hán (2012), Định vị thời gian trong tiếng Việt dưới góc nhìn của ngôn ngữ học tri nhận (so sánh với tiếng Anh), Luận án tiến sĩ

Ngôn ngữ học, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Thành phố Hồ Chí Minh

(4) Cao Xuân Hạo (1998), Về ý nghĩa “thì” và “thể” trong tiếng Việt, Tạp

chí Ngôn ngữ số 5, Viện Ngôn ngữ học

(5) Vũ Thị Ngân (2003), Phạm trù thời thể tiếng Pháp và tiếng Việt, Đề tài

cấp Đại học Quốc gia Hà Nội, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội

(6) Nguyễn Minh Thuyết (1998), Thành phần câu tiếng Việt, Nhà xuất bản

Đại học Quốc gia Hà Nội

Tài liệu tiếng Anh

(7) A Burchardt, S Walter, A Koller, M Kohlhase, P Blackburn, J Bos

(2002), Computational Semantics, MiLCA, Department of

Computer-linguistic, Saarlandes Saarbrucken University, Germany

Trang 13

81

(8) A Martelli, U Montanari (1982), An Efficient Unification Algorithm,

Journal: ACM Transactions on Programming Languages and Systems, New York, USA

(9) F Baader, W Snyder (2001), Unification Theory, Elsevier Science

Publishers

(10) H Kamp, Josef van Genabith, Uwe Reyle (2011), Discourse Representation Theory, An Updated Survey In: D Gabbay (ed.),

Handbook of Philosophical Logic, 2nd ed., Vol XV

(11) K von Fintel, Irene Heim (2011), Intensional Semantics, MIT

Spring

(12) P Selinger (2007), Lecture Notes on the Lambda Calculus,

Department of Mathematics and Statistics, Dalhousie University,

Halifax, Canada

(13) V Presutti, Francesco Draicchio, Aldo Gangemi (2012),

Knowledge extraction based on discourse representation theory and linguistic frames, EKAW'12 Proceedings of the 18th international

conference on Knowledge Engineering and Knowledge Management, Springer-Verlag Berlin, Heidelberg

Ngày đăng: 02/03/2016, 16:38

TỪ KHÓA LIÊN QUAN

w