ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- VŨ THỊ HƯƠNG LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
VŨ THỊ HƯƠNG
LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2014
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
VŨ THỊ HƯƠNG
LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 60460110
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Nguyễn Thị Minh Huyền
Hà Nội – Năm 2014
Trang 32
MỤC LỤC
LỜI CẢM ƠN 5
GIỚI THIỆU 6
CHƯƠNG 1 CƠ SỞ TOÁN HỌC 10
1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT 10
1.1.1 Các khái niệm cơ bản 10
1.1.2 Các khái niệm ngữ nghĩa 11
1.1.3 Phép hợp nhất (Unification) 12
1.2 TÍNH TOÁN LAMBDA 14
1.2.1 Cú pháp của tính toán lambda 15
1.2.2 Biến tự do và biến ràng buộc 16
1.2.3 Các phép biến đổi 17
CHƯƠNG 2 LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN 21
2.1 CÁC THÀNH PHẦN CƠ BẢN CỦA DRT 21
2.1.1 Tổng quan về DRT 21
2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn 24
2.2 NGÔN NGỮ DRS CƠ BẢN VÀ BIỂU DIỄN 27
2.2.1 Ngôn ngữ DRS mở rộng bậc một 27
2.2.2 Ngữ nghĩa chủ đích, mệnh đề, trạng thái thông tin và khả năng thay đổi ngữ cảnh 32
2.2.3 Các lượng từ 40
2.2.4 Số nhiều 41
2.2.5 Thời và thể 45
2.3 TIỀN GIẢ ĐỊNH (PRESUPPOSITION) 49
Trang 43
2.3.1 Ý nghĩa của tiền giả định 49
2.3.2 Một ví dụ 50
CHƯƠNG 3 BIỂU DIỄN DIỄN NGÔN VỚI THAM CHIẾU THỜI GIAN TRONG TIẾNG VIỆT 55
3.1 ĐỊNH VỊ THỜI GIAN 55
3.1.1 Biểu diễn thời gian trong mối quan hệ với không gian 55
3.1.2 Định vị thời gian 58
3.2 YẾU TỐ THỜI TRONG TIẾNG VIỆT 69
3.2.1 Các quan niệm về thời trong tiếng Việt 69
3.2.2 Cách diễn đạt ý nghĩa thời trong tiếng Việt 70
3.3 DẤU HIỆU TỪ VỰNG ĐỂ NHẬN BIẾT THỜI TRONG TIẾNG VIỆT 73
KẾT LUẬN 79
TÀI LIỆU THAM KHẢO 80
DANH MỤC HÌNH VẼ Hình 1: Cây cú pháp của một biểu thức lambda. 16
Hình 2: Phân tích cú pháp kết hợp tính toán lambda của câu (2). 20
Hình 3: Thời gian được biểu diễn theo định hướng không gian. 55
Hình 4: Định vị thời gian với ẩm dụ người quan sát đứng yên 56
Hình 5: Định vị thời gian với ẩm dụ người quan sát chuyển động 56
DANH MỤC TỪ VIẾT TẮT
Trang 54
DRT Discourse representation theory
DRS Discourse representation structure
EKAW Knowledge Engineering and Knowledge Management
Trang 65
LỜI CẢM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới TS Nguyễn Thị Minh Huyền đã luôn chỉ bảo, hướng dẫn tận tâm cho em trong suốt quá trình thực hiện luận văn
Việc hoàn thành luận văn này không thể không kể tới sự hỗ trợ và tạo điều kiện của Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân
sự, Bộ Quốc Phòng là cơ quan tôi đang công tác Tôi xin trân trọng gửi lời cảm ơn tới các thủ trưởng, các đồng nghiệp, các đồng chí của mình
Bên cạnh đó, em cũng xin cảm ơn các thầy cô, các cán bộ và nhân viên của Bộ môn Tin học nói riêng và khoa Toán – Cơ – Tin học, trường Đại học Khoa học Tự nhiên nói chung đã tận tình dạy dỗ và giúp đỡ em từ khi em còn
là sinh viên của trường đến những năm em trở lại học tập, nghiên cứu tại khoa với cương vị học viên cao học
Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình
Luận văn của tôi không tránh khỏi những thiếu sót do hạn chế về thời gian thực hiện và hiểu biết thật hệ thống về ngữ pháp, ngữ nghĩa tiếng Việt Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô và các bạn
Hà Nội, tháng 11 năm 2014
Học viên
Vũ Thị Hương
Trang 76
GIỚI THIỆU
Sự chi phối của ngữ cảnh trong ngôn ngữ tự nhiên là một hiện tượng thiên biến vạn hóa vô cùng phức tạp, khiến nhiều nhà ngôn ngữ về ngữ nghĩa dày công nghiên cứu Trước đây, quan niệm về ngữ nghĩa chính tắc coi lý thuyết ngữ nghĩa là mối quan tâm cơ bản, khái niệm trọng tâm là thông tin chứ không phải sự thật, ý nghĩa của một câu không phải là các điều kiện sự thật
mà là khả năng thay đổi thông tin Khi các nhà nghiên cứu chú trọng vào sự phụ thuộc ngữ cảnh trong ngôn ngữ thì mô thức xử lý các bài toán ngữ nghĩa
có sự thay đổi lớn, các lý thuyết ngữ nghĩa động được thiết kế đặc thù để làm việc với mối tương quan giữa phát ngôn và ngữ cảnh đã phản ánh được sự thay đổi đó Tuy nhiên, quan hệ giữa thông tin và sự thật vẫn có vị trí tối quan trọng và là thành phần quyết định của tất cả các lý thuyết động
Trong hai thập kỷ gần đây, các lý thuyết về ngữ nghĩa động phát triển mạnh mẽ, xoay quanh vấn đề cốt lõi là mô tả sự phụ thuộc ngữ cảnh vào ngữ nghĩa [10] Đó là đặc tính luôn có trong các ngôn ngữ tự nhiên và sự tương tác này có tính đối ứng Ta có thể kể đến một vài lý thuyết ngữ nghĩa động như:
- Năm 1991 Groenendijk và Stokhof đưa ra văn phạm Montague động dựa vào logic vị từ
- Năm 1991 Chierchia nghiên cứu mối liên kết động trong hiện tượng thay thế đại từ
- Năm 1996 Kohlhase đưa ra lý thuyết tính toán ngữ nghĩa dựa vào tính toán lambda
Trang 87
- Năm 1997 Eijck và Kamp đề xuất cách biểu diễn diễn ngôn trong ngữ cảnh đã có
Các công cụ biểu diễn ngữ nghĩa động hiện nay cũng phát triển rất rộng rãi như:
- Named Entity Recognition (Nhận biết tên thực thể): Công cụ này xác định cụm từ nào trong văn bản biểu diễn tên người, cụm từ nào biểu diễn vị trí hay tổ chức,…
- Wikifier: Công cụ xác định các thực thể và khái niệm quan trọng trong văn bản, xử lý hiện tượng mập mờ về nghĩa và liên kết tới trang Wikipedia
- Context-Sensitive Spelling Correction (Sửa lỗi từ dựa vào ngữ cảnh): Công cụ này tìm ra và gợi ý cách sửa cho những lỗi sai về nghĩa
- Co-reference Resolution (Giải quyết đồng tham chiếu): Một thực thể có thể được nhắc đến trong văn bản theo nhiều cách khác nhau Công cụ này phát hiện ra các cụm từ thể hiện cùng một thực thể
- Context Sensitive Verb Paraphrasing (Chú thích động từ dựa trên ngữ cảnh): Công cụ này là một bộ phân loại xem xét động từ v và ngữ cảnh của nó cùng với một động từ ứng viên u, đồng thời xác định trong một ngữ cảnh đã cho nào đó u có thể thay thế cho v để vẫn giữ nguyên ý nghĩa văn bản không
Chúng ta có thể tham khảo minh họa trực tuyến của các công cụ này trên trang
http://cogcomp.cs.illinois.edu/page/demos/
Trang 98
Lý thuyết biểu diễn diễn ngôn (DRT: Discourse Representation Theory)
nằm trong phạm vi ngữ nghĩa động, nhưng khác biệt ở chỗ nó chỉ ra được vai trò cực kỳ nổi bật của sự thật trong phát ngôn Một công cụ tiêu biểu dựa trên DRT hiện nay là Boxer do Johan Bos phát triển Với đầu vào là CCG
(Combinatory Categorial Grammar: văn phạm danh mục kết nối), Boxer cho
ra cấu trúc biểu diễn diễn ngôn (tham khảo minh họa tại
http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo) Một công trình khác do Valentina Presutti, Francesco Draicchio và Aldo Gangemi công bố tại hội thảo quốc tế EKAW 2012 đưa ra phương pháp kết hợp DRT với các mẫu bản thể học để trích xuất tri thức [13]
Luận văn nghiên cứu về DRT với mục đích tạo tiền đề lý thuyết cho ứng dụng biểu diễn diễn ngôn tiếng Việt Cấu trúc của luận văn gồm ba phần:
Chương đầu tiên trình bày về cơ sở toán học sử dụng cho các chương sau, bao gồm logic vị từ cấp một, tính toán lambda và phép toán hợp nhất trong xử lý ngôn ngữ Đây là các công cụ chính để biểu diễn và tính toán ngữ nghĩa
Chương hai trình bày về lý thuyết biểu diễn diễn ngôn Phần đầu của chương giới thiệu cách xây dựng cấu trúc biểu diễn diễn ngôn là phương tiện
để biểu diễn diễn ngôn cũng như cách thể hiện những yếu tố cú pháp trong các cấu trúc đó Mô hình tiền giả định được trình bày ở phần sau Các kết luận và
ví dụ minh họa đều áp dụng cho tiếng Anh
Chương ba khảo sát cách định vị thời gian và những phương thức thể hiện yếu tố thời trong phát ngôn tiếng Việt Từ đó có những nhận xét về cách
Trang 109 chọn thời gian tham chiếu phù hợp và thể hiện trọn vẹn được yếu tố thời trong khi biểu diễn diễn ngôn tiếng Việt
Trang 1110
CHƯƠNG 1 CƠ SỞ TOÁN HỌC
Chương này nhắc lại các cơ sở về toán học sẽ được sử dụng trong các chương tiếp theo của luận văn, bao gồm logic vị từ và tính toán lambda
1.1 LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT
1.1.1 Các khái niệm cơ bản
Nội dung phần này có tham khảo tài liệu của tác giả Đỗ Đức Giáo [2]
Để tiện theo dõi, luận văn không trình bày lại các khái niệm cơ sở mà chỉ nhắc lại các thuật ngữ Ta xét câu tiếng Anh sau:
(1) If Pedro owns a donkey, he likes it
Phân tích cú pháp của câu trên ta được:
- Trong mệnh đề thứ nhất: Chủ ngữ là danh từ riêng “Pedro”, vị ngữ là ngoại động từ “own” với bổ ngữ “donkey” Ta có biểu diễn dưới dạng vị từ 2 đối: own(Pedro,donkey) Vì “donkey” chưa xác định nên ta kí hiệu là x, ta có: donkey(x)
- Tương tự mệnh đề thứ hai được biểu diễn thành: like(Pedro, x) Ta kí hiệu danh từ riêng Pedro là a
Thay “donkey”, “own” và “like” lần lượt thành các vị từ P, Q, R ta được biểu diễn ngữ nghĩa của câu trên bằng công thức logic vị từ cấp một như sau:
Trong công thức trên ta có:
- a là hằng x là biến Biến x bị ràng buộc trong phạm vi lượng từ , các biến khác (nếu có) sẽ là biến tự do
công thức con) là các hạng tử
Trang 1280
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
(1) Nguyễn Đức Dân (1996), Nhận diện thời gian trong tiếng Việt, Tạp chí
Ngôn ngữ số 3, Viện Ngôn ngữ học
(2) Đỗ Đức Giáo (2008), Toán rời rạc, Nhà xuất bản Giáo dục
(3) Nguyễn Văn Hán (2012), Định vị thời gian trong tiếng Việt dưới góc nhìn của ngôn ngữ học tri nhận (so sánh với tiếng Anh), Luận án tiến sĩ
Ngôn ngữ học, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Thành phố Hồ Chí Minh
(4) Cao Xuân Hạo (1998), Về ý nghĩa “thì” và “thể” trong tiếng Việt, Tạp
chí Ngôn ngữ số 5, Viện Ngôn ngữ học
(5) Vũ Thị Ngân (2003), Phạm trù thời thể tiếng Pháp và tiếng Việt, Đề tài
cấp Đại học Quốc gia Hà Nội, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội
(6) Nguyễn Minh Thuyết (1998), Thành phần câu tiếng Việt, Nhà xuất bản
Đại học Quốc gia Hà Nội
Tài liệu tiếng Anh
(7) A Burchardt, S Walter, A Koller, M Kohlhase, P Blackburn, J Bos
(2002), Computational Semantics, MiLCA, Department of
Computer-linguistic, Saarlandes Saarbrucken University, Germany
Trang 1381
(8) A Martelli, U Montanari (1982), An Efficient Unification Algorithm,
Journal: ACM Transactions on Programming Languages and Systems, New York, USA
(9) F Baader, W Snyder (2001), Unification Theory, Elsevier Science
Publishers
(10) H Kamp, Josef van Genabith, Uwe Reyle (2011), Discourse Representation Theory, An Updated Survey In: D Gabbay (ed.),
Handbook of Philosophical Logic, 2nd ed., Vol XV
(11) K von Fintel, Irene Heim (2011), Intensional Semantics, MIT
Spring
(12) P Selinger (2007), Lecture Notes on the Lambda Calculus,
Department of Mathematics and Statistics, Dalhousie University,
Halifax, Canada
(13) V Presutti, Francesco Draicchio, Aldo Gangemi (2012),
Knowledge extraction based on discourse representation theory and linguistic frames, EKAW'12 Proceedings of the 18th international
conference on Knowledge Engineering and Knowledge Management, Springer-Verlag Berlin, Heidelberg