Dựa trên nội dung của các tiêu đề tin tức mà hệ thống đã xử lý, hệ thống có thể trả lời các câu hỏi tiếng Việt đơn giản được đặt ra cho hệ thống.Cơ chế đọc hiểu các tiêu đề tin tức và cá
Trang 2MỤC LỤC TÓM TẮT
ABSTRACT
CHƯƠNG 1: TỔNG QUAN 1
1.1 Đặt vấn đề 1
1.2 Các công trình nghiên cứu khác có liên quan 1
1.3 Mục tiêu của đề tài 2
1.4 Phạm vi đề tài 2
1.5 Những đóng góp khoa học mới của đề tài 2
1.6 Các bài báo đã công bố của đề tài 3
CHƯƠNG 2: MÔ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU ĐỀ TIẾNG VIỆT CÓ CẤU TRÚC CÂU ĐƠN 5
2.1 Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa 5
2.2 Định nghĩa phép liên kết và độ ưu tiên của phép liên kết 7
2.2.1 Định nghĩa phép liên kết 7
2.2.2 Độ ưu tiên của phép liên kết 7
2.3 Tiếp cận biểu diễn ngữ nghĩa 8
2.4 Biểu diễn ngữ nghĩa của câu đơn tiếng Việt 9
2.4.1 Câu có một động từ 9
2.4.2 Câu có nhiều động từ 11
2.4.2.1 Câu có hai động từ liên tiếp nhau 11
2.4.2.2 Câu có hai động từ liên kết với nhau bằng liên từ “và” 12
2.4.2.3 Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ 13
2.4.3 Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng ngữ chỉ thời gian 14
Trang 32.4.4 Câu không có động từ 15
2.5 Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống 16
CHƯƠNG 3: MÔ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU HỎI VỀ CÁC TIÊU ĐỀ TIN TỨC TIẾNG VIỆT 17
3.1 Mô hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt 17
3.2 Phân chia lớp câu hỏi trong hệ thống theo mục đích hỏi 18
3.2.1 Lớp câu hỏi để truy vấn về sự vật, sự việc, hiện tượng (1) 19
3.2.2 Lớp câu hỏi để truy vấn về người, hay một đối tượng đại diện liên quan đến người (2) 20
3.2.3 Lớp câu hỏi truy vấn về thời gian (3) 21
3.2.4 Lớp câu hỏi truy vấn về vị trí, nơi chốn (4) 22
3.2.5 Lớp câu hỏi truy vấn về mức độ, tính chất của sự việc (5) 23
3.2.6 Lớp câu hỏi về số lượng đối tượng (6) 23
3.2.7 Lớp câu hỏi dạng tổng hợp để truy vấn về thông tin của một đối tượng (7) 24
3.2.8 Lớp câu hỏi mang ý nghĩa “Đúng – Sai” (8) 29
CHƯƠNG 4: HỆ THỐNG HỎI – ĐÁP TIẾNG VIỆT VỀ TIN TỨC CÔNG NGHỆ THÔNG TIN – TRUYỀN THÔNG 31
4.1 Mô hình hệ thống 31
4.1.1 Giới thiệu mô hình hoạt động 31
4.1.2 Giải thích mô hình hoạt động của mô hình 32
4.2 Xây dựng hệ thống 34
4.2.1 Xây dựng từ điển từ loại 34
4.2.2 Xây dựng “Bộ quy tắc cú pháp” và “Bộ quy tắc biểu diễn ngữ nghĩa” 35 4.2.3 Xây dựng nguồn cung cấp thông tin cho hệ thống 36
Trang 4CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 38
5.1 Cài đặt hệ thống 38
5.2 Thử nghiệm 38
5.2.1 Thử nghiệm cơ sở 38
5.2.2 Thử nghiệm mở rộng 39
5.3 Đánh giá 40
CHƯƠNG 6: KẾT LUẬN 41
6.1 Kết luận 41
6.1.1 Các kết quả của đề tài 41
6.1.2 Những hạn chế của đề tài 41
6.2 Hướng phát triển 42
TÀI LIỆU THAM KHẢO 43
PHỤ LỤC: CÁC KÝ HIỆU TỪ LOẠI VÀ NGỮ ĐOẠN ĐƯỢC DÙNG 47
Trang 5
TÓM TẮT
Trong đề tài nghiên cứu này, chúng tôi nhắm đến việc xây dựng một Reading Answering System Model (RASM) cho tiếng Việt Mô hình RASM cho phép cài đặt một hệ thống hỏi đáp có thể đọc trực tiếp các tiêu đề tin tức tiếng Việt từ ICTNEWS (http://www.ictnews.vn) để dùng chúng làm dữ liệu cho việc trả lời các câu hỏi tiếng Việt có liên quan Mô hình này có thể phân tích cú pháp và ngữ nghĩa của nhiều dạng cấu trúc tiêu đề tin tức và câu hỏi tiếng Việt Chúng tôi đã xây dựng một hệ thống dựa trên RASM và đánh giá hiệu quả của hệ thống này trong các thực nghiệm Hệ thống thử nghiệm đạt độ chính xác là 66.63%
Trang 6ABSTRACT
In this research project, we aim to build a Reading Answering System Model (RASM) for Vietnamese Language The RASM allows implementing a question answering system which can read directly Vietnamese news titles from ICTNEWS (http://www.ictnews.vn) and uses them as data for answering relative Vietnamese questions This model can analyze the syntax and semantics of several structures of Vietnamese news titles and questions We built a system based on RASM and evaluated the performance of this system in experiments The accuracy of experimental system is 66.63%
Trang 7DANH MỤC HÌNH
Hình 2.1: Câu có một động từ (Nguồn: [24]) 10
Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24]) 11
Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24]) 12
Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24]) 13
Hình 2.5: Câu không có động từ (Nguồn: [24]) 15
Hình 2.6: Hình thức biểu diễn nghĩa của câu không có động từ (Nguồn: [24]) 15
Hình 4.1: Mô hình hoạt động của hệ thống [24], [25], [26] 32
Hình 4.2: Mối quan hệ giữa các tập tin Prolog 36
Trang 8DANH MỤC BẢNG
Bảng 4.1: Bảng thống kê số lượng từ loại [24], [25], [26] 35
Bảng 4.2: Cấu tạo thành phần tổ chức của hệ thống 36
Bảng 5.1: Ngữ liệu cho thử nghiệm cơ sở (Nguồn: [25]) 38
Bảng 5.2: Kết quả thử nghiệm trên các câu hỏi chuẩn (Nguồn: [25]) 39
Bảng 5.3: Thống kê kết quả thử nghiệm trên các nhóm câu hỏi mở rộng (Nguồn: [26]) 39
Trang 9ra những thách thức cần nghiên cứu giải quyết (cf [24], [25], [26], [27], [28])
Nội dung của báo cáo tổng kết này được trình bày dựa trên các bài báo đã được công bố của đề tài: [24], [25], [26], [27], [28]
1.2 Các công trình nghiên cứu khác có liên quan
Vấn đề xây dựng các hệ thống hỏi đáp tiếng Việt dựa trên việc phân tích
cú pháp, ngữ nghĩa của các câu ngữ liệu tiếng Việt để có thông tin trả lời cho các câu hỏi có liên quan đã được thực hiện lần đầu tiên trong các đề tài khóa luận tốt nghiệp đại học [2], [4], [5], [6] do TS Nguyễn Tuấn Đăng, Trường Đại học Công nghệ Thông tin – ĐHQG TP HCM, là người hướng dẫn khoa học Những đề tài nói trên đã xây dựng các hệ thống hỏi đáp tiếng Việt cho những lĩnh vực ứng dụng: kiến thức xã hội [2], kiến thức về động vật [4], kiến thức lịch sử Việt nam
[5], truy vấn thông tin về sản phẩm máy tính bảng [6] Đề tài này được chúng tôi triển khai và phát triển dựa trên việc tham khảo các kết quả nghiên cứu
đã công bố của Phạm Thế Sơn và Hồ Quốc Thịnh [5]
Ngoài ra, một số mô hình khác để xây dựng cơ chế đọc hiểu câu hỏi tiếng Việt cũng đã được nghiên cứu trong [1], [3] Trong vấn đề xây dựng các parser
Trang 10cú pháp hoặc ngữ nghĩa cho câu đơn tiếng Việt, một số hướng tiếp cận khác cũng
đã được giới thiệu trong các công trình như [10], [11]
1.3 Mục tiêu của đề tài
Đề tài nhằm mục tiêu xây dựng một hệ thống hỏi đáp tiếng Việt về những tin tức ngắn gọn trong lĩnh vực công nghệ thông tin – truyền thông Hệ thống này hoạt động dựa trên một cơ chế đọc hiểu tiêu đề tiếng Việt của tối đa 10 tin mới nhất được đăng trên web site ICTNEWS [22] Dựa trên nội dung của các tiêu đề tin tức mà hệ thống đã xử lý, hệ thống có thể trả lời các câu hỏi tiếng Việt đơn giản được đặt ra cho hệ thống.Cơ chế đọc hiểu các tiêu đề tin tức và các câu hỏi được xây dựng dựa trên việc phân tích cú pháp và biểu diễn ngữ nghĩa của các câu đơn và một số loại ngữ đoạn tiếng Việt
- Không xử lý các vấn đề về phong cách, tu từ, tình thái, ẩn ý, hàm ý, v.v… trong các tiêu đề và câu hỏi tiếng Việt
1.5 Những đóng góp khoa học mới của đề tài
- Kết quả khoa học: Dựa trên các phương pháp biểu diễn và xử lý ngữ nghĩa
đã được đề nghị trong [12], [13], [14], [16], [17], [18], [19], đề tài ứng
Trang 11dụng chúng vào việc xây dựng các phương pháp phân tích cú pháp và xử
lý ngữ nghĩa cho nhiều dạng câu đơn và ngữ đoạn tiếng Việt ở thể khẳng định và nghi vấn trong lĩnh vực tin tức công nghệ thông tin – truyền thông
để xây dựng hệ thống hỏi - đáp (trong mục tiêu và phạm vi đề tài)
- Chương trình máy tính: Hệ thống hỏi đáp tiếng Việt về tin tức công nghệ thông tin – truyền thông (trong mục tiêu và phạm vi đề tài) Hệ thống được xây dựng có thể xử lý 1199 từ vựng và đạt độ chính xác là 66.63% trong các thử nghiệm
1.6 Các bài báo đã công bố của đề tài
Các kết quả khoa học đã công bố của đề tài gồm có 05 bài báo:
1 Son The Pham and Dang Tuan Nguyen, "Processing Vietnamese News Titles to Answer Relative Questions in VNEWSQA/ICT System", International Journal on Natural Language Computing (IJNLC), Vol 2,
No 6, December 2013, pp 39-51 ISSN: 2278 - 1307 [Online]; 2319 -
4111 [Print] (Cf [24])
2 Son The Pham and Dang Tuan Nguyen, "Resolving the Semantics of Vietnamese Questions in VNewsQA/ICT System", International journal
of Artificial Intelligence & Applications (IJAIA), Vol 5, No 2, March
2014, pp 11-20 ISSN: 0975 - 900X [Online]; 0976 - 2191 [Print] (Cf [25])
3 Son The Pham, Dang Tuan Nguyen, “A Reading Answering System Model for Vietnamese Language”, Asia Modelling Symposium 2014 (AMS 2014), Eighth Asia International conference on Mathematical Modelling and Computer Simulation, Taipei, 23 September, 2014 / Kuala Lumpur, 25 September, 2014, pp 170-174, IEEE ISBN: 978-1-4799-6487-1 (Cf [26]) (ERA 2010 / CORE 2013 Conference Rankings: C)
Trang 124 Son The Pham, Dang Tuan Nguyen, “Implementation Method of Answering Engine for Vietnamese Questions in Reading Answering System Model (RASM)”, Asia Modelling Symposium 2014 (AMS 2014), Eighth Asia International conference on Mathematical Modelling and Computer Simulation, Taipei, 23 September, 2014 / Kuala Lumpur, 25 September, 2014, pp 175-180, IEEE ISBN: 978-1-4799-6487-1 (Cf [27]) (ERA 2010 / CORE 2013 Conference Rankings: C)
5 Son The Pham, Dang Tuan Nguyen, “Implementation Techniques for Computing the Semantics of Vietnamese News Titles in Reading Answering System Model (RASM)”, The Third Asian Conference on Information Systems (ACIS 2014), Nha Trang, Vietnam, December 1-3,
2014, pp 209-216 ISBN: 978-4-88686-089-7 (Cf [28])
Trang 13CHƯƠNG 2: MÔ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU
ĐỀ TIẾNG VIỆT CÓ CẤU TRÚC CÂU ĐƠN
Trong chương 2, chúng tôi sẽ trình bày những nội dung chính như sau:
- Trình bày một số định nghĩa, quy ước riêng được sử dụng trong phương pháp biểu diễn ngữ nghĩa câu đơn của đề tài
- Xây dựng một phương pháp trình bày và biểu diễn ngữ nghĩa câu đơn theo
mô hình mà chúng tôi xây dựng, nhằm mục đích tạo sự dễ dàng trong việc định nghĩa văn phạm DCG (Definite Clause Grammar) trong Prolog
- Định nghĩa một số “phép liên kết”, “hàm” để biểu diễn các mối quan hệ và mối liên kết về mặt ngữ nghĩa
- Phân loại dạng câu đơn tiếng Việt theo nghĩa của động từ
- Xây dựng mô hình xử lý và cơ chế đọc hiểu câu đơn tiếng Việt
Những nội dung nghiên cứu trong chương này được trình bày theo các bài báo đã được công bố của đề tài: [24], [26] Phương pháp cài đặt thành
phần xử lý ngữ nghĩa tiêu đề tin tức tiếng Việt trong chương này được giới thiệu
trong [28]
2.1 Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa
Trong mục này chúng tôi trình bày những định nghĩa và những quy ước riêng để sử dụng trong phương pháp biểu diễn ngữ nghĩa của một câu [24, [26]
Hằng ngữ đoạn: là một ngữ đoạn mà chúng tôi cho rằng không thể nào
phân tích thành những ngữ đoạn nhỏ hơn Chúng tôi biểu diễn hằng ngữ đoạn bằng cách sử dụng các ký hiệu “_” để kết hợp các “từ vựng” với nhau, hoặc đặt hằng ngữ đoạn nằm trong cặp dấu “<…>”
Trang 14Hằng_ngữ_đoạn
<Hằng ngữ đoạn>
Vị từ: các vị từ là những thành tố cơ sở trong lý thuyết ngữ nghĩa hình
thức [12], [13], [14], [16], [17], [18], [19], … được dùng để biểu diễn cấu trúc nghĩa của câu Thuật ngữ “vị từ” được chúng tôi sử dụng với ý nghĩa
là các “động từ” Các vị động từ có hình thức biểu diễn như sau:
Động_từ_làm_vị_từ(tham tố 1, tham tố 2) Trong đó, các tham tố có thể là một danh ngữ, một động ngữ, hay một tiểu
cú
Hàm: dược sử dụng để biểu diễn các ý nghĩa về thời gian, không gian…
của câu, hay những mối quan hệ nào đó giữa hai đối tượng, và có hình thức biểu diễn như sau [24]:
Tên_hàm(tham_tố) Tên_hàm(tham_tố_1, tham_tố_2 …, tham_tố_n) Trong đó, các tham tố có thể là những giới ngữ, tính ngữ hoặc trạng ngữ Hàm có một tham tố hoặc nhiều tham tố tùy thuộc vào mục đích biểu diễn
Trong trường hợp biểu diễn quan hệ giữa hai đối tượng, hàm còn có hình thức như sau [24]:
Tên_hàm_1(Tên_hàm_2 (tham_tố)) Chúng tôi đã xây dựng những hàm cơ bản để dùng cho việc biểu diễn ngữ nghĩa như sau [24]:
+ Hàm chỉ thời gian: Time(AdvP)
+ Hàm chỉ vị trí, nơi chốn: Location(PreP)
Trang 15 Phép liên kết giữa hàm với vị từ: gồm >->, > >, > -> tương ứng
với việc làm rõ nghĩa câu của giới ngữ, tính ngữ, và trạng ngữ chỉ thời gian đối với động từ [24]:
- Phép liên kết >-> biểu diễn việc bổ nghĩa của giới ngữ chỉ vị trí, nơi chốn cho vị từ
- Phép liên kết > > biểu diễn việc bổ nghĩa của trạng ngữ chỉ tính chất cho vị từ
- Phép liên kết > -> biểu diễn việc bổ nghĩa của trạng ngữ chỉ thời gian cho vị từ
Phép liên kết giữa vị từ và vị từ: phép liên kết <-> biểu diễn mối quan
hệ giữa động từ với động từ trong câu có nhiều động từ [24]
2.2.2 Độ ưu tiên của phép liên kết
“Độ ưu tiên của các phép liên kết” là thứ tự thực hiện quá trình xử lý ngữ nghĩa mà chúng tôi thiết lập Mức độ ưu tiên của phép liên kết càng cao thì việc
xử lý ngữ nghĩa của phép liên kết đó được xảy ra trước Nếu các phép liên kết có cùng độ ưu tiên thì sẽ thực hiện từ trái sang phải, phép liên kết nào gặp đầu tiên thì sẽ xử lý trước [24]
Trang 16Độ ưu tiên của các phép liên kết theo thứ tự giảm dần như sau [24]:
<->, >->, > >, > ->
Chú ý:
- Những phép liên kết mà chúng tôi vừa trình bày được biểu diễn dưới dạng
“op, infix, prefix, and postfix operators, precedence” trong Prolog [15], [20]
- Trong quá trình biểu diễn ngữ nghĩa chúng tôi có thể định nghĩa thêm một phép liên kết nào đó để biểu diễn mối quan hệ cần diễn tả
2.3 Tiếp cận biểu diễn ngữ nghĩa
Những ngữ đoạn như danh ngữ (NP), giới ngữ (PreP), tính ngữ (AdjP), trạng ngữ chỉ thời gian (AdvP) sẽ được xem là các hằng ngữ đoạn và chúng đóng vai trò là những tham tố của các vị từ hay hàm
Lượng ngữ QuaP là một ngữ đoạn có chức năng cung cấp thông tin về số lượng của một sự vật, sự việc, hoặc một đối tượng Đối với lượng ngữ thì
có hai hướng để biểu diễn ngữ nghĩa như sau:
- Hướng tiếp cận thứ nhất: Những từ biểu đạt thông tin về số lượng (lượng từ) được chia làm hai loại:
+ Lượng từ xác định: nếu lượng từ đứng trước danh từ thì sẽ định lượng cho danh từ đó Để biểu diễn lượng từ xác định chúng tôi định nghĩa một hàm như sau:
Definite(QuaP) Trong đó, QuaP là lượng ngữ Definite là tên hàm biểu diễn lượng ngữ phía bên trong
Trang 17+ Lượng từ không xác định: bao gồm các từ như sau: {những, các, tất
cả, cả, cả thảy, nhiều, mọi, mỗi} Những lượng từ vừa đề cập sẽ đứng trước danh từ và biểu diễn số lượng không xác định cho danh
từ đang xét Để biểu diễn lượng từ xác định chúng tôi định nghĩa một hàm như sau:
Indefinite(QuaP) Trong đó, QuaP là lượng ngữ Indefinite là tên hàm biểu diễn lượng ngữ phía bên trong
Chúng tôi sẽ chọn cách thứ nhất làm hướng tiếp cận trong đề tài để phát triển cho những câu liên quan đến lượng ngữ
- Hướng tiếp cận thứ hai: không phân chia lượng từ thành hai loại xác định và không xác định nhưng vẫn đảm bảo rằng ngữ đoạn mà đang xét là lượng ngữ Hướng tiếp cận thứ hai này đã được giới thiệu trong [5] và có một số hạn chế cần phát triển thêm Do đó, chúng tôi không
sử dụng cách tiếp cận thứ hai này
2.4 Biểu diễn ngữ nghĩa của câu đơn tiếng Việt
Theo lý thuyết ngữ nghĩa hình thức [12], [13], [14], [16], [17], [18], [19], ngữ nghĩa câu được biểu diễn dựa trên cấu trúc tham tố của động từ Trong đề tài này chúng tôi nghiên cứu những cấu trúc câu có một và hai động từ trong tiếng Việt dựa trên cơ sở của các lý thuyết ngôn ngữ học [9], [13], [21]
2.4.1 Câu có một động từ
Theo [24], câu đơn có một động từ được chúng tôi xử lý dựa trên mô hình trong [Hình 2.1]
Trang 18NP + V + NP + C + NP + QuaP
PrePAdjPAdvP
“tham_tố_2” sẽ nhận giá trị là những ngữ đoạn NP hoặc QuaP nên (1), (2), (3) trong [Hình 2.1] là những phép bổ nghĩa cho động từ chính trong câu
Theo [24], những ngữ đoạn PreP, AdjP, AdvP sẽ đóng vai trò là phụ ngữ làm sáng rõ nghĩa cho động từ chính; phép biểu diễn (4) (hay phép liên kết) trong [Hình 2.1] chỉ sự làm rõ nghĩa cho động từ, mức độ làm rõ nghĩa của những phụ ngữ PreP, AdjP, AdvP là như nhau Trong mô hình biểu diễn, chúng tôi sẽ định nghĩa thêm ba phép biểu diễn dùng cho ba ngữ đoạn PreP, AdjP và AdvP như sau [24]:
- Đối với PreP, chúng tôi sẽ dùng hàm Location(PreP) và dùng phép liên kết
>-> làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của PreP đối với động từ chính trong câu
- Đối với AdvP, chúng tôi sẽ dùng hàm Manner(AdvP) và dùng phép liên kết > > làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của AdjP đối với động từ chính trong câu
Trang 19- Hàm Time(AdvP) và phép liên kết > -> được chúng tôi sử dụng để làm sáng rõ nghĩa về thời gian của AdvP đối với động từ chính trong câu
Cả ba phép biểu diễn >->, > >, > -> đều có mức độ làm rõ nghĩa đối với động từ chính trong câu như nhau Nhưng nếu cả ba phép biểu diễn này cùng xuất hiện cùng nhau thì chúng tôi quy ước độ ưu tiên dùng để phân tích như sau:
>-> lớn hơn > > lớn hơn > -> (giảm dần từ trái qua phải)
2.4.2 Câu có nhiều động từ
2.4.2.1 Câu có hai động từ liên tiếp nhau
Trong loại câu có hai động từ liên tiếp nhau, động từ đứng trước bổ nghĩa cho động từ đứng sau hoặc động từ đứng sau bổ nghĩa cho động từ đứng trước [24] Động ngữ của câu sẽ được phân tích và biểu diễn thông qua sơ đồ tổng quan trong [Hình 2.2]
NP + V1 + V2 + NP + C + NP + QuaP
PrePAdjPAdvP
(4)
VP1 VP2
Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24])
Trong cấu trúc câu ở [Hình 2.2], hai thành phần bắt buộc không thể thiếu
là VP1 và VP2 Cấu trúc câu này có hình thức biểu diễn ngữ nghĩa như sau [24]:
động_từ_V1(tham_tố_1, động_từ_V2 (tham_tố_1, tham_tố_2))
Chúng tôi thấy “tham_tố_1” của “động_từ_V1” và “động_từ_V2” sẽ nhận giá trị là ngữ đoạn đứng trước hai động từ, nhưng trong mô hình biểu diễn chúng
Trang 20tôi sẽ lấy giá trị cho tham_tố_1 của động từ V2 là same_Subject, còn tham_tố_2
của động_từ_V2 sẽ nhận ngữ đoạn đứng phía sau động từ V2 [24]
2.4.2.2 Câu có hai động từ liên kết với nhau bằng liên từ “và”
Trong mô hình biểu diễn nghĩa của câu dạng này, động từ V1, V2 sẽ liên kết với nhau bởi kết từ “và” và được mô tả như trong [Hình 2.3]
NP + V1 [và] V2 + NP + C + NP QuaP
PrePAdjPAdvP
(4)
Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24])
Trong cấu trúc câu ở [Hình 2.3], hai thành phần bắt buộc không thể thiếu
là VP1 và VP2 Cả hai động từ đều biểu đạt ngữ nghĩa của câu Chúng tôi không cùng lúc lấy V1 và V2 làm vị từ theo cách động_từ_V1_và_động_từ_V2(tham
tố, tham tố), bởi vì như vậy sẽ không biểu diễn hết về mặt nghĩa của mỗi động từ, mặc dù hai động từ có cùng các tham tố nhưng mỗi động từ có nghĩa khác nhau [24]
Chúng tôi đưa ra một hình thức để biểu diễn cho cả hai động từ trong mô hình như sau [24]:
động_từ_V1(tham tố 1, tham tố 2) <-> động_từ_V2(tham tố 1, tham tố 2) Phép liên kết <-> được dùng để liên kết hai động từ lại với nhau, với mức
ưu tiên là cao nhất trong các phép liên kết được chúng tôi định nghĩa [24]
Trang 21Như vậy, chúng tôi đã liên kết được hai động từ lại với nhau “tham tố 1” lần lượt của vị từ “động_từ_V1” và “động_từ_V2” là cùng giống nhau và nhận giá trị là danh ngữ (NP) hay lượng ngữ (QuaP) Tương tự “tham tố 2” cũng vậy
Tiếp theo, quá trình xử lý những ngữ đoạn PreP, AdjP, AdvP cũng tương
tự như trên Nhưng tại đây phải chú ý rằng độ ưu tiên của phép liên kết <-> là cao nhất so với độ ưu tiên của các phép liên kết >->, > >, > ->
2.4.2.3 Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ
Trong mô hình này, động từ V1, V2 sẽ ở hai vị trí cách xa nhau, và được
mô tả qua [Hình 2.4]
NP + V1 + NP + C + NP + V2 + NP + C + NP
QuaP
PrePAdjPAdvP
QuaPQuaP
VP1Clause
VP2S
Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24])
Trong [Hình 2.4], Clause thực ra là một tiểu cú Xét theo ngữ cảnh đây là một dạng câu mà hành động của động từ V1 xảy ra trước hành động của động từ V2 Nhờ vào V1 xảy ra trước V2 nên mới có sự kết hợp tạo nên tiểu cú Clause
Tiểu cú (Clause) trong [Hình 2.4] là một cấu trúc ngữ pháp cơ bản (giống như câu có một động từ) nên chúng tôi dễ dàng biểu diễn được ngữ nghĩa thông qua động từ V1 của tiểu cú như sau:
động_từ_V1(tham_tố_1, tham_tố_2)
Trang 22Trong đó, “tham_tố_1” và “tham_tố_2” có thể là danh ngữ (NP) hoặc lượng ngữ (QuaP)
Đối với động từ V2, động từ này cũng có hai tham tố theo hình thức như sau:
động_từ_V2(tham_tố_3, tham_tố_4) Trong đó, “tham_tố_3” sẽ nhận từ kết quả ngữ nghĩa của tiểu cú Clause (thông qua dạng ngữ nghĩa của động từ V1) “Tham_tố_4” sẽ nhận giá trị là các ngữ đoạn danh ngữ (NP) hoặc lượng ngữ (QuaP) Theo cách mô tả vừa nêu, chúng tôi có hình thức trình bày và biểu diễn ngữ cho toàn câu thông qua hình thức ngữ nghĩa của động từ V1 và V2 như sau:
động_từ_V2(động_từ_V1(ngữ_đoan_1, ngữ_đoạn_2), ngữ_đoạn_4)
2.4.3 Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng ngữ chỉ thời gian
Đây là dạng câu bắt đầu bằng động từ, thành phần danh ngữ và lượng ngữ đứng trước động từ chính trong câu bị khuyết nhưng vẫn biểu diễn được nội dung phát biểu của câu Hay nói cách khác đây là loại câu bắt đầu từ động từ và trong câu có thể có hai động từ
Để giải quyết, chúng tôi xem ngữ đoạn bị khuyết như là một tham tố đặc biệt của vị từ hoặc của hàm Chúng tôi quy ước ngữ đoạn bị khuyết trong mô hình có ký hiệu như sau “_” hoặc “no_subject” Mô hình biểu diễn có hình thức như sau:
động_từ_V1(no_subject, tham_tố) động_từ_V2(động_từ_V1(no_subject, tham_tố_1), tham_tố_2)
Trang 232.4.4 Câu không có động từ
Đây là một dạng câu rất đặc biệt vì câu không có động từ Cấu tạo của câu được trình bày như trong [Hình 2.5]
NPQP
Hình 2.5: Câu không có động từ (Nguồn: [24])
Cấu tạo của dạng câu này gồm các ngữ đoạn đơn giản với vị trí và thứ tự không có mối liên hệ nào với nhau Những ngữ đoạn mà chúng tôi xét gồm NP, QuaP, PreP, AdjP và AdvP Các ngữ đoạn (1), (2), (3), (4) trong [Hình 2.5] có thể hoán vị vị trí lẫn nhau sao cho đúng về mặt nghĩa và người đọc hiểu được nội dung của lời phát biểu Chúng tôi dùng các hàm cùng với các phép liên kết để biểu diễn ngữ nghĩa trong mô hình câu không có động từ [24]
Cụ thể chúng tôi đề xuất hình thức dùng để trình bày ngữ nghĩa của câu không có động từ như trong [Hình 2.6]
Object(NP)
Object(QuaP)
Time(AdvP)
& Possessive(NP/QuaP, PreP_poss)Location(PreP_loca) & Adjective(AdjP) &
Hình 2.6: Hình thức biểu diễn nghĩa của câu không có động từ (Nguồn: [24])
- Hàm Adjective(AdjP) biểu diễn tính ngữ
- Hàm Time(AdvP) sẽ biểu diễn trạng ngữ chỉ thời gian
Trang 24Phép liên kết & liên kết các hàm lại với nhau Vì cùng là một phép liên kết nên thứ tự ưu tiên để xét tính từ trái qua phải
2.5 Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống
Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống gồm có 5 giai đoạn xử lý như sau [24]:
- Giai đoạn 1: Xác định từ và từ loại Hệ thống sử dụng một “Từ điển tiếng Việt” được chúng tôi xây dựng để có thể xác định được từ và từ loại
- Giai đoạn 2: Phân tích và xác định ngữ đoạn Bộ quy tắc cú pháp sẽ giúp
hệ thống xác định được loại ngữ đoạn và bản thân của ngữ đoạn đó sẽ là tham tố của vị từ hoặc là tham tố của hàm
- Giai đoạn 3: Phân tích và xác định cây cú pháp của câu Bộ quy tắc cú pháp sẽ giúp hệ thống xác định cấu trúc cú pháp duy nhất của câu thông qua văn phạm mà chúng tôi đã xây dựng trước
- Giai đoạn 4: Xác định mô hình ngữ nghĩa của câu Bộ quy tắc biểu diễn ngữ nghĩa sẽ giúp hệ thống có thể xác định được mô hình ngữ nghĩa cho câu dữ liệu Kết quả của giai đoạn này là một biểu thức biểu diễn ngữ nghĩa của câu dựa trên các vị từ, phép liên kết, và hàm
- Giai đoạn 5: Đưa biểu thức biểu diễn ngữ nghĩa vào cơ sở dữ liệu sự kiện Prolog Thông qua quá trình phân tích biểu thức ngữ nghĩa và kết hợp với
bộ quy tắc cập nhật thì hệ thống sẽ chuyển những biểu thức ngữ nghĩa thành các sự kiện trong Prolog để cho người dùng truy vấn
Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt của hệ thống đã được giải thích chi tiết trong [24], [26], [28]
Trang 25CHƯƠNG 3: MÔ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU HỎI VỀ CÁC TIÊU ĐỀ TIN TỨC TIẾNG VIỆT
Trong chương 3, chúng tôi sẽ trình bày những nội dung chính như sau:
- Xây dựng mô hình đọc hiểu – trả lời các câu hỏi tiếng Việt trong hệ thống
- Phân loại xử lý câu hỏi tiếng Việt trong hệ thống tùy theo mục đích hỏi Những nội dung nghiên cứu trong chương này được trình bày theo các bài báo đã được công bố của đề tài: [25], [26] Các phương pháp và cài đặt chi tiết của chương này được chúng tôi giới thiệu trong: [27]
3.1 Mô hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt
Mô hình đọc hiểu – trả lời câu hỏi tiếng Việt gồm có 5 giai đoạn xử lý như sau [25]:
- Giai đoạn 1: Đây là bước xác định từ và xác định từ loại dựa trên “Từ điển tiếng Việt”
- Giai đoạn 2: Quá trình xác định ngữ đoạn “Bộ quy tắc cú pháp” sẽ giúp
hệ thống xác định được loại ngữ đoạn NP, QuaP, AdvP, AdjP, PreP và ngữ đoạn nghi vấn (QueP) Việc xác định ra ngữ đoạn nghi vấn sẽ giúp hệ thống xác định được câu nhập vào là câu hỏi Những ngữ đoạn NP, QuaP, AdvP, AdjP, PreP sẽ là tham tố của vị từ hoặc là tham tố của hàm, còn ngữ đoạn nghi vấn là một ngữ đoạn đặc biệt cũng đóng vai trò là tham tố của vị từ hoặc của hàm nhưng với chức năng là một “biến truy vấn”, “biến truy vấn” sẽ mang kết quả trả lời
- Giai đoạn 3: Đây là quá trình phân tích cú pháp và xác định cấu trúc cú pháp của câu hỏi dựa trên “Bộ quy tắc cú pháp”
Trang 26- Giai đoạn 4: Xác định mô hình ngữ nghĩa cần biểu diễn cho câu hỏi Sử dụng “Bộ quy tắc biểu diễn ngữ nghĩa” và áp dụng kỹ thuật “GAP” (như trong [5]) sẽ giúp hệ thống có thể xác định được mô hình ngữ nghĩa cho câu hỏi nhập vào Kết quả của giai đoạn này là một biểu thức biểu diễn ngữ nghĩa của câu hỏi
- Giai đoạn 5: Để có được kết quả của phép truy vấn thì hệ thống thực hiện một quá trình so khớp hai biểu thức biểu diễn ngữ nghĩa bằng cách sử dụng cơ chế so khớp của Prolog, đây gọi là quá trình tìm kiếm kết quả trả lời Cụ thể đây chính là quá trình so khớp biểu thức biểu diễn ngữ nghĩa của các câu dữ liệu trong cơ sở dữ liệu sự kiện với biểu thức biểu diễn ngữ nghĩa của câu hỏi
3.2 Phân chia lớp câu hỏi trong hệ thống theo mục đích hỏi
Trong công trình nghiên cứu này, chúng tôi phân lớp câu hỏi căn cứ vào mục đích hỏi của câu hỏi (câu hỏi truy vấn về nội dung gì) Các câu hỏi của hệ thống được chúng tôi phân thành thành tám lớp [25]
Trong cấu trúc của câu hỏi, ngoài những ngữ đoạn NP (danh ngữ), QuaP (lượng ngữ), VP (động ngữ), AdjP (tính ngữ), PreP (giới ngữ), AdvP (trạng ngữ) còn có thể có thêm ngữ đoạn nghi vấn Đối với những ngữ đoạn nghi vấn, chúng tôi phân loại ra thành hai loại như sau [25]:
Ngữ đoạn nghi vấn gồm có một danh từ chung (CN) kết hợp với một từ nghi vấn (IRG) Trong đó, CN là danh từ chung chỉ người, sự vật, sự việc còn IRG là từ nghi vấn như “gì”, “nào”
Ngữ đoạn nghi vấn hỏi có một từ nghi vấn số lượng (IRG) đi kèm với một danh từ chung (CN) Trong đó, CN là danh từ chung chỉ người, sự vật, sự việc và IRG là từ nghi vấn như “bao nhiêu”, “mấy”
Trong công trình nghiên cứu này, danh ngữ được xử lý theo hai loại phân biệt [25]:
Trang 27- Danh ngữ chỉ người (a)
- Danh ngữ chỉ sự vật, sự việc, hiện tượng (b)
Trong quá trình phân tích và viết văn phạm DCG chúng tôi phải gom chung (a) và (b) lại thành một gọi là danh ngữ Bởi vì việc gom chung lại sẽ giúp chúng tôi rút gọn lại quá trình định nghĩa một khung văn phạm mẫu cho câu Thay vào đó, chúng tôi phải xây dựng thêm hàm xác định một danh ngữ thuộc danh ngữ loại (a) hay thuộc loại (b)
Giả sử chúng tôi có dạng câu NP1 + V + NP2 Nếu chúng tôi chia trực tiếp NP1 và NP2 thành hai danh ngữ chuyên biệt loại (a) {NP1_a, NP2_a} và loại (b) {NP1_b, NP2_b} thì chúng tôi sẽ phải định nghĩa qui tắc câu như sau:
Xác định danh ngữ: chúng tôi cài đặt hàm test_NP(NP), test_NP(NP, R) Đây là hàm kiểm tra một danh ngữ có phải là loại (a) hay loại (b) test_NP(NP), test_NP(NP, R) được chúng tôi xây dựng trong Prolog [15]
3.2.1 Lớp câu hỏi để truy vấn về sự vật, sự việc, hiện tượng (1)
Từ nghi vấn được dùng trong lớp câu hỏi 1 để hỏi gồm có: “gì”, “nào”,
“cái gì”, “cái nào”, … Kết quả trả về cho các câu hỏi thuộc lớp 2 là một danh ngữ chỉ sự vật, sự việc, hiện tượng [25]
Trang 28Cấu tạo của ngữ đoạn nghi vấn trong lớp câu hỏi 1 dùng để hỏi về sự vật,
sự việc, hiện tượng như sau [25]:
CN + IRG Trong đó, CN là danh từ chung chỉ sự vật, sự việc, hiện tượng và IRG là
động_từ(What, tham_tố_2) <phép liên kết> hàm(tham_tố_3)
động_từ(What, tham_tố_2) hoặc
động_từ(tham_tố_1, What) <phép liên kết> hàm(tham_tố_3)
động_từ(tham_tố_1, What) Kết quả trả về khi truy vấn bằng các câu hỏi thuộc lớp 1 là tham_tố_1 hoặc tham_tố_2
3.2.2 Lớp câu hỏi để truy vấn về người, hay một đối tượng đại diện liên quan đến người (2)
Cấu trúc các câu hỏi thuộc lớp 2 giống như các câu hỏi thuộc lớp 1 nhưng mục đích của các câu hỏi thuộc lớp 2 là để hỏi về người, hay đối tượng chỉ người Kết quả trả về cho các câu hỏi thuộc lớp 2 là một danh ngữ chỉ người [25]