Hệ thống hỏi đáp thông tin trong lĩnh vực công nghệ thông tin – truyền thông dựa trên cơ chế xử lý ngữ nghĩa của các tiêu đề tin tức tiếng việt

Dựa trên nội dung của các tiêu đề tin tức mà hệ thống đã xử lý, hệ thống có thể trả lời các câu hỏi tiếng Việt đơn giản được đặt ra cho hệ thống.Cơ chế đọc hiểu các tiêu đề tin tức và cá

Trang 2

MỤC LỤC TÓM TẮT

ABSTRACT

CHƯƠNG 1: TỔNG QUAN 1

1.1 Đặt vấn đề 1

1.2 Các công trình nghiên cứu khác có liên quan 1

1.3 Mục tiêu của đề tài 2

1.4 Phạm vi đề tài 2

1.5 Những đóng góp khoa học mới của đề tài 2

1.6 Các bài báo đã công bố của đề tài 3

CHƯƠNG 2: MÔ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU ĐỀ TIẾNG VIỆT CÓ CẤU TRÚC CÂU ĐƠN 5

2.1 Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa 5

2.2 Định nghĩa phép liên kết và độ ưu tiên của phép liên kết 7

2.2.1 Định nghĩa phép liên kết 7

2.2.2 Độ ưu tiên của phép liên kết 7

2.3 Tiếp cận biểu diễn ngữ nghĩa 8

2.4 Biểu diễn ngữ nghĩa của câu đơn tiếng Việt 9

2.4.1 Câu có một động từ 9

2.4.2 Câu có nhiều động từ 11

2.4.2.1 Câu có hai động từ liên tiếp nhau 11

2.4.2.2 Câu có hai động từ liên kết với nhau bằng liên từ “và” 12

2.4.2.3 Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ 13

2.4.3 Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng ngữ chỉ thời gian 14

Trang 3

2.4.4 Câu không có động từ 15

2.5 Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống 16

CHƯƠNG 3: MÔ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU HỎI VỀ CÁC TIÊU ĐỀ TIN TỨC TIẾNG VIỆT 17

3.1 Mô hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt 17

3.2 Phân chia lớp câu hỏi trong hệ thống theo mục đích hỏi 18

3.2.1 Lớp câu hỏi để truy vấn về sự vật, sự việc, hiện tượng (1) 19

3.2.2 Lớp câu hỏi để truy vấn về người, hay một đối tượng đại diện liên quan đến người (2) 20

3.2.3 Lớp câu hỏi truy vấn về thời gian (3) 21

3.2.4 Lớp câu hỏi truy vấn về vị trí, nơi chốn (4) 22

3.2.5 Lớp câu hỏi truy vấn về mức độ, tính chất của sự việc (5) 23

3.2.6 Lớp câu hỏi về số lượng đối tượng (6) 23

3.2.7 Lớp câu hỏi dạng tổng hợp để truy vấn về thông tin của một đối tượng (7) 24

3.2.8 Lớp câu hỏi mang ý nghĩa “Đúng – Sai” (8) 29

CHƯƠNG 4: HỆ THỐNG HỎI – ĐÁP TIẾNG VIỆT VỀ TIN TỨC CÔNG NGHỆ THÔNG TIN – TRUYỀN THÔNG 31

4.1 Mô hình hệ thống 31

4.1.1 Giới thiệu mô hình hoạt động 31

4.1.2 Giải thích mô hình hoạt động của mô hình 32

4.2 Xây dựng hệ thống 34

4.2.1 Xây dựng từ điển từ loại 34

4.2.2 Xây dựng “Bộ quy tắc cú pháp” và “Bộ quy tắc biểu diễn ngữ nghĩa” 35 4.2.3 Xây dựng nguồn cung cấp thông tin cho hệ thống 36

Trang 4

CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 38

5.1 Cài đặt hệ thống 38

5.2 Thử nghiệm 38

5.2.1 Thử nghiệm cơ sở 38

5.2.2 Thử nghiệm mở rộng 39

5.3 Đánh giá 40

CHƯƠNG 6: KẾT LUẬN 41

6.1 Kết luận 41

6.1.1 Các kết quả của đề tài 41

6.1.2 Những hạn chế của đề tài 41

6.2 Hướng phát triển 42

TÀI LIỆU THAM KHẢO 43

PHỤ LỤC: CÁC KÝ HIỆU TỪ LOẠI VÀ NGỮ ĐOẠN ĐƯỢC DÙNG 47

Trang 5

TÓM TẮT

Trong đề tài nghiên cứu này, chúng tôi nhắm đến việc xây dựng một Reading Answering System Model (RASM) cho tiếng Việt Mô hình RASM cho phép cài đặt một hệ thống hỏi đáp có thể đọc trực tiếp các tiêu đề tin tức tiếng Việt từ ICTNEWS (http://www.ictnews.vn) để dùng chúng làm dữ liệu cho việc trả lời các câu hỏi tiếng Việt có liên quan Mô hình này có thể phân tích cú pháp và ngữ nghĩa của nhiều dạng cấu trúc tiêu đề tin tức và câu hỏi tiếng Việt Chúng tôi đã xây dựng một hệ thống dựa trên RASM và đánh giá hiệu quả của hệ thống này trong các thực nghiệm Hệ thống thử nghiệm đạt độ chính xác là 66.63%

Trang 6

ABSTRACT

In this research project, we aim to build a Reading Answering System Model (RASM) for Vietnamese Language The RASM allows implementing a question answering system which can read directly Vietnamese news titles from ICTNEWS (http://www.ictnews.vn) and uses them as data for answering relative Vietnamese questions This model can analyze the syntax and semantics of several structures of Vietnamese news titles and questions We built a system based on RASM and evaluated the performance of this system in experiments The accuracy of experimental system is 66.63%

Trang 7

DANH MỤC HÌNH

Hình 2.1: Câu có một động từ (Nguồn: [24]) 10

Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24]) 11

Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24]) 12

Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24]) 13

Hình 2.5: Câu không có động từ (Nguồn: [24]) 15

Hình 2.6: Hình thức biểu diễn nghĩa của câu không có động từ (Nguồn: [24]) 15

Hình 4.1: Mô hình hoạt động của hệ thống [24], [25], [26] 32

Hình 4.2: Mối quan hệ giữa các tập tin Prolog 36

Trang 8

DANH MỤC BẢNG

Bảng 4.1: Bảng thống kê số lượng từ loại [24], [25], [26] 35

Bảng 4.2: Cấu tạo thành phần tổ chức của hệ thống 36

Bảng 5.1: Ngữ liệu cho thử nghiệm cơ sở (Nguồn: [25]) 38

Bảng 5.2: Kết quả thử nghiệm trên các câu hỏi chuẩn (Nguồn: [25]) 39

Bảng 5.3: Thống kê kết quả thử nghiệm trên các nhóm câu hỏi mở rộng (Nguồn: [26]) 39

Trang 9

ra những thách thức cần nghiên cứu giải quyết (cf [24], [25], [26], [27], [28])

Nội dung của báo cáo tổng kết này được trình bày dựa trên các bài báo đã được công bố của đề tài: [24], [25], [26], [27], [28]

1.2 Các công trình nghiên cứu khác có liên quan

Vấn đề xây dựng các hệ thống hỏi đáp tiếng Việt dựa trên việc phân tích

cú pháp, ngữ nghĩa của các câu ngữ liệu tiếng Việt để có thông tin trả lời cho các câu hỏi có liên quan đã được thực hiện lần đầu tiên trong các đề tài khóa luận tốt nghiệp đại học [2], [4], [5], [6] do TS Nguyễn Tuấn Đăng, Trường Đại học Công nghệ Thông tin – ĐHQG TP HCM, là người hướng dẫn khoa học Những đề tài nói trên đã xây dựng các hệ thống hỏi đáp tiếng Việt cho những lĩnh vực ứng dụng: kiến thức xã hội [2], kiến thức về động vật [4], kiến thức lịch sử Việt nam

[5], truy vấn thông tin về sản phẩm máy tính bảng [6] Đề tài này được chúng tôi triển khai và phát triển dựa trên việc tham khảo các kết quả nghiên cứu

đã công bố của Phạm Thế Sơn và Hồ Quốc Thịnh [5]

Ngoài ra, một số mô hình khác để xây dựng cơ chế đọc hiểu câu hỏi tiếng Việt cũng đã được nghiên cứu trong [1], [3] Trong vấn đề xây dựng các parser

Trang 10

cú pháp hoặc ngữ nghĩa cho câu đơn tiếng Việt, một số hướng tiếp cận khác cũng

đã được giới thiệu trong các công trình như [10], [11]

1.3 Mục tiêu của đề tài

Đề tài nhằm mục tiêu xây dựng một hệ thống hỏi đáp tiếng Việt về những tin tức ngắn gọn trong lĩnh vực công nghệ thông tin – truyền thông Hệ thống này hoạt động dựa trên một cơ chế đọc hiểu tiêu đề tiếng Việt của tối đa 10 tin mới nhất được đăng trên web site ICTNEWS [22] Dựa trên nội dung của các tiêu đề tin tức mà hệ thống đã xử lý, hệ thống có thể trả lời các câu hỏi tiếng Việt đơn giản được đặt ra cho hệ thống.Cơ chế đọc hiểu các tiêu đề tin tức và các câu hỏi được xây dựng dựa trên việc phân tích cú pháp và biểu diễn ngữ nghĩa của các câu đơn và một số loại ngữ đoạn tiếng Việt

- Không xử lý các vấn đề về phong cách, tu từ, tình thái, ẩn ý, hàm ý, v.v… trong các tiêu đề và câu hỏi tiếng Việt

1.5 Những đóng góp khoa học mới của đề tài

- Kết quả khoa học: Dựa trên các phương pháp biểu diễn và xử lý ngữ nghĩa

đã được đề nghị trong [12], [13], [14], [16], [17], [18], [19], đề tài ứng

Trang 11

dụng chúng vào việc xây dựng các phương pháp phân tích cú pháp và xử

lý ngữ nghĩa cho nhiều dạng câu đơn và ngữ đoạn tiếng Việt ở thể khẳng định và nghi vấn trong lĩnh vực tin tức công nghệ thông tin – truyền thông

để xây dựng hệ thống hỏi - đáp (trong mục tiêu và phạm vi đề tài)

- Chương trình máy tính: Hệ thống hỏi đáp tiếng Việt về tin tức công nghệ thông tin – truyền thông (trong mục tiêu và phạm vi đề tài) Hệ thống được xây dựng có thể xử lý 1199 từ vựng và đạt độ chính xác là 66.63% trong các thử nghiệm

1.6 Các bài báo đã công bố của đề tài

Các kết quả khoa học đã công bố của đề tài gồm có 05 bài báo:

1 Son The Pham and Dang Tuan Nguyen, "Processing Vietnamese News Titles to Answer Relative Questions in VNEWSQA/ICT System", International Journal on Natural Language Computing (IJNLC), Vol 2,

No 6, December 2013, pp 39-51 ISSN: 2278 - 1307 [Online]; 2319 -

4111 [Print] (Cf [24])

2 Son The Pham and Dang Tuan Nguyen, "Resolving the Semantics of Vietnamese Questions in VNewsQA/ICT System", International journal

of Artificial Intelligence & Applications (IJAIA), Vol 5, No 2, March

2014, pp 11-20 ISSN: 0975 - 900X [Online]; 0976 - 2191 [Print] (Cf [25])

3 Son The Pham, Dang Tuan Nguyen, “A Reading Answering System Model for Vietnamese Language”, Asia Modelling Symposium 2014 (AMS 2014), Eighth Asia International conference on Mathematical Modelling and Computer Simulation, Taipei, 23 September, 2014 / Kuala Lumpur, 25 September, 2014, pp 170-174, IEEE ISBN: 978-1-4799-6487-1 (Cf [26]) (ERA 2010 / CORE 2013 Conference Rankings: C)

Trang 12

4 Son The Pham, Dang Tuan Nguyen, “Implementation Method of Answering Engine for Vietnamese Questions in Reading Answering System Model (RASM)”, Asia Modelling Symposium 2014 (AMS 2014), Eighth Asia International conference on Mathematical Modelling and Computer Simulation, Taipei, 23 September, 2014 / Kuala Lumpur, 25 September, 2014, pp 175-180, IEEE ISBN: 978-1-4799-6487-1 (Cf [27]) (ERA 2010 / CORE 2013 Conference Rankings: C)

5 Son The Pham, Dang Tuan Nguyen, “Implementation Techniques for Computing the Semantics of Vietnamese News Titles in Reading Answering System Model (RASM)”, The Third Asian Conference on Information Systems (ACIS 2014), Nha Trang, Vietnam, December 1-3,

2014, pp 209-216 ISBN: 978-4-88686-089-7 (Cf [28])

Trang 13

CHƯƠNG 2: MÔ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU

ĐỀ TIẾNG VIỆT CÓ CẤU TRÚC CÂU ĐƠN

Trong chương 2, chúng tôi sẽ trình bày những nội dung chính như sau:

- Trình bày một số định nghĩa, quy ước riêng được sử dụng trong phương pháp biểu diễn ngữ nghĩa câu đơn của đề tài

- Xây dựng một phương pháp trình bày và biểu diễn ngữ nghĩa câu đơn theo

mô hình mà chúng tôi xây dựng, nhằm mục đích tạo sự dễ dàng trong việc định nghĩa văn phạm DCG (Definite Clause Grammar) trong Prolog

- Định nghĩa một số “phép liên kết”, “hàm” để biểu diễn các mối quan hệ và mối liên kết về mặt ngữ nghĩa

- Phân loại dạng câu đơn tiếng Việt theo nghĩa của động từ

- Xây dựng mô hình xử lý và cơ chế đọc hiểu câu đơn tiếng Việt

Những nội dung nghiên cứu trong chương này được trình bày theo các bài báo đã được công bố của đề tài: [24], [26] Phương pháp cài đặt thành

phần xử lý ngữ nghĩa tiêu đề tin tức tiếng Việt trong chương này được giới thiệu

trong [28]

2.1 Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa

Trong mục này chúng tôi trình bày những định nghĩa và những quy ước riêng để sử dụng trong phương pháp biểu diễn ngữ nghĩa của một câu [24, [26]

 Hằng ngữ đoạn: là một ngữ đoạn mà chúng tôi cho rằng không thể nào

phân tích thành những ngữ đoạn nhỏ hơn Chúng tôi biểu diễn hằng ngữ đoạn bằng cách sử dụng các ký hiệu “_” để kết hợp các “từ vựng” với nhau, hoặc đặt hằng ngữ đoạn nằm trong cặp dấu “<…>”

Trang 14

Hằng_ngữ_đoạn

<Hằng ngữ đoạn>

 Vị từ: các vị từ là những thành tố cơ sở trong lý thuyết ngữ nghĩa hình

thức [12], [13], [14], [16], [17], [18], [19], … được dùng để biểu diễn cấu trúc nghĩa của câu Thuật ngữ “vị từ” được chúng tôi sử dụng với ý nghĩa

là các “động từ” Các vị động từ có hình thức biểu diễn như sau:

Động_từ_làm_vị_từ(tham tố 1, tham tố 2) Trong đó, các tham tố có thể là một danh ngữ, một động ngữ, hay một tiểu

cú

 Hàm: dược sử dụng để biểu diễn các ý nghĩa về thời gian, không gian…

của câu, hay những mối quan hệ nào đó giữa hai đối tượng, và có hình thức biểu diễn như sau [24]:

Tên_hàm(tham_tố) Tên_hàm(tham_tố_1, tham_tố_2 …, tham_tố_n) Trong đó, các tham tố có thể là những giới ngữ, tính ngữ hoặc trạng ngữ Hàm có một tham tố hoặc nhiều tham tố tùy thuộc vào mục đích biểu diễn

Trong trường hợp biểu diễn quan hệ giữa hai đối tượng, hàm còn có hình thức như sau [24]:

Tên_hàm_1(Tên_hàm_2 (tham_tố)) Chúng tôi đã xây dựng những hàm cơ bản để dùng cho việc biểu diễn ngữ nghĩa như sau [24]:

+ Hàm chỉ thời gian: Time(AdvP)

+ Hàm chỉ vị trí, nơi chốn: Location(PreP)

Trang 15

 Phép liên kết giữa hàm với vị từ: gồm >->, > >, > -> tương ứng

với việc làm rõ nghĩa câu của giới ngữ, tính ngữ, và trạng ngữ chỉ thời gian đối với động từ [24]:

- Phép liên kết >-> biểu diễn việc bổ nghĩa của giới ngữ chỉ vị trí, nơi chốn cho vị từ

- Phép liên kết > > biểu diễn việc bổ nghĩa của trạng ngữ chỉ tính chất cho vị từ

- Phép liên kết > -> biểu diễn việc bổ nghĩa của trạng ngữ chỉ thời gian cho vị từ

 Phép liên kết giữa vị từ và vị từ: phép liên kết <-> biểu diễn mối quan

hệ giữa động từ với động từ trong câu có nhiều động từ [24]

2.2.2 Độ ưu tiên của phép liên kết

“Độ ưu tiên của các phép liên kết” là thứ tự thực hiện quá trình xử lý ngữ nghĩa mà chúng tôi thiết lập Mức độ ưu tiên của phép liên kết càng cao thì việc

xử lý ngữ nghĩa của phép liên kết đó được xảy ra trước Nếu các phép liên kết có cùng độ ưu tiên thì sẽ thực hiện từ trái sang phải, phép liên kết nào gặp đầu tiên thì sẽ xử lý trước [24]

Trang 16

Độ ưu tiên của các phép liên kết theo thứ tự giảm dần như sau [24]:

<->, >->, > >, > ->

Chú ý:

- Những phép liên kết mà chúng tôi vừa trình bày được biểu diễn dưới dạng

“op, infix, prefix, and postfix operators, precedence” trong Prolog [15], [20]

- Trong quá trình biểu diễn ngữ nghĩa chúng tôi có thể định nghĩa thêm một phép liên kết nào đó để biểu diễn mối quan hệ cần diễn tả

2.3 Tiếp cận biểu diễn ngữ nghĩa

 Những ngữ đoạn như danh ngữ (NP), giới ngữ (PreP), tính ngữ (AdjP), trạng ngữ chỉ thời gian (AdvP) sẽ được xem là các hằng ngữ đoạn và chúng đóng vai trò là những tham tố của các vị từ hay hàm

 Lượng ngữ QuaP là một ngữ đoạn có chức năng cung cấp thông tin về số lượng của một sự vật, sự việc, hoặc một đối tượng Đối với lượng ngữ thì

có hai hướng để biểu diễn ngữ nghĩa như sau:

- Hướng tiếp cận thứ nhất: Những từ biểu đạt thông tin về số lượng (lượng từ) được chia làm hai loại:

+ Lượng từ xác định: nếu lượng từ đứng trước danh từ thì sẽ định lượng cho danh từ đó Để biểu diễn lượng từ xác định chúng tôi định nghĩa một hàm như sau:

Definite(QuaP) Trong đó, QuaP là lượng ngữ Definite là tên hàm biểu diễn lượng ngữ phía bên trong

Trang 17

+ Lượng từ không xác định: bao gồm các từ như sau: {những, các, tất

cả, cả, cả thảy, nhiều, mọi, mỗi} Những lượng từ vừa đề cập sẽ đứng trước danh từ và biểu diễn số lượng không xác định cho danh

từ đang xét Để biểu diễn lượng từ xác định chúng tôi định nghĩa một hàm như sau:

Indefinite(QuaP) Trong đó, QuaP là lượng ngữ Indefinite là tên hàm biểu diễn lượng ngữ phía bên trong

Chúng tôi sẽ chọn cách thứ nhất làm hướng tiếp cận trong đề tài để phát triển cho những câu liên quan đến lượng ngữ

- Hướng tiếp cận thứ hai: không phân chia lượng từ thành hai loại xác định và không xác định nhưng vẫn đảm bảo rằng ngữ đoạn mà đang xét là lượng ngữ Hướng tiếp cận thứ hai này đã được giới thiệu trong [5] và có một số hạn chế cần phát triển thêm Do đó, chúng tôi không

sử dụng cách tiếp cận thứ hai này

2.4 Biểu diễn ngữ nghĩa của câu đơn tiếng Việt

Theo lý thuyết ngữ nghĩa hình thức [12], [13], [14], [16], [17], [18], [19], ngữ nghĩa câu được biểu diễn dựa trên cấu trúc tham tố của động từ Trong đề tài này chúng tôi nghiên cứu những cấu trúc câu có một và hai động từ trong tiếng Việt dựa trên cơ sở của các lý thuyết ngôn ngữ học [9], [13], [21]

2.4.1 Câu có một động từ

Theo [24], câu đơn có một động từ được chúng tôi xử lý dựa trên mô hình trong [Hình 2.1]

Trang 18

NP + V + NP + C + NP + QuaP

PrePAdjPAdvP

“tham_tố_2” sẽ nhận giá trị là những ngữ đoạn NP hoặc QuaP nên (1), (2), (3) trong [Hình 2.1] là những phép bổ nghĩa cho động từ chính trong câu

Theo [24], những ngữ đoạn PreP, AdjP, AdvP sẽ đóng vai trò là phụ ngữ làm sáng rõ nghĩa cho động từ chính; phép biểu diễn (4) (hay phép liên kết) trong [Hình 2.1] chỉ sự làm rõ nghĩa cho động từ, mức độ làm rõ nghĩa của những phụ ngữ PreP, AdjP, AdvP là như nhau Trong mô hình biểu diễn, chúng tôi sẽ định nghĩa thêm ba phép biểu diễn dùng cho ba ngữ đoạn PreP, AdjP và AdvP như sau [24]:

- Đối với PreP, chúng tôi sẽ dùng hàm Location(PreP) và dùng phép liên kết

>-> làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của PreP đối với động từ chính trong câu

- Đối với AdvP, chúng tôi sẽ dùng hàm Manner(AdvP) và dùng phép liên kết > > làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của AdjP đối với động từ chính trong câu

Trang 19

- Hàm Time(AdvP) và phép liên kết > -> được chúng tôi sử dụng để làm sáng rõ nghĩa về thời gian của AdvP đối với động từ chính trong câu

Cả ba phép biểu diễn >->, > >, > -> đều có mức độ làm rõ nghĩa đối với động từ chính trong câu như nhau Nhưng nếu cả ba phép biểu diễn này cùng xuất hiện cùng nhau thì chúng tôi quy ước độ ưu tiên dùng để phân tích như sau:

>-> lớn hơn > > lớn hơn > -> (giảm dần từ trái qua phải)

2.4.2 Câu có nhiều động từ

2.4.2.1 Câu có hai động từ liên tiếp nhau

Trong loại câu có hai động từ liên tiếp nhau, động từ đứng trước bổ nghĩa cho động từ đứng sau hoặc động từ đứng sau bổ nghĩa cho động từ đứng trước [24] Động ngữ của câu sẽ được phân tích và biểu diễn thông qua sơ đồ tổng quan trong [Hình 2.2]

NP + V1 + V2 + NP + C + NP + QuaP

PrePAdjPAdvP

(4)

VP1 VP2

Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24])

Trong cấu trúc câu ở [Hình 2.2], hai thành phần bắt buộc không thể thiếu

là VP1 và VP2 Cấu trúc câu này có hình thức biểu diễn ngữ nghĩa như sau [24]:

động_từ_V1(tham_tố_1, động_từ_V2 (tham_tố_1, tham_tố_2))

Chúng tôi thấy “tham_tố_1” của “động_từ_V1” và “động_từ_V2” sẽ nhận giá trị là ngữ đoạn đứng trước hai động từ, nhưng trong mô hình biểu diễn chúng

Trang 20

tôi sẽ lấy giá trị cho tham_tố_1 của động từ V2 là same_Subject, còn tham_tố_2

của động_từ_V2 sẽ nhận ngữ đoạn đứng phía sau động từ V2 [24]

2.4.2.2 Câu có hai động từ liên kết với nhau bằng liên từ “và”

Trong mô hình biểu diễn nghĩa của câu dạng này, động từ V1, V2 sẽ liên kết với nhau bởi kết từ “và” và được mô tả như trong [Hình 2.3]

NP + V1 [và] V2 + NP + C + NP QuaP

PrePAdjPAdvP

(4)

Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24])

Trong cấu trúc câu ở [Hình 2.3], hai thành phần bắt buộc không thể thiếu

là VP1 và VP2 Cả hai động từ đều biểu đạt ngữ nghĩa của câu Chúng tôi không cùng lúc lấy V1 và V2 làm vị từ theo cách động_từ_V1_và_động_từ_V2(tham

tố, tham tố), bởi vì như vậy sẽ không biểu diễn hết về mặt nghĩa của mỗi động từ, mặc dù hai động từ có cùng các tham tố nhưng mỗi động từ có nghĩa khác nhau [24]

Chúng tôi đưa ra một hình thức để biểu diễn cho cả hai động từ trong mô hình như sau [24]:

động_từ_V1(tham tố 1, tham tố 2) <-> động_từ_V2(tham tố 1, tham tố 2) Phép liên kết <-> được dùng để liên kết hai động từ lại với nhau, với mức

ưu tiên là cao nhất trong các phép liên kết được chúng tôi định nghĩa [24]

Trang 21

Như vậy, chúng tôi đã liên kết được hai động từ lại với nhau “tham tố 1” lần lượt của vị từ “động_từ_V1” và “động_từ_V2” là cùng giống nhau và nhận giá trị là danh ngữ (NP) hay lượng ngữ (QuaP) Tương tự “tham tố 2” cũng vậy

Tiếp theo, quá trình xử lý những ngữ đoạn PreP, AdjP, AdvP cũng tương

tự như trên Nhưng tại đây phải chú ý rằng độ ưu tiên của phép liên kết <-> là cao nhất so với độ ưu tiên của các phép liên kết >->, > >, > ->

2.4.2.3 Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ

Trong mô hình này, động từ V1, V2 sẽ ở hai vị trí cách xa nhau, và được

mô tả qua [Hình 2.4]

NP + V1 + NP + C + NP + V2 + NP + C + NP

QuaP

PrePAdjPAdvP

QuaPQuaP

VP1Clause

VP2S

Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24])

Trong [Hình 2.4], Clause thực ra là một tiểu cú Xét theo ngữ cảnh đây là một dạng câu mà hành động của động từ V1 xảy ra trước hành động của động từ V2 Nhờ vào V1 xảy ra trước V2 nên mới có sự kết hợp tạo nên tiểu cú Clause

Tiểu cú (Clause) trong [Hình 2.4] là một cấu trúc ngữ pháp cơ bản (giống như câu có một động từ) nên chúng tôi dễ dàng biểu diễn được ngữ nghĩa thông qua động từ V1 của tiểu cú như sau:

động_từ_V1(tham_tố_1, tham_tố_2)

Trang 22

Trong đó, “tham_tố_1” và “tham_tố_2” có thể là danh ngữ (NP) hoặc lượng ngữ (QuaP)

Đối với động từ V2, động từ này cũng có hai tham tố theo hình thức như sau:

động_từ_V2(tham_tố_3, tham_tố_4) Trong đó, “tham_tố_3” sẽ nhận từ kết quả ngữ nghĩa của tiểu cú Clause (thông qua dạng ngữ nghĩa của động từ V1) “Tham_tố_4” sẽ nhận giá trị là các ngữ đoạn danh ngữ (NP) hoặc lượng ngữ (QuaP) Theo cách mô tả vừa nêu, chúng tôi có hình thức trình bày và biểu diễn ngữ cho toàn câu thông qua hình thức ngữ nghĩa của động từ V1 và V2 như sau:

động_từ_V2(động_từ_V1(ngữ_đoan_1, ngữ_đoạn_2), ngữ_đoạn_4)

2.4.3 Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng ngữ chỉ thời gian

Đây là dạng câu bắt đầu bằng động từ, thành phần danh ngữ và lượng ngữ đứng trước động từ chính trong câu bị khuyết nhưng vẫn biểu diễn được nội dung phát biểu của câu Hay nói cách khác đây là loại câu bắt đầu từ động từ và trong câu có thể có hai động từ

Để giải quyết, chúng tôi xem ngữ đoạn bị khuyết như là một tham tố đặc biệt của vị từ hoặc của hàm Chúng tôi quy ước ngữ đoạn bị khuyết trong mô hình có ký hiệu như sau “_” hoặc “no_subject” Mô hình biểu diễn có hình thức như sau:

động_từ_V1(no_subject, tham_tố) động_từ_V2(động_từ_V1(no_subject, tham_tố_1), tham_tố_2)

Trang 23

2.4.4 Câu không có động từ

Đây là một dạng câu rất đặc biệt vì câu không có động từ Cấu tạo của câu được trình bày như trong [Hình 2.5]

NPQP

Hình 2.5: Câu không có động từ (Nguồn: [24])

Cấu tạo của dạng câu này gồm các ngữ đoạn đơn giản với vị trí và thứ tự không có mối liên hệ nào với nhau Những ngữ đoạn mà chúng tôi xét gồm NP, QuaP, PreP, AdjP và AdvP Các ngữ đoạn (1), (2), (3), (4) trong [Hình 2.5] có thể hoán vị vị trí lẫn nhau sao cho đúng về mặt nghĩa và người đọc hiểu được nội dung của lời phát biểu Chúng tôi dùng các hàm cùng với các phép liên kết để biểu diễn ngữ nghĩa trong mô hình câu không có động từ [24]

Cụ thể chúng tôi đề xuất hình thức dùng để trình bày ngữ nghĩa của câu không có động từ như trong [Hình 2.6]

Object(NP)

Object(QuaP)

Time(AdvP)

& Possessive(NP/QuaP, PreP_poss)Location(PreP_loca) & Adjective(AdjP) &

Hình 2.6: Hình thức biểu diễn nghĩa của câu không có động từ (Nguồn: [24])

- Hàm Adjective(AdjP) biểu diễn tính ngữ

- Hàm Time(AdvP) sẽ biểu diễn trạng ngữ chỉ thời gian

Trang 24

Phép liên kết & liên kết các hàm lại với nhau Vì cùng là một phép liên kết nên thứ tự ưu tiên để xét tính từ trái qua phải

2.5 Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống

Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống gồm có 5 giai đoạn xử lý như sau [24]:

- Giai đoạn 1: Xác định từ và từ loại Hệ thống sử dụng một “Từ điển tiếng Việt” được chúng tôi xây dựng để có thể xác định được từ và từ loại

- Giai đoạn 2: Phân tích và xác định ngữ đoạn Bộ quy tắc cú pháp sẽ giúp

hệ thống xác định được loại ngữ đoạn và bản thân của ngữ đoạn đó sẽ là tham tố của vị từ hoặc là tham tố của hàm

- Giai đoạn 3: Phân tích và xác định cây cú pháp của câu Bộ quy tắc cú pháp sẽ giúp hệ thống xác định cấu trúc cú pháp duy nhất của câu thông qua văn phạm mà chúng tôi đã xây dựng trước

- Giai đoạn 4: Xác định mô hình ngữ nghĩa của câu Bộ quy tắc biểu diễn ngữ nghĩa sẽ giúp hệ thống có thể xác định được mô hình ngữ nghĩa cho câu dữ liệu Kết quả của giai đoạn này là một biểu thức biểu diễn ngữ nghĩa của câu dựa trên các vị từ, phép liên kết, và hàm

- Giai đoạn 5: Đưa biểu thức biểu diễn ngữ nghĩa vào cơ sở dữ liệu sự kiện Prolog Thông qua quá trình phân tích biểu thức ngữ nghĩa và kết hợp với

bộ quy tắc cập nhật thì hệ thống sẽ chuyển những biểu thức ngữ nghĩa thành các sự kiện trong Prolog để cho người dùng truy vấn

Mô hình xử lý ngữ nghĩa câu đơn tiếng Việt của hệ thống đã được giải thích chi tiết trong [24], [26], [28]

Trang 25

CHƯƠNG 3: MÔ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU HỎI VỀ CÁC TIÊU ĐỀ TIN TỨC TIẾNG VIỆT

Trong chương 3, chúng tôi sẽ trình bày những nội dung chính như sau:

- Xây dựng mô hình đọc hiểu – trả lời các câu hỏi tiếng Việt trong hệ thống

- Phân loại xử lý câu hỏi tiếng Việt trong hệ thống tùy theo mục đích hỏi Những nội dung nghiên cứu trong chương này được trình bày theo các bài báo đã được công bố của đề tài: [25], [26] Các phương pháp và cài đặt chi tiết của chương này được chúng tôi giới thiệu trong: [27]

3.1 Mô hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt

Mô hình đọc hiểu – trả lời câu hỏi tiếng Việt gồm có 5 giai đoạn xử lý như sau [25]:

- Giai đoạn 1: Đây là bước xác định từ và xác định từ loại dựa trên “Từ điển tiếng Việt”

- Giai đoạn 2: Quá trình xác định ngữ đoạn “Bộ quy tắc cú pháp” sẽ giúp

hệ thống xác định được loại ngữ đoạn NP, QuaP, AdvP, AdjP, PreP và ngữ đoạn nghi vấn (QueP) Việc xác định ra ngữ đoạn nghi vấn sẽ giúp hệ thống xác định được câu nhập vào là câu hỏi Những ngữ đoạn NP, QuaP, AdvP, AdjP, PreP sẽ là tham tố của vị từ hoặc là tham tố của hàm, còn ngữ đoạn nghi vấn là một ngữ đoạn đặc biệt cũng đóng vai trò là tham tố của vị từ hoặc của hàm nhưng với chức năng là một “biến truy vấn”, “biến truy vấn” sẽ mang kết quả trả lời

- Giai đoạn 3: Đây là quá trình phân tích cú pháp và xác định cấu trúc cú pháp của câu hỏi dựa trên “Bộ quy tắc cú pháp”

Trang 26

- Giai đoạn 4: Xác định mô hình ngữ nghĩa cần biểu diễn cho câu hỏi Sử dụng “Bộ quy tắc biểu diễn ngữ nghĩa” và áp dụng kỹ thuật “GAP” (như trong [5]) sẽ giúp hệ thống có thể xác định được mô hình ngữ nghĩa cho câu hỏi nhập vào Kết quả của giai đoạn này là một biểu thức biểu diễn ngữ nghĩa của câu hỏi

- Giai đoạn 5: Để có được kết quả của phép truy vấn thì hệ thống thực hiện một quá trình so khớp hai biểu thức biểu diễn ngữ nghĩa bằng cách sử dụng cơ chế so khớp của Prolog, đây gọi là quá trình tìm kiếm kết quả trả lời Cụ thể đây chính là quá trình so khớp biểu thức biểu diễn ngữ nghĩa của các câu dữ liệu trong cơ sở dữ liệu sự kiện với biểu thức biểu diễn ngữ nghĩa của câu hỏi

3.2 Phân chia lớp câu hỏi trong hệ thống theo mục đích hỏi

Trong công trình nghiên cứu này, chúng tôi phân lớp câu hỏi căn cứ vào mục đích hỏi của câu hỏi (câu hỏi truy vấn về nội dung gì) Các câu hỏi của hệ thống được chúng tôi phân thành thành tám lớp [25]

Trong cấu trúc của câu hỏi, ngoài những ngữ đoạn NP (danh ngữ), QuaP (lượng ngữ), VP (động ngữ), AdjP (tính ngữ), PreP (giới ngữ), AdvP (trạng ngữ) còn có thể có thêm ngữ đoạn nghi vấn Đối với những ngữ đoạn nghi vấn, chúng tôi phân loại ra thành hai loại như sau [25]:

 Ngữ đoạn nghi vấn gồm có một danh từ chung (CN) kết hợp với một từ nghi vấn (IRG) Trong đó, CN là danh từ chung chỉ người, sự vật, sự việc còn IRG là từ nghi vấn như “gì”, “nào”

 Ngữ đoạn nghi vấn hỏi có một từ nghi vấn số lượng (IRG) đi kèm với một danh từ chung (CN) Trong đó, CN là danh từ chung chỉ người, sự vật, sự việc và IRG là từ nghi vấn như “bao nhiêu”, “mấy”

Trong công trình nghiên cứu này, danh ngữ được xử lý theo hai loại phân biệt [25]:

Trang 27

- Danh ngữ chỉ người (a)

- Danh ngữ chỉ sự vật, sự việc, hiện tượng (b)

Trong quá trình phân tích và viết văn phạm DCG chúng tôi phải gom chung (a) và (b) lại thành một gọi là danh ngữ Bởi vì việc gom chung lại sẽ giúp chúng tôi rút gọn lại quá trình định nghĩa một khung văn phạm mẫu cho câu Thay vào đó, chúng tôi phải xây dựng thêm hàm xác định một danh ngữ thuộc danh ngữ loại (a) hay thuộc loại (b)

Giả sử chúng tôi có dạng câu NP1 + V + NP2 Nếu chúng tôi chia trực tiếp NP1 và NP2 thành hai danh ngữ chuyên biệt loại (a) {NP1_a, NP2_a} và loại (b) {NP1_b, NP2_b} thì chúng tôi sẽ phải định nghĩa qui tắc câu như sau:

Xác định danh ngữ: chúng tôi cài đặt hàm test_NP(NP), test_NP(NP, R) Đây là hàm kiểm tra một danh ngữ có phải là loại (a) hay loại (b) test_NP(NP), test_NP(NP, R) được chúng tôi xây dựng trong Prolog [15]

3.2.1 Lớp câu hỏi để truy vấn về sự vật, sự việc, hiện tượng (1)

Từ nghi vấn được dùng trong lớp câu hỏi 1 để hỏi gồm có: “gì”, “nào”,

“cái gì”, “cái nào”, … Kết quả trả về cho các câu hỏi thuộc lớp 2 là một danh ngữ chỉ sự vật, sự việc, hiện tượng [25]

Trang 28

Cấu tạo của ngữ đoạn nghi vấn trong lớp câu hỏi 1 dùng để hỏi về sự vật,

sự việc, hiện tượng như sau [25]:

CN + IRG Trong đó, CN là danh từ chung chỉ sự vật, sự việc, hiện tượng và IRG là

động_từ(What, tham_tố_2) <phép liên kết> hàm(tham_tố_3)

động_từ(What, tham_tố_2) hoặc

động_từ(tham_tố_1, What) <phép liên kết> hàm(tham_tố_3)

động_từ(tham_tố_1, What) Kết quả trả về khi truy vấn bằng các câu hỏi thuộc lớp 1 là tham_tố_1 hoặc tham_tố_2

3.2.2 Lớp câu hỏi để truy vấn về người, hay một đối tượng đại diện liên quan đến người (2)

Cấu trúc các câu hỏi thuộc lớp 2 giống như các câu hỏi thuộc lớp 1 nhưng mục đích của các câu hỏi thuộc lớp 2 là để hỏi về người, hay đối tượng chỉ người Kết quả trả về cho các câu hỏi thuộc lớp 2 là một danh ngữ chỉ người [25]

Định dạng
Số trang	56
Dung lượng	1,25 MB