Luận án tiến sĩ Khoa học máy tính: Mô hình và phương pháp lập luận để trả lời các câu hỏi "tại sao" dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt

sec eeeeeekeKết quả thử nghiệm khi không sử dụng một trong cácthành phần trong mô hình của luận án với câu trả lời có nhiêu ý trên ngữ liệu VnYNews...- cư, Thống kê số lượng trường hợp c

Trang 1

TRUONG ĐẠI HỌC CÔNG NGHE THONG TIN

Nguyen Trong Chinh

MO HINH VA PHUONG PHAP LAP LUAN DE TRA LOI CAC

CÂU HOI "TAI SAO" DỰA TREN CÁCH TIẾP CAN PHAN

TICH DIEN NGON TIENG VIET

LUẬN AN TIEN SĨ KHOA HOC MAY TINH

Trang 2

ĐẠI HỌC QUỐC GIA TPHCM

Nguyễn Trọng Chỉnh

MÔ HÌNH VÀ PHƯƠNG PHÁP LẬP LUẬN DE TRA LOI CÁC

CÂU HOI "TẠI SAO" DỰA TREN CÁCH TIẾP CAN PHAN

TÍCH DIEN NGÔN TIENG VIET

Chuyén nganh: KHOA HOC MAY TINH

Mã số: 62.48.01.01

LUẬN ÁN TIEN SĨ KHOA HỌC MAY TÍNH

NGƯỜI HƯỚNG DAN KHOA HỌC:

1 PGS TS Nguyên Tuân Đăng

2 PGS TS Phạm Hữu Đức

TP HO CHÍ MINH — NĂM 2023

Trang 3

LOI CAM DOAN

Tôi cam đoan răng nội dung luận án này do chính tôi trực tiếp thực hiện và chưađược công bé trong bat kỳ khóa luận tốt nghiệp, luận văn thạc sĩ hay luận án tiến sĩnào ngoài những báo cáo hội nghị, bài báo tạp chí hay đề tài nghiên cứu khoa học

phục vụ cho chính luận án này.

Tác giả luận án

Nguyễn Trọng Chỉnh

Trang 4

Nội dung nghiên cứu

Đôi tượng nghiên cứu

Phạm vi nghiên cứu

Y nghĩa khoa học và thực tiễn của đề tài

CHƯƠNG 1. TONG QUAN

Tom tat chuong

1.1.2 Bài toán trả lời câu hỏi "TAI SAO"

1.1.3 Đánh giá phương pháp tra lời câu hỏi

TONG QUAN TINH HÌNH NGHIÊN CỨU

1.2.1 Hướng tiếp cận chú giải tri thức 1.2.2 Hướng tiếp cận khai phá tri thức

1.2.3 Các phương pháp trả lời câu hỏi “TAI SAO”

1.2.4 Nhận xét các phương pháp trả lời câu hỏi “TẠI SAO”

1.2.5 Các nghiên cứu hỏi-đáp cho tiếng Việt

CÁC VAN DE LIEN QUAN

1.3.1 Lập luận

1.3.2 Diễn ngôn

HƯỚNG TIẾP CẬN CỦA LUẬN ÁN1.4.1 Tính toán mức độ thỏa lược đồ lập luận loại suy1.4.2 Nhận dạng quan hệ diễn ngôn

\S ¬ì"' ¬\" ¬I" èðH Ca: + C2 C2 C3 =mïm =

€3) Ó©2 Ó) Ó©2 t2) NY NY NY FF FF FP eSAAI KDN HNN FW ONAN FL C

Trang 5

1.5 CÁU TRÚC CỦA LUẬN ÁN

CHƯƠNG2 CƠ SỞ LÝ THUYET

(RHETORICAL STRUCTURE THEORY)

2.1.1 Don vị diễn ngôn cơ bản 2.1.2 Quan hệ diễn ngôn

2.1.3 Nguyên tắc phân tích diễn ngôn theo RST

2.1.4 Phương pháp phân đoạn EDU

2.1.5 Phương pháp xác định quan hệ diễn ngôn

LẬP LUẬN LOẠI SUY

2.3.3 Tính toán ngữ nghĩa với kiến trúc mạng BERT

DE XUẤT CÁC KHÁI NIỆM

2.4.1 Khái niệm chuỗi

2.4.2 Các khái niệm liên quan đến lập luận

2.4.3 Các khái niệm cơ bản của bài toán trả lời câu hỏi “TẠI SAO”

KET CHƯƠNG

CHUONG 3 PHAN TÍCH DIEN NGÔN TIENG VIET

O CAP ĐỘ CÂU VÀ LIÊN CÂU

44

46

46 46

50 53

53 54 54 55 61 61 61 63 66

68 68 69

71

71 71

73

Trang 6

3.3.1 Xây dựng văn phạm phi ngữ cảnh 73

3.3.2 Phân tích quan hệ lý do ở cấp độ câu 773.4 XÁC ĐỊNH QUAN HỆ LÝ DO Ở MỨC LIÊN CÂU 793.5 THU NGHIỆM VÀ ĐÁNH GIÁ 79

3.5.1 Đánh giá kết quả phân đoạn EDU 793.5.2 Đánh giá kết quả xác định quan hệ lý do cấp độ câu 803.6 KET CHUONG 81

CHUONG 4 PHƯƠNG PHÁP LẬP LUẬN TREN BIEU DIEN

DANG VAN BAN TIENG VIET 83

Tom tat chuong 83

4.1 PHƯƠNG PHAP LẬP LUẬN TREN BIEU DIEN

DANG VAN BAN THEO CO CHE LOAI SUY 85

4.1.1 Tinh toán độ thuyết phục của lập luận g7 4.1.2 Xác nhận sự thỏa lược đồ loại suy 88

4.2 ỨNG DỤNG CUA LẬP LUẬN TREN BIEU DIỄN

DẠNG VĂN BẢN 88

4.2.1 So khớp ngữ nghĩa của hai câu 88

4.2.2 Tính toán độ tương đồng ngữ nghĩa giữa hai câu 89

4.3 HUAN LUYỆN MÔ HINH NHẬN DẠNG LẬP LUẬN

TREN BIEU DIEN DẠNG VĂN BẢN VỚI KIÊN TRÚC BERT 90

4.3.1 Xây dựng bộ ngữ liệu huấn luyện 90

4.3.2 Huấn luyện mô hình nhận dạng lập luận loại suy cho tiếng Việt 92

4.4 ĐÁNH GIÁ MÔ HÌNH NHẬN DẠNG LẬP LUẬN LOẠI SUY

TREN BIEU DIEN DANG VAN BẢN 93

4.5 KET CHUONG 94

CHUONG 5 MO HÌNH LẬP LUẬN DE TRA LOI CÂU HOITAISAO 95

Tom tat chuong 955.1 PHƯƠNG PHAP LẬP LUẬN DE TRA LOI CÂU HOI “TẠI SAO” ~—975.2 MÔ HÌNH LẬP LUẬN DE TRA LOI CÂU HOI “TAI SAO” 98

5.2.1 Thanh phan phân tích diễn ngôn 1015.2.2 Thanh phan lập luận loại suy 1045.2.3 Thanh phan chon quan hé ly do 1075.2.4 Thanh phan hau xt ly 1115.3 NGỮ LIEU THU NGHIEM 112

Trang 7

5.3.1 Ngữ liệu thử nghiệm dé đánh giá mô hình5.3.2 Ngữ liệu huấn luyện mô hình rút trích câu trả lời5.3.3 Độ đo đánh giá kết quả thử nghiệm

5.4 CÁC CHUONG TRÌNH ĐƯỢC THU NGHIỆM

5.4.1 Chương trình IRYQA

5.4.2 Chương trình QU-PhoBERT

5.4.3 Chương trình UIT-PhoBERT

5.4.4 Chương trình UIT-DistiIBERT 5.4.5 Chương trình UIT-XLMR

5.4.6 Chương trình BERTYQA

5.4.7 Chuong trinh OH-YQA

5.4.8 Chuong trinh MHOPQA

5.5 THU NGHIỆM VA DANH GIÁ

5.5.1 Thử nghiệm với câu trả lời có một ý

5.5.2 Thử nghiệm với câu trả lời có nhiều hơn một ý5.5.3 Thử nghiệm vai trò của các thành phan trong mô hình5.6 _ ƯU ĐIÊM VÀ NHƯỢC DIEM CUA MÔ HÌNH

Danh mục công trình nghiên cứu

Tài liệu tham khảo

112

113

114

114 115

116

116 117 117 117 117

118 119

119

125

128 134

135

138 139

140

142

143 144

146

147

Trang 8

DANH MUC BANG

Cac phương pháp trả lời câu hỏi “TAI SAO”

theo cách tiếp cận kết hợp IR và IE 2-2 2 s2+x+zx+zx+zszse2 19Kết quả trả lời các dạng câu hỏi và dạng câu hỏi tại sao

trên tập development của ngữ liệu SQUAD vĨ.l «« 22

Các thành phần của một lược đồ của một quan hệ diễn ngôn 43Các yếu tô đối ứng của âm thanh và ánh sáng - + 49Các yếu tổ loại suy cho lập luận về phán đoán thực tế về đạo đức 5lCác yếu tô loại suy cho lập luận về mèo là loài bò sát 51Các trường hợp xuất hiện câu trả lời của câu hỏi “TẠI SAO” 66Bảng xác định thành phần kết luận trong cấu trúc lý do

dựa trên quan hệ diễn ngôn thuộc nhóm quan hệ lý đo 70

Thông kê về bộ ngữ liệu gán nhãn EDU 2 2 25+: 72Một số luật sản sinh quan trọng và ý nghĩa của nó

trong văn phạm pp, - - - - - + + +3 919391 vn ng Hy 75

Các trường hop cần đưa vào nhóm quan hệ lý do ở cấp độ câu 76Các trường hợp cần đưa vào nhóm quan hệ lý do ở mức liên câu 79

Hiệu quả của việc chú giải tự động ngữ liệu phân đoạn EDU

từ treebank cấu trúc ngữ đoạn tiếng Việt NIIVTB - 80

Thống kê dữ liệu thử nghiệm cho bài toán phân tích quan hệ lý do 81

Các dạng lập luận trong ngữ liệu VnNewsNLI 91

Thống kê các tập ngữ liệu NLI tiếng Việt được sử dụng 92

Kết qua thử nghiệm các mô hình NLI tiếng Việt 93

Thống kê các ngữ liệu thử nghiệm - 2 2 s£xezzzzzzsred 112

Ty lệ các nhóm trong tap VnYQA và VIYQuAD 113

Thống kê ngữ liệu VSQUAD và ViQuAD -5¿ccccccea 114Kết qua của các chương trình trên ngữ liệu VnYQA

8/49/1001 119

Kết quả thử nghiệm của các chương trình theo nhóm câu hỏi

trên ngữ liệu VnYQA và VIYQuAD - chư 121

Kết quả thử nghiệm của các chương trình với câu trả lời

có nhiều ý trên ngữ liệu VnYNews 2-55c 2c screrkerrrrsrred 126Kết quả thử nghiệm khi không sử dụng một trong các

thành phần trong mô hình của luận án trên tập thử nghiệm

Trang 9

trên ngữ liệu VnYQA và VIYQuADD sec eeeeeeke

Kết quả thử nghiệm khi không sử dụng một trong cácthành phần trong mô hình của luận án với câu trả lời

có nhiêu ý trên ngữ liệu VnYNews - cư,

Thống kê số lượng trường hợp có câu trả lời sai của

mô hình lập luận dé trả lời câu hỏi “TAI SAO” dựa trêncách tiếp cận phân tích diễn ngôn tiếng Việt theo lập luận

và quan hệ diễn ngôn . ¿- 2 25+©++2x+zxvzvervzrvzrezrresThống kê số lượng trường hợp có câu trả lời đúng của

mô hình lập luận dé trả lời câu hỏi “TAI SAO” dựa trêncách tiếp cận phân tích diễn ngôn tiếng Việt theo lập luận

và quan hệ diễn ngôn . ¿+ +s+++zx+z++z+zx+zxzxezed

¬" 133

Trang 10

H/01/1/8/11/89) ST 33

Minh họa cầu trúc tu từ theo RST v.cccccccscssesescsvscssssesesescsvsvevevseseseseseees 35

Minh họa quan hệ diễn ngôn một hạt nhân «-+~<<<++++ 44

Minh họa quan hệ diễn ngôn nhiêu hạt nhân -:-c+cccs+s+se¿ 44Lược đồ cơ bản của lập luận loại suy theo Juthe - -‹- 49Minh họa kiến trúc BERT -¿-©5¿25+2++2£xvvtxverrxrsrxrsrrree 56Kiến trúc mang dùng đề huấn luyện mô hình NLI - 59Minh họa kiến trúc mạng cho bài toán gán nhãn dữ liệu chuỗi 60

Vi dụ về định dang chú giải EDU 2- 2 2 2+s2+x£E+zxzzs+ce2 72

Minh họa việc áp dụng lược đồ lập luận loại suy của Juthe 85

Mô hình hệ thống lập luận dé trả lời câu hỏi "Tại sao"

dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt 99Quy trình xử lý câu hỏi của hệ thống lập luận dé trả lời câu hỏi

"Tại sao" dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt 99

So đồ thiết kế thành phan phân tích diễn ngôn theo quan hệ lý do 102Quy trình xử lý văn bản của thành phần phân tích diễn ngôn

theo quan hệ lý đỊO - - 5 + 13119 11191111911 191 191 ng ng nếp 102

Kết quả phân tích quan hệ lý do của thành phần

Phân tích diễn ngôn ¿+52 5++2+2E+2E2EEEeEEeExerxerxerrrrrrrrrree 103

Sơ đồ thiết kế thành phan lập luận loại suy - - - 104Quy trình xử lý của thành phan lập luận loại suy - 104Kết quả tạo lập luận theo cơ chế loại suy của thành phần

Lap 1uan load SUY 1 Ố 106

Thành phan chọn quan hệ lý dO ccsscssesssessessessesssessessessseeseesessesseeess 107Quy trình xử lý của thành phan chọn quan hệ lý do 107

Đồ thị lý do được tạo trong thành phần Chọn quan hệ lý do 110Kiến trúc mạng single-hop đọc hiểu văn bản dựa trên

kiến trúc BERT -22+c++EEE tr tre 116

Trang 11

Kiến trúc mang chon câu trả lời cho câu hỏi “TAI SAO”

dựa trên kiến trúc BERT -cc¿-+c2+vcrtrrrterrrrrrtrrrrrrrrrrree 118Kiến trúc mạng multi-hop đọc hiểu văn bản

dựa trên kiến trúc BERT . ¿- 522cc 118Biểu đồ hiệu quả của các chương trình trên các tập ngữ liệu

VnYQA và VIYQuAD theo độ đo Et - 55c tenses 120

Biểu đồ AR của các chương trình trên ngữ liệu thử nghiệm

VnYQA và VIYQuALD - vn HH HH ng ràt 120

Biểu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu

thử nghiệm VnYQA của các chương trình - «+ -«= «+ 123

Biểu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu

thử nghiệm VIYQuAD của các chương trình ‹ «+2 123

Biểu đồ hiệu quả của các chương trình trên ngữ liệu thử nghiệm

và ViYQuAD theo độ đo E -2- ©5252 2Ec2EccE2EeEkerkrrrerrrred 129

Biểu đồ AR của chương trình BERTYQA khi loại bỏ từngthành phan trên ngữ liệu thử nghiệm VnYQA và ViYQuAD 129Biểu đồ tỷ lệ câu trả lời theo các nhóm khó, trung bình và dễ

trên ngữ liệu thử nghiệm VnYQA của chương trình

BERTYQA khi loại bỏ từng thành phần -2- 525522 s2 130Biéu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu

thử nghiệm ViYQuAD của chương trình BERTYQA

khi loại bỏ từng thành phần - 2-2-2 522£22£z££EerEerEezrssred 131Biểu đồ CAR trên ngữ liệu thử nghiệm VnYNews của

chương trình BERTYQA khi lược bỏ từng thành phần 131Biểu đồ hiệu quả của chương trình BERTYQA khi loại bỏ từng

thành phan trên ngữ liệu thử nghiệm VnYNews theo độ đo F: 132Kết quả của phương pháp SHAP khi giải thích một trường hợp

thử nghiệm mô hình đọc hiểu tự động cho tiếng Việt được

tinh chỉnh từ PhoBlERIT - c5 +++*+*£++sExekEsererrrrrerrrrke 137

Trang 12

DANH MỤC TỪ VIẾT TẮT

BERT Bidirectional Encoder Representations from Transformers CRF Conditional Random Field

DMN Dynamic Memory Network

DNN Deep Neural Network

DRS Discourse Representation Structure

DRT Discourse Representation Theory

EDU Elementary Discourse Unit

FFNN Feed Forward Neural Network

HMM Hidden Markov Model

LSA Latent Semantic Analysis

LSTM Long Short Term Memory

ME Maximum Entropy

MRC Machine Reading Comprehension

MRR Mean Reciprocal Rank

NLI Natural Language Inference

NLP Natural Language Processing

QA Question Answering

RST Rhetorical Structure Theory

RTE Recognizing Textual Entailment

SVM Support Vector Machine

TBL Transformation Based Learning

WE Word Embeddings

Trang 13

DANH MỤC CÁC THUẬT NGỮ

đối tượng đã được nêu trước

đó nhưng tránh nêu lại.

Causal relation [68] Quan hệ nhân-quả [2] Theo [2], chỉ mối quan hệ

“nguyên nhân — kết quả”

giữa hai động từ như cặp động từ “give — have” (cho —

có).

Cause relation Quan hệ diễn ngôn chi

nguyên nhân

Quan hệ giữa hai đơn vị diễn

ngôn trong đó một đơn vi

diễn ngôn diễn tả nguyên

nhân của sự việc được diễn

tả trong đơn vị diễn ngôn

ngữ hoặc câu đang xét.

Defeasible Không vững (lập luận) Chi khả năng dùng lý lẽ dé

phản bác một lập luận.

Discourse marker Từ ngữ liên kết Các từ ngữ có chức năng

liên kết các mệnh đề, các

câu hoặc các đoạn văn trong

văn bản, là dấu chỉ của một

số loại quan hệ diễn ngôn

Distributional Ngữ nghĩa hoc phân bố | Hướng tiếp cận tinh toán

Semantics ngữ nghĩa dựa vào thực tế sử

dụng từ ngữ.

Element discourse unt | EDU

Trang 14

Entailment Quan hé kéo theo Giả sử A va B là mệnh dé,

câu hoặc đoạn văn Theo

Dagan [23], A có quan hệ

kéo theo B nếu người đã đọc

A sẽ cho răng B đúng

Explicit meaning Nghĩa hiển ngôn [3] Theo Cao Xuân Hao [3], “Ja

nghĩa nguyên văn (gồmnghĩa đen và một số nghĩa

bóng quen thuộc) của những

từ ngữ có mặt trong câu và

nhờ những mối quan hệ cúpháp giữa các từ dy.”

Finite clause Ménh dé quan hé han Một khái niệm mệnh đề

định trong tiếng AnhImplicit meaning Nghĩa hàm an [3] Theo Cao Xuân Hạo [3],

“những gì không có san

trong nghĩa nguyên văn của

các từ ngữ và trong moiquan hệ cú pháp ấy nhưngvẫn thấu đến người nghethông qua một sự suy diễn ”

Informal argument Lap luận đời thường (lập

luận phi hình thức) Internal argument Lập luận con Lập luận là tiên đề của một

lập luận khác.

Nucleus Hạt nhân (vai trò trong Don vi mang nghĩa quan

quan hệ diễn ngôn) trọng hơn, không thê lược

nêu trong văn bản.

Result relation Quan hệ diễn ngôn chỉ

kết quả

Quan hệ giữa hai đơn vị diễn

ngôn trong đó một don vi

diễn ngôn diễn tả kết quả

Trang 15

của một sự việc được diễn tả

trong đơn vi diễn ngôn con lại.

Rhetorical structure Câu trúc tu từ Cấu trúc giúp nhân mạnh ý

cần diễn đạt

Satellite Vệ tinh (vai trò trong Don vi mang nghĩa it quan

quan hệ diễn ngôn) trọng hơn, có thể lược bỏ khi

rút gọn văn bản.

Validity Tính hiệu lực (của lập Cho biết phép kéo theo từ

luận) tiền đề đến kết luận là đúngWord embedding Vector từ Nghĩa của từ được biểu diễn

dưới dang vector

Trang 16

MỞ ĐẦU

Lý do lựa chọn đề tài

Theo khảo sát các nghiên cứu về hỏi-đáp tự động, được trình bày ở Mục 1.1

và Mục 1.1.3.5, những dạng câu hỏi khác nhau cần được nghiên cứu dé tim raphương pháp phù hợp trả lời phù hợp Các nghiên cứu về hoi-dap tự động phan lớntập trung vào dạng câu hỏi factoid Số lượng nghiên cứu phương pháp trả lời câuhỏi “TẠI SAO” (Why-question) chưa nhiều và hiệu quả còn chưa cao, thể hiện ởkết quả tốt nhất là Fi=69,66% khi trả lời câu hỏi “TẠI SAO” trên bộ ngữ liệuSQuAD V1.1 Vì thế, luận án chọn đề tài nghiên cứu phương pháp trả lời câu hỏi

“TẠI SAO” tiếng Việt

Các nghiên cứu về phương pháp trả lời câu hỏi “TẠI SAO” được khảo sát vàđược trình bày trong Mục 1.1.3.5 cho thay rằng cấu trúc nguyên nhân — kết qua củamột câu là một đặc trưng quan trọng để tìm câu trả lời Các nghiên cứu này sử dụngcác từ ngữ liên kết trong cấu trúc nguyên nhân — kết quả theo lý thuyết cấu trúc tu

từ hoặc một sử dụng một mô hình phân lớp dé nhận dạng cấu trúc nguyên nhân —kết quả Kết quả nhận dạng là cơ sở xác định câu trả lời chính là mệnh đề chỉ

nguyên nhân Trong các phương pháp được nghiên cứu, phương pháp của Azmi sử

dụng một chương trình phân tích diễn ngôn tiếng Ả-rập theo lý thuyết cấu trúc tu từ(Rhetorical Structure Theory — RST) để xác định câu trả lời Điều này cho thấyphân tích diễn ngôn là một cách tiếp cận phù hợp để tìm câu trả lời cho câu hỏi

“TẠI SAO” Tuy nhiên, các kết quả nghiên cứu về phân tích diễn ngôn, được trìnhbay ở Mục 2.1.5, còn nhiều hạn chế với hiệu quả cao nhất đạt Fi=57,6% khi phântích diễn ngôn của toàn văn bản tiếng Anh Bên cạnh đó, câu trả lời của câu hỏi

“TẠI SAO” còn có thé tìm được trong một lập luận bởi vì lập luận cũng có dạngnguyên nhân — kết quả trong đó các tiền đề và kết luận tương ứng với vị trí củanguyên nhân và kết quả Vì thế, luận án giả thiết rằng, cấu trúc diễn ngôn và lập

luận là những đối tượng chứa câu trả lời cho câu hỏi “TAI SAO”.

Trang 17

Mặc dù các mô hình mạng nơ-ron học sâu có thé trả lời câu hỏi “TAI SAO”như được trình bày ở Mục 1.2.3.3, luận án không chọn cách tiếp cận dùng mạng nơ-ron học sâu Bởi vì theo cách tiếp cận này, mô hình mạng nơ-ron học sâu là một hộp

đen, không giải thích được quá trình tìm câu trả lời cho câu hỏi “TAI SAO” Luan

án chọn cách tiếp cận phân tích diễn ngôn tiếng Việt kết hợp với lập luận dé có thé

làm rõ cơ chế xác định câu trả lời cho câu hỏi “TẠI SAO” tiếng Việt trên máy tính

Theo tác giả Đỗ Hữu Châu, diễn ngôn là một khái niệm trong ngôn ngữ học đểchỉ một nhóm câu liên tiếp đảm bảo được tính mạch lạc và thể hiện được một chủđích của người viết như tự sự, lập luận, Từ khái niệm diễn ngôn này, một đoạnvăn là một diễn ngôn và một văn bản với kích thước bat kỳ cũng là một diễn ngôn

Phân tích diễn ngôn là phân tích sự liên hệ giữa các câu trong đoạn văn hay văn bản

dé thay được chủ dich của người viết Nói cách khác, phân tích nghĩa của văn bảndựa trên các quy tắc do người viết sử dụng dé xây dựng văn bản, tương tự như việcphân tích nghĩa của câu dựa trên các quy tắc cú pháp, cần phải phân tích diễn ngôn.Luận án chọn cách tiếp cận phân tích diễn ngôn cho văn bản tiếng Việt để xác địnhmỗi liên hệ giữa các câu trong các lập luận hoặc lời giải thích được trình bày ở dạngvăn bản Bởi vì câu hỏi “TẠI SAO” được đặt ra dé tìm lý do của một sự việc nêncách tiếp cận phân tích diễn ngôn sẽ phù hợp với quá trình xác định câu trả lời docon người thực hiện và do đó có cơ sở để giải thích quá trình tìm câu trả lời

Trong diễn ngôn, có những lập luận không thể hiện rõ ràng qua các quan hệdiễn ngôn trong văn bản, tạm gọi là những lập luận không tường minh Người đọc

nhận ra những lập luận này qua quá trình lập luận dựa trên những tri thức có trong

văn ban và những tri thức mà họ đã biết trước đó (gọi là tiền giả định) Vì thế, khiphương pháp phân tích diễn ngôn không xác định được những lập luận không tườngminh, luận án cần có phương pháp lập luận dé xác định những lập luận này, tương

tự như cách người đọc đã tiến hành

Việc sử dụng các quan hệ diễn ngôn dé tìm câu trả lời cho câu hỏi “TẠI SAO”

là một giải pháp không mới, nhưng việc sử dụng lập luận để trả lời câu hỏi “TẠISAO” dựa trên cách tiếp cận phân tích diễn ngôn là một cách tiếp cận mới Vì thế,luận án chọn đề tài “Mô hình và phương pháp lập luận để trả lời câu hỏi TẠI SAO

Trang 18

dựa trên cách tiếp cận phân tích diễn ngôn cho văn bản tiếng Việt” để nghiên cứuvan dé phân tích diễn ngôn tiếng Việt và lập luận trên biểu diễn văn bản tiếng Việt,

từ đó kết hợp chúng trong một mô hình hệ thống hỏi-đáp cho câu hỏi “TẠI SAO”

dé làm rõ khả năng áp dụng của cách tiếp cận này

Mục đích của luận án

Mục đích của luận án là nghiên cứu phương pháp lập luận và phương pháp

phân tích diễn ngôn làm cơ sở để xác lập cơ chế tìm câu trả lời có trong văn bảntiếng Việt cho các câu hỏi "TẠI SAO" Cơ chế này có đặc điểm là rõ ràng và phùhợp với cách tìm câu trả lời cho câu hỏi “TẠI SAO” của người Việt Sự rõ ràng thêhiện qua kết quả từng bước trong quá trình tìm câu trả lời Sự phù hợp với cách tìmcâu trả lời của người Việt được thể hiện qua việc phân tích diễn ngôn và lập luậnbởi vì diễn ngôn tiếng Việt và lập luận là phương tiện trình bày lý lẽ của người Việt

Nội dung nghiên cứu

Đề đạt được mục đích nghiên cứu, các nội dung cần được nghiên cứu trong

luận án như sau:

- Tổng quan về hỏi-đáp tự động và các nghiên cứu về câu hỏi "TẠI SAO"

- M6 hình và phương pháp phân tích một số quan hệ diễn ngôn cấp độ câu

và liên câu trong tiếng Việt

- Phuong pháp lập luận trên biểu diễn văn bản tiếng Việt

- Phuong pháp xác định câu trả lời cho các câu hỏi "TAI SAO" dựa trên lập

luận và phân tích diễn ngôn.

- M6 hình lập luận dé trả lời câu hỏi "TẠI SAO" dựa trên cách tiếp cận phân

tích diễn ngôn cho văn bản tiếng Việt

Đối tượng nghiên cứu

Từ mục đích của luận án, đôi tượng nghiên cứu được xác định gôm:

- _ Mô hình diễn ngôn áp dụng dé biểu diễn diễn ngôn cho văn bản tiếng Việt.

- Don vị diễn ngôn trong văn bản tiếng Việt

Trang 19

Quan hệ diễn ngôn trong văn bản tiếng Việt.

Lập luận theo cơ chế loại SUY

Nhận dạng lập luận và tạo lập luận theo cơ chế loại suy

Pham vi nghiên cứu

Luan án được nghiên cứu trong phạm vi như sau:

Phạm vi áp dụng là dạng bài toán là tìm câu trả lời cho câu hỏi “TẠI SAO”

trong một văn bản ngắn Một văn bản ngắn là một văn bản có nội dungtrình bày một chủ đề duy nhất với số từ không vượt quá 500 từ Một vănbản ngắn có thê là một bài luận, một bản tin ngắn hoặc một nhóm liên tiếp

vài đoạn văn trình bày một ý trong một văn bản.

Phân tích quan hệ diễn ngôn trong luận án chỉ thực hiện ở cấp độ câu vàliên câu cho một số quan hệ diễn ngôn được chọn, tập trung vào việc xác

định câu trả lời cho câu hỏi “TAI SAO” của luận án Bởi vì phân tích diễn

ngôn ở cấp độ toàn văn bản là một bài toán khó, đặc biệt đối với tiếng Việt

do thiếu ngữ liệu chú giải diễn ngôn ở cấp độ toàn văn bản Vấn đề phântích diễn ngôn ở cấp độ toàn văn bảng cho tiếng Việt cần được nghiên cứu

riêng.

Cơ chế lập luận được xác định là cơ chế loại suy theo lược đồ loại Suy củaJuthe Lập luận có thé được thực hiện theo rất nhiều lược đồ lập luận đểđảm bảo tính vững chắc Đa số lược đồ lập luận được trình bày để người sửdụng tham khảo áp dụng vào quá trình giao tiếp chứ chưa nhắm đến việc

áp dụng chúng trên máy tính để tự động sinh các lập luận Trong khi đó,lược đồ lập luận loại suy của Juthe xét sự tương ứng giữa các yếu tố trongmột lập luận cho trước và một cặp tiền đề — kết luận dé đánh giá độ vữngchắc của cặp tiền đề — kết luận đó Điều này phù hợp dé triển khai tính toán

trên máy tính.

Tính toán ngữ nghĩa được thực hiện trên nghĩa thông thường của từ ngữ

mà không tính toán nghĩa hàm ân Nghĩa hàm 4n là nghĩa được hiểu ngoài

những nghĩa thông thường của từ ngữ được dùng Con người nhận ra được

Trang 20

nghĩa hàm an nhờ quá trình đối chiếu và suy luận từ những tri thức đã biết

trong một ngữ cảnh xác định Bên cạnh đó, không phải câu nào cũng có

nghĩa hàm ân Vì thế, van dé tinh toán nghĩa hàm an song song với nghĩahiển ngôn là một vấn đề lớn và không thể giải quyết trong luận án này

Phạm vi tính toán ngữ nghĩa của luận án ở nghĩa hiển ngôn vì hướng tiếp

cận tính toán ngữ nghĩa của luận án là ngữ nghĩa học phân bố(distributional semantics) Theo ngữ nghĩa học phân bó, nghĩa của từ đượcxác định dựa vào ngữ cảnh thường được áp dụng cho từ đó nhất, tức là

nghĩa của từ là nghĩa được sử dụng thông thường của nó.

Ý nghĩa khoa học và thực tiễn của đề tài

Mô hình và phương pháp lập luận dé trả lời các câu hỏi "TAI SAO " của luận

án được nghiên cứu dựa trên logic và ngôn ngữ, được triển khai thử nghiệm trênmáy tính, góp phần vào hướng nghiên cứu Text Understanding với bốn đóng góp

chính sau:

- Phan tích diễn ngôn ở cấp độ câu và liên câu theo một số quan hệ được

chọn Các kết quả nghiên cứu được công bố trong các công trình [CT.3] và[CT.6] và có liên quan đến công trình [CT.1]

- Phuong pháp lập luận trên biểu diễn văn bản tiếng Việt theo lược đồ lập

luận loại suy Các kết quả nghiên cứu được công bố trong các công trình

[CT.4] và [CT.8].

- Phuong pháp lập luận dé trả lời các câu hỏi "TẠI SAO" dựa trên cách tiếp

cận phân tích diễn ngôn tiếng Việt và so sánh với các phương pháp khác

thông qua thử nghiệm Phương pháp trả lời câu hỏi “TAI SAO” của luận

án có một ưu điểm nổi bật là có thé tìm được các ý trong một câu trả lời cónhiều hơn một ý; trong đó, các ý này là các chuỗi không liên tục trong vănbản Ưu điểm này bắt nguồn từ việc xác định các lập luận và các lời giảithích có liên quan đến câu hỏi sau đó loại bỏ đi những đơn vị diễn ngôn cóthé không cần thiết cho câu trả lời Các kết quả nghiên cứu được công bố

trong các công trình nghiên cứu [CT.2], [CT.5] và [CT.7].

Trang 21

- M6 hình lập luận để trả lời các câu hỏi "TẠI SAO" dựa trên cấu trúc diễn

ngôn tiếng Việt được công bố trong công trình nghiên cứu [CT.7]

Bên cạnh đó, kết quả xây dựng bộ ngữ liệu EDU-UNI gán nhãn EDU dựa trênngữ liệu phân tích cú pháp cau trúc ngữ đoạn tiếng Việt NIIVTB và bộ ngữ liệuVnNewsNLI gan nhãn quan hệ giữa các cặp tiền đề — kết luận tiếng Việt của luận áncũng hỗ trợ cho các nghiên cứu về phân tích diễn ngôn tiếng Việt và suy luận trênbiểu diễn văn bản tiêng Việt.

Trang 22

CHUONG 1 TONG QUAN

Tóm tat chương

Chương này trình bày nguồn gốc của bài toán hỏi-đáp với câu hỏi “TẠI SAO”,phương pháp đánh giá hiệu quả của một hệ thống hỏi-đáp, các cách tiếp cận đểgiải quyết bài toán hỏi-đáp với câu hỏi “TẠI SAO”, và hai vấn dé liên quan trựctiếp đến việc xác định câu trả lời cho câu hỏi “TẠI SAO” gồm lập luận và phân tích

diện ngôn.

Xuất phát từ mối liên hệ giữa câu trả lời của câu hỏi “TAI SAO” với lập luận va

diễn ngôn, luận án dé xuất cách tiếp cận lập luận dựa trên kết quả phân tích diễnngôn cua văn bản dé xác định câu trả lời cho câu hỏi “TẠI SAO” trong tiếng Việt.Trong đó, lập luận được tiễn hành theo cơ chế loại suy và phân tích diễn ngôn đượctiến hành theo b> thuyết cầu trúc tu từ Cách tiếp cận này can giải quyết hai bàitoán trong yếu là “tính toán mức độ thỏa lược dé lập luận loại suy ” và “nhận dangquan hệ diễn ngôn” Hai bài toán này được giải quyết lần lượt trong Chương 3 và

Chương 4 của luận án.

1.1 HỎI-ĐÁP TỰ ĐỘNG

1.1.1 Nguồn gốc bài toán

Hoi-dap tự động (question answering) là một nhánh nghiên cứu trong truy

xuất thông tin (Information Retrieval) Mục tiêu của hỏi-đáp tự động là xác địnhcâu trả lời bằng máy tính cho các câu hỏi của con người Câu trả lời gồm các chuỗiđược trích trong một nguồn tài liệu văn bản phi cấu trúc Trong đó, số lượng chuỗicần trích tùy thuộc vào số lượng ý cần phải có ở trong câu trả lời, và câu hỏi đượcbiểu diễn bằng ngôn ngữ tự nhiên Theo khảo sát của tác giả Kolomiyets [51], nhiềuphương pháp giải quyết bài toán hỏi-đáp được nghiên cứu dựa theo hướng truy xuấtthông tin kết hợp với phân loại câu hỏi (Text Classification) [59, 71] và trích chọnthực thể trong văn bản (Named Entity Recognition) [73, 118] Theo hướng này,

Trang 23

phương pháp chung để giải quyết bài toán hỏi-đáp tự động có thể được minh họabăng Hình 1.1.

Sinh câu Phân lớp Cau trả lì ¡|

truy vấn câu hỏi ~ au tra lời

Truyxuat ==“ Trichchon - i Xếp hang

van ban thực thé thực thé

Chi muc ‘Vani ban

Hình 1.1 Sơ đồ các bước xử lý trong phương pháp hỏi-đáp tự độngPhương pháp chung để giải quyết bài toán hỏi-đáp tự động trong Hình 1.1

gôm các bước chính:

1)

2) 3)

4)

5)

Sinh câu truy van: biến đổi câu hỏi của người sử dụng thành câu truy vantheo một mô hình truy xuất văn bản Mục đích là truy xuất các tài liệu liênquan đến câu hỏi Trong bước xử lý này có thê áp dụng kỹ thuật mở rộngtruy vấn dé tăng cường độ phủ cho kết quả truy xuất văn bản

Truy xuất văn bản: chọn danh sách tài liệu có liên quan đến câu truy van

Phân lớp câu hỏi: xác định nội dung chính cần có trong câu trả lời của câuhỏi Nội dung chính này có thé là tên người, tên tổ chức, thời gian, chiềudài, khối lượng,

Trích chọn thực thé: chon các thực thé phù hợp với nội dung chính trongcâu trả lời Mỗi thực thé là một chuỗi được trích trong các tài liệu đã truyxuất được Các thực thể này được xem như các câu trả lời tiềm năng

Xếp hạng thực thể: dựa vào đặc điểm xuất hiện của các câu trả lời tiềmnăng để đánh giá mức độ phù hợp giữa các câu trả lời tiềm năng với câu

hỏi để lựa chọn câu trả của hệ thống.

Trang 24

Theo hướng tiếp cận này, kết quả phân lớp câu hỏi ảnh hưởng rất lớn đến hiệuquả của hệ thống Vì thế, các nghiên cứu về phân lớp câu hỏi của [41], [59] và [37]

đã hình thành một danh mục phân lớp câu hỏi dé phục vu cho việc xây dung ngữliệu huấn luyện mô hình phân lớp cũng như cho việc định hướng khi nghiên cứu

phương pháp tìm câu trả lời cho từng dạng câu hỏi.

Dựa vào các lớp câu hỏi, các nghiên cứu về hỏi-đáp tự động được chia thành

hai nhóm phương pháp trả lời câu hỏi Factoid (Factoid question answering) và nhóm phương pháp trả lời các câu hỏi Non-factoid (Non-factoid question

answering) Nhóm phương pháp trả lời câu hỏi Factoid tập trung vào việc trích chọn

những thực thể phù hợp với phân lớp của câu hỏi trong các đoạn văn bản liên quan.Nhìn chung, các thực thể này có ranh giới khá rõ ràng nên việc xác định chúngtrong một đoạn văn bản đã được giải quyết bằng các phương pháp nhận dạng thựcthé (named entity recognition) Trong khi đó, nhóm phương phương pháp trả lời câuhỏi Non-factoid gặp khó khăn vì câu trả lời có ranh giới không rõ rang Chang hanvới câu hỏi liệt kê, câu trả lời gồm nhiều chuỗi trong nhiều đoạn văn bản rải ráctrong một hoặc nhiều văn bản khác nhau Trong các dạng câu hỏi được nghiên cứu

trong nhóm phương pháp trả lời câu hỏi Non-factoid, dang câu hỏi "TAI SAO"

(Why-question) có thêm một thách thức, đó là câu trả lời phải giải thích được sự

việc được nêu trong câu hỏi.

1.1.2 Bài toán trả lời câu hỏi "TAI SAO"

Hiện tại, bài toán hỏi-đáp có hai dạng, gọi là dạng đầy đủ và dạng rút gọn.Trong bài toán hỏi-đáp dạng đầy đủ, câu trả lời cần phải được tìm trong một tập hợptài liệu hoặc trong một tập hợp đoạn văn bản nên vai trò của bước truy xuất thôngtin rất quan trọng Trong bài toán hỏi-đáp dạng rút gọn, còn gọi là bài toán đọc hiểu

văn bản (machine reading comprehension), câu trả lời được tìm trong một đoạn văn

bản ngắn nên phương pháp rút trích thông tin đóng vai trò chủ đạo Nhiệm vụ củaphương pháp này là chọn được một chuỗi ký tự phù hợp trong đoạn văn bản đã cho

đê làm câu trả lời.

Trang 25

Bài toán tra lời câu hỏi "TAI SAO" là một bài toán con trong nhánh nghiên

cứu hỏi-đáp (question answering) Bài toán này cũng có dang day đủ và dang rútgon Dang day đủ của bài toán trả lời câu hỏi "TẠI SAO" được phát biểu như sau

Cho Docs = {d,|i = 1,n} là một tập hợp n tài liệu văn bản, chuỗi q là một câu hỏi "TẠI SAO" Xác định chuỗi a, gọi là câu trả lời của q, sao cho:

1) Ad; € Docs: a € dj.

2) œ là lý do giải thích cho nội dung của q.

Dạng rút gọn của bài toán trả lời câu hỏi "TẠI SAO" có thê phát biêu như bàitoán đọc hiểu văn bản, được Ellen Riloff và Michael Thelen dé xuất [92] như sau

Cho đ là một tài liệu văn bản, chuỗi q là một câu hỏi "TẠI SAO" Xác định

chuỗi a, gọi là câu trả lời của q, sao cho:

l) acd.

2) œ là lý do giải thích cho nội dung của q.

Việc tìm kiếm câu trả lời a trong dạng rút gon vẫn giữ đặc điểm cơ bản nhưkhi tim a trong dạng đầy đủ nhưng đã được đơn giản hóa về mặt tính toán do khôngphải xác định các tài liệu liên quan đến q trong tập tài liệu Docs Các mô hình họcsâu được nghiên cứu dé giải quyết bài toán hỏi-đáp từ các bộ ngữ liệu SQUAD vI.1

[88], SQUAD v2.0, XQuAD và các ngữ liệu tương tự chính là các mô hình giải

quyết bài toán rút gọn nêu trên

Phát biéu bài toán trả lời câu hỏi "TẠI SAO" trong cả hai dạng như trên khôngphù hợp với trường hợp câu trả lời có nhiều hơn một ý Vì thế, luận án xem vấn đềtìm câu trả lời có nhiều ý như là một ưu điểm của phương pháp tìm câu trả lời được

nghiên cứu trong luận án.

1.1.3 Đánh giá phương pháp trả lời câu hỏi

Bởi vì không thể hình thức hóa các điều kiện chọn câu trả lời nên việc đánh

giá phương pháp trả lời câu hỏi được thực hiện theo phương pháp thực nghiệm.

Phương pháp đánh giá này cần một ngữ liệu thử nghiệm, gọi là tập Gold, gồm các

mẫu thử nghiệm Một phương pháp trả lời câu hỏi được đánh giá bằng cách cài đặt

Trang 26

một chương trình máy tính theo đúng phương pháp đó và thực thi nó với đầu vào làtừng mẫu thử nghiệm trong tập Gold và đầu ra là câu trả lời tương ứng với từngmẫu thử nghiệm Kết quả so sánh giữa câu trả lời của chương trình và câu trả lờitrong tập Gold được tính toán theo các độ do gồm MMR (Mean Reciprocal Rank),

P (Precision), R (Recall), EM (Exact Match) và F)[27, 33, 51] Bên cạnh đó, luận án

dé xuất thêm hai độ do AR (Answer Rate) va CAR (Completing Answer Rate)

Như vậy, ngữ liệu cần dé thử nghiệm là tập Gold = {(đ;, q¡, a¡)|Í = 1,n} chứa

n mẫu thử nghiệm, mỗi mẫu thử nghiệm là một bộ (d;, q¡, a;), trong đó:

- đ là tài liệu trong mẫu thir i Tài liệu trong các mẫu có thê trùng nhau

- q; là câu hỏi trong mau thứ i, được đặt cho duy nhất tài liệu d; Câu hỏi

trong các mẫu phải khác nhau về biểu diễn dạng văn bản nhưng có thểgiống nhau về nghĩa

- a, là dap án cho câu hỏi q¡ a; là một chuỗi trong tài liệu đ; Trường hợp

đáp án có k ý thì a; = {đ¡¡, đ¡ạ, , a;„} chứa các chuỗi aj; trong tài liệu dj.Giả sử kết quả tra lời của hệ thống cho từng bộ (dj, q;) là một bộ 5 câu trả lời

Ans; = {ansj1, ANSjz, , ANS;s } Khi đó, các độ đo được tính như sau:

Trang 27

1.1.3.2 Độ đo P, R và Fi

Các độ đo này được tính toán trong trường hợp chương trình máy tính trả lời

mỗi câu hỏi g; bằng một câu trả lời duy nhất, hay tập câu trả lời Ans; = {ans¿¡}.Khi này, đáp án a; và câu trả lời của chương trình ans;¡ được biểu diễn ở dang Bag

of Word Gọi M; và N; lần lượt là số lượng từ có trong a; và ans;¡, n; là số lượng từ

trùng nhau giữa a; và ans¡¡ Khi đó, độ đo P, R và F¡ của câu trả lời ans;, so với

đáp án gốc a;, ký hiệu lần lượt là P;, Rj, F;¡, được tính theo các công thức (1.3),

Độ so khớp chính xác của câu trả lời a; với đáp án ans;,, ký hiệu EM;, được

áp dụng dé đánh giá mô hình sinh một câu trả lời duy nhất cho mỗi câu hỏi Độ so

khớp chính xác được tính theo công thức (1.9) sau:

1,néu ans;, = a; (1.9)

EM, = x

° (Ũ,riễu nS¡+ # a;

Trang 28

Độ so khớp chính xác của phương pháp, ký hiệu EM, được sử dụng trong thử

nghiệm bộ ngữ liệu SQUAD [88] và được tính theo công thức (1.10) sau:

1

EM =- EM, (1.10)

n

i

1.1.3.4 Ty lệ câu trả lời chứa đáp án

Độ đo EM phù hợp khi xác định câu trả lời ngắn gọn nhất có thể Tuy nhiên,nhiều hệ thống trả về một câu thay vì ngữ đoạn trùng khớp với đáp án Vì thế, luận

án đề xuất tỷ lệ câu trả lời chứa đáp án, ký hiệu AR (Answer Rate), dựa trên độ so

EM đề áp dụng trong trường hợp đánh giá các phương pháp xác định câu trả lời ởcấp độ câu thay vì ngữ đoạn

Gọi AR; là giá trị thể hiện câu trả lời ans; chứa đáp án a; AR; được tính theo

công thức (1.11) sau:

1,nếu a; là chuỗi con của ans; q11)

ARi = to, ngược lại

Tỷ lệ câu trả lời chứa đáp án của phương pháp được tính theo công thức (1.12)

sau:

1

mAR = "` mAR, (1.12)

i

1.1.3.5 Ty lệ hoàn thành câu tra lời

Trong trường hop đáp án a; = {đ¡, đ¡;, , đ;„} của câu hỏi “TẠI SAO” chứa

k ý, luận án đề xuất tỷ lệ hoàn thành câu trả lời, ký hiệu là CAR (CompletingAnswer Rate) để đánh giá hiệu quả của các mô hình chỉ chọn được một ý trong đáp

án Một ý trong dap án cũng là một lời giải thích hợp lý cho câu hỏi “TẠI SAO”

mặc dù không đầy đủ Nếu sử dụng độ đo EM thì nhiều mô hình đọc hiểu tự động

sẽ có kết quả EM=0

Goi CAR; là giá trị phản ánh tỷ lệ hoàn thành của câu trả lời ans; so với k ý

trong đáp án a; = {;1, đ¡;, , i, } CAR; được tính theo công thức (1.13) sau:

a;;|a;; là chuỗi con của ans,;,j € [1,k

CAR, _ lí ijl Lj a ind [ Bl (1.13)

L

Trang 29

Ty lệ hoàn thành câu trả lời của phương pháp được tính theo công thức (1.14):

1

CAR = "` CAR, (1.14)

i

1.2 TONG QUAN TINH HINH NGHIÊN CỨU

Hoi-dap tự động (question answering) là một bài toán thuộc hướng nghiên cứu

truy xuất thông tin Vì thế, các nghiên cứu về hỏi-đáp tự động thường được pháttriển từ các nghiên cứu về truy xuất thông tin trong đó có sử dụng kết quả nghiên

cứu từ hướng nghiên cứu xử lý ngôn ngữ tự nhiên (natural language processing) hay

ngôn ngữ học máy tính (computational linguistics) Dựa trên các kết quả khảo sát[27, 51, 71] và kết quả khảo sát của luận án được trình bày sau đây, bài toán hỏi-đápđược có thể được giải quyết theo hai hướng tiếp cận khai phá tri thức (knowledge

mining) và chú giải tri thức (knowledge annotation) như được trình bày ở Hình 1.2.

Hai hướng tiếp cận này lần lượt còn được gọi là information-retrieval-based và

knowledge-based[47].

ewer] hướng tiếp cận

Khai pha tri thức Chi giải tri thức (Knowledge Mining) (Knowledge Annotation)

Truy xuất thông tin (IR) + ồ thị tri thú Giao tiếp CSDL bằng Logic hình thức

Rút trích thông tin (TE) ngôn ngữ tự nhiên (NLIDB)

- Miền đóng - Miền đóng - Miền đóng

- Câu hỏi factoid - Câu hôi factoid | |- Câu hỏi factoid - Câu hỏi factoid

- Câu hỏi Why |

|

Mang no-ron học sâu Phân tích dién ngôn

(Discourse-based)

- Miền đóng

- Câu hỏi factoid - Câu hỏi Why

- Câu hỏi Why

Trang 30

1.2.1 Hướng tiếp cận chú giải tri thức

Hướng tiếp cận chú giải tri thức tập trung vào nghiên cứu biểu diễn(representation) tri thức của bài toán và các quy tắc tính toán trên các biéu diễn đó.Việc xây dựng tri thức của bài toán từ văn bản cần phải có một bước quan trọng làchú giải từng ngữ đoạn trong văn bản bằng các lớp hoặc các thuộc tính trong một cơ

sở tri thức Hướng tiếp cận chú giải tri thức có cơ sở là ngôn ngữ học máy tính vàcác quy tắc tính toán được phát triển trên một loại logic thích hợp

Trong thời kỳ đầu của hệ thống hỏi đáp, vào thập niên 60 của thế kỷ 20, các hệthống hỏi-đáp được xây dựng thuộc nhóm chú giải tri thức Hệ thống BASEBALLcủa Green[35], LUNA của Wood[116] là một trong những hệ thong hỏi-đấp đầutiên, trong đó LUNA là hệ thống được các nhà địa chất sử dụng thực tế Đặc điểmcủa các hệ thống này là các tri thức được tô chức thành dữ liệu có cấu trúc xác định.Cấu trúc này thé hiện được quan hệ về nghĩa giữa các thông tin có trong dữ liệu của

hệ thống Nhiệm vụ của các hệ thống hỏi-đáp này tập trung chủ yếu vào việc xácđịnh các trường thông tin cần chọn và điều kiện lọc từ câu hỏi để tìm kiếm trong dữliệu của hệ thống Câu hỏi trong các hệ thống này được trình bày bằng ngôn ngữ tựnhiên Có thể xem BASEBALL và LUNA là các nghiên cứu đầu tiên về NLIDB

(Natural Language Interface to Database).

Hé thống START, năm 2002, của Katz [50] cũng có co chế hoạt động tương tự

như BASEBALL va LUNA nhưng việc t6 chức dit liệu trong START phức tạp hơn.

Dữ liệu trong START được thu thập từ nhiều nguồn khác nhau và có dạng bán cautrúc hoặc phi cấu trúc Vấn đề thứ nhất trong hệ thống START là duy trì một thànhphần, gọi là OmniBase [50], có khả năng truy xuất đến tất cả dạng dữ liệu mà nóthu thập được theo một mẫu thống nhất, là một bộ ba <object, property, value>.OmniBase dùng một ngôn ngữ truy van dữ liệu riêng dé truy xuất dữ liệu Van déthứ hai trong hệ thống START là chuyên đổi câu hỏi trong ngôn ngữ tự nhiên sangngôn ngữ truy vấn dữ liệu của OmniBase Vấn đề này được giải quyết bằng cách

Trang 31

xây dựng từng lược đồ chuyên đổi từ ngôn ngữ tự nhiên sang ngôn ngữ truy vấn

cho từng dạng câu hỏi.

Thay vì dùng cơ sở dữ liệu dé lưu trữ tri thức như các hệ thong NLIDB, các hệthống hỏi-đáp trên đồ thị tri thức (Knowledge Graph — KG) tìm kiếm câu trả lời trênmột đồ thị gồm các đỉnh là các thông tin trong thế giới thực và các cạnh là mối liên

hệ giữa các thông tin đó Theo khảo sát của Wu và cộng sự [117], các hệ thống đáp trên đồ thị tri thức tập trung vào việc phân tích câu hỏi trong ngôn ngữ tự nhiênthành các bộ ba <subject, relation, object> từ đó so khớp trên đồ thi tri thức đã được

hỏi-xây dựng sẵn Sự xuất hiện của nhiều đồ thị tri thức được hỏi-xây dựng từ khối lượng

dữ liệu lớn, có khả năng đáp ứng yêu cầu truy vấn trong nhiều lĩnh vực nhưFreeBase [12] và DBpedia [57] đã tạo điều kiện cho các hệ thong hoi-dap trén đồthị tri thức trả lời được nhiều câu hỏi trong nhiều lĩnh vực khác nhau Tuy nhiên,các hệ thống hỏi-đáp này vẫn phụ thuộc vào miễn tri thức được dùng để tạo ra các

đồ thị tri thức

Thay vì tìm câu trả lời trên đồ thi tri thức, cách tiếp cận biéu diễn tri thức theologic hình thức, cụ thể là logic vi từ bậc một (FOL — First-Order Logic) [9, 10, 49]thuận tiện cho việc suy diễn và có cơ sở dé giải quyết van đề hồi chỉ theo lý thuyếtbiểu diễn diễn ngôn (Discourse Representation Theory — DRT) [49] Van đề của hệthống hỏi-đáp dựa trên logic hình thức cũng cần giải quyết hai van đề lớn là biểudiễn tri thức bằng logic hình thức và biến đổi câu hỏi trong ngôn ngữ tự nhiên thànhbiểu thức logic hình thức

Trong cách tiếp cận biểu diễn tri thức theo logic hình thức, Delmonte [24]phân tích thêm một số quan hệ diễn ngôn khi phân tích văn bản thành dạng biểudiễn FOL Dựa vào kết quả phân tích một số quan hệ diễn ngôn, phương pháp củaDelmonte [24] có thé xác định được câu trả lời cho một số câu hỏi “TẠI SAO”trong tiếng Anh trong khi phương pháp trả lời câu hỏi theo cách tiếp cận [9, 10, 49]chỉ dùng logic hình thức để biểu diễn văn bản chưa cho thấy được khả năng trả lời

câu hỏi “TẠI SAO”.

Trang 32

1.2.2 Hướng tiếp cận khai phá tri thức

Hướng tiếp cận khai phá tri thức có nhiệm vụ tìm câu trả lời trong tập dữ liệuphi cau trúc Trong giai đoạn từ TREC-8 [33] (năm 1999) trở về trước, nhiệm vụcủa một hệ thống hỏi-đáp theo hướng tiếp cận này là tìm một đoạn văn bản có kích

thước là 250 bytes hoặc 50 bytes có chứa câu trả lời Trong đó câu trả lời 250 bytes

và 50 bytes lần lượt dành cho câu hỏi Non-factoid và câu hỏi Factoid [33] Theo kếtquả khảo sát [27, 51, 71], nhiệm vu này được giải quyết theo phương pháp truy xuất

văn bản với đôi tượng là các đoạn văn (passage retrieval).

Từ TREC-9 (năm 2000) trở đi, câu trả lời cho câu hỏi Factoid cần xác địnhchính xác là thực thé được hỏi Nhiều phương pháp xác định câu trả lời cho các câuhỏi Factoid được nghiên cứu Chăng hạn, hệ thống PRIS (2002) của nhóm tác giảYang và Chua [119] và hệ thống Watson (2010) của Ferrucci va cộng sự [32] Hệthong PRIS [119] được đánh giá theo dữ liệu chính thức cua TREC 2002 có độchính xác (precision) 0,61 Hệ thống Watson [32] có khả năng thắng 64% lượt chơiđối kháng với người chơi trong gameshow Jeopardy cho thay máy tính có thé trả lời

những câu hỏi khó trong gameshow hơn cả người chơi.

Theo kết quả khảo sát của Mishra và cộng sự [71], Dimitrakis và cộng sự [27]thì trong giai đoạn từ năm 2002 đến 2014, các phương pháp trả lời câu hỏi đượcnghiên cứu theo hướng kết hợp truy xuất thông tin [51] với trích chọn thông tin.Các phương pháp này có thể được phân loại theo các tiêu chí miền ứng dụng đónghay mở, dạng câu hỏi, kỹ thuật phân tích tài liệu, mô hình truy xuất thông tin vănbản và đặc điểm của ngữ liệu nguồn như trình bày ở Hình 1.3 (được trích lại từ[27]) Phương pháp trích chọn thông tin có thể áp dụng các kết quả nghiên cứu vềkhai phá tri thức, phân tích cú pháp [103] hoặc phân tích diễn ngôn [107] để nâng

cao hiệu quả.

Từ năm 2014, nhiều kết quả nghiên cứu của nhánh nghiên cứu học máy được

áp dụng trong các phương pháp trả lời câu hỏi cho bài toán MRC Các phương pháp

Trang 33

nay được sử dụng dé xây dựng các hệ thống end-to-end [22] Trong các hệ thống

end-to-end, các nhiệm vụ phân loại câu hỏi, tìm câu trả lời trong một đoạn văn bản

được thực hiện bởi một mạng nơ-ron học sâu Hệ thống dùng Dynamic MemoryNetwork [96] có thể đạt độ chính xác 96% cho các câu hỏi Factoid nhưng độ chínhxác giảm mạnh đối với các dạng câu hỏi khác Hệ thống dùng BERT [26] có kết quảF; đạt 93,2% trên bộ dữ liệu SQUAD v1.1 [88] trong đó phan lớn là các câu hỏi

thuộc nhóm factoid.

Miền ứng dụng Loại câu hỏi

- Miễn mở: Wikipedia, Website, | | - Factoid: khi nào (when), ai

- Miễn đóng: Y khoa, phim ảnh, (who), ở dau (where)

Xác nhận: đúng (yes), sai (no)

Loại tài liệu Nguyên nhân: như thế nào

- Có cấu trúc: RDF, SQL DB, (how), tại sao (why)

- Không có cấu trúc: file văn bản Kèm ví dụ: “x giống cái gì?”

- Định nghĩa: “x là gi?”

Loại hệ thông Phương pháp: “cách làm x?”

- Hỏi-đáp So sánh: “x lớn hơn y?”

- Hội thoại Ý kiến: “Ý kiến của x về y là

- Hội thoại với giọng nói gì?

Hình 1.3 Các tiêu chí phân loại hệ thống hoi-dap [27]

1.2.3 Các phương pháp trả lời cầu hỏi “TẠI SAO”

1.2.3.1 Cách tiếp cận phân tích diễn ngôn

Phương pháp của Delmonte [24] là phương pháp duy nhất theo cách tiếp cậnnày Phương pháp này phân tích đoạn văn bản và câu hỏi thành các biểu thức logic

vị từ bậc một [25] Kết quả phân tích văn bản cũng xác định các quan hệ diễn ngôntrong bốn nhóm do Delmonte đề xuất [24] là Cause-Result, Rationale-Effect,

Purpose-Outcome, Circumstance-Outcome và Means-Outcome Khi tìm câu tra lời

cho câu hỏi “TAI SAO”, quá trình suy diễn và hợp nhất các biéu thức logic của câuhỏi với các biểu thức logic trong đoạn văn bản được thực hiện dé chọn các quan hệdiễn ngôn trong văn bản, từ đó xác định câu trả lời.

Trang 34

1.2.3.2 Cách tiếp cận kết hợp IR va IE

Quá trình trả lời câu hỏi “TẠI SAO” dùng một mô hình IR để chọn các đoạnvăn liên quan Sau đó dùng một mô hình IE, hay reader [47], dé trích các câu trả lời

trong các đoạn văn bản Cuôi cùng, các câu trả lời được xêp hạng đê chọn một câu

trả lời tốt nhất làm câu trả lời cuối cùng Các phương pháp trả lời câu hỏi “TẠI

SAO” theo cách tiếp cận này được tổng hợp và trình bày trong Bảng 1.1

Bảng 1.1 Các phương pháp trả lời câu hỏi “TẠI SAO” theo cách tiếp cận kết hop

IR va IE

Tác giả Năm Phương pháp Ngữ liệu Kết quả

Verberne 2006-2010 | IR + phân lớp quan hệ RST 186 câu hỏi tại sao được | MRR@150 = 0,34

Oh et al 2013 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1= 41,8%

chứa quan hệ nguyên nhân— | WhySet do tác giả xây

kết quả giữa các ngữ đoạn, sử | dựng

dụng mô hình CRF.

2016 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1 =50%

chứa quan hệ nguyên nhan— | WhySet

kết quả giữa các ngữ đoạn, sử

dụng mô hình CRE Tăng

cường hiệu quả bằng viéc thêm ngữ liệu huấn luyện.

2017 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1 = 54%

chứa quan hệ nguyên nhan— | WhySet

kết quả giữa các ngữ đoạn, sử

dụng mô hình CRF Sử dụng

mạng no-ron CNN đề chọn

câu trả lời

2019 IR + dùng mạng nơ-ron Ngữ liệu tiếng Nhật P@1 = 54,8%

tương tự GAN (GAN — WhySet

generative adversarial Quasar-T! EM = 43,2%

Các nghiên cứu của Verberne là các nghiên cứu sớm nhat giải bài toán hỏi-đáp

câu hỏi “TAI SAO” dạng day đủ trong tiếng Anh Phương pháp trả lời câu hỏi “TẠI

SAO” của Verberne [103, 105-107] gồm có hai pha Pha đầu thực hiện việc truy

Trang 35

xuất các đoạn văn bản chứa nội dung của câu hỏi, sau đó dùng một mô hình phânlớp để xác định đoạn văn có thuộc các lớp Cause, Motivation, Circumstance vaPurpose hay không dé làm cơ sở chọn đoạn văn chứa câu trả lời Mô hình phân lớpnày có sử dụng đặc trưng là các từ ngữ liên kết thể hiện quan hệ nhân-quả giữa các

ngữ đoạn trong một câu hoặc giữa các câu trong một đoạn văn như "because",

"therefore", "for", v.v Pha thứ hai chọn những câu hoặc nhóm câu liên tiếp có

cùng phân lớp của câu hỏi và có thứ hạng cao nhât đê làm câu trả lời.

Phương pháp của Higashinaka và Isozaki [39] giải bài toán dạng đầy đủ trêntiếng Nhật Phương pháp này có ba bước Bước thứ nhất tìm những đoạn văn bản cónội dung tương đồng với truy van Bước thứ hai dùng một bộ phân lớp SVM để tính

toán khả năng được chọn của các đoạn văn bản Bộ phân lớp này dùng các đặc

trưng gồm từ ngữ liên kết, độ tương đồng của đoạn văn bản với câu hỏi và các cặp

từ có quan hệ nhân-quả Các từ ngữ có quan hệ nhân-quả được trích chon trong

một ngữ liệu tiếng Nhật [40] Phương pháp của Higashinaka và Isozaki [39] có kếtquả MRR đạt 0,305 Kết quả này không so sánh được với kết quả của Verberne vì

chúng được đánh giá trên hai bộ ngữ liệu khác nhau và sử dụng các độ đo khác

nhau.

Oh và cộng sự (2013) [81] cũng giải bài toán dang day đủ trên tiếng Nhật bằngviệc 4p dụng kỹ thuật phân lớp văn ban theo mô hình thống kê CRF với ba đặctrưng gồm kết quả phân tích cú pháp phụ thuộc, từ ngữ liên kết và cặp từ ngữ cóquan hệ nhân-quả Phương pháp này có kết quả P@1=41% Kết quả đánh giá nàyđược thực hiện thủ công, không sử dụng ngữ liệu kiểm thử và không sử dụng hai độ

do MRR và Fi nên không so sánh được với kết quả của Higashinaka và Isozaki

[39].

Phương pháp cải tiến của Oh và cộng sự (2016) [80] tập trung vào việc tăngcường ngữ liệu huấn luyện Ngữ liệu huấn luyện này được xây dựng tự động nhờmột bộ phân lớp Bộ phân lớp này được xây dựng bang cách huấn luyện trên ngữ

Trang 36

liệu nhỏ được xây dựng thủ công Kết quả mới nay cua Oh va cộng sự (2016) [80]

có P@1=50%.

Năm 2017, Oh và cộng sự [82] có thêm một cải tiễn là dùng mạng nơ-ron tích

chập (CNN — Convolutional Neural Network) thay vi sử dung CRF trong việc tìm

câu trả loi Phương pháp nay có P@1=54% và R@1=81.8% [82].

Một cải tiến mới nhất của Oh và cộng sự (2019) [83] là sử dụng một mạng ron học sâu theo mô hình sequence-to-sequence dé xác định vị trí câu trả lời thay

nơ-cho một mô hình phân lớp Cải tiến này nơ-cho kết quả P@1=54,8%.

Azmi (2016, 2017) [6, 7] đã xây dựng một hệ thống hỏi-đáp câu hỏi “TẠISAO” cho tiếng Ả-Rập trong đó kết hợp truy xuất thông tin với trích chọn câu trảlời dựa trên cấu trúc diễn ngôn được phân tích theo lý thuyết cấu trúc tu từ (RST)[63] Kết quả thử nghiệm của Azmi cho thấy hệ thống đạt được độ chính xác

(accuracy) 71% trong đó việc xác định câu trả lời đúng hay sai được thực hiện thủ

công và độ chính xác được tính bằng số câu hỏi được trả lời đúng chia cho tổng sốcâu trả lời thay cho việc sử dụng các độ đo MRR và F¡ Kết quả này cũng không thé

so sánh với kết quả của các nghiên cứu trên do không sử dụng chung bộ ngữ liệu

kiểm thử và độ đo.

1.2.3.3 Cách tiếp cận dùng mạng nơ-ron học sâu

Cách tiếp cận dùng mạng nơ-ron học sâu phù hợp với bài toán dạng rút gọn.Cách tiếp cận này cần ngữ liệu đủ lớn dé huấn luyện một mô hình trích câu trả lời

trong một đoạn văn bản cho một câu hỏi, như bộ ngữ liệu SQUAD v1.1 của

Rajpurkar [88] Bài toán dạng rút gọn không cần bước truy xuất văn ban mà chỉ tậptrung vào bước trích chọn câu trả lời Các mô hình trích chọn câu trả lời có kết quảcao đều sử dụng một mô hình học máy được huấn luyện từ một kiến trúc mạng nơ-

ron học sâu Các mô hình này không có sự phân chia hai bài toán phân lớp câu hỏi

và trích chọn thực thể mà sử dụng một mạng nơ-ron học sâu dé xác định vị trí đầu

và cuôi trong văn bản của chuỗi được chọn làm câu trả lời Mạng nơ-ron này nhận

Trang 37

đầu vào là chuỗi vector đặc trưng tương ứng với từng từ của văn bản Các vectorđặc trưng này được tính theo một mô hình được huấn luyện từ một mạng nơ-ronhọc sâu Kết quả trích chọn câu trả lời của các mô hình r-net+ (ensemble) của

Microsoft Research Asia [113], SLQA+ (ensemble) của Alibaba iDST NLP [112], Match-LSTM (boundary+ensemble) của dai hoc Singapore Management University

[111] va BERT (ensemble) của Google AI Language trên tap development của ngữ

liệu SQUAD v1.1 [88] khi xét tat ca dạng câu hỏi và khi xét dang câu hỏi "TAISAO" được trích lại trong Bang 1.2 Các kết quả này đã được công bố tại websitecung cấp ngữ liệu SQUAD”

Bảng 1.2 Kết quả trả lời các dạng câu hỏi và dạng câu hỏi tại sao trên tập

development của ngữ liệu SQUAD v1.1

Hệ thống

r-net+ (ensemble) 88,49% 66,90%

trích chọn câu trả lời cho câu hỏi "TAI SAO" lại có độ đo F¡ thấp hơn nhiều (caonhất là 69,66% theo mô hình BERT)

Các nghiên cứu sử dụng mang nơ-ron hoc sâu được liệt kê trong Bang 1.2 xác

định câu trả lời trong một lần tính toán cho một cặp câu hỏi và đoạn văn bản, đượcgọi là single-hop [98] Trong một sỐ trường hợp, chăng hạn các mẫu thử nghiệmcủa bộ ngữ liệu HotpotQA[121], các hệ thống single-hop không thé tìm được câu

Trang 38

trả lời một cách hiệu quả bởi vì kết quả tính toán của hệ thống single-hop có thể chỉtrả về thông tin trung gian chứ chưa phải là câu trả lời cuối cùng Vì thế, các hệthống multi-hop [98] được nghiên cứu dé tìm câu trả lời qua nhiều bước, thôngthường là hai bước Trong bước thứ nhất, hệ thống dùng một mô hình single-hopthứ nhất dé tìm câu trả lời lần thứ nhất Câu trả lời này có thé là thông tin trung gian

dé tìm câu trả lời cudi cùng nên nó được dùng dé đặt lại câu hỏi Câu hỏi mới được

xử lý lần thứ hai với mô hình single-hop thứ hai dé xác định câu trả lời cuối cùng.Các hệ thống multi-hop có thể kế như DecompRC của Sewon và cộng sự [69] hay

FE2H của Li và cộng sự [58] được xây dựng dựa trên mang no-ron học sâu

BERT[26].

1.2.4 Nhận xét các phương pháp tra lời cau hỏi “TAI SAO”

Từ kết quả khảo sát được trình bày như trên, luận án có ba nhận xét như sau:

Nhận xét thứ nhất, các phương pháp trả lời câu hỏi “TẠI SAO” theo cách tiếpcận phân tích diễn ngôn và cách tiếp cận kết hợp truy xuất thông tin với rút tríchthông tin đều sử dụng đặc trưng liên quan đến cấu trúc diễn ngôn gồm từ ngữ liênkết và quan hệ diễn ngôn Từ ngữ liên kết được sử dụng vì chưa thé giải quyết bài

toán phân tích quan hệ diễn ngôn Kết quả phân tích diễn ngôn còn chưa đảm bảo

tính hệ thống Chăng hạn, Verberne dựa vào các dạng mệnh đề trạng ngữ [104,

106]; Delmonte [24], Higashinaka và Isozaki [39], Oh va cộng su [81] sử dụng bộ

phân lớp dé nhận dạng quan hệ diễn ngôn; Azmi [6, 7] sử dung cue-phrases, là một

dạng từ ngữ liên kết, để xác định quan hệ diễn ngôn Các nghiên cứu này chưa chothấy được don vị trong cau trúc diễn ngôn là gì dé từ đó xác định quan hệ diễn ngôngiữa chúng Bên cạnh đó, nếu chỉ dựa vào từ ngữ liên kết thì có nhiều quan hệ diễnngôn có thể không nhận dạng được

Nhận xét thứ hai, các phương pháp theo cách tiêp cận mạng nơ-ron học sâu sử

dụng các mẫu hỏi-đáp đê huân luyện các mô hình học máy nhăm dự đoán vi trí câu

trả lời trong một đoạn văn bản Quá trình tính toán của các mô hình học máy khi tìm

Trang 39

câu trả lời như một hộp đen, không thé hiện được kết quả từng bước xác định câutrả lời mặc dù kết quả trả lời câu hỏi “TAI SAO” trong Bảng 1.2 thé hiện rằng các

mô hình này có khả năng tính toán được một số dạng suy luận

Nhận xét thứ ba, các phương pháp xác định câu trả lời của Higashinaka và

Isozaki [39] và Oh [80-82] sử dụng một mô hình phân lớp dé nhận dạng một cặpcâu có cau trúc nguyên nhân - kết quả Việc mô hình phân lớp có thé dự đoán mộtcặp câu có thể tạo thành một câu ghép có cấu trúc nguyên nhân — kết quả cho thấyrằng mô hình phân lớp phù hợp dé giải quyết bài toán suy luận và suy luận là một

cơ chế cần phải sử dụng dé tìm câu trả lời cho câu hỏi “TAI SAO”

1.2.5 Các nghiên cứu héi-dap cho tiếng Việt

Các nghiên cứu hỏi-đáp cho tiếng Việt được tiến hành theo các cách tiếp cận đãtrình bày gồm kết hợp IR và IE, đồ thị tri thức, logic hình thức và mạng nơ-ron họcsâu Các kết quả nghiên cứu theo các cách tiếp cận này khá nhiều nên luận án chỉtrình bày một số kết quả nghiên cứu cho thấy hiệu quả theo từng cách tiếp cận.Theo cách tiến cận kết hợp IR và IE, hệ thống hỏi-đáp trong lĩnh vực pháp lý [29]được xây dựng dựa trên sự kết hợp hai công cụ truy xuất thông tin là Google vàLucene dé tìm những tài liệu liên quan đến câu hỏi Câu trả lời của hệ thống đượctrích chọn từ nhóm các câu liên tiếp trong tài liệu liên quan theo một thủ tục kết hợptính toán ngữ nghĩa tiềm an và các heuristics; kết qua của hệ thống đạt độ chính xác(precision) khoảng 70% trên tổng số 211 mẫu thử trong ngành luật doanh nghiệp

Theo cách tiếp cận đồ thị tri thức, hệ thống hỏi-đáp [86] xây dựng đồ thị tri thức

tự động từ kết qua phân tích cú pháp phụ; sử dụng mạng nơ-ron tích chập (CNN) dénhận dạng loại câu hỏi cũng chính là thành phần predicate trong bộ ba <subject,predicate, object>; sử dụng kết quả phân tích cú pháp phụ thuộc để xác định cácthành phần subject; tìm kiếm các thực thê trong đồ thị tri thức bằng cách chuyên cácthực thể này sang dạng vector và thực hiện việc tìm kiếm trong không gian vector

Nội dung câu trả lời được xác định theo các bộ ba <subject, predicate, object> có

Trang 40

hai thành phần subject và predicate khớp với câu hỏi Hệ thống [86] đạt độ chínhxác (accuracy) 80,1% trên ngữ liệu đánh giá riêng Hệ thống hỏi-đáp [55] phân tíchtruy vấn từ ngôn ngữ tự nhiên tiếng Việt và chuyên thành truy vấn trên DBPedia[57] Hệ thống [55] đạt độ chính xác (accuracy) 76,90% trên ngữ liệu đánh giá

riêng.

Theo cách tiếp cận logic hình thức, hệ thống hỏi-đáp [76] biểu diễn tri thức theo

logic vị từ bậc một (First-Order Logic - FOL) và biến đổi câu hỏi từ ngôn ngữ tựnhiên tiếng Việt thành biểu thức FOL Hệ thống [76] xác định câu trả lời từ kết quả

suy luận theo FOL.

Theo cách tiếp cận mạng nơ-ron học sâu, hệ thống hoi-dap [100] sử dụng kiếntrúc BERT cho tác vụ hỏi-đáp [26] để xác định vị trí đầu và cuối của câu trả lời chobài toán đọc hiệu tự động Hệ thống tốt nhất của [100] có F¡ đạt 0,802 trên ngữ liệuriêng Hệ thống hoi-dap [125] tìm câu trả lời cho bai toán đọc hiểu tự động qua haibước Bước thứ nhất, hệ thống sử dụng kiến trúc siamese-BERT [90] dé chon mộtcâu trong văn cảnh phù hop nhất với câu hỏi, sau đó sử dụng kiến trúc XLM-R [20]

dé trích chọn câu trả lời từ câu được chọn Hệ thống [125] có độ đo F; đạt 89,54%

và EM đạt 70,83% trên ngữ liện UIT-ViQuAD V1.0 [77].

Nhìn chung các nghiên cứu hỏi-đáp tự động cho tiếng Việt đã được thực hiệntheo tất cả cách tiếp cận và giải quyết chủ yếu là các câu hỏi factoid Các hệ thốnghỏi-đáp theo cách tiếp cận mạng nơ-ron học sâu có thê tìm câu trả lời cho câu hỏi

“TẠI-SAO”, thé hiện một tỉ lệ nhỏ những câu hỏi “TẠI SAO” trong bộ ngữ liệuUIT-ViQuAD V1.0 [77] nhưng chưa có hệ thống hỏi-đáp được nghiên cứu dé giảiquyết riêng cho câu hỏi “TẠI SAO” tiếng Việt

1.3 CÁC VAN DE LIEN QUAN

Theo ba nhận xét ở Mục 1.2.4, có ba van dé liên quan trực tiếp đến bài toán trảlời câu hỏi "TẠI SAO" là lập luận, phân tích diễn ngôn tiếng Việt và phương pháp

tính toán đê giải quyêt các bài toán trọng yêu của luận án trên máy tính.

Tiêu đề	Mô hình và phương pháp lập luận để trả lời các câu hỏi "tại sao" dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt
Tác giả	Nguyễn Trọng Chỉnh
Người hướng dẫn	PGS. TS. Nguyễn Tuấn Đăng, PGS. TS. Phạm Hữu Đức
Trường học	Đại học Quốc gia TP HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận án Tiến sĩ
Năm xuất bản	2023
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	170
Dung lượng	40,4 MB