sec eeeeeekeKết quả thử nghiệm khi không sử dụng một trong cácthành phần trong mô hình của luận án với câu trả lời có nhiêu ý trên ngữ liệu VnYNews...- cư, Thống kê số lượng trường hợp c
Trang 1TRUONG ĐẠI HỌC CÔNG NGHE THONG TIN
Nguyen Trong Chinh
MO HINH VA PHUONG PHAP LAP LUAN DE TRA LOI CAC
CÂU HOI "TAI SAO" DỰA TREN CÁCH TIẾP CAN PHAN
TICH DIEN NGON TIENG VIET
LUẬN AN TIEN SĨ KHOA HOC MAY TINH
Trang 2ĐẠI HỌC QUỐC GIA TPHCM
Nguyễn Trọng Chỉnh
MÔ HÌNH VÀ PHƯƠNG PHÁP LẬP LUẬN DE TRA LOI CÁC
CÂU HOI "TẠI SAO" DỰA TREN CÁCH TIẾP CAN PHAN
TÍCH DIEN NGÔN TIENG VIET
Chuyén nganh: KHOA HOC MAY TINH
Mã số: 62.48.01.01
LUẬN ÁN TIEN SĨ KHOA HỌC MAY TÍNH
NGƯỜI HƯỚNG DAN KHOA HỌC:
1 PGS TS Nguyên Tuân Đăng
2 PGS TS Phạm Hữu Đức
TP HO CHÍ MINH — NĂM 2023
Trang 3LOI CAM DOAN
Tôi cam đoan răng nội dung luận án này do chính tôi trực tiếp thực hiện và chưađược công bé trong bat kỳ khóa luận tốt nghiệp, luận văn thạc sĩ hay luận án tiến sĩnào ngoài những báo cáo hội nghị, bài báo tạp chí hay đề tài nghiên cứu khoa học
phục vụ cho chính luận án này.
Tác giả luận án
Nguyễn Trọng Chỉnh
Trang 4Nội dung nghiên cứu
Đôi tượng nghiên cứu
Phạm vi nghiên cứu
Y nghĩa khoa học và thực tiễn của đề tài
CHƯƠNG 1. TONG QUAN
Tom tat chuong
1.1.2 Bài toán trả lời câu hỏi "TAI SAO"
1.1.3 Đánh giá phương pháp tra lời câu hỏi
TONG QUAN TINH HÌNH NGHIÊN CỨU
1.2.1 Hướng tiếp cận chú giải tri thức 1.2.2 Hướng tiếp cận khai phá tri thức
1.2.3 Các phương pháp trả lời câu hỏi “TAI SAO”
1.2.4 Nhận xét các phương pháp trả lời câu hỏi “TẠI SAO”
1.2.5 Các nghiên cứu hỏi-đáp cho tiếng Việt
CÁC VAN DE LIEN QUAN
1.3.1 Lập luận
1.3.2 Diễn ngôn
HƯỚNG TIẾP CẬN CỦA LUẬN ÁN1.4.1 Tính toán mức độ thỏa lược đồ lập luận loại suy1.4.2 Nhận dạng quan hệ diễn ngôn
\S ¬ì"' ¬\" ¬I" èðH Ca: + C2 C2 C3 =mïm =
€3) Ó©2 Ó) Ó©2 t2) NY NY NY FF FF FP eSAAI KDN HNN FW ONAN FL C
Trang 51.5 CÁU TRÚC CỦA LUẬN ÁN
CHƯƠNG2 CƠ SỞ LÝ THUYET
(RHETORICAL STRUCTURE THEORY)
2.1.1 Don vị diễn ngôn cơ bản 2.1.2 Quan hệ diễn ngôn
2.1.3 Nguyên tắc phân tích diễn ngôn theo RST
2.1.4 Phương pháp phân đoạn EDU
2.1.5 Phương pháp xác định quan hệ diễn ngôn
LẬP LUẬN LOẠI SUY
2.3.3 Tính toán ngữ nghĩa với kiến trúc mạng BERT
DE XUẤT CÁC KHÁI NIỆM
2.4.1 Khái niệm chuỗi
2.4.2 Các khái niệm liên quan đến lập luận
2.4.3 Các khái niệm cơ bản của bài toán trả lời câu hỏi “TẠI SAO”
KET CHƯƠNG
CHUONG 3 PHAN TÍCH DIEN NGÔN TIENG VIET
O CAP ĐỘ CÂU VÀ LIÊN CÂU
44
44
46
46 46
50 53
53 54 54 55 61 61 61 63 66
68 68 69
71
71 71
73
Trang 63.3.1 Xây dựng văn phạm phi ngữ cảnh 73
3.3.2 Phân tích quan hệ lý do ở cấp độ câu 773.4 XÁC ĐỊNH QUAN HỆ LÝ DO Ở MỨC LIÊN CÂU 793.5 THU NGHIỆM VÀ ĐÁNH GIÁ 79
3.5.1 Đánh giá kết quả phân đoạn EDU 793.5.2 Đánh giá kết quả xác định quan hệ lý do cấp độ câu 803.6 KET CHUONG 81
CHUONG 4 PHƯƠNG PHÁP LẬP LUẬN TREN BIEU DIEN
DANG VAN BAN TIENG VIET 83
Tom tat chuong 83
4.1 PHƯƠNG PHAP LẬP LUẬN TREN BIEU DIEN
DANG VAN BAN THEO CO CHE LOAI SUY 85
4.1.1 Tinh toán độ thuyết phục của lập luận g7 4.1.2 Xác nhận sự thỏa lược đồ loại suy 88
4.2 ỨNG DỤNG CUA LẬP LUẬN TREN BIEU DIỄN
DẠNG VĂN BẢN 88
4.2.1 So khớp ngữ nghĩa của hai câu 88
4.2.2 Tính toán độ tương đồng ngữ nghĩa giữa hai câu 89
4.3 HUAN LUYỆN MÔ HINH NHẬN DẠNG LẬP LUẬN
TREN BIEU DIEN DẠNG VĂN BẢN VỚI KIÊN TRÚC BERT 90
4.3.1 Xây dựng bộ ngữ liệu huấn luyện 90
4.3.2 Huấn luyện mô hình nhận dạng lập luận loại suy cho tiếng Việt 92
4.4 ĐÁNH GIÁ MÔ HÌNH NHẬN DẠNG LẬP LUẬN LOẠI SUY
TREN BIEU DIEN DANG VAN BẢN 93
4.5 KET CHUONG 94
CHUONG 5 MO HÌNH LẬP LUẬN DE TRA LOI CÂU HOITAISAO 95
Tom tat chuong 955.1 PHƯƠNG PHAP LẬP LUẬN DE TRA LOI CÂU HOI “TẠI SAO” ~—975.2 MÔ HÌNH LẬP LUẬN DE TRA LOI CÂU HOI “TAI SAO” 98
5.2.1 Thanh phan phân tích diễn ngôn 1015.2.2 Thanh phan lập luận loại suy 1045.2.3 Thanh phan chon quan hé ly do 1075.2.4 Thanh phan hau xt ly 1115.3 NGỮ LIEU THU NGHIEM 112
Trang 75.3.1 Ngữ liệu thử nghiệm dé đánh giá mô hình5.3.2 Ngữ liệu huấn luyện mô hình rút trích câu trả lời5.3.3 Độ đo đánh giá kết quả thử nghiệm
5.4 CÁC CHUONG TRÌNH ĐƯỢC THU NGHIỆM
5.4.1 Chương trình IRYQA
5.4.2 Chương trình QU-PhoBERT
5.4.3 Chương trình UIT-PhoBERT
5.4.4 Chương trình UIT-DistiIBERT 5.4.5 Chương trình UIT-XLMR
5.4.6 Chương trình BERTYQA
5.4.7 Chuong trinh OH-YQA
5.4.8 Chuong trinh MHOPQA
5.5 THU NGHIỆM VA DANH GIÁ
5.5.1 Thử nghiệm với câu trả lời có một ý
5.5.2 Thử nghiệm với câu trả lời có nhiều hơn một ý5.5.3 Thử nghiệm vai trò của các thành phan trong mô hình5.6 _ ƯU ĐIÊM VÀ NHƯỢC DIEM CUA MÔ HÌNH
Danh mục công trình nghiên cứu
Tài liệu tham khảo
112
113
114
114 115
116
116 117 117 117 117
118 119
119
125
128 134
135
135
138 139
140
142
142
143 144
146
147
Trang 8DANH MUC BANG
Cac phương pháp trả lời câu hỏi “TAI SAO”
theo cách tiếp cận kết hợp IR và IE 2-2 2 s2+x+zx+zx+zszse2 19Kết quả trả lời các dạng câu hỏi và dạng câu hỏi tại sao
trên tập development của ngữ liệu SQUAD vĨ.l «« 22
Các thành phần của một lược đồ của một quan hệ diễn ngôn 43Các yếu tô đối ứng của âm thanh và ánh sáng - + 49Các yếu tổ loại suy cho lập luận về phán đoán thực tế về đạo đức 5lCác yếu tô loại suy cho lập luận về mèo là loài bò sát 51Các trường hợp xuất hiện câu trả lời của câu hỏi “TẠI SAO” 66Bảng xác định thành phần kết luận trong cấu trúc lý do
dựa trên quan hệ diễn ngôn thuộc nhóm quan hệ lý đo 70
Thông kê về bộ ngữ liệu gán nhãn EDU 2 2 25+: 72Một số luật sản sinh quan trọng và ý nghĩa của nó
trong văn phạm pp, - - - - - + + +3 919391 vn ng Hy 75
Các trường hop cần đưa vào nhóm quan hệ lý do ở cấp độ câu 76Các trường hợp cần đưa vào nhóm quan hệ lý do ở mức liên câu 79
Hiệu quả của việc chú giải tự động ngữ liệu phân đoạn EDU
từ treebank cấu trúc ngữ đoạn tiếng Việt NIIVTB - 80
Thống kê dữ liệu thử nghiệm cho bài toán phân tích quan hệ lý do 81
Các dạng lập luận trong ngữ liệu VnNewsNLI 91
Thống kê các tập ngữ liệu NLI tiếng Việt được sử dụng 92
Kết qua thử nghiệm các mô hình NLI tiếng Việt 93
Thống kê các ngữ liệu thử nghiệm - 2 2 s£xezzzzzzsred 112
Ty lệ các nhóm trong tap VnYQA và VIYQuAD 113
Thống kê ngữ liệu VSQUAD và ViQuAD -5¿ccccccea 114Kết qua của các chương trình trên ngữ liệu VnYQA
8/49/1001 119
Kết quả thử nghiệm của các chương trình theo nhóm câu hỏi
trên ngữ liệu VnYQA và VIYQuAD - chư 121
Kết quả thử nghiệm của các chương trình với câu trả lời
có nhiều ý trên ngữ liệu VnYNews 2-55c 2c screrkerrrrsrred 126Kết quả thử nghiệm khi không sử dụng một trong các
thành phần trong mô hình của luận án trên tập thử nghiệm
Trang 9trên ngữ liệu VnYQA và VIYQuADD sec eeeeeeke
Kết quả thử nghiệm khi không sử dụng một trong cácthành phần trong mô hình của luận án với câu trả lời
có nhiêu ý trên ngữ liệu VnYNews - cư,
Thống kê số lượng trường hợp có câu trả lời sai của
mô hình lập luận dé trả lời câu hỏi “TAI SAO” dựa trêncách tiếp cận phân tích diễn ngôn tiếng Việt theo lập luận
và quan hệ diễn ngôn . ¿- 2 25+©++2x+zxvzvervzrvzrezrresThống kê số lượng trường hợp có câu trả lời đúng của
mô hình lập luận dé trả lời câu hỏi “TAI SAO” dựa trêncách tiếp cận phân tích diễn ngôn tiếng Việt theo lập luận
và quan hệ diễn ngôn . ¿+ +s+++zx+z++z+zx+zxzxezed
¬" 133
¬" 133
Trang 10H/01/1/8/11/89) ST 33
Minh họa cầu trúc tu từ theo RST v.cccccccscssesescsvscssssesesescsvsvevevseseseseseees 35
Minh họa quan hệ diễn ngôn một hạt nhân «-+~<<<++++ 44
Minh họa quan hệ diễn ngôn nhiêu hạt nhân -:-c+cccs+s+se¿ 44Lược đồ cơ bản của lập luận loại suy theo Juthe - -‹- 49Minh họa kiến trúc BERT -¿-©5¿25+2++2£xvvtxverrxrsrxrsrrree 56Kiến trúc mang dùng đề huấn luyện mô hình NLI - 59Minh họa kiến trúc mạng cho bài toán gán nhãn dữ liệu chuỗi 60
Vi dụ về định dang chú giải EDU 2- 2 2 2+s2+x£E+zxzzs+ce2 72
Minh họa việc áp dụng lược đồ lập luận loại suy của Juthe 85
Mô hình hệ thống lập luận dé trả lời câu hỏi "Tại sao"
dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt 99Quy trình xử lý câu hỏi của hệ thống lập luận dé trả lời câu hỏi
"Tại sao" dựa trên cách tiếp cận phân tích diễn ngôn tiếng Việt 99
So đồ thiết kế thành phan phân tích diễn ngôn theo quan hệ lý do 102Quy trình xử lý văn bản của thành phần phân tích diễn ngôn
theo quan hệ lý đỊO - - 5 + 13119 11191111911 191 191 ng ng nếp 102
Kết quả phân tích quan hệ lý do của thành phần
Phân tích diễn ngôn ¿+52 5++2+2E+2E2EEEeEEeExerxerxerrrrrrrrrree 103
Sơ đồ thiết kế thành phan lập luận loại suy - - - 104Quy trình xử lý của thành phan lập luận loại suy - 104Kết quả tạo lập luận theo cơ chế loại suy của thành phần
Lap 1uan load SUY 1 Ố 106
Thành phan chọn quan hệ lý dO ccsscssesssessessessesssessessessseeseesessesseeess 107Quy trình xử lý của thành phan chọn quan hệ lý do 107
Đồ thị lý do được tạo trong thành phần Chọn quan hệ lý do 110Kiến trúc mạng single-hop đọc hiểu văn bản dựa trên
kiến trúc BERT -22+c++EEE tr tre 116
Trang 11Kiến trúc mang chon câu trả lời cho câu hỏi “TAI SAO”
dựa trên kiến trúc BERT -cc¿-+c2+vcrtrrrterrrrrrtrrrrrrrrrrree 118Kiến trúc mạng multi-hop đọc hiểu văn bản
dựa trên kiến trúc BERT . ¿- 522cc 118Biểu đồ hiệu quả của các chương trình trên các tập ngữ liệu
VnYQA và VIYQuAD theo độ đo Et - 55c tenses 120
Biểu đồ AR của các chương trình trên ngữ liệu thử nghiệm
VnYQA và VIYQuALD - vn HH HH ng ràt 120
Biểu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu
thử nghiệm VnYQA của các chương trình - «+ -«= «+ 123
Biểu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu
thử nghiệm VIYQuAD của các chương trình ‹ «+2 123
Biểu đồ hiệu quả của các chương trình trên ngữ liệu thử nghiệm
và ViYQuAD theo độ đo E -2- ©5252 2Ec2EccE2EeEkerkrrrerrrred 129
Biểu đồ AR của chương trình BERTYQA khi loại bỏ từngthành phan trên ngữ liệu thử nghiệm VnYQA và ViYQuAD 129Biểu đồ tỷ lệ câu trả lời theo các nhóm khó, trung bình và dễ
trên ngữ liệu thử nghiệm VnYQA của chương trình
BERTYQA khi loại bỏ từng thành phần -2- 525522 s2 130Biéu đồ AR theo các nhóm khó, trung bình và dễ trên ngữ liệu
thử nghiệm ViYQuAD của chương trình BERTYQA
khi loại bỏ từng thành phần - 2-2-2 522£22£z££EerEerEezrssred 131Biểu đồ CAR trên ngữ liệu thử nghiệm VnYNews của
chương trình BERTYQA khi lược bỏ từng thành phần 131Biểu đồ hiệu quả của chương trình BERTYQA khi loại bỏ từng
thành phan trên ngữ liệu thử nghiệm VnYNews theo độ đo F: 132Kết quả của phương pháp SHAP khi giải thích một trường hợp
thử nghiệm mô hình đọc hiểu tự động cho tiếng Việt được
tinh chỉnh từ PhoBlERIT - c5 +++*+*£++sExekEsererrrrrerrrrke 137
Trang 12DANH MỤC TỪ VIẾT TẮT
BERT Bidirectional Encoder Representations from Transformers CRF Conditional Random Field
DMN Dynamic Memory Network
DNN Deep Neural Network
DRS Discourse Representation Structure
DRT Discourse Representation Theory
EDU Elementary Discourse Unit
FFNN Feed Forward Neural Network
HMM Hidden Markov Model
LSA Latent Semantic Analysis
LSTM Long Short Term Memory
ME Maximum Entropy
MRC Machine Reading Comprehension
MRR Mean Reciprocal Rank
NLI Natural Language Inference
NLP Natural Language Processing
QA Question Answering
RST Rhetorical Structure Theory
RTE Recognizing Textual Entailment
SVM Support Vector Machine
TBL Transformation Based Learning
WE Word Embeddings
Trang 13DANH MỤC CÁC THUẬT NGỮ
đối tượng đã được nêu trước
đó nhưng tránh nêu lại.
Causal relation [68] Quan hệ nhân-quả [2] Theo [2], chỉ mối quan hệ
“nguyên nhân — kết quả”
giữa hai động từ như cặp động từ “give — have” (cho —
có).
Cause relation Quan hệ diễn ngôn chi
nguyên nhân
Quan hệ giữa hai đơn vị diễn
ngôn trong đó một đơn vi
diễn ngôn diễn tả nguyên
nhân của sự việc được diễn
tả trong đơn vị diễn ngôn
ngữ hoặc câu đang xét.
Defeasible Không vững (lập luận) Chi khả năng dùng lý lẽ dé
phản bác một lập luận.
Discourse marker Từ ngữ liên kết Các từ ngữ có chức năng
liên kết các mệnh đề, các
câu hoặc các đoạn văn trong
văn bản, là dấu chỉ của một
số loại quan hệ diễn ngôn
Distributional Ngữ nghĩa hoc phân bố | Hướng tiếp cận tinh toán
Semantics ngữ nghĩa dựa vào thực tế sử
dụng từ ngữ.
Element discourse unt | EDU
Trang 14Entailment Quan hé kéo theo Giả sử A va B là mệnh dé,
câu hoặc đoạn văn Theo
Dagan [23], A có quan hệ
kéo theo B nếu người đã đọc
A sẽ cho răng B đúng
Explicit meaning Nghĩa hiển ngôn [3] Theo Cao Xuân Hao [3], “Ja
nghĩa nguyên văn (gồmnghĩa đen và một số nghĩa
bóng quen thuộc) của những
từ ngữ có mặt trong câu và
nhờ những mối quan hệ cúpháp giữa các từ dy.”
Finite clause Ménh dé quan hé han Một khái niệm mệnh đề
định trong tiếng AnhImplicit meaning Nghĩa hàm an [3] Theo Cao Xuân Hạo [3],
“những gì không có san
trong nghĩa nguyên văn của
các từ ngữ và trong moiquan hệ cú pháp ấy nhưngvẫn thấu đến người nghethông qua một sự suy diễn ”
Informal argument Lap luận đời thường (lập
luận phi hình thức) Internal argument Lập luận con Lập luận là tiên đề của một
lập luận khác.
Nucleus Hạt nhân (vai trò trong Don vi mang nghĩa quan
quan hệ diễn ngôn) trọng hơn, không thê lược
nêu trong văn bản.
Result relation Quan hệ diễn ngôn chỉ
kết quả
Quan hệ giữa hai đơn vị diễn
ngôn trong đó một don vi
diễn ngôn diễn tả kết quả
Trang 15của một sự việc được diễn tả
trong đơn vi diễn ngôn con lại.
Rhetorical structure Câu trúc tu từ Cấu trúc giúp nhân mạnh ý
cần diễn đạt
Satellite Vệ tinh (vai trò trong Don vi mang nghĩa it quan
quan hệ diễn ngôn) trọng hơn, có thể lược bỏ khi
rút gọn văn bản.
Validity Tính hiệu lực (của lập Cho biết phép kéo theo từ
luận) tiền đề đến kết luận là đúngWord embedding Vector từ Nghĩa của từ được biểu diễn
dưới dang vector
Trang 16MỞ ĐẦU
Lý do lựa chọn đề tài
Theo khảo sát các nghiên cứu về hỏi-đáp tự động, được trình bày ở Mục 1.1
và Mục 1.1.3.5, những dạng câu hỏi khác nhau cần được nghiên cứu dé tim raphương pháp phù hợp trả lời phù hợp Các nghiên cứu về hoi-dap tự động phan lớntập trung vào dạng câu hỏi factoid Số lượng nghiên cứu phương pháp trả lời câuhỏi “TẠI SAO” (Why-question) chưa nhiều và hiệu quả còn chưa cao, thể hiện ởkết quả tốt nhất là Fi=69,66% khi trả lời câu hỏi “TẠI SAO” trên bộ ngữ liệuSQuAD V1.1 Vì thế, luận án chọn đề tài nghiên cứu phương pháp trả lời câu hỏi
“TẠI SAO” tiếng Việt
Các nghiên cứu về phương pháp trả lời câu hỏi “TẠI SAO” được khảo sát vàđược trình bày trong Mục 1.1.3.5 cho thay rằng cấu trúc nguyên nhân — kết qua củamột câu là một đặc trưng quan trọng để tìm câu trả lời Các nghiên cứu này sử dụngcác từ ngữ liên kết trong cấu trúc nguyên nhân — kết quả theo lý thuyết cấu trúc tu
từ hoặc một sử dụng một mô hình phân lớp dé nhận dạng cấu trúc nguyên nhân —kết quả Kết quả nhận dạng là cơ sở xác định câu trả lời chính là mệnh đề chỉ
nguyên nhân Trong các phương pháp được nghiên cứu, phương pháp của Azmi sử
dụng một chương trình phân tích diễn ngôn tiếng Ả-rập theo lý thuyết cấu trúc tu từ(Rhetorical Structure Theory — RST) để xác định câu trả lời Điều này cho thấyphân tích diễn ngôn là một cách tiếp cận phù hợp để tìm câu trả lời cho câu hỏi
“TẠI SAO” Tuy nhiên, các kết quả nghiên cứu về phân tích diễn ngôn, được trìnhbay ở Mục 2.1.5, còn nhiều hạn chế với hiệu quả cao nhất đạt Fi=57,6% khi phântích diễn ngôn của toàn văn bản tiếng Anh Bên cạnh đó, câu trả lời của câu hỏi
“TẠI SAO” còn có thé tìm được trong một lập luận bởi vì lập luận cũng có dạngnguyên nhân — kết quả trong đó các tiền đề và kết luận tương ứng với vị trí củanguyên nhân và kết quả Vì thế, luận án giả thiết rằng, cấu trúc diễn ngôn và lập
luận là những đối tượng chứa câu trả lời cho câu hỏi “TAI SAO”.
Trang 17Mặc dù các mô hình mạng nơ-ron học sâu có thé trả lời câu hỏi “TAI SAO”như được trình bày ở Mục 1.2.3.3, luận án không chọn cách tiếp cận dùng mạng nơ-ron học sâu Bởi vì theo cách tiếp cận này, mô hình mạng nơ-ron học sâu là một hộp
đen, không giải thích được quá trình tìm câu trả lời cho câu hỏi “TAI SAO” Luan
án chọn cách tiếp cận phân tích diễn ngôn tiếng Việt kết hợp với lập luận dé có thé
làm rõ cơ chế xác định câu trả lời cho câu hỏi “TẠI SAO” tiếng Việt trên máy tính
Theo tác giả Đỗ Hữu Châu, diễn ngôn là một khái niệm trong ngôn ngữ học đểchỉ một nhóm câu liên tiếp đảm bảo được tính mạch lạc và thể hiện được một chủđích của người viết như tự sự, lập luận, Từ khái niệm diễn ngôn này, một đoạnvăn là một diễn ngôn và một văn bản với kích thước bat kỳ cũng là một diễn ngôn
Phân tích diễn ngôn là phân tích sự liên hệ giữa các câu trong đoạn văn hay văn bản
dé thay được chủ dich của người viết Nói cách khác, phân tích nghĩa của văn bảndựa trên các quy tắc do người viết sử dụng dé xây dựng văn bản, tương tự như việcphân tích nghĩa của câu dựa trên các quy tắc cú pháp, cần phải phân tích diễn ngôn.Luận án chọn cách tiếp cận phân tích diễn ngôn cho văn bản tiếng Việt để xác địnhmỗi liên hệ giữa các câu trong các lập luận hoặc lời giải thích được trình bày ở dạngvăn bản Bởi vì câu hỏi “TẠI SAO” được đặt ra dé tìm lý do của một sự việc nêncách tiếp cận phân tích diễn ngôn sẽ phù hợp với quá trình xác định câu trả lời docon người thực hiện và do đó có cơ sở để giải thích quá trình tìm câu trả lời
Trong diễn ngôn, có những lập luận không thể hiện rõ ràng qua các quan hệdiễn ngôn trong văn bản, tạm gọi là những lập luận không tường minh Người đọc
nhận ra những lập luận này qua quá trình lập luận dựa trên những tri thức có trong
văn ban và những tri thức mà họ đã biết trước đó (gọi là tiền giả định) Vì thế, khiphương pháp phân tích diễn ngôn không xác định được những lập luận không tườngminh, luận án cần có phương pháp lập luận dé xác định những lập luận này, tương
tự như cách người đọc đã tiến hành
Việc sử dụng các quan hệ diễn ngôn dé tìm câu trả lời cho câu hỏi “TẠI SAO”
là một giải pháp không mới, nhưng việc sử dụng lập luận để trả lời câu hỏi “TẠISAO” dựa trên cách tiếp cận phân tích diễn ngôn là một cách tiếp cận mới Vì thế,luận án chọn đề tài “Mô hình và phương pháp lập luận để trả lời câu hỏi TẠI SAO
Trang 18dựa trên cách tiếp cận phân tích diễn ngôn cho văn bản tiếng Việt” để nghiên cứuvan dé phân tích diễn ngôn tiếng Việt và lập luận trên biểu diễn văn bản tiếng Việt,
từ đó kết hợp chúng trong một mô hình hệ thống hỏi-đáp cho câu hỏi “TẠI SAO”
dé làm rõ khả năng áp dụng của cách tiếp cận này
Mục đích của luận án
Mục đích của luận án là nghiên cứu phương pháp lập luận và phương pháp
phân tích diễn ngôn làm cơ sở để xác lập cơ chế tìm câu trả lời có trong văn bảntiếng Việt cho các câu hỏi "TẠI SAO" Cơ chế này có đặc điểm là rõ ràng và phùhợp với cách tìm câu trả lời cho câu hỏi “TẠI SAO” của người Việt Sự rõ ràng thêhiện qua kết quả từng bước trong quá trình tìm câu trả lời Sự phù hợp với cách tìmcâu trả lời của người Việt được thể hiện qua việc phân tích diễn ngôn và lập luậnbởi vì diễn ngôn tiếng Việt và lập luận là phương tiện trình bày lý lẽ của người Việt
Nội dung nghiên cứu
Đề đạt được mục đích nghiên cứu, các nội dung cần được nghiên cứu trong
luận án như sau:
- Tổng quan về hỏi-đáp tự động và các nghiên cứu về câu hỏi "TẠI SAO"
- M6 hình và phương pháp phân tích một số quan hệ diễn ngôn cấp độ câu
và liên câu trong tiếng Việt
- Phuong pháp lập luận trên biểu diễn văn bản tiếng Việt
- Phuong pháp xác định câu trả lời cho các câu hỏi "TAI SAO" dựa trên lập
luận và phân tích diễn ngôn.
- M6 hình lập luận dé trả lời câu hỏi "TẠI SAO" dựa trên cách tiếp cận phân
tích diễn ngôn cho văn bản tiếng Việt
Đối tượng nghiên cứu
Từ mục đích của luận án, đôi tượng nghiên cứu được xác định gôm:
- _ Mô hình diễn ngôn áp dụng dé biểu diễn diễn ngôn cho văn bản tiếng Việt.
- Don vị diễn ngôn trong văn bản tiếng Việt
Trang 19Quan hệ diễn ngôn trong văn bản tiếng Việt.
Lập luận theo cơ chế loại SUY
Nhận dạng lập luận và tạo lập luận theo cơ chế loại suy
Pham vi nghiên cứu
Luan án được nghiên cứu trong phạm vi như sau:
Phạm vi áp dụng là dạng bài toán là tìm câu trả lời cho câu hỏi “TẠI SAO”
trong một văn bản ngắn Một văn bản ngắn là một văn bản có nội dungtrình bày một chủ đề duy nhất với số từ không vượt quá 500 từ Một vănbản ngắn có thê là một bài luận, một bản tin ngắn hoặc một nhóm liên tiếp
vài đoạn văn trình bày một ý trong một văn bản.
Phân tích quan hệ diễn ngôn trong luận án chỉ thực hiện ở cấp độ câu vàliên câu cho một số quan hệ diễn ngôn được chọn, tập trung vào việc xác
định câu trả lời cho câu hỏi “TAI SAO” của luận án Bởi vì phân tích diễn
ngôn ở cấp độ toàn văn bản là một bài toán khó, đặc biệt đối với tiếng Việt
do thiếu ngữ liệu chú giải diễn ngôn ở cấp độ toàn văn bản Vấn đề phântích diễn ngôn ở cấp độ toàn văn bảng cho tiếng Việt cần được nghiên cứu
riêng.
Cơ chế lập luận được xác định là cơ chế loại suy theo lược đồ loại Suy củaJuthe Lập luận có thé được thực hiện theo rất nhiều lược đồ lập luận đểđảm bảo tính vững chắc Đa số lược đồ lập luận được trình bày để người sửdụng tham khảo áp dụng vào quá trình giao tiếp chứ chưa nhắm đến việc
áp dụng chúng trên máy tính để tự động sinh các lập luận Trong khi đó,lược đồ lập luận loại suy của Juthe xét sự tương ứng giữa các yếu tố trongmột lập luận cho trước và một cặp tiền đề — kết luận dé đánh giá độ vữngchắc của cặp tiền đề — kết luận đó Điều này phù hợp dé triển khai tính toán
trên máy tính.
Tính toán ngữ nghĩa được thực hiện trên nghĩa thông thường của từ ngữ
mà không tính toán nghĩa hàm ân Nghĩa hàm 4n là nghĩa được hiểu ngoài
những nghĩa thông thường của từ ngữ được dùng Con người nhận ra được
Trang 20nghĩa hàm an nhờ quá trình đối chiếu và suy luận từ những tri thức đã biết
trong một ngữ cảnh xác định Bên cạnh đó, không phải câu nào cũng có
nghĩa hàm ân Vì thế, van dé tinh toán nghĩa hàm an song song với nghĩahiển ngôn là một vấn đề lớn và không thể giải quyết trong luận án này
Phạm vi tính toán ngữ nghĩa của luận án ở nghĩa hiển ngôn vì hướng tiếp
cận tính toán ngữ nghĩa của luận án là ngữ nghĩa học phân bố(distributional semantics) Theo ngữ nghĩa học phân bó, nghĩa của từ đượcxác định dựa vào ngữ cảnh thường được áp dụng cho từ đó nhất, tức là
nghĩa của từ là nghĩa được sử dụng thông thường của nó.
Ý nghĩa khoa học và thực tiễn của đề tài
Mô hình và phương pháp lập luận dé trả lời các câu hỏi "TAI SAO " của luận
án được nghiên cứu dựa trên logic và ngôn ngữ, được triển khai thử nghiệm trênmáy tính, góp phần vào hướng nghiên cứu Text Understanding với bốn đóng góp
chính sau:
- Phan tích diễn ngôn ở cấp độ câu và liên câu theo một số quan hệ được
chọn Các kết quả nghiên cứu được công bố trong các công trình [CT.3] và[CT.6] và có liên quan đến công trình [CT.1]
- Phuong pháp lập luận trên biểu diễn văn bản tiếng Việt theo lược đồ lập
luận loại suy Các kết quả nghiên cứu được công bố trong các công trình
[CT.4] và [CT.8].
- Phuong pháp lập luận dé trả lời các câu hỏi "TẠI SAO" dựa trên cách tiếp
cận phân tích diễn ngôn tiếng Việt và so sánh với các phương pháp khác
thông qua thử nghiệm Phương pháp trả lời câu hỏi “TAI SAO” của luận
án có một ưu điểm nổi bật là có thé tìm được các ý trong một câu trả lời cónhiều hơn một ý; trong đó, các ý này là các chuỗi không liên tục trong vănbản Ưu điểm này bắt nguồn từ việc xác định các lập luận và các lời giảithích có liên quan đến câu hỏi sau đó loại bỏ đi những đơn vị diễn ngôn cóthé không cần thiết cho câu trả lời Các kết quả nghiên cứu được công bố
trong các công trình nghiên cứu [CT.2], [CT.5] và [CT.7].
Trang 21- M6 hình lập luận để trả lời các câu hỏi "TẠI SAO" dựa trên cấu trúc diễn
ngôn tiếng Việt được công bố trong công trình nghiên cứu [CT.7]
Bên cạnh đó, kết quả xây dựng bộ ngữ liệu EDU-UNI gán nhãn EDU dựa trênngữ liệu phân tích cú pháp cau trúc ngữ đoạn tiếng Việt NIIVTB và bộ ngữ liệuVnNewsNLI gan nhãn quan hệ giữa các cặp tiền đề — kết luận tiếng Việt của luận áncũng hỗ trợ cho các nghiên cứu về phân tích diễn ngôn tiếng Việt và suy luận trênbiểu diễn văn bản tiêng Việt.
Trang 22CHUONG 1 TONG QUAN
Tóm tat chương
Chương này trình bày nguồn gốc của bài toán hỏi-đáp với câu hỏi “TẠI SAO”,phương pháp đánh giá hiệu quả của một hệ thống hỏi-đáp, các cách tiếp cận đểgiải quyết bài toán hỏi-đáp với câu hỏi “TẠI SAO”, và hai vấn dé liên quan trựctiếp đến việc xác định câu trả lời cho câu hỏi “TẠI SAO” gồm lập luận và phân tích
diện ngôn.
Xuất phát từ mối liên hệ giữa câu trả lời của câu hỏi “TAI SAO” với lập luận va
diễn ngôn, luận án dé xuất cách tiếp cận lập luận dựa trên kết quả phân tích diễnngôn cua văn bản dé xác định câu trả lời cho câu hỏi “TẠI SAO” trong tiếng Việt.Trong đó, lập luận được tiễn hành theo cơ chế loại suy và phân tích diễn ngôn đượctiến hành theo b> thuyết cầu trúc tu từ Cách tiếp cận này can giải quyết hai bàitoán trong yếu là “tính toán mức độ thỏa lược dé lập luận loại suy ” và “nhận dangquan hệ diễn ngôn” Hai bài toán này được giải quyết lần lượt trong Chương 3 và
Chương 4 của luận án.
1.1 HỎI-ĐÁP TỰ ĐỘNG
1.1.1 Nguồn gốc bài toán
Hoi-dap tự động (question answering) là một nhánh nghiên cứu trong truy
xuất thông tin (Information Retrieval) Mục tiêu của hỏi-đáp tự động là xác địnhcâu trả lời bằng máy tính cho các câu hỏi của con người Câu trả lời gồm các chuỗiđược trích trong một nguồn tài liệu văn bản phi cấu trúc Trong đó, số lượng chuỗicần trích tùy thuộc vào số lượng ý cần phải có ở trong câu trả lời, và câu hỏi đượcbiểu diễn bằng ngôn ngữ tự nhiên Theo khảo sát của tác giả Kolomiyets [51], nhiềuphương pháp giải quyết bài toán hỏi-đáp được nghiên cứu dựa theo hướng truy xuấtthông tin kết hợp với phân loại câu hỏi (Text Classification) [59, 71] và trích chọnthực thể trong văn bản (Named Entity Recognition) [73, 118] Theo hướng này,
Trang 23phương pháp chung để giải quyết bài toán hỏi-đáp tự động có thể được minh họabăng Hình 1.1.
Sinh câu Phân lớp Cau trả lì ¡|
truy vấn câu hỏi ~ au tra lời
Truyxuat ==“ Trichchon - i Xếp hang
van ban thực thé thực thé
Chi muc ‘Vani ban
Hình 1.1 Sơ đồ các bước xử lý trong phương pháp hỏi-đáp tự độngPhương pháp chung để giải quyết bài toán hỏi-đáp tự động trong Hình 1.1
gôm các bước chính:
1)
2) 3)
4)
5)
Sinh câu truy van: biến đổi câu hỏi của người sử dụng thành câu truy vantheo một mô hình truy xuất văn bản Mục đích là truy xuất các tài liệu liênquan đến câu hỏi Trong bước xử lý này có thê áp dụng kỹ thuật mở rộngtruy vấn dé tăng cường độ phủ cho kết quả truy xuất văn bản
Truy xuất văn bản: chọn danh sách tài liệu có liên quan đến câu truy van
Phân lớp câu hỏi: xác định nội dung chính cần có trong câu trả lời của câuhỏi Nội dung chính này có thé là tên người, tên tổ chức, thời gian, chiềudài, khối lượng,
Trích chọn thực thé: chon các thực thé phù hợp với nội dung chính trongcâu trả lời Mỗi thực thé là một chuỗi được trích trong các tài liệu đã truyxuất được Các thực thể này được xem như các câu trả lời tiềm năng
Xếp hạng thực thể: dựa vào đặc điểm xuất hiện của các câu trả lời tiềmnăng để đánh giá mức độ phù hợp giữa các câu trả lời tiềm năng với câu
hỏi để lựa chọn câu trả của hệ thống.
Trang 24Theo hướng tiếp cận này, kết quả phân lớp câu hỏi ảnh hưởng rất lớn đến hiệuquả của hệ thống Vì thế, các nghiên cứu về phân lớp câu hỏi của [41], [59] và [37]
đã hình thành một danh mục phân lớp câu hỏi dé phục vu cho việc xây dung ngữliệu huấn luyện mô hình phân lớp cũng như cho việc định hướng khi nghiên cứu
phương pháp tìm câu trả lời cho từng dạng câu hỏi.
Dựa vào các lớp câu hỏi, các nghiên cứu về hỏi-đáp tự động được chia thành
hai nhóm phương pháp trả lời câu hỏi Factoid (Factoid question answering) và nhóm phương pháp trả lời các câu hỏi Non-factoid (Non-factoid question
answering) Nhóm phương pháp trả lời câu hỏi Factoid tập trung vào việc trích chọn
những thực thể phù hợp với phân lớp của câu hỏi trong các đoạn văn bản liên quan.Nhìn chung, các thực thể này có ranh giới khá rõ ràng nên việc xác định chúngtrong một đoạn văn bản đã được giải quyết bằng các phương pháp nhận dạng thựcthé (named entity recognition) Trong khi đó, nhóm phương phương pháp trả lời câuhỏi Non-factoid gặp khó khăn vì câu trả lời có ranh giới không rõ rang Chang hanvới câu hỏi liệt kê, câu trả lời gồm nhiều chuỗi trong nhiều đoạn văn bản rải ráctrong một hoặc nhiều văn bản khác nhau Trong các dạng câu hỏi được nghiên cứu
trong nhóm phương pháp trả lời câu hỏi Non-factoid, dang câu hỏi "TAI SAO"
(Why-question) có thêm một thách thức, đó là câu trả lời phải giải thích được sự
việc được nêu trong câu hỏi.
1.1.2 Bài toán trả lời câu hỏi "TAI SAO"
Hiện tại, bài toán hỏi-đáp có hai dạng, gọi là dạng đầy đủ và dạng rút gọn.Trong bài toán hỏi-đáp dạng đầy đủ, câu trả lời cần phải được tìm trong một tập hợptài liệu hoặc trong một tập hợp đoạn văn bản nên vai trò của bước truy xuất thôngtin rất quan trọng Trong bài toán hỏi-đáp dạng rút gọn, còn gọi là bài toán đọc hiểu
văn bản (machine reading comprehension), câu trả lời được tìm trong một đoạn văn
bản ngắn nên phương pháp rút trích thông tin đóng vai trò chủ đạo Nhiệm vụ củaphương pháp này là chọn được một chuỗi ký tự phù hợp trong đoạn văn bản đã cho
đê làm câu trả lời.
Trang 25Bài toán tra lời câu hỏi "TAI SAO" là một bài toán con trong nhánh nghiên
cứu hỏi-đáp (question answering) Bài toán này cũng có dang day đủ và dang rútgon Dang day đủ của bài toán trả lời câu hỏi "TẠI SAO" được phát biểu như sau
Cho Docs = {d,|i = 1,n} là một tập hợp n tài liệu văn bản, chuỗi q là một câu hỏi "TẠI SAO" Xác định chuỗi a, gọi là câu trả lời của q, sao cho:
1) Ad; € Docs: a € dj.
2) œ là lý do giải thích cho nội dung của q.
Dạng rút gọn của bài toán trả lời câu hỏi "TẠI SAO" có thê phát biêu như bàitoán đọc hiểu văn bản, được Ellen Riloff và Michael Thelen dé xuất [92] như sau
Cho đ là một tài liệu văn bản, chuỗi q là một câu hỏi "TẠI SAO" Xác định
chuỗi a, gọi là câu trả lời của q, sao cho:
l) acd.
2) œ là lý do giải thích cho nội dung của q.
Việc tìm kiếm câu trả lời a trong dạng rút gon vẫn giữ đặc điểm cơ bản nhưkhi tim a trong dạng đầy đủ nhưng đã được đơn giản hóa về mặt tính toán do khôngphải xác định các tài liệu liên quan đến q trong tập tài liệu Docs Các mô hình họcsâu được nghiên cứu dé giải quyết bài toán hỏi-đáp từ các bộ ngữ liệu SQUAD vI.1
[88], SQUAD v2.0, XQuAD và các ngữ liệu tương tự chính là các mô hình giải
quyết bài toán rút gọn nêu trên
Phát biéu bài toán trả lời câu hỏi "TẠI SAO" trong cả hai dạng như trên khôngphù hợp với trường hợp câu trả lời có nhiều hơn một ý Vì thế, luận án xem vấn đềtìm câu trả lời có nhiều ý như là một ưu điểm của phương pháp tìm câu trả lời được
nghiên cứu trong luận án.
1.1.3 Đánh giá phương pháp trả lời câu hỏi
Bởi vì không thể hình thức hóa các điều kiện chọn câu trả lời nên việc đánh
giá phương pháp trả lời câu hỏi được thực hiện theo phương pháp thực nghiệm.
Phương pháp đánh giá này cần một ngữ liệu thử nghiệm, gọi là tập Gold, gồm các
mẫu thử nghiệm Một phương pháp trả lời câu hỏi được đánh giá bằng cách cài đặt
Trang 26một chương trình máy tính theo đúng phương pháp đó và thực thi nó với đầu vào làtừng mẫu thử nghiệm trong tập Gold và đầu ra là câu trả lời tương ứng với từngmẫu thử nghiệm Kết quả so sánh giữa câu trả lời của chương trình và câu trả lờitrong tập Gold được tính toán theo các độ do gồm MMR (Mean Reciprocal Rank),
P (Precision), R (Recall), EM (Exact Match) và F)[27, 33, 51] Bên cạnh đó, luận án
dé xuất thêm hai độ do AR (Answer Rate) va CAR (Completing Answer Rate)
Như vậy, ngữ liệu cần dé thử nghiệm là tập Gold = {(đ;, q¡, a¡)|Í = 1,n} chứa
n mẫu thử nghiệm, mỗi mẫu thử nghiệm là một bộ (d;, q¡, a;), trong đó:
- đ là tài liệu trong mẫu thir i Tài liệu trong các mẫu có thê trùng nhau
- q; là câu hỏi trong mau thứ i, được đặt cho duy nhất tài liệu d; Câu hỏi
trong các mẫu phải khác nhau về biểu diễn dạng văn bản nhưng có thểgiống nhau về nghĩa
- a, là dap án cho câu hỏi q¡ a; là một chuỗi trong tài liệu đ; Trường hợp
đáp án có k ý thì a; = {đ¡¡, đ¡ạ, , a;„} chứa các chuỗi aj; trong tài liệu dj.Giả sử kết quả tra lời của hệ thống cho từng bộ (dj, q;) là một bộ 5 câu trả lời
Ans; = {ansj1, ANSjz, , ANS;s } Khi đó, các độ đo được tính như sau:
Trang 271.1.3.2 Độ đo P, R và Fi
Các độ đo này được tính toán trong trường hợp chương trình máy tính trả lời
mỗi câu hỏi g; bằng một câu trả lời duy nhất, hay tập câu trả lời Ans; = {ans¿¡}.Khi này, đáp án a; và câu trả lời của chương trình ans;¡ được biểu diễn ở dang Bag
of Word Gọi M; và N; lần lượt là số lượng từ có trong a; và ans;¡, n; là số lượng từ
trùng nhau giữa a; và ans¡¡ Khi đó, độ đo P, R và F¡ của câu trả lời ans;, so với
đáp án gốc a;, ký hiệu lần lượt là P;, Rj, F;¡, được tính theo các công thức (1.3),
Độ so khớp chính xác của câu trả lời a; với đáp án ans;,, ký hiệu EM;, được
áp dụng dé đánh giá mô hình sinh một câu trả lời duy nhất cho mỗi câu hỏi Độ so
khớp chính xác được tính theo công thức (1.9) sau:
1,néu ans;, = a; (1.9)
EM, = x
° (Ũ,riễu nS¡+ # a;
Trang 28Độ so khớp chính xác của phương pháp, ký hiệu EM, được sử dụng trong thử
nghiệm bộ ngữ liệu SQUAD [88] và được tính theo công thức (1.10) sau:
1
EM =- EM, (1.10)
n
i
1.1.3.4 Ty lệ câu trả lời chứa đáp án
Độ đo EM phù hợp khi xác định câu trả lời ngắn gọn nhất có thể Tuy nhiên,nhiều hệ thống trả về một câu thay vì ngữ đoạn trùng khớp với đáp án Vì thế, luận
án đề xuất tỷ lệ câu trả lời chứa đáp án, ký hiệu AR (Answer Rate), dựa trên độ so
EM đề áp dụng trong trường hợp đánh giá các phương pháp xác định câu trả lời ởcấp độ câu thay vì ngữ đoạn
Gọi AR; là giá trị thể hiện câu trả lời ans; chứa đáp án a; AR; được tính theo
công thức (1.11) sau:
1,nếu a; là chuỗi con của ans; q11)
ARi = to, ngược lại
Tỷ lệ câu trả lời chứa đáp án của phương pháp được tính theo công thức (1.12)
sau:
1
mAR = "` mAR, (1.12)
i
1.1.3.5 Ty lệ hoàn thành câu tra lời
Trong trường hop đáp án a; = {đ¡, đ¡;, , đ;„} của câu hỏi “TẠI SAO” chứa
k ý, luận án đề xuất tỷ lệ hoàn thành câu trả lời, ký hiệu là CAR (CompletingAnswer Rate) để đánh giá hiệu quả của các mô hình chỉ chọn được một ý trong đáp
án Một ý trong dap án cũng là một lời giải thích hợp lý cho câu hỏi “TẠI SAO”
mặc dù không đầy đủ Nếu sử dụng độ đo EM thì nhiều mô hình đọc hiểu tự động
sẽ có kết quả EM=0
Goi CAR; là giá trị phản ánh tỷ lệ hoàn thành của câu trả lời ans; so với k ý
trong đáp án a; = {;1, đ¡;, , i, } CAR; được tính theo công thức (1.13) sau:
a;;|a;; là chuỗi con của ans,;,j € [1,k
CAR, _ lí ijl Lj a ind [ Bl (1.13)
L
Trang 29Ty lệ hoàn thành câu trả lời của phương pháp được tính theo công thức (1.14):
1
CAR = "` CAR, (1.14)
i
1.2 TONG QUAN TINH HINH NGHIÊN CỨU
Hoi-dap tự động (question answering) là một bài toán thuộc hướng nghiên cứu
truy xuất thông tin Vì thế, các nghiên cứu về hỏi-đáp tự động thường được pháttriển từ các nghiên cứu về truy xuất thông tin trong đó có sử dụng kết quả nghiên
cứu từ hướng nghiên cứu xử lý ngôn ngữ tự nhiên (natural language processing) hay
ngôn ngữ học máy tính (computational linguistics) Dựa trên các kết quả khảo sát[27, 51, 71] và kết quả khảo sát của luận án được trình bày sau đây, bài toán hỏi-đápđược có thể được giải quyết theo hai hướng tiếp cận khai phá tri thức (knowledge
mining) và chú giải tri thức (knowledge annotation) như được trình bày ở Hình 1.2.
Hai hướng tiếp cận này lần lượt còn được gọi là information-retrieval-based và
knowledge-based[47].
ewer] hướng tiếp cận
Khai pha tri thức Chi giải tri thức (Knowledge Mining) (Knowledge Annotation)
Truy xuất thông tin (IR) + ồ thị tri thú Giao tiếp CSDL bằng Logic hình thức
Rút trích thông tin (TE) ngôn ngữ tự nhiên (NLIDB)
- Miền đóng - Miền đóng - Miền đóng
- Câu hỏi factoid - Câu hôi factoid | |- Câu hỏi factoid - Câu hỏi factoid
- Câu hỏi Why |
|
Mang no-ron học sâu Phân tích dién ngôn
(Discourse-based)
- Miền đóng
- Câu hỏi factoid - Câu hỏi Why
- Câu hỏi Why
Trang 301.2.1 Hướng tiếp cận chú giải tri thức
Hướng tiếp cận chú giải tri thức tập trung vào nghiên cứu biểu diễn(representation) tri thức của bài toán và các quy tắc tính toán trên các biéu diễn đó.Việc xây dựng tri thức của bài toán từ văn bản cần phải có một bước quan trọng làchú giải từng ngữ đoạn trong văn bản bằng các lớp hoặc các thuộc tính trong một cơ
sở tri thức Hướng tiếp cận chú giải tri thức có cơ sở là ngôn ngữ học máy tính vàcác quy tắc tính toán được phát triển trên một loại logic thích hợp
Trong thời kỳ đầu của hệ thống hỏi đáp, vào thập niên 60 của thế kỷ 20, các hệthống hỏi-đáp được xây dựng thuộc nhóm chú giải tri thức Hệ thống BASEBALLcủa Green[35], LUNA của Wood[116] là một trong những hệ thong hỏi-đấp đầutiên, trong đó LUNA là hệ thống được các nhà địa chất sử dụng thực tế Đặc điểmcủa các hệ thống này là các tri thức được tô chức thành dữ liệu có cấu trúc xác định.Cấu trúc này thé hiện được quan hệ về nghĩa giữa các thông tin có trong dữ liệu của
hệ thống Nhiệm vụ của các hệ thống hỏi-đáp này tập trung chủ yếu vào việc xácđịnh các trường thông tin cần chọn và điều kiện lọc từ câu hỏi để tìm kiếm trong dữliệu của hệ thống Câu hỏi trong các hệ thống này được trình bày bằng ngôn ngữ tựnhiên Có thể xem BASEBALL và LUNA là các nghiên cứu đầu tiên về NLIDB
(Natural Language Interface to Database).
Hé thống START, năm 2002, của Katz [50] cũng có co chế hoạt động tương tự
như BASEBALL va LUNA nhưng việc t6 chức dit liệu trong START phức tạp hơn.
Dữ liệu trong START được thu thập từ nhiều nguồn khác nhau và có dạng bán cautrúc hoặc phi cấu trúc Vấn đề thứ nhất trong hệ thống START là duy trì một thànhphần, gọi là OmniBase [50], có khả năng truy xuất đến tất cả dạng dữ liệu mà nóthu thập được theo một mẫu thống nhất, là một bộ ba <object, property, value>.OmniBase dùng một ngôn ngữ truy van dữ liệu riêng dé truy xuất dữ liệu Van déthứ hai trong hệ thống START là chuyên đổi câu hỏi trong ngôn ngữ tự nhiên sangngôn ngữ truy vấn dữ liệu của OmniBase Vấn đề này được giải quyết bằng cách
Trang 31xây dựng từng lược đồ chuyên đổi từ ngôn ngữ tự nhiên sang ngôn ngữ truy vấn
cho từng dạng câu hỏi.
Thay vì dùng cơ sở dữ liệu dé lưu trữ tri thức như các hệ thong NLIDB, các hệthống hỏi-đáp trên đồ thị tri thức (Knowledge Graph — KG) tìm kiếm câu trả lời trênmột đồ thị gồm các đỉnh là các thông tin trong thế giới thực và các cạnh là mối liên
hệ giữa các thông tin đó Theo khảo sát của Wu và cộng sự [117], các hệ thống đáp trên đồ thị tri thức tập trung vào việc phân tích câu hỏi trong ngôn ngữ tự nhiênthành các bộ ba <subject, relation, object> từ đó so khớp trên đồ thi tri thức đã được
hỏi-xây dựng sẵn Sự xuất hiện của nhiều đồ thị tri thức được hỏi-xây dựng từ khối lượng
dữ liệu lớn, có khả năng đáp ứng yêu cầu truy vấn trong nhiều lĩnh vực nhưFreeBase [12] và DBpedia [57] đã tạo điều kiện cho các hệ thong hoi-dap trén đồthị tri thức trả lời được nhiều câu hỏi trong nhiều lĩnh vực khác nhau Tuy nhiên,các hệ thống hỏi-đáp này vẫn phụ thuộc vào miễn tri thức được dùng để tạo ra các
đồ thị tri thức
Thay vì tìm câu trả lời trên đồ thi tri thức, cách tiếp cận biéu diễn tri thức theologic hình thức, cụ thể là logic vi từ bậc một (FOL — First-Order Logic) [9, 10, 49]thuận tiện cho việc suy diễn và có cơ sở dé giải quyết van đề hồi chỉ theo lý thuyếtbiểu diễn diễn ngôn (Discourse Representation Theory — DRT) [49] Van đề của hệthống hỏi-đáp dựa trên logic hình thức cũng cần giải quyết hai van đề lớn là biểudiễn tri thức bằng logic hình thức và biến đổi câu hỏi trong ngôn ngữ tự nhiên thànhbiểu thức logic hình thức
Trong cách tiếp cận biểu diễn tri thức theo logic hình thức, Delmonte [24]phân tích thêm một số quan hệ diễn ngôn khi phân tích văn bản thành dạng biểudiễn FOL Dựa vào kết quả phân tích một số quan hệ diễn ngôn, phương pháp củaDelmonte [24] có thé xác định được câu trả lời cho một số câu hỏi “TẠI SAO”trong tiếng Anh trong khi phương pháp trả lời câu hỏi theo cách tiếp cận [9, 10, 49]chỉ dùng logic hình thức để biểu diễn văn bản chưa cho thấy được khả năng trả lời
câu hỏi “TẠI SAO”.
Trang 321.2.2 Hướng tiếp cận khai phá tri thức
Hướng tiếp cận khai phá tri thức có nhiệm vụ tìm câu trả lời trong tập dữ liệuphi cau trúc Trong giai đoạn từ TREC-8 [33] (năm 1999) trở về trước, nhiệm vụcủa một hệ thống hỏi-đáp theo hướng tiếp cận này là tìm một đoạn văn bản có kích
thước là 250 bytes hoặc 50 bytes có chứa câu trả lời Trong đó câu trả lời 250 bytes
và 50 bytes lần lượt dành cho câu hỏi Non-factoid và câu hỏi Factoid [33] Theo kếtquả khảo sát [27, 51, 71], nhiệm vu này được giải quyết theo phương pháp truy xuất
văn bản với đôi tượng là các đoạn văn (passage retrieval).
Từ TREC-9 (năm 2000) trở đi, câu trả lời cho câu hỏi Factoid cần xác địnhchính xác là thực thé được hỏi Nhiều phương pháp xác định câu trả lời cho các câuhỏi Factoid được nghiên cứu Chăng hạn, hệ thống PRIS (2002) của nhóm tác giảYang và Chua [119] và hệ thống Watson (2010) của Ferrucci va cộng sự [32] Hệthong PRIS [119] được đánh giá theo dữ liệu chính thức cua TREC 2002 có độchính xác (precision) 0,61 Hệ thống Watson [32] có khả năng thắng 64% lượt chơiđối kháng với người chơi trong gameshow Jeopardy cho thay máy tính có thé trả lời
những câu hỏi khó trong gameshow hơn cả người chơi.
Theo kết quả khảo sát của Mishra và cộng sự [71], Dimitrakis và cộng sự [27]thì trong giai đoạn từ năm 2002 đến 2014, các phương pháp trả lời câu hỏi đượcnghiên cứu theo hướng kết hợp truy xuất thông tin [51] với trích chọn thông tin.Các phương pháp này có thể được phân loại theo các tiêu chí miền ứng dụng đónghay mở, dạng câu hỏi, kỹ thuật phân tích tài liệu, mô hình truy xuất thông tin vănbản và đặc điểm của ngữ liệu nguồn như trình bày ở Hình 1.3 (được trích lại từ[27]) Phương pháp trích chọn thông tin có thể áp dụng các kết quả nghiên cứu vềkhai phá tri thức, phân tích cú pháp [103] hoặc phân tích diễn ngôn [107] để nâng
cao hiệu quả.
Từ năm 2014, nhiều kết quả nghiên cứu của nhánh nghiên cứu học máy được
áp dụng trong các phương pháp trả lời câu hỏi cho bài toán MRC Các phương pháp
Trang 33nay được sử dụng dé xây dựng các hệ thống end-to-end [22] Trong các hệ thống
end-to-end, các nhiệm vụ phân loại câu hỏi, tìm câu trả lời trong một đoạn văn bản
được thực hiện bởi một mạng nơ-ron học sâu Hệ thống dùng Dynamic MemoryNetwork [96] có thể đạt độ chính xác 96% cho các câu hỏi Factoid nhưng độ chínhxác giảm mạnh đối với các dạng câu hỏi khác Hệ thống dùng BERT [26] có kết quảF; đạt 93,2% trên bộ dữ liệu SQUAD v1.1 [88] trong đó phan lớn là các câu hỏi
thuộc nhóm factoid.
Miền ứng dụng Loại câu hỏi
- Miễn mở: Wikipedia, Website, | | - Factoid: khi nào (when), ai
- Miễn đóng: Y khoa, phim ảnh, (who), ở dau (where)
Xác nhận: đúng (yes), sai (no)
Loại tài liệu Nguyên nhân: như thế nào
- Có cấu trúc: RDF, SQL DB, (how), tại sao (why)
- Không có cấu trúc: file văn bản Kèm ví dụ: “x giống cái gì?”
- Định nghĩa: “x là gi?”
Loại hệ thông Phương pháp: “cách làm x?”
- Hỏi-đáp So sánh: “x lớn hơn y?”
- Hội thoại Ý kiến: “Ý kiến của x về y là
- Hội thoại với giọng nói gì?
Hình 1.3 Các tiêu chí phân loại hệ thống hoi-dap [27]
1.2.3 Các phương pháp trả lời cầu hỏi “TẠI SAO”
1.2.3.1 Cách tiếp cận phân tích diễn ngôn
Phương pháp của Delmonte [24] là phương pháp duy nhất theo cách tiếp cậnnày Phương pháp này phân tích đoạn văn bản và câu hỏi thành các biểu thức logic
vị từ bậc một [25] Kết quả phân tích văn bản cũng xác định các quan hệ diễn ngôntrong bốn nhóm do Delmonte đề xuất [24] là Cause-Result, Rationale-Effect,
Purpose-Outcome, Circumstance-Outcome và Means-Outcome Khi tìm câu tra lời
cho câu hỏi “TAI SAO”, quá trình suy diễn và hợp nhất các biéu thức logic của câuhỏi với các biểu thức logic trong đoạn văn bản được thực hiện dé chọn các quan hệdiễn ngôn trong văn bản, từ đó xác định câu trả lời.
Trang 341.2.3.2 Cách tiếp cận kết hợp IR va IE
Quá trình trả lời câu hỏi “TẠI SAO” dùng một mô hình IR để chọn các đoạnvăn liên quan Sau đó dùng một mô hình IE, hay reader [47], dé trích các câu trả lời
trong các đoạn văn bản Cuôi cùng, các câu trả lời được xêp hạng đê chọn một câu
trả lời tốt nhất làm câu trả lời cuối cùng Các phương pháp trả lời câu hỏi “TẠI
SAO” theo cách tiếp cận này được tổng hợp và trình bày trong Bảng 1.1
Bảng 1.1 Các phương pháp trả lời câu hỏi “TẠI SAO” theo cách tiếp cận kết hop
IR va IE
Tác giả Năm Phương pháp Ngữ liệu Kết quả
Verberne 2006-2010 | IR + phân lớp quan hệ RST 186 câu hỏi tại sao được | MRR@150 = 0,34
Oh et al 2013 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1= 41,8%
chứa quan hệ nguyên nhân— | WhySet do tác giả xây
kết quả giữa các ngữ đoạn, sử | dựng
dụng mô hình CRF.
2016 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1 =50%
chứa quan hệ nguyên nhan— | WhySet
kết quả giữa các ngữ đoạn, sử
dụng mô hình CRE Tăng
cường hiệu quả bằng viéc thêm ngữ liệu huấn luyện.
2017 IR + Rút trích các mệnh đề Ngữ liệu tiếng Nhật P@1 = 54%
chứa quan hệ nguyên nhan— | WhySet
kết quả giữa các ngữ đoạn, sử
dụng mô hình CRF Sử dụng
mạng no-ron CNN đề chọn
câu trả lời
2019 IR + dùng mạng nơ-ron Ngữ liệu tiếng Nhật P@1 = 54,8%
tương tự GAN (GAN — WhySet
generative adversarial Quasar-T! EM = 43,2%
Các nghiên cứu của Verberne là các nghiên cứu sớm nhat giải bài toán hỏi-đáp
câu hỏi “TAI SAO” dạng day đủ trong tiếng Anh Phương pháp trả lời câu hỏi “TẠI
SAO” của Verberne [103, 105-107] gồm có hai pha Pha đầu thực hiện việc truy
Trang 35xuất các đoạn văn bản chứa nội dung của câu hỏi, sau đó dùng một mô hình phânlớp để xác định đoạn văn có thuộc các lớp Cause, Motivation, Circumstance vaPurpose hay không dé làm cơ sở chọn đoạn văn chứa câu trả lời Mô hình phân lớpnày có sử dụng đặc trưng là các từ ngữ liên kết thể hiện quan hệ nhân-quả giữa các
ngữ đoạn trong một câu hoặc giữa các câu trong một đoạn văn như "because",
"therefore", "for", v.v Pha thứ hai chọn những câu hoặc nhóm câu liên tiếp có
cùng phân lớp của câu hỏi và có thứ hạng cao nhât đê làm câu trả lời.
Phương pháp của Higashinaka và Isozaki [39] giải bài toán dạng đầy đủ trêntiếng Nhật Phương pháp này có ba bước Bước thứ nhất tìm những đoạn văn bản cónội dung tương đồng với truy van Bước thứ hai dùng một bộ phân lớp SVM để tính
toán khả năng được chọn của các đoạn văn bản Bộ phân lớp này dùng các đặc
trưng gồm từ ngữ liên kết, độ tương đồng của đoạn văn bản với câu hỏi và các cặp
từ có quan hệ nhân-quả Các từ ngữ có quan hệ nhân-quả được trích chon trong
một ngữ liệu tiếng Nhật [40] Phương pháp của Higashinaka và Isozaki [39] có kếtquả MRR đạt 0,305 Kết quả này không so sánh được với kết quả của Verberne vì
chúng được đánh giá trên hai bộ ngữ liệu khác nhau và sử dụng các độ đo khác
nhau.
Oh và cộng sự (2013) [81] cũng giải bài toán dang day đủ trên tiếng Nhật bằngviệc 4p dụng kỹ thuật phân lớp văn ban theo mô hình thống kê CRF với ba đặctrưng gồm kết quả phân tích cú pháp phụ thuộc, từ ngữ liên kết và cặp từ ngữ cóquan hệ nhân-quả Phương pháp này có kết quả P@1=41% Kết quả đánh giá nàyđược thực hiện thủ công, không sử dụng ngữ liệu kiểm thử và không sử dụng hai độ
do MRR và Fi nên không so sánh được với kết quả của Higashinaka và Isozaki
[39].
Phương pháp cải tiến của Oh và cộng sự (2016) [80] tập trung vào việc tăngcường ngữ liệu huấn luyện Ngữ liệu huấn luyện này được xây dựng tự động nhờmột bộ phân lớp Bộ phân lớp này được xây dựng bang cách huấn luyện trên ngữ
Trang 36liệu nhỏ được xây dựng thủ công Kết quả mới nay cua Oh va cộng sự (2016) [80]
có P@1=50%.
Năm 2017, Oh và cộng sự [82] có thêm một cải tiễn là dùng mạng nơ-ron tích
chập (CNN — Convolutional Neural Network) thay vi sử dung CRF trong việc tìm
câu trả loi Phương pháp nay có P@1=54% và R@1=81.8% [82].
Một cải tiến mới nhất của Oh và cộng sự (2019) [83] là sử dụng một mạng ron học sâu theo mô hình sequence-to-sequence dé xác định vị trí câu trả lời thay
nơ-cho một mô hình phân lớp Cải tiến này nơ-cho kết quả P@1=54,8%.
Azmi (2016, 2017) [6, 7] đã xây dựng một hệ thống hỏi-đáp câu hỏi “TẠISAO” cho tiếng Ả-Rập trong đó kết hợp truy xuất thông tin với trích chọn câu trảlời dựa trên cấu trúc diễn ngôn được phân tích theo lý thuyết cấu trúc tu từ (RST)[63] Kết quả thử nghiệm của Azmi cho thấy hệ thống đạt được độ chính xác
(accuracy) 71% trong đó việc xác định câu trả lời đúng hay sai được thực hiện thủ
công và độ chính xác được tính bằng số câu hỏi được trả lời đúng chia cho tổng sốcâu trả lời thay cho việc sử dụng các độ đo MRR và F¡ Kết quả này cũng không thé
so sánh với kết quả của các nghiên cứu trên do không sử dụng chung bộ ngữ liệu
kiểm thử và độ đo.
1.2.3.3 Cách tiếp cận dùng mạng nơ-ron học sâu
Cách tiếp cận dùng mạng nơ-ron học sâu phù hợp với bài toán dạng rút gọn.Cách tiếp cận này cần ngữ liệu đủ lớn dé huấn luyện một mô hình trích câu trả lời
trong một đoạn văn bản cho một câu hỏi, như bộ ngữ liệu SQUAD v1.1 của
Rajpurkar [88] Bài toán dạng rút gọn không cần bước truy xuất văn ban mà chỉ tậptrung vào bước trích chọn câu trả lời Các mô hình trích chọn câu trả lời có kết quảcao đều sử dụng một mô hình học máy được huấn luyện từ một kiến trúc mạng nơ-
ron học sâu Các mô hình này không có sự phân chia hai bài toán phân lớp câu hỏi
và trích chọn thực thể mà sử dụng một mạng nơ-ron học sâu dé xác định vị trí đầu
và cuôi trong văn bản của chuỗi được chọn làm câu trả lời Mạng nơ-ron này nhận
Trang 37đầu vào là chuỗi vector đặc trưng tương ứng với từng từ của văn bản Các vectorđặc trưng này được tính theo một mô hình được huấn luyện từ một mạng nơ-ronhọc sâu Kết quả trích chọn câu trả lời của các mô hình r-net+ (ensemble) của
Microsoft Research Asia [113], SLQA+ (ensemble) của Alibaba iDST NLP [112], Match-LSTM (boundary+ensemble) của dai hoc Singapore Management University
[111] va BERT (ensemble) của Google AI Language trên tap development của ngữ
liệu SQUAD v1.1 [88] khi xét tat ca dạng câu hỏi và khi xét dang câu hỏi "TAISAO" được trích lại trong Bang 1.2 Các kết quả này đã được công bố tại websitecung cấp ngữ liệu SQUAD”
Bảng 1.2 Kết quả trả lời các dạng câu hỏi và dạng câu hỏi tại sao trên tập
development của ngữ liệu SQUAD v1.1
Hệ thống
r-net+ (ensemble) 88,49% 66,90%
trích chọn câu trả lời cho câu hỏi "TAI SAO" lại có độ đo F¡ thấp hơn nhiều (caonhất là 69,66% theo mô hình BERT)
Các nghiên cứu sử dụng mang nơ-ron hoc sâu được liệt kê trong Bang 1.2 xác
định câu trả lời trong một lần tính toán cho một cặp câu hỏi và đoạn văn bản, đượcgọi là single-hop [98] Trong một sỐ trường hợp, chăng hạn các mẫu thử nghiệmcủa bộ ngữ liệu HotpotQA[121], các hệ thống single-hop không thé tìm được câu
Trang 38trả lời một cách hiệu quả bởi vì kết quả tính toán của hệ thống single-hop có thể chỉtrả về thông tin trung gian chứ chưa phải là câu trả lời cuối cùng Vì thế, các hệthống multi-hop [98] được nghiên cứu dé tìm câu trả lời qua nhiều bước, thôngthường là hai bước Trong bước thứ nhất, hệ thống dùng một mô hình single-hopthứ nhất dé tìm câu trả lời lần thứ nhất Câu trả lời này có thé là thông tin trung gian
dé tìm câu trả lời cudi cùng nên nó được dùng dé đặt lại câu hỏi Câu hỏi mới được
xử lý lần thứ hai với mô hình single-hop thứ hai dé xác định câu trả lời cuối cùng.Các hệ thống multi-hop có thể kế như DecompRC của Sewon và cộng sự [69] hay
FE2H của Li và cộng sự [58] được xây dựng dựa trên mang no-ron học sâu
BERT[26].
1.2.4 Nhận xét các phương pháp tra lời cau hỏi “TAI SAO”
Từ kết quả khảo sát được trình bày như trên, luận án có ba nhận xét như sau:
Nhận xét thứ nhất, các phương pháp trả lời câu hỏi “TẠI SAO” theo cách tiếpcận phân tích diễn ngôn và cách tiếp cận kết hợp truy xuất thông tin với rút tríchthông tin đều sử dụng đặc trưng liên quan đến cấu trúc diễn ngôn gồm từ ngữ liênkết và quan hệ diễn ngôn Từ ngữ liên kết được sử dụng vì chưa thé giải quyết bài
toán phân tích quan hệ diễn ngôn Kết quả phân tích diễn ngôn còn chưa đảm bảo
tính hệ thống Chăng hạn, Verberne dựa vào các dạng mệnh đề trạng ngữ [104,
106]; Delmonte [24], Higashinaka và Isozaki [39], Oh va cộng su [81] sử dụng bộ
phân lớp dé nhận dạng quan hệ diễn ngôn; Azmi [6, 7] sử dung cue-phrases, là một
dạng từ ngữ liên kết, để xác định quan hệ diễn ngôn Các nghiên cứu này chưa chothấy được don vị trong cau trúc diễn ngôn là gì dé từ đó xác định quan hệ diễn ngôngiữa chúng Bên cạnh đó, nếu chỉ dựa vào từ ngữ liên kết thì có nhiều quan hệ diễnngôn có thể không nhận dạng được
Nhận xét thứ hai, các phương pháp theo cách tiêp cận mạng nơ-ron học sâu sử
dụng các mẫu hỏi-đáp đê huân luyện các mô hình học máy nhăm dự đoán vi trí câu
trả lời trong một đoạn văn bản Quá trình tính toán của các mô hình học máy khi tìm
Trang 39câu trả lời như một hộp đen, không thé hiện được kết quả từng bước xác định câutrả lời mặc dù kết quả trả lời câu hỏi “TAI SAO” trong Bảng 1.2 thé hiện rằng các
mô hình này có khả năng tính toán được một số dạng suy luận
Nhận xét thứ ba, các phương pháp xác định câu trả lời của Higashinaka và
Isozaki [39] và Oh [80-82] sử dụng một mô hình phân lớp dé nhận dạng một cặpcâu có cau trúc nguyên nhân - kết quả Việc mô hình phân lớp có thé dự đoán mộtcặp câu có thể tạo thành một câu ghép có cấu trúc nguyên nhân — kết quả cho thấyrằng mô hình phân lớp phù hợp dé giải quyết bài toán suy luận và suy luận là một
cơ chế cần phải sử dụng dé tìm câu trả lời cho câu hỏi “TAI SAO”
1.2.5 Các nghiên cứu héi-dap cho tiếng Việt
Các nghiên cứu hỏi-đáp cho tiếng Việt được tiến hành theo các cách tiếp cận đãtrình bày gồm kết hợp IR và IE, đồ thị tri thức, logic hình thức và mạng nơ-ron họcsâu Các kết quả nghiên cứu theo các cách tiếp cận này khá nhiều nên luận án chỉtrình bày một số kết quả nghiên cứu cho thấy hiệu quả theo từng cách tiếp cận.Theo cách tiến cận kết hợp IR và IE, hệ thống hỏi-đáp trong lĩnh vực pháp lý [29]được xây dựng dựa trên sự kết hợp hai công cụ truy xuất thông tin là Google vàLucene dé tìm những tài liệu liên quan đến câu hỏi Câu trả lời của hệ thống đượctrích chọn từ nhóm các câu liên tiếp trong tài liệu liên quan theo một thủ tục kết hợptính toán ngữ nghĩa tiềm an và các heuristics; kết qua của hệ thống đạt độ chính xác(precision) khoảng 70% trên tổng số 211 mẫu thử trong ngành luật doanh nghiệp
Theo cách tiếp cận đồ thị tri thức, hệ thống hỏi-đáp [86] xây dựng đồ thị tri thức
tự động từ kết qua phân tích cú pháp phụ; sử dụng mạng nơ-ron tích chập (CNN) dénhận dạng loại câu hỏi cũng chính là thành phần predicate trong bộ ba <subject,predicate, object>; sử dụng kết quả phân tích cú pháp phụ thuộc để xác định cácthành phần subject; tìm kiếm các thực thê trong đồ thị tri thức bằng cách chuyên cácthực thể này sang dạng vector và thực hiện việc tìm kiếm trong không gian vector
Nội dung câu trả lời được xác định theo các bộ ba <subject, predicate, object> có
Trang 40hai thành phần subject và predicate khớp với câu hỏi Hệ thống [86] đạt độ chínhxác (accuracy) 80,1% trên ngữ liệu đánh giá riêng Hệ thống hỏi-đáp [55] phân tíchtruy vấn từ ngôn ngữ tự nhiên tiếng Việt và chuyên thành truy vấn trên DBPedia[57] Hệ thống [55] đạt độ chính xác (accuracy) 76,90% trên ngữ liệu đánh giá
riêng.
Theo cách tiếp cận logic hình thức, hệ thống hỏi-đáp [76] biểu diễn tri thức theo
logic vị từ bậc một (First-Order Logic - FOL) và biến đổi câu hỏi từ ngôn ngữ tựnhiên tiếng Việt thành biểu thức FOL Hệ thống [76] xác định câu trả lời từ kết quả
suy luận theo FOL.
Theo cách tiếp cận mạng nơ-ron học sâu, hệ thống hoi-dap [100] sử dụng kiếntrúc BERT cho tác vụ hỏi-đáp [26] để xác định vị trí đầu và cuối của câu trả lời chobài toán đọc hiệu tự động Hệ thống tốt nhất của [100] có F¡ đạt 0,802 trên ngữ liệuriêng Hệ thống hoi-dap [125] tìm câu trả lời cho bai toán đọc hiểu tự động qua haibước Bước thứ nhất, hệ thống sử dụng kiến trúc siamese-BERT [90] dé chon mộtcâu trong văn cảnh phù hop nhất với câu hỏi, sau đó sử dụng kiến trúc XLM-R [20]
dé trích chọn câu trả lời từ câu được chọn Hệ thống [125] có độ đo F; đạt 89,54%
và EM đạt 70,83% trên ngữ liện UIT-ViQuAD V1.0 [77].
Nhìn chung các nghiên cứu hỏi-đáp tự động cho tiếng Việt đã được thực hiệntheo tất cả cách tiếp cận và giải quyết chủ yếu là các câu hỏi factoid Các hệ thốnghỏi-đáp theo cách tiếp cận mạng nơ-ron học sâu có thê tìm câu trả lời cho câu hỏi
“TẠI-SAO”, thé hiện một tỉ lệ nhỏ những câu hỏi “TẠI SAO” trong bộ ngữ liệuUIT-ViQuAD V1.0 [77] nhưng chưa có hệ thống hỏi-đáp được nghiên cứu dé giảiquyết riêng cho câu hỏi “TẠI SAO” tiếng Việt
1.3 CÁC VAN DE LIEN QUAN
Theo ba nhận xét ở Mục 1.2.4, có ba van dé liên quan trực tiếp đến bài toán trảlời câu hỏi "TẠI SAO" là lập luận, phân tích diễn ngôn tiếng Việt và phương pháp
tính toán đê giải quyêt các bài toán trọng yêu của luận án trên máy tính.