Qua quá trình thực hiện các nghiên cứu trong luận án, NCS đã đóng góp ba nội dung chính: e Đóng góp thứ nhất — Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu tự động cho văn bản tiến
Trang 1ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGUYEN VĂN KIỆT
NGHIÊN CỨU XÂY DUNG MÔ HINH ĐỌC HIẾU TỰ ĐỘNG
CHO VĂN BẢN TIENG VIET
TP HO CHÍ MINH — NĂM 2024
Trang 2ĐẠI HỌC QUOC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGUYÊN VĂN KIỆT
NGHIÊN CỨU XÂY DUNG MÔ HÌNH ĐỌC HIẾU TỰ DONG
CHO VĂN BẢN TIENG VIỆT
Ngành: Khoa học Máy tính
Mã số: 9480101
NGƯỜI HƯỚNG DAN KHOA HỌC:
1 PGS TS NGUYEN LƯU THUY NGAN
2 TS NGUYEN GIA TUAN ANH
TP HO CHÍ MINH — NĂM 2024
Trang 3ng LỜI CẢM ƠN
Nghiên cứu sinh (NCS) cảm ơn chân thành nhất đến Cô Nguyễn Lưu Thuỳ Ngân
x và Thầy Nguyễn Gia Tuan Anh về sự hướng dẫn tận tâm và giúp đỡ không ngừng dé tạo
động lực cho NCS thực hiện và hoàn thành luận án tiễn sĩ “Nghiên cứu xây dựng mô hình
đọc hiểu tự động cho văn bản tiếng Việt” Cô và Thầy đã truyền cảm hứng, kiến thức, kỹ
năng và những định hướng như cơ sở nền tảng vững chắc dé thúc đây sự sáng tạo tri thức
mới trong luận án.
NCS cảm ơn đến tat cả các thành viên của Nhóm nghiên cứu NLP@UIT đã hỗ trợ vàchia sẻ những kiến thức và kinh nghiệm quý báu Những hỗ trợ này của các thành viên đãgiúp NCS đạt được kết quả hoàn thiện tốt hơn trong quá trình nghiên cứu của luận án
NCS xin gửi lời cảm ơn chân thành đến Quý lãnh đạo và Quý Thay Cô Trường Daihoc Công nghệ Thông tin (UIT), ĐHQG-HCM, vì đã tạo điều kiện thuận lợi và động viên
NCS trong suốt quá trình công tác và học tập tại Trường Sự hỗ trợ này đã giúp NCS hoàn
thành tốt các nhiệm vụ, đặc biệt là hoàn thành luận án
Cuối cùng, NCS xin gửi lòng tri ân chân thành đến Cha, Me và các bạn bè thân thiết
đã động viên và hỗ trợ cho NCS để thực hiện hoàn thành luận án
TP Hồ Chí Minh, ngày 03 tháng 4 năm 2024
NGHIÊN CỨU SINH
Nguyễn Văn Kiệt
Trang 4LOI CAM DOAN
NCS xin cam đoan luận án nay là công trình nghiên cứu của riêng NCS dưới sự hướng
dẫn của các cán bộ hướng dẫn khoa học Các số liệu, báo cáo, kết quả nghiên cứu trong
luận án là trung thực và chưa từng được ai công bồ trong bất kỳ công trình nào khác ngoạitrừ các công trình, tư liệu được trích dẫn trong phần tài liệu tham khảo của luận án
TP Hồ Chí Minh, ngày 03 tháng 4 năm 2024
NGHIÊN CỨU SINH
Nguyễn Văn Kiệt
ii
Trang 5TÓM TAT
Đọc hiểu tự động (Machine Reading Comprehension) là một lĩnh vực nghiên cứu
được các nhà nghiên cứu quan tâm rất nhiều trong trí tuệ nhân tạo, đặc biệt là xử lý ngôn
ngữ tự nhiên Luận án tập trung hoàn toàn vào xây dựng ngữ liệu và nghiên cứu các mô
hình đọc hiểu, cùng với tích hợp mô hình đọc hiểu vào mô hình hỏi đáp trong văn bản tiếng
Việt Qua quá trình thực hiện các nghiên cứu trong luận án, NCS đã đóng góp ba nội dung chính:
e Đóng góp thứ nhất — Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu tự động
cho văn bản tiếng Việt: Trong Đóng góp thứ nhất, NCS tập trung nghiên cứu, thiết kế
và xây dựng các bộ ngữ liệu đọc hiểu tự động tiếng Việt (là một ngôn ngữ có ít các bộ
ngữ liệu cho phát triển và đánh giá các thuật toán học máy trong xử lý ngôn ngữ tự nhiên
và trí tuệ nhân tao) Các bộ ngữ liệu tiếng Việt: UIT-ViQuAD (phiên ban 1.0 và 2.0),
UIT-ViNewsQA và UIT-ViWikiQA được đề xuất bởi NCS nhằm dé phát triển và đánh
giá các mô hình đọc hiéu tự động Trong đóng góp này, các mô hình đọc hiểu tự độngtiên tiến cũng được đánh giá trên các bộ ngữ liệu đầu tiên trong tiếng Việt Cụ thé,Chương 3 trình bày nghiên cứu và xây dựng các bộ ngữ liệu và được công bố tại các tạp
chí và hội nghị uy tín với các công trình: [CT1], [CT4], [CT5] và [CT6].
e Đóng góp thứ hai - Đề xuất mô hình MRC tích hợp truy xuất minh chứng cho ngữ
liệu tiếng Việt: Trong Đóng góp thứ hai, kế thừa từ các kết quả thử nghiệm đầu tiên đãđạt được trên các bộ ngữ liệu đã đề xuất trong Đóng góp thứ nhất, luận án tiếp tục thiết
kế và xây dựng các phương pháp đọc hiểu tự động sử dụng các MHNN dựa trên kiến
trúc Transformer và truy xuất minh chứng, mô hình đề xuất có tên là ViReader Thêm
vào đó, NCS nghiên cứu và mở rộng đánh giá, so sánh dé hiểu hơn mô hình đọc hiểuViReader trên nhiều bộ ngữ liệu khác nhau Cụ thể, Chương 4 trình bày đề xuất mô hìnhđọc hiểu tự động cho ngữ liệu tiếng Việt và cũng được đánh giá mở rộng (ViReader+)
trong Chương 5 Các đóng góp nghiên cứu về mô hình đọc hiểu tiếng Việt được công
bồ tại các tạp chí và hội nghị với các công trình khoa học: [CT2] và [CT3]
e_ Đóng góp thứ ba: Dé xuất mô hình QA tích hợp mô hình đọc hiểu cho văn bản tiếng
Việt: Trong Đóng góp thứ ba, kế thừa từ các kết quả đầu tiên đã đạt được trên các bộngữ liệu đã đề xuất trong Đóng góp thứ nhất và mô hình đọc hiểu tự động đề xuất
1H
Trang 6ViReader trong Đóng góp thứ hai, luận án tiếp tục đề xuất, thiết kế và triển khai các môhình hỏi đáp đạt hiệu quả cao cho ngữ liệu tiếng Việt: XLMRQA và ViQAS Các môhình hỏi đáp tiếng Việt này đã được trình bày trong Chương 5 Các đóng góp nghiên
cứu về XLMRQA và VIQAS được công bồ tại các tạp chí và hội nghị quốc tế uy tín với
các công trình khoa học: [CT3] và [CT7].
IV
Trang 7Recently, Machine Reading Comprehension is a challenging task of natural language processing, attracting many researchers in Artificial Intelligence and Natural Language Processing The entire content of my PhD dissertation focuses on building high-quality
corpora, developing MRC models which are integrated into Retriever — Reader QA models
on Vietnamese texts This PhD dissertation includes three primary contributions as follows.
¢ Contribution #1: Creating corpora and evaluating SOTA MRC models on
Vietnamese texts: In Contribution #1, the PhD dissertation focuses on building MRC corpora for Vietnamese (as a low-resource language for natural language processing and
artificial intelligence) Vietnamese MRC corpora: UIT-ViQuAD, UIT-ViNewsQA, and
UIT-ViWikiQA are created to promote the development and evaluation of MRC models and Retriever — Reader QA models based on deep learning architectures and modern
language models The SOTA methods are evaluated on these datasets From the experience of automatic reading comprehension on Vietnamese corpus, a challenging
Vietnamese dataset (UIT-ViQuAD 2.0) including unanswerable questions is provided for evaluating MRC models These research results have been detailed in Chapter 3,
these were published in the conferences and journals: [CT1], [CT4], [CT5], and [CT6].
« Contribution #2: Proposing automatic reading comprehension models integrated
with evidence extraction for Vietnamese texts: In Contribution #2, inheriting from the first evaluation results obtained on our MRC corpora in Contribution #1, the PhD
dissertation presents automatic reading comprehension models integrated with evidence
extraction and modern language models using Transformer architecture, named as
ViReader The proposed model has been presented in Chapter 4 and has been extended
(ViReader+) and verified on the ViQAS model as a part of Chapter 5, which were
published in the two international journals: [CT2] and [CT3].
e Contribution #3: Proposing Retriever — Reader question answering models
integrated with MRC techniques for Vietnamese texts: In Contribution #3, inheriting from the first evaluation results on our MRC corpora in Contribution #1 and the findings
on our MRC model in Contribution #2, the PhD dissertation presented new Vietnamese question answering systems using evidence extraction and modern language models
V
Trang 8using Transformer architecture, named as XLMRQA and VIQAS These QA systems
have been described in Chapter 5, which were published in international
journal/conference: [CT3] and [CT7].
VI
Trang 9MUC LUC 055 ÔÔÔÔÔÔÔỒÔỒÔ vii
DANH MỤC CÁC TU VIET TẮTT - 2< <2 s£ s£ s£Ss£S£Es£Es£Es£ssessesevsezsessese xi
DANH MỤC CÁC BẢNG 5< 5< se Ss£EsEseEseEvsESsEEsErseEerktkserserserserssrssee xiiiDANH MỤC CÁC HINH ccsssssssssssssssessessssssssscssessssssssssecsecssssssssssssssscsesssessasssseacesesees xvi
DANH MỤC CAC THUAT TOÁN -2 2s 5° se ©ssssessesseEseEssessesserserssrse xviiiCHUONG 1: TONG QUAN ivcccsssossssssssssessssssscsussussassasssscauccascassassascsucsacsacsaseascsscsacsasess 1
1.1 Động lực mghién CỨU 0 << G <5 ĂS 9 %9 99.999 994 994.999.9894 0.589 904.99096 1
1.2 Các đóng góp ChÍnh o5 << 5 5 6 5< 9 ý 0 0 0000009488996 4
1.3 Mục tiêu, đối tượng và phạm Vi nghiên €ứu -s- << s<ssessessss=ss 51.4 Ý nghĩa khoa học và thực tiỄn 2-2 << s2 s£ s£Ss£ssEse£seEsessessessesersee 6
NT c0 AM 006 6 6 6 7CHƯƠNG 2: CƠ SỞ LÝ THUYÉT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN
90.007 ÔỎ 9
2.1 Lịch sử đọc hiểu tự động - 5£ << se se seSsExsEsstsetsersersessesersersersrse 92.2 Định nghĩa đọc hiểu tự động - 2s 5° s£©ssssssexseEsevssessessessersers 152.3 Phương pháp đọc hiểu tự động . << 5° sssessesesessessessessesesse 162.4 Ngữ liệu đọc hiểu tự động -< << cseeserserssvserestseerserserserssrssrre 24
2.5 Thông số đánh giá -s- 5< << se ©Ss£Es£Es£EssExsEESEESEEseEsrsekserserserssrssrssee 27
2.6 Hỏi đáp dựa trên đọc hiểu tự động 5-5 << se se=sessessessesesse 28
vii
Trang 102.7 Thách thức trong đọc hiểu và hỏi đáp tự động tiếng Việt 312.8 (C00, 8n n6 33
CHƯƠNG 3: XÂY DỰNG NGỮ LIỆU VÀ ĐÁNH GIÁ ĐỌC HIẾU TỰ ĐỘNG
TREN VAN BẢN TIENG VIET - 2-2 2° ©5<©S<©Ss£Es£Ese+seEseEssexsersersersrssrse 35
3.1 Giới thiệu và động lực xây dựng các bộ ngữ liệu -. - 5 «5s «<<ses<s 36
3.2 Bộ ngữ liệu đọc hiểu tự động cho văn ban Wikipedia tiếng Việt 38
3.2.1 Quy trình xây dựng ngữ lIỆU -. L2 S222 132 112 1111111111111 11k re 40
3.2.2 Phân tích bộ ngữ liỆU - - E22 1122111211111 1181118211181 1 1811181 E81 rrrep 42
3.3 Bộ ngữ liệu đọc hiểu tự động cho văn ban tin tức sức khỏe tiếng Việt 48
3.3.1 Quy trình xây dựng ngữ lIỆU - G22 22112112 1121151151111 1111111 re 49
3.3.2 Phan tich b6 ngtt HOU 52
3.4 Bộ ngữ liệu đọc hiểu tự động cấp độ câu cho van bản tiếng Việt 57
3.4.1 Quy trinh xay )ì0(156i1300i 5n 58 3.4.2 Phan tích bộ ngữ HOU oo ee ccc cecccenceeseeeeeecnseeeeaeeeeaeeeeaeeeeaeceseeenseeeneeenaes 59
3.5 Mở rộng bộ ngữ liệu đọc hiểu tự động tiếng Việt với câu hỏi không tra lời
CƯỢC (ẤP Ưc o 7GEBGHES 0 0.5776 "nọ HS 1068094068996681008100840060100600908000080 60
3.5.1 Quy trình xây dựng bộ ngữ liỆu c2 3221321 E32E32EEEEEsersrrrsrres 62 3.5.2 Phân tích bộ ngữ LGU - - - 2 2232 11221123115111111511 1121111111111 xe, 65
3.6 Những đánh giá đầu tiên trên các mô hình doc hiểu tự động tiếng Việt 66
3.6.1 Đọc hiểu tự động trong văn bản Wikipedia tiếng Việt 2- 55-55: 663.6.2 Đọc hiểu tự động trên văn bản tin tức sức khỏe tiếng Việt 683.6.3 Đọc hiểu tự động cấp độ câu trên văn bản Wikipedia tiếng Việt 703.6.4 Đọc hiểu tự động tiếng Việt tại Hội thảo quốc tế lần thứ 8 về Xử lý ngôn ngữ
và tiếng nói tiếng Việt (VLSP 2021) ¿22 2+2E+EE2EE2E121121127127121.211 211 1xx 71
Trang 114.2 Mô hình đọc hiểu tự động trong văn bản tiếng Việt -« s<s<e- 804.3 Thử nghiệm va kết quả -s- <2 5£ s£ s s£s£©s££sEs£Es£xsEsEseEsexsessessrserserse 85
4.3.1 Bộ ngữ liệu thử nghiỆm - - 2c 2c 222112111111 351 11511511111 1111 E111 11 E1 xe, 85
4.3.2 Chuẩn bị ngữ LGU c.ccceccccscsssesssesssessesssecssessessssssssssessusssssssesssessesasessuessesaseesess 86
4.3.3 Cac m6 hinh CO SO (114L 86
4.3.4 Các thông số mô hình - ¿+ S6 S£+E£+E£EEEEEEEE2E12E2171712112117171 11 x0 86
4.3.5 Các kết quả thử nghiệm - 22 2S2+SE‡EE9EE2E12E12E122171711211211 1111 xe 87
4.4 Phân tích kết qua thir nghiệm và thảo luận -s s-ssssese<se 93
4.4.1 Ảnh hưởng của các mô hình truy xuất minh chứng khác nhau và mô hình trích
XUAt CAU tra LOH 0N ố 93
4.4.2 Những ảnh hưởng của các khía cạnh ngôn ngữ tiếng Việt đến mô hình đọcIipi 95
4.4.3 Đánh giá ViReader trên những bộ ngữ liệu khác : -++s5++5s52 97
4.5 Kết luận €h0Tg 2-5 s£ s£ << S2 5£ 9£ 4 ESsE34 E3 3EE5 35 39 523253539595 see 100
ĐỘNG hacen ĐH P eo LIEB, , co ococoooooeeeseeeeoersee 102
5.1 Giới thiệu và động lực nghiên CUM - << << S5 5S 5S 55 55 2s.” 104
5.2 Mô hình hỏi đáp tiếng Việt đề xuất dựa trên đọc hiểu tự động 106
5.2.1 Các quy tắc tiền xử lý - s tt 12 121121121121121121 21111111 Eeree 107
5.2.2 Mô hình truy xuất văn bản - 2 s+Sx+EEtEE2E12E1271271711211211221 21 xe 1095.2.3 Mô hình đọc hiểu văn bản -::-©22¿222+22+E22EE 22122 EErrrrrrrrree 1155.2.4 Xếp hạng các câu trả lời ứng cử (Answer Re-ranker) -s scs-s+ 1205.3 Thử nghiệm và kết quả -. 2< s£ << 2£ s£ s£Ss£s£+s£Es£Es£xsessessessrsezsesse 121
5.3.1 Các bộ ngữ liệu thử nghiệm - - ¿22c 2221322112113 xE+ 121
5.3.2 Các thông số đánh giá - + s9 E2E12112E1271711211211211 211111111 xe 122
5.3.3 Thiết kế các thử nghiệm 2- 2 2+ 2+ SE+EE+EE£EE2EE2E122127171212211 21x 122
5.3.4 Môi trường thử nghiỆm c2 2 3 22111321113511 1 11191118 1118111 811g re 124
5.3.5 Các kết quả thử nghiệm 2-2 2s SE EEEE2E12E712212712112171 11111 re 1245.4 Phân tích kết quả thử nghiệm và thảo luận . -° s2 5c -s<s©s<¿ 130
1X
Trang 125.4.1 Các thành phần đóng góp vào mô hình hỏi đáp tiếng Việt đề xuất như thế
5.4.2 Các thông số của truy van văn bản và đọc hiểu văn bản dé chọn câu trả lời ảnhhưởng như thế nào đến mô hình hỏi đáp? - 2c 2 22 x+Ex££E££E£2E2E+zE+zrxered 131
5.4.3 Cac từ tiếng nước ngoài có ảnh hưởng như thé nào đến các mô hình ngôn ngữ
trong mô hình đọc hiểu tự động tiếng 1 1335.4.4 Độ dài văn ban tác động đến hiệu suất mô hình như thé nào? 135
5.4.5 Những dạng câu hỏi nào trong bộ ngữ liệu tiếng Việt thách thức đối với môhình hỏi đáp dé xuất2 - - 2: +Ss 2S‡EE9EE2E2112112712711171121121121111 1111 re 135
5.5 Két 0 r7 n6 138CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHÁT TRIÊN - 5-5 5° 5< < 140
108000: 8 140
6.1.1 Đóng góp thứ nhất: Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu chovăn bản tiếng ViỆ( s20 2c 21 1 111 112112112111 110121 1111111121211 1111 tre 1406.1.2 Dong góp thứ hai: Đề xuất mô hình đọc hiểu tự động tích hợp truy xuất minh
chứng cho văn bản tiếng VIiỆẲ 2-52 t2 222112E12712711211211211211 11112111 cyee 141
6.1.3 Đóng góp thứ ba: Đề xuất mô hình hỏi đáp tích hợp đọc hiểu tự động cho vănban tiếng Việt ch À.£ £ 141
6.2 Các hạn chế và các hướng phát triỄn 2-2 s se ssssssesessezsecse 141
6.2.1 Ngữ liệu cho đánh giá các mô hình đọc hiểu tự động . -+: 1426.2.2 Mô hình đọc hiểu và hỏi đáp tự động 2- 2 2+5++E£+EeEteEerzrrrered 143
6.2.3 Mở rộng ứng dụng của các mô hình đọc hiểu tự động - 145HOC BONG DAO TẠO TIẾN SĨ 2-5 5° se s2 EssExseEseEsetsetssessersersrrsee 147CONG BO KHOA HỌC 2- 222 se ©ss£EseEEseExeEEseEvsersstrsersserssrrsersseree 148
TÀI LIEU THAM KHẢO 5° 5° 525258 s£Ss£ S22 ESs£S3EEs£EseEseEssxsexsersersersee 149
Trang 13DANH MỤC CÁC TỪ VIET TAT
Từ viết tắt Nội dung tiếng Anh Nội dung tiếng Việt
Từ viết tắt từ tiếng Anh
NLP Natural Language Processing Xử ly ngôn ngữ tự nhiên
AI Artificial Intelligence Tri tuệ nhân tao
NLU Natural Language Understanding Hiểu ngôn ngữ tự nhiên
MRC Machine Reading Comprehension Đọc hiểu tự động
QA Question Answering Hỏi đáp tự động
SE Search Engine Công cụ tìm kiếm
VA Virtual Assistant Tro ly ao
QG Question Generation Tao sinh cau hoi
NLI Natural Language Inference Suy luận ngôn ngữ tự nhiên
VLSP Vietnamese Language and Speech Hội thảo xử lý ngôn ngữ và giọng nói
Processing tiêng Việt
IE Information Extraction Rut trich thong tin
ML Machine Learning Hoc may
EM Exact Match Độ đo chính xác
BERT Bidirectional Encoder Representations | Biểu diễn bộ mã hóa hai chiều từ
from Transformers Transformers SAE Supervised Answer Extractor Bộ rút trích câu trả lời có giám sát
EE Evidence Extractor Bộ truy xuất minh chứng
LM Language Model Mô hình ngôn ngữ
POS Part-Of-Speech Nhãn từ loại
NER Named Entity Recognition Nhận dạng thực thể có tên
Từ viết tắt từ tiếng Việt
XI
Trang 15DANH MỤC CAC BANG
Bảng 2.1 Các nghiên cứu đọc hiểu tự động nồi bật trước năm 2013 - se: lãi
Bảng 2.2 Các bộ ngữ liệu tiêu biểu cho đánh giá đọc hiểu tự động . 26
Bảng 3.1 Các bộ ngữ liệu đọc hiểu tự động trong văn bản tiếng VIỆt ccccSẰ 37 Bảng 3.2 Thống kê tong quan về bộ ngữ liệu đọc hiểu Wikipedia tiếng Việt 43
Bảng 3.3 Thống kê phân bố bộ ngữ liệu theo độ dài của câu hỏi và câu trả lời 43
Bảng 3.4 Thống kê phân bố bộ ngữ liệu theo độ dai bài đọc 2-2 25c: 44 Bảng 3.5 Phân bồ loại câu hỏi trên bộ ngữ liệu đọc hiểu Wikipedia tiéng Việt 45
Bang 3.6 Phân bố loại câu trả lời của bộ ngữ liệu đọc hiểu Wikipedia tiếng Việt 46
Bảng 3.7 Phân bồ loại suy luận trên bộ ngữ liệu đọc hiểu Wikipedia tiéng Việt 47
Bang 3.8 Một số ví dụ đọc hiểu trên tin tức sức khỏe tiếng Việt c5: 49 Bang 3.9 Những đặc trưng về mức độ khó của văn bản đọc hiểu -2- 5-52 51 Bảng 3.10 Tổng quan về bộ ngữ liệu doc hiéu tin tức sức khỏe tiếng Việt 52
Bang 3.11 Thống kê tốp từ vựng phô biến trên hai bộ ngữ liệu đọc hiểu tiếng Việt 53
Bang 3.12 Phân bố độ dài câu hỏi trên hai bộ ngữ liệu đọc hiéu tiếng Việt 54
Bang 3.13 Phân bố độ dai câu trả lời trên hai bộ ngữ liệu đọc hiểu tiếng Việt 54
Bảng 3.14 Phân bồ loại câu hỏi trên hai bộ ngữ liệu đọc hiểu trong văn bản Wikipedia và tin tức sức khỏe tiếng VIỆ( ¿52-1 19 2 1211211211121121121111111111121111111 1101 du 56 Bảng 3.15 Phân bố loại câu trả lời trên hai bộ ngữ liệu đọc hiểu trong văn bản Wikipedia và tin tức sức khỏe tiếng ViỆT 52 2 E1 1E E21211211211211711211211211211 111 re 56 Bảng 3.16 Một vài ví du minh hoa cho các mẫu ngữ liệu câu hỏi — câu trả lời trong văn bản Wikipedia tiếng ViỆP - 5c 1S ST 12 12111111211211111 1111121012111 1212 rrag 61 Bang 3.17 Cac phương pháp chuyên từ câu hỏi trả lời được sang câu hỏi không có câu trả lời trong văn ban Wikipedia tiếng ViỆt 2-52 2 21 E2 2222122121121 re 63 Bang 3.18 Thống kê tổng quan về bộ ngữ liệu đọc hiểu (bao gồm câu hỏi không trả lời được) trong văn ban Wikipedia tiếng ViỆt - 52-52 ST 2122121111111 te 6S Bang 3.19 Hiệu suất của các mô hình đọc hiểu trong văn ban Wikipedia tiếng Việt 66
Bảng 3.20 Hiệu suất của các mô hình theo độ dài văn bản trên bộ ngữ liệu đọc hiểu Wikipedia tiếng ViỆt 5-5252 21 2EEEE2122112112112111121121121121101112121101 1e 68 Bang 3.21 Hiệu suất của các mô hình đọc hiểu trên tin tức sức khỏe tiếng Việt 69
xiii
Trang 16Bảng 3.22 Hiệu suất của các mô hình theo độ dài văn bản trên bộ ngữ liệu đọc hiểu tin tứcsức khỏe tiếng VIiỆt -2-52 55c S22E19E1921121121121127111111121121111111121111211 1111 ng 69
Bang 3.23 Hiệu suất của các mô hình hỏi đáp cấp độ tiếng Việt 2-5: 70
Bảng 3.24 Kết quả cuối cùng trên các tập phát triển và tập kiểm tra theo F; cao nhất của
ngữ liệu đọc hiểu Wikipedia tiếng ViỆT - 55c St E2 2112712712112 E111 re 89
Bang 4.3 Mức độ cải thiện của mô hình dé xuất (ViReader) so với các mô hình đọc hiệu
khác - #ÉЄ⁄⁄ ,fcc À À ii 91
Bang 4.4 Hiệu suất của mô hình đọc hiéu hoàn chỉnh với các câu xếp hang cao nhất 92
Bảng 4.5 Thời gian thử nghiệm trên mô hình ViReader và người . - ‹- «- 93
Bảng 4.6 Kết quả (theo F1) của các mô hình truy xuất minh chứng khác nhau 94Bang 4.7 Kết quả (theo F1) của các mô hình trích xuất câu trả lời khác nhau trong văn ban
có kích thước K câu được truy vấn (K = I, , I2) -c-©++c++E++E+EtEEeEEeEerrkerrees 94Bảng 4.8 Hiệu suất của mô hình ViReader và các mô hình đọc hiểu khác trên các loại câu
O0 95
Bảng 4.9 Hiệu suất của mô hình ViReader và các mô hình đọc hiéu tự động khác trên loại
CAU tra LOL occ 1d 96
Bang 4.10 Hiéu suất của mô hình ViReader va các mô hình đọc hiểu tự động khác trên
các loại Suy Ìuận - - c + 2111211132111 11111111 111 1110111 H11 HH KH HH 97
Bang 4.11 Giới thiệu những bộ ngữ liệu đọc hiểu trong tiếng Việt và các ngôn ngữ khác
(tiếng Trung và tiếng Anh) -2-5- 252 S22EESEEEEEEEE21121121127111711211211211211111 1 cre 97
Bảng 4.12 Độ chính xác EM và F: của mô hình đọc hiểu đề xuất và các mô hình khác trênnhiều bộ ngữ liệu khác nhau - - c 3221832118333 83911 83911119111 1911 1181118811 E1 ng nrệp 99
Bang 5.1 Các hệ thống hỏi đáp tự động tiếng Viét eee ceccesesesessesseestesteseseeeeees 102Bang 5.2 Các kết quả trên các mô hình truy xuất văn bản . 2-2 s+cxscse+z 124
XIV
Trang 17Bảng 5.3 Các kết quả trên các mô hình đọc hiểu tự động cho văn bản tiếng Việt 126Bảng 5.4 Hiệu suất các mô hình hỏi đáp tiếng Việt trên hai bộ ngữ liệu dựa trên Wikipedia
và một bộ ngữ liệu dựa trên tin tức sức khỏe . 5 S251 3+2 E+seEEsseersesreres 127
Bảng 5.5 Phân tích lược bỏ các thành phần đóng góp của mô hình truy xuất văn bản đề0 130
Bảng 5.6 Phân tích loại bỏ các thành phan đóng góp của mô hình đọc hiểu và mô hình hỏiđáp để XuẤt c-cc c1 1 2112112112111 11 1121 1 111 1212121111121 111 grrrreg 131
Bang 5.7 Các từ tiếng nước ngoài tác động đến các mô hình đọc hiéu tự động tích hop
0500014 133
Bang 5.8 Phân tích kết quả theo loại câu hỏi trên đọc hiểu tự động Wikipedia tiếng Việt
XV
Trang 18DANH MỤC CÁC HÌNH
Hình 1.1 Đọc hiểu tự động trong trí tuệ nhân tạO - c2 12.112 12 1 xxexrree 2Hình 1.2 Hệ thống hỏi đáp dựa trên mô hình đọc hiểu 2: 2522522 2+E££x+£+z£sz2 3Hình 1.3 Một kết qua tìm kiếm trên công cụ tìm kiếm Google (thời gian truy cập: ngày
J8 A3) 4
Hình 1.4 Cấu trúc các chương chính của luận án 2-2 2S E+E+EE2E£+EerEerxerszreee 7Hình 2.1 Lịch sử đọc hiểu tự động sơ lược từ 1977 đến 0 10Hình 2.2 Mô hình học chuyên tiếp tích hợp mô hình ngôn ngữ BERTology (dựa trên BERT
P0 — Ÿ .š‡ẽš .Ầ 18
Hình 2.3 Phương pháp tiếp cận các bài toán NLP theo học chuyên tiếp được sử dụng cho
các ngôn ngữ it tài nPUYÊN - c1 120112111211 1111 11111111 110111111 111111 E1 HH TH Hà Hư 20
Hình 2.4 Hai hướng tiếp cận đo độ tương đồng dựa trên mô hình ngôn ngữ BERT 23Hình 2.5 Các mô hình hỏi đáp truyền thống và hiện đại -2- 2:55 552252+£z+csd 28
Hình 2.6 Mô hình hỏi đáp dựa trên đọc hiểu tự đỘng - - St S Si eerke 30 Hình 3.1 Dong góp các bộ ngữ liệu cho đọc hiểu tự động tiếng Việt 36
Hình 3.2 Minh hoạ câu hỏi cho đọc hiệu trong văn bản Wikipedia tiếng Viét 39Hình 3.3 Quy trình xây dựng bộ ngữ liệu đọc hiểu tự động Wikipedia tiếng Việt 40Hình 3.4 Công cụ tạo ngữ liệu đọc hiểu trên văn bản tiếng 'VIỆT ĂẶ S2 42Hình 3.5 Phân bố độ dài bai đọc trong văn bản Wikipedia và tin tức sức khỏe tiếng Việt
Hình 3.6 Một vài ví dụ về đọc hiểu tự động cấp độ câu cho văn bản tiếng Việt 57Hình 3.7 Phân bố các loại câu hỏi và từ hỏi trên tập phát triển và tập kiểm tra của bộ ngữliệu đọc hiểu Wikipedia tiếng ViỆt - ¿55-222 21221 2112712112211211221121121111 c1 re 60Hình 4.1 Quá trình đọc hiểu với quá trình rút trích những câu minh chứng 79Hình 4.2 Tổng quan về kiến trúc của mô hình đọc hiéu ViReader bao gồm hai thành phanchính: mô hình truy xuất minh chứng va mô hình trích xuất câu trả lời - 80Hình 4.3 Quá trình ước lượng điểm dựa trên mức độ ngữ nghĩa tương đồng giữa câu hỏi
90v ì0 0i 00, '''.'^'^'.-.'-'-.-.-' 83
Hình 4.4 Thành phan rút trích câu trả lời của mô hình đọc hiểu ViReader là được xây dựng
dựa trên mô hình ngôn ngữ XLLM-R - c1 22 321112113511 25115111211 1111111111 11k ky 84
XVI
Trang 19Hình 4.5 Lỗi (Error) của hai mô hình truy xuất minh chứng (BM25 và STR) đối với các
câu hỏi dựa trên so khớp từ (Word Matching) và không so khớp từ ( Non-Word Matching).
Hình 4.6 Kết quả của mô hình đọc hiểu ViReader và các mô hình đọc hiểu khác trong vănbản Wikipedia tiếng ViỆt - SG St E22 1221271221212112112110111121121221 212111 ere 90
Hình 5.1 Tổng quan về mô hình hỏi đáp bao gồm ba thành phân chính: truy xuất văn bản,đọc hiểu văn ban và xếp hạng các ứng cử câu trả lời 2-2 2+szxe£xz£zrzxred 107Hình 5.2 Mô hình truy xuất văn bản ViDR của mô hình hỏi đáp đề xuất ViQAS bao gồm
bộ tiền truy xuất văn bản, mô hình truy xuất minh chứng và bộ tái xếp hạng văn bản 109Hình 5.3 Mô hình dựa trên Sentence Transformer cho bài toán ước tính độ tương đồnggiữa câu trả lời và câu hỏi về ngữ nghĩa 2-5 St E2 2E EEEEE2121121121 111111 re, 112Hình 5.4 Mô hình đọc hiểu văn bản của ViQAS với một câu hỏi đầu vào đã được xử lybởi các quy tắc và các văn bản liên quan được tóm tắt bởi mô hình truy xuất minh chứng
ỀỄ ¿CC 7> ẽ>x" 115
Hình 5.5 Hiệu quả mô hình theo số lượng văn bản truy xuất được trên các văn bản
Wikipedia tiếng VIỆ( ¿5c 1 1 122112 1211211 11211 2112112101212 errreg 125
Hình 5.6 Hiệu quả mô hình theo sỐ lượng văn bản truy xuất được trên các văn bản tin tứcU11 A s: PRENNANỚA (ẢnG ca na“ 125Hình 5.7 Ảnh hưởng của giá trị œ đến mô hình truy van văn bản của ViQAS 132Hình 5.8 Anh hưởng của giá trị B đến mô hình hỏi đáp ViQAS - 132Hình 5.9 Độ dài văn bản tác động đến kết quả mô hình trên các bộ ngữ liệu hỏi đáp tiếng
2 134
Hình 6.1 Ứng dụng trợ lý ảo và Chatbot với mô hình đọc hiểu tiếng Việt 146
XVII
Trang 20DANH MỤC CÁC THUẬT TOÁN
Thuật toán 3.1 Quá trình chuyên đổi tự động câu trả lời cấp độ chuỗi sang cấp độ câu
Thuật toán 4.1 Mã giả cho mô hình truy xuất minh chứng dé trích xuất K câu có liên quannhất dựa trên câu hỏi Q và văn bản D ¿- St Sex EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrkrkrrerg 81
Thuật toán 5.1 Tiền xử lý câu hỏi trước khi đưa vào các thành phan còn lại của mô hình
089502975177 108
Thuật toán 5.2 Chuyển các mẫu trong bộ ngữ liệu đọc hiểu tự động sang các cặp tươngđồng giữa câu hỏi — câu chứa câu trả lời trong bộ ngữ liệu mới -:- ¿5+ 111Thuật toán 5.3 Huấn luyện bài toán tương đồng giữa câu hỏi - câu có kha năng chứa câu
Thuật toán 5.4 Truy van K câu từ văn bản D liên quan đến câu hỏi Q và cập nhật chỉ số
bat dau cho 7:71 00777 118
Thuật toán 5.5 Tiền xử lý và huấn luyện mô hình rút trích câu trả lời 119
XVili
Trang 21CHƯƠNG 1: TONG QUAN
Tổng quan về luận án được NCS trình bày trong Chương 1 Đầu tiên, NCS trình bày
động lực nghiên cứu của luận án trong Mục 1.1 Các đóng góp chính trong luận án được
NCS mô tả trong Mục 1.2 Tiếp theo, NCS giới thiệu mục đích, đối tượng va phạm vi
nghiên cứu trong Mục 1.3 và ý nghĩa khoa học và thực tiễn của luận án trong Mục 1.4.
Cuối cùng, NCS giới thiệu tổng quan về bố cục của luận án trong Mục 1.5
1.1 Động lực nghiên cứu
Hiểu ngôn ngữ tự nhiên (NLU) đóng vai trò quan trọng trong sự phát triển của trí tuệnhân tao (AJ), bao gồm nhiều bài toán như suy luận ngôn ngữ tự nhiên, đọc hiểu tự động,hỏi đáp tự động và tóm tắt văn bản Trong những năm gan đây, một bài toán quan trọng và
đầy thách thức là đọc hiéu tự động (MRC) [1], thu hút được sự quan tâm lớn của cộng đồng
nghiên cứu xử lý ngôn ngữ tự nhiên (NLP) Luận án này giải quyết bài toán trọng tâm hiểungôn ngữ tự nhiên là đọc hiéu tự động trong văn bản tiếng Việt (Hình 1.1) Cụ thể, NCStập trung vào các văn bản tiếng Việt (một ngôn ngữ có ít tài nguyên cho phát triển và đánhgiá các mô hình trong xử lý ngôn ngữ tự nhiên [2, 3]), là nhiệm vụ huấn luyện cho máytính có thé đọc hiểu một văn bản và sau đó trả lời các câu hỏi liên quan hoàn toàn bằngngôn ngữ tự nhiên Bài toán đọc hiểu tự động tiếng Việt quan trọng vì một số lý do chính:(1) đọc hiểu tự động giúp cộng đồng nghiên cứu đánh giá được quá trình phát triển củahiểu ngôn ngữ tự nhiên (NLU) trong tiếng Việt; (2) phát triển và ứng dụng các mô hình
đọc hiểu tự động vào các ứng dụng thực tế như hỏi đáp tự động (Question Answering),
công cụ tìm kiếm (Search Engine) và trợ lý ảo (Virtual Assistant) trong tiếng Việt; và (3)đặc biệt, tiếng Việt là ngôn ngữ ít tài nguyên (ngôn ngữ có ít các bộ dữ liệu có kích thước
lớn và chất lượng được công bé rộng rãi và phục vụ cho nghiên cứu) cần được khám phá
và nghiên cứu trong NLP nhiều hơn
Trang 22Hình 1.1 Đọc hiểu tự động trong trí tuệ nhân tạo.
Trong hơn một thập kỷ qua, đọc hiểu tự động đã có nhiều bước tiễn trong việc xây dựngcác bộ ngữ liệu có kích thước lớn, chất lượng cao và cũng như các nghiên cứu về các mô
hình dựa trên các thuật toán học sâu và các MHNN Trọng tâm của luận án này là nghiên
cứu đọc hiểu tự động tiếng Việt Cụ thể, NCS tập trung đề xuất các bộ ngữ liệu và các mô
hình MRC tiếng Việt Về phát triển các bộ ngữ liệu, NCS đề xuất các bộ ngữ liệu đọc hiểu
tự động tiếng Việt: miền mở (các văn bản trên Wikipedia) và miền đóng (các văn bản tin
tức về sức khỏe) Về nghiên cứu các mô hình, NCS đề xuất và thử nghiệm các phươngpháp đọc hiểu tự động và hỏi đáp tự động tiếng Việt
Đọc hiểu tự động [4], hay khả năng đọc văn bản và sau đó hiểu dé tra lời các câu hỏiliên quan đến văn bản, là một nhiệm vụ day thách thức đối với máy tính, yêu cầu cả hiểungôn ngữ tự nhiên và tri thức về thế giới Đọc hiểu tự động có quá trình phát triển lâu dài
từ đầu những năm 1970 Cụ thể, Charniak và cộng sự (1972) [5] đã đề xuất một mô hình
cơ ban dé trả lời các câu hỏi liên quan về các mau chuyện dành cho trẻ Lehnert và cộng
sự (1977) [6] đánh giá việc hiểu ngôn ngữ tự nhiên thông qua việc trả lời các câu hỏi liênquan đến các văn bản Tuy nhiên, do tính chất phức tạp và đầy thách thức, các nghiên cứu
về đọc hiểu tự động bị hạn chế và chủ yếu dựa trên các quy tắc được xây dựng một cáchthủ công [5, 7] Cho đến năm 2013, Richardson và cộng sự (2013) [8] đã định nghĩa bài
toán đọc hiểu tự động dưới dạng nhiệm vụ học máy giám sát đầu tiên thay vì dựa trên cácquy tắc thủ công, mở ra một hướng tiếp cận mới và ảnh hưởng đến các nghiên cứu đọchiểu tự động cho đến nay Đặc biệt, đọc hiểu tự động đã phát triển rất nhanh chóng trêncác bộ ngữ liệu và các mô hình học máy từ sau khi bộ ngữ liệu nỗi tiếng SQUAD có kíchthước lớn và chất lượng được đề xuất bởi Rajpurkar và cộng sự (2016) [4] Bộ ngữ liệuSQuAD đã tạo cảm hứng cho NCS trong việc phát triển và xây dựng ngữ liệu đọc hiểu tự
2
Trang 23động tiếng Việt cho các nghiên cứu trong đề tài luận án Những thành công của các môhình MRC trong hơn một thập kỷ qua là do sự phát triển rất nhanh của nhiều bộ ngữ liệukích thước lớn, chất lượng cao và cũng như sự phát triển nhanh của các phương pháp học
máy dựa trên các kiến trúc học sâu và kiến trúc Transformer Thêm vào đó, đọc hiểu tự
động là thành phần cốt lõi của các mô hình hỏi đáp hiện đại, mở ra hướng tiếp cận mới củahỏi đáp tự động trong hơn một thập kỷ qua Cụ thể, Chen và cộng sự (2017) [9] đã đề xuấtDrQA, mô hình QA gồm hai thành phan chính: mô hình truy xuất văn bản (Retriever) và
mô hình đọc hiểu (Reader) (xem Hình 1.2) Từ đó, nhiều CTNC hỏi đáp dựa trên các mô
hình của đọc hiểu tự động được khám phá và phát triển như BERTserini [10] và ORQA
[11].
_ ZG——
Câu hỏi: Tha tướng đầu tiên Mô hình QA Câu trả lời:
của Việt Nam là ai? Nguồn tri thức Retriever-Reader Pham Văn Đồng
Hình 1.2 Hệ thống hỏi đáp dựa trên mô hình đọc hiểu
Trong luận án này, NCS tập trung (1) nghiên cứu và xây dựng các bộ ngữ liệu phục vụ
cho nghiên cứu đọc hiểu và hỏi đáp tự động cho ngữ liệu tiếng Việt; (2) các mô hình MRCdựa trên các MHNN, cụ thê nghiên cứu xây dựng các thành phần chính của các mô hình
đọc hiểu tự động tiếng Việt; (3) áp dụng mô hình đọc hiểu có độ chính xác cao như một
công nghệ nền tảng cốt lõi vào các ứng dụng hỗ trợ tìm kiếm thông tin như mô hình hỏi
dap tự động Đọc hiểu tự động đã được áp dụng trong nhiều ứng dụng thực tế Ví dụ, ngày
nay chúng ra có thê nhập vào một câu truy vấn trên Google “Có bao nhiêu sinh viên tạiĐại học Quốc gia TP.HCM?” (Hình 1.3), Google không những trả về danh sách các siêuvăn bản có thê chứa câu trả lời mà còn trả về những câu trả lời chính xác được In đậm vàhiển thị lên đầu của danh sách các kết quả tìm kiếm Đọc hiểu tự động có thể hỗ trợ các
mô hình tìm kiếm thông tin ngày càng thông minh hon bằng cách làm nổi bật kết quả cụthé Đặc biệt, các mô hình MRC có thé thúc đây sự phát triển khả năng đọc hiểu văn bản
của các trợ lý ảo như Alexa của Amazon, Siri của Apple, Google Assistant của Google va Cortana của Microsoft Luận án này thực hiện theo hai định hướng nghiên cứu chính: (1)
3
Trang 24xây dựng ngữ liệu dé đánh giá các mô hình đọc hiểu và hỏi đáp tự động tiếng Việt và (2)
đề xuất các mô hình đọc hiểu và hỏi đáp tự động tiếng Việt
Có bao nhiêu sinh viên tại ĐHQG TP.CM? xẻ m ea
OTấtcả ƒ8Tintức (g]Hinhảnh [Video [Sách : Thêm Công cụ
Khoảng 11.600.000 kết quả (O,43 giây)
Hiện nay, quy mô đào tạo chính quy (bao gồm
các chương trình đại học và sau đại học) của
Đại học Quốc gia Thành phố Hồ Chí Minh là hơn
76.000 sinh viên chính quy (trong đó có hơn
8.000 học viên cao học và nghiên cứu sinh) với:
1ó5 ngành đào tạo bậc đại học.
Wikipedia
https://vi.wikipedia.org › wiki» Đại học Quốc gia Thà ‡
Đại học Quốc gia Thành phố Hồ Chí Minh — Wikipedia tiếng Việt
Ww
Hình 1.3 Một kết quả tim kiếm trên công cu tim kiếm Google (thời gian truy cập: ngày
28/11/2023).
1.2 Cac đóng góp chính
Đề giải quyết các thách thức trong nghiên cứu đọc hiéu tự động cho văn bản tiếng Việt,
luận án có ba nội dung đóng góp chính:
«_ Nội dung thứ nhất - Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu cho văn
bản tiếng Việt: Trong Nội dung thứ nhất, luận án tập trung vào xây dựng các bộ ngữliệu cho tiếng Việt (Tiếng Việt là một ngôn ngữ có ít các ngữ liệu cho việc phát triển vàđánh giá các thuật toán học máy trong AI và NLP) Cụ thể, NCS đã nghiên cứu và xây
dựng các bộ ngữ liệu tiếng Việt: ViQuAD (phiên bản 1.0 và phiên bản 2.0), ViNewsQA và UIT-ViWikiQA nhằm thúc đây phát triển và đánh giá các mô hình MRC
UIT-dựa trên các kiến trúc học sâu và các MHNN Các bộ ngữ liệu này đã được trình bàytrong Chương 3 và được công bố tai các tạp chí và hội nghị với các công trình: [CT1],
[CT4] [CT5] và [CT6].
Trang 25«Nội dung thứ hai - Đề xuất mô hình đọc hiểu tiếng Việt tích hợp MHNN với truy
xuất minh chứng: Trong Nội dung thứ hai, kế thừa từ các kết quả thử nghiệm đầu tiên
đã đạt được trên các bộ ngữ liệu trong Nội dung thứ nhất, luận án xây dựng, thiết kế và
triển khai các phương pháp đọc hiểu tự động sử dụng các MHNN dựa trên kiến trúc
Transformer và truy xuất minh chứng, với mô hình được đề xuất là ViReader Thêm vào
đó, NCS nghiên cứu và mở rộng đánh giá, so sánh với các mô hình đọc hiểu tiên tiếnkhác dé hiểu hơn về mô hình đọc hiểu ViReader trên nhiều bộ ngữ liệu khác nhau Môhình đọc hiểu đề xuất ViReader hiệu quả không những trong tiếng Việt mà còn trên cảvăn bản tiếng Anh và tiếng Trung Bên cạnh đó, mô hình ViReader+ được đánh giá mởrộng với truy xuất minh chứng học có giám sát Các khám phá này đã được trình bàytrong Chương 4 và một phần trong Chương 5 Các đóng góp nghiên cứu về ViReader
và ViReader+ được công bố tại các tạp chí với các công trình: [CT2] và [CT3]
« Nôi dung thứ ba - Xây dựng phương pháp hỏi đáp tiếng Việt tích hợp đọc hiểu tự
động: Trong Nội dung thứ ba, kế thừa từ các kết quả thử nghiệm đầu tiên đã đạt đượctrên các bộ ngữ liệu trong Nội dung thứ nhất, luận án xây dựng, thiết kế và triển khai
mô hình hỏi đáp dựa trên những đóng góp nghiên cứu của mô hình đọc hiểu ViReader(trong Nội dung thứ hai) dé đề xuất các mô hình QA tiếng Việt: XLMRQA và ViQAS.Các khám phá này đã được trình bày trong Chương 5 Các đóng góp nghiên cứu vềXLMRQA và VIQAS được công bồ tại các tạp chí và hội nghị với các công trình: [CT3]
và [CT7].
1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu
Mục tiêu: Dé có thé nghiên cứu và triển khai mô hình MRC tiếng Việt, mục tiêu đầu tiên
(Mục tiêu 1) ma NCS phải thực hiện là nghiên cứu và xây dựng các bộ ngữ liệu Mục tiêu
tiếp theo (Mục tiêu 2) là nghiên cứu các phương pháp đọc hiểu tự động đạt được độ chínhxác cao cho văn bản tiếng Việt Thêm vào đó, NCS muốn áp dụng các mô hình MRC dé
nâng cao hiệu quả các mô hình QA tiếng Việt (Mục tiêu 3) Các mục tiêu có sự liên kết
chặt chẽ với nội dung chính của các chương trong luận án (xem Hình 1.4).
Đối tượng: NCS thực hiện bai toán đọc hiểu tự động tiếng Việt.
Trang 26Pham vi: Nghiên cứu này được giới hạn trên đọc hiéu tự động có câu trả lời được rút trích trực tiép từ văn bản tiêng Việt trên cả miên mở (các bài việt trên Wikipedia tiêng Việt) và miên đóng (các tin tức vê sức khỏe).
1.4 Ý nghĩa khoa học và thực tiễn
e Nghiên cứu và đề xuất các bộ ngữ liệu cho nghiên cứu đọc hiểu tiếng Việt: NCS đã
đề xuất các bộ ngữ liệu có kích thước lớn và chất lượng cao thông qua các quy trình xây
dựng ngữ liệu nghiêm ngặt Đề hiểu rõ đặc điểm các bộ ngữ liệu này, NCS tiến hànhphân tích đặc điểm của các bộ ngữ liệu theo các khía cạnh ngôn ngữ khác nhau Thêm
vào đó, NCS cũng tiến hành thử nghiệm nhiều phương pháp học máy tiên tiền như nhữngphương pháp cơ sở ban đầu dé so sánh với các mô hình đọc hiểu tự động được nghiên
cứu trong tương lai Từ những đóng góp này, NCS tiếp tục có những đóng góp cho cộngđồng nghiên cứu NLP tiếng Việt bằng cách mở rộng đánh giá các mô hình MRC tiếng
Việt tại VLSP 2021 NCS đã cung cap cho cộng đồng sử dụng một bộ ngữ liệu đầy thách
thức với nhiều nhóm tham gia đến từ các trường đại học và các doanh nghiệp uy tín.Những thách thức này đã thúc đây nhiều nghiên cứu về các bộ ngữ liệu và mô hình trongđọc hiểu và hỏi đáp tự động trên dữ liệu văn bản tiếng Việt
e Nghiên cứu và đề xuất các phương pháp đọc hiểu và hỏi đáp tự động cho ngữ liệu
tiếng Việt: Kế thừa từ các kết quả thử nghiệm đầu tiên đã đạt được trên các bộ ngữ liệu
đã đề xuất, luận án thiết kế và đề xuất mô hình đọc hiểu và hỏi đáp tự động tiếng Việt
Đầu tiên, NCS đã đề xuất ViReader, một phương pháp đọc hiểu tự động tiếng Việt tíchhợp MHNN và truy xuất minh chứng Tiếp theo, NCS đã đề xuất XLMRQA, một môhình QA đầu tiên dựa trên các mô hình đọc hiểu tự động tiếng Việt Cuối cùng, dựa trênthành công của ViReader và XLMRQA, NCS đã đề xuất ViQAS, một mô hình hỏi đáptiếng Việt tận dụng sức mạnh của các MHNN với truy xuất minh chứng
e Các đóng góp nghiên cứu của nghiên cứu sinh có thé thúc day sự phát triển nhiều
nhiệm vụ nghiên cứu khác của hiểu ngôn ngữ tự nhiên tiếng Việt: đọc hiéu tự động,
hỏi đáp trong văn bản, hỏi đáp trực quan, hỏi đáp trên nội dung bảng và tạo sinh câu hỏi
— câu trả lời Những kết quả khả quan có thể áp dụng vào các ứng dụng thực tế, ví dụ
như các hệ thống hỏi đáp hoặc trợ lý ảo trong văn bản luật hoặc trong văn bản sức khỏe
Trang 271.5 Bo cục luận án
Luận án được tô chức thành 06 Chương, các công trình khoa học công bố và tài liệu
tham khảo Các đóng góp chính được tô chức trong các chương chính: Chương 3, Chương
4 và Chương 5, được trình bày trong Hình 1.4.
Chuong3 t > Chương4 =t > Chương Š
Lị Xây dựng ngữ liệu Lị Mô hình đọc hiểu Lị Mô hình hỏi đáp
Hình 1.4 Cau trúc các chương chính của luận an.
Nội dung của các chương được tóm tắt như sau:
Chương 1 - Tong quan về luận án: NCS trình bày tổng quan về luận án cũng như kháiquát về các hướng tiếp cận phô biến trong đọc hiểu tự động hiện nay Từ đó, NCS chỉ ra
các hạn chế cần phải giải quyết các đối tượng cũng như phạm vi nghiên cứu được xác định
Các đóng góp chính được chia thành 03 nội dung chính và được thực hiện trong các giai
đoạn khác nhau của luận án Cụ thể, các đóng góp cho mỗi nội dung nghiên cứu được trìnhbày trong các Chương 3 (về xây dựng ngữ liệu đọc hiểu tự động tiếng Việt), Chương 4 (về
mô hình đọc hiểu tự động tiếng Việt) và Chương 5 (về mô hình hỏi đáp tiếng Việt tích hopđọc hiểu tự động)
Chương 2 - Cơ sở lý thuyết và các công trình nghiên cứu liên quan: NCS trình bàytong quan về nền tang lý thuyết của đọc hiểu tự động va áp dung các mô hình MRC vào
7
Trang 28các mô hình QA, tập trung chuyên sâu về nghiên cứu xây dựng ngữ liệu và phát triển cácthuật toán học máy cho đọc hiểu và hỏi đáp tự động NCS giới thiệu lịch sử hình thành vàphát triển của các mô hình phổ biến trong đọc hiểu tự động và hỏi đáp tự động Thêm vào
đó, những nghiên cứu của NCS trình bày những đóng góp mới so với các nghiên cứu liên
quan trong lĩnh vực đọc hiểu và hỏi đáp tự động
Chương 3 - Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu: NCS trình bày
việc thu thập và xây dựng các bộ ngữ liệu để đọc hiểu và hỏi đáp tự động tiếng Việt Bên
cạnh đó, NCS cũng tiễn hành đánh giá các mô hình MRC tiên tiễn trên các bộ ngữ liệu.Hon thé nữa, NCS đã phân tích các kết quả thử nghiệm theo các khía cạnh ngôn ngữ khácnhau dé hiểu hơn về các mô hình MRC tiếng Việt
Chương 4 - Mô hình đọc hiểu tiếng Việt tích hợp các mô hình ngôn ngữ và truyxuất minh chứng: NCS đề xuất một mô hình đọc hiểu tự động cho các văn bản tiếng Việttích hợp các MHNN dựa trên kiến trúc Transformer và tích hợp các mô hình truy xuất minhchứng dé nâng cao hiệu quả của các mô hình MRC cho văn bản tiếng Việt Qua các thửnghiệm, NCS đã chứng minh mô hình đề xuất phù hợp và hiệu quả trên các bộ ngữ liệutiếng Việt
Chương 5 - Mô hình hỏi đáp tiếng Việt tích hợp đọc hiểu tự động: Từ kết quả củacác bộ ngữ liệu và các mô hình MRC trong Chương 3 và Chương 4, NCS đề xuất mô hình
QA mới cho các văn bản tiếng Việt dựa trên các MHNN lớn và tích hợp các mô hình rúttrích các minh chứng đề nâng cao hiệu quả của các mô hình hỏi đáp tự động trên nhiều bộngữ liệu tiếng Việt
Chương 6 - Kết luận và hướng phát triển: Cuối cùng, NCS trình bày tóm tắt các kết
quả và đóng góp quan trong cua đề tài luận án “Nghiên cứu xây dựng mô hình đọc hiểu tựđộng cho văn bản tiếng Việt” Từ những hạn chế của các nghiên cứu, NCS cũng trình bàynhững định hướng phát triển của đọc hiéu và hỏi đáp tự động tiếng Việt trong thời gian tới
Các TLTK và các công trình công bố khoa học: Danh sách các công bố khoa học va
tài liệu tham khảo đã sử dụng và được trình bày trong phần cuối của luận án
Trang 29CHUONG 2: CƠ SỞ LÝ THUYET VA CÁC CÔNG TRÌNH NGHIÊN CỨU
LIÊN QUAN
Những nội dung lý thuyết trong đọc hiểu tự động và tích hợp đọc hiểu tự động vào các
mô hình hỏi đáp được trình bày trong Chương 2 Từ đó, NCS nhận thấy các vấn đề vàthách thức còn tồn tại cũng như động lực và mục tiêu của việc thực hiện luận an Cụ thé,NCS trình bày lich sử phát triển của doc hiểu tự động (Mục 2.1), định nghĩa bài toán nghiên
cứu (Mục 2.2), các thông số đánh giá (Mục 2.3), hỏi đáp dựa trên đọc hiểu tự động (Mục
2.4), các bộ ngữ liệu liên quan (Mục 2.5), các phương pháp liên quan (Mục 2.6) và những
thách thức trong việc phát triển đọc hiéu và hỏi đáp tự động tiếng Việt (Mục 2.7)
2.1 Lịch sử đọc hiểu tự động
Xử lý ngôn ngữ tự nhiên (Natural Language Processing — NLP) đã chứng kiến lịch sử
hình thành và phát triển lâu dai qua gần năm thập kỷ của đọc hiểu tự động (Hình 2.1) Đọc
hiểu tự động (Machine Reading Comprehension - MRC) là phương pháp dé đánh giá mức
độ hiểu văn ban của máy tính [6], thuộc lĩnh vực hiéu ngôn ngữ tự nhiên (Natural LanguageUnderstanding - NLU), gắn liền với sự phát triển của hỏi đáp tự động (Question
Answering), rút trích thông tin (Information Extraction) va học may (Machine Learning).
Dé hiểu ngôn ngữ tự nhiên, các nhà nghiên cứu (NNC) xử ly ngôn ngữ tự nhiên đã thựchiện và đánh giá nhiều nhiệm vụ nghiên cứu trong thời gian qua: (1) Những vấn đề cơ bảnnên tảng trong xử lý ngôn ngữ bao gồm việc tách từ, gán nhãn từ loại, phân tích cú pháp,gán nhãn thực thể và mô hình ngôn ngữ; và (2) xây dựng các ứng dụng NLP (phân loại vănbản, phân tích cảm xúc, đọc hiểu tự động và hỏi đáp tự động) Dé đánh giá mức độ hiểumột văn bản sâu hơn, đọc hiểu tự động yêu cầu máy tính phải hiểu một bài đọc (văn bản)
và dự đoán câu trả lời cho các câu hỏi liên quan đến bài đọc đó [4] Đọc hiểu tự động là
một bài toán được cộng đồng nghiên cứu NLP quan tâm với những nguyên nhân chính sau:
(1) các bộ ngữ liệu chất lượng và kích thước lớn được công bố cho đánh giá và phát triểncác mô hình đọc hiểu tự động dựa trên học máy, đặc biệt trên các ngôn ngữ giàu tài nguyên(ngôn ngữ có nhiều các bộ dữ liệu có kích thước lớn và chất lượng được công bồ rộng rãi
và phục vụ cho nghiên cứu) như tiếng Anh và (2) sự phát triển của các mô hình đọc hiểu
dựa trên kiên trúc nơ-ron và MHNN cùng với khả năng tính toán của máy tính.
9
Trang 30Bảng 2.1 trình bày tổng quan về các nghiên cứu đọc hiểu tự động nổi bật của giai đoạnphát triển đầu của đọc hiểu tự động Định nghĩa đọc hiểu tự động (MRC) [6] xuất hiện đầutiên trong nghiên cứu của Lehnert vào năm 1977 Cụ thé, Lehnert [6] đã đề xuất mô hìnhQUALM gồm bốn giai đoạn: phân loại khái niệm, phân tích suy luận, đặc tả nội dung và
phương pháp truy xuất dựa trên heuristics, dé đọc hiểu những mau chuyện và trả lời những
câu hỏi liên quan đến những mau chuyện này QUALM [6] cho thay tầm quan trọng vềngữ cảnh của mau chuyện trong dự đoán câu trả lời cho các câu hỏi va cũng như đưa ranhững khái niệm đầu tiên trong hiểu ngôn ngữ tự nhiên Nhìn chung, với những hạn chế
về ngữ liệu và khả năng tính toán của máy tính, các mô hình thực tế tại thời điểm này đượcxây dựng với quy mô nhỏ và bị giới hạn trong tập các quy tắc được xây dựng thủ công vàkhông phủ hết trên nhiều miền ngữ liệu khác nhau Đặc biệt, các mô hình đọc hiểu đầu tiên
được nghiên cứu hoàn toàn trên các ngôn ngữ giàu tài nguyên như tiếng Anh và cho đến
bây giờ, tiếng Anh vẫn là ngôn ngữ có số lượng công trình nghiên cứu xử lý ngôn ngữ tự
nhiên nhiêu nhât.
Hội thảo đọc hiểu
tự động đầu tiên
I31pltxxti ChatGPT
Do sự phức tạp và bản chất đầy thách thức của hiểu ngôn ngữ tự nhiên, hầu như không
có công trình nghiên cứu (CTNC) nao về đọc hiểu tự động trong hơn hai thập ky từ năm
1977 Đến mãi cuối những năm 1990, Hirschman và cộng sự (1999) [12] đã khởi động lạicác nghiên cứu đọc hiểu tự động với bộ ngữ liệu bao gồm 60 mau chuyén cho tap phat trién
và 60 mau chuyện cho tập kiểm tra trên các văn ban từ lớp 3 đến lớp 6, chủ yếu là các câuhỏi ngắn về Ai (Who), Cái gì (What), Khi nào (When), Ở đâu (Where) và Tại sao (Why).Bài toán nghiên cứu này chỉ yêu cầu các mô hình đọc hiểu mau chuyện và sau đó, tìm một
câu có chứa câu trả lời đúng cho câu hỏi có liên quan đến mau chuyện này Ngay sau đó,
một chuỗi các nghiên cứu về đọc hiểu tự động được trình bày tại Hội thảo quốc tế NAACL năm 2000 - Bài kiểm tra đọc hiểu dé đánh giá hệ thống hiểu ngôn ngữ trên máy
ANLP-10
Trang 31tính [13] Trong giai đoạn này, các mô hình được phát triển dựa trên các phương pháp tiếp
cận túi từ (Bag-Of-Words) và dựa trên so khớp mẫu (Pattern Matching) kết hợp với quá
trình xử lý ngôn ngữ cơ bản như xử lý gốc từ, nhận dạng lớp ngữ nghĩa và đồng tham chiếutrong mô hình DEEP READ (Hirschman và cộng sự, 1999) [12] Mô hình QUARC tiếpcận theo phương pháp dựa trên các quy tắc được tạo thủ công về sự tương đồng từ vựng
và ngữ nghĩa (Riloff và Thelen, 2000) [7] Charniak và cộng sự (2000) [14] đề xuất nhiềuphương pháp kết hợp với nhiều cách xử lý khác nhau của DEEP READ và QUARC để đạtkết quả tốt hơn so với hai mô hình riêng lẻ này Nhìn chung, các mô hình này dự đoán câu
trả lời đúng với độ chính xác đạt được từ 30-40%, một kết quả khá khiêm tốn và đầy thách
thức cho hiểu ngôn ngữ tự nhiên trong giai đoạn này
Bang 2.1 Các nghiên cứu doc hiểu tự động nổi bật trước năm 2013
l QUALM DEEP READ DEEP READ, QUARC Dac diem (Lehnert, 1977) [6] (Hirschman va cong (ANLP-NAACL 2000)
> su, 1999) [12] [13]
Nam 1997 1999 2000
Ngôn ngữ Tiêng Anh Tiêng Anh Tiêng Anh
Dữ liệu Tập fing CA hấu “ON (ỚP 3-190 mau chuyện (lớp 3-6)
DEEP READ++: thém
Pattern matching + đặc phan loai cant hot
Các tap lệnh được trưng ngôn ngữ ( ốc từ (Charniak và cộng sự,
Phương pháp Hồ 6 ngon neu (60C tu, 2000) [14]mã hóa don giản tên, lớp ngữ nghĩa và
đồng tham chiếu) QUARC: dựa trên các quy
tắc (Riloff và Thelen,
2000) [7]
DEEP READ++: 41%
Hiệu suất 30-40% QUARC: 40%
Từ năm 2013, các nghiên cứu hiểu ngôn ngữ tự nhiên có sự thay đổi lớn, thay vì đánhgiá mức độ hiểu ngôn ngữ tự nhiên của máy tính dựa trên khả năng của các mô hình tìmcâu trả lời trên một tập văn bản thì các mô hình chỉ cần trích xuất câu trả lời tập trung trênmột văn bản Giữa năm 2013 đến năm 2015, các NNC nỗ lực đưa bài toán đọc hiểu tự động
thành nhiệm vụ học có giám sát (Supervised Learning), tức cần một bộ ngữ liệu để phục
vụ quá trình huấn luyện và kiểm thử các mô hình học máy Nếu chưa có ngữ liệu, các NNCphải tiến hành xây dựng bộ ngữ liệu C gồm N mẫu ngữ liệu, mỗi mẫu C; trong bộ ngữ liệu
C là một bộ ba gôm văn bản Dj, câu hỏi Q; và câu trả lời Ai.
11
Trang 32C = {Œ} = {D,Q,A,),với¡ e{1, ,N} (2.1)
Các nhà nghiên cứu của Microsoft (Richardson và cộng sự, 2013) [8] đã mô hình hóa
bai toán đọc hiểu tự động thành bài toán học có giám sát (Supervised Learning) và công
bố MCTest như là một bộ ngữ liệu tiếng Anh đầu tiên để phát triển và đánh giá các môhình đọc hiểu có giám sát MCTest chứa 660 mau chuyện, với bốn câu hỏi trắc nghiệm chomỗi mau chuyện (mỗi câu hỏi đi kèm với bốn lựa chọn và một trong chúng sẽ là câu trả lờichính xác) Trên bộ ngữ liệu MCTest, Richardson và cộng sự (2013) [8] đã đề xuất một số
mô hình cơ sở dựa trên các quy tac (rule-based) mà không cần sử dụng bat kỳ ngữ liệu
huấn luyện nào Cụ thể, phương pháp này tiếp cận dựa trên heuristics, đo lường thông tin
về trùng lặp từ có trọng số giữa câu hỏi và các câu trả lời ứng cử thông qua các cửa số trượt
(Sliding Window) Thêm vào đó, Richardson và cộng sự (2013) [8] cũng đề xuất một
hướng tiếp cận dựa trên nhận diện kế thừa văn bản (Recognizing Textual Entailment —RTE) bằng chuyền cặp câu hỏi-câu trả lời ứng cử thành một chuỗi, sau đó chọn câu trả lời
mà chuỗi chứa nó có khả năng cao nhất được suy luận (kéo theo) từ mẫu chuyện Sau đó,
hàng loạt nghiên cứu học máy dựa trên các đặc trưng được khám phá trên bộ ngữ liệu MCTTest như Sachan và cộng sự (2015) [15], Narasimhan và Barzilay (2015) [16]; Wang
và cộng sự (2015) [17].
Các NNC tại Công ty DeepMind của Google, Hermann và cộng sự (2015) [18] đã đềxuất một phương pháp mới dựa trên mô hình mạng nơ-ron (LSTM) với cơ chế attentiontrên hai bộ ngữ liệu thực tế và có kích thước lớn: CNN và Daily Mail Mô hình này có tên
la Attentive Reader hoạt động tốt hơn các phương pháp tiếp cận NLP cho đến thời điểmnày Tiến thêm một bước nữa, Chen và cộng sự (2016) [19] đã phân tích một cách chỉ tiếttrên hai bộ ngữ liệu CNN và Daily Mail và đề xuất một mô hình mạng nơ-ron đơn giản với
tên là Stanford Attentive Reader có thé đạt độ chính xác lên đến 72,4% trên bộ ngữ liệu
CNN và 75,8% trên bộ ngữ liệu Daily Mail, tăng hơn 5% so với mô hình trước Qua nghiên
cứu này, Chen và cộng sự (2016) [19] nhận thấy các mô hình mạng nơ-ron có khả năngnhận dạng tốt hơn trên các suy luận: so khớp từ (Word Matching) và diễn giải lại
(Paraphrasing) so với các phương pháp học máy sử dụng các đặc trưng ngôn ngữ Hai bộ
ngữ liệu này được tạo bằng phương pháp bán thủ công với những hạn chế như nhiễu và lỗitham chiếu gây khó khăn cho nghiên cứu và phát triển của đọc hiểu tự động [19] Qua hai
12
Trang 33nghiên cứu này [18, 19], các phương pháp đọc hiểu dựa trên học máy yêu cầu các bộ ngữliệu có kích thước, chất lượng tốt hơn và được xây dựng bằng phương pháp thủ công.
Các NNC của Đại học Stanford (RaJpurkar và cộng sự, 2016) [4] đã tạo một bộ ngữ liệu
mới có tên SQUAD nham giải quyết những hạn chế của hai bộ ngữ liệu: CNN và DailyMail Bộ ngữ liệu đọc hiểu này có kích thước lớn đầu tiên với 107.785 câu hỏi trên 536
văn bản Wikipedia, các câu hỏi được tạo hoàn toàn bởi người và câu trả lời cho mỗi câu
hỏi là một chuỗi các từ liên tục trong các văn bản Nhờ chat lượng dit liệu cao và phương
pháp đánh giá tự động đáng tin cậy, bộ ngữ liệu này đã thu hút sự quan tâm to lớn trong
cộng đồng AI và trở thành một bộ tiêu chuẩn (benchmark) trong đánh giá hiểu ngôn ngữ
tự nhiên Ngay sau đó, hàng loạt các mô hình đọc hiểu được phát triển và đánh giá trên
SQuAD: Match-LSTM [20], BiDAF [21], DrQA Reader [9], R-NET [22] và QANet [23].
Su phat triển các thuật toán học máy diễn ra nhanh chóng, một trong những mô hình dựatrên BERT (Devlin và cộng sự, 2018) [24] hoạt động tốt nhất đã đạt F: lên đến 93,2% vượt
trội hơn so với hiệu suất ước tính của người là 2,0%, trong khi một mô hình học máy khác
(Logistic Regression) dựa trên đặc trưng được dé xuất bởi Rajpurkar và cộng sự (2016) [4]
chỉ đạt được độ đo F; với 51,0% Sau đó, hàng loạt phương pháp đọc hiểu tích hợp MHNN
[25, 26, 27] cũng chứng minh khả năng xử lý vượt trội so với những mô hình được nghiên cứu trước đó Bên cạnh đó, các mô hình ngôn ngữ tạo sinh [28, 29, 30] cũng đạt hiệu quả
cao nhưng đòi hỏi các máy tính đủ mạnh dé thực hiện các huấn luyện
Gần đây, các mô hình hoạt động tốt trên bộ ngữ liệu chuân SQuAD đều được xây dựngvới MHNN dựa trên kiến trúc Transformer, được biết như là một kiến trúc đặc biệt của họcsâu MHNN được huấn luyện sẵn trên một lượng ngữ liệu lớn và được sử dụng để mô hìnhhóa biéu diễn từng từ trong văn bản và câu hỏi dưới dang vector trong mô hình đọc hiéu tự
động, đi qua một số lớp của mô hình cụ thể và cuối cùng đưa ra dự đoán câu trả lời Khác
với các mô hình học máy truyền thống dựa trên đặc trưng, các mô hình đọc hiểu dựa trên
mô hình ngôn ngữ Transformer có một số ưu điểm lớn:
- Học máy truyền thống dựa trên đặc trưng ngôn ngữ (từ loại, thực thé có tên, cầu trúc cú
pháp hoặc đồng tham chiếu) phụ thuộc và bị tác động bởi độ chính xác của các công cụnén tang của NLP tiếng Việt, đặc biệt thách thức đối với những ngôn ngữ ít tài nguyên
Mô hình ngôn ngữ học với các đặc trưng biểu diễn từ tự động, có thể tránh nhiễu trong
13
Trang 34các đặc trưng ngôn ngữ được trích xuất tự động Bên cạnh đó, mô hình ngôn ngữ cũng
dễ dàng tiếp cận và hiệu quả hơn khi so với các mô hình học máy dựa trên đặc trưng
ngôn ngữ.
- Thêm vào đó, các mô hình học máy truyền thống với các đặc trưng ngôn ngữ thường
đối mặt với thách thức: các đặc trưng ngôn ngữ thường rất phức tạp, thưa thớt nên khả
năng tông quát hóa kém Dé giải quyết thách thức này, sử dụng các biểu diễn từ đượchuấn luyện trên một lượng ngữ liệu lớn có thé làm giảm bớt phân bồ thưa thớt của từ
một cách hiệu quả bằng cách chia sẻ sức mạnh thống kê giữa các từ tương tự nhau về
mặt ngữ nghĩa Đặc biệt, các MHNN dựa trên kiến trúc Transformer như BERT [24] cókhả năng bắt ngữ cảnh ngày càng tốt hơn, giúp nâng cao hiệu suất trên hầu hết các bài
toán NLP trong 05 năm qua.
Các mô hình đọc hiểu tự động đạt được hiệu suất cao hơn người trên bộ ngữ liệu nồi
tiếng SQuAD là một bước tiến lớn trong cộng đồng nghiên cứu NLP trong vài năm qua.Tuy nhiên, giải quyết những thách thức trong bộ ngữ liệu nôi tiếng SQUAD không đồngnghĩa với giải quyết khả năng đọc hiéu tự động trên các ngôn ngữ khác, đặc biệt là với cácngôn ngữ ít tài nguyên Liệu rằng các phương pháp đọc hiểu tự động tiên tiến giải quyếtnhững thách thức đọc hiểu trên tiếng Anh có tương tự như trên các ngôn ngữ it tài nguyênkhác không? Để trả lời câu hỏi này, NCS tiến hành nghiên cứu các mô hình đọc hiểu tựđộng trên ngôn ngữ tiếng Việt
Đọc hiểu tự động ngày càng phát triển hơn, hàng loạt bộ ngữ liệu đọc hiểu có kích thước
lớn và nhiều thách thức gần đây đã được thu thập và xây dựng: TRIVIAQA [31], RACE
[32], QANGAROO [33], NARRATIVEQA [34], MULTIRC [35], SQuAD 2.0 [36],
HOTPOTQA [37] và cũng tao cảm hứng phát triển cho nhiều bộ ngữ liệu trên nhiều ngôn
ngữ khác nhau [38, 39, 40, 41, 42] Các bộ ngữ liệu này được thu thập từ nhiều nguồn dữ
liệu khác nhau như Wikipedia, các bài báo mạng hoặc các tài nguyên Web khác và được
xây dựng theo những phương pháp khác nhau Chúng nhằm mục đích giải quyết nhiềuthách thức chưa được giải quyết trong đọc hiểu tự động trước đây - câu hỏi được sắp xếp
độc lập với các bài đọc, câu hỏi yêu cầu suy luận trên nhiều câu hoặc thậm chí suy luận
trên nhiều văn bản dé trả lời, câu hỏi dựa trên các văn bản dài như một cuốn sách đầy đủhoặc các câu hỏi không thể trả lời được từ bài đọc Tại thời điểm khảo sát của NCS, hầuhết đọc hiểu tự động được thực hiện trên những ngôn ngữ giàu tài nguyên (ví dụ: tiếng Anh
14
Trang 35và tiêng Trung) Vì vậy, việc tạo các bộ ngữ liệu và nghiên cứu các mô hình MRC là việc
làm cấp thiết cho tiếng Việt — được biết là ngôn ngữ ít tài nguyên cho nghiên cứu
2.2 Định nghĩa đọc hiểu tự động
Định nghĩa 1: Bài toán đọc hiểu tự động có thể mô hình hoá dựa trên học máy có giámsát: cho một tập hợp gồm N mẫu ngữ liệu huấn luyện {(D;, Q;, Ai}, và mục dich là xâydựng một hàm dự đoán ƒ nhận một đầu vào là một văn bản Dị và một câu hỏi Q; và trả về
dau ra là một câu trả lời A; Bài toán đọc hiệu tự động được mô tả như sau:
Đầu vào (Input):
e Mot câu hỏi Q;;
e Một văn bản D;;
e Mot tập huấn luyện N bộ ba câu hỏi-văn bản-câu trả lời được tạo sẵn (D,, Q¡, 4),
(Dạ, Q›, A;), (Dy, Qn, Ân)
sau:
e_ Đọc hiểu với điền vào chỗ trống (Cloze-based MRC): Đối với những câu hỏi điền
vào chỗ trống, một số câu trong các bai doc được lay ra một từ/cụm từ rồi được thay thế băng các ký hiệu đặc biệt hoặc khoảng trống, tạo thành một bai đọc không hoàn
chỉnh Nhiệm vu của máy tinh là dự đoán câu trả lời thích hợp (từ/cụm từ) điền vào
chỗ trống với những lựa chọn ứng cử dé tạo thành một bài đọc hoàn chỉnh CNN
[18], Daily Mail [18] và CFT [43] là ba bộ ngữ liệu tiêu biểu dé đánh giá các mô
hình đọc hiéu tự động điền vào chỗ trống.
© Đọc hiểu trắc nghiệm với nhiều lựa chọn (Multiple-choice MRC): Đối với dạng đọc
hiệu trac nghiệm, mỗi một câu hỏi có nhiêu lựa chọn (vi dụ: có bon lựa chọn), trong
15
Trang 36đó có một lựa chọn đúng MCTest [8] và RACE [32] là hai bộ ngữ liệu điển hình
cho đánh giá các mô hình đọc hiểu trắc nghiệm
e Đọc hiểu với câu trả lời được rút trích trực tiếp từ văn bản (Span-based MRC): Với
loại đọc hiểu này thì câu trả lời phải là một chuỗi liên tục duy nhất trong bài đọc.SQuAD [4] và NewsQA [44] là hai bộ ngữ liệu tiêu biểu nhất trong các bộ ngữ liệuđọc hiểu tự động và thúc đây phát triển những mô hình đọc hiểu rút trích tự động.Lay cảm hứng từ các bộ ngữ liệu chuẩn SQUAD và NewsQA, NCS đã đề xuất vàxây dựng những bộ ngữ liệu tiếng Việt như những khởi đầu đầu tiên cho đọc hiểu
tự động cho văn bản tiếng Việt
¢ Đọc hiểu với câu trả lời tự do (Free form-based MRC): Là loại đọc hiểu tự động cho
phép câu trả lời là bất kỳ dạng văn bản tự do nào (tức là một chuỗi từ có độ dài tùy
ý) với hai bộ ngữ liệu tiêu biểu: NarrativeQA [34] và MS MARCO [45]
2.3 Phương pháp đọc hiểu tự động
Theo thời gian phát triển của đọc hiểu tự động, các phương pháp đọc hiểu tự động được
phân thành bốn phương pháp chính: mô hình đơn giản dựa trên các quy tắc, học máy dựatrên đặc trưng, các phương pháp dựa trên mạng nơ-ron truyền thống và các phương phápđọc hiểu tích hợp MHNN (dựa theo học chuyên tiếp) Các phương pháp đọc hiểu tự động
được mô tả như sau:
- Mô hình đơn giản dựa trên các quy tắc: Các phương pháp đọc hiểu tự động đầu tiên
được triển khai với những mô hình dựa trên các quy tac Richardson và cộng sự (2013)
[8] đã đề xuất mô hình đọc hiểu tự động trắc nghiệm sử dụng thuật toán Sliding
Window, một hướng tiếp cận dựa trên sự tương đồng về từ vựng Phương pháp này
cũng được sử dụng làm cơ sở trong các nghiên cứu khác (Rajpurkar và cộng sự (2016) [4], Lai và cộng sự (2017) [32], Ostermamn và cộng sự (2018) [46], Nguyen và cộng
sự (2020) [47]) Sliding Window dự đoán câu tra lời dựa trên thông tin từ vựng đơn
giản Lay cảm hứng từ TF-IDF, thuật toán này sử dụng số lượng từ nghịch đảo làmtrọng số cho mỗi từ vựng và toi đa hóa mức độ ngữ nghĩa tương đồng giữa lựa chọntrả lời và bài đọc với kích thước cửa số (Window Size)
- Hoc máy dựa trên đặc trưng: Những mô hình học máy truyền thong hoạt động hiệu
quả với một hoặc nhiều đặc trưng Logistic Regression là phương pháp cơ sở được đề
16
Trang 37xuất và thử nghiệm trên SQuAD [4] Thuật toán này trích xuất một lượng lớn các đặctrưng ngôn ngữ bao gồm độ dài, tần số bigram, tần số từ, nhãn từ loại (POS), đặc trưng
từ vựng, đặc trưng cú pháp phụ thuộc và dự đoán liệu rằng chuỗi văn bản liên tục có
phải là câu trả lời cuối cùng dựa trên tất cả những đặc trưng đó hay không Bên cạnh
đó, phương pháp Boosting được đề xuất như một mô hình cơ sở dựa trên đặc trưng
thông thường (vi dụ: n-gram, khoảng cách từ, quan hệ phụ thuộc, v.v.) cho các bộ ngữ
liệu CNN / Daily Mail [19].
Các phương pháp dựa trên mang nơ-ron truyền thống: Với sự phổ biến của phương
pháp tiếp cận mạng nơ-ron, các mô hình MRC đầu tiên như Stanford AR [19], GAReader [48], HAF [49] va Co-Match [50] đã tạo ra những kết quả day triển vọng vềđọc hiểu trắc nghiệm Trong hơn một thập ky qua, các phương pháp đọc hiểu tự động
dựa trên các MHNN cũng đã được quan tâm và nghiên cứu thêm [24, 51] Các mô hình
này không dựa vào các đặc trưng phức tạp được tạo ra theo cách thủ công như trong
các hướng tiếp cận học máy truyền thống nhưng có thê hoạt động tốt hơn chúng Sự
phát triển rất nhanh của các bộ ngữ liệu chất lượng cao và kích thước lớn đã thu hút sự
quan tâm đáng kế đến các mô hình dựa trên mạng nơ-ron cho đọc hiểu tự động Cácphương pháp tiếp cận dựa trên mạng nơ-ron [9, 52, 53, 23, 20, 22] đã thu được những
kết quả nôi bật trên các bộ ngữ liệu đọc hiểu tự động nồi tiếng trong hơn một thập kỷ
qua Các mô hình này hoạt động tốt hơn các mô hình dựa trên học máy truyền thống
sử dụng các đặc trưng ngôn ngữ thủ công khác nhau [4, 8] Một loạt các mô hình học
sâu có anh hưởng cũng đã được giới thiệu, bao gồm Match-LSTM [20], BiDAF [53],
R-Net [22], DrQA Reader [9], FusionNet [54], FastQA [55] và QANet [23].
Các phương pháp đọc hiểu tích hop mô hình ngôn ngữ: Các mô hình học may dựa trênkiến trúc Transformer, một dạng đặc biệt của học sâu đã chứng minh sự hiệu quả trênmột loạt các bài toán và ứng dụng NLP trong thời gian gần đây Devlin và cộng sự
(2018) [24], Lan và cộng sự (2019) [56] và Conneau và cộng sự (2020) [51], đặc biệt,
đã giới thiệu BERT và các biến thé của BERT (XLM-R và ALBERT), như các phươngpháp hiệu quả được huấn luyện trên các ngôn ngữ khác nhau đề đạt được hiệu suất caonhất trên bộ ngữ liệu đọc hiểu tự động Trong học chuyên tiếp dựa trên tinh chỉnh, các
MHNN được sử dụng như các biểu diễn đầu vào hiệu quả trong nhiều bài toán NLP,bao gồm cả đọc hiểu tự động Trong nghiên cứu này, NCS mong muốn tận dụng hướng
17
Trang 38tiếp cận tích hợp MHNN trong thiết kế mô hình đề xuất đề cải thiện hiệu suất bài toán
đọc hiểu tự động tiếng Việt
Masked Sentence A Masked Sentence B Văn bản (T) Câu hỏi (Q)
[CLs] G TOKALN| [SEP] [CLS] J TokT_1 imeem TokT_Nil [SEP] K5 Gy
Linear Layer + Softmax
Tién huan luyén (Pre-training) Tinh chinh (Fine-tuning)
Hình 2.2 Mô hình học chuyển tiếp tích hợp mô hình ngôn ngữ BERTology (dựa trên
BERT [24]).
Học chuyền tiếp trong xử ly ngôn ngữ tự nhiên là một hướng tiếp cận có thé tan dụng trithức từ việc học trên một bài toán trong một miền ngữ liệu (nguồn) sang học một bài toán
ở một miền ngữ liệu liên quan khác (đích) Thông thường, mô hình học chuyền tiếp được
huấn luyện trước về bải toán nguồn và sau đó được tinh chỉnh ở bước thứ hai trên một tập
ngữ liệu đích phục vụ cho một bài toán nghiên cứu Hiệu quả của việc học chuyên tiếpđược đánh giá băng hiệu suất của mô hình trên các bài toán nghiên cứu mục tiêu Họcchuyên tiếp dựa trên mô hình ngôn ngữ là một phương pháp học máy, cụ thé là các môhình ngôn ngữ được huấn luyện trước đó trên một tập ngữ liệu lớn và đa dạng, sau đó được
sử dụng hoặc tinh chỉnh dé phù hợp với các bài toán ngôn ngữ cụ thé trên ngữ liệu mới
Các mô hình ngôn ngữ thường là các mô hình học sâu dựa trên kiến trúc Transformer Một
số khái niệm quan trọng của học chuyền tiếp dựa trên mô hình ngôn ngữ được trình bày
như sau.
e Mô hình ngôn ngữ huấn luyện trước (Pre-trained Language Model): Mô hình ngôn ngữ
dựa trên kiến trúc Transformer được huấn luyện trước trên một tập ngữ liệu lớn và đadạng Các mô hình ngôn ngữ tổng quát thường được sử dụng nhiều và có ảnh hưởng cao
như BERT [24], XLM-R [51], T5 [28] và GPT [29].
18
Trang 39e Bài toán nghiên cứu mục tiêu: Các mô hình ngôn ngữ có thé được dùng dé thiết kế và
xây dựng các phương pháp đề xuất cho các bài toán nghiên cứu cụ thể Các bài toán
nghiên cứu cụ thé có thé là dich may, tao sinh van ban, phan loai van ban, va nhiéu bai
toan khac.
e Tinh chỉnh (Fine-tuning): Một phương pháp thường được sử dung là tinh chỉnh, trong
đó mô hình ngôn ngữ được tiếp tục huấn luyện trên một tập ngữ liệu mới của bài toán
nghiên cứu mục tiêu Bên cạnh đó, các lớp cuối cùng của mô hình ngôn ngữ có thé được
thay đôi dé phù hợp với các bài toán nghiên cứu mục tiêu Các lớp này thường đượcthực hiện dé thích ứng mô hình với đặc điểm cụ thé của ngữ liệu của bài toán nghiên
cứu mục tiêu.
e Bộ ngữ liệu cho bài toán nghiên cứu mục tiêu: Các phương pháp học chuyền tiếp dựa
trên mô hình ngôn ngữ cần được huấn luyện và tinh chỉnh trên một bộ ngữ liệu cho mộtbài toán nghiên cứu cụ thể Các bộ ngữ liệu phải được tiễn hành thiết kế, xây dựng vađánh giá trước khi thử nghiệm trên các phương pháp học chuyền tiếp dựa trên mô hình
và cộng sự, 2019) [24] Do đó, phương pháp này (Hình 2.2) có thé được sử dụng trong các
bài toán trong xử lý ngôn ngữ tự nhiên trên các ngôn ngữ ít tài nguyên, đặc biệt, liên quan
đến việc sử dụng trong các mô hình cho đọc hiểu tự động tiếng Việt
19
Trang 40GloVe
al., EMNLP2014) ELMO
Peters et al., NAACL-HLT2018)
OpenAl GPT RoBERTa
Word2Vec joward va Ruder, ACL2017)
(Mikolov et al., NeurlPS2013) |
i i Tiền huắn luyén—_|MHNN được tiền Mô hình cho bài
huần luyện toán NLP
Truy van thông tin
Chatbot
Hình 2.3 Phương pháp tiếp cận các bài toán NLP theo học chuyển tiếp được sử dụng cho
các ngôn ngữ it tai nguyén.
Trong thời gian gần đây, xu hướng huấn luyện sẵn các mô hình ngôn ngữ biểu diễn với
lượng ngữ liệu không 16 dé tạo các biêu diễn từ theo ngữ cảnh bang cách dự đoán từ hoặccâu tiếp theo Dựa trên các kiến trúc Transformer được huấn luyện sẵn (Vaswani và cộng
sự, 2017) [57], các MHNN lần lượt ra đời (Hình 2.3) như BERT [24], RoBERTa [25],
Sentence BERT [58] và XLM-R [51] Cruz và Cheng (2019) [59] đã chứng minh rang các
MHNN nay đặc biệt hữu ich đối với các ngôn ngữ có ít ngữ liệu nghiên cứu, trong đó có
san một lượng lớn ngữ liệu không được gan nhãn, nhưng ngữ liệu được gan nhãn cho các
bài toán nghiên cứu cụ thé lại khan hiểm Trong tiếng Việt, nhiều MHNN cũng đạt kết qua
vượt trội khi được tinh chỉnh trên PhoBERT [60] và XLM-R [2, 61].
Dựa trên số lượng ngôn ngữ hỗ trợ, MHNH chia thành 02 loại mô hình ngôn ngữ chính:
Mô hình đa ngôn ngữ và mô hình đơn ngôn ngữ, được mô tả như sau:
Mô hình đa ngôn ngữ (Multilingual Language Models)
Các ngôn ngữ ít ngữ liệu cho nghiên cứu như tiếng Việt cũng có thé tận dụng từ các môhình đa ngôn ngữ được huấn luyện sẵn (có chứa tiếng Việt) Các mô hình ngôn ngữ này
20