Luận án tiến sĩ Khoa học máy tính: Nghiên cứu xây dựng mô hình đọc hiểu tự động cho văn bản Tiếng Việt

Qua quá trình thực hiện các nghiên cứu trong luận án, NCS đã đóng góp ba nội dung chính: e Đóng góp thứ nhất — Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu tự động cho văn bản tiến

Trang 1

ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYEN VĂN KIỆT

NGHIÊN CỨU XÂY DUNG MÔ HINH ĐỌC HIẾU TỰ ĐỘNG

CHO VĂN BẢN TIENG VIET

TP HO CHÍ MINH — NĂM 2024

Trang 2

ĐẠI HỌC QUOC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYÊN VĂN KIỆT

NGHIÊN CỨU XÂY DUNG MÔ HÌNH ĐỌC HIẾU TỰ DONG

CHO VĂN BẢN TIENG VIỆT

Ngành: Khoa học Máy tính

Mã số: 9480101

NGƯỜI HƯỚNG DAN KHOA HỌC:

1 PGS TS NGUYEN LƯU THUY NGAN

2 TS NGUYEN GIA TUAN ANH

TP HO CHÍ MINH — NĂM 2024

Trang 3

ng LỜI CẢM ƠN

Nghiên cứu sinh (NCS) cảm ơn chân thành nhất đến Cô Nguyễn Lưu Thuỳ Ngân

x và Thầy Nguyễn Gia Tuan Anh về sự hướng dẫn tận tâm và giúp đỡ không ngừng dé tạo

động lực cho NCS thực hiện và hoàn thành luận án tiễn sĩ “Nghiên cứu xây dựng mô hình

đọc hiểu tự động cho văn bản tiếng Việt” Cô và Thầy đã truyền cảm hứng, kiến thức, kỹ

năng và những định hướng như cơ sở nền tảng vững chắc dé thúc đây sự sáng tạo tri thức

mới trong luận án.

NCS cảm ơn đến tat cả các thành viên của Nhóm nghiên cứu NLP@UIT đã hỗ trợ vàchia sẻ những kiến thức và kinh nghiệm quý báu Những hỗ trợ này của các thành viên đãgiúp NCS đạt được kết quả hoàn thiện tốt hơn trong quá trình nghiên cứu của luận án

NCS xin gửi lời cảm ơn chân thành đến Quý lãnh đạo và Quý Thay Cô Trường Daihoc Công nghệ Thông tin (UIT), ĐHQG-HCM, vì đã tạo điều kiện thuận lợi và động viên

NCS trong suốt quá trình công tác và học tập tại Trường Sự hỗ trợ này đã giúp NCS hoàn

thành tốt các nhiệm vụ, đặc biệt là hoàn thành luận án

Cuối cùng, NCS xin gửi lòng tri ân chân thành đến Cha, Me và các bạn bè thân thiết

đã động viên và hỗ trợ cho NCS để thực hiện hoàn thành luận án

TP Hồ Chí Minh, ngày 03 tháng 4 năm 2024

NGHIÊN CỨU SINH

Nguyễn Văn Kiệt

Trang 4

LOI CAM DOAN

NCS xin cam đoan luận án nay là công trình nghiên cứu của riêng NCS dưới sự hướng

dẫn của các cán bộ hướng dẫn khoa học Các số liệu, báo cáo, kết quả nghiên cứu trong

luận án là trung thực và chưa từng được ai công bồ trong bất kỳ công trình nào khác ngoạitrừ các công trình, tư liệu được trích dẫn trong phần tài liệu tham khảo của luận án

TP Hồ Chí Minh, ngày 03 tháng 4 năm 2024

NGHIÊN CỨU SINH

Nguyễn Văn Kiệt

ii

Trang 5

TÓM TAT

Đọc hiểu tự động (Machine Reading Comprehension) là một lĩnh vực nghiên cứu

được các nhà nghiên cứu quan tâm rất nhiều trong trí tuệ nhân tạo, đặc biệt là xử lý ngôn

ngữ tự nhiên Luận án tập trung hoàn toàn vào xây dựng ngữ liệu và nghiên cứu các mô

hình đọc hiểu, cùng với tích hợp mô hình đọc hiểu vào mô hình hỏi đáp trong văn bản tiếng

Việt Qua quá trình thực hiện các nghiên cứu trong luận án, NCS đã đóng góp ba nội dung chính:

e Đóng góp thứ nhất — Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu tự động

cho văn bản tiếng Việt: Trong Đóng góp thứ nhất, NCS tập trung nghiên cứu, thiết kế

và xây dựng các bộ ngữ liệu đọc hiểu tự động tiếng Việt (là một ngôn ngữ có ít các bộ

ngữ liệu cho phát triển và đánh giá các thuật toán học máy trong xử lý ngôn ngữ tự nhiên

và trí tuệ nhân tao) Các bộ ngữ liệu tiếng Việt: UIT-ViQuAD (phiên ban 1.0 và 2.0),

UIT-ViNewsQA và UIT-ViWikiQA được đề xuất bởi NCS nhằm dé phát triển và đánh

giá các mô hình đọc hiéu tự động Trong đóng góp này, các mô hình đọc hiểu tự độngtiên tiến cũng được đánh giá trên các bộ ngữ liệu đầu tiên trong tiếng Việt Cụ thé,Chương 3 trình bày nghiên cứu và xây dựng các bộ ngữ liệu và được công bố tại các tạp

chí và hội nghị uy tín với các công trình: [CT1], [CT4], [CT5] và [CT6].

e Đóng góp thứ hai - Đề xuất mô hình MRC tích hợp truy xuất minh chứng cho ngữ

liệu tiếng Việt: Trong Đóng góp thứ hai, kế thừa từ các kết quả thử nghiệm đầu tiên đãđạt được trên các bộ ngữ liệu đã đề xuất trong Đóng góp thứ nhất, luận án tiếp tục thiết

kế và xây dựng các phương pháp đọc hiểu tự động sử dụng các MHNN dựa trên kiến

trúc Transformer và truy xuất minh chứng, mô hình đề xuất có tên là ViReader Thêm

vào đó, NCS nghiên cứu và mở rộng đánh giá, so sánh dé hiểu hơn mô hình đọc hiểuViReader trên nhiều bộ ngữ liệu khác nhau Cụ thể, Chương 4 trình bày đề xuất mô hìnhđọc hiểu tự động cho ngữ liệu tiếng Việt và cũng được đánh giá mở rộng (ViReader+)

trong Chương 5 Các đóng góp nghiên cứu về mô hình đọc hiểu tiếng Việt được công

bồ tại các tạp chí và hội nghị với các công trình khoa học: [CT2] và [CT3]

e_ Đóng góp thứ ba: Dé xuất mô hình QA tích hợp mô hình đọc hiểu cho văn bản tiếng

Việt: Trong Đóng góp thứ ba, kế thừa từ các kết quả đầu tiên đã đạt được trên các bộngữ liệu đã đề xuất trong Đóng góp thứ nhất và mô hình đọc hiểu tự động đề xuất

1H

Trang 6

ViReader trong Đóng góp thứ hai, luận án tiếp tục đề xuất, thiết kế và triển khai các môhình hỏi đáp đạt hiệu quả cao cho ngữ liệu tiếng Việt: XLMRQA và ViQAS Các môhình hỏi đáp tiếng Việt này đã được trình bày trong Chương 5 Các đóng góp nghiên

cứu về XLMRQA và VIQAS được công bồ tại các tạp chí và hội nghị quốc tế uy tín với

các công trình khoa học: [CT3] và [CT7].

IV

Trang 7

Recently, Machine Reading Comprehension is a challenging task of natural language processing, attracting many researchers in Artificial Intelligence and Natural Language Processing The entire content of my PhD dissertation focuses on building high-quality

corpora, developing MRC models which are integrated into Retriever — Reader QA models

on Vietnamese texts This PhD dissertation includes three primary contributions as follows.

¢ Contribution #1: Creating corpora and evaluating SOTA MRC models on

Vietnamese texts: In Contribution #1, the PhD dissertation focuses on building MRC corpora for Vietnamese (as a low-resource language for natural language processing and

artificial intelligence) Vietnamese MRC corpora: UIT-ViQuAD, UIT-ViNewsQA, and

UIT-ViWikiQA are created to promote the development and evaluation of MRC models and Retriever — Reader QA models based on deep learning architectures and modern

language models The SOTA methods are evaluated on these datasets From the experience of automatic reading comprehension on Vietnamese corpus, a challenging

Vietnamese dataset (UIT-ViQuAD 2.0) including unanswerable questions is provided for evaluating MRC models These research results have been detailed in Chapter 3,

these were published in the conferences and journals: [CT1], [CT4], [CT5], and [CT6].

« Contribution #2: Proposing automatic reading comprehension models integrated

with evidence extraction for Vietnamese texts: In Contribution #2, inheriting from the first evaluation results obtained on our MRC corpora in Contribution #1, the PhD

dissertation presents automatic reading comprehension models integrated with evidence

extraction and modern language models using Transformer architecture, named as

ViReader The proposed model has been presented in Chapter 4 and has been extended

(ViReader+) and verified on the ViQAS model as a part of Chapter 5, which were

published in the two international journals: [CT2] and [CT3].

e Contribution #3: Proposing Retriever — Reader question answering models

integrated with MRC techniques for Vietnamese texts: In Contribution #3, inheriting from the first evaluation results on our MRC corpora in Contribution #1 and the findings

on our MRC model in Contribution #2, the PhD dissertation presented new Vietnamese question answering systems using evidence extraction and modern language models

V

Trang 8

using Transformer architecture, named as XLMRQA and VIQAS These QA systems

have been described in Chapter 5, which were published in international

journal/conference: [CT3] and [CT7].

VI

Trang 9

MUC LUC 055 ÔÔÔÔÔÔÔỒÔỒÔ vii

DANH MỤC CÁC TU VIET TẮTT - 2< <2 s£ s£ s£Ss£S£Es£Es£Es£ssessesevsezsessese xi

DANH MỤC CÁC BẢNG 5< 5< se Ss£EsEseEseEvsESsEEsErseEerktkserserserserssrssee xiiiDANH MỤC CÁC HINH ccsssssssssssssssessessssssssscssessssssssssecsecssssssssssssssscsesssessasssseacesesees xvi

DANH MỤC CAC THUAT TOÁN -2 2s 5° se ©ssssessesseEseEssessesserserssrse xviiiCHUONG 1: TONG QUAN ivcccsssossssssssssessssssscsussussassasssscauccascassassascsucsacsacsaseascsscsacsasess 1

1.1 Động lực mghién CỨU 0 << G <5 ĂS 9 %9 99.999 994 994.999.9894 0.589 904.99096 1

1.2 Các đóng góp ChÍnh o5 << 5 5 6 5< 9 ý 0 0 0000009488996 4

1.3 Mục tiêu, đối tượng và phạm Vi nghiên €ứu -s- << s<ssessessss=ss 51.4 Ý nghĩa khoa học và thực tiỄn 2-2 << s2 s£ s£Ss£ssEse£seEsessessessesersee 6

NT c0 AM 006 6 6 6 7CHƯƠNG 2: CƠ SỞ LÝ THUYÉT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN

90.007 ÔỎ 9

2.1 Lịch sử đọc hiểu tự động - 5£ << se se seSsExsEsstsetsersersessesersersersrse 92.2 Định nghĩa đọc hiểu tự động - 2s 5° s£©ssssssexseEsevssessessessersers 152.3 Phương pháp đọc hiểu tự động . << 5° sssessesesessessessessesesse 162.4 Ngữ liệu đọc hiểu tự động -< << cseeserserssvserestseerserserserssrssrre 24

2.5 Thông số đánh giá -s- 5< << se ©Ss£Es£Es£EssExsEESEESEEseEsrsekserserserssrssrssee 27

2.6 Hỏi đáp dựa trên đọc hiểu tự động 5-5 << se se=sessessessesesse 28

vii

Trang 10

2.7 Thách thức trong đọc hiểu và hỏi đáp tự động tiếng Việt 312.8 (C00, 8n n6 33

CHƯƠNG 3: XÂY DỰNG NGỮ LIỆU VÀ ĐÁNH GIÁ ĐỌC HIẾU TỰ ĐỘNG

TREN VAN BẢN TIENG VIET - 2-2 2° ©5<©S<©Ss£Es£Ese+seEseEssexsersersersrssrse 35

3.1 Giới thiệu và động lực xây dựng các bộ ngữ liệu -. - 5 «5s «<<ses<s 36

3.2 Bộ ngữ liệu đọc hiểu tự động cho văn ban Wikipedia tiếng Việt 38

3.2.1 Quy trình xây dựng ngữ lIỆU -. L2 S222 132 112 1111111111111 11k re 40

3.2.2 Phân tích bộ ngữ liỆU - - E22 1122111211111 1181118211181 1 1811181 E81 rrrep 42

3.3 Bộ ngữ liệu đọc hiểu tự động cho văn ban tin tức sức khỏe tiếng Việt 48

3.3.1 Quy trình xây dựng ngữ lIỆU - G22 22112112 1121151151111 1111111 re 49

3.3.2 Phan tich b6 ngtt HOU 52

3.4 Bộ ngữ liệu đọc hiểu tự động cấp độ câu cho van bản tiếng Việt 57

3.4.1 Quy trinh xay )ì0(156i1300i 5n 58 3.4.2 Phan tích bộ ngữ HOU oo ee ccc cecccenceeseeeeeecnseeeeaeeeeaeeeeaeeeeaeceseeenseeeneeenaes 59

3.5 Mở rộng bộ ngữ liệu đọc hiểu tự động tiếng Việt với câu hỏi không tra lời

CƯỢC (ẤP Ưc o 7GEBGHES 0 0.5776 "nọ HS 1068094068996681008100840060100600908000080 60

3.5.1 Quy trình xây dựng bộ ngữ liỆu c2 3221321 E32E32EEEEEsersrrrsrres 62 3.5.2 Phân tích bộ ngữ LGU - - - 2 2232 11221123115111111511 1121111111111 xe, 65

3.6 Những đánh giá đầu tiên trên các mô hình doc hiểu tự động tiếng Việt 66

3.6.1 Đọc hiểu tự động trong văn bản Wikipedia tiếng Việt 2- 55-55: 663.6.2 Đọc hiểu tự động trên văn bản tin tức sức khỏe tiếng Việt 683.6.3 Đọc hiểu tự động cấp độ câu trên văn bản Wikipedia tiếng Việt 703.6.4 Đọc hiểu tự động tiếng Việt tại Hội thảo quốc tế lần thứ 8 về Xử lý ngôn ngữ

và tiếng nói tiếng Việt (VLSP 2021) ¿22 2+2E+EE2EE2E121121127127121.211 211 1xx 71

Trang 11

4.2 Mô hình đọc hiểu tự động trong văn bản tiếng Việt -« s<s<e- 804.3 Thử nghiệm va kết quả -s- <2 5£ s£ s s£s£©s££sEs£Es£xsEsEseEsexsessessrserserse 85

4.3.1 Bộ ngữ liệu thử nghiỆm - - 2c 2c 222112111111 351 11511511111 1111 E111 11 E1 xe, 85

4.3.2 Chuẩn bị ngữ LGU c.ccceccccscsssesssesssessesssecssessessssssssssessusssssssesssessesasessuessesaseesess 86

4.3.3 Cac m6 hinh CO SO (114L 86

4.3.4 Các thông số mô hình - ¿+ S6 S£+E£+E£EEEEEEEE2E12E2171712112117171 11 x0 86

4.3.5 Các kết quả thử nghiệm - 22 2S2+SE‡EE9EE2E12E12E122171711211211 1111 xe 87

4.4 Phân tích kết qua thir nghiệm và thảo luận -s s-ssssese<se 93

4.4.1 Ảnh hưởng của các mô hình truy xuất minh chứng khác nhau và mô hình trích

XUAt CAU tra LOH 0N ố 93

4.4.2 Những ảnh hưởng của các khía cạnh ngôn ngữ tiếng Việt đến mô hình đọcIipi 95

4.4.3 Đánh giá ViReader trên những bộ ngữ liệu khác : -++s5++5s52 97

4.5 Kết luận €h0Tg 2-5 s£ s£ << S2 5£ 9£ 4 ESsE34 E3 3EE5 35 39 523253539595 see 100

ĐỘNG hacen ĐH P eo LIEB, , co ococoooooeeeseeeeoersee 102

5.1 Giới thiệu và động lực nghiên CUM - << << S5 5S 5S 55 55 2s.” 104

5.2 Mô hình hỏi đáp tiếng Việt đề xuất dựa trên đọc hiểu tự động 106

5.2.1 Các quy tắc tiền xử lý - s tt 12 121121121121121121 21111111 Eeree 107

5.2.2 Mô hình truy xuất văn bản - 2 s+Sx+EEtEE2E12E1271271711211211221 21 xe 1095.2.3 Mô hình đọc hiểu văn bản -::-©22¿222+22+E22EE 22122 EErrrrrrrrree 1155.2.4 Xếp hạng các câu trả lời ứng cử (Answer Re-ranker) -s scs-s+ 1205.3 Thử nghiệm và kết quả -. 2< s£ << 2£ s£ s£Ss£s£+s£Es£Es£xsessessessrsezsesse 121

5.3.1 Các bộ ngữ liệu thử nghiệm - - ¿22c 2221322112113 xE+ 121

5.3.2 Các thông số đánh giá - + s9 E2E12112E1271711211211211 211111111 xe 122

5.3.3 Thiết kế các thử nghiệm 2- 2 2+ 2+ SE+EE+EE£EE2EE2E122127171212211 21x 122

5.3.4 Môi trường thử nghiỆm c2 2 3 22111321113511 1 11191118 1118111 811g re 124

5.3.5 Các kết quả thử nghiệm 2-2 2s SE EEEE2E12E712212712112171 11111 re 1245.4 Phân tích kết quả thử nghiệm và thảo luận . -° s2 5c -s<s©s<¿ 130

1X

Trang 12

5.4.1 Các thành phần đóng góp vào mô hình hỏi đáp tiếng Việt đề xuất như thế

5.4.2 Các thông số của truy van văn bản và đọc hiểu văn bản dé chọn câu trả lời ảnhhưởng như thế nào đến mô hình hỏi đáp? - 2c 2 22 x+Ex££E££E£2E2E+zE+zrxered 131

5.4.3 Cac từ tiếng nước ngoài có ảnh hưởng như thé nào đến các mô hình ngôn ngữ

trong mô hình đọc hiểu tự động tiếng 1 1335.4.4 Độ dài văn ban tác động đến hiệu suất mô hình như thé nào? 135

5.4.5 Những dạng câu hỏi nào trong bộ ngữ liệu tiếng Việt thách thức đối với môhình hỏi đáp dé xuất2 - - 2: +Ss 2S‡EE9EE2E2112112712711171121121121111 1111 re 135

5.5 Két 0 r7 n6 138CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHÁT TRIÊN - 5-5 5° 5< < 140

108000: 8 140

6.1.1 Đóng góp thứ nhất: Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu chovăn bản tiếng ViỆ( s20 2c 21 1 111 112112112111 110121 1111111121211 1111 tre 1406.1.2 Dong góp thứ hai: Đề xuất mô hình đọc hiểu tự động tích hợp truy xuất minh

chứng cho văn bản tiếng VIiỆẲ 2-52 t2 222112E12712711211211211211 11112111 cyee 141

6.1.3 Đóng góp thứ ba: Đề xuất mô hình hỏi đáp tích hợp đọc hiểu tự động cho vănban tiếng Việt ch À.£ £ 141

6.2 Các hạn chế và các hướng phát triỄn 2-2 s se ssssssesessezsecse 141

6.2.1 Ngữ liệu cho đánh giá các mô hình đọc hiểu tự động . -+: 1426.2.2 Mô hình đọc hiểu và hỏi đáp tự động 2- 2 2+5++E£+EeEteEerzrrrered 143

6.2.3 Mở rộng ứng dụng của các mô hình đọc hiểu tự động - 145HOC BONG DAO TẠO TIẾN SĨ 2-5 5° se s2 EssExseEseEsetsetssessersersrrsee 147CONG BO KHOA HỌC 2- 222 se ©ss£EseEEseExeEEseEvsersstrsersserssrrsersseree 148

TÀI LIEU THAM KHẢO 5° 5° 525258 s£Ss£ S22 ESs£S3EEs£EseEseEssxsexsersersersee 149

Trang 13

DANH MỤC CÁC TỪ VIET TAT

Từ viết tắt Nội dung tiếng Anh Nội dung tiếng Việt

Từ viết tắt từ tiếng Anh

NLP Natural Language Processing Xử ly ngôn ngữ tự nhiên

AI Artificial Intelligence Tri tuệ nhân tao

NLU Natural Language Understanding Hiểu ngôn ngữ tự nhiên

MRC Machine Reading Comprehension Đọc hiểu tự động

QA Question Answering Hỏi đáp tự động

SE Search Engine Công cụ tìm kiếm

VA Virtual Assistant Tro ly ao

QG Question Generation Tao sinh cau hoi

NLI Natural Language Inference Suy luận ngôn ngữ tự nhiên

VLSP Vietnamese Language and Speech Hội thảo xử lý ngôn ngữ và giọng nói

Processing tiêng Việt

IE Information Extraction Rut trich thong tin

ML Machine Learning Hoc may

EM Exact Match Độ đo chính xác

BERT Bidirectional Encoder Representations | Biểu diễn bộ mã hóa hai chiều từ

from Transformers Transformers SAE Supervised Answer Extractor Bộ rút trích câu trả lời có giám sát

EE Evidence Extractor Bộ truy xuất minh chứng

LM Language Model Mô hình ngôn ngữ

POS Part-Of-Speech Nhãn từ loại

NER Named Entity Recognition Nhận dạng thực thể có tên

Từ viết tắt từ tiếng Việt

XI

Trang 15

DANH MỤC CAC BANG

Bảng 2.1 Các nghiên cứu đọc hiểu tự động nồi bật trước năm 2013 - se: lãi

Bảng 2.2 Các bộ ngữ liệu tiêu biểu cho đánh giá đọc hiểu tự động . 26

Bảng 3.1 Các bộ ngữ liệu đọc hiểu tự động trong văn bản tiếng VIỆt ccccSẰ 37 Bảng 3.2 Thống kê tong quan về bộ ngữ liệu đọc hiểu Wikipedia tiếng Việt 43

Bảng 3.3 Thống kê phân bố bộ ngữ liệu theo độ dài của câu hỏi và câu trả lời 43

Bảng 3.4 Thống kê phân bố bộ ngữ liệu theo độ dai bài đọc 2-2 25c: 44 Bảng 3.5 Phân bồ loại câu hỏi trên bộ ngữ liệu đọc hiểu Wikipedia tiéng Việt 45

Bang 3.6 Phân bố loại câu trả lời của bộ ngữ liệu đọc hiểu Wikipedia tiếng Việt 46

Bảng 3.7 Phân bồ loại suy luận trên bộ ngữ liệu đọc hiểu Wikipedia tiéng Việt 47

Bang 3.8 Một số ví dụ đọc hiểu trên tin tức sức khỏe tiếng Việt c5: 49 Bang 3.9 Những đặc trưng về mức độ khó của văn bản đọc hiểu -2- 5-52 51 Bảng 3.10 Tổng quan về bộ ngữ liệu doc hiéu tin tức sức khỏe tiếng Việt 52

Bang 3.11 Thống kê tốp từ vựng phô biến trên hai bộ ngữ liệu đọc hiểu tiếng Việt 53

Bang 3.12 Phân bố độ dài câu hỏi trên hai bộ ngữ liệu đọc hiéu tiếng Việt 54

Bang 3.13 Phân bố độ dai câu trả lời trên hai bộ ngữ liệu đọc hiểu tiếng Việt 54

Bảng 3.14 Phân bồ loại câu hỏi trên hai bộ ngữ liệu đọc hiểu trong văn bản Wikipedia và tin tức sức khỏe tiếng VIỆ( ¿52-1 19 2 1211211211121121121111111111121111111 1101 du 56 Bảng 3.15 Phân bố loại câu trả lời trên hai bộ ngữ liệu đọc hiểu trong văn bản Wikipedia và tin tức sức khỏe tiếng ViỆT 52 2 E1 1E E21211211211211711211211211211 111 re 56 Bảng 3.16 Một vài ví du minh hoa cho các mẫu ngữ liệu câu hỏi — câu trả lời trong văn bản Wikipedia tiếng ViỆP - 5c 1S ST 12 12111111211211111 1111121012111 1212 rrag 61 Bang 3.17 Cac phương pháp chuyên từ câu hỏi trả lời được sang câu hỏi không có câu trả lời trong văn ban Wikipedia tiếng ViỆt 2-52 2 21 E2 2222122121121 re 63 Bang 3.18 Thống kê tổng quan về bộ ngữ liệu đọc hiểu (bao gồm câu hỏi không trả lời được) trong văn ban Wikipedia tiếng ViỆt - 52-52 ST 2122121111111 te 6S Bang 3.19 Hiệu suất của các mô hình đọc hiểu trong văn ban Wikipedia tiếng Việt 66

Bảng 3.20 Hiệu suất của các mô hình theo độ dài văn bản trên bộ ngữ liệu đọc hiểu Wikipedia tiếng ViỆt 5-5252 21 2EEEE2122112112112111121121121121101112121101 1e 68 Bang 3.21 Hiệu suất của các mô hình đọc hiểu trên tin tức sức khỏe tiếng Việt 69

xiii

Trang 16

Bảng 3.22 Hiệu suất của các mô hình theo độ dài văn bản trên bộ ngữ liệu đọc hiểu tin tứcsức khỏe tiếng VIiỆt -2-52 55c S22E19E1921121121121127111111121121111111121111211 1111 ng 69

Bang 3.23 Hiệu suất của các mô hình hỏi đáp cấp độ tiếng Việt 2-5: 70

Bảng 3.24 Kết quả cuối cùng trên các tập phát triển và tập kiểm tra theo F; cao nhất của

ngữ liệu đọc hiểu Wikipedia tiếng ViỆT - 55c St E2 2112712712112 E111 re 89

Bang 4.3 Mức độ cải thiện của mô hình dé xuất (ViReader) so với các mô hình đọc hiệu

khác - #ÉÐ„⁄⁄ ,fcc À À ii 91

Bang 4.4 Hiệu suất của mô hình đọc hiéu hoàn chỉnh với các câu xếp hang cao nhất 92

Bảng 4.5 Thời gian thử nghiệm trên mô hình ViReader và người . - ‹- «- 93

Bảng 4.6 Kết quả (theo F1) của các mô hình truy xuất minh chứng khác nhau 94Bang 4.7 Kết quả (theo F1) của các mô hình trích xuất câu trả lời khác nhau trong văn ban

có kích thước K câu được truy vấn (K = I, , I2) -c-©++c++E++E+EtEEeEEeEerrkerrees 94Bảng 4.8 Hiệu suất của mô hình ViReader và các mô hình đọc hiểu khác trên các loại câu

O0 95

Bảng 4.9 Hiệu suất của mô hình ViReader và các mô hình đọc hiéu tự động khác trên loại

CAU tra LOL occ 1d 96

Bang 4.10 Hiéu suất của mô hình ViReader va các mô hình đọc hiểu tự động khác trên

các loại Suy Ìuận - - c + 2111211132111 11111111 111 1110111 H11 HH KH HH 97

Bang 4.11 Giới thiệu những bộ ngữ liệu đọc hiểu trong tiếng Việt và các ngôn ngữ khác

(tiếng Trung và tiếng Anh) -2-5- 252 S22EESEEEEEEEE21121121127111711211211211211111 1 cre 97

Bảng 4.12 Độ chính xác EM và F: của mô hình đọc hiểu đề xuất và các mô hình khác trênnhiều bộ ngữ liệu khác nhau - - c 3221832118333 83911 83911119111 1911 1181118811 E1 ng nrệp 99

Bang 5.1 Các hệ thống hỏi đáp tự động tiếng Viét eee ceccesesesessesseestesteseseeeeees 102Bang 5.2 Các kết quả trên các mô hình truy xuất văn bản . 2-2 s+cxscse+z 124

XIV

Trang 17

Bảng 5.3 Các kết quả trên các mô hình đọc hiểu tự động cho văn bản tiếng Việt 126Bảng 5.4 Hiệu suất các mô hình hỏi đáp tiếng Việt trên hai bộ ngữ liệu dựa trên Wikipedia

và một bộ ngữ liệu dựa trên tin tức sức khỏe . 5 S251 3+2 E+seEEsseersesreres 127

Bảng 5.5 Phân tích lược bỏ các thành phần đóng góp của mô hình truy xuất văn bản đề0 130

Bảng 5.6 Phân tích loại bỏ các thành phan đóng góp của mô hình đọc hiểu và mô hình hỏiđáp để XuẤt c-cc c1 1 2112112112111 11 1121 1 111 1212121111121 111 grrrreg 131

Bang 5.7 Các từ tiếng nước ngoài tác động đến các mô hình đọc hiéu tự động tích hop

0500014 133

Bang 5.8 Phân tích kết quả theo loại câu hỏi trên đọc hiểu tự động Wikipedia tiếng Việt

XV

Trang 18

DANH MỤC CÁC HÌNH

Hình 1.1 Đọc hiểu tự động trong trí tuệ nhân tạO - c2 12.112 12 1 xxexrree 2Hình 1.2 Hệ thống hỏi đáp dựa trên mô hình đọc hiểu 2: 2522522 2+E££x+£+z£sz2 3Hình 1.3 Một kết qua tìm kiếm trên công cụ tìm kiếm Google (thời gian truy cập: ngày

J8 A3) 4

Hình 1.4 Cấu trúc các chương chính của luận án 2-2 2S E+E+EE2E£+EerEerxerszreee 7Hình 2.1 Lịch sử đọc hiểu tự động sơ lược từ 1977 đến 0 10Hình 2.2 Mô hình học chuyên tiếp tích hợp mô hình ngôn ngữ BERTology (dựa trên BERT

P0 — Ÿ .š‡ẽš .Ầ 18

Hình 2.3 Phương pháp tiếp cận các bài toán NLP theo học chuyên tiếp được sử dụng cho

các ngôn ngữ it tài nPUYÊN - c1 120112111211 1111 11111111 110111111 111111 E1 HH TH Hà Hư 20

Hình 2.4 Hai hướng tiếp cận đo độ tương đồng dựa trên mô hình ngôn ngữ BERT 23Hình 2.5 Các mô hình hỏi đáp truyền thống và hiện đại -2- 2:55 552252+£z+csd 28

Hình 2.6 Mô hình hỏi đáp dựa trên đọc hiểu tự đỘng - - St S Si eerke 30 Hình 3.1 Dong góp các bộ ngữ liệu cho đọc hiểu tự động tiếng Việt 36

Hình 3.2 Minh hoạ câu hỏi cho đọc hiệu trong văn bản Wikipedia tiếng Viét 39Hình 3.3 Quy trình xây dựng bộ ngữ liệu đọc hiểu tự động Wikipedia tiếng Việt 40Hình 3.4 Công cụ tạo ngữ liệu đọc hiểu trên văn bản tiếng 'VIỆT ĂẶ S2 42Hình 3.5 Phân bố độ dài bai đọc trong văn bản Wikipedia và tin tức sức khỏe tiếng Việt

Hình 3.6 Một vài ví dụ về đọc hiểu tự động cấp độ câu cho văn bản tiếng Việt 57Hình 3.7 Phân bố các loại câu hỏi và từ hỏi trên tập phát triển và tập kiểm tra của bộ ngữliệu đọc hiểu Wikipedia tiếng ViỆt - ¿55-222 21221 2112712112211211221121121111 c1 re 60Hình 4.1 Quá trình đọc hiểu với quá trình rút trích những câu minh chứng 79Hình 4.2 Tổng quan về kiến trúc của mô hình đọc hiéu ViReader bao gồm hai thành phanchính: mô hình truy xuất minh chứng va mô hình trích xuất câu trả lời - 80Hình 4.3 Quá trình ước lượng điểm dựa trên mức độ ngữ nghĩa tương đồng giữa câu hỏi

90v ì0 0i 00, '''.'^'^'.-.'-'-.-.-' 83

Hình 4.4 Thành phan rút trích câu trả lời của mô hình đọc hiểu ViReader là được xây dựng

dựa trên mô hình ngôn ngữ XLLM-R - c1 22 321112113511 25115111211 1111111111 11k ky 84

XVI

Trang 19

Hình 4.5 Lỗi (Error) của hai mô hình truy xuất minh chứng (BM25 và STR) đối với các

câu hỏi dựa trên so khớp từ (Word Matching) và không so khớp từ ( Non-Word Matching).

Hình 4.6 Kết quả của mô hình đọc hiểu ViReader và các mô hình đọc hiểu khác trong vănbản Wikipedia tiếng ViỆt - SG St E22 1221271221212112112110111121121221 212111 ere 90

Hình 5.1 Tổng quan về mô hình hỏi đáp bao gồm ba thành phân chính: truy xuất văn bản,đọc hiểu văn ban và xếp hạng các ứng cử câu trả lời 2-2 2+szxe£xz£zrzxred 107Hình 5.2 Mô hình truy xuất văn bản ViDR của mô hình hỏi đáp đề xuất ViQAS bao gồm

bộ tiền truy xuất văn bản, mô hình truy xuất minh chứng và bộ tái xếp hạng văn bản 109Hình 5.3 Mô hình dựa trên Sentence Transformer cho bài toán ước tính độ tương đồnggiữa câu trả lời và câu hỏi về ngữ nghĩa 2-5 St E2 2E EEEEE2121121121 111111 re, 112Hình 5.4 Mô hình đọc hiểu văn bản của ViQAS với một câu hỏi đầu vào đã được xử lybởi các quy tắc và các văn bản liên quan được tóm tắt bởi mô hình truy xuất minh chứng

ỀỄ ¿CC 7> ẽ>x" 115

Hình 5.5 Hiệu quả mô hình theo số lượng văn bản truy xuất được trên các văn bản

Wikipedia tiếng VIỆ( ¿5c 1 1 122112 1211211 11211 2112112101212 errreg 125

Hình 5.6 Hiệu quả mô hình theo sỐ lượng văn bản truy xuất được trên các văn bản tin tứcU11 A s: PRENNANỚA (ẢnG ca na“ 125Hình 5.7 Ảnh hưởng của giá trị œ đến mô hình truy van văn bản của ViQAS 132Hình 5.8 Anh hưởng của giá trị B đến mô hình hỏi đáp ViQAS - 132Hình 5.9 Độ dài văn bản tác động đến kết quả mô hình trên các bộ ngữ liệu hỏi đáp tiếng

2 134

Hình 6.1 Ứng dụng trợ lý ảo và Chatbot với mô hình đọc hiểu tiếng Việt 146

XVII

Trang 20

DANH MỤC CÁC THUẬT TOÁN

Thuật toán 3.1 Quá trình chuyên đổi tự động câu trả lời cấp độ chuỗi sang cấp độ câu

Thuật toán 4.1 Mã giả cho mô hình truy xuất minh chứng dé trích xuất K câu có liên quannhất dựa trên câu hỏi Q và văn bản D ¿- St Sex EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrkrkrrerg 81

Thuật toán 5.1 Tiền xử lý câu hỏi trước khi đưa vào các thành phan còn lại của mô hình

089502975177 108

Thuật toán 5.2 Chuyển các mẫu trong bộ ngữ liệu đọc hiểu tự động sang các cặp tươngđồng giữa câu hỏi — câu chứa câu trả lời trong bộ ngữ liệu mới -:- ¿5+ 111Thuật toán 5.3 Huấn luyện bài toán tương đồng giữa câu hỏi - câu có kha năng chứa câu

Thuật toán 5.4 Truy van K câu từ văn bản D liên quan đến câu hỏi Q và cập nhật chỉ số

bat dau cho 7:71 00777 118

Thuật toán 5.5 Tiền xử lý và huấn luyện mô hình rút trích câu trả lời 119

XVili

Trang 21

CHƯƠNG 1: TONG QUAN

Tổng quan về luận án được NCS trình bày trong Chương 1 Đầu tiên, NCS trình bày

động lực nghiên cứu của luận án trong Mục 1.1 Các đóng góp chính trong luận án được

NCS mô tả trong Mục 1.2 Tiếp theo, NCS giới thiệu mục đích, đối tượng va phạm vi

nghiên cứu trong Mục 1.3 và ý nghĩa khoa học và thực tiễn của luận án trong Mục 1.4.

Cuối cùng, NCS giới thiệu tổng quan về bố cục của luận án trong Mục 1.5

1.1 Động lực nghiên cứu

Hiểu ngôn ngữ tự nhiên (NLU) đóng vai trò quan trọng trong sự phát triển của trí tuệnhân tao (AJ), bao gồm nhiều bài toán như suy luận ngôn ngữ tự nhiên, đọc hiểu tự động,hỏi đáp tự động và tóm tắt văn bản Trong những năm gan đây, một bài toán quan trọng và

đầy thách thức là đọc hiéu tự động (MRC) [1], thu hút được sự quan tâm lớn của cộng đồng

nghiên cứu xử lý ngôn ngữ tự nhiên (NLP) Luận án này giải quyết bài toán trọng tâm hiểungôn ngữ tự nhiên là đọc hiéu tự động trong văn bản tiếng Việt (Hình 1.1) Cụ thể, NCStập trung vào các văn bản tiếng Việt (một ngôn ngữ có ít tài nguyên cho phát triển và đánhgiá các mô hình trong xử lý ngôn ngữ tự nhiên [2, 3]), là nhiệm vụ huấn luyện cho máytính có thé đọc hiểu một văn bản và sau đó trả lời các câu hỏi liên quan hoàn toàn bằngngôn ngữ tự nhiên Bài toán đọc hiểu tự động tiếng Việt quan trọng vì một số lý do chính:(1) đọc hiểu tự động giúp cộng đồng nghiên cứu đánh giá được quá trình phát triển củahiểu ngôn ngữ tự nhiên (NLU) trong tiếng Việt; (2) phát triển và ứng dụng các mô hình

đọc hiểu tự động vào các ứng dụng thực tế như hỏi đáp tự động (Question Answering),

công cụ tìm kiếm (Search Engine) và trợ lý ảo (Virtual Assistant) trong tiếng Việt; và (3)đặc biệt, tiếng Việt là ngôn ngữ ít tài nguyên (ngôn ngữ có ít các bộ dữ liệu có kích thước

lớn và chất lượng được công bé rộng rãi và phục vụ cho nghiên cứu) cần được khám phá

và nghiên cứu trong NLP nhiều hơn

Trang 22

Hình 1.1 Đọc hiểu tự động trong trí tuệ nhân tạo.

Trong hơn một thập kỷ qua, đọc hiểu tự động đã có nhiều bước tiễn trong việc xây dựngcác bộ ngữ liệu có kích thước lớn, chất lượng cao và cũng như các nghiên cứu về các mô

hình dựa trên các thuật toán học sâu và các MHNN Trọng tâm của luận án này là nghiên

cứu đọc hiểu tự động tiếng Việt Cụ thể, NCS tập trung đề xuất các bộ ngữ liệu và các mô

hình MRC tiếng Việt Về phát triển các bộ ngữ liệu, NCS đề xuất các bộ ngữ liệu đọc hiểu

tự động tiếng Việt: miền mở (các văn bản trên Wikipedia) và miền đóng (các văn bản tin

tức về sức khỏe) Về nghiên cứu các mô hình, NCS đề xuất và thử nghiệm các phươngpháp đọc hiểu tự động và hỏi đáp tự động tiếng Việt

Đọc hiểu tự động [4], hay khả năng đọc văn bản và sau đó hiểu dé tra lời các câu hỏiliên quan đến văn bản, là một nhiệm vụ day thách thức đối với máy tính, yêu cầu cả hiểungôn ngữ tự nhiên và tri thức về thế giới Đọc hiểu tự động có quá trình phát triển lâu dài

từ đầu những năm 1970 Cụ thể, Charniak và cộng sự (1972) [5] đã đề xuất một mô hình

cơ ban dé trả lời các câu hỏi liên quan về các mau chuyện dành cho trẻ Lehnert và cộng

sự (1977) [6] đánh giá việc hiểu ngôn ngữ tự nhiên thông qua việc trả lời các câu hỏi liênquan đến các văn bản Tuy nhiên, do tính chất phức tạp và đầy thách thức, các nghiên cứu

về đọc hiểu tự động bị hạn chế và chủ yếu dựa trên các quy tắc được xây dựng một cáchthủ công [5, 7] Cho đến năm 2013, Richardson và cộng sự (2013) [8] đã định nghĩa bài

toán đọc hiểu tự động dưới dạng nhiệm vụ học máy giám sát đầu tiên thay vì dựa trên cácquy tắc thủ công, mở ra một hướng tiếp cận mới và ảnh hưởng đến các nghiên cứu đọchiểu tự động cho đến nay Đặc biệt, đọc hiểu tự động đã phát triển rất nhanh chóng trêncác bộ ngữ liệu và các mô hình học máy từ sau khi bộ ngữ liệu nỗi tiếng SQUAD có kíchthước lớn và chất lượng được đề xuất bởi Rajpurkar và cộng sự (2016) [4] Bộ ngữ liệuSQuAD đã tạo cảm hứng cho NCS trong việc phát triển và xây dựng ngữ liệu đọc hiểu tự

2

Trang 23

động tiếng Việt cho các nghiên cứu trong đề tài luận án Những thành công của các môhình MRC trong hơn một thập kỷ qua là do sự phát triển rất nhanh của nhiều bộ ngữ liệukích thước lớn, chất lượng cao và cũng như sự phát triển nhanh của các phương pháp học

máy dựa trên các kiến trúc học sâu và kiến trúc Transformer Thêm vào đó, đọc hiểu tự

động là thành phần cốt lõi của các mô hình hỏi đáp hiện đại, mở ra hướng tiếp cận mới củahỏi đáp tự động trong hơn một thập kỷ qua Cụ thể, Chen và cộng sự (2017) [9] đã đề xuấtDrQA, mô hình QA gồm hai thành phan chính: mô hình truy xuất văn bản (Retriever) và

mô hình đọc hiểu (Reader) (xem Hình 1.2) Từ đó, nhiều CTNC hỏi đáp dựa trên các mô

hình của đọc hiểu tự động được khám phá và phát triển như BERTserini [10] và ORQA

[11].

_ ZG——

Câu hỏi: Tha tướng đầu tiên Mô hình QA Câu trả lời:

của Việt Nam là ai? Nguồn tri thức Retriever-Reader Pham Văn Đồng

Hình 1.2 Hệ thống hỏi đáp dựa trên mô hình đọc hiểu

Trong luận án này, NCS tập trung (1) nghiên cứu và xây dựng các bộ ngữ liệu phục vụ

cho nghiên cứu đọc hiểu và hỏi đáp tự động cho ngữ liệu tiếng Việt; (2) các mô hình MRCdựa trên các MHNN, cụ thê nghiên cứu xây dựng các thành phần chính của các mô hình

đọc hiểu tự động tiếng Việt; (3) áp dụng mô hình đọc hiểu có độ chính xác cao như một

công nghệ nền tảng cốt lõi vào các ứng dụng hỗ trợ tìm kiếm thông tin như mô hình hỏi

dap tự động Đọc hiểu tự động đã được áp dụng trong nhiều ứng dụng thực tế Ví dụ, ngày

nay chúng ra có thê nhập vào một câu truy vấn trên Google “Có bao nhiêu sinh viên tạiĐại học Quốc gia TP.HCM?” (Hình 1.3), Google không những trả về danh sách các siêuvăn bản có thê chứa câu trả lời mà còn trả về những câu trả lời chính xác được In đậm vàhiển thị lên đầu của danh sách các kết quả tìm kiếm Đọc hiểu tự động có thể hỗ trợ các

mô hình tìm kiếm thông tin ngày càng thông minh hon bằng cách làm nổi bật kết quả cụthé Đặc biệt, các mô hình MRC có thé thúc đây sự phát triển khả năng đọc hiểu văn bản

của các trợ lý ảo như Alexa của Amazon, Siri của Apple, Google Assistant của Google va Cortana của Microsoft Luận án này thực hiện theo hai định hướng nghiên cứu chính: (1)

3

Trang 24

xây dựng ngữ liệu dé đánh giá các mô hình đọc hiểu và hỏi đáp tự động tiếng Việt và (2)

đề xuất các mô hình đọc hiểu và hỏi đáp tự động tiếng Việt

Có bao nhiêu sinh viên tại ĐHQG TP.CM? xẻ m ea

OTấtcả ƒ8Tintức (g]Hinhảnh [Video [Sách : Thêm Công cụ

Khoảng 11.600.000 kết quả (O,43 giây)

Hiện nay, quy mô đào tạo chính quy (bao gồm

các chương trình đại học và sau đại học) của

Đại học Quốc gia Thành phố Hồ Chí Minh là hơn

76.000 sinh viên chính quy (trong đó có hơn

8.000 học viên cao học và nghiên cứu sinh) với:

1ó5 ngành đào tạo bậc đại học.

Wikipedia

https://vi.wikipedia.org › wiki» Đại học Quốc gia Thà ‡

Đại học Quốc gia Thành phố Hồ Chí Minh — Wikipedia tiếng Việt

Ww

Hình 1.3 Một kết quả tim kiếm trên công cu tim kiếm Google (thời gian truy cập: ngày

28/11/2023).

1.2 Cac đóng góp chính

Đề giải quyết các thách thức trong nghiên cứu đọc hiéu tự động cho văn bản tiếng Việt,

luận án có ba nội dung đóng góp chính:

«_ Nội dung thứ nhất - Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu cho văn

bản tiếng Việt: Trong Nội dung thứ nhất, luận án tập trung vào xây dựng các bộ ngữliệu cho tiếng Việt (Tiếng Việt là một ngôn ngữ có ít các ngữ liệu cho việc phát triển vàđánh giá các thuật toán học máy trong AI và NLP) Cụ thể, NCS đã nghiên cứu và xây

dựng các bộ ngữ liệu tiếng Việt: ViQuAD (phiên bản 1.0 và phiên bản 2.0), ViNewsQA và UIT-ViWikiQA nhằm thúc đây phát triển và đánh giá các mô hình MRC

UIT-dựa trên các kiến trúc học sâu và các MHNN Các bộ ngữ liệu này đã được trình bàytrong Chương 3 và được công bố tai các tạp chí và hội nghị với các công trình: [CT1],

[CT4] [CT5] và [CT6].

Trang 25

«Nội dung thứ hai - Đề xuất mô hình đọc hiểu tiếng Việt tích hợp MHNN với truy

xuất minh chứng: Trong Nội dung thứ hai, kế thừa từ các kết quả thử nghiệm đầu tiên

đã đạt được trên các bộ ngữ liệu trong Nội dung thứ nhất, luận án xây dựng, thiết kế và

triển khai các phương pháp đọc hiểu tự động sử dụng các MHNN dựa trên kiến trúc

Transformer và truy xuất minh chứng, với mô hình được đề xuất là ViReader Thêm vào

đó, NCS nghiên cứu và mở rộng đánh giá, so sánh với các mô hình đọc hiểu tiên tiếnkhác dé hiểu hơn về mô hình đọc hiểu ViReader trên nhiều bộ ngữ liệu khác nhau Môhình đọc hiểu đề xuất ViReader hiệu quả không những trong tiếng Việt mà còn trên cảvăn bản tiếng Anh và tiếng Trung Bên cạnh đó, mô hình ViReader+ được đánh giá mởrộng với truy xuất minh chứng học có giám sát Các khám phá này đã được trình bàytrong Chương 4 và một phần trong Chương 5 Các đóng góp nghiên cứu về ViReader

và ViReader+ được công bố tại các tạp chí với các công trình: [CT2] và [CT3]

« Nôi dung thứ ba - Xây dựng phương pháp hỏi đáp tiếng Việt tích hợp đọc hiểu tự

động: Trong Nội dung thứ ba, kế thừa từ các kết quả thử nghiệm đầu tiên đã đạt đượctrên các bộ ngữ liệu trong Nội dung thứ nhất, luận án xây dựng, thiết kế và triển khai

mô hình hỏi đáp dựa trên những đóng góp nghiên cứu của mô hình đọc hiểu ViReader(trong Nội dung thứ hai) dé đề xuất các mô hình QA tiếng Việt: XLMRQA và ViQAS.Các khám phá này đã được trình bày trong Chương 5 Các đóng góp nghiên cứu vềXLMRQA và VIQAS được công bồ tại các tạp chí và hội nghị với các công trình: [CT3]

và [CT7].

1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu

Mục tiêu: Dé có thé nghiên cứu và triển khai mô hình MRC tiếng Việt, mục tiêu đầu tiên

(Mục tiêu 1) ma NCS phải thực hiện là nghiên cứu và xây dựng các bộ ngữ liệu Mục tiêu

tiếp theo (Mục tiêu 2) là nghiên cứu các phương pháp đọc hiểu tự động đạt được độ chínhxác cao cho văn bản tiếng Việt Thêm vào đó, NCS muốn áp dụng các mô hình MRC dé

nâng cao hiệu quả các mô hình QA tiếng Việt (Mục tiêu 3) Các mục tiêu có sự liên kết

chặt chẽ với nội dung chính của các chương trong luận án (xem Hình 1.4).

Đối tượng: NCS thực hiện bai toán đọc hiểu tự động tiếng Việt.

Trang 26

Pham vi: Nghiên cứu này được giới hạn trên đọc hiéu tự động có câu trả lời được rút trích trực tiép từ văn bản tiêng Việt trên cả miên mở (các bài việt trên Wikipedia tiêng Việt) và miên đóng (các tin tức vê sức khỏe).

1.4 Ý nghĩa khoa học và thực tiễn

e Nghiên cứu và đề xuất các bộ ngữ liệu cho nghiên cứu đọc hiểu tiếng Việt: NCS đã

đề xuất các bộ ngữ liệu có kích thước lớn và chất lượng cao thông qua các quy trình xây

dựng ngữ liệu nghiêm ngặt Đề hiểu rõ đặc điểm các bộ ngữ liệu này, NCS tiến hànhphân tích đặc điểm của các bộ ngữ liệu theo các khía cạnh ngôn ngữ khác nhau Thêm

vào đó, NCS cũng tiến hành thử nghiệm nhiều phương pháp học máy tiên tiền như nhữngphương pháp cơ sở ban đầu dé so sánh với các mô hình đọc hiểu tự động được nghiên

cứu trong tương lai Từ những đóng góp này, NCS tiếp tục có những đóng góp cho cộngđồng nghiên cứu NLP tiếng Việt bằng cách mở rộng đánh giá các mô hình MRC tiếng

Việt tại VLSP 2021 NCS đã cung cap cho cộng đồng sử dụng một bộ ngữ liệu đầy thách

thức với nhiều nhóm tham gia đến từ các trường đại học và các doanh nghiệp uy tín.Những thách thức này đã thúc đây nhiều nghiên cứu về các bộ ngữ liệu và mô hình trongđọc hiểu và hỏi đáp tự động trên dữ liệu văn bản tiếng Việt

e Nghiên cứu và đề xuất các phương pháp đọc hiểu và hỏi đáp tự động cho ngữ liệu

tiếng Việt: Kế thừa từ các kết quả thử nghiệm đầu tiên đã đạt được trên các bộ ngữ liệu

đã đề xuất, luận án thiết kế và đề xuất mô hình đọc hiểu và hỏi đáp tự động tiếng Việt

Đầu tiên, NCS đã đề xuất ViReader, một phương pháp đọc hiểu tự động tiếng Việt tíchhợp MHNN và truy xuất minh chứng Tiếp theo, NCS đã đề xuất XLMRQA, một môhình QA đầu tiên dựa trên các mô hình đọc hiểu tự động tiếng Việt Cuối cùng, dựa trênthành công của ViReader và XLMRQA, NCS đã đề xuất ViQAS, một mô hình hỏi đáptiếng Việt tận dụng sức mạnh của các MHNN với truy xuất minh chứng

e Các đóng góp nghiên cứu của nghiên cứu sinh có thé thúc day sự phát triển nhiều

nhiệm vụ nghiên cứu khác của hiểu ngôn ngữ tự nhiên tiếng Việt: đọc hiéu tự động,

hỏi đáp trong văn bản, hỏi đáp trực quan, hỏi đáp trên nội dung bảng và tạo sinh câu hỏi

— câu trả lời Những kết quả khả quan có thể áp dụng vào các ứng dụng thực tế, ví dụ

như các hệ thống hỏi đáp hoặc trợ lý ảo trong văn bản luật hoặc trong văn bản sức khỏe

Trang 27

1.5 Bo cục luận án

Luận án được tô chức thành 06 Chương, các công trình khoa học công bố và tài liệu

tham khảo Các đóng góp chính được tô chức trong các chương chính: Chương 3, Chương

4 và Chương 5, được trình bày trong Hình 1.4.

Chuong3 t > Chương4 =t > Chương Š

Lị Xây dựng ngữ liệu Lị Mô hình đọc hiểu Lị Mô hình hỏi đáp

Hình 1.4 Cau trúc các chương chính của luận an.

Nội dung của các chương được tóm tắt như sau:

Chương 1 - Tong quan về luận án: NCS trình bày tổng quan về luận án cũng như kháiquát về các hướng tiếp cận phô biến trong đọc hiểu tự động hiện nay Từ đó, NCS chỉ ra

các hạn chế cần phải giải quyết các đối tượng cũng như phạm vi nghiên cứu được xác định

Các đóng góp chính được chia thành 03 nội dung chính và được thực hiện trong các giai

đoạn khác nhau của luận án Cụ thể, các đóng góp cho mỗi nội dung nghiên cứu được trìnhbày trong các Chương 3 (về xây dựng ngữ liệu đọc hiểu tự động tiếng Việt), Chương 4 (về

mô hình đọc hiểu tự động tiếng Việt) và Chương 5 (về mô hình hỏi đáp tiếng Việt tích hopđọc hiểu tự động)

Chương 2 - Cơ sở lý thuyết và các công trình nghiên cứu liên quan: NCS trình bàytong quan về nền tang lý thuyết của đọc hiểu tự động va áp dung các mô hình MRC vào

7

Trang 28

các mô hình QA, tập trung chuyên sâu về nghiên cứu xây dựng ngữ liệu và phát triển cácthuật toán học máy cho đọc hiểu và hỏi đáp tự động NCS giới thiệu lịch sử hình thành vàphát triển của các mô hình phổ biến trong đọc hiểu tự động và hỏi đáp tự động Thêm vào

đó, những nghiên cứu của NCS trình bày những đóng góp mới so với các nghiên cứu liên

quan trong lĩnh vực đọc hiểu và hỏi đáp tự động

Chương 3 - Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu: NCS trình bày

việc thu thập và xây dựng các bộ ngữ liệu để đọc hiểu và hỏi đáp tự động tiếng Việt Bên

cạnh đó, NCS cũng tiễn hành đánh giá các mô hình MRC tiên tiễn trên các bộ ngữ liệu.Hon thé nữa, NCS đã phân tích các kết quả thử nghiệm theo các khía cạnh ngôn ngữ khácnhau dé hiểu hơn về các mô hình MRC tiếng Việt

Chương 4 - Mô hình đọc hiểu tiếng Việt tích hợp các mô hình ngôn ngữ và truyxuất minh chứng: NCS đề xuất một mô hình đọc hiểu tự động cho các văn bản tiếng Việttích hợp các MHNN dựa trên kiến trúc Transformer và tích hợp các mô hình truy xuất minhchứng dé nâng cao hiệu quả của các mô hình MRC cho văn bản tiếng Việt Qua các thửnghiệm, NCS đã chứng minh mô hình đề xuất phù hợp và hiệu quả trên các bộ ngữ liệutiếng Việt

Chương 5 - Mô hình hỏi đáp tiếng Việt tích hợp đọc hiểu tự động: Từ kết quả củacác bộ ngữ liệu và các mô hình MRC trong Chương 3 và Chương 4, NCS đề xuất mô hình

QA mới cho các văn bản tiếng Việt dựa trên các MHNN lớn và tích hợp các mô hình rúttrích các minh chứng đề nâng cao hiệu quả của các mô hình hỏi đáp tự động trên nhiều bộngữ liệu tiếng Việt

Chương 6 - Kết luận và hướng phát triển: Cuối cùng, NCS trình bày tóm tắt các kết

quả và đóng góp quan trong cua đề tài luận án “Nghiên cứu xây dựng mô hình đọc hiểu tựđộng cho văn bản tiếng Việt” Từ những hạn chế của các nghiên cứu, NCS cũng trình bàynhững định hướng phát triển của đọc hiéu và hỏi đáp tự động tiếng Việt trong thời gian tới

Các TLTK và các công trình công bố khoa học: Danh sách các công bố khoa học va

tài liệu tham khảo đã sử dụng và được trình bày trong phần cuối của luận án

Trang 29

CHUONG 2: CƠ SỞ LÝ THUYET VA CÁC CÔNG TRÌNH NGHIÊN CỨU

LIÊN QUAN

Những nội dung lý thuyết trong đọc hiểu tự động và tích hợp đọc hiểu tự động vào các

mô hình hỏi đáp được trình bày trong Chương 2 Từ đó, NCS nhận thấy các vấn đề vàthách thức còn tồn tại cũng như động lực và mục tiêu của việc thực hiện luận an Cụ thé,NCS trình bày lich sử phát triển của doc hiểu tự động (Mục 2.1), định nghĩa bài toán nghiên

cứu (Mục 2.2), các thông số đánh giá (Mục 2.3), hỏi đáp dựa trên đọc hiểu tự động (Mục

2.4), các bộ ngữ liệu liên quan (Mục 2.5), các phương pháp liên quan (Mục 2.6) và những

thách thức trong việc phát triển đọc hiéu và hỏi đáp tự động tiếng Việt (Mục 2.7)

2.1 Lịch sử đọc hiểu tự động

Xử lý ngôn ngữ tự nhiên (Natural Language Processing — NLP) đã chứng kiến lịch sử

hình thành và phát triển lâu dai qua gần năm thập kỷ của đọc hiểu tự động (Hình 2.1) Đọc

hiểu tự động (Machine Reading Comprehension - MRC) là phương pháp dé đánh giá mức

độ hiểu văn ban của máy tính [6], thuộc lĩnh vực hiéu ngôn ngữ tự nhiên (Natural LanguageUnderstanding - NLU), gắn liền với sự phát triển của hỏi đáp tự động (Question

Answering), rút trích thông tin (Information Extraction) va học may (Machine Learning).

Dé hiểu ngôn ngữ tự nhiên, các nhà nghiên cứu (NNC) xử ly ngôn ngữ tự nhiên đã thựchiện và đánh giá nhiều nhiệm vụ nghiên cứu trong thời gian qua: (1) Những vấn đề cơ bảnnên tảng trong xử lý ngôn ngữ bao gồm việc tách từ, gán nhãn từ loại, phân tích cú pháp,gán nhãn thực thể và mô hình ngôn ngữ; và (2) xây dựng các ứng dụng NLP (phân loại vănbản, phân tích cảm xúc, đọc hiểu tự động và hỏi đáp tự động) Dé đánh giá mức độ hiểumột văn bản sâu hơn, đọc hiểu tự động yêu cầu máy tính phải hiểu một bài đọc (văn bản)

và dự đoán câu trả lời cho các câu hỏi liên quan đến bài đọc đó [4] Đọc hiểu tự động là

một bài toán được cộng đồng nghiên cứu NLP quan tâm với những nguyên nhân chính sau:

(1) các bộ ngữ liệu chất lượng và kích thước lớn được công bố cho đánh giá và phát triểncác mô hình đọc hiểu tự động dựa trên học máy, đặc biệt trên các ngôn ngữ giàu tài nguyên(ngôn ngữ có nhiều các bộ dữ liệu có kích thước lớn và chất lượng được công bồ rộng rãi

và phục vụ cho nghiên cứu) như tiếng Anh và (2) sự phát triển của các mô hình đọc hiểu

dựa trên kiên trúc nơ-ron và MHNN cùng với khả năng tính toán của máy tính.

9

Trang 30

Bảng 2.1 trình bày tổng quan về các nghiên cứu đọc hiểu tự động nổi bật của giai đoạnphát triển đầu của đọc hiểu tự động Định nghĩa đọc hiểu tự động (MRC) [6] xuất hiện đầutiên trong nghiên cứu của Lehnert vào năm 1977 Cụ thé, Lehnert [6] đã đề xuất mô hìnhQUALM gồm bốn giai đoạn: phân loại khái niệm, phân tích suy luận, đặc tả nội dung và

phương pháp truy xuất dựa trên heuristics, dé đọc hiểu những mau chuyện và trả lời những

câu hỏi liên quan đến những mau chuyện này QUALM [6] cho thay tầm quan trọng vềngữ cảnh của mau chuyện trong dự đoán câu trả lời cho các câu hỏi va cũng như đưa ranhững khái niệm đầu tiên trong hiểu ngôn ngữ tự nhiên Nhìn chung, với những hạn chế

về ngữ liệu và khả năng tính toán của máy tính, các mô hình thực tế tại thời điểm này đượcxây dựng với quy mô nhỏ và bị giới hạn trong tập các quy tắc được xây dựng thủ công vàkhông phủ hết trên nhiều miền ngữ liệu khác nhau Đặc biệt, các mô hình đọc hiểu đầu tiên

được nghiên cứu hoàn toàn trên các ngôn ngữ giàu tài nguyên như tiếng Anh và cho đến

bây giờ, tiếng Anh vẫn là ngôn ngữ có số lượng công trình nghiên cứu xử lý ngôn ngữ tự

nhiên nhiêu nhât.

Hội thảo đọc hiểu

tự động đầu tiên

I31pltxxti ChatGPT

Do sự phức tạp và bản chất đầy thách thức của hiểu ngôn ngữ tự nhiên, hầu như không

có công trình nghiên cứu (CTNC) nao về đọc hiểu tự động trong hơn hai thập ky từ năm

1977 Đến mãi cuối những năm 1990, Hirschman và cộng sự (1999) [12] đã khởi động lạicác nghiên cứu đọc hiểu tự động với bộ ngữ liệu bao gồm 60 mau chuyén cho tap phat trién

và 60 mau chuyện cho tập kiểm tra trên các văn ban từ lớp 3 đến lớp 6, chủ yếu là các câuhỏi ngắn về Ai (Who), Cái gì (What), Khi nào (When), Ở đâu (Where) và Tại sao (Why).Bài toán nghiên cứu này chỉ yêu cầu các mô hình đọc hiểu mau chuyện và sau đó, tìm một

câu có chứa câu trả lời đúng cho câu hỏi có liên quan đến mau chuyện này Ngay sau đó,

một chuỗi các nghiên cứu về đọc hiểu tự động được trình bày tại Hội thảo quốc tế NAACL năm 2000 - Bài kiểm tra đọc hiểu dé đánh giá hệ thống hiểu ngôn ngữ trên máy

ANLP-10

Trang 31

tính [13] Trong giai đoạn này, các mô hình được phát triển dựa trên các phương pháp tiếp

cận túi từ (Bag-Of-Words) và dựa trên so khớp mẫu (Pattern Matching) kết hợp với quá

trình xử lý ngôn ngữ cơ bản như xử lý gốc từ, nhận dạng lớp ngữ nghĩa và đồng tham chiếutrong mô hình DEEP READ (Hirschman và cộng sự, 1999) [12] Mô hình QUARC tiếpcận theo phương pháp dựa trên các quy tắc được tạo thủ công về sự tương đồng từ vựng

và ngữ nghĩa (Riloff và Thelen, 2000) [7] Charniak và cộng sự (2000) [14] đề xuất nhiềuphương pháp kết hợp với nhiều cách xử lý khác nhau của DEEP READ và QUARC để đạtkết quả tốt hơn so với hai mô hình riêng lẻ này Nhìn chung, các mô hình này dự đoán câu

trả lời đúng với độ chính xác đạt được từ 30-40%, một kết quả khá khiêm tốn và đầy thách

thức cho hiểu ngôn ngữ tự nhiên trong giai đoạn này

Bang 2.1 Các nghiên cứu doc hiểu tự động nổi bật trước năm 2013

l QUALM DEEP READ DEEP READ, QUARC Dac diem (Lehnert, 1977) [6] (Hirschman va cong (ANLP-NAACL 2000)

> su, 1999) [12] [13]

Nam 1997 1999 2000

Ngôn ngữ Tiêng Anh Tiêng Anh Tiêng Anh

Dữ liệu Tập fing CA hấu “ON (ỚP 3-190 mau chuyện (lớp 3-6)

DEEP READ++: thém

Pattern matching + đặc phan loai cant hot

Các tap lệnh được trưng ngôn ngữ ( ốc từ (Charniak và cộng sự,

Phương pháp Hồ 6 ngon neu (60C tu, 2000) [14]mã hóa don giản tên, lớp ngữ nghĩa và

đồng tham chiếu) QUARC: dựa trên các quy

tắc (Riloff và Thelen,

2000) [7]

DEEP READ++: 41%

Hiệu suất 30-40% QUARC: 40%

Từ năm 2013, các nghiên cứu hiểu ngôn ngữ tự nhiên có sự thay đổi lớn, thay vì đánhgiá mức độ hiểu ngôn ngữ tự nhiên của máy tính dựa trên khả năng của các mô hình tìmcâu trả lời trên một tập văn bản thì các mô hình chỉ cần trích xuất câu trả lời tập trung trênmột văn bản Giữa năm 2013 đến năm 2015, các NNC nỗ lực đưa bài toán đọc hiểu tự động

thành nhiệm vụ học có giám sát (Supervised Learning), tức cần một bộ ngữ liệu để phục

vụ quá trình huấn luyện và kiểm thử các mô hình học máy Nếu chưa có ngữ liệu, các NNCphải tiến hành xây dựng bộ ngữ liệu C gồm N mẫu ngữ liệu, mỗi mẫu C; trong bộ ngữ liệu

C là một bộ ba gôm văn bản Dj, câu hỏi Q; và câu trả lời Ai.

11

Trang 32

C = {Œ} = {D,Q,A,),với¡ e{1, ,N} (2.1)

Các nhà nghiên cứu của Microsoft (Richardson và cộng sự, 2013) [8] đã mô hình hóa

bai toán đọc hiểu tự động thành bài toán học có giám sát (Supervised Learning) và công

bố MCTest như là một bộ ngữ liệu tiếng Anh đầu tiên để phát triển và đánh giá các môhình đọc hiểu có giám sát MCTest chứa 660 mau chuyện, với bốn câu hỏi trắc nghiệm chomỗi mau chuyện (mỗi câu hỏi đi kèm với bốn lựa chọn và một trong chúng sẽ là câu trả lờichính xác) Trên bộ ngữ liệu MCTest, Richardson và cộng sự (2013) [8] đã đề xuất một số

mô hình cơ sở dựa trên các quy tac (rule-based) mà không cần sử dụng bat kỳ ngữ liệu

huấn luyện nào Cụ thể, phương pháp này tiếp cận dựa trên heuristics, đo lường thông tin

về trùng lặp từ có trọng số giữa câu hỏi và các câu trả lời ứng cử thông qua các cửa số trượt

(Sliding Window) Thêm vào đó, Richardson và cộng sự (2013) [8] cũng đề xuất một

hướng tiếp cận dựa trên nhận diện kế thừa văn bản (Recognizing Textual Entailment —RTE) bằng chuyền cặp câu hỏi-câu trả lời ứng cử thành một chuỗi, sau đó chọn câu trả lời

mà chuỗi chứa nó có khả năng cao nhất được suy luận (kéo theo) từ mẫu chuyện Sau đó,

hàng loạt nghiên cứu học máy dựa trên các đặc trưng được khám phá trên bộ ngữ liệu MCTTest như Sachan và cộng sự (2015) [15], Narasimhan và Barzilay (2015) [16]; Wang

và cộng sự (2015) [17].

Các NNC tại Công ty DeepMind của Google, Hermann và cộng sự (2015) [18] đã đềxuất một phương pháp mới dựa trên mô hình mạng nơ-ron (LSTM) với cơ chế attentiontrên hai bộ ngữ liệu thực tế và có kích thước lớn: CNN và Daily Mail Mô hình này có tên

la Attentive Reader hoạt động tốt hơn các phương pháp tiếp cận NLP cho đến thời điểmnày Tiến thêm một bước nữa, Chen và cộng sự (2016) [19] đã phân tích một cách chỉ tiếttrên hai bộ ngữ liệu CNN và Daily Mail và đề xuất một mô hình mạng nơ-ron đơn giản với

tên là Stanford Attentive Reader có thé đạt độ chính xác lên đến 72,4% trên bộ ngữ liệu

CNN và 75,8% trên bộ ngữ liệu Daily Mail, tăng hơn 5% so với mô hình trước Qua nghiên

cứu này, Chen và cộng sự (2016) [19] nhận thấy các mô hình mạng nơ-ron có khả năngnhận dạng tốt hơn trên các suy luận: so khớp từ (Word Matching) và diễn giải lại

(Paraphrasing) so với các phương pháp học máy sử dụng các đặc trưng ngôn ngữ Hai bộ

ngữ liệu này được tạo bằng phương pháp bán thủ công với những hạn chế như nhiễu và lỗitham chiếu gây khó khăn cho nghiên cứu và phát triển của đọc hiểu tự động [19] Qua hai

12

Trang 33

nghiên cứu này [18, 19], các phương pháp đọc hiểu dựa trên học máy yêu cầu các bộ ngữliệu có kích thước, chất lượng tốt hơn và được xây dựng bằng phương pháp thủ công.

Các NNC của Đại học Stanford (RaJpurkar và cộng sự, 2016) [4] đã tạo một bộ ngữ liệu

mới có tên SQUAD nham giải quyết những hạn chế của hai bộ ngữ liệu: CNN và DailyMail Bộ ngữ liệu đọc hiểu này có kích thước lớn đầu tiên với 107.785 câu hỏi trên 536

văn bản Wikipedia, các câu hỏi được tạo hoàn toàn bởi người và câu trả lời cho mỗi câu

hỏi là một chuỗi các từ liên tục trong các văn bản Nhờ chat lượng dit liệu cao và phương

pháp đánh giá tự động đáng tin cậy, bộ ngữ liệu này đã thu hút sự quan tâm to lớn trong

cộng đồng AI và trở thành một bộ tiêu chuẩn (benchmark) trong đánh giá hiểu ngôn ngữ

tự nhiên Ngay sau đó, hàng loạt các mô hình đọc hiểu được phát triển và đánh giá trên

SQuAD: Match-LSTM [20], BiDAF [21], DrQA Reader [9], R-NET [22] và QANet [23].

Su phat triển các thuật toán học máy diễn ra nhanh chóng, một trong những mô hình dựatrên BERT (Devlin và cộng sự, 2018) [24] hoạt động tốt nhất đã đạt F: lên đến 93,2% vượt

trội hơn so với hiệu suất ước tính của người là 2,0%, trong khi một mô hình học máy khác

(Logistic Regression) dựa trên đặc trưng được dé xuất bởi Rajpurkar và cộng sự (2016) [4]

chỉ đạt được độ đo F; với 51,0% Sau đó, hàng loạt phương pháp đọc hiểu tích hợp MHNN

[25, 26, 27] cũng chứng minh khả năng xử lý vượt trội so với những mô hình được nghiên cứu trước đó Bên cạnh đó, các mô hình ngôn ngữ tạo sinh [28, 29, 30] cũng đạt hiệu quả

cao nhưng đòi hỏi các máy tính đủ mạnh dé thực hiện các huấn luyện

Gần đây, các mô hình hoạt động tốt trên bộ ngữ liệu chuân SQuAD đều được xây dựngvới MHNN dựa trên kiến trúc Transformer, được biết như là một kiến trúc đặc biệt của họcsâu MHNN được huấn luyện sẵn trên một lượng ngữ liệu lớn và được sử dụng để mô hìnhhóa biéu diễn từng từ trong văn bản và câu hỏi dưới dang vector trong mô hình đọc hiéu tự

động, đi qua một số lớp của mô hình cụ thể và cuối cùng đưa ra dự đoán câu trả lời Khác

với các mô hình học máy truyền thống dựa trên đặc trưng, các mô hình đọc hiểu dựa trên

mô hình ngôn ngữ Transformer có một số ưu điểm lớn:

- Học máy truyền thống dựa trên đặc trưng ngôn ngữ (từ loại, thực thé có tên, cầu trúc cú

pháp hoặc đồng tham chiếu) phụ thuộc và bị tác động bởi độ chính xác của các công cụnén tang của NLP tiếng Việt, đặc biệt thách thức đối với những ngôn ngữ ít tài nguyên

Mô hình ngôn ngữ học với các đặc trưng biểu diễn từ tự động, có thể tránh nhiễu trong

13

Trang 34

các đặc trưng ngôn ngữ được trích xuất tự động Bên cạnh đó, mô hình ngôn ngữ cũng

dễ dàng tiếp cận và hiệu quả hơn khi so với các mô hình học máy dựa trên đặc trưng

ngôn ngữ.

- Thêm vào đó, các mô hình học máy truyền thống với các đặc trưng ngôn ngữ thường

đối mặt với thách thức: các đặc trưng ngôn ngữ thường rất phức tạp, thưa thớt nên khả

năng tông quát hóa kém Dé giải quyết thách thức này, sử dụng các biểu diễn từ đượchuấn luyện trên một lượng ngữ liệu lớn có thé làm giảm bớt phân bồ thưa thớt của từ

một cách hiệu quả bằng cách chia sẻ sức mạnh thống kê giữa các từ tương tự nhau về

mặt ngữ nghĩa Đặc biệt, các MHNN dựa trên kiến trúc Transformer như BERT [24] cókhả năng bắt ngữ cảnh ngày càng tốt hơn, giúp nâng cao hiệu suất trên hầu hết các bài

toán NLP trong 05 năm qua.

Các mô hình đọc hiểu tự động đạt được hiệu suất cao hơn người trên bộ ngữ liệu nồi

tiếng SQuAD là một bước tiến lớn trong cộng đồng nghiên cứu NLP trong vài năm qua.Tuy nhiên, giải quyết những thách thức trong bộ ngữ liệu nôi tiếng SQUAD không đồngnghĩa với giải quyết khả năng đọc hiéu tự động trên các ngôn ngữ khác, đặc biệt là với cácngôn ngữ ít tài nguyên Liệu rằng các phương pháp đọc hiểu tự động tiên tiến giải quyếtnhững thách thức đọc hiểu trên tiếng Anh có tương tự như trên các ngôn ngữ it tài nguyênkhác không? Để trả lời câu hỏi này, NCS tiến hành nghiên cứu các mô hình đọc hiểu tựđộng trên ngôn ngữ tiếng Việt

Đọc hiểu tự động ngày càng phát triển hơn, hàng loạt bộ ngữ liệu đọc hiểu có kích thước

lớn và nhiều thách thức gần đây đã được thu thập và xây dựng: TRIVIAQA [31], RACE

[32], QANGAROO [33], NARRATIVEQA [34], MULTIRC [35], SQuAD 2.0 [36],

HOTPOTQA [37] và cũng tao cảm hứng phát triển cho nhiều bộ ngữ liệu trên nhiều ngôn

ngữ khác nhau [38, 39, 40, 41, 42] Các bộ ngữ liệu này được thu thập từ nhiều nguồn dữ

liệu khác nhau như Wikipedia, các bài báo mạng hoặc các tài nguyên Web khác và được

xây dựng theo những phương pháp khác nhau Chúng nhằm mục đích giải quyết nhiềuthách thức chưa được giải quyết trong đọc hiểu tự động trước đây - câu hỏi được sắp xếp

độc lập với các bài đọc, câu hỏi yêu cầu suy luận trên nhiều câu hoặc thậm chí suy luận

trên nhiều văn bản dé trả lời, câu hỏi dựa trên các văn bản dài như một cuốn sách đầy đủhoặc các câu hỏi không thể trả lời được từ bài đọc Tại thời điểm khảo sát của NCS, hầuhết đọc hiểu tự động được thực hiện trên những ngôn ngữ giàu tài nguyên (ví dụ: tiếng Anh

14

Trang 35

và tiêng Trung) Vì vậy, việc tạo các bộ ngữ liệu và nghiên cứu các mô hình MRC là việc

làm cấp thiết cho tiếng Việt — được biết là ngôn ngữ ít tài nguyên cho nghiên cứu

2.2 Định nghĩa đọc hiểu tự động

Định nghĩa 1: Bài toán đọc hiểu tự động có thể mô hình hoá dựa trên học máy có giámsát: cho một tập hợp gồm N mẫu ngữ liệu huấn luyện {(D;, Q;, Ai}, và mục dich là xâydựng một hàm dự đoán ƒ nhận một đầu vào là một văn bản Dị và một câu hỏi Q; và trả về

dau ra là một câu trả lời A; Bài toán đọc hiệu tự động được mô tả như sau:

Đầu vào (Input):

e Mot câu hỏi Q;;

e Một văn bản D;;

e Mot tập huấn luyện N bộ ba câu hỏi-văn bản-câu trả lời được tạo sẵn (D,, Q¡, 4),

(Dạ, Q›, A;), (Dy, Qn, Ân)

sau:

e_ Đọc hiểu với điền vào chỗ trống (Cloze-based MRC): Đối với những câu hỏi điền

vào chỗ trống, một số câu trong các bai doc được lay ra một từ/cụm từ rồi được thay thế băng các ký hiệu đặc biệt hoặc khoảng trống, tạo thành một bai đọc không hoàn

chỉnh Nhiệm vu của máy tinh là dự đoán câu trả lời thích hợp (từ/cụm từ) điền vào

chỗ trống với những lựa chọn ứng cử dé tạo thành một bài đọc hoàn chỉnh CNN

[18], Daily Mail [18] và CFT [43] là ba bộ ngữ liệu tiêu biểu dé đánh giá các mô

hình đọc hiéu tự động điền vào chỗ trống.

hiệu trac nghiệm, mỗi một câu hỏi có nhiêu lựa chọn (vi dụ: có bon lựa chọn), trong

15

Trang 36

đó có một lựa chọn đúng MCTest [8] và RACE [32] là hai bộ ngữ liệu điển hình

cho đánh giá các mô hình đọc hiểu trắc nghiệm

e Đọc hiểu với câu trả lời được rút trích trực tiếp từ văn bản (Span-based MRC): Với

loại đọc hiểu này thì câu trả lời phải là một chuỗi liên tục duy nhất trong bài đọc.SQuAD [4] và NewsQA [44] là hai bộ ngữ liệu tiêu biểu nhất trong các bộ ngữ liệuđọc hiểu tự động và thúc đây phát triển những mô hình đọc hiểu rút trích tự động.Lay cảm hứng từ các bộ ngữ liệu chuẩn SQUAD và NewsQA, NCS đã đề xuất vàxây dựng những bộ ngữ liệu tiếng Việt như những khởi đầu đầu tiên cho đọc hiểu

tự động cho văn bản tiếng Việt

¢ Đọc hiểu với câu trả lời tự do (Free form-based MRC): Là loại đọc hiểu tự động cho

phép câu trả lời là bất kỳ dạng văn bản tự do nào (tức là một chuỗi từ có độ dài tùy

ý) với hai bộ ngữ liệu tiêu biểu: NarrativeQA [34] và MS MARCO [45]

2.3 Phương pháp đọc hiểu tự động

Theo thời gian phát triển của đọc hiểu tự động, các phương pháp đọc hiểu tự động được

phân thành bốn phương pháp chính: mô hình đơn giản dựa trên các quy tắc, học máy dựatrên đặc trưng, các phương pháp dựa trên mạng nơ-ron truyền thống và các phương phápđọc hiểu tích hợp MHNN (dựa theo học chuyên tiếp) Các phương pháp đọc hiểu tự động

được mô tả như sau:

- Mô hình đơn giản dựa trên các quy tắc: Các phương pháp đọc hiểu tự động đầu tiên

được triển khai với những mô hình dựa trên các quy tac Richardson và cộng sự (2013)

[8] đã đề xuất mô hình đọc hiểu tự động trắc nghiệm sử dụng thuật toán Sliding

Window, một hướng tiếp cận dựa trên sự tương đồng về từ vựng Phương pháp này

cũng được sử dụng làm cơ sở trong các nghiên cứu khác (Rajpurkar và cộng sự (2016) [4], Lai và cộng sự (2017) [32], Ostermamn và cộng sự (2018) [46], Nguyen và cộng

sự (2020) [47]) Sliding Window dự đoán câu tra lời dựa trên thông tin từ vựng đơn

giản Lay cảm hứng từ TF-IDF, thuật toán này sử dụng số lượng từ nghịch đảo làmtrọng số cho mỗi từ vựng và toi đa hóa mức độ ngữ nghĩa tương đồng giữa lựa chọntrả lời và bài đọc với kích thước cửa số (Window Size)

- Hoc máy dựa trên đặc trưng: Những mô hình học máy truyền thong hoạt động hiệu

quả với một hoặc nhiều đặc trưng Logistic Regression là phương pháp cơ sở được đề

16

Trang 37

xuất và thử nghiệm trên SQuAD [4] Thuật toán này trích xuất một lượng lớn các đặctrưng ngôn ngữ bao gồm độ dài, tần số bigram, tần số từ, nhãn từ loại (POS), đặc trưng

từ vựng, đặc trưng cú pháp phụ thuộc và dự đoán liệu rằng chuỗi văn bản liên tục có

phải là câu trả lời cuối cùng dựa trên tất cả những đặc trưng đó hay không Bên cạnh

đó, phương pháp Boosting được đề xuất như một mô hình cơ sở dựa trên đặc trưng

thông thường (vi dụ: n-gram, khoảng cách từ, quan hệ phụ thuộc, v.v.) cho các bộ ngữ

liệu CNN / Daily Mail [19].

Các phương pháp dựa trên mang nơ-ron truyền thống: Với sự phổ biến của phương

pháp tiếp cận mạng nơ-ron, các mô hình MRC đầu tiên như Stanford AR [19], GAReader [48], HAF [49] va Co-Match [50] đã tạo ra những kết quả day triển vọng vềđọc hiểu trắc nghiệm Trong hơn một thập ky qua, các phương pháp đọc hiểu tự động

dựa trên các MHNN cũng đã được quan tâm và nghiên cứu thêm [24, 51] Các mô hình

này không dựa vào các đặc trưng phức tạp được tạo ra theo cách thủ công như trong

các hướng tiếp cận học máy truyền thống nhưng có thê hoạt động tốt hơn chúng Sự

phát triển rất nhanh của các bộ ngữ liệu chất lượng cao và kích thước lớn đã thu hút sự

quan tâm đáng kế đến các mô hình dựa trên mạng nơ-ron cho đọc hiểu tự động Cácphương pháp tiếp cận dựa trên mạng nơ-ron [9, 52, 53, 23, 20, 22] đã thu được những

kết quả nôi bật trên các bộ ngữ liệu đọc hiểu tự động nồi tiếng trong hơn một thập kỷ

qua Các mô hình này hoạt động tốt hơn các mô hình dựa trên học máy truyền thống

sử dụng các đặc trưng ngôn ngữ thủ công khác nhau [4, 8] Một loạt các mô hình học

sâu có anh hưởng cũng đã được giới thiệu, bao gồm Match-LSTM [20], BiDAF [53],

R-Net [22], DrQA Reader [9], FusionNet [54], FastQA [55] và QANet [23].

Các phương pháp đọc hiểu tích hop mô hình ngôn ngữ: Các mô hình học may dựa trênkiến trúc Transformer, một dạng đặc biệt của học sâu đã chứng minh sự hiệu quả trênmột loạt các bài toán và ứng dụng NLP trong thời gian gần đây Devlin và cộng sự

(2018) [24], Lan và cộng sự (2019) [56] và Conneau và cộng sự (2020) [51], đặc biệt,

đã giới thiệu BERT và các biến thé của BERT (XLM-R và ALBERT), như các phươngpháp hiệu quả được huấn luyện trên các ngôn ngữ khác nhau đề đạt được hiệu suất caonhất trên bộ ngữ liệu đọc hiểu tự động Trong học chuyên tiếp dựa trên tinh chỉnh, các

MHNN được sử dụng như các biểu diễn đầu vào hiệu quả trong nhiều bài toán NLP,bao gồm cả đọc hiểu tự động Trong nghiên cứu này, NCS mong muốn tận dụng hướng

17

Trang 38

tiếp cận tích hợp MHNN trong thiết kế mô hình đề xuất đề cải thiện hiệu suất bài toán

đọc hiểu tự động tiếng Việt

Masked Sentence A Masked Sentence B Văn bản (T) Câu hỏi (Q)

[CLs] G TOKALN| [SEP] [CLS] J TokT_1 imeem TokT_Nil [SEP] K5 Gy

Linear Layer + Softmax

Tién huan luyén (Pre-training) Tinh chinh (Fine-tuning)

Hình 2.2 Mô hình học chuyển tiếp tích hợp mô hình ngôn ngữ BERTology (dựa trên

BERT [24]).

Học chuyền tiếp trong xử ly ngôn ngữ tự nhiên là một hướng tiếp cận có thé tan dụng trithức từ việc học trên một bài toán trong một miền ngữ liệu (nguồn) sang học một bài toán

ở một miền ngữ liệu liên quan khác (đích) Thông thường, mô hình học chuyền tiếp được

huấn luyện trước về bải toán nguồn và sau đó được tinh chỉnh ở bước thứ hai trên một tập

ngữ liệu đích phục vụ cho một bài toán nghiên cứu Hiệu quả của việc học chuyên tiếpđược đánh giá băng hiệu suất của mô hình trên các bài toán nghiên cứu mục tiêu Họcchuyên tiếp dựa trên mô hình ngôn ngữ là một phương pháp học máy, cụ thé là các môhình ngôn ngữ được huấn luyện trước đó trên một tập ngữ liệu lớn và đa dạng, sau đó được

sử dụng hoặc tinh chỉnh dé phù hợp với các bài toán ngôn ngữ cụ thé trên ngữ liệu mới

Các mô hình ngôn ngữ thường là các mô hình học sâu dựa trên kiến trúc Transformer Một

số khái niệm quan trọng của học chuyền tiếp dựa trên mô hình ngôn ngữ được trình bày

như sau.

e Mô hình ngôn ngữ huấn luyện trước (Pre-trained Language Model): Mô hình ngôn ngữ

dựa trên kiến trúc Transformer được huấn luyện trước trên một tập ngữ liệu lớn và đadạng Các mô hình ngôn ngữ tổng quát thường được sử dụng nhiều và có ảnh hưởng cao

như BERT [24], XLM-R [51], T5 [28] và GPT [29].

18

Trang 39

e Bài toán nghiên cứu mục tiêu: Các mô hình ngôn ngữ có thé được dùng dé thiết kế và

xây dựng các phương pháp đề xuất cho các bài toán nghiên cứu cụ thể Các bài toán

nghiên cứu cụ thé có thé là dich may, tao sinh van ban, phan loai van ban, va nhiéu bai

toan khac.

e Tinh chỉnh (Fine-tuning): Một phương pháp thường được sử dung là tinh chỉnh, trong

đó mô hình ngôn ngữ được tiếp tục huấn luyện trên một tập ngữ liệu mới của bài toán

nghiên cứu mục tiêu Bên cạnh đó, các lớp cuối cùng của mô hình ngôn ngữ có thé được

thay đôi dé phù hợp với các bài toán nghiên cứu mục tiêu Các lớp này thường đượcthực hiện dé thích ứng mô hình với đặc điểm cụ thé của ngữ liệu của bài toán nghiên

cứu mục tiêu.

e Bộ ngữ liệu cho bài toán nghiên cứu mục tiêu: Các phương pháp học chuyền tiếp dựa

trên mô hình ngôn ngữ cần được huấn luyện và tinh chỉnh trên một bộ ngữ liệu cho mộtbài toán nghiên cứu cụ thể Các bộ ngữ liệu phải được tiễn hành thiết kế, xây dựng vađánh giá trước khi thử nghiệm trên các phương pháp học chuyền tiếp dựa trên mô hình

và cộng sự, 2019) [24] Do đó, phương pháp này (Hình 2.2) có thé được sử dụng trong các

bài toán trong xử lý ngôn ngữ tự nhiên trên các ngôn ngữ ít tài nguyên, đặc biệt, liên quan

đến việc sử dụng trong các mô hình cho đọc hiểu tự động tiếng Việt

19

Trang 40

GloVe

al., EMNLP2014) ELMO

Peters et al., NAACL-HLT2018)

OpenAl GPT RoBERTa

Word2Vec joward va Ruder, ACL2017)

(Mikolov et al., NeurlPS2013) |

i i Tiền huắn luyén—_|MHNN được tiền Mô hình cho bài

huần luyện toán NLP

Truy van thông tin

Chatbot

Hình 2.3 Phương pháp tiếp cận các bài toán NLP theo học chuyển tiếp được sử dụng cho

các ngôn ngữ it tai nguyén.

Trong thời gian gần đây, xu hướng huấn luyện sẵn các mô hình ngôn ngữ biểu diễn với

lượng ngữ liệu không 16 dé tạo các biêu diễn từ theo ngữ cảnh bang cách dự đoán từ hoặccâu tiếp theo Dựa trên các kiến trúc Transformer được huấn luyện sẵn (Vaswani và cộng

sự, 2017) [57], các MHNN lần lượt ra đời (Hình 2.3) như BERT [24], RoBERTa [25],

Sentence BERT [58] và XLM-R [51] Cruz và Cheng (2019) [59] đã chứng minh rang các

MHNN nay đặc biệt hữu ich đối với các ngôn ngữ có ít ngữ liệu nghiên cứu, trong đó có

san một lượng lớn ngữ liệu không được gan nhãn, nhưng ngữ liệu được gan nhãn cho các

bài toán nghiên cứu cụ thé lại khan hiểm Trong tiếng Việt, nhiều MHNN cũng đạt kết qua

vượt trội khi được tinh chỉnh trên PhoBERT [60] và XLM-R [2, 61].

Dựa trên số lượng ngôn ngữ hỗ trợ, MHNH chia thành 02 loại mô hình ngôn ngữ chính:

Mô hình đa ngôn ngữ và mô hình đơn ngôn ngữ, được mô tả như sau:

Mô hình đa ngôn ngữ (Multilingual Language Models)

Các ngôn ngữ ít ngữ liệu cho nghiên cứu như tiếng Việt cũng có thé tận dụng từ các môhình đa ngôn ngữ được huấn luyện sẵn (có chứa tiếng Việt) Các mô hình ngôn ngữ này

20

Tiêu đề	Nghiên Cứu Xây Dựng Mô Hình Đọc Hiểu Tự Động Cho Văn Bản Tiếng Việt
Tác giả	Nguyễn Văn Kiệt
Người hướng dẫn	PGS. TS. Nguyễn Lưu Thùy Ngân, TS. Nguyễn Gia Tuấn Anh
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	luận án
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	183
Dung lượng	64,78 MB