Điều này giúp chúng tôi đảm bảo rằng các mô hình NLI được đảo tạo vàđánh giá trên các dit liệu thực tế và phản ánh chính xác khả năng của chúng trong việc đánh giá tính chính xác của các
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HỌC VA KY THUAT THONG TIN
TRAN THANH DANG - 20520428
NGUYEN VAN ANH - 20521074
KHOA LUAN TOT NGHIEP
Integrating natural language inference in
Machine reading comprehension model
CU NHAN NGANH CONG NGHE THONG TIN
ĐỊNH HƯỚNG NHẬT BAN
GIẢNG VIÊN HƯỚNG DẪN
PGS.TS NGUYEN LƯU THUY NGÂN
THS HUỲNH VĂN TÍN
TP HÒ CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Đồ án khóa luận tốt nghiệp của chúng tôi, “Tích Hợp Suy Luận Ngôn Ngữ Tự Nhiên Trong
Mô Hình Đọc Hiểu Tự Động”, không thể hoàn thiện một cách trọn vẹn như bây giờ nếukhông có được sự hỗ trợ và động viên từ các thầy cô, bạn bè và gia đình Chúng tôi vôcùng biết ơn đến mọi người đã hỗ trợ suốt trong hành trình này
Lời đầu tiên, chúng tôi chân thành gửi lời cảm ơn đến PGS.TS Nguyễn Lưu Thùy Ngân
và ThS Huynh Văn Tín - những người đã tận tâm diu dắt, truyền đạt kiến thức và dànhcho chúng tôi những lời khuyên vô giá trong thời gian nghiên cứu Nhờ sự hướng dẫn tâmhuyết của Thầy/Cô, chúng tôi đã có thé hoàn thiện dé tài một cách trọn vẹn và đạt đượckết quả như mong đợi
Không thể không nhắc đến gia đình và bạn bè đã luôn ủng hộ, động viên và bên cạnh chúngtôi trong quãng thời gian qua Sự tin tưởng và khích lệ của mọi người là nguồn động lực
to lớn giúp chúng tôi vượt qua mọi khó khăn và hoan thiện bài nghiên cứu một cách hoàn
Trang 3MỤC LỤC
Chương 1 TÔNG QUAN - 2222 2E2EEEEE221271221127171211 21121 re 8
1.1 Bai toán đọc hiểu tự động tiếng Việt 2-©2¿55222xcccxerxrerxerred 8
1.2 Các xu hướng cải thiện hiệu suất QA w.ceecececccsccssesesessessesesesseseeseeseeseeaes 8
1.2.1 Hoc chuyén tiép (Transfer Learning) -+s «se ssvxsseeseeske 8
1.2.2 Hoc tăng cường (Reinforcement Learning): - « ««+««2 9 1.2.3 Xử lý đa ngôn ngữ (Multilingual Processing): - - «<-s<++ 9 1.3 Tang cường QA thông qua NLÌ - - 2 3+1 * + ESskseeereeersreerre 9
1.3.1 Tăng cường NLÍ - 5 Ăn vn ng rướt 9 1.3.2 Tăng cường QA LH HH HH ngư, 10
1.4 _ Đóng góp chính của đề tài - 2: s2S<+EkcEE2EEEEEEEEErrrrkrrerrvee 10
Chương2 CÁC CÔNG TRÌNH LIEN QUAN -: ¿ sz©5+5-scs+2 12
2.1 Các bộ dữ liệu liên quan - -. c6 + 331123 E9 Series 12
2.1.1 — Bộ dữ liệu MRC SH HS HH HH 12
2.1.1.1 Công trình trên thế giới -¿©-++©++2+++cx++rx++rxesrxesred 12
2.1.1.2 Công trình trong NƯỚC c3 3323113111111 krrrkeerse 13
2.1.2 Bộ dữ liệu NLÍI - c5 ScStS+ ESEESEEEEsrreirkirkrerkrrrrke 13
2.1.2.1 Công trình trên thế giới - 2 ++++++E++E+EE+E+Ezrxrrsrreee 13
2.1.2.2 Công trình trong NƯỚC - - c3 1931 311 1E rvrrreeree 14
2.2 Các phương pháp nghiên cứu liên quan s75 +55 se x++sx+sexseesss 14
2.2.1 _ Các mô hình MRC thông dụng - 5 + SĂS + ssseereserseeereee 14
2.2.1.1 Phương pháp thống kê - 2-2 2 ++SE+E++EE£EE£EE+ErErrrrerreee 15
2.2.1.2 Kiến trúc mang neural - 2 s+s+++++E++E++E++x++Ezxezrezreee 15
2.2.2 Các phương pháp biểu diễn từ 2-2 2 s+E++EzEzEzrrrszes l6
Trang 42.2.2.1 Word embedding - - -< +s 11v v1 kg ng rườn 16 2.2.2.2 Contextualized word embedding - «<< «£+<c<+<c+<e++ 16 2.3 Robust Question-AnñSW©TITE - G1 HH ng 16
2.3.1 Gia pháp tang CƯỜng - Ăc cv HH key 17
2.3.2 Xác minh câu trả lỜI - -c- + ESEEEEererrkrkrrrrrkrrrrre 17
2.4 NLI cho các tác vụ KNaC cece ccccesccccesesscceccesssseeecessseeeceesssseeecesessseeeees 18
2.4.1 Tóm tắt văn bam eecseeescssseeecssseeeessnsecessneseesnneecssneeessneeesnneeessnneeee 18
2.4.2 Dich May: n ÔỎ 18
2.4.3 Truy vấn thông tin: ket SE E211 Ece, 18
2.5 Các mô hình tham khảo chính - - -¿- + + + *£+x£++kE£eeseeeeeeseeese 19
2.5.1 Mô hình mBERT - - -G- sEk vn ng ng nrnriệ, 19 2.5.2 Mô hình PhoBERT - - tt hi, 20 2.5.3 Mô hình XLM-R - LH Hi, 21 2.5.4 Mô hình VinAI Translate - sư 22
2.5.5 Mô hình QANNGK HH HH HH HH nhiệt 24
2.5.6 Mô hình VÌÏT5 Ăn ngàn Hàn ng 25
Chương 3 NGHIÊN CỨU PHƯƠNG PHÁP -2 2¿©+22x2z+z2sse2 26
3.1 _ Phương pháp sử dụng NLI vào xác minh câu hoi unanswerable QA 26
3.1.1 Tạo sinh câu giả thuyẾt - -5- + kề 2E E111 27
3.1.2 Tạo đoạn tiền 46 o sceeecseeeecssssssessneeessneesessteeesssneeeesnneeesnneeessneeessnneees 28
3.1.3 Xác nhận câu trả LOL cece ccceessccceessscecceessseeeceesssseeecessssseeeeeeseeees 29
3.2 Phương pháp sử dụng NLI dé thu gọn thông tin ngữ cảnh 29
Chuong 4 XÂY DỰNG DU LIEU - 2 2 2+S£+E++E2EE+EzErrerrerreee 31
4.1 Xây dựng dữ liệu cho mô hình huấn luyện tạo câu giả thuyết 31
Trang 54.1.1 Lý do thực hiỆn - creer 1S SH nghiệt 31
4.1.5 KẾt quả xây dựng ¿©2+c22+c2EteEEEeEEerkerkrsrkrrrrerrree 34
4.2 _ Xây dựng dit liệu QA_NLÍI -2¿22 +25+22++cxczrerxerxrerserxees 35
4.2.1 LY do thurc Wi6n en ec ốốằốỐ 35
4.2.2 Cấu trúc dữ liệu -ccccccrerreecrerreree 35
4.2.2.1 Cấu trúc của dữ liệu QA -¿-¿-++©+++c++rxerxrsrxerkerrrerxrree 35
4.2.2.2 Cấu trúc của dữ liệu NLI - ¿22s ++2x++zxerxzresrxrres 37
4.2.3 Quy trình thực hiỆn Q2 22012111331 13911 19113 111 ng rệt 37
4.2.4 Kết quả xây dựng -5c+ck+EkS 2E E1 EEcrrei 40
4.3 Xây dung dữ liệu rút gọn ngữ cảnh - s5 «+ ++sesseeeseeesses 41
4.3.1 Lý do thực hiện ©2+22kc2EeEEEEEErkrrrkrrrkrrrerrkee 41
4.3.2 Cau trúc dit liệu -+-k+E2EEEEEEE 22A2 EEcrkrree 41
4.3.3 Quy trình thực hiỆn 0 G0 1119 ngệt 42
4.3.4 Kết quả xây dựng -ckcs Ek EEEEE1211211211111211 2111 re, 42
Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIA KET QUẢ - 44
5.1 _ Cài đặt thí nghiệm -222+St2ESEEEEECEEEEEEEErrEerkrrkrrrrervee 44
5.1.1 _ Cài đặt mô hình NLÍ - 2-5 ©52+2E+EEt2EE£EEtEESEEerkerreerkrree 44 5.1.2 Cai đặt mô hình QA đánh giá bộ dữ liệu unanswerable 45 5.1.3 _ Cải đặt mô hình QA đánh giá dữ liệu rút gọn ngữ cảnh 45
Trang 65.2 Cac phương pháp đánh gIá - G2 E13 1S vn re 46
5.2.1 Độ đo BLEU - TS SS ST HH HH HH HH nh rep 46
5.2.2 Độ do ACCUYACV SH TH TT TH HH nà Hy 46
1Š.“ a DD 47 5.2.4 Độ đo Exact Mafch - - 1111211111211 1119 111101111821 11x tru 47
5.2.5 _ Độ tương đồng COsine - 2-2 k+EE+EE2EE2EEEE12E12112E2E2 xe, 48
5.3 Kết quả thínghiệm -: 2¿©2+©2++2E++EE+SEEESEEEEEErSEkrrrkrrrrrrrree 48
5.3.1 Mô hình dịch thuật c1 ng nưệt 48
5.3.2 Mô hình QANNG( nhiệt 49
5.3.3 Mô hình tạo sinh văn bản - - <5 5 22211 ££*£+22EEeezzseees 49
5.3.4 Kết quả đánh giá mô hình NLI - 2-2 2+ £+£z£zzzzzzez 50
5.3.5 _ Kết quả đánh giá NLI xác minh câu hỏi unanswerable 52
5.3.6 Két quả đánh gid NLI dé thu gọn ngữ cảnh - 5-5552 53
5.4 Phan tích kết Qua cceccecceccsccsscssessessessessessessessessessessesuessessesuesscssssesssesecsseaes 54
5.4.1 Tac động của độ dài câu tra lỜI 5-5 +55 + ++++e+essereeess 54 5.4.2 _ Tác động của độ dài ngữ canbe ee eececeessceseeseeeeeeneeeseeeeeeseeeees 55 5.5 _ Phân tích lỗi -cckcctthhnhHh hư 57
5.5.1 _ Kết quả nhãn unanswerable của mô hình NLI - 57
5.5.2 _ Tạo câu giả thuyẾt -:-©2¿- + SE kEEE2E1E21211221 212122 re 59
Trang 76.4. Hướng phát triển 2- 2+ 5+©++2EE++EEE+2EEEtEEEEeEEErtrkrerxrrrrkrrrrev
Z2
Trang 8DANH MỤC HÌNH VẼ
Hình 2.1: Quy trình pre-training và fine-tuning tổng thé cho BERT [39] 19
Hình 2.2: Kết quả mô hình dịch thuật từ Anh sang Việt do con người đánh giá [66] ¬— ĐA 23
Hình 2.3: Kết quả mô hình dịch thuật từ Việt sang Anh do con người đánh giá [66] ẮẢẳẢắäăẢÃẢ 23
Hình 2.4: Kiến trúc mô hình QANet [67] -¿2 + +£+++£+++£++£x+zxzzszrxeei 24 Hình 2.5: Tổng quan về kiến trúc ViTS [68] 2+ 5+2+++cx++zx+zzxzzxez 25 Hình 3.1: Quy trình sử dụng NLI dé xác minh câu hỏi unanswerable QA 26
Hình 3.2: Quy trình huấn luyện tạo sinh câu giả thuyẾt - 2-2-2 z+5z+s+ 27 Hình 3.3: Quy trình tạo đoạn tiền đỀ -.- Sc St 211111151111 1111111155111111111512EEe 1xx xee 28 Hình 3.4: Quy trình xác nhận câu tra ÏỜI - - - << + 2+ + E+vE+seeEeeeeeeereses 29 Hình 3.5: Quy trình sử dụng NLI dé thu gọn thông tin ngữ cảnh - 29
Hình 4.1: Quy trình xây dựng bộ dữ liệu QA2D tiếng Việt -+- 32
Hình 4.2: Quy trình xây dựng bộ dit liệu UIT-VINewsQA_NLT 38
Hình 4.3: Quy trình xây dựng bộ dữ liệu UIT-ViQuAD 2.0_NLI 39
Hình 4.4: Quy trình tông quát xây dựng bộ dữ liệu UIT-ViQuAD 1.0_mini 42 Hình 5.1: Phân tích hiệu suất ở độ đo EM theo độ dài ngữ cảnh trên tập dữ liệu dev
của UIT-VIQUAD 1.Ũ_ mini - - c 1122101111111 111 1111811158111 81111 81k tre, 56
Hình 5.2: Phân tích hiệu suất ở độ đo F1 theo độ dài ngữ cảnh trên tập dữ liệu dev
của UIT-VIQUAD I.Ũ_ mITn1 - 5c - c5 1111333223111 3113 1111 1111821111118 111 crre 57
Trang 9DANH MỤC BANG
Bảng 2.1: Hiệu suất mô hình trên tập test XNILI -2 -¿- 5¿©++22x+2z+>sse2 21Bảng 2.2: Kết quả GLUE trên bộ dữ liệu dev XNLI [65] - .: -: -:- 21Bang 4.1: Minh hoa cho lỗi tên riêng -¿- ¿2 S2 SE+E+E£EE+E£EEEEEeErkrrrrxrrrreree 33 Bảng 4.2: Minh hoa cho lỗi đại từ xưng hô - 2 2-5 255 ££2E+Ee£xzxezzxzrcrs 33Bảng 4.3: Thống kê tổng quan về ViQAA2D -2-22¿ 22 S+2£S+2£E+2Exzrxrrrxerrvee 34Bảng 4.4: Thống kê tong quan về dữ liệu QA_NLI .: -¿©¿ ©5555: 40Bảng 4.5: Thống kê tổng quan về UIT-ViNewsQA ¿ 2¿25¿©csc2cxccse2 40
Bảng 4.6: Thống kê bộ dữ liệu QA UIT-ViQuAD 1.0_ mini -. -5:5¿ 43
Bảng 5.1: Đánh giá mô hình VinAI Translate [66] trên BLEU scores (%) ở dữ liệu
3190/0002 49
Bảng 5.2: Kết quả đánh giá mô hình QANet [67] : -:-¿©+csz2s+2sscse2 49
Bảng 5.3: Thống kê theo % trên độ đo BLUE 2-2 ©¿+©+++s++£x+zx+zzs+csez 50Bảng 5.4: Kết qua accuracy thực nghiệm các mô hình NLI trên 2 bộ dữ liệu 50Bang 5.5: So sánh kết quả accuracy thực nghiệm trên tong 3 bộ và ViNLI 51Bảng 5.6: Kết quả hiệu suất mô hình trên câu hỏi unanswerable của UIT-ViQuAD
Trang 10DANH MỤC TỪ VIET TAT
Question-Answering QA
Tra lời câu hỏi
Natural Language Inference
NLI
Suy luận ngôn ngữ tu nhiên
Natural Language Processing '
NLP ¬ `
Xử lý ngôn ngữ tự nhiên
BLEU Bilingual Evaluation Understudy
ViNLI Vietnamese Natural Language Inference
' Machine Reading Comprehension
Trung lập
BERT Bidirectional Encoder Representations from Transformers
mBERT Multilingual BERT
Trang 11Bi-Directional Attention Flow
Term Frequency-Inverse Document Frequency
Byte Pair Encoding
Cross-Lingual Masked Language Model RoBERTa Question Answer to Declarative Sentence Dataset
Trang 12TÓM TẮT KHÓA LUẬN
Việc tích hợp suy luận ngôn ngữ tự nhiên (NLD vào các mô hình đọc hiểu tự động(MRC) đang trở thành một xu hướng dé nâng cao độ tin cậy cho câu tra lời Day làphương pháp hiệu quả để đảm bảo răng câu trả lời được cung cấp bởi mô hình đọchiểu là phù hợp với ngữ cảnh của câu hỏi Điều này là quan trọng trong bối cảnh củangôn ngữ phức tạp như tiếng Việt, vì các câu hỏi và câu trả lời có thể chứa nhiều ýnghĩa ân và ngữ cảnh phức tạp
Khi tích hợp NLI vào các mô hình đọc hiểu tự động, chúng ta cần xem xét trước câuhỏi và câu trả lời mà các mô hình đọc hiểu đưa ra có phù hợp với đoạn ngữ cảnh banđầu Điều này là đặc biệt quan trọng khi xử lý với ngôn ngữ tiếng Việt, một ngôn ngữphức tạp với nhiều ngữ cảnh và ý nghĩa khác nhau Việc đảm bảo các trường hợp mà
mô hình MRC đưa ra câu trả lời không có trong ngữ cảnh là bước quan trọng dé đảmbảo rằng hệ thống trả lời câu hỏi (QA) hoạt động hiệu quả
Một ưu điểm của mô hình NLI mà chúng tôi đã phát triển là khả năng xác định cáccâu ngữ cảnh có nội dung không hỗ trợ cho việc trả lời câu hỏi Điều này giúp làm
sáng tỏ các thông tin nhiễu trong đoạn ngữ cảnh và làm tinh gọn nội dụng hơn cho
phù hợp với câu hỏi đặt ra Với đoạn ngữ cảnh thu gọn này là một tiềm năng dé cảithiện hệ thống QA, từ đó giúp tăng cường độ chính xác và hiệu suất của hệ thống
Để thực hiện việc tích hợp NLI vào các mô hình doc hiểu tự động, chúng tôi đã tiến
hành điều chỉnh các mô hình đã được đào tạo trước và khai thác các bộ đữ liệu chotiếng Việt Với cách này, chúng tôi đã xây dựng các cơ chế mạnh mẽ dé chuyên đổi
câu hỏi và phân tích ngữ cảnh một cách hiệu quả và chuân xác.
Nhờ các phương pháp mạnh mẽ mà chúng tôi đã có thể chuyển đổi các câu hỏi vàcâu trả lời thành các cặp tiền đề-giả thuyết, tạo ra một nền móng đáng tin cậy dé đánhgiá NLI Điều này giúp chúng tôi đảm bảo rằng các mô hình NLI được đảo tạo vàđánh giá trên các dit liệu thực tế và phản ánh chính xác khả năng của chúng trong
việc đánh giá tính chính xác của các câu trả lời từ các mô hình MRC.
Trang 13Chúng tôi đã tiến hành đào tạo các mô hình NLI bằng cách kết hợp các bộ dữ liệuNLI tiêu chuẩn và các NLI từ dữ liệu đào tạo MRC Qua đó, chúng tôi có thé đánhgiá các câu trả lời từ hệ thống MRC một cách chính xác và đáng tin cậy, đồng thời
cung cap cơ sở cho việc nâng cao hiệu suat của các mô hình MRC.
Kêt quả của đô án này dự kiên sẽ mang lại một bước tiên quan trọng trong việc cải
thiện độ tin cậy va độ chính xác của các mô hình MRC Điều này sẽ tạo điều kiện cho
việc truy xuât thông tin hiệu quả hơn trên Internet, giúp người dùng có được câu trả
lời chuân xác và phù hợp với yêu câu của bản thân.
Trang 14MỞ DAU
Đặt vấn đề
Nghiên cứu về Question-Answering (QA) hiện nay đã có sự phát triển đáng ké, và
nhận thay rằng việc xác định mối liên quan giữa câu hỏi và nội dung văn bản là máu
chốt quan trọng trong việc nâng cao độ chuan xác của các mô hình QA Một trong
những kỹ thuật tiếp cận hiệu quả để đánh giá sự liên quan này là sử dụng phương
pháp suy luận ngôn ngữ tự nhiên (NLI).
NLI đã được nghiên cứu và ứng dụng rộng rãi trong các mô hình QA tiếng Anh.Trong tiếng Việt vẫn còn hạn chế các nghiên cứu như vậy Do đó, chúng tôi xem xét
sử dụng NLI dé tăng hiệu suất cho nhiệm vụ hỏi đáp Với cách này, chúng tôi có théđánh giá được khả năng ứng dụng NLI vào QA hiệu quả như thế nào
Nghiên cứu này có thê đóng góp quan trọng trong việc cải thiện độ chuẩn xác của môhình QA do đó có thê tăng hiệu quả của việc truy vấn thông tin trên Internet hay các
hệ thống chatbot, trợ lý ảo Vì vậy trong phạm vi đề tài này, các phần input và output
được định nghĩa như sau:
Input:
Câu hỏi (Question): Day là câu hỏi hoặc yêu cầu thông tin mà người dùng đưa vào
mô hình QA tiếng Việt
Văn bản ngữ cảnh (Context): Là văn bản nguồn, chứa thông tin cần thiết dé trả lời
câu hỏi Văn bản này có thê là một đoạn văn, một đoạn trích từ một tài liệu hoặc bât
kỳ nguồn thông tin nào có thể chứa câu trả lời.
Output:
Câu trả lời (Answer): La câu trả lời mà mô hình QA đưa ra dựa trên câu hỏi va văn bản ngữ cảnh, câu trả lời sẽ được xác nhận bởi một mô hình NLI sau khi đưa ra bởi
mô hình QA.
Trang 15Xác minh NLI (Verify NLD: Sử dụng NLI để kiểm tra câu hỏi có phù hợp với đoạn
ngữ cảnh trước khi đưa ra câu trả lời.
Ví dụ minh hoa cụ thé từ một vài dữ liệu MRC:
Bộ dữ liệu UTT-ViQuAD 2.0 [1]
Tiêu đề: Trung Quốc
Lịch sử Trung Quốc bắt nguồn từ một trong những nền văn minh cô nhất thế giới, phát triển tại lưu vực phì nhiêu của sông Hoàng Hà tại bình nguyên Hoa Bắc Trải qua hơn 5.000
nam, văn minh Trung Hoa đã phát triển trở thành nền văn minh rực rỡ nhất thế giới trong
thời cổ đại và trung cổ, đặc trưng bởi hệ thống triết học rất thâm sâu (nôi bật nhất là Nho giáo, Đạo giáo và thuyết Âm dương ngũ hành) các thành tựu khoa học kỳ thuật nổi bat
(phát minh ra giấy la bàn thuốc sting, dia chan kế, kỹ thuật in ấn ), hoạt động giao thương xuyên châu A với nhiều quốc gia (Con đường tơ lụa) và những đô thị có quy mô dan số và trình độ kiến trúc đứng đầu thé giới vào thời trung cô.
Câu hỏi, câu trả lời và xác minh NLI
Câu hỏi 1: "Những triết học nào đã ảnh hưởng sâu sắc đến Trung Quốc? "
Cau trả lời 1: "Nho giáo, Đạo giáo và thuyết Âm đương ngũ hành"
Xác minh NLI 1: Answerable (có thê trả lời)
Câu hỏi 2: “Những triết học nào đã ảnh hưởng sâu sắc đến khoa học?”
Cau trả lời 2: "Nho giáo, Đạo giáo và thuyết Âm đương ngũ hành”
Xác minh NLI 2: Unanswerable (không thê trả lời)
Nhiệm vụ của nghiên cứu là sử dụng mô hình NLI dé đánh giá tính hợp lệ của câu trả
lời được đề xuất bởi mô hình QA, nghĩa là xác định xem câu trả lời có phù hợp và
chính xác với câu hỏi và ngữ cảnh ban đầu hay không Song song đó, chúng tôi còn
áp dụng NLI dé xử ly văn bản ngữ cảnh thành những văn bản ngữ cảnh mới và huấnluyện lại các mô hình QA, nhăm tăng độ chuẩn xác của câu trả lời Kết quả của nghiêncứu sẽ được đánh giá bằng việc xác định mức độ khả thi của việc sử dụng NLI để xác
minh tính chuân xác của câu trả lời trên các bộ dữ liệu đọc hiệu tự động tiêng Việt.
Trang 16Mục tiêu nghiên cứu
Đánh giá khả năng xác minh của mô hình NLI trong việc chứng thực tính chính xác
của câu trả lời từ mô hình MRC Kết hợp kết quả của NLI va MRC dé đánh giá mức
độ tin cậy của câu trả lời.
Tạo nguồn dữ liệu mới cho mô hình NLI từ dữ liệu MRC, tăng cường sỐ lượng mẫu
dữ liệu mang đặc trưng của MRC Nham tăng cường khả năng kiểm tra tinh đúng đắnthông tin của câu trả lời của NLI sau khi huấn luyện
Áp dụng NLI dé lọc bớt thông tin nhiễu trong đữ liệu MRC, làm cho thông tin liênquan hơn đến câu hỏi Từ đó cải thiện khả năng trả lời chính xác của mô hình MRC
Đối tượng nghiên cứu
- Mô hình đọc hiểu tự động (MRC) tiếng Việt
- Suy luận ngôn ngữ tự nhiên (NL]) trên tiếng Việt.
Pham vi nghiên cứu
Khóa luận tốt nghiệp tập trung nghiên cứu trên bai toán doc hiểu tự động (MRC) và
suy luận ngôn ngữ tự nhiên (NLI) tiếng Việt.
Nghiên cứu trên những bộ dữ liệu MRC và NLI săn có: ba bộ dit liệu đọc hiểu tự
động (UIT-ViNewsQA [2], UIT-ViQuAD 1.0 [3], UIT-ViQuAD 2.0 [1]) và một bộ
dữ liệu suy luận ngôn ngữ (ViNLD).
- UIT-ViNewsQA: Bộ dữ liệu gồm các câu hỏi và câu trả lời liên quan đến tin
tức.
- UIT-ViQuAD 2.0: Bộ dữ liệu theo cấu trúc của SQUAD, cho phép câu trả lời
không có trong văn bản Mục đích nhằm đánh giá khả năng xác minh câu trảlời từ mô hình MRC khi được cung cấp bối cảnh kiến thức rộng hơn
- ViNLI: Bộ dữ liệu nghiên cứu được tạo ra dé nâng cao sự phát triển của các
mô hình NLI trong tiếng Việt.
Kết quả nghiên cứu
Trang 17Áp dụng thành công kỹ thuật NLI trong quá trình xác minh câu trả lời của mô hìnhMRC nhăm tăng cường độ tin cậy của mô hình MRC Đồng thời, chúng tôi cũng đãxây dựng bộ dữ liệu NLI từ đữ liệu MRC để gia tăng khả năng xác minh câu trả lời
của mô hình NLI.
Áp dung kĩ thuật NLI tao ra bộ dir liệu MRC mới với nội dung ngữ cảnh được rút gọn nhằm mục đích nâng cao độ chuẩn xác của mô hình MRC.
Cấu trúc nghiên cứu
Đồ án nghiên cứu của chúng tôi thực hiện gồm 6 chương:
Chương 1: Tổng quan
Chúng tôi sẽ tập trung trình các thông tin ban đầu đề giải thích về bài toán Chúng tôi
giới thiệu sơ bộ về bài toán đọc hiểu tự động, các xu hướng hiện nay trong việc nâng
cao hiệu suất QA từ đó đưa ra giải pháp của mình Đề cập đến tính ứng dụng của đềtài vào bài toán thực tế
Chương 2: Các công trình liên quan
Chúng tôi trình bày môi quan hệ giữa nghiên cứu của mình với các bài báo trước đây.Các dữ liệu liên quan được sử dụng cho mục đích nghiên cứu của khóa luận Đồngthời trình bày các kỹ thuật và mô hình liên quan cần thiết để nâng cao độ chuẩn xáccho mô hình đọc hiều
Chương 3: Nghiên cứu phương pháp
Trong chương này chúng tôi trình bày từng bước thực hiện được sử dụng trong nghiên
cứu là ứng dụng NLI dé tăng cường độ chính xác QA trên bộ dữ liệu tiếng Việt Tập
trung phân tích trên hai dạng câu hỏi là câu hỏi có thể trả lời được (answerable) và
câu hỏi không trả lời được (unanswerable) Ngoài ra, đề xuất phương pháp ứng dụng
kỹ thuật suy luận ngôn ngữ tự nhiên dé rút gọn ngữ cảnh giúp tăng cường khả năng
trả lời của mô hình QA.
Chương 4: Xây dựng dữ liệu
Trang 18Nội dung này nhằm mục đích giải thích kỹ càng quá trình chúng tôi tạo nên các bộ
dữ liệu hoàn chỉnh cho việc nghiên cứu trong nội dung chương 3 Bao gồm các bước
từ tiền xử lý dé đưa ra cách giải quyết kip thời đảm bảo chất lượng của dữ liệu choviệc huấn luyện Chúng tôi chia thành 3 nhóm dit liệu chính là bộ dữ liệu tao câu gia
thuyết, bộ dữ liệu QA_NLI và bộ dữ liệu rút gọn ngữ cảnh.
Với bộ dữ liệu tạo câu giả thuyết được sử dụng từ bộ dữ liệu QA2D [4] tạo thành bộ
dữ liệu ViQA2D Tiếp theo, dé huấn luyện cho mô hình NLI nên chúng tôi sử dụng
bộ dữ liệu ViNLI [5] và tạo thêm dữ liệu NLI từ 2 bộ dữ liệu MRC là UIT-ViNewsQA
[2] và UIT-ViQuAD 2.0 [1] Sau đó, bộ dữ liệu UIT-ViQuAD 1.0 [3] được rút gọn
ngữ cảnh mới được tạo ra sẽ sử dụng nhằm mục đích tăng cường QA
Chương 5: Thực nghiệm và đánh giá kết quả
Quy trình thực nghiệm ứng dụng NLI dé tăng độ chuẩn xác cho mô hình QA sẽ đượcgiải thích kỹ càng trong chương này Bắt đầu băng việc cài đặt mô hình NLI và môhình QA trên dữ liệu tiếng Việt Từ đó thống kê kết quả từ nhiều mô hình huấn luyện
và đánh giá chì tiết hiệu suất của từng mô hình Từ đó, chứng thực được hiệu quả củaviệc sử dụng NLI dé cải thiện độ tin cậy của mô hình QA tiếng Việt, đồng thời mở ranhững hướng nghiên cứu mới trong lĩnh vực NLP tiếng Việt
Chương 6: Kết luận
Kết quả của diễn biến thực hiện khóa luận mà chúng tôi đạt được sẽ được giải trìnhtrong nội dung chương này Các ưu nhược điểm của chính đồ án này sẽ được tổnghợp từ đó đề ra hướng cải thiện trong tương lai
Trang 19Chương 1 TONG QUAN
1.1 Bài toán đọc hiểu tự động tiếng Việt
Đọc hiểu tự động (Machine Reading Comprehension - MRC) là một trong những lĩnh
vực nghiên cứu chính trong xử lý ngôn ngữ tự nhiên (NLP) MRC yêu cầu máy tính
đọc, hiểu văn ban và trả lời các câu hỏi có mối quan hệ đến văn bản đó Công việcnày, mặc dù đơn giản đối với con người, nhưng lại là thử thách lớn đối với máy tính
Việc trả lời một câu hỏi dựa vào dữ kiện của một văn bản cho sẵn không phải lúc nào
cũng giản đơn, ngay cả đối với con người Do đó, yêu cầu máy tính có thê trả lời đúngcâu hỏi từ đoạn văn bản là một nhiệm vụ khó khăn NLP nhằm giúp hệ thống máytính hiểu ngôn ngữ con người sử dụng, từ đó có thê tương tác thông qua các ngữ cảnh
cụ thể Đây chính là nhiệm vụ mà các hệ thống đọc hiểu tự động văn bản đảm nhiệm
Việc cải thiện các mô hình MRC không chỉ yêu cầu khả năng xử lý và phân tích ngônngữ mà còn yêu cầu hệ thống phải có khả năng suy luận, kết hợp thông tin từ nhiềunguồn và hiểu rõ ngữ cảnh Thách thức này càng lớn hơn đối với tiếng Việt do đặc
thù ngữ pháp và cú pháp phức tạp của ngôn ngữ này Tuy nhiên, với sự tăng trưởng
của công nghệ AI và NLP, cùng với sự quan tâm ngày càng nhiều từ cộng đồng nghiêncứu, việc xây dựng các hệ thống MRC cho tiếng Việt đang trở nên khả thi và hứa hẹnmang lại nhiều ứng dụng hữu ích trong tương lai
1.2 Các xu hướng cải thiện hiệu suất QA
Các xu hướng cải thiện hiệu suất QA hiện nay có thé kế đến như học chuyền tiếp
(Transfer Learning), học tăng cường (Reinforcement Learning), xử lý đa ngôn ngữ (Multilingual Processing).
1.2.1 Hoc chuyén tiếp (Transfer Learning)
La một phương pháp trong hoc máy, trong đó mô hình đã được thử nghiệm trước trên
một nguồn dit liệu lớn sau đó từng bước huấn luyện, tinh chỉnh trên một nguồn ditliệu nhỏ hơn chú ý vào một chức năng nhất định Ở đây có thé nói đến việc tinh chỉnhcác mô hình QA trên nguồn dữ liệu tiếng Việt dé có thé trả lời các câu hỏi trong ngữ
Trang 20cảnh tiếng Việt Tận dụng nguồn dữ liệu QA tiếng Việt dồi dào, kỹ thuật này giúpcho kết quả của mô hình QA được cải tiến.
1.2.2 Hoc tăng cường (Reinforcement Learning):
Ở kỹ thuật này, một thực thể sẽ tiến hành tương tác với môi trường, khi thực hiệnhành động tốt thì thực thể sẽ nhận được phần thưởng và ngược lại là hình phạt Trongbối cảnh QA, thực thé là mô hình, môi trường là bộ đữ liệu bao gồm câu hỏi và ngữcảnh, hành động là đưa ra câu trả lời và phần thưởng là độ chính xác của câu trả lời
Kỹ thuật này chính là hướng đi đầy tiềm năng trong việc cải tiến hiệu suất của các
mô hình QA.
1.2.3 Xử lý đa ngôn ngữ (Multilingual Processing):
Thay vì xây dựng riêng lẻ cho từng ngôn ngữ, kỹ thuật này cho phép tận dụng dữ liệu
từ nhiều ngôn ngữ khác nhau dé nâng tam khả năng hiểu và trả lời câu hỏi của mô
hình Các mô hình đa ngôn ngữ như mBERT [6] và XLM-RoBERTa [65] được thực
nghiệm trên nhiều ngôn ngữ, giúp tận dụng kiến thức ngôn ngữ chung và cải thiện
khả năng chuyên đôi giữa các ngôn ngữ.
1.3 Tang cường QA thông qua NLI
1.3.1 Tang cường NLI
Trong đồ án trước đó của Demszky và cộng sự (2018) [4], họ trình bày kỹ thuậtchuyền đồi bộ dữ liệu QA sang NLI, trong đó có đề cập đến phương pháp chuyền đồi
các cặp câu hỏi (Question) và câu trả lời (Answer) thành các cặp dữ liệu NLI Sau đó,
nếu câu trả lời ban đầu là đúng thì sẽ gán nhãn cho cặp dữ liệu NLI đã tạo là “kéotheo” (Entailment) và ngược lại nếu câu trả lời là sai thì nhãn sẽ là “không kéo theo”(Not Entailment) Dé thực hiện phương pháp này thì họ đã sử dụng những cách như:tạo nên hệ thống chuyền đổi dựa trên quy tắc (Rule-based system), chuyển đồi thủcông bằng tay và cuối cùng là thử nghiệm mô hình LSTM với dữ liệu huấn luyệnđược lay từ hai phương pháp trước đó
Trang 21Mục đích chính của phương pháp để tạo ra những model NLI mạnh mẽ hơn bằngphương pháp chuyền đổi các tập dữ liệu QA hiện có thành các tập dữ liệu NLI Điềunày giúp tận dụng lượng lớn dữ liệu QA sẵn có dé huấn luyện các mô hình NLL Từ
đó, giúp nâng cao khả năng suy luận logic của mô hình NLI Các mô hình NLI cầnphải xác định xem một câu giả thuyết có được suy ra từ một đoạn tiền đề hay không,điều này đòi hỏi khả năng hiểu sâu và suy luận logic
Việc tạo ra dữ liệu NLI từ nhiều tập dữ liệu QA giúp đa dạng hóa nguồn đữ liệu thựcnghiệm cho mô hình NLI Điều này có thể giúp mô hình khái quát hóa tốt hơn và hoạtđộng hiệu suất hơn trên các nhiệm vụ khác nhau Đặc biệt, có thé giúp giảm sự phụ
thuộc vào dữ liệu NLI được tạo thủ công.
Tuy nhiên, phương pháp của này có thể tạo ra một số nhiễu trong đữ liệu NLI được
tạo ra Nhưng lợi ích của việc có thêm dữ liệu huấn luyện đa dạng và phong phú vượt
trội hơn so với những hạn chế này.
1.3.2 Tang cường QA
Dé mô hình QA có thé đưa ra câu trả lời hợp lý thì trong đoạn văn ngữ cảnh phảichứa thông tin về câu trả lời Nhưng trong đoạn văn ngữ cảnh không chỉ chứa thông
tin về câu trả lời mà còn chứa rất nhiều thông tin khác, trong đó có những thông tin
không liên quan hay có thể gọi là thông tin nhiễu Những thông tin nhiễu này gây khókhăn cho mô hình QA dé có thé đưa ra câu trả lời đáng tin cậy Hiểu rõ van đề này,Chen và cộng sự (2021) [6] đã đề bạt phương pháp rút gọn ngữ cảnh băng cách sửdụng mô hình T5-3B [7] Đầu vào của mô hình bao gồm câu trả lời và đoạn contextchứa câu trả lời đó, sau đó sử dụng mô hình T5-3B [7] đã huấn luyện dé nhận được
đoạn ngữ cảnh đã được khử thông tin nhiễu.
1.4 Đóng góp chính của đề tài
Bài nghiên cứu của chúng tôi đóng góp những điều như sau:
- B6 dữ liệu NLI mang đặc tính QA được tạo thành bằng cách chuyền các bộ
dữ liệu QA tiếng Việt sang NLI
10
Trang 22- Bộ dữ liệu QA với phần ngữ cảnh được rút gọn, cô đọng chú trọng vào câu trả
lời hơn.
- Ung dụng NLI vào việc xác thực các câu trả lời mà hệ thống MRC đưa ra
- _ Hiểu rõ hơn về khả năng của việc sử dụng NLI trong việc xác thực các câu trả
lời mà hệ thống QA đưa ra
Trang 23Chuong 2 CAC CÔNG TRÌNH LIÊN QUAN
Trong thời gian gần đây, các mô hình đọc hiểu tự động đã đạt được những cai tiếnđáng ké nhờ sự phát triển của các kiến trúc mạng nơ-ron sâu và nguồn dữ liệu huấnluyện phong phú Tuy nhiên, thử thức lớn đối với các mô hình MRC là khả năng suyluận và lý giải thông tin Với vấn đề này, các nhà nghiên cứu đã bắt đầu khám pháviệc tích hợp suy luận ngôn ngữ tự nhiên vào các mô hình MRC Dé có cái nhìn trựcquan hơn, chúng tôi đã tìm hiểu các công trình liên quan đã đóng góp vào sự tăngtrưởng của lĩnh vực này, từ đó làm rõ hơn về tiềm năng và những thử thách trong việckết hợp NLI vào MRC
2.1 Các bộ dữ liệu liên quan
2.1.1 Bộ dữ liệu MRC
Các bộ dit liệu MRC hiện tại có thé tạm được chia thành 4 loại phù thuộc vào cách
đưa ra câu trả lời: kiều điền chỗ trồng [8], lựa chọn nhiều câu trả lời [9], trích xuất
đoạn văn [10] và dạng tự do [11] Nhưng chiếm phần lớn trong số đó là dit liệu MRC
tiếng Anh Chúng tôi chú trọng nghiên cứu vào việc xây dựng dit liệu theo kiểu trích
xuất đoạn văn cho tiếng Việt
2.1.1.1 Công trình trên thế giới
SQuAD 1.0 [12] và SQuAD 2.0 [13] là một trong những tập dữ liệu tiếng Anh nổitiếng nhất cho MRC trích xuất đoạn văn bản, nguồn tài nguyên cho sự tăng trưởngcủa nhiều mô hình học máy Đó là nguồn cảm hứng cho nhiều bộ đữ liệu MRC khácphát triển trên nhiều ngôn ngữ: KorQuAD [14], FQuAD [15], SberQuAD [16],
CMRC [10]
NewsQA [17] là một tập dữ liệu tiếng Anh khác, tương tự như SQuAD vì câu trả lờicho mỗi câu hỏi là một đoạn văn bản có độ dài tùy ý trong bài báo tin tức tương ứng.
Bộ dữ liệu được thu thập từ 12.744 bài báo từ CNN News, tổng hợp lại thành 119.633
cặp câu hỏi và câu trả lời.
12
Trang 242.1.1.2 Công trình trong nước
Các đề tài nghiên cứu về đọc hiểu tự động trong nước hiện đang được nhiều người
quan tâm đến Nhưng số lượng đữ liệu vẫn chưa đủ lớn gây ra sự hạn chế khá nhiều
trong việc phát huy các mô hình học sâu Bộ dữ liệu đầu tiên của Việt Nam làViMMRC [18] bao gom 2.783 cặp câu hỏi - câu tra lời thuộc loại lựa chon nhiều câu
trả lời đành cho học sinh tiểu học.
Với loại dữ liệu trích xuất văn bản, UIT-ViQuAD 1.0 [3] là đữ liệu mở phô biến đượctạo ra từ 174 bài báo tiếng Việt từ Wikipedia, bao gồm hơn 23 nghìn cặp câu hỏi và
câu trả lời Kết hợp với UIT-ViQuAD 1.0 [3] và thêm 12 nghìn cặp câu hỏi không
thê trả lời được tạo nên UIT-ViQuAD 2.0 [1]
Ngoài ra, UIT-ViNewsQA [2] cũng thuộc kiểu dữ liệu trích xuất văn bản cho tiếngViệt dé đánh giá các mô hình đọc hiệu chăm sóc sức khỏe Bộ dit liệu bao gồm 22.077cặp câu hỏi - câu trả lời do con người tạo ra từ hơn 4.419 bài báo trực tuyến về chăm
sóc sức khỏe.
2.1.2 Bộ dữ liệu NLI
2.1.2.1 Công trình trên thế giới
Các dit liệu NLI ban đầu được tạo ra bằng cách thủ công đóng góp cho nhiệm vụ
Nhận dạng Liên kết Văn bản (RTE) [19] Với kích thước chưa đến vài nghìn mẫu,
điều này gây ra hạn chế lớn vào việc đánh giá các mô hình NLI thống kê và logic
Vào năm 2015, SNLI [20] được tạo ra với kích thước lớn hơn Mặc dù vẫn được tạothủ công, nhưng bộ dit liệu chứa đến 570 nghìn mẫu tiếng Anh phục vụ cho đánh giá
các mô hình NLI Kéo theo nhiều bộ dữ liệu NLI khác được tạo ra với quy mô lớn:
STS-B [21], QQP [22], MultiNLI [23]
Sự phát triển của các bộ dữ liệu NLI tiếng Anh với quy mô lớn được tạo ra kéo theonhiều tập đữ liệu NLI của các ngôn ngữ khác xuất hiện Cộng đồng nghiên cứu NLPtrên thế giới đóng góp vào sự đa dang cho nghiên cứu về NLI: OCNLI [24], SICK-
NL [25], KorNLI [26], IndoNLI [27], NLI En-HI [28], FarsTail [29],
13
Trang 252.1.2.2 Công trình trong nước
Hiện tại vẫn còn khá ít các công trình nghiên cứu về NLP trong nước, mở đầu cho
bộ dit liệu NLI tiếng Việt là vnNLI [30] Đây là bộ dit liệu NLI song ngữ (tiếng
Việt-Anh) được tạo ra với quy mô lớn, kích thước khoảng 16.200 cặp câu trong lĩnh vực
y tế
Bên cạnh đó, ViNLI [5], một kho dit liệu mở và chất lượng cao dé đánh giá các môhình NLI tiếng Việt ViNLI [5] bao gồm hơn 30.000 cặp câu tiền đề-giả thuyết docon người chú thích thủ công được trích xuất từ hơn 800 bài báo trực tuyến về 13 chủ
đề riêng biệt
VnNewsNLI [31] là một đóng góp quan trọng trong việc thúc đây nghiên cứu NLP
tiếng Việt Bộ dữ liệu này tập trung vào các cặp câu trích xuất từ tin tức, mở rộng
phạm vi nghiên cứu của các mô hình NLI vào lĩnh vực phân tích và xử lý thông tin
báo chí Kích thước của bộ dữ liệu khá lớn khi lên đến 42.239 cặp câu chia đều thành
3 nhãn là Entailment, Neutral, Contradiction.
VLSP 2021 - vnNLI Challenge (VLSP2021) [32] không chỉ giới thiệu bộ dữ liệu song
ngữ tiếng Anh-Việt mà còn tô chức một cuộc thi về NLI, tạo động lực cho cộng đồngnghiên cứu NLP trong nước phát triển các mô hình tiên tiến hơn Kết quả thu thậpđược hơn 20.000 dữ liệu về NLI, hỗ trợ cho quá trình nghiên cứu NLP
ViHealthNLI [33] tập trung vào lĩnh vực y tế, cung cấp một nguồn tài nguyên quýgiá cho việc xây dựng các ứng dụng NLP hỗ trợ chan đoán, tư van sức khỏe và nghiêncứu y khoa băng tiếng Việt Việc chú thích thủ công tỉ mỉ đảm bảo chất lượng và độ
tin cậy của bộ dữ liệu này.
2.2 Các phương pháp nghiên cứu liên quan
2.2.1 Cac mô hình MRC thông dụng
Các mô hình Machine Reading Comprehension (MRC), với khả năng tự động trích
xuất câu trả lời từ văn bản, đã trải qua một kế hoạch phát triển vượt bậc, từ nhữngphương pháp thống kê giản đơn đến các kiến trúc mạng neural phức tạp
14
Trang 262.2.1.1 Phương pháp thống kê
Các mô hình MRC ban đầu thường dựa trên kỹ thuật này như TF-IDF và các quy tắcdựa trên mẫu (pattern-based rules) Chúng thực hiện bằng cách so khớp các từ khóa
trong câu hỏi với đoạn văn và lựa chọn câu trả lời dựa trên tần suất xuất hiện hoặc
các quy ước được xác định trước.
TF-IDF được ứng dụng trong đa dạng các bài toán NLP [34] và bài toán phân tích
cảm xúc [35] Từ đó nhiều nghiên cứu xoay quanh về TF-IDF được ra đời và tạo ranhiều biến thé đạt hiệu quả cao như STF-IDF [36]
TF-IDF va các quy tắc dựa trên mẫu được ứng dụng hiệu quả trong một số tác vụ
NLP, hoặc khi kết hợp với nhiều phương pháp khác Tuy nhiên, các kỹ thuật này
thường không đạt hiệu suất cao bằng các mô hình học sâu hiện đại trong các tác vụ
phức tạp hơn Chúng thường gặp thử thách trong việc xử lý các câu hỏi phức tạp và các đoạn văn dài.
2.2.1.2 Kiên trúc mang neural
Với sự cải tiến của mạng neural, các mô hình MRC đã có những bước tiễn vượt bậc
Các kiến trúc như BiDAF [37] và các biến thể của nó đã sử dụng cơ chế attention dé
chú trọng vào các phan quan trọng của đoạn văn liên quan đến câu hỏi, từ đó cải tiễnđáng ké độ chuẩn xác của câu trả lời BIDAF++ [38] là một phiên bản cải tiến củaBiDAF [37], chú trọng vào việc cải tiễn khả năng self-attention và mô hình hóa ngữ
cảnh.
Sự xuất hiện của kiến trúc Transformer, đặc biệt là mô hình BERT [39], đã đánh dấumột bước cải tiến mới trong lĩnh vực MRC Nhờ khả năng học biểu diễn ngữ nghĩasâu và linh hoạt, BERT [39] và các biến thé của nó đã dat được những hiệu quả vượt
trội trên nhiều bộ dit liệu MRC khác nhau Với ngữ cảnh tiếng Việt, PhoBERT [40] được phat triển bởi VinAI Research, đạt hiệu suất cao trên nhiều tác vu NLP tiếng
Việt.
15
Trang 27Các nghiên cứu về MRC hiện nay tập trung vào việc cải tiến các mô hình mạnh mẽhơn, có khả năng xử lý các câu hỏi phức tạp hơn, bao gồm cả các câu hỏi đòi hỏi suyluận logic và kiến thức bên ngoài thế giới Ngoài ra, việc kết hợp MRC với các lĩnhvực khác như NLI cũng đang được đây mạnh, nhằm tạo ra những ứng dụng thực tế
hơn và có giá trị hơn cho con người.
2.2.2 Các phương pháp biểu diễn từ
Biểu diễn từ hỗ trợ quan trọng trong việc giúp các mô hình MRC hiểu được ý nghĩa
và quan hệ giữa các từ trong đoạn văn bản Có đa dạng phương pháp biéu diễn từ,
mỗi phương pháp có những ưu nhược điểm riêng
2.2.2.1 Word embedding
La kỹ thuật cơ bản, biéu diễn mỗi từ đưới dang một vector Các từ có ngữ nghĩa tươngđồng sẽ được biểu diễn thành vector gần nhau trong không gian vector Mục tiêu của
kỹ thuật này là nắm bắt được ý nghĩa và quan hệ của các từ trong văn bản Hiện nay
có các mô hình word embedding phô biến như Word2Vec [41], PhoW2V [42], GloVe
[43] fastText [44] Tuy nhiên, phương pháp này còn hạn chế khi nắm bắt được sự đanghĩa của từ, tức là tùy thuộc vào ngữ cảnh một từ có thể có nhiều nghĩa khác nhau
2.2.2.2 Contextualized word embedding
Khắc phục điểm yếu của word embedding, phương pháp này biểu diễn mỗi từ dựatrên ngữ cảnh của nó trong câu, cho phép nam bắt được các sắc thái ý nghĩa khácnhau của từ trong các ngữ cảnh khác nhau Các mô hình tiêu biểu sử dụng phươngpháp này là ELMo [45], BERT [39] và các biến thể của nó như RoBERTa [46] vàALBERT [47] Nhờ khả năng hiểu ngữ cảnh, các mô hình này đã đạt được những kếtquả vượt trội trong nhiều tác vụ NLI, bao gồm cả MRC
2.3 Robust Question-Answering
Các hệ thống QA hiện dai, mặc dù đã có nhiều tiến bộ, vẫn gặp khó khăn trong việcđưa ra câu trả lời chính xác khi đối mặt với những câu hỏi phức tạp hoặc đòi hỏi khả
16
Trang 28năng suy luận cao (Rajpurkar và cộng sự, 2018 [13]; Chen va Durrett, 2019 [48]; Wallace và cộng sự, 2019 [49]; Kaushik và cộng sự, 2019 [50]).
2.3.1 Giải pháp tang cường
Phương pháp perturbation based và huấn luyện adversarial: Các nghiên cứu của
Wang và Bansal (2018) [51], Khashabi và cộng sự (2020) [52], Liu và cộng sự (2020)
[53] sử dụng các kỹ thuật này dé làm cho mô hình "quen" với các dang nhiễu và biếnthé trong câu hỏi, giúp chúng đưa ra câu trả lời chính xác hơn trong các tình huốngthực tế
Generative QA: Lewis và Fan (2018) [54] đề xuất phương pháp này dé tránh tình
trạng mô hình học thuộc lòng các mẫu đơn giản và không thê xử lý các câu hỏi phức
tạp hơn.
Advanced regularizers: Yeh và Chen (2019) [55], Zhou và cộng sự (2020) [56] sử
dụng các bộ điều chuẩn phức tạp hơn dé giúp mô hình khái quát hóa tốt hơn và tránh
hiện tượng quá khớp (overfitting).
Loại bỏ sai lệch trong tập train: Clark và cộng sự (2019) [57] sử dụng phương pháp
huấn luyện dựa trên tập hợp để giảm thiểu sai lệch trong dữ liệu train, từ đó cải thiện
khả năng khái quát hóa của mô hình.
Căn chỉnh đồ thị: Chen và Durrett (2021) [48] sử dụng kỹ thuật căn chỉnh đồ thị đểliên kết thông tin trong câu hỏi và đoạn văn một cách rõ ràng hơn, giúp mô hình hiểu
rõ hơn mỗi quan hệ giữa chúng.
2.3.2 Xác minh câu trả lời
Đây là một hướng đi khác dé cải thiện tính mạnh mẽ của hệ thống hỏi đáp (Hu và
cộng sự, 2019 [58]; Kamath và cộng sự, 2020 [59]; Wang và cộng sự, 2020 [60];
Zhang và cộng sự, 2021 [61]) Công trình nghiên cứu của chúng tôi tiếp cận theohướng này, nhưng sử dụng mô hình NLI để thực hiện việc xác minh Cách tiếp cậnnày giúp xác minh câu trả lời rõ ràng hơn Nhờ có sự kết hợp các tập dữ liệu NLI từ
17
Trang 29các dữ liệu khác vào quá trình huấn luyện, giảm sự phụ thuộc vào dữ liệu QA đượcgan nhãn trong dir liệu.
2.4 NLI cho các tác vụ khác
Natural Language Inference (NLD là một nhiệm vu quan trọng trong Natural
Language Processing (NLP) NLI tập trung vào việc xác định mối quan hệ ngữ nghĩagiữa hai câu văn, thường là một tiền đề và một giả thuyết Một số ứng dụng phổ biếncủa NLI có thể kế đến như:
2.4.1 Tóm tắt văn bản:
NLI giúp hệ thống tóm tắt hiéu rõ mối quan hệ giữa các câu, đoạn văn, cũng như ýnghĩa ân dụ, so sánh trong văn bản Điều này cho phép hệ thống tạo ra bản tóm tắtchính xác và bám sát nội dung sốc hơn Nghiên cứu cua Xiao, D và cộng sự (2020)[62] sử dụng NLI dé huấn luyện mô hình ERNIE-GEN [62], một mô hình tạo vănbản mạnh mẽ, giúp cải thiện khả năng tạo ra các bản tóm tắt trôi chảy và bám sát nộidung sốc
2.4.2 Dich máy:
NLI có thể được sử dụng để so sánh bản dịch máy với bản dịch của con người hoặcbản gốc, từ đó đánh giá độ chính xác và tự nhiên của bản dịch Ngoài ra, NLI còn có
thé được tích hợp vào quá trình dịch đề có thé tự động sửa lỗi và cải thiện bản dịch
Liu và cộng sự (2020) [63] đã thành công trong việc sử dụng NLI để cải thiện chấtlượng dịch máy bằng cách giảm nhiễu trong dữ liệu huấn luyện, giúp mô hình dịchhiểu rõ hơn ngữ cảnh và tạo ra bản dịch chính xác hơn
2.4.3 Truy vấn thông tin:
Đánh giá mức độ tương đồng giữa câu truy vấn và nội dung là nhiệm vụ quan trọng
dé xác định xem câu truy van của người dùng và tài liệu có liên quan đến nhau không.Bang cách dùng các kỹ thuật NLI, ta có thé đo lường mức độ tương đồng này một
cách tự động và hiệu quả Nghiên cứu sử dụng NLI của Nogueira và cộng sự (2020)
18
Trang 30[64] thành công đánh giá mức độ liên quan giữa câu truy van và tài liệu, giúp cải thiệnhiệu quả của hệ thống truy vấn thông tin.
2.5 Các mô hình tham khảo chính
2.5.1 Mô hình mBERT
Multilingual BERT hay viết tắt là mBERT [39] là mô hình ngôn ngữ đa ngôn ngữđược phát triển bởi Google Được xây dựng dựa trên kiến trúc BERT [39], một trongnhững kiến trúc transformer tiên tiễn nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên
(NLP).
Mô hình này được huấn luyện trên dữ liệu từ nhiều ngôn ngữ khác nhau, bao gồm cả
tiếng Việt Điều này làm cho mBERT [39] có khả năng nắm bắt được sự đa dạng và
phức tạp trong ngôn ngữ cua con người Việt Nam.
ER./ SQuAD Start/End =>
Hình 2.1: Quy trình pre-training và fine-tuning tong thé cho BERT [39]
mBERT sử dụng một quy trình hai giai đoạn gồm pre-training va fine-tuning dé xử
lý dữ liệu như trong hình 2.1:
Trong giai đoạn pre-training, mô hình được huấn luyện trên một lượng lớn dữ liệu
văn bản không có nhãn trong hai nhiệm vụ: “Masked Language Model” (MLM),
“Next Sentence Prediction” (NSP) MLM liên quan đến việc che ngẫu nhiên một số
từ trong văn bản đầu vào và sau đó mô hình được giao nhiệm vụ dự đoán ID từ vựngban đầu của từ bị che khuất NSP liên quan đến việc huấn luyện mô hình dé dự đoán
19
Trang 31liệu hai câu có liên tiếp trong một văn bản hay không Các nhiệm vụ pre-training này
cho phép mô hình phát triên sự hiêu biệt sâu rộng vê môi quan hệ giữa các từ và câu.
Trong giai đoạn fine-tuning, mô hình sau đó được điều chỉnh cho một nhiệm vụ cụ
thé bang cách thêm một số lớp nhỏ cụ thé cho nhiệm vụ trên đầu mô hình được đàotạo trước Điều này cho phép mô hình tận dụng kiến thức chung mà nó đã học được
từ giai đoạn pre-training dé nhanh chóng thích ứng với các nhiệm vụ mới.
Nhìn chung, hai giai đoạn của quy trình gồm pre-training và fine-tuning cho phépmBERT [39] đạt được hiệu qua tốt trên nhiều nhiệm vụ NLI
Bộ dữ liệu train tiếng Việt: Kích thước của tập train dành cho PhoBERT [40] lênđến 20GB hon rat nhiều so với 1GB của mBERT [39] Điều này giúp PhoBERT [40]
hiểu rõ hơn ngữ pháp, ngữ nghĩa, và các đặc trưng riêng của tiếng Việt.
Xử lý từ tiếng Việt: Cách tách từ của hai mô hình là khác nhau BERT [39] sử dụng
WordPiece, không phù hợp với tiếng Việt do các từ thường được ghép lại và không
có dau cách rõ ràng Trong khi, PhoBERT [40] sử dụng BPE (Byte Pair Encoding),năng suất hơn trong việc xử lý từ tiếng Việt
Hiệu suất: Khi áp dụng trên tiếng Việt, bảng 2.1 thống kê được PhoBERT [40] đạthiệu suất vượt trội so với BERT [39] trong các tác vụ NLP như phân loại văn ban,nhận dạng thực thể đặt tên, trả lời câu hỏi, và dịch máy
20
Trang 32Bảng 2.1: Hiệu suất mô hình trên tập test XNLI
2.5.3 Mô hình XLM-R
XLM-R [65], viết tắt của Cross-Lingual Masked Language Model RoBERTa, là một
mô hình đa ngôn ngữ phát triển bởi Facebook AI Research XLM-R [65] được tạo từkiến trúc ROBERTa [46], một mô hình Transformer được tinh chỉnh từ BERT [39]
Bên cạnh đó, XLM-R [65] còn được huấn luyện trên một tap dir liệu to lớn gồm văn
bản từ 100 loại ngôn ngữ, bao gồm tiếng Việt Điều này mang lại lợi thế to lớn vìnghiên cứu này của chúng tôi tập trung trên các bộ dit liệu MRC và NLI tiếng Việt
Bảng 2.2: Kết quả GLUE trên bộ dữ liệu dev XNLI [65]
GLUE (%)
Model
QNLI QQP SST MRPC | STS-B Avg BERT Large [39] 92.3 91.3 93.2 88.0 90.0 90.2
XLNettzarge 93.9 91.8 95.6 89.2 91.8 92.0
RoBERTa [46] 94.7 92.2 96.4 90.9 92.4 92.8 XLM-R [65] 93.8 92.3 95.0 89.5 91.2 91.8
21
Trang 33Thống kê từ bảng 2.2, XLM-R [65] đạt kết quả khá cao khi thực nghiệm trên điểmchuân GLUE, một tập dit liệu đánh giá được xây dựng dé kiểm tra khả năng của môhình bằng tiếng Anh Bảng 3.3 cho thấy XLM-R [65] đạt độ chính xác trung bình91,8% so với 92,8% của RoBERTa [46] Điều này cho thay XLM-R [65] có thé hoạt
động tốt trên các nhiệm vụ đòi hỏi sự hiểu biết và lập luận bằng tiếng Anh và các
ngôn ngữ khác, mặc dù nó là một mô hình đa ngôn ngữ được đào tạo trên 100 ngôn
ngữ.
2.5.4 Mô hình VinAI Translate
VinAI Translate [66] được phát triển bởi đội ngũ người Việt Nam, am hiểu sâu sắc
về ngôn ngữ và văn hóa Việt Do đó, hệ thống có khả năng xử lý tốt các đặc thù của
tiếng Việt, mang lại bản dịch chính xác và tự nhiên hơn so với các công cụ dịch khác Hơn nữa, mô hình này được huấn luyện trên bộ dữ liệu PhoMT chất lượng cao, bao
gồm 3 triệu cặp câu song ngữ Anh-Việt Trong hình 2.3 và hình 2.4, chứng minh
được mô hình VinAI Translate [66] dịch hiệu quả hơn google translate trên song ngữ.
Việc huấn luyện trên dữ liệu chất lượng cao giúp hệ thống học được các mẫu dịch
thuật chính xác và tự nhiên hơn.
22
Trang 34Hình 2.2: Kết qua mô hình dịch thuật từ Anh sang Việt do con người đánh giá [66]
BVinAl Google Translate
Hình 2.3: Kết qua mô hình dich thuật từ Việt sang Anh do con người đánh giá [66]
23
Trang 352.5.5 Mô hình QANet
QANéet [67] sử dụng kết hợp convolution layer và self-attention layer, thay vì RNN
Điều này làm cho nó nhanh hơn dé đào tạo Mô hình cũng có thé đạt được độ chuẩn
xác cao hơn gấp 3 đến 13 lần trên tập dữ liệu SQUAD [12]
Model One Encoder
Block
Feedfoward layer
Stacked Model Encoder Blocks
Stacked Model Encoder Blocks
Stacked Model
Encoder Blocks
Stacked Embedding Stacked Embedding
Encoder Blocks Encoder Blocks
Embedding
Position Encoding
Hình 2.4: Kiến trúc mô hình QANet [67]
Hình 2.4 là kiến trúc của mô hình mô tả hoạt động theo 5 lớp như sau:
Input Embedding Layer: Lớp này lẫy các từ từ đoạn văn ngữ cảnh và câu hỏi vàchuyên đổi chúng thành vectơ
Embedding Encoder Layer: là một tập hợp bao gồm các tập hợp cơ bản sau:
“convolution-layer”, “self-attention-layer”, “feed-forward-layer” Mỗi convolutionlayer sử dụng các phép biến đổi convolution có thê tách rời, hiệu quả hơn các phép
24
Trang 36biến đổi convolution truyền thống Các self-attention layer cho phép mô hình tập
trung vào các phân quan trọng của dau vào.
Context-Query Attention Layer: Lớp này tính toán điểm tương đồng giữa mỗi từ
trong đoạn văn ngữ cảnh và mỗi từ trong câu hỏi Điều này giúp mô hình hiéu cách
câu hỏi liên quan đên đoạn văn ngữ cảnh.
Model Encoder Layer: Lớp này xếp chồng lên nhau một số convolution layer vàself-attention layer, cùng với một lớp chuyên tiếp Lớp này lấy đầu ra từ Embedding
Encoder Layer làm đâu vào.
Output layer: Lớp này dành riêng cho nhiệm vụ trả lời câu hỏi Nó lay đầu ra từModel Encoder Layer và dự đoán phân phối xác suất trên vị trí bắt đầu và kết thúc
của câu trả lời trong đoạn văn ngữ cảnh.
2.5.6 Mô hình ViTS
ViT5 [68] là một mô hình đơn ngôn ngữ cho Tiếng Việt dựa trên kiến trúc T5 [7] T5[7] là một mô hình AI do Google Research phát triển, được tạo ra dé giải quyết cácbài toán tao sinh văn bản Mô hình T15 [7] được dùng trong nhiều trường hợp như tạo
sinh văn bản, dịch thuật và phát hiện tình huống trong các câu chuyện.
Mô hình ViT5 [68] đánh dấu bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tựnhiên cho Tiếng Việt Với kiến trúc như hình 2.5, ViT5 [68] đã trải qua quá trình
huấn luyện trên một nguồn dữ liệu đa dạng và chất lượng cao, tạo ra một mô hình cókhả năng ứng dụng rộng rãi trong nhiều tác vụ ngôn ngữ tiếng Việt khác nhau Các
thử nghiệm đã chứng minh rằng ViT5 [68] vượt trội hơn đáng kể so với các mô hìnhđang có ở thời điểm hiện tại
wikilingua: Anh ấy bắt xe tới tham gia bữa tiệc tại một nhà _.
hàng sang trọng Nhưng trong buôi tiệc, anh ấy ngã quy Anh ay đã nhập viện sau khi tham gia bữa tiệc.
xuống và được đưa tới bệnh viện _» (He was hospitalized after attending the party.)
(He took the car to attend a party at a luxury res! t
at the party, he collapsed and was taken to the ho.
" = " —*| <output_text>
: VITS VITS 2
<task_name>: <input_text> + Eneoder by Dị in K ,
| _ Bệnh nhân PATIENT_ID* 75 PATIENT_ID* là GENDER* nữ GENDER" ,
N | \ AGE* 40 AGE* tuổi , dia chi ở LOCATION* Quận 2 LOCATION’ ,
pho_ner: Bệnh nhân 75 là nữ , 40 tuổi , địa chỉ ở } LOCATION* TP HCM LOCATION*
Quận 2, TP HCM (Patient PATIENT_ID* No.75 PATIENT_ID* is a GENDER*
(Patient No.75 is a female, 40 years old, and lives in female GENDER* , AGE* 40 AGE* years old, and lives
ke District 2, HCM city) in LOCATION’ District 2 LOCATION* , LOCATION* HCM city LOCATION")
Hình 2.5: Tổng quan về kiến trúc ViTS [68]
25
Trang 37Chương 3 NGHIÊN CỨU PHƯƠNG PHÁP
Các mô hình MRC hiện nay đã đạt được độ chính xác cao trên các bộ dữ liệu, tuy
nhiên các mô hình này thường thiếu đi khả năng tự đánh giá câu trả lời mà mình đưa
ra Vì vậy, lay cảm hứng từ nghiên cứu của Chen và cộng sự [6] chúng tôi đề xuất sửdụng NLI dé có thé đánh giá câu trả lời mà mô hình MRC đưa ra
Nghiên cứu trước đây của Demszky và cộng sự [4] đã chỉ ra rằng VIỆC chuyển đổi các
bộ dit liệu MRC sang NLI có thể giúp cải thiện khả năng của các mô hình NLI cũng
như mở rộng phạm vi suy luận của mô hình.
Nhận thấy việc đánh giá câu trả lời mà mô hình MRC đưa ra bằng NLI trong bối cảnhtiếng Việt van còn hạn chế, chúng tôi tận dụng nguồn dữ liệu MRC tiếng Việt dồi dao(UIT-ViNewsQA [2], UIT-ViQuAD 1.0 [3], UIT-ViQuAD 2.0 [1], ) để tiến hànhchuyên đổi chúng sang dữ liệu NLI sau đó huấn luyện các mô hình NLI để có thé cải
thiện khả năng đánh giá câu trả lời trên bối cảnh tiếng Việt.
3.1 Phương pháp sử dụng NLI vào xác minh câu hỏi unanswerable QA
Chúng tôi mong muốn giúp mô hình QA nâng cao khả năng xác thực khả năng nhậndiện loại câu hỏi Nên giải pháp đầu tiên chúng tôi đề ra là áp dụng thêm NLI dé nângcao hiệu suất mô hình QA với loại dữ liệu có câu hỏi không trả lời được
(unanswerable QA) Cách tiếp cận của chúng tôi sẽ được mô tả cụ thé trong quy trình
1 1
1 L 1 1
UIT-ViQuAD
20
Hình 3.1: Quy trình sử dụng NLI dé xác minh câu hỏi unanswerable QA
26
Trang 38Bộ dữ liệu UIT-ViQuAD 2.0 [1] là bộ dữ liệu tiếng việt duy nhất hiện tại có được haikiểu câu hỏi là trả lời được và không trả lời được Vì thế, bộ dữ liệu này phù hợp dé
đánh giá kết quả sau khi chúng tôi huấn luyện mô hình NLI
Như trình bày trong hình 3.1, chúng tôi chia quy trình thành 3 bước: Tao sinh câu gia
thuyết, tạo đoạn tiền đề và xác nhận câu trả lời Chi tiết nội dung từng bước được mô
tả theo từng phần bên dưới
3.1.1 Tao sinh câu giả thuyết
Các bước thực hiện với mô hình tạo sinh câu giả thuyết sẽ được trình bày như trong
Câu tra lời
Hình 3.2: Quy trình huấn luyện tạo sinh câu giả thuyết
Tan dụng nguồn tài nguyên sẵn có trong tiếng Anh, bộ dữ liệu QA2D [4] được dịch
ra tiếng việt để huấn luyện cho mô hình tạo câu giả thuyết Vì trong tiếng Việt hiện
vẫn chưa có bộ dữ liệu tương tự QA2D [4] phù hợp cho mục đích này Nên chúng tôi
đã tạo ra ViQA2D tiếng Việt được dịch từ tiếng Anh bang VinAI Translate [66], sẽtrinh bay chi tiết ở nội dung 4.1 Bộ dữ liệu này sẽ được sử dụng dé huấn luyện cho
mô hình ViT5 [68], mô hình tạo câu giả thuyết
27
Trang 39Tiếp theo, mô hình QANet [67], đã được huấn luyện trước, được sử dụng dé dự đoáncâu trả lời cho câu hỏi trong dữ liệu MRC Câu trả lời dự đoán này sau đó được kếthợp với câu hỏi ban đầu đề tạo thành một câu giả thuyết hoàn chỉnh nhờ vào mô hình
ViT5 [68] Ví dụ:
Câu hỏi: "Kinh tế xung quanh kinh đô ánh sáng mạnh về gì?"
Câu trả lời dự đoán: "nông nghiệp”
= Câu giả thuyết: "Kinh tế xung quanh kinh đô ánh sáng mạnh về nông nghiệp."
Phương pháp này tận dụng khả năng của mô hình QA trong việc xác định thông tin
liên quan đến câu hỏi và tạo ra câu trả lời phù hợp Bằng cách kết hợp câu hỏi và câutrả lời dự đoán, câu giả thuyết được tạo ra mang tính đầy đủ và chính xác hơn, giúpcải thiện hiệu quả quá trình xác minh câu trả lời QA bằng mô hình NLI
3.1.2 Tao đoạn tiền đề
| Câu giả thuyết |
Ngữ cảnh | as | :
Câu 1 |
Ngữ cảnh
Câu n
Hình 3.3: Quy trình tạo đoạn tiền đề
Đoạn tiền đề sẽ là đoạn văn ngắn hơn với các thông tin liên quan chặt chẽ hơn đếncâu giả thuyết Hình 3.3 trình bày quá trình tạo đoạn tiền đề từ đoạn ngữ cảnh truyềnvào mô hình vietnamese SBERT [69] Kế tiếp, so sánh độ tương đồng của từng câungữ cảnh với câu giả thuyết Sau đó sẽ sắp xếp theo thứ tự tương đồng dé chon rađược các câu có độ tương đồng cao Số lượng câu tiền đề được giữ lại sẽ còn lạikhoảng 70% so với đoạn ngữ cảnh ban đầu
Vietnamese Sentence-BERT [69] là một mô hình nhúng câu tiếng Việt sử dụng kiến
trúc sentence-BERT [70] Sentence-BERT [70] là một biến thể của mô hình được đảotạo trước BERT [39] với cấu trúc mạng siamese và triplet, giúp tăng cường khả năng
28
Trang 40tìm kiêm và so sánh môi tương quan giữa các câu với thời gian tính toán và chi phí
giảm so với các mô hình được đào tạo trước khác như BERT [39] và RoBERTa [46].
3.1.3 Xác nhận câu trả lời
Nhẫn dự đoàn
Entailment
Câu tiền đề Not Entailment
2HỊLeIlibe Contradiction, Unanswerable
T=———————— Neutral, Other
Hình 3.4: Quy trình xác nhận câu trả lời
Câu giả thuyết
Cặp câu tiền đề và giả thuyết như trong hình 3.4 sẽ được truyền vào mô hình NLI, đãđược huấn luyện, dé đánh giá câu trả lời du đoán Mô hình NLI sẽ trả về kết quả là 2
nhãn entailment và not entailment tương với câu tra answerable va unanswerable Từ
đó nhận định kha năng đưa ra câu trả lời của mô hình QA va dé ra phương pháp cải
thiện.
3.2 Phương pháp sử dụng NLI để thu gọn thông tin ngữ cảnh
Dé lấy được câu trả lời thì đoạn văn ngữ cảnh là vô cùng quan trọng, nếu như đoạn
ngữ cảnh có quá nhiều thông tin nhiễu thì có thể khiến cho mô hình bị lừa và dễ nhằmlẫn trong việc đưa ra câu trả lời Từ đó, chúng tôi đề ra phương pháp rút gọn ngữ
cảnh, giảm thiểu thông nhiễu và được trình bày chỉ tiết ở nội dung bên dưới:
Mini context UIT-VIQUAD transform
1.0
Hình 3.5: Quy trình sử dung NLI dé thu gọn thông tin ngữ cảnh
Sau khi xem xét qua các bộ dữ liệu MRC như UIT-ViNewsQA [2], UIT-ViQuAD
1.0 [3], UIT-ViQuAD 2.0 [1], chúng tôi nhận thấy những đoạn ngữ cảnh thường chứanhững thông tin nhiễu, không liên quan đến câu hỏi Những thông tin thừa này có thể
29