1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Tích hợp suy luận ngôn ngữ tự nhiên trong mô hình đọc hiểu tự động

86 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tích Hợp Suy Luận Ngôn Ngữ Tự Nhiên Trong Mô Hình Đọc Hiểu Tự Động
Tác giả Tran Thanh Dang, Nguyen Van Anh
Người hướng dẫn PGS.TS. Nguyen Luu Thuy Ngan, THS. Huynh Van Tin
Trường học Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 86
Dung lượng 89,43 MB

Nội dung

Điều này giúp chúng tôi đảm bảo rằng các mô hình NLI được đảo tạo vàđánh giá trên các dit liệu thực tế và phản ánh chính xác khả năng của chúng trong việc đánh giá tính chính xác của các

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HỌC VA KY THUAT THONG TIN

TRAN THANH DANG - 20520428

NGUYEN VAN ANH - 20521074

KHOA LUAN TOT NGHIEP

Integrating natural language inference in

Machine reading comprehension model

CU NHAN NGANH CONG NGHE THONG TIN

ĐỊNH HƯỚNG NHẬT BAN

GIẢNG VIÊN HƯỚNG DẪN

PGS.TS NGUYEN LƯU THUY NGÂN

THS HUỲNH VĂN TÍN

TP HÒ CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Đồ án khóa luận tốt nghiệp của chúng tôi, “Tích Hợp Suy Luận Ngôn Ngữ Tự Nhiên Trong

Mô Hình Đọc Hiểu Tự Động”, không thể hoàn thiện một cách trọn vẹn như bây giờ nếukhông có được sự hỗ trợ và động viên từ các thầy cô, bạn bè và gia đình Chúng tôi vôcùng biết ơn đến mọi người đã hỗ trợ suốt trong hành trình này

Lời đầu tiên, chúng tôi chân thành gửi lời cảm ơn đến PGS.TS Nguyễn Lưu Thùy Ngân

và ThS Huynh Văn Tín - những người đã tận tâm diu dắt, truyền đạt kiến thức và dànhcho chúng tôi những lời khuyên vô giá trong thời gian nghiên cứu Nhờ sự hướng dẫn tâmhuyết của Thầy/Cô, chúng tôi đã có thé hoàn thiện dé tài một cách trọn vẹn và đạt đượckết quả như mong đợi

Không thể không nhắc đến gia đình và bạn bè đã luôn ủng hộ, động viên và bên cạnh chúngtôi trong quãng thời gian qua Sự tin tưởng và khích lệ của mọi người là nguồn động lực

to lớn giúp chúng tôi vượt qua mọi khó khăn và hoan thiện bài nghiên cứu một cách hoàn

Trang 3

MỤC LỤC

Chương 1 TÔNG QUAN - 2222 2E2EEEEE221271221127171211 21121 re 8

1.1 Bai toán đọc hiểu tự động tiếng Việt 2-©2¿55222xcccxerxrerxerred 8

1.2 Các xu hướng cải thiện hiệu suất QA w.ceecececccsccssesesessessesesesseseeseeseeseeaes 8

1.2.1 Hoc chuyén tiép (Transfer Learning) -+s «se ssvxsseeseeske 8

1.2.2 Hoc tăng cường (Reinforcement Learning): - « ««+««2 9 1.2.3 Xử lý đa ngôn ngữ (Multilingual Processing): - - «<-s<++ 9 1.3 Tang cường QA thông qua NLÌ - - 2 3+1 * + ESskseeereeersreerre 9

1.3.1 Tăng cường NLÍ - 5 Ăn vn ng rướt 9 1.3.2 Tăng cường QA LH HH HH ngư, 10

1.4 _ Đóng góp chính của đề tài - 2: s2S<+EkcEE2EEEEEEEEErrrrkrrerrvee 10

Chương2 CÁC CÔNG TRÌNH LIEN QUAN -: ¿ sz©5+5-scs+2 12

2.1 Các bộ dữ liệu liên quan - -. c6 + 331123 E9 Series 12

2.1.1 — Bộ dữ liệu MRC SH HS HH HH 12

2.1.1.1 Công trình trên thế giới -¿©-++©++2+++cx++rx++rxesrxesred 12

2.1.1.2 Công trình trong NƯỚC c3 3323113111111 krrrkeerse 13

2.1.2 Bộ dữ liệu NLÍI - c5 ScStS+ ESEESEEEEsrreirkirkrerkrrrrke 13

2.1.2.1 Công trình trên thế giới - 2 ++++++E++E+EE+E+Ezrxrrsrreee 13

2.1.2.2 Công trình trong NƯỚC - - c3 1931 311 1E rvrrreeree 14

2.2 Các phương pháp nghiên cứu liên quan s75 +55 se x++sx+sexseesss 14

2.2.1 _ Các mô hình MRC thông dụng - 5 + SĂS + ssseereserseeereee 14

2.2.1.1 Phương pháp thống kê - 2-2 2 ++SE+E++EE£EE£EE+ErErrrrerreee 15

2.2.1.2 Kiến trúc mang neural - 2 s+s+++++E++E++E++x++Ezxezrezreee 15

2.2.2 Các phương pháp biểu diễn từ 2-2 2 s+E++EzEzEzrrrszes l6

Trang 4

2.2.2.1 Word embedding - - -< +s 11v v1 kg ng rườn 16 2.2.2.2 Contextualized word embedding - «<< «£+<c<+<c+<e++ 16 2.3 Robust Question-AnñSW©TITE - G1 HH ng 16

2.3.1 Gia pháp tang CƯỜng - Ăc cv HH key 17

2.3.2 Xác minh câu trả lỜI - -c- + ESEEEEererrkrkrrrrrkrrrrre 17

2.4 NLI cho các tác vụ KNaC cece ccccesccccesesscceccesssseeecessseeeceesssseeecesessseeeees 18

2.4.1 Tóm tắt văn bam eecseeescssseeecssseeeessnsecessneseesnneecssneeessneeesnneeessnneeee 18

2.4.2 Dich May: n ÔỎ 18

2.4.3 Truy vấn thông tin: ket SE E211 Ece, 18

2.5 Các mô hình tham khảo chính - - -¿- + + + *£+x£++kE£eeseeeeeeseeese 19

2.5.1 Mô hình mBERT - - -G- sEk vn ng ng nrnriệ, 19 2.5.2 Mô hình PhoBERT - - tt hi, 20 2.5.3 Mô hình XLM-R - LH Hi, 21 2.5.4 Mô hình VinAI Translate - sư 22

2.5.5 Mô hình QANNGK HH HH HH HH nhiệt 24

2.5.6 Mô hình VÌÏT5 Ăn ngàn Hàn ng 25

Chương 3 NGHIÊN CỨU PHƯƠNG PHÁP -2 2¿©+22x2z+z2sse2 26

3.1 _ Phương pháp sử dụng NLI vào xác minh câu hoi unanswerable QA 26

3.1.1 Tạo sinh câu giả thuyẾt - -5- + kề 2E E111 27

3.1.2 Tạo đoạn tiền 46 o sceeecseeeecssssssessneeessneesessteeesssneeeesnneeesnneeessneeessnneees 28

3.1.3 Xác nhận câu trả LOL cece ccceessccceessscecceessseeeceesssseeecessssseeeeeeseeees 29

3.2 Phương pháp sử dụng NLI dé thu gọn thông tin ngữ cảnh 29

Chuong 4 XÂY DỰNG DU LIEU - 2 2 2+S£+E++E2EE+EzErrerrerreee 31

4.1 Xây dựng dữ liệu cho mô hình huấn luyện tạo câu giả thuyết 31

Trang 5

4.1.1 Lý do thực hiỆn - creer 1S SH nghiệt 31

4.1.5 KẾt quả xây dựng ¿©2+c22+c2EteEEEeEEerkerkrsrkrrrrerrree 34

4.2 _ Xây dựng dit liệu QA_NLÍI -2¿22 +25+22++cxczrerxerxrerserxees 35

4.2.1 LY do thurc Wi6n en ec ốốằốỐ 35

4.2.2 Cấu trúc dữ liệu -ccccccrerreecrerreree 35

4.2.2.1 Cấu trúc của dữ liệu QA -¿-¿-++©+++c++rxerxrsrxerkerrrerxrree 35

4.2.2.2 Cấu trúc của dữ liệu NLI - ¿22s ++2x++zxerxzresrxrres 37

4.2.3 Quy trình thực hiỆn Q2 22012111331 13911 19113 111 ng rệt 37

4.2.4 Kết quả xây dựng -5c+ck+EkS 2E E1 EEcrrei 40

4.3 Xây dung dữ liệu rút gọn ngữ cảnh - s5 «+ ++sesseeeseeesses 41

4.3.1 Lý do thực hiện ©2+22kc2EeEEEEEErkrrrkrrrkrrrerrkee 41

4.3.2 Cau trúc dit liệu -+-k+E2EEEEEEE 22A2 EEcrkrree 41

4.3.3 Quy trình thực hiỆn 0 G0 1119 ngệt 42

4.3.4 Kết quả xây dựng -ckcs Ek EEEEE1211211211111211 2111 re, 42

Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIA KET QUẢ - 44

5.1 _ Cài đặt thí nghiệm -222+St2ESEEEEECEEEEEEEErrEerkrrkrrrrervee 44

5.1.1 _ Cài đặt mô hình NLÍ - 2-5 ©52+2E+EEt2EE£EEtEESEEerkerreerkrree 44 5.1.2 Cai đặt mô hình QA đánh giá bộ dữ liệu unanswerable 45 5.1.3 _ Cải đặt mô hình QA đánh giá dữ liệu rút gọn ngữ cảnh 45

Trang 6

5.2 Cac phương pháp đánh gIá - G2 E13 1S vn re 46

5.2.1 Độ đo BLEU - TS SS ST HH HH HH HH nh rep 46

5.2.2 Độ do ACCUYACV SH TH TT TH HH nà Hy 46

1Š.“ a DD 47 5.2.4 Độ đo Exact Mafch - - 1111211111211 1119 111101111821 11x tru 47

5.2.5 _ Độ tương đồng COsine - 2-2 k+EE+EE2EE2EEEE12E12112E2E2 xe, 48

5.3 Kết quả thínghiệm -: 2¿©2+©2++2E++EE+SEEESEEEEEErSEkrrrkrrrrrrrree 48

5.3.1 Mô hình dịch thuật c1 ng nưệt 48

5.3.2 Mô hình QANNG( nhiệt 49

5.3.3 Mô hình tạo sinh văn bản - - <5 5 22211 ££*£+22EEeezzseees 49

5.3.4 Kết quả đánh giá mô hình NLI - 2-2 2+ £+£z£zzzzzzez 50

5.3.5 _ Kết quả đánh giá NLI xác minh câu hỏi unanswerable 52

5.3.6 Két quả đánh gid NLI dé thu gọn ngữ cảnh - 5-5552 53

5.4 Phan tích kết Qua cceccecceccsccsscssessessessessessessessessessessesuessessesuesscssssesssesecsseaes 54

5.4.1 Tac động của độ dài câu tra lỜI 5-5 +55 + ++++e+essereeess 54 5.4.2 _ Tác động của độ dài ngữ canbe ee eececeessceseeseeeeeeneeeseeeeeeseeeees 55 5.5 _ Phân tích lỗi -cckcctthhnhHh hư 57

5.5.1 _ Kết quả nhãn unanswerable của mô hình NLI - 57

5.5.2 _ Tạo câu giả thuyẾt -:-©2¿- + SE kEEE2E1E21211221 212122 re 59

Trang 7

6.4. Hướng phát triển 2- 2+ 5+©++2EE++EEE+2EEEtEEEEeEEErtrkrerxrrrrkrrrrev

Z2

Trang 8

DANH MỤC HÌNH VẼ

Hình 2.1: Quy trình pre-training và fine-tuning tổng thé cho BERT [39] 19

Hình 2.2: Kết quả mô hình dịch thuật từ Anh sang Việt do con người đánh giá [66] ¬— ĐA 23

Hình 2.3: Kết quả mô hình dịch thuật từ Việt sang Anh do con người đánh giá [66] ẮẢẳẢắäăẢÃẢ 23

Hình 2.4: Kiến trúc mô hình QANet [67] -¿2 + +£+++£+++£++£x+zxzzszrxeei 24 Hình 2.5: Tổng quan về kiến trúc ViTS [68] 2+ 5+2+++cx++zx+zzxzzxez 25 Hình 3.1: Quy trình sử dụng NLI dé xác minh câu hỏi unanswerable QA 26

Hình 3.2: Quy trình huấn luyện tạo sinh câu giả thuyẾt - 2-2-2 z+5z+s+ 27 Hình 3.3: Quy trình tạo đoạn tiền đỀ -.- Sc St 211111151111 1111111155111111111512EEe 1xx xee 28 Hình 3.4: Quy trình xác nhận câu tra ÏỜI - - - << + 2+ + E+vE+seeEeeeeeeereses 29 Hình 3.5: Quy trình sử dụng NLI dé thu gọn thông tin ngữ cảnh - 29

Hình 4.1: Quy trình xây dựng bộ dữ liệu QA2D tiếng Việt -+- 32

Hình 4.2: Quy trình xây dựng bộ dit liệu UIT-VINewsQA_NLT 38

Hình 4.3: Quy trình xây dựng bộ dữ liệu UIT-ViQuAD 2.0_NLI 39

Hình 4.4: Quy trình tông quát xây dựng bộ dữ liệu UIT-ViQuAD 1.0_mini 42 Hình 5.1: Phân tích hiệu suất ở độ đo EM theo độ dài ngữ cảnh trên tập dữ liệu dev

của UIT-VIQUAD 1.Ũ_ mini - - c 1122101111111 111 1111811158111 81111 81k tre, 56

Hình 5.2: Phân tích hiệu suất ở độ đo F1 theo độ dài ngữ cảnh trên tập dữ liệu dev

của UIT-VIQUAD I.Ũ_ mITn1 - 5c - c5 1111333223111 3113 1111 1111821111118 111 crre 57

Trang 9

DANH MỤC BANG

Bảng 2.1: Hiệu suất mô hình trên tập test XNILI -2 -¿- 5¿©++22x+2z+>sse2 21Bảng 2.2: Kết quả GLUE trên bộ dữ liệu dev XNLI [65] - .: -: -:- 21Bang 4.1: Minh hoa cho lỗi tên riêng -¿- ¿2 S2 SE+E+E£EE+E£EEEEEeErkrrrrxrrrreree 33 Bảng 4.2: Minh hoa cho lỗi đại từ xưng hô - 2 2-5 255 ££2E+Ee£xzxezzxzrcrs 33Bảng 4.3: Thống kê tổng quan về ViQAA2D -2-22¿ 22 S+2£S+2£E+2Exzrxrrrxerrvee 34Bảng 4.4: Thống kê tong quan về dữ liệu QA_NLI .: -¿©¿ ©5555: 40Bảng 4.5: Thống kê tổng quan về UIT-ViNewsQA ¿ 2¿25¿©csc2cxccse2 40

Bảng 4.6: Thống kê bộ dữ liệu QA UIT-ViQuAD 1.0_ mini -. -5:5¿ 43

Bảng 5.1: Đánh giá mô hình VinAI Translate [66] trên BLEU scores (%) ở dữ liệu

3190/0002 49

Bảng 5.2: Kết quả đánh giá mô hình QANet [67] : -:-¿©+csz2s+2sscse2 49

Bảng 5.3: Thống kê theo % trên độ đo BLUE 2-2 ©¿+©+++s++£x+zx+zzs+csez 50Bảng 5.4: Kết qua accuracy thực nghiệm các mô hình NLI trên 2 bộ dữ liệu 50Bang 5.5: So sánh kết quả accuracy thực nghiệm trên tong 3 bộ và ViNLI 51Bảng 5.6: Kết quả hiệu suất mô hình trên câu hỏi unanswerable của UIT-ViQuAD

Trang 10

DANH MỤC TỪ VIET TAT

Question-Answering QA

Tra lời câu hỏi

Natural Language Inference

NLI

Suy luận ngôn ngữ tu nhiên

Natural Language Processing '

NLP ¬ `

Xử lý ngôn ngữ tự nhiên

BLEU Bilingual Evaluation Understudy

ViNLI Vietnamese Natural Language Inference

' Machine Reading Comprehension

Trung lập

BERT Bidirectional Encoder Representations from Transformers

mBERT Multilingual BERT

Trang 11

Bi-Directional Attention Flow

Term Frequency-Inverse Document Frequency

Byte Pair Encoding

Cross-Lingual Masked Language Model RoBERTa Question Answer to Declarative Sentence Dataset

Trang 12

TÓM TẮT KHÓA LUẬN

Việc tích hợp suy luận ngôn ngữ tự nhiên (NLD vào các mô hình đọc hiểu tự động(MRC) đang trở thành một xu hướng dé nâng cao độ tin cậy cho câu tra lời Day làphương pháp hiệu quả để đảm bảo răng câu trả lời được cung cấp bởi mô hình đọchiểu là phù hợp với ngữ cảnh của câu hỏi Điều này là quan trọng trong bối cảnh củangôn ngữ phức tạp như tiếng Việt, vì các câu hỏi và câu trả lời có thể chứa nhiều ýnghĩa ân và ngữ cảnh phức tạp

Khi tích hợp NLI vào các mô hình đọc hiểu tự động, chúng ta cần xem xét trước câuhỏi và câu trả lời mà các mô hình đọc hiểu đưa ra có phù hợp với đoạn ngữ cảnh banđầu Điều này là đặc biệt quan trọng khi xử lý với ngôn ngữ tiếng Việt, một ngôn ngữphức tạp với nhiều ngữ cảnh và ý nghĩa khác nhau Việc đảm bảo các trường hợp mà

mô hình MRC đưa ra câu trả lời không có trong ngữ cảnh là bước quan trọng dé đảmbảo rằng hệ thống trả lời câu hỏi (QA) hoạt động hiệu quả

Một ưu điểm của mô hình NLI mà chúng tôi đã phát triển là khả năng xác định cáccâu ngữ cảnh có nội dung không hỗ trợ cho việc trả lời câu hỏi Điều này giúp làm

sáng tỏ các thông tin nhiễu trong đoạn ngữ cảnh và làm tinh gọn nội dụng hơn cho

phù hợp với câu hỏi đặt ra Với đoạn ngữ cảnh thu gọn này là một tiềm năng dé cảithiện hệ thống QA, từ đó giúp tăng cường độ chính xác và hiệu suất của hệ thống

Để thực hiện việc tích hợp NLI vào các mô hình doc hiểu tự động, chúng tôi đã tiến

hành điều chỉnh các mô hình đã được đào tạo trước và khai thác các bộ đữ liệu chotiếng Việt Với cách này, chúng tôi đã xây dựng các cơ chế mạnh mẽ dé chuyên đổi

câu hỏi và phân tích ngữ cảnh một cách hiệu quả và chuân xác.

Nhờ các phương pháp mạnh mẽ mà chúng tôi đã có thể chuyển đổi các câu hỏi vàcâu trả lời thành các cặp tiền đề-giả thuyết, tạo ra một nền móng đáng tin cậy dé đánhgiá NLI Điều này giúp chúng tôi đảm bảo rằng các mô hình NLI được đảo tạo vàđánh giá trên các dit liệu thực tế và phản ánh chính xác khả năng của chúng trong

việc đánh giá tính chính xác của các câu trả lời từ các mô hình MRC.

Trang 13

Chúng tôi đã tiến hành đào tạo các mô hình NLI bằng cách kết hợp các bộ dữ liệuNLI tiêu chuẩn và các NLI từ dữ liệu đào tạo MRC Qua đó, chúng tôi có thé đánhgiá các câu trả lời từ hệ thống MRC một cách chính xác và đáng tin cậy, đồng thời

cung cap cơ sở cho việc nâng cao hiệu suat của các mô hình MRC.

Kêt quả của đô án này dự kiên sẽ mang lại một bước tiên quan trọng trong việc cải

thiện độ tin cậy va độ chính xác của các mô hình MRC Điều này sẽ tạo điều kiện cho

việc truy xuât thông tin hiệu quả hơn trên Internet, giúp người dùng có được câu trả

lời chuân xác và phù hợp với yêu câu của bản thân.

Trang 14

MỞ DAU

Đặt vấn đề

Nghiên cứu về Question-Answering (QA) hiện nay đã có sự phát triển đáng ké, và

nhận thay rằng việc xác định mối liên quan giữa câu hỏi và nội dung văn bản là máu

chốt quan trọng trong việc nâng cao độ chuan xác của các mô hình QA Một trong

những kỹ thuật tiếp cận hiệu quả để đánh giá sự liên quan này là sử dụng phương

pháp suy luận ngôn ngữ tự nhiên (NLI).

NLI đã được nghiên cứu và ứng dụng rộng rãi trong các mô hình QA tiếng Anh.Trong tiếng Việt vẫn còn hạn chế các nghiên cứu như vậy Do đó, chúng tôi xem xét

sử dụng NLI dé tăng hiệu suất cho nhiệm vụ hỏi đáp Với cách này, chúng tôi có théđánh giá được khả năng ứng dụng NLI vào QA hiệu quả như thế nào

Nghiên cứu này có thê đóng góp quan trọng trong việc cải thiện độ chuẩn xác của môhình QA do đó có thê tăng hiệu quả của việc truy vấn thông tin trên Internet hay các

hệ thống chatbot, trợ lý ảo Vì vậy trong phạm vi đề tài này, các phần input và output

được định nghĩa như sau:

Input:

Câu hỏi (Question): Day là câu hỏi hoặc yêu cầu thông tin mà người dùng đưa vào

mô hình QA tiếng Việt

Văn bản ngữ cảnh (Context): Là văn bản nguồn, chứa thông tin cần thiết dé trả lời

câu hỏi Văn bản này có thê là một đoạn văn, một đoạn trích từ một tài liệu hoặc bât

kỳ nguồn thông tin nào có thể chứa câu trả lời.

Output:

Câu trả lời (Answer): La câu trả lời mà mô hình QA đưa ra dựa trên câu hỏi va văn bản ngữ cảnh, câu trả lời sẽ được xác nhận bởi một mô hình NLI sau khi đưa ra bởi

mô hình QA.

Trang 15

Xác minh NLI (Verify NLD: Sử dụng NLI để kiểm tra câu hỏi có phù hợp với đoạn

ngữ cảnh trước khi đưa ra câu trả lời.

Ví dụ minh hoa cụ thé từ một vài dữ liệu MRC:

Bộ dữ liệu UTT-ViQuAD 2.0 [1]

Tiêu đề: Trung Quốc

Lịch sử Trung Quốc bắt nguồn từ một trong những nền văn minh cô nhất thế giới, phát triển tại lưu vực phì nhiêu của sông Hoàng Hà tại bình nguyên Hoa Bắc Trải qua hơn 5.000

nam, văn minh Trung Hoa đã phát triển trở thành nền văn minh rực rỡ nhất thế giới trong

thời cổ đại và trung cổ, đặc trưng bởi hệ thống triết học rất thâm sâu (nôi bật nhất là Nho giáo, Đạo giáo và thuyết Âm dương ngũ hành) các thành tựu khoa học kỳ thuật nổi bat

(phát minh ra giấy la bàn thuốc sting, dia chan kế, kỹ thuật in ấn ), hoạt động giao thương xuyên châu A với nhiều quốc gia (Con đường tơ lụa) và những đô thị có quy mô dan số và trình độ kiến trúc đứng đầu thé giới vào thời trung cô.

Câu hỏi, câu trả lời và xác minh NLI

Câu hỏi 1: "Những triết học nào đã ảnh hưởng sâu sắc đến Trung Quốc? "

Cau trả lời 1: "Nho giáo, Đạo giáo và thuyết Âm đương ngũ hành"

Xác minh NLI 1: Answerable (có thê trả lời)

Câu hỏi 2: “Những triết học nào đã ảnh hưởng sâu sắc đến khoa học?”

Cau trả lời 2: "Nho giáo, Đạo giáo và thuyết Âm đương ngũ hành”

Xác minh NLI 2: Unanswerable (không thê trả lời)

Nhiệm vụ của nghiên cứu là sử dụng mô hình NLI dé đánh giá tính hợp lệ của câu trả

lời được đề xuất bởi mô hình QA, nghĩa là xác định xem câu trả lời có phù hợp và

chính xác với câu hỏi và ngữ cảnh ban đầu hay không Song song đó, chúng tôi còn

áp dụng NLI dé xử ly văn bản ngữ cảnh thành những văn bản ngữ cảnh mới và huấnluyện lại các mô hình QA, nhăm tăng độ chuẩn xác của câu trả lời Kết quả của nghiêncứu sẽ được đánh giá bằng việc xác định mức độ khả thi của việc sử dụng NLI để xác

minh tính chuân xác của câu trả lời trên các bộ dữ liệu đọc hiệu tự động tiêng Việt.

Trang 16

Mục tiêu nghiên cứu

Đánh giá khả năng xác minh của mô hình NLI trong việc chứng thực tính chính xác

của câu trả lời từ mô hình MRC Kết hợp kết quả của NLI va MRC dé đánh giá mức

độ tin cậy của câu trả lời.

Tạo nguồn dữ liệu mới cho mô hình NLI từ dữ liệu MRC, tăng cường sỐ lượng mẫu

dữ liệu mang đặc trưng của MRC Nham tăng cường khả năng kiểm tra tinh đúng đắnthông tin của câu trả lời của NLI sau khi huấn luyện

Áp dụng NLI dé lọc bớt thông tin nhiễu trong đữ liệu MRC, làm cho thông tin liênquan hơn đến câu hỏi Từ đó cải thiện khả năng trả lời chính xác của mô hình MRC

Đối tượng nghiên cứu

- Mô hình đọc hiểu tự động (MRC) tiếng Việt

- Suy luận ngôn ngữ tự nhiên (NL]) trên tiếng Việt.

Pham vi nghiên cứu

Khóa luận tốt nghiệp tập trung nghiên cứu trên bai toán doc hiểu tự động (MRC) và

suy luận ngôn ngữ tự nhiên (NLI) tiếng Việt.

Nghiên cứu trên những bộ dữ liệu MRC và NLI săn có: ba bộ dit liệu đọc hiểu tự

động (UIT-ViNewsQA [2], UIT-ViQuAD 1.0 [3], UIT-ViQuAD 2.0 [1]) và một bộ

dữ liệu suy luận ngôn ngữ (ViNLD).

- UIT-ViNewsQA: Bộ dữ liệu gồm các câu hỏi và câu trả lời liên quan đến tin

tức.

- UIT-ViQuAD 2.0: Bộ dữ liệu theo cấu trúc của SQUAD, cho phép câu trả lời

không có trong văn bản Mục đích nhằm đánh giá khả năng xác minh câu trảlời từ mô hình MRC khi được cung cấp bối cảnh kiến thức rộng hơn

- ViNLI: Bộ dữ liệu nghiên cứu được tạo ra dé nâng cao sự phát triển của các

mô hình NLI trong tiếng Việt.

Kết quả nghiên cứu

Trang 17

Áp dụng thành công kỹ thuật NLI trong quá trình xác minh câu trả lời của mô hìnhMRC nhăm tăng cường độ tin cậy của mô hình MRC Đồng thời, chúng tôi cũng đãxây dựng bộ dữ liệu NLI từ đữ liệu MRC để gia tăng khả năng xác minh câu trả lời

của mô hình NLI.

Áp dung kĩ thuật NLI tao ra bộ dir liệu MRC mới với nội dung ngữ cảnh được rút gọn nhằm mục đích nâng cao độ chuẩn xác của mô hình MRC.

Cấu trúc nghiên cứu

Đồ án nghiên cứu của chúng tôi thực hiện gồm 6 chương:

Chương 1: Tổng quan

Chúng tôi sẽ tập trung trình các thông tin ban đầu đề giải thích về bài toán Chúng tôi

giới thiệu sơ bộ về bài toán đọc hiểu tự động, các xu hướng hiện nay trong việc nâng

cao hiệu suất QA từ đó đưa ra giải pháp của mình Đề cập đến tính ứng dụng của đềtài vào bài toán thực tế

Chương 2: Các công trình liên quan

Chúng tôi trình bày môi quan hệ giữa nghiên cứu của mình với các bài báo trước đây.Các dữ liệu liên quan được sử dụng cho mục đích nghiên cứu của khóa luận Đồngthời trình bày các kỹ thuật và mô hình liên quan cần thiết để nâng cao độ chuẩn xáccho mô hình đọc hiều

Chương 3: Nghiên cứu phương pháp

Trong chương này chúng tôi trình bày từng bước thực hiện được sử dụng trong nghiên

cứu là ứng dụng NLI dé tăng cường độ chính xác QA trên bộ dữ liệu tiếng Việt Tập

trung phân tích trên hai dạng câu hỏi là câu hỏi có thể trả lời được (answerable) và

câu hỏi không trả lời được (unanswerable) Ngoài ra, đề xuất phương pháp ứng dụng

kỹ thuật suy luận ngôn ngữ tự nhiên dé rút gọn ngữ cảnh giúp tăng cường khả năng

trả lời của mô hình QA.

Chương 4: Xây dựng dữ liệu

Trang 18

Nội dung này nhằm mục đích giải thích kỹ càng quá trình chúng tôi tạo nên các bộ

dữ liệu hoàn chỉnh cho việc nghiên cứu trong nội dung chương 3 Bao gồm các bước

từ tiền xử lý dé đưa ra cách giải quyết kip thời đảm bảo chất lượng của dữ liệu choviệc huấn luyện Chúng tôi chia thành 3 nhóm dit liệu chính là bộ dữ liệu tao câu gia

thuyết, bộ dữ liệu QA_NLI và bộ dữ liệu rút gọn ngữ cảnh.

Với bộ dữ liệu tạo câu giả thuyết được sử dụng từ bộ dữ liệu QA2D [4] tạo thành bộ

dữ liệu ViQA2D Tiếp theo, dé huấn luyện cho mô hình NLI nên chúng tôi sử dụng

bộ dữ liệu ViNLI [5] và tạo thêm dữ liệu NLI từ 2 bộ dữ liệu MRC là UIT-ViNewsQA

[2] và UIT-ViQuAD 2.0 [1] Sau đó, bộ dữ liệu UIT-ViQuAD 1.0 [3] được rút gọn

ngữ cảnh mới được tạo ra sẽ sử dụng nhằm mục đích tăng cường QA

Chương 5: Thực nghiệm và đánh giá kết quả

Quy trình thực nghiệm ứng dụng NLI dé tăng độ chuẩn xác cho mô hình QA sẽ đượcgiải thích kỹ càng trong chương này Bắt đầu băng việc cài đặt mô hình NLI và môhình QA trên dữ liệu tiếng Việt Từ đó thống kê kết quả từ nhiều mô hình huấn luyện

và đánh giá chì tiết hiệu suất của từng mô hình Từ đó, chứng thực được hiệu quả củaviệc sử dụng NLI dé cải thiện độ tin cậy của mô hình QA tiếng Việt, đồng thời mở ranhững hướng nghiên cứu mới trong lĩnh vực NLP tiếng Việt

Chương 6: Kết luận

Kết quả của diễn biến thực hiện khóa luận mà chúng tôi đạt được sẽ được giải trìnhtrong nội dung chương này Các ưu nhược điểm của chính đồ án này sẽ được tổnghợp từ đó đề ra hướng cải thiện trong tương lai

Trang 19

Chương 1 TONG QUAN

1.1 Bài toán đọc hiểu tự động tiếng Việt

Đọc hiểu tự động (Machine Reading Comprehension - MRC) là một trong những lĩnh

vực nghiên cứu chính trong xử lý ngôn ngữ tự nhiên (NLP) MRC yêu cầu máy tính

đọc, hiểu văn ban và trả lời các câu hỏi có mối quan hệ đến văn bản đó Công việcnày, mặc dù đơn giản đối với con người, nhưng lại là thử thách lớn đối với máy tính

Việc trả lời một câu hỏi dựa vào dữ kiện của một văn bản cho sẵn không phải lúc nào

cũng giản đơn, ngay cả đối với con người Do đó, yêu cầu máy tính có thê trả lời đúngcâu hỏi từ đoạn văn bản là một nhiệm vụ khó khăn NLP nhằm giúp hệ thống máytính hiểu ngôn ngữ con người sử dụng, từ đó có thê tương tác thông qua các ngữ cảnh

cụ thể Đây chính là nhiệm vụ mà các hệ thống đọc hiểu tự động văn bản đảm nhiệm

Việc cải thiện các mô hình MRC không chỉ yêu cầu khả năng xử lý và phân tích ngônngữ mà còn yêu cầu hệ thống phải có khả năng suy luận, kết hợp thông tin từ nhiềunguồn và hiểu rõ ngữ cảnh Thách thức này càng lớn hơn đối với tiếng Việt do đặc

thù ngữ pháp và cú pháp phức tạp của ngôn ngữ này Tuy nhiên, với sự tăng trưởng

của công nghệ AI và NLP, cùng với sự quan tâm ngày càng nhiều từ cộng đồng nghiêncứu, việc xây dựng các hệ thống MRC cho tiếng Việt đang trở nên khả thi và hứa hẹnmang lại nhiều ứng dụng hữu ích trong tương lai

1.2 Các xu hướng cải thiện hiệu suất QA

Các xu hướng cải thiện hiệu suất QA hiện nay có thé kế đến như học chuyền tiếp

(Transfer Learning), học tăng cường (Reinforcement Learning), xử lý đa ngôn ngữ (Multilingual Processing).

1.2.1 Hoc chuyén tiếp (Transfer Learning)

La một phương pháp trong hoc máy, trong đó mô hình đã được thử nghiệm trước trên

một nguồn dit liệu lớn sau đó từng bước huấn luyện, tinh chỉnh trên một nguồn ditliệu nhỏ hơn chú ý vào một chức năng nhất định Ở đây có thé nói đến việc tinh chỉnhcác mô hình QA trên nguồn dữ liệu tiếng Việt dé có thé trả lời các câu hỏi trong ngữ

Trang 20

cảnh tiếng Việt Tận dụng nguồn dữ liệu QA tiếng Việt dồi dào, kỹ thuật này giúpcho kết quả của mô hình QA được cải tiến.

1.2.2 Hoc tăng cường (Reinforcement Learning):

Ở kỹ thuật này, một thực thể sẽ tiến hành tương tác với môi trường, khi thực hiệnhành động tốt thì thực thể sẽ nhận được phần thưởng và ngược lại là hình phạt Trongbối cảnh QA, thực thé là mô hình, môi trường là bộ đữ liệu bao gồm câu hỏi và ngữcảnh, hành động là đưa ra câu trả lời và phần thưởng là độ chính xác của câu trả lời

Kỹ thuật này chính là hướng đi đầy tiềm năng trong việc cải tiến hiệu suất của các

mô hình QA.

1.2.3 Xử lý đa ngôn ngữ (Multilingual Processing):

Thay vì xây dựng riêng lẻ cho từng ngôn ngữ, kỹ thuật này cho phép tận dụng dữ liệu

từ nhiều ngôn ngữ khác nhau dé nâng tam khả năng hiểu và trả lời câu hỏi của mô

hình Các mô hình đa ngôn ngữ như mBERT [6] và XLM-RoBERTa [65] được thực

nghiệm trên nhiều ngôn ngữ, giúp tận dụng kiến thức ngôn ngữ chung và cải thiện

khả năng chuyên đôi giữa các ngôn ngữ.

1.3 Tang cường QA thông qua NLI

1.3.1 Tang cường NLI

Trong đồ án trước đó của Demszky và cộng sự (2018) [4], họ trình bày kỹ thuậtchuyền đồi bộ dữ liệu QA sang NLI, trong đó có đề cập đến phương pháp chuyền đồi

các cặp câu hỏi (Question) và câu trả lời (Answer) thành các cặp dữ liệu NLI Sau đó,

nếu câu trả lời ban đầu là đúng thì sẽ gán nhãn cho cặp dữ liệu NLI đã tạo là “kéotheo” (Entailment) và ngược lại nếu câu trả lời là sai thì nhãn sẽ là “không kéo theo”(Not Entailment) Dé thực hiện phương pháp này thì họ đã sử dụng những cách như:tạo nên hệ thống chuyền đổi dựa trên quy tắc (Rule-based system), chuyển đồi thủcông bằng tay và cuối cùng là thử nghiệm mô hình LSTM với dữ liệu huấn luyệnđược lay từ hai phương pháp trước đó

Trang 21

Mục đích chính của phương pháp để tạo ra những model NLI mạnh mẽ hơn bằngphương pháp chuyền đổi các tập dữ liệu QA hiện có thành các tập dữ liệu NLI Điềunày giúp tận dụng lượng lớn dữ liệu QA sẵn có dé huấn luyện các mô hình NLL Từ

đó, giúp nâng cao khả năng suy luận logic của mô hình NLI Các mô hình NLI cầnphải xác định xem một câu giả thuyết có được suy ra từ một đoạn tiền đề hay không,điều này đòi hỏi khả năng hiểu sâu và suy luận logic

Việc tạo ra dữ liệu NLI từ nhiều tập dữ liệu QA giúp đa dạng hóa nguồn đữ liệu thựcnghiệm cho mô hình NLI Điều này có thể giúp mô hình khái quát hóa tốt hơn và hoạtđộng hiệu suất hơn trên các nhiệm vụ khác nhau Đặc biệt, có thé giúp giảm sự phụ

thuộc vào dữ liệu NLI được tạo thủ công.

Tuy nhiên, phương pháp của này có thể tạo ra một số nhiễu trong đữ liệu NLI được

tạo ra Nhưng lợi ích của việc có thêm dữ liệu huấn luyện đa dạng và phong phú vượt

trội hơn so với những hạn chế này.

1.3.2 Tang cường QA

Dé mô hình QA có thé đưa ra câu trả lời hợp lý thì trong đoạn văn ngữ cảnh phảichứa thông tin về câu trả lời Nhưng trong đoạn văn ngữ cảnh không chỉ chứa thông

tin về câu trả lời mà còn chứa rất nhiều thông tin khác, trong đó có những thông tin

không liên quan hay có thể gọi là thông tin nhiễu Những thông tin nhiễu này gây khókhăn cho mô hình QA dé có thé đưa ra câu trả lời đáng tin cậy Hiểu rõ van đề này,Chen và cộng sự (2021) [6] đã đề bạt phương pháp rút gọn ngữ cảnh băng cách sửdụng mô hình T5-3B [7] Đầu vào của mô hình bao gồm câu trả lời và đoạn contextchứa câu trả lời đó, sau đó sử dụng mô hình T5-3B [7] đã huấn luyện dé nhận được

đoạn ngữ cảnh đã được khử thông tin nhiễu.

1.4 Đóng góp chính của đề tài

Bài nghiên cứu của chúng tôi đóng góp những điều như sau:

- B6 dữ liệu NLI mang đặc tính QA được tạo thành bằng cách chuyền các bộ

dữ liệu QA tiếng Việt sang NLI

10

Trang 22

- Bộ dữ liệu QA với phần ngữ cảnh được rút gọn, cô đọng chú trọng vào câu trả

lời hơn.

- Ung dụng NLI vào việc xác thực các câu trả lời mà hệ thống MRC đưa ra

- _ Hiểu rõ hơn về khả năng của việc sử dụng NLI trong việc xác thực các câu trả

lời mà hệ thống QA đưa ra

Trang 23

Chuong 2 CAC CÔNG TRÌNH LIÊN QUAN

Trong thời gian gần đây, các mô hình đọc hiểu tự động đã đạt được những cai tiếnđáng ké nhờ sự phát triển của các kiến trúc mạng nơ-ron sâu và nguồn dữ liệu huấnluyện phong phú Tuy nhiên, thử thức lớn đối với các mô hình MRC là khả năng suyluận và lý giải thông tin Với vấn đề này, các nhà nghiên cứu đã bắt đầu khám pháviệc tích hợp suy luận ngôn ngữ tự nhiên vào các mô hình MRC Dé có cái nhìn trựcquan hơn, chúng tôi đã tìm hiểu các công trình liên quan đã đóng góp vào sự tăngtrưởng của lĩnh vực này, từ đó làm rõ hơn về tiềm năng và những thử thách trong việckết hợp NLI vào MRC

2.1 Các bộ dữ liệu liên quan

2.1.1 Bộ dữ liệu MRC

Các bộ dit liệu MRC hiện tại có thé tạm được chia thành 4 loại phù thuộc vào cách

đưa ra câu trả lời: kiều điền chỗ trồng [8], lựa chọn nhiều câu trả lời [9], trích xuất

đoạn văn [10] và dạng tự do [11] Nhưng chiếm phần lớn trong số đó là dit liệu MRC

tiếng Anh Chúng tôi chú trọng nghiên cứu vào việc xây dựng dit liệu theo kiểu trích

xuất đoạn văn cho tiếng Việt

2.1.1.1 Công trình trên thế giới

SQuAD 1.0 [12] và SQuAD 2.0 [13] là một trong những tập dữ liệu tiếng Anh nổitiếng nhất cho MRC trích xuất đoạn văn bản, nguồn tài nguyên cho sự tăng trưởngcủa nhiều mô hình học máy Đó là nguồn cảm hứng cho nhiều bộ đữ liệu MRC khácphát triển trên nhiều ngôn ngữ: KorQuAD [14], FQuAD [15], SberQuAD [16],

CMRC [10]

NewsQA [17] là một tập dữ liệu tiếng Anh khác, tương tự như SQuAD vì câu trả lờicho mỗi câu hỏi là một đoạn văn bản có độ dài tùy ý trong bài báo tin tức tương ứng.

Bộ dữ liệu được thu thập từ 12.744 bài báo từ CNN News, tổng hợp lại thành 119.633

cặp câu hỏi và câu trả lời.

12

Trang 24

2.1.1.2 Công trình trong nước

Các đề tài nghiên cứu về đọc hiểu tự động trong nước hiện đang được nhiều người

quan tâm đến Nhưng số lượng đữ liệu vẫn chưa đủ lớn gây ra sự hạn chế khá nhiều

trong việc phát huy các mô hình học sâu Bộ dữ liệu đầu tiên của Việt Nam làViMMRC [18] bao gom 2.783 cặp câu hỏi - câu tra lời thuộc loại lựa chon nhiều câu

trả lời đành cho học sinh tiểu học.

Với loại dữ liệu trích xuất văn bản, UIT-ViQuAD 1.0 [3] là đữ liệu mở phô biến đượctạo ra từ 174 bài báo tiếng Việt từ Wikipedia, bao gồm hơn 23 nghìn cặp câu hỏi và

câu trả lời Kết hợp với UIT-ViQuAD 1.0 [3] và thêm 12 nghìn cặp câu hỏi không

thê trả lời được tạo nên UIT-ViQuAD 2.0 [1]

Ngoài ra, UIT-ViNewsQA [2] cũng thuộc kiểu dữ liệu trích xuất văn bản cho tiếngViệt dé đánh giá các mô hình đọc hiệu chăm sóc sức khỏe Bộ dit liệu bao gồm 22.077cặp câu hỏi - câu trả lời do con người tạo ra từ hơn 4.419 bài báo trực tuyến về chăm

sóc sức khỏe.

2.1.2 Bộ dữ liệu NLI

2.1.2.1 Công trình trên thế giới

Các dit liệu NLI ban đầu được tạo ra bằng cách thủ công đóng góp cho nhiệm vụ

Nhận dạng Liên kết Văn bản (RTE) [19] Với kích thước chưa đến vài nghìn mẫu,

điều này gây ra hạn chế lớn vào việc đánh giá các mô hình NLI thống kê và logic

Vào năm 2015, SNLI [20] được tạo ra với kích thước lớn hơn Mặc dù vẫn được tạothủ công, nhưng bộ dit liệu chứa đến 570 nghìn mẫu tiếng Anh phục vụ cho đánh giá

các mô hình NLI Kéo theo nhiều bộ dữ liệu NLI khác được tạo ra với quy mô lớn:

STS-B [21], QQP [22], MultiNLI [23]

Sự phát triển của các bộ dữ liệu NLI tiếng Anh với quy mô lớn được tạo ra kéo theonhiều tập đữ liệu NLI của các ngôn ngữ khác xuất hiện Cộng đồng nghiên cứu NLPtrên thế giới đóng góp vào sự đa dang cho nghiên cứu về NLI: OCNLI [24], SICK-

NL [25], KorNLI [26], IndoNLI [27], NLI En-HI [28], FarsTail [29],

13

Trang 25

2.1.2.2 Công trình trong nước

Hiện tại vẫn còn khá ít các công trình nghiên cứu về NLP trong nước, mở đầu cho

bộ dit liệu NLI tiếng Việt là vnNLI [30] Đây là bộ dit liệu NLI song ngữ (tiếng

Việt-Anh) được tạo ra với quy mô lớn, kích thước khoảng 16.200 cặp câu trong lĩnh vực

y tế

Bên cạnh đó, ViNLI [5], một kho dit liệu mở và chất lượng cao dé đánh giá các môhình NLI tiếng Việt ViNLI [5] bao gồm hơn 30.000 cặp câu tiền đề-giả thuyết docon người chú thích thủ công được trích xuất từ hơn 800 bài báo trực tuyến về 13 chủ

đề riêng biệt

VnNewsNLI [31] là một đóng góp quan trọng trong việc thúc đây nghiên cứu NLP

tiếng Việt Bộ dữ liệu này tập trung vào các cặp câu trích xuất từ tin tức, mở rộng

phạm vi nghiên cứu của các mô hình NLI vào lĩnh vực phân tích và xử lý thông tin

báo chí Kích thước của bộ dữ liệu khá lớn khi lên đến 42.239 cặp câu chia đều thành

3 nhãn là Entailment, Neutral, Contradiction.

VLSP 2021 - vnNLI Challenge (VLSP2021) [32] không chỉ giới thiệu bộ dữ liệu song

ngữ tiếng Anh-Việt mà còn tô chức một cuộc thi về NLI, tạo động lực cho cộng đồngnghiên cứu NLP trong nước phát triển các mô hình tiên tiến hơn Kết quả thu thậpđược hơn 20.000 dữ liệu về NLI, hỗ trợ cho quá trình nghiên cứu NLP

ViHealthNLI [33] tập trung vào lĩnh vực y tế, cung cấp một nguồn tài nguyên quýgiá cho việc xây dựng các ứng dụng NLP hỗ trợ chan đoán, tư van sức khỏe và nghiêncứu y khoa băng tiếng Việt Việc chú thích thủ công tỉ mỉ đảm bảo chất lượng và độ

tin cậy của bộ dữ liệu này.

2.2 Các phương pháp nghiên cứu liên quan

2.2.1 Cac mô hình MRC thông dụng

Các mô hình Machine Reading Comprehension (MRC), với khả năng tự động trích

xuất câu trả lời từ văn bản, đã trải qua một kế hoạch phát triển vượt bậc, từ nhữngphương pháp thống kê giản đơn đến các kiến trúc mạng neural phức tạp

14

Trang 26

2.2.1.1 Phương pháp thống kê

Các mô hình MRC ban đầu thường dựa trên kỹ thuật này như TF-IDF và các quy tắcdựa trên mẫu (pattern-based rules) Chúng thực hiện bằng cách so khớp các từ khóa

trong câu hỏi với đoạn văn và lựa chọn câu trả lời dựa trên tần suất xuất hiện hoặc

các quy ước được xác định trước.

TF-IDF được ứng dụng trong đa dạng các bài toán NLP [34] và bài toán phân tích

cảm xúc [35] Từ đó nhiều nghiên cứu xoay quanh về TF-IDF được ra đời và tạo ranhiều biến thé đạt hiệu quả cao như STF-IDF [36]

TF-IDF va các quy tắc dựa trên mẫu được ứng dụng hiệu quả trong một số tác vụ

NLP, hoặc khi kết hợp với nhiều phương pháp khác Tuy nhiên, các kỹ thuật này

thường không đạt hiệu suất cao bằng các mô hình học sâu hiện đại trong các tác vụ

phức tạp hơn Chúng thường gặp thử thách trong việc xử lý các câu hỏi phức tạp và các đoạn văn dài.

2.2.1.2 Kiên trúc mang neural

Với sự cải tiến của mạng neural, các mô hình MRC đã có những bước tiễn vượt bậc

Các kiến trúc như BiDAF [37] và các biến thể của nó đã sử dụng cơ chế attention dé

chú trọng vào các phan quan trọng của đoạn văn liên quan đến câu hỏi, từ đó cải tiễnđáng ké độ chuẩn xác của câu trả lời BIDAF++ [38] là một phiên bản cải tiến củaBiDAF [37], chú trọng vào việc cải tiễn khả năng self-attention và mô hình hóa ngữ

cảnh.

Sự xuất hiện của kiến trúc Transformer, đặc biệt là mô hình BERT [39], đã đánh dấumột bước cải tiến mới trong lĩnh vực MRC Nhờ khả năng học biểu diễn ngữ nghĩasâu và linh hoạt, BERT [39] và các biến thé của nó đã dat được những hiệu quả vượt

trội trên nhiều bộ dit liệu MRC khác nhau Với ngữ cảnh tiếng Việt, PhoBERT [40] được phat triển bởi VinAI Research, đạt hiệu suất cao trên nhiều tác vu NLP tiếng

Việt.

15

Trang 27

Các nghiên cứu về MRC hiện nay tập trung vào việc cải tiến các mô hình mạnh mẽhơn, có khả năng xử lý các câu hỏi phức tạp hơn, bao gồm cả các câu hỏi đòi hỏi suyluận logic và kiến thức bên ngoài thế giới Ngoài ra, việc kết hợp MRC với các lĩnhvực khác như NLI cũng đang được đây mạnh, nhằm tạo ra những ứng dụng thực tế

hơn và có giá trị hơn cho con người.

2.2.2 Các phương pháp biểu diễn từ

Biểu diễn từ hỗ trợ quan trọng trong việc giúp các mô hình MRC hiểu được ý nghĩa

và quan hệ giữa các từ trong đoạn văn bản Có đa dạng phương pháp biéu diễn từ,

mỗi phương pháp có những ưu nhược điểm riêng

2.2.2.1 Word embedding

La kỹ thuật cơ bản, biéu diễn mỗi từ đưới dang một vector Các từ có ngữ nghĩa tươngđồng sẽ được biểu diễn thành vector gần nhau trong không gian vector Mục tiêu của

kỹ thuật này là nắm bắt được ý nghĩa và quan hệ của các từ trong văn bản Hiện nay

có các mô hình word embedding phô biến như Word2Vec [41], PhoW2V [42], GloVe

[43] fastText [44] Tuy nhiên, phương pháp này còn hạn chế khi nắm bắt được sự đanghĩa của từ, tức là tùy thuộc vào ngữ cảnh một từ có thể có nhiều nghĩa khác nhau

2.2.2.2 Contextualized word embedding

Khắc phục điểm yếu của word embedding, phương pháp này biểu diễn mỗi từ dựatrên ngữ cảnh của nó trong câu, cho phép nam bắt được các sắc thái ý nghĩa khácnhau của từ trong các ngữ cảnh khác nhau Các mô hình tiêu biểu sử dụng phươngpháp này là ELMo [45], BERT [39] và các biến thể của nó như RoBERTa [46] vàALBERT [47] Nhờ khả năng hiểu ngữ cảnh, các mô hình này đã đạt được những kếtquả vượt trội trong nhiều tác vụ NLI, bao gồm cả MRC

2.3 Robust Question-Answering

Các hệ thống QA hiện dai, mặc dù đã có nhiều tiến bộ, vẫn gặp khó khăn trong việcđưa ra câu trả lời chính xác khi đối mặt với những câu hỏi phức tạp hoặc đòi hỏi khả

16

Trang 28

năng suy luận cao (Rajpurkar và cộng sự, 2018 [13]; Chen va Durrett, 2019 [48]; Wallace và cộng sự, 2019 [49]; Kaushik và cộng sự, 2019 [50]).

2.3.1 Giải pháp tang cường

Phương pháp perturbation based và huấn luyện adversarial: Các nghiên cứu của

Wang và Bansal (2018) [51], Khashabi và cộng sự (2020) [52], Liu và cộng sự (2020)

[53] sử dụng các kỹ thuật này dé làm cho mô hình "quen" với các dang nhiễu và biếnthé trong câu hỏi, giúp chúng đưa ra câu trả lời chính xác hơn trong các tình huốngthực tế

Generative QA: Lewis và Fan (2018) [54] đề xuất phương pháp này dé tránh tình

trạng mô hình học thuộc lòng các mẫu đơn giản và không thê xử lý các câu hỏi phức

tạp hơn.

Advanced regularizers: Yeh và Chen (2019) [55], Zhou và cộng sự (2020) [56] sử

dụng các bộ điều chuẩn phức tạp hơn dé giúp mô hình khái quát hóa tốt hơn và tránh

hiện tượng quá khớp (overfitting).

Loại bỏ sai lệch trong tập train: Clark và cộng sự (2019) [57] sử dụng phương pháp

huấn luyện dựa trên tập hợp để giảm thiểu sai lệch trong dữ liệu train, từ đó cải thiện

khả năng khái quát hóa của mô hình.

Căn chỉnh đồ thị: Chen và Durrett (2021) [48] sử dụng kỹ thuật căn chỉnh đồ thị đểliên kết thông tin trong câu hỏi và đoạn văn một cách rõ ràng hơn, giúp mô hình hiểu

rõ hơn mỗi quan hệ giữa chúng.

2.3.2 Xác minh câu trả lời

Đây là một hướng đi khác dé cải thiện tính mạnh mẽ của hệ thống hỏi đáp (Hu và

cộng sự, 2019 [58]; Kamath và cộng sự, 2020 [59]; Wang và cộng sự, 2020 [60];

Zhang và cộng sự, 2021 [61]) Công trình nghiên cứu của chúng tôi tiếp cận theohướng này, nhưng sử dụng mô hình NLI để thực hiện việc xác minh Cách tiếp cậnnày giúp xác minh câu trả lời rõ ràng hơn Nhờ có sự kết hợp các tập dữ liệu NLI từ

17

Trang 29

các dữ liệu khác vào quá trình huấn luyện, giảm sự phụ thuộc vào dữ liệu QA đượcgan nhãn trong dir liệu.

2.4 NLI cho các tác vụ khác

Natural Language Inference (NLD là một nhiệm vu quan trọng trong Natural

Language Processing (NLP) NLI tập trung vào việc xác định mối quan hệ ngữ nghĩagiữa hai câu văn, thường là một tiền đề và một giả thuyết Một số ứng dụng phổ biếncủa NLI có thể kế đến như:

2.4.1 Tóm tắt văn bản:

NLI giúp hệ thống tóm tắt hiéu rõ mối quan hệ giữa các câu, đoạn văn, cũng như ýnghĩa ân dụ, so sánh trong văn bản Điều này cho phép hệ thống tạo ra bản tóm tắtchính xác và bám sát nội dung sốc hơn Nghiên cứu cua Xiao, D và cộng sự (2020)[62] sử dụng NLI dé huấn luyện mô hình ERNIE-GEN [62], một mô hình tạo vănbản mạnh mẽ, giúp cải thiện khả năng tạo ra các bản tóm tắt trôi chảy và bám sát nộidung sốc

2.4.2 Dich máy:

NLI có thể được sử dụng để so sánh bản dịch máy với bản dịch của con người hoặcbản gốc, từ đó đánh giá độ chính xác và tự nhiên của bản dịch Ngoài ra, NLI còn có

thé được tích hợp vào quá trình dịch đề có thé tự động sửa lỗi và cải thiện bản dịch

Liu và cộng sự (2020) [63] đã thành công trong việc sử dụng NLI để cải thiện chấtlượng dịch máy bằng cách giảm nhiễu trong dữ liệu huấn luyện, giúp mô hình dịchhiểu rõ hơn ngữ cảnh và tạo ra bản dịch chính xác hơn

2.4.3 Truy vấn thông tin:

Đánh giá mức độ tương đồng giữa câu truy vấn và nội dung là nhiệm vụ quan trọng

dé xác định xem câu truy van của người dùng và tài liệu có liên quan đến nhau không.Bang cách dùng các kỹ thuật NLI, ta có thé đo lường mức độ tương đồng này một

cách tự động và hiệu quả Nghiên cứu sử dụng NLI của Nogueira và cộng sự (2020)

18

Trang 30

[64] thành công đánh giá mức độ liên quan giữa câu truy van và tài liệu, giúp cải thiệnhiệu quả của hệ thống truy vấn thông tin.

2.5 Các mô hình tham khảo chính

2.5.1 Mô hình mBERT

Multilingual BERT hay viết tắt là mBERT [39] là mô hình ngôn ngữ đa ngôn ngữđược phát triển bởi Google Được xây dựng dựa trên kiến trúc BERT [39], một trongnhững kiến trúc transformer tiên tiễn nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên

(NLP).

Mô hình này được huấn luyện trên dữ liệu từ nhiều ngôn ngữ khác nhau, bao gồm cả

tiếng Việt Điều này làm cho mBERT [39] có khả năng nắm bắt được sự đa dạng và

phức tạp trong ngôn ngữ cua con người Việt Nam.

ER./ SQuAD Start/End =>

Hình 2.1: Quy trình pre-training và fine-tuning tong thé cho BERT [39]

mBERT sử dụng một quy trình hai giai đoạn gồm pre-training va fine-tuning dé xử

lý dữ liệu như trong hình 2.1:

Trong giai đoạn pre-training, mô hình được huấn luyện trên một lượng lớn dữ liệu

văn bản không có nhãn trong hai nhiệm vụ: “Masked Language Model” (MLM),

“Next Sentence Prediction” (NSP) MLM liên quan đến việc che ngẫu nhiên một số

từ trong văn bản đầu vào và sau đó mô hình được giao nhiệm vụ dự đoán ID từ vựngban đầu của từ bị che khuất NSP liên quan đến việc huấn luyện mô hình dé dự đoán

19

Trang 31

liệu hai câu có liên tiếp trong một văn bản hay không Các nhiệm vụ pre-training này

cho phép mô hình phát triên sự hiêu biệt sâu rộng vê môi quan hệ giữa các từ và câu.

Trong giai đoạn fine-tuning, mô hình sau đó được điều chỉnh cho một nhiệm vụ cụ

thé bang cách thêm một số lớp nhỏ cụ thé cho nhiệm vụ trên đầu mô hình được đàotạo trước Điều này cho phép mô hình tận dụng kiến thức chung mà nó đã học được

từ giai đoạn pre-training dé nhanh chóng thích ứng với các nhiệm vụ mới.

Nhìn chung, hai giai đoạn của quy trình gồm pre-training và fine-tuning cho phépmBERT [39] đạt được hiệu qua tốt trên nhiều nhiệm vụ NLI

Bộ dữ liệu train tiếng Việt: Kích thước của tập train dành cho PhoBERT [40] lênđến 20GB hon rat nhiều so với 1GB của mBERT [39] Điều này giúp PhoBERT [40]

hiểu rõ hơn ngữ pháp, ngữ nghĩa, và các đặc trưng riêng của tiếng Việt.

Xử lý từ tiếng Việt: Cách tách từ của hai mô hình là khác nhau BERT [39] sử dụng

WordPiece, không phù hợp với tiếng Việt do các từ thường được ghép lại và không

có dau cách rõ ràng Trong khi, PhoBERT [40] sử dụng BPE (Byte Pair Encoding),năng suất hơn trong việc xử lý từ tiếng Việt

Hiệu suất: Khi áp dụng trên tiếng Việt, bảng 2.1 thống kê được PhoBERT [40] đạthiệu suất vượt trội so với BERT [39] trong các tác vụ NLP như phân loại văn ban,nhận dạng thực thể đặt tên, trả lời câu hỏi, và dịch máy

20

Trang 32

Bảng 2.1: Hiệu suất mô hình trên tập test XNLI

2.5.3 Mô hình XLM-R

XLM-R [65], viết tắt của Cross-Lingual Masked Language Model RoBERTa, là một

mô hình đa ngôn ngữ phát triển bởi Facebook AI Research XLM-R [65] được tạo từkiến trúc ROBERTa [46], một mô hình Transformer được tinh chỉnh từ BERT [39]

Bên cạnh đó, XLM-R [65] còn được huấn luyện trên một tap dir liệu to lớn gồm văn

bản từ 100 loại ngôn ngữ, bao gồm tiếng Việt Điều này mang lại lợi thế to lớn vìnghiên cứu này của chúng tôi tập trung trên các bộ dit liệu MRC và NLI tiếng Việt

Bảng 2.2: Kết quả GLUE trên bộ dữ liệu dev XNLI [65]

GLUE (%)

Model

QNLI QQP SST MRPC | STS-B Avg BERT Large [39] 92.3 91.3 93.2 88.0 90.0 90.2

XLNettzarge 93.9 91.8 95.6 89.2 91.8 92.0

RoBERTa [46] 94.7 92.2 96.4 90.9 92.4 92.8 XLM-R [65] 93.8 92.3 95.0 89.5 91.2 91.8

21

Trang 33

Thống kê từ bảng 2.2, XLM-R [65] đạt kết quả khá cao khi thực nghiệm trên điểmchuân GLUE, một tập dit liệu đánh giá được xây dựng dé kiểm tra khả năng của môhình bằng tiếng Anh Bảng 3.3 cho thấy XLM-R [65] đạt độ chính xác trung bình91,8% so với 92,8% của RoBERTa [46] Điều này cho thay XLM-R [65] có thé hoạt

động tốt trên các nhiệm vụ đòi hỏi sự hiểu biết và lập luận bằng tiếng Anh và các

ngôn ngữ khác, mặc dù nó là một mô hình đa ngôn ngữ được đào tạo trên 100 ngôn

ngữ.

2.5.4 Mô hình VinAI Translate

VinAI Translate [66] được phát triển bởi đội ngũ người Việt Nam, am hiểu sâu sắc

về ngôn ngữ và văn hóa Việt Do đó, hệ thống có khả năng xử lý tốt các đặc thù của

tiếng Việt, mang lại bản dịch chính xác và tự nhiên hơn so với các công cụ dịch khác Hơn nữa, mô hình này được huấn luyện trên bộ dữ liệu PhoMT chất lượng cao, bao

gồm 3 triệu cặp câu song ngữ Anh-Việt Trong hình 2.3 và hình 2.4, chứng minh

được mô hình VinAI Translate [66] dịch hiệu quả hơn google translate trên song ngữ.

Việc huấn luyện trên dữ liệu chất lượng cao giúp hệ thống học được các mẫu dịch

thuật chính xác và tự nhiên hơn.

22

Trang 34

Hình 2.2: Kết qua mô hình dịch thuật từ Anh sang Việt do con người đánh giá [66]

BVinAl Google Translate

Hình 2.3: Kết qua mô hình dich thuật từ Việt sang Anh do con người đánh giá [66]

23

Trang 35

2.5.5 Mô hình QANet

QANéet [67] sử dụng kết hợp convolution layer và self-attention layer, thay vì RNN

Điều này làm cho nó nhanh hơn dé đào tạo Mô hình cũng có thé đạt được độ chuẩn

xác cao hơn gấp 3 đến 13 lần trên tập dữ liệu SQUAD [12]

Model One Encoder

Block

Feedfoward layer

Stacked Model Encoder Blocks

Stacked Model Encoder Blocks

Stacked Model

Encoder Blocks

Stacked Embedding Stacked Embedding

Encoder Blocks Encoder Blocks

Embedding

Position Encoding

Hình 2.4: Kiến trúc mô hình QANet [67]

Hình 2.4 là kiến trúc của mô hình mô tả hoạt động theo 5 lớp như sau:

Input Embedding Layer: Lớp này lẫy các từ từ đoạn văn ngữ cảnh và câu hỏi vàchuyên đổi chúng thành vectơ

Embedding Encoder Layer: là một tập hợp bao gồm các tập hợp cơ bản sau:

“convolution-layer”, “self-attention-layer”, “feed-forward-layer” Mỗi convolutionlayer sử dụng các phép biến đổi convolution có thê tách rời, hiệu quả hơn các phép

24

Trang 36

biến đổi convolution truyền thống Các self-attention layer cho phép mô hình tập

trung vào các phân quan trọng của dau vào.

Context-Query Attention Layer: Lớp này tính toán điểm tương đồng giữa mỗi từ

trong đoạn văn ngữ cảnh và mỗi từ trong câu hỏi Điều này giúp mô hình hiéu cách

câu hỏi liên quan đên đoạn văn ngữ cảnh.

Model Encoder Layer: Lớp này xếp chồng lên nhau một số convolution layer vàself-attention layer, cùng với một lớp chuyên tiếp Lớp này lấy đầu ra từ Embedding

Encoder Layer làm đâu vào.

Output layer: Lớp này dành riêng cho nhiệm vụ trả lời câu hỏi Nó lay đầu ra từModel Encoder Layer và dự đoán phân phối xác suất trên vị trí bắt đầu và kết thúc

của câu trả lời trong đoạn văn ngữ cảnh.

2.5.6 Mô hình ViTS

ViT5 [68] là một mô hình đơn ngôn ngữ cho Tiếng Việt dựa trên kiến trúc T5 [7] T5[7] là một mô hình AI do Google Research phát triển, được tạo ra dé giải quyết cácbài toán tao sinh văn bản Mô hình T15 [7] được dùng trong nhiều trường hợp như tạo

sinh văn bản, dịch thuật và phát hiện tình huống trong các câu chuyện.

Mô hình ViT5 [68] đánh dấu bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tựnhiên cho Tiếng Việt Với kiến trúc như hình 2.5, ViT5 [68] đã trải qua quá trình

huấn luyện trên một nguồn dữ liệu đa dạng và chất lượng cao, tạo ra một mô hình cókhả năng ứng dụng rộng rãi trong nhiều tác vụ ngôn ngữ tiếng Việt khác nhau Các

thử nghiệm đã chứng minh rằng ViT5 [68] vượt trội hơn đáng kể so với các mô hìnhđang có ở thời điểm hiện tại

wikilingua: Anh ấy bắt xe tới tham gia bữa tiệc tại một nhà _.

hàng sang trọng Nhưng trong buôi tiệc, anh ấy ngã quy Anh ay đã nhập viện sau khi tham gia bữa tiệc.

xuống và được đưa tới bệnh viện _» (He was hospitalized after attending the party.)

(He took the car to attend a party at a luxury res! t

at the party, he collapsed and was taken to the ho.

" = " —*| <output_text>

: VITS VITS 2

<task_name>: <input_text> + Eneoder by Dị in K ,

| _ Bệnh nhân PATIENT_ID* 75 PATIENT_ID* là GENDER* nữ GENDER" ,

N | \ AGE* 40 AGE* tuổi , dia chi ở LOCATION* Quận 2 LOCATION’ ,

pho_ner: Bệnh nhân 75 là nữ , 40 tuổi , địa chỉ ở } LOCATION* TP HCM LOCATION*

Quận 2, TP HCM (Patient PATIENT_ID* No.75 PATIENT_ID* is a GENDER*

(Patient No.75 is a female, 40 years old, and lives in female GENDER* , AGE* 40 AGE* years old, and lives

ke District 2, HCM city) in LOCATION’ District 2 LOCATION* , LOCATION* HCM city LOCATION")

Hình 2.5: Tổng quan về kiến trúc ViTS [68]

25

Trang 37

Chương 3 NGHIÊN CỨU PHƯƠNG PHÁP

Các mô hình MRC hiện nay đã đạt được độ chính xác cao trên các bộ dữ liệu, tuy

nhiên các mô hình này thường thiếu đi khả năng tự đánh giá câu trả lời mà mình đưa

ra Vì vậy, lay cảm hứng từ nghiên cứu của Chen và cộng sự [6] chúng tôi đề xuất sửdụng NLI dé có thé đánh giá câu trả lời mà mô hình MRC đưa ra

Nghiên cứu trước đây của Demszky và cộng sự [4] đã chỉ ra rằng VIỆC chuyển đổi các

bộ dit liệu MRC sang NLI có thể giúp cải thiện khả năng của các mô hình NLI cũng

như mở rộng phạm vi suy luận của mô hình.

Nhận thấy việc đánh giá câu trả lời mà mô hình MRC đưa ra bằng NLI trong bối cảnhtiếng Việt van còn hạn chế, chúng tôi tận dụng nguồn dữ liệu MRC tiếng Việt dồi dao(UIT-ViNewsQA [2], UIT-ViQuAD 1.0 [3], UIT-ViQuAD 2.0 [1], ) để tiến hànhchuyên đổi chúng sang dữ liệu NLI sau đó huấn luyện các mô hình NLI để có thé cải

thiện khả năng đánh giá câu trả lời trên bối cảnh tiếng Việt.

3.1 Phương pháp sử dụng NLI vào xác minh câu hỏi unanswerable QA

Chúng tôi mong muốn giúp mô hình QA nâng cao khả năng xác thực khả năng nhậndiện loại câu hỏi Nên giải pháp đầu tiên chúng tôi đề ra là áp dụng thêm NLI dé nângcao hiệu suất mô hình QA với loại dữ liệu có câu hỏi không trả lời được

(unanswerable QA) Cách tiếp cận của chúng tôi sẽ được mô tả cụ thé trong quy trình

1 1

1 L 1 1

UIT-ViQuAD

20

Hình 3.1: Quy trình sử dụng NLI dé xác minh câu hỏi unanswerable QA

26

Trang 38

Bộ dữ liệu UIT-ViQuAD 2.0 [1] là bộ dữ liệu tiếng việt duy nhất hiện tại có được haikiểu câu hỏi là trả lời được và không trả lời được Vì thế, bộ dữ liệu này phù hợp dé

đánh giá kết quả sau khi chúng tôi huấn luyện mô hình NLI

Như trình bày trong hình 3.1, chúng tôi chia quy trình thành 3 bước: Tao sinh câu gia

thuyết, tạo đoạn tiền đề và xác nhận câu trả lời Chi tiết nội dung từng bước được mô

tả theo từng phần bên dưới

3.1.1 Tao sinh câu giả thuyết

Các bước thực hiện với mô hình tạo sinh câu giả thuyết sẽ được trình bày như trong

Câu tra lời

Hình 3.2: Quy trình huấn luyện tạo sinh câu giả thuyết

Tan dụng nguồn tài nguyên sẵn có trong tiếng Anh, bộ dữ liệu QA2D [4] được dịch

ra tiếng việt để huấn luyện cho mô hình tạo câu giả thuyết Vì trong tiếng Việt hiện

vẫn chưa có bộ dữ liệu tương tự QA2D [4] phù hợp cho mục đích này Nên chúng tôi

đã tạo ra ViQA2D tiếng Việt được dịch từ tiếng Anh bang VinAI Translate [66], sẽtrinh bay chi tiết ở nội dung 4.1 Bộ dữ liệu này sẽ được sử dụng dé huấn luyện cho

mô hình ViT5 [68], mô hình tạo câu giả thuyết

27

Trang 39

Tiếp theo, mô hình QANet [67], đã được huấn luyện trước, được sử dụng dé dự đoáncâu trả lời cho câu hỏi trong dữ liệu MRC Câu trả lời dự đoán này sau đó được kếthợp với câu hỏi ban đầu đề tạo thành một câu giả thuyết hoàn chỉnh nhờ vào mô hình

ViT5 [68] Ví dụ:

Câu hỏi: "Kinh tế xung quanh kinh đô ánh sáng mạnh về gì?"

Câu trả lời dự đoán: "nông nghiệp”

= Câu giả thuyết: "Kinh tế xung quanh kinh đô ánh sáng mạnh về nông nghiệp."

Phương pháp này tận dụng khả năng của mô hình QA trong việc xác định thông tin

liên quan đến câu hỏi và tạo ra câu trả lời phù hợp Bằng cách kết hợp câu hỏi và câutrả lời dự đoán, câu giả thuyết được tạo ra mang tính đầy đủ và chính xác hơn, giúpcải thiện hiệu quả quá trình xác minh câu trả lời QA bằng mô hình NLI

3.1.2 Tao đoạn tiền đề

| Câu giả thuyết |

Ngữ cảnh | as | :

Câu 1 |

Ngữ cảnh

Câu n

Hình 3.3: Quy trình tạo đoạn tiền đề

Đoạn tiền đề sẽ là đoạn văn ngắn hơn với các thông tin liên quan chặt chẽ hơn đếncâu giả thuyết Hình 3.3 trình bày quá trình tạo đoạn tiền đề từ đoạn ngữ cảnh truyềnvào mô hình vietnamese SBERT [69] Kế tiếp, so sánh độ tương đồng của từng câungữ cảnh với câu giả thuyết Sau đó sẽ sắp xếp theo thứ tự tương đồng dé chon rađược các câu có độ tương đồng cao Số lượng câu tiền đề được giữ lại sẽ còn lạikhoảng 70% so với đoạn ngữ cảnh ban đầu

Vietnamese Sentence-BERT [69] là một mô hình nhúng câu tiếng Việt sử dụng kiến

trúc sentence-BERT [70] Sentence-BERT [70] là một biến thể của mô hình được đảotạo trước BERT [39] với cấu trúc mạng siamese và triplet, giúp tăng cường khả năng

28

Trang 40

tìm kiêm và so sánh môi tương quan giữa các câu với thời gian tính toán và chi phí

giảm so với các mô hình được đào tạo trước khác như BERT [39] và RoBERTa [46].

3.1.3 Xác nhận câu trả lời

Nhẫn dự đoàn

Entailment

Câu tiền đề Not Entailment

2HỊLeIlibe Contradiction, Unanswerable

T=———————— Neutral, Other

Hình 3.4: Quy trình xác nhận câu trả lời

Câu giả thuyết

Cặp câu tiền đề và giả thuyết như trong hình 3.4 sẽ được truyền vào mô hình NLI, đãđược huấn luyện, dé đánh giá câu trả lời du đoán Mô hình NLI sẽ trả về kết quả là 2

nhãn entailment và not entailment tương với câu tra answerable va unanswerable Từ

đó nhận định kha năng đưa ra câu trả lời của mô hình QA va dé ra phương pháp cải

thiện.

3.2 Phương pháp sử dụng NLI để thu gọn thông tin ngữ cảnh

Dé lấy được câu trả lời thì đoạn văn ngữ cảnh là vô cùng quan trọng, nếu như đoạn

ngữ cảnh có quá nhiều thông tin nhiễu thì có thể khiến cho mô hình bị lừa và dễ nhằmlẫn trong việc đưa ra câu trả lời Từ đó, chúng tôi đề ra phương pháp rút gọn ngữ

cảnh, giảm thiểu thông nhiễu và được trình bày chỉ tiết ở nội dung bên dưới:

Mini context UIT-VIQUAD transform

1.0

Hình 3.5: Quy trình sử dung NLI dé thu gọn thông tin ngữ cảnh

Sau khi xem xét qua các bộ dữ liệu MRC như UIT-ViNewsQA [2], UIT-ViQuAD

1.0 [3], UIT-ViQuAD 2.0 [1], chúng tôi nhận thấy những đoạn ngữ cảnh thường chứanhững thông tin nhiễu, không liên quan đến câu hỏi Những thông tin thừa này có thể

29

Ngày đăng: 06/12/2024, 15:27

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[14]S. Lim, M. Kim va J. Lee, “Korquadl.0: Korean QA dataset for Machine Reading Comprehension,” 2019 Sách, tạp chí
Tiêu đề: Korquadl.0: Korean QA dataset for MachineReading Comprehension
“FQuAD: French Question Answering Dataset,” Findings of the Association for Computational Linguistics: EMNLP 2020, p. 1193-1208, 2020 Sách, tạp chí
Tiêu đề: FQuAD: French Question Answering Dataset
Năm: 2020
[16] P. Efimov, A. Chertok, L. Boytsov va P. Braslavski, “SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis,” Experimental IR Sách, tạp chí
Tiêu đề: SberQuAD -- RussianReading Comprehension Dataset: Description and Analysis
Suleman, “NewsQA: A Machine Comprehension Dataset,” Proceedings of the 2nd Workshop on Representation Learning for NLP, p. 191-200, 2017 Sách, tạp chí
Tiêu đề: NewsQA: A Machine Comprehension Dataset
Năm: 2017
“Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension,” 2020 Sách, tạp chí
Tiêu đề: Enhancing lexical-based approach with external knowledge for Vietnamesemultiple-choice machine reading comprehension
Năm: 2020
[19] I. Dagan, O. Glickman va B. Magnini, “The PASCAL Recognising Textual Entailment Challenge,” Machine Learning Challenges Workshop, p. 177-190,1970 Sách, tạp chí
Tiêu đề: The PASCAL Recognising TextualEntailment Challenge
[20] S. Bowman, G. Angeli, C. Potts va C. D. Manning, “A large annotated corpus for learning natural language inference,” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, p. 632-642, 2015 Sách, tạp chí
Tiêu đề: A large annotated corpusfor learning natural language inference
[21] D. Cer, M. Diab, E. Agirre, I. Lopez-Gazpio va L. Specia, “SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation,” Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), p. 1-14, 2017.67 Sách, tạp chí
Tiêu đề: SemEval-2017 Task1: Semantic Textual Similarity Multilingual and Crosslingual FocusedEvaluation
[22] ““Quora question pairs,” Kaggle, 2018. [Trực tuyến]. Available:https://www.kaggle.com/c/quora-question-pairs. [Đã truy cập 28 June 2024] Sách, tạp chí
Tiêu đề: “Quora question pairs
[23] X. Liu, P. He, W. Chen va J. Gao, “Multi-Task Deep Neural Networks for Natural Language Understanding,” Proceedings of the 57th Annual Meeting of Sách, tạp chí
Tiêu đề: Multi-Task Deep Neural Networks forNatural Language Understanding
[24] H. Hu, K. Richardson, L. Xu, L. Li, S. Kũbler va L. S. Moss, “OCNLI: Original Chinese Natural Language Inference,” Findings of the Association for ằ Sách, tạp chí
Tiêu đề: OCNLI: OriginalChinese Natural Language Inference
[25] G. Wijnholds va M. Moortgat, “SICK-NL: A Dataset for Dutch Natural Language Inference,” Proceedings of the 16th Conference of the EuropeanChapter of the Association for Computational Linguistics: Main Volume, p.1474-1479, 2021 Sách, tạp chí
Tiêu đề: SICK-NL: A Dataset for Dutch NaturalLanguage Inference
[26] J. Ham, Y. J. Choe, K. Park, I. Choi va H. Soh, “KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding,” Findings of the Association for Computational Linguistics: EMNLP 2020, p. 422-430, 2020 Sách, tạp chí
Tiêu đề: KorNLI and KorSTS: NewBenchmark Datasets for Korean Natural Language Understanding
[27] R. Mahendra, A. F. Aji, S. Louvan, F. Rahman va C. Vania, “IndoNLI: A Natural Language Inference Dataset for Indonesian,” Proceedings of the 2021Conference on Empirical Methods in Natural Language Processing, p. 10511—10527, 2021 Sách, tạp chí
Tiêu đề: IndoNLI: ANatural Language Inference Dataset for Indonesian
[29]H. Amirkhani, M. AzariJafari, Z. Pourjafari, S. Faridan-Jahromi, Z. Kouhkan va A. Amirak, “FarsTail: A Persian Natural Language Inference Dataset,” 2020.68 Sách, tạp chí
Tiêu đề: FarsTail: A Persian Natural Language Inference Dataset
[32] N. T. Quyen, H. T. Anh, N. T. M. Huyen va N. Lien, “VLSP 2021 - vnNLI Challenge: Vietnamese and English-Vietnamese Textual Entailment,” VNU Journal of Science: Computer Science and Communication Engineering, tap38, 2022 Sách, tạp chí
Tiêu đề: VLSP 2021 - vnNLIChallenge: Vietnamese and English-Vietnamese Textual Entailment
[33] H. Nguyen, Q. T. Ngo, T.-H. Do va T.-A. Hoang, “ViHealthNLI: A Dataset for Vietnamese Natural Language Inference in Healthcare,” Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages Sách, tạp chí
Tiêu đề: ViHealthNLI: A Dataset forVietnamese Natural Language Inference in Healthcare
[34] M. Das, S. K. và P. J. A. Alphonse, “A Comparative Study on TF-IDF feature Weighting Method and its Analysis using Unstructured Dataset,” 2023 Sách, tạp chí
Tiêu đề: A Comparative Study on TF-IDF featureWeighting Method and its Analysis using Unstructured Dataset
[35] A. Madasu va S. E, “A Study of Feature Extraction techniques for Sentiment Analysis,” 2019 Sách, tạp chí
Tiêu đề: A Study of Feature Extraction techniques for SentimentAnalysis
[73] A. Vũ, “UNDERTHESEANLP/Underthesea: Underthesea - Vietnamese NLPtoolkit,’ GitHub, 29 June 2007. ~~ [Truc tuyến]. Available:https://github.com/undertheseanlp/underthesea. [Đã truy cập 1 July 2024] Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN