TOM TAT KHÓA LUẬNBài toán đọc hiểu tự động machine reading comprehension - MRC điển hình là nhóm tác vụ dựa trên Hỏi đáp tự động question-answering - QA cho phép máy tính tìm được thông
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
HOÀNG TRỌNG KHÔI - 19521706
PHẠM QUANG TƯỜNG - 19522499
KHÓA LUẬN TÓT NGHIỆP
CAI THIỆN MÔ HÌNH ĐỌC HIẾU TRAC NGHIỆM TREN
TIẾNG VIỆT VỚI HƯỚNG TIẾP CẬN ATTENTION ĐA
BƯỚC VÀ SUY LUẬN NGÔN NGỮ TỰ NHIÊN
Enhancing performance of Multiple-choice Reading
Comprehension on Vietnamese with Multi-step Attention and
Natural Language Inference approaches
CU NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS LƯU THANH SƠN
ThS NGUYÊN VĂN KIỆT
Trang 2LỜI CẢM ƠN
Nhóm chúng em xin gửi lời cảm ơn chân thành đến Thể Lưu Thanh Sơn và Thể
Nguyễn Văn Kiệt, cảm ơn hai thay đã chỉ bảo, hướng dẫn chúng em trong suốt quá
trình thực hiện khoá luận cũng như hoạt động trong nhóm nghiên cứu Đặc biệt,
chúng em xin cảm ơn thay Sơn đã luôn tận tình quan tâm, hỏi thăm, động viên và hỗchúng em suốt thời gian này Nhóm chúng em cũng xin gửi lời cảm ơn anh Trân
Vĩnh Khiêm và toàn thể quý thay cô cùng các anh, chị, các ban trong nhóm nghiêncứu NLP@UIT đã giúp đỡ, góp ý dé chúng em có thể hoàn thiện được một cách tốt
nhất đề tài Khoá luận này
Chúng em xin gửi lời tri ân đến quý thay cô của Trường Đại học Công nghệ Thôngtin nói chung và quý thầy cô của Khoa Khoa học và Kỹ thuật Thông tin nói riêng đãnhiệt tình giảng dạy, truyền đạt cho chúng em những kiến thức và kỹ năng hữu íchtrong những năm vừa qua, góp một phan lớn cung cấp kiến thức, nên tang dé chúng
em thực hiện đề tài này
Cuối cùng, chúng em xin gửi lời cảm ơn đến gia đình, bạn bè và cảm ơn tập thể
Khoa hoc Dữ liệu 2019 đã luôn bên cạnh giúp đỡ động viên và đưa ra những lời
Trang 31.2.2 Mô hình kiến trúc họ BERT và phương pháp MMM - 9
1.3 Thách thức của bài tOán - - + th vn nh HH nh nh rườn 10
1.4 Lý do thực hiện đề tài -26-222t 221 22212221122211221122211 211.211 c2 re, 11
“.‹ :A: Ô 12
Chương 2 BO DU LIỆU ¿-©222222222S+c2Execcrxesrreesrr 132.1 Bộ dữ liệu ViMMRC 2.0 22222:222222222222221112222221112 212111 re, 13
2.2 Bộ dữ liệu ViNLI, 5522222222222 t222 1E ri 14
2.3 Phân tích tong quan đặc trưng bộ dữ liệu ViMMRC . - 152.3.1 — Thống kê tổng quate ccceccccccseecssecsssecsssessscsssecsssecssecsseecssecssneesseees 152.3.2 Thống kê về độ dai đoạn đọc hiểu, câu hỏi, câu trả lời 172.3.3 Thống kê, phân tích về câu hỏi trắc nghiệm - 202.4 Kết luận ©cc 2c St 2E 1221122112112112211 2112111111111 re 23Chương 3 HƯỚNG TIEP CAN CHO BÀI TOÁN -:-++ 25
3.1 Kiến trúc mô hình đề xuất 2¿-©2+++222++ttExErrtrrrrrrrrrrrrrrrrrree 25
3.2 Phương pháp học chuyền tiếp trong xử lý ngôn ngữ tự nhiên 263.2.1 Kiến trúc BERT
Trang 43.2.5 MO hình XLM-R c+ St serererererrrrrrrrrrererrrrree 30
3.3 Kỹ thuật huấn luyện bổ sung với tác vụ NLL
3.4 Cơ chế multi-step attentiOn -2+22©+++22E++22EEEEtEEEExrrrrrrrrrrrrrree 323.5 Kết luận
Chương 4 THỰC NGHIEM, KET QUA VÀ ĐÁNH GIÁ 37
4.1 Độ đo đánh giá
4.2 Thiết lập tham số thí nghiệm +2+++++z++tzxxrrrrrxrrsrrx 374.3 Kết qua thử nghiệm
4.4, Phân tích kết quả :-2+52+2E2t2EE 2222212211221 221.211 re 404.4.1 Thách thức về mức độ đọc hiểu với các cấp bậc lớp học cao hơn 404.4.2 Ảnh hưởng của loại câu hỏi đối với hiệu suất mô hình 414.4.3 Tính hiệu quả của các phương pháp dé xuắt . -: s¿ 42
4.5 Phân tich lỗi c en Ỉ ⁄ 45
TÀI LIEU THAM KHẢO -22¿©222222EEE22EEEEEt2EEEEESEEEEErtrrrrrrrrrrrrrrrk 53
Trang 5DANH MỤC HÌNH
Hình 1.1: Các phân loại tác vụ Doc hiểu tự động hiện có ¿5 <c+c+<cxe 4
Hình 1.2: Tác vụ Đọc hiểu trắc nghiệm tự động + + + c++++sxsscscseree 6Hình 1.3: Sự phát triển của Pre-trained LM va mdi liên hệ với BERT 9
Hình 1.4: Đọc hiểu tự động ứng dụng trong công cụ tìm kiếm và hệ thống chatbot 11
Hình 2.1: Quy trình xây dựng bộ dữ liệu VIMMRC 2.0 13Hình 2.2: Một số ví dụ mẫu cho tác vụ MMRC trong bộ dữ liệu „14Hình 2.3: Ví dụ về tác vụ NLI „lố
Hình 3.1: Kiến trúc mô hình sử dụng cho tác vụ MMRC 25Hình 3.2: Phương pháp huấn luyện mô hình với tác vụ bổ sung NLI 26
Hình 3.3: Kiến trúc Transformer Encoder và Multi-Head Attention 28
Hình 3.4: Quy trình tổng quát kỹ thuật STILT -¿©z+22++++cv++z+z+x 31Hình 3.5: Kiến trúc mang Attention đa bước gắn trên bộ mã hoá ngữ cảnh BERT.33
Hình 3.6: Self Attention Sum va Similarity AttentiOn -s -<+s+s<<++ 34
Hình 4.1: Kết quả dự đoán của mô hình co sở ViBERT trên tap phat triển theo cấp
bậc lớp hỌC kh nà HT Tà Hà TT HT TT TT HT HH ty 4I
Hình 4.2: Hiệu suất của mô hình ViBERT với tác vụ trung gian NLI và cơ chếMAN qua các loại suy luận -:-¿ ¿S532 S2E2121*£2E#EEEEEEESkEkrkrkrkrrerree 4
Hình 5.1: Giao diện chương trình minh hoạ 5 + + S+* sex 49
Hình 5.2: Ví dụ trả lời câu hỏi trắc nghiệm với chương trình minh hoạ 50
Trang 6DANH MỤC BANG
Bảng 1.1: Các bộ dữ liệu MRC trên tiếng }„ 8
Bang 2.1: Thống kê tổng quát của bộ dữ liệu VIMMRC 2.0 - + 16
Bang 2.2: Thống kê bộ dữ liệu theo cấp bậc lớp học -cz+c+ 17 Bảng 2.3: Thống kê độ dài theo thể loại văn bản -2¿-©52¿225zc22szcczzcsrx 18 Bảng 2.4: Thống kê phân bó độ dài câu hỏi và câu trả lời 19
Bảng 2.5: Thống kê phân bó độ đài đoạn đọc hiểu 19 Bang 2.6: Ty lệ các loại suy luận theo thể loại văn bản „21 Bảng 2.7: Thống kê các câu hỏi có số lượng đáp án khác 4 „21
Bảng 2.8: Thống kê các thé loại suy luận theo cấp bậc lớp học - 22
Bang 2.9: Thống kê số lượng các loại câu hỏi xuất hiện trong tập phát trién 23
Bang 4.1: Tham số thí nghiệm cho các mô hình trên tác vụ MRC - 38
Bảng 4.2: Kết quả thực nghiệm trên các mô hình ngôn ngữ tiền huấn luyện cơ sở 39 Bảng 4.3: Kết quả thực nghiệm khi áp dụng các phương pháp cải tiến với đào tạo bổ sung tác vụ trung gian và mang Attention đa bước - ¿+ sc+c+s++++ 40 Bảng 4.4: Độ chính xác của mô hình ViBERT và XLM-R theo loại câu hỏi 42
Bang 4.5: Hiệu suất của mô hình ViBERT theo loại câu hỏi khi áp dung cơ chế MAN và tác vụ trung gian NLI đối với các loại câu hỏi khác nhau 42
Bang 4.6: Kết quả độ chính xác dự đoán theo cấp bậc lớp học của mô hình ViBERT
khi áp dụng cơ chế MAN và tác vụ trung gian NLÍ -2¿z+22s++czsc+r+ 44
Trang 7DANH MỤC TU VIET TAT
BERT Bidirectional Encoder Representations from Transformers
LM Language Model
MAN Multi-step Attention Network
mBERT = Multilingual BERT
MCQA Multiple-choice Question Answering
MMRC_ Multiple-choice Machine Reading Comprehension
MRC Machine Reading Comprehension
NLI Natural Language Inference
NLP Natural Language Processing
SOTA State-Of-The-Art
STILT Supplementary Training on Intermediate Labeled-data Tasks
ViMMRC Vietnamese Multiple-choice Machine Reading Comprehension Corpus
ViNLI Vietnamese Natural Language Inference
Trang 8TOM TAT KHÓA LUẬN
Bài toán đọc hiểu tự động (machine reading comprehension - MRC) điển hình là
nhóm tác vụ dựa trên Hỏi đáp tự động (question-answering - QA) cho phép máy
tính tìm được thông tin chính xác từ việc hiểu các văn bản ngôn ngữ tự nhiên dựatrên câu hỏi đưa vào MRC bao gồm 3 thành phan chính: văn cảnh, câu hỏi và câu
trả lời Tuỳ thuộc vào kiểu câu trả lời, bài toán có thê được phân thành các loại tác
vụ con như: trích xuất (extractive/span), trắc nghiệm (multiple-choices), luận lý
(boolean), và sinh văn bản (generative/free form) [1].
Đọc hiểu trắc nghiệm tự động (multiplechoice machine reading comprehension
MMRC) hay Hỏi đáp trắc nghiệm tự động (multiplechoice question answering MCQA) là một trong những tác vụ được nghiên cứu sớm nhất trong nhóm bài toánMRC, với việc bộ dữ liệu MCTest [2] được công bố năm 2013 Trong bài toán này,máy tính cần phải chọn ra ít nhất một câu trả lời đúng từ danh sách các đáp án tuỳ
-chọn Câu trả lời có thể ở dạng văn bản trích xuất, tự sinh hay thậm chí ở dạngđúng/sai Tác vụ Hỏi đáp trắc nghiệm nhắm đến việc nâng cao khả năng đọc hiểu
câu hỏi và văn bản của máy tính, từ đó đưa ra lựa chọn chính xác cho câu trả lời.
Trong những năm trở lại đây, đã có nhiều công trình nghiên cứu khoa học liên quan
trên thế giới về MMRC được xuất bản [3, 4, 5, 6, 7] Bên cạnh đó, bài toán MRC và
QA nói chung trên ngôn ngữ tiếng Việt cũng dần được cộng đồng nghiên cứu quantâm với hàng loạt các bộ dữ liệu mới được ra đời như UIT-ViQuAD [8], ViCoQA
[9], UIT-ViCoV19QA [10], ViHealthQA [11], UIT-EVJVQA [12] Tuy nhiên, chi
ViMMRC [13] là bộ dif liệu đầu tiên và sau này là phiên bản cải tiến ViMMRC 2.0[14] hỗ trợ cho tác vụ MMRC Do đó, đề tài nghiên cứu này sẽ tập trung vào cácphương pháp xử lý và cải tiến mô hình đọc hiéu cho bài toán đọc hiểu trac nghiệmtrên bộ dữ liệu tiếng Việt VIMMRC
Một trong những xu hướng nghiên cứu hiện nay của MRC là sử dụng các mô hình
ngôn ngữ tiền huấn luyện (pre-trained language models) mà điển hình là BERT [15]
và các biến thể của nó Nhiều nghiên cứu trên dữ liệu tiếng Việt cũng chỉ ra rằng,
Trang 9những mô hình họ BERT đạt được kết quả tốt hơn so với các mô hình học sâu vàhọc máy truyền thống [16, 17, 18] Tác giả ở nghiên cứu [19] đã khảo sát chỉ tiết
hiệu suất của loạt mô hình đơn ngôn ngữ và đa ngôn ngữ họ BERT khác nhau chotác vụ phân loại văn bản trên nhiều bộ dữ liệu tiếng Việt Từ đó, có thể thấy rằng
mô hình kiến trúc họ BERT là cách tiếp cận tối ưu cho bài toán MMRC trên dữ liệutiếng Việt
Đề có thể trích xuất tuỳ chọn đáp án chính xác, mô hình máy học không chỉ phải
hiểu được toàn bộ ngữ cảnh của đoạn đọc hiểu, mà còn cần liên kết được các thông
tin liên quan giữa văn cảnh, câu hỏi và nội dung của các tuỳ chọn trả lời Vì vậy,
chúng tôi đề xuất hướng tiếp cận multi-stage dựa trên nghiên cứu trước đó [20], vớiviệc sử dụng BERT làm mô hình biểu diễn ngôn ngữ, kết hợp với cơ chế Attention
đa bước (multi-step attention network) và phương pháp học tri thức bổ sung thông
qua tác vụ suy luận ngôn ngữ tự nhiên (natural language inference) cho bài toán
MMRC trên dữ liệu tiếng Việt Cụ thể, chúng tôi sẽ tiến hành thực nghiệm kết hợp
các phương pháp tiên tiến khác nhau dé tìm ra phương thức state-of-the-art (SOTA)trên bài toán này, nhằm tạo tiền đề cho các nghiên cứu liên quan sau này của cộng
đồng nghiên cứu NLP trên tiếng Việt
Khoá luận được trình bày chia thành 5 chương với các nội dung chính như sau:
Chương 1: Tổng quan
Giới thiệu tổng quan về lĩnh vực Đọc hiểu tự động, tầm quan trọng của Bài toán đọc
hiểu tự động đặc biệt là Đọc hiểu trắc nghiệm tự động và những thách thức hiện có,
đồng thời đề cập đến các nghiên cứu liên quan trong và ngoài nước
Chương 2: Bộ dữ liệu
Giới thiệu tổng quan về các bộ dữ liệu tiếng Việt sử dụng trong nghiên cứu này
Trang 10Chương 3: Hướng tiếp cận cho bài toán
Trình bày các hướng tiếp cận sẽ sử dụng, các phương pháp học sâu đã nghiên cứu
để xử lý bài toán MMRC và các lý thuyết nền tản xung quanh Những phương pháp
đã áp dụng trong bài bao gồm việc sử dụng các biến thể mô hình đa ngôn ngữ vàđơn ngôn ngữ tiền huấn luyện của BERT, phương pháp đào tạo bổ sung với tác vụtrung gian NLI và cơ chế mạng Attention đa bước
Chương 4: Thử nghiệm, kết quả và đánh giá
Trong chương này, chúng tôi sẽ giải thích độ đo đánh giá và các thiết lập tham số
cho các thử nghiệm, trình bày các kết quả thực nghiệm đạt được, đưa ra đánh giá và
so sánh kết quả các phương pháp khác nhau đồng thời thực hiện các phân tích lỗicho kết quả dự đoán của các mô hình
Chương 5: Chương trình minh hoạ
Trinh bày chương trình demo được xây dựng dé minh hoạ hệ thống đọc hiểu trắcnghiệm tự động sử dụng một số mô hình thực nghiệm trong báo cáo
Chương 6: Đóng góp, hạn chế và hướng phát triển
Tổng kết những kết quả đã đạt được của đề tài, từ đó rút ra kết luận, phân tích các
hạn chế, tự nhận xét, và đề xuất phương hướng phát triển sau này
Trang 11Chương 1 TONG QUAN
Dé có cái nhìn tổng quan về để tài, sau đây, chúng tôi sẽ trình bày các khái niệm
liên quan về bài toán Đọc hiểu trắc nghiệm tự động, bàn về tính ứng dụng của bàitoán trong các giải pháp thực tế, cũng như đề cập đến những thách thức cần phải
giải quyết của bài toán
1.1 Giới thiệu bài toán
Đọc hiểu tự động (MRC) là một dé tài thú vị và thách thức trong lĩnh vực Xử lý
ngôn ngữ tự nhiên (natural language processing - NLP) với nhiều ứng dụng rộng rãitrên toàn thế giới Thế nhưng, đây không phải là một lĩnh vực mới phát triển Phân
loại nhóm tác vụ MRC dựa vào loại câu hỏi và câu trả lời, có thể kể đến một số tác
vụ điển hình như điền vào chỗ trong (cloze style), trac nghiệm (multiple-choice),
trích xuất văn bản (span prediction/extraction), câu hỏi tự do (free-form answer).Dựa vào ngữ cảnh đọc hiểu, ngoài các tác vụ sử dụng ngữ cảnh từ văn bản thôngthường, MRC còn bao gồm bài toán da tác vụ đọc hiểu (multi-modal MRC) kết hợp
giữa lĩnh vực NLP với lĩnh vực Xử lý ảnh (computer vision - CV) như VQA, khi
ngữ cảnh chứa đồng thời văn bản và hình ảnh minh hoạ
Machine Reading Comprehension Tasks
|
! i i I
Multiple Span Free-form
Choice Prediction Answer
Cloze Style
Hình 1.1: Các phân loại tác vụ Doc hiểu tự động hiện có!
Trang 12Để hiểu rõ về tác vụ Đọc hiểu trắc nghiệm tự động, Hình 1.1 ở trên mô tả những tác
vụ con thường được phân loại cho nhóm tác vụ Đọc hiểu tự động hiện nay Cụ thé,
dưới đây sẽ là các định nghĩa phân loại tác vụ này, biết rằng một bộ dữ liệu có thé
thoả mãn nhiều phân loại khác nhau:
-_ Cloze style: Trong tác vụ này, câu hỏi sẽ chứa các chỗ trồng Hệ thong MRC
có nhiệm vụ tìm những từ hay cụm từ phù hợp nhất dựa vào nội dung ngữ
cảnh để điền vào chỗ trồng này Ví dụ: ROCStories [3],
- Multiple-choice: Trong tác vụ trắc nghiệm, hệ thống MRC cần phải dựa vào
ngữ cảnh được cung cấp, chọn ra được câu trả lời chính xác từ một tập các
lựa chọn đáp án Ví du: MCTest [2], RACE [4],
- Span prediction: Trong tác vụ trích xuất văn bản, câu trả lời là một
đoạn/cụm từ có sẵn nằm trong văn bản ngữ cảnh Hệ thống MRC có nhiệm
vụ dự đoán vị trí bat đầu và kết thúc của câu trả lời cụ thể trong đoạn ngữ
cảnh này Ví du: SQuAD [21], NewsQA [22],
-_ Free-form answer: Loại tác vụ này cho phép câu trả lời thuộc bất kỳ dạng
nào Do đó, câu trả lời không bị phụ thuộc vào bất cứ đoạn văn hay cụm từ
nao từ đoạn ngữ cảnh Ví dụ: WikiQA [23], CoQA [24],
Bộ dữ liệu ViMMRC 2.0 sử dụng trong đề tài này là một bộ dữ liệu đọc hiểu trắc
nghiệm dựa trên văn bản ngữ cảnh Các đáp án cho câu hỏi phần lớn có dạng form answer Trong để tài này, bài toán Đọc hiểu trắc nghiệm tự động (multiple-
free-choice machine reading comprehension) trên bộ dữ liệu Tiếng Việt — VIMMRC 2.0
sẽ được khái quát như sau:
- Đầu vào: Câu hỏi trắc nghiệm kèm theo tập các lựa chọn cho câu trả lời và
đoạn văn bản cung cấp ngữ cảnh
- Đầu ra: Một phương án trả lời duy nhất trong bộ các lựa chọn đáp án
Trang 13đọc hiểu vấn đáp từ năm 1977, hay Hirschman và các cộng sự cũng đã xây dựng hệ
thống đọc hiểu từ năm 1999 Tuy nhiên, hầu hết các hệ thông MRC này đều là các
mô hình thống kê (statistical models) hay các hệ thông sử dụng quy tắc (rule-based)
Đến tận 2013, Richardson và các cộng sự [2] đã cho ra đời bộ dữ liệu MCTest (một
bộ dữ liệu trắc nghiệm), kéo theo các nghiên cứu về việc áp dụng mô hình máy học
vào bài toán đọc hiểu văn bản bắt đầu nở rộ Để giải quyết sự thiếu hụt các bộ dữliệu chất lượng, Hermann và các cộng sự [26] đã phát triển một phương pháp xây
dựng dữ liệu để tạo ra các bộ dữ liệu đọc hiểu có giám sát quy mô lớn vào năm
2015 Kể từ đó, lĩnh vực MRC bước vào thời kỳ phát triển nhanh chóng với sự xuất
Trang 14CNN/Daily Mail [26], WikiQA [23], SQuADI.I [21], TriviaQA [27], RACE [4],
MultiRC [5], SQUAD2.0 [28], CoQA [24], Natural Question [29],
Mặt khác, tuy là một ngôn ngữ ít tài nguyên trên thế giới, tiếng Việt đã va dangnhận được nhiều sự quan tâm đến từ các nhà nghiên cứu với nhiều công trình trong
và ngoài nước được xuất bản Có không ít bộ dữ liệu chất lượng phục vụ cho tác vụ
MRC trên tiếng Việt được ra mắt trong những năm trở lại đây Trong đó, có thể kểđến ViMMRC [13] và ViQuAD [8] là hai bộ dữ liệu đầu tiên phục vụ cho tác vụnày Với ViQuAD chứa hơn 23.000 bộ câu hỏi từ 5.109 đoạn đọc hiểu cho tác vụđọc hiểu trích xuất văn bản Bộ dữ liệu UIT-ViQuAD 2.0 [30] ra mắt sau đó tạiVLSP 2021-ViMRC Challenge”, với sự bổ sung thêm 9.217 câu hỏi không thé trả
lời, đã khắc phục điểm yếu của bộ dữ liệu đầu tiên đối với những câu hỏi “bẫy”,
không rõ ràng trong đoạn đọc hiểu Mặt khác, ViMMRC [13] hiện là bộ dữ liệuhiếm hoi phục vụ tác vụ MMRC trên tiếng Việt, chỉ có kích thước giới hạn gồm
2,783 bộ câu hỏi cho 417 đoạn đọc hiéu được trích từ sách giáo khoa Tiếng Việt cấp
Tiểu học (từ lớp 1 đến lớp 5) Day cũng là lý do bộ dữ liệu VIMMRC 2.0 (một côngtrình gần đây đang trong quá trình công bó của chúng tôi, chỉ tiết bộ dữ liệu sẽ đượctrình bày tại Mục 2.1) được xây dựng, với sự mở rộng về kích thước cũng như nângcấp mức độ đọc hiểu
Một số bộ dữ liệu khác trên tiếng Việt cho tác vụ MRC có thể ké đến gồm Bộ dữliệu đọc hiểu hội thoại về đề tài sức khoẻ thu thập từ các bài báo điện tử tiếng ViệtViCoQA [9], Bộ dữ liệu các hỏi đáp cộng đồng về các thông tin chủ đề COVID-19
ViHealthQA [11] hoặc Bộ dữ liệu hỏi đáp tự động dựa trên hình ảnh UIT-EVJVQA
[12] Dé có cái nhìn tổng quan về các bộ dữ liệu tiếng Việt hiện tại phục vụ tác vụ
MRC, khảo sát ở Bảng 1.1 sau đây liệt kê, trình bày những thông tin cơ bản về các
bộ dữ liệu hiện có sử dụng cho tiếng Việt cho nhóm tác vụ Đọc hiểu tự động
? https://aihub vn/competitions/35
Trang 15Bang 1.1: Các bộ dữ liệu MRC trên tiếng Việt
Bộ dữ liệu Phân loại Quy mô Nguồn dữ liệu
ViMMRC [13] Multple 417 doan doc hiéu va SGK Tiếng Việt cấp
choice 2.783 câu hỏi tiêu học
UIT-ViQuAD [8] Extractive 5.109 đoạn đọc hiéu và Wikipedia
23.074 câu hỏi
ViCoQA [9] Conversa- 2.000 đoạn hội thoại và Các bài báo chủ đề
tional MRC 10.000 câu hỏi sức khoẻ
UIT-ViQuAD2.0_ Extractive 5.173 đoạn đọc hiểu và Wikipedia
[30] 35.990 câu hỏi (9.217
câu hỏi không thê trả lời)
ViHealthQA [11] Retrieval 10.015 bộ câu hỏi Các bài báo điện tử
về đê tài sức khoẻ
UIT-ViWikiQA — Extractive 5.109 doan doc hiéu va Wikipedia
[31] 3.074 câu hỏi
UIT-ViNewsQA _ Extractive 4.416 bài báo và 22.057 Các bài báo chủ dé
[32] câu hỏi sức khoẻ
UIT-ViCov19QA Query 4.500 bộ câu hỏi FAQ từ các trang
[10] web về sức khoẻ
VIMQA [33] Bool and 10.047 bộ câu hỏi Wikipedia
Extractive (Multi-hop)
Legal text QA [34] Retrieval 5.922 bộ câu hỏi Văn bản pháp lý
MLQA [35] Extractive 12.738 câu hỏi tiếng Anh Wikipedia
và 5.029 câu hỏi ngôn ngữ khác gôm tiêng Việt
ViMMRC 2.0 [14] Multiple 599 doan doc hiéu va SGK Tiếng Việt và
Trang 161.2.2 Mô hình kiến trúc họ BERT và phương pháp MMM
Trong những năm gần đây, các mô hình ngôn ngữ lớn (Large LM) mạnh mẽ đangtrên đà phát triển, ví dụ như BERT [15] đã đạt được kết quả SOTA trên hàng loạtcác tác vụ phổ biến Theo như nghiên cứu của Zaib và các cộng sự [36], các môhình ngôn ngữ tiền huấn luyện (pre-trained language models) mang lại nhiều lợi thé
tiềm năng hơn các phương pháp học sâu thông thường, do việc được huấn luyện
trước trên một lượng lớn dữ liệu, từ đó có thể học được các đặc trưng có tính tổng
quát hơn Các đặc trưng này sau đó có thé được sử dụng dé giải quyết cho các tác
vụ cụ thể, như đọc hiểu văn bản, phân tích cảm xúc, tóm tắt văn bản, Ngoài ra,
các mô hình tiền huấn luyện còn có khả năng giải quyết van đề overfitting trong bàitoán khi huấn luyện trên các tập dữ liệu có kích thước hạn chế Một số nghiên cứu
trên tiếng Việt [16, 17, 18] cũng đã cho thay, việc sử dụng các mô hình ngôn ngữ họ
BERT cho hiệu suất vượt qua các phương pháp học sâu và học máy truyền thống.Đặc biệt, kết quả đạt được khi sử dụng các mô hình đơn ngôn ngữ vượt trội so với
các mô hình đa ngôn ngữ [19] với kiến trúc này
Semi-supervised Sequence Learning
MEDNN việc Permutftion LM
Kaoweelasuilen UniLM Monlạ [asta More lai
- VL-BERT
KnowBert UNITER - wxewvsssasmszssamov
Hình 1.3: Sự phát triển của Pre-trained LM và mối liên hệ với BERT
Trang 17Mặt khác, công trình cua Jin và các cộng sự [20] đã giới thiệu phương pháp học
đa nhiệm nhiều giai đoạn (multi-stage multi-task learning) 4p dụng cho bài toánMMRC đem lại nhiều kết quả khả quan cho các bộ dữ liệu tiếng Anh hiện có.Nghiên cứu này thực nghiệm trên nhiều tác vụ trung gian khác nhau và chứng minhđược việc kết hợp tác vụ suy luận ngôn ngữ (NLI) có khả năng giúp cải thiện hiệusuất cho mô hình MMRC Kết hợp với sự ra đời của Bộ dữ liệu suy luận ngôn ngữ
tự nhiên cho tiếng Việt ViNLI [37], chúng tôi quyết định áp dụng các mô hình tiền
huấn luyện họ BERT với sự kết hợp của tác vụ bồ trợ NLI dé cải thiện kết quả chobài toán Đọc hiểu trắc nghiệm tự động trên bộ dữ liệu tiếng Việt VIMMRC 2.0
1.3 Thách thức của bài toán
Tác vụ MRC thiết kế cho máy tính xử lý, dựa trên mô phỏng các bài kiểm trả khả
năng đọc hiểu văn bản của con người: máy tính cần trả lời các câu hỏi đưa ra dựa
trên các thông tin từ ngữ cảnh của đoạn văn bản được cung cấp Nhưng khác vớicác tác vụ NLP truyền thống, MRC yêu cầu các kỹ thuật liên quan đến nhiều khía
cạnh ngôn ngữ về ý nghĩa từ vựng, ngữ pháp và cú pháp, đồng thời cũng yêu cầu
khả năng phân tích ngữ cảnh văn bản, kết hợp với các kỹ thuật suy luận ngữ nghĩa.Điều này khiến MRC trở thành một tác vụ thách thức trong lĩnh vực NLP Dựa vào
nguồn thông tin để trả lời câu hỏi, ta có thé phân tác vụ MRC thành 2 loại: tríchxuất thông tin (span extraction) như bộ dữ liệu SQUAD [21, 28] và câu trả lời tự do
(free-form answer) như bộ dữ liệu MCTest [2], MultiRC [5] Chính vi câu trả lời
không giới hạn bởi một cụm từ nhất định có sẵn trong đoạn ngữ cảnh, những bộ dữ
liệu free-form answer như ViMMRC càng đòi hỏi những kỹ năng đọc hiểu nâng cao
hơn để máy tính có thể thực hiện được tốt tác vụ này
Một trong những rào cản khác trong bài toán MMRC nói chung và lĩnh vực NLP
nói riêng là việc thiếu các nghiên cứu tập trung cho ngôn ngữ tiếng Việt cũng như
số lượng các bộ dữ liệu tiếng Việt chất lượng đặc biệt là các bộ dữ liệu phục vụ cho
tác vụ MMRC vẫn còn rat it, khi da số các công trình khoa học đều tập trung chủyếu vào tiếng Anh Cũng vì vậy, sự khác biệt về từ vựng cũng như cấu trúc ngữ
Trang 18pháp giữa tiếng Anh và tiếng Việt cũng là một thách thức cho việc áp dụng đượcnhững nghiên cứu đi trước vào bài toán hiện có trên tiếng Việt Do đó, các kiến thứcngôn ngữ nhất định về tiếng Việt dé có thé thực hiện các phương pháp xử lý ngônngữ phù hợp là điều cần thiết.
1.4 Lý do thực hiện đề tài
Đọc hiểu tự động nói chung có thé được áp dụng rộng rãi trong nhiều hệ thống NLPkhác nhau, như các công cụ tìm kiếm hay các hệ thống chatbot Ví dụ cụ thể trongHình 1.4, khi chúng ta nhập câu hỏi vào công cụ tìm kiếm Bing, phụ thuộc vào mức
độ phức tạp mà kết quả có thể trả về trực tiếp đáp án chính xác, kèm theo các dẫnchứng trong hộp thoại ở dau trang Ngoài ra, với ChatGPT? (một mô hình ngôn ngữlớn phát triển bởi OpenAlf cung cấp dưới dạng một chatbot), ta có thé hỏi nhữngcâu như “Đâu là thủ đô của Việt Nam?”, và nhận được kết quả trả về sẽ là “Thu đô
của Việt Nam là Hà Nội” Qua đó, dễ thây được, MRC có thể giúp cải tiến hiệu suất
của các công cụ tìm kiếm và các hệ thống đối thoại tự động.
Ge processing
Hình 1.4: Đọc hiểu tự động ứng dung trong công cụ tìm kiếm và hệ thống chatbot
Thêm vào đó, những cải tiến đối với các công trình nghiên cứu về tác vụ MMRCnói riêng cũng sẽ giúp ích trên nhiều lĩnh vực thực tiễn khác nhau như giáo dục, tài
3 https://chat.openai.com/
4 https://openai.com/
11
Trang 19chính, y tế, hay chăm sóc khách hàng Các ứng dụng với MMRC có thé kế đến nhưlà: đánh giá chất lượng các bài kiểm tra, hệ thống trả lời tự động cho việc tự học,
xây dựng các trợ lý ảo đối thoại tự động, từ đó làm giảm khối lượng lao động củacon người cũng như tăng hiệu suất công việc, đồng thời tối ưu chỉ phí hoạt động
Với việc hiện có hon 85 triệu người trên thé giới sử dụng tiếng Việt, các nghiên
cứu liên quan đến tác vụ MRC trên ngôn ngữ này sẽ có ý nghĩa thiết thực cho không
chỉ cộng đồng bản ngữ mà còn những người nước ngoài muốn giao tiếp bằng tiếng
Việt Các nghiên cứu trong tác vụ MMRC cũng sẽ đem lại những đóng góp chung
vào sự phát triển của nhóm tác vụ MRC Chúng tôi mong rằng, với những kết quả
đạt được từ khoá luận, chúng tôi có thể đóng góp một phần công sức, tạo tiền đềcho các công trình kế tiếp, giúp cho cộng đồng nghiên cứu AI nói chung và NLP
nói riêng trên tiếng Việt ngày càng phát triển
1.5 Kết luận
Bài toán đọc hiểu tự động tuy không phải là một chủ đề mới, nhưng với sự pháttriển nhanh chóng của các phương pháp học sâu tiên tiến cùng sự ra đời của những
bộ dữ liệu mở chất lượng, việc tiến hành áp dụng các hướng tiếp cận mới vào bài
toán Đọc hiểu trắc nghiệm trên dữ liệu tiếng Việt sẽ đem lại nhiều lợi ích thiết thực
trong việc giải quyết các van đề thực tế hiện nay dé cải thiện chất lượng cuộc sống.Ngoài ra, những nghiên cứu thử nghiệm đã thực hiện trong đề tài cũng sẽ góp phần
cung cấp những nền tang cơ bản cho cộng đồng Xử lý ngôn ngữ tự nhiên trong việc
thực hiện các công trình liên quan trong tương lai.
5 Theo thống kê của ethnologue.com năm 2022
Trang 20Chương2 BỘ DỮ LIỆU
2.1 Bộ dữ liệu VIMMRC 2.0
ViMMRC 2.0 [14] là một bộ dữ liệu tiếng Việt phát triển bởi nhóm nghiên cứuNLP@UIT, được mở rộng từ bộ dữ liệu VIMMRCS ra mắt trước đó nhằm mục tiêu
mở rộng quy mô về cả kích thước lẫn độ phức tạp của bộ dữ liệu cũ
Đây là bộ dữ liệu dành cho tác vụ Đọc hiểu trắc nghiệm tự động, gồm các văn bảnđọc hiểu dành cho học sinh chương trình giáo dục phổ thông (từ khối lớp 1 đến lớp
12) Trong đó, các văn bản đọc hiểu chia thành hai thể loại là: thơ (poem) và vănxuôi (prose) truyền thống Các văn bản đọc hiểu được thu thập từ hai nguồn chính:
Thứ nhất là các bài đọc hiểu trong Sách Giáo Khoa môn Tiếng Việt (đối với khối
lớp 1-5) và môn Ngữ Văn (đối với khối lớp 6-12) của Nhà xuất bản Giáo dục do BộGiáo dục và Đào tạo biên soạn Thứ hai là các phần tóm tắt của các bài đọc hiểu
trên được sưu tầm từ hai nguồn dir liệu đáng tin cậy”, nơi các văn bản, tài liệu, đề
thi được chia sẻ công khai miễn phí Các bộ câu hỏi trắc nghiệm cũng được thu thập
từ hai nguồn dữ liệu này
L—>[ Question & answer set
Trang 21Bộ dữ liệu chứa 5.273 cặp câu hỏi trắc nghiệm cho 699 đoạn đọc hiểu Trong đó, có
437 bài đọc hiểu với 2.768 câu hỏi trắc nghiệm thuộc mức độ tiêu học (lớp 1-5) và
262 bài đọc hiểu với 2.505 câu hỏi trắc nghiệm thuộc mức độ trung học (lớp 6-12).Hình 2.2 dưới đây là ví dụ về một đoạn đọc hiểu trong bộ dữ liệu Trong đó, những
phần ngữ cảnh được sử dụng để trả lời câu hỏi được tô màu và đánh số tương ứngvới câu hỏi.
Đoạn đọc hiểu: Trưa mùa hè, øZz;z »2⁄:z @ như mật ong trải nhẹ trên khắp cáccánh đông có ®, Những con sơn ca đang nhảy nhót trên sườn đồi Chúng bay lên cao và cất tiếng hót Tiếng hót lúc trầm, lúc bổng, lanh lót vang mãi đi xa Bong
dưng lũ sơn ca không hót nữa mà bay vút lên nền /zởi xanh tham
Câu hồi 1: Những con sơn ca đang nhảy nhót ở đâu?
Các đáp án:
A Trên cánh đông lúa.
B Trên sườn đồi.
C Trên mái hiên nha.
D Trên đồng cỏ bao la.
Câu hỏi 2: Thời tiết trong bài được được miêu tả như thế nào?
Các đáp án:
A Nắng vàng và trời xanh thẳm “
B Nẵng hanh vàng như chuối
C Nóng ôi bức trong người.
D Cái nắng lãnh lót.
Hình 2.2: Một số ví dụ mẫu cho tác vụ MMRC trong bộ dữ liệu
2.2 Bộ dữ liệu ViNLI
Suy luận ngôn ngữ tự nhiên (NLI) là một tác vụ quan trọng trong lĩnh vực hiểu
ngôn ngữ tự nhiên (NLU — một nhánh con của lĩnh vực NLP) qua việc dự đoán mối
Trang 22quan hệ ngữ nghĩa giữa hai câu riêng biệt Cụ thể, NLI được định nghĩa là tác vụ
xác định tính đúng (entailment), sai (contradiction) hoặc trung lập (neutral) của giả
thuyết (hypothesis) dựa vào một tiền đề (premise) cho trước Một ví dụ về tác vụNLI được trình bày trong Hình 2.3 dưới đây:
Tiền đề: Cậu bé đang đi chơi với bạn
Giả thuyết: Cậu bé đang học bài Sai
Câu bé không ở một mình Ding Cậu bé thích màu đỏ Trung lập
Hình 2.3: Ví dụ về tác vụ NLI
ViNLI là một bộ dữ liệu tiếng Việt chất lượng cao mã nguồn mở phục vụ cho việc
đánh giá các mô hình suy luận ngôn ngữ tự nhiên được xây dựng bởi Huynh và cáccộng sự [37], ra mắt mới đây Bộ dữ liệu bao gồm hơn 30,000 cặp tién dé - giả
thuyết được gán nhãn thủ công, trích từ hơn 800 bài báo điện tử thuộc 13 chủ đềlĩnh vực khác nhau Khác với các bộ dữ liệu NLI trước đây, mỗi tién dé trong bộ dữ
liệu ViNLI được xây dựng kèm theo hai câu gid thuyét khác nhau thay vì chỉ một
2.3 Phân tích tong quan đặc trưng bộ dữ liệu VIMMRC
Dé tạo cơ sở cho việc thực hiện các nghiên cứu liên quan và giải quyết bài toán trên
bộ dữ liệu VIMMRC 2.0, nhóm đã thực hiện các khảo sát, thống kê, phân tích các
đặc trưng, khía cạnh khác nhau của bộ dữ liệu Các đặc trưng về độ dài văn bản,
mức độ đọc hiểu, loại câu hỏi, loại suy luận, sẽ được trình bày trong phần này.
2.3.1 Thống kê tổng quát
Bảng 2.1 sau đây mô tả các đặc trưng tổng quan của bộ dữ liệu Bộ dữ liệu gồm
699 đoạn đọc hiểu với 5.273 câu hỏi và 21.092 câu trả lời tương ứng được chia
thành các tập huấn luyện (train), phát triển (dev) và kiểm thử (test) theo tỷ lệ chia là
15
Trang 237-1-2 Kích thước tập từ vựng cũng đã được mở rộng hơn so với tập dữ liệu
ViMMRC [13] công bố trước đó Trong đó, thê loại văn ban mới (các bài thơ) cũng,
có số lượng chiếm khoảng 25% bộ dữ liệu
Bảng 2.1: Thống kê tổng quát của bộ dữ liệu ViMMRC 2.0
Train Dev Test All
tập trung nhiều nhất ở khối lớp 3, 4 và 5 Bên cạnh đó, các khối lớp tiểu học (khối
lớp 1 đến 5) nói chung cũng có nhiều đoạn văn đọc hiéu và câu hỏi hơn so với các
khối lớp cao hơn (khối lớp 6 đến 12) Số lượng đoạn văn đọc hiểu và câu hỏi có sự
khác nhau giữa các khối lớp, với các khối lớp tiêu học có sự tập trung nhiều hơn so
với các khối lớp trung học Tuy nhiên, lượng từ vựng lại tập trung ở các khối lớpcao hơn Điều này cho thấy độ phức tạp của yêu cầu mức độ đọc hiểu tăng dần theo
cấp bậc lớp học
Trang 24Bảng 2.2: Thống kê bộ dữ liệu theo cấp bậc lớp học
Lớp li Số bàithơ Sốcâuhỏi Số câu trảlời Tập từ vựng
2.3.2 Thống kê về độ dài đoạn đọc hiểu, câu hỏi, câu trả lời
Bảng 2.3 trình bày khảo sát thống kê về đặc trưng của hai loại văn bản, trong đó
các giá trị độ dài được tính ở mức từ Số liệu cho thấy độ dài trung bình của cácđoạn thơ trong tập dữ liệu là khoảng 210 từ, trong khi đó đối với văn xuôi là khoảng
643 từ Điều này dẫn đến việc phải tìm ra các phương phù hợp đề xử lý sự khác biệt
này Độ dài các câu hỏi, câu trả lời trong bộ dữ liệu tương đối ngắn (khoảng 14-16
từ đối với câu hỏi và 7-9 từ đối với câu trả lời) Điều này sẽ đòi hỏi mô hình phải
trích xuất thông tin từ văn bản thật chính xác đề có thể trả lời được câu hỏi
17
Trang 25Bảng 2.3: Thống kê độ dài theo thể loại văn bản
Thể loại Thơ Văn xuôiTập dữ liệu Tran Dev Test Tran Dev Test
Độ dai trung bình đoạnvăn 2102 1977 2864 6436 6312 637,5
Độ dài trung bình câu hỏi 14,3 15,2 16,0 14,1 16,3 14,2
Độ dai trung bình đáp án 71 8,5 7/7 §,5 9,0 92
Kích thước tập từ vựng 6.780 1.702 3.609 15.660 6.086 8.645
Thống kê tỷ lệ phân bố độ dài câu hỏi và câu trả lời trên các tập dữ liệu được thể
hiện trong Bang 2.4 Ta có thé thay, hau hết các câu hỏi (73%) có kích thước ít hơn
15 từ với tỷ lệ cao nhất (38%) chứa 11-15 từ Các câu hỏi dài hơn 21 từ không xuất
hiện thường xuyên trong tập dữ liệu (12%) Trong tập train, câu hỏi có độ dài 11-15
từ chiếm tỷ lệ cao nhất (39%), trong khi câu hỏi có độ dài 16-20 từ xuất hiện nhiềunhất trong tệp dev và test với tỷ lệ 0,16 và 0,15 tương ứng Các câu hỏi có kích
thước từ 21 đến 25 từ xuất hiện thường xuyên hơn trong bộ test với tỷ lệ 0,06 Cuối
cùng, các câu hỏi dai hơn 26 từ thường xuất hiện trong tap dev với tỷ lệ 0,11 Mặtkhác, đối với câu trả lời, kết quả cho thấy đa số câu trả lời có độ dài đưới 15 từ
(87%, trong đó 71% câu hỏi có độ dài dưới 10 từ) Các câu trả lời dài hơn (hơn l6
từ) chỉ chiếm dưới mức 12% trong bộ dữ liệu này Câu trả lời đài hơn 21 từ xuất
hiện thường xuyên hơn trong tập kiểm thử (test set)
Trang 26Bảng 2.4: Thống kê phân bố độ dài câu hỏi và câu trả lời
Câu hỏi Câu trả lời
độ dài nhỏ hon 100 từ chiếm tỷ lệ thấp nhất khoảng 0,08 Thống kê trên cho thấy
cho thấy sự đa dạng về độ dài các văn bản trong bộ dữ liệu cũng như việc mộtlượng không nhỏ các đoạn đọc hiểu (18%) có kích thước lớn hơn 700 từ
Bang 2.5: Thống kê phân bé độ dài đoạn đọc hiểu
Độ dài đoạn đọc hiểu Train Dev Test Toàn bộ
Trang 272.3.3 Thống kê, phân tích về câu hỏi trắc nghiệm
Trong bộ dữ liệu này, các câu hỏi được phân loại thành 5 kiểu suy luận, có độ khó
và độ phức tap tăng dan Các kiêu suy luận được mô tả như sau:
- Word matching: Các từ khoá trong câu hỏi khớp hoàn toàn với những từ
khoá trong đoạn văn.
- Paraphrasing: Câu trả lời có thể được trích từ câu đơn trong đoạn văn dưới
cách viết khác Do đó, các câu hỏi có thể được tạo nên bằng cách sử dụng
những từ đồng nghĩa hoặc các kiến thức tương đồng đề ám chỉ
- Single-sentence Reasoning: Câu trả lời được suy luận từ những thông tin có
trong một câu duy nhất
- Multi-sentence Reasoning: Câu trả lời được suy luận bằng cách tổng hợp
thông tin từ nhiều câu khác nhau
- Ambiguous/Insuffieienf: Không thé tìm thấy thông tin về câu hỏi trong bài
đọc hoặc câu trả lời không phải là duy nhất
Bảng 2.6 và Bảng 2.8 sẽ giúp ta có cái nhìn tổng quát về đặc điểm các loại suyluận trong bộ dữ liệu Cụ thể ở Bang 2.6, ta có thé thấy mức độ suy luận cho các
câu hỏi về thơ có sự phức tạp hơn so với văn xuôi Đối với thơ, Multi-sentenceReasoning và Ambiguous Or Insufficient chiếm tỷ lệ cao nhất trong khi Word
Matching và Paraphrasing chỉ chiếm khoảng 1% dù kích thước văn ban đọc hiểutrung bình thấp hơn nhiều so với văn xuôi (chỉ khoảng 1/3, Bang 2.3) Điều này có
thể giải thích rằng, do thơ có tính sáng tạo, tỉnh tế trong ngôn ngữ và được sử dụngnhững từ ngữ súc tích Trong khi đó, các ý câu trong văn xuôi thường sẽ được diễn
đạt một cách chỉ tiết, trôi chảy và logic hơn
Trang 28Bảng 2.6: Tỷ lệ các loại suy luận theo thé loại văn bản
Thể loại Thơ Van xuôi
Tập dữ liệu Train Dev Test Train Dev Test
Số liệu ở Bang 2.8 cho ta thấy sự khác biệt giữa các loại suy luận theo từng cấp
bậc lớp học Từ cấp độ trung học (lớp 6 trở lên) các câu hỏi dạng Word Matching vàParaphrasing xuất hiện rat ít Mặt khác, các câu hỏi thuộc dang Single-sentence
Reasoning và Multi-sentence Reasoning chiêm sé lượng lớn phân bố ở tất cả cáckhối lớp Ngoài ra, trong bộ đữ liệu cũng tồn tại một số câu hỏi chỉ có 2 hoặc 3 đáp
án lựa chọn (Bảng 2.7).
Bảng 2.7: Thống kê các câu hỏi có số lượng đáp án khác 4
Train Dey Test
Câu hỏi có 2 đáp án 30 5 42
Câu hỏi có 3 đáp án 88 9 117
21
Trang 29Lớp Matching Paraphrasing
Bang 2.8: Thống kê các thé loại suy luận theo cấp bậc lớp học
Single-semence Multi-sentence Ambiguous Or Reasoning Reasoning Insufficient
Ngoài các loại suy luận, các câu hỏi còn có thể được phân loại dựa trên các lựachọn đáp án, chúng tôi đã thực hiện khảo sát và phân tích về khía cạnh này, qua đó
biết được các loại câu hỏi xuất hiện trong bộ dữ liệu gồm:
Loại 1 - Câu hỏi lấy thông tin: các câu hỏi về sự vật, sự việc Các câu hỏi
này thường sẽ có dang ai?, cái gì, vật gi?, như thế nào?, Day là dạng câuhỏi xuất hiện thường xuyên trong các văn bản đọc hiểu
Loại 2 - Câu hỏi với lựa chọn nhiều đáp án đúng: là các câu hỏi có xuất
hiện lựa chọn với nhiều đáp án đúng Dé trả lời được dang câu hỏi này, yêu
Trang 30cầu cần phải nắm được ý nghĩa và so sánh các lựa chọn đáp án với nhau,cùng với việc tông hợp thông tin từ nhiều phan trong đoạn đọc hiéu.
- Loại 3 - Các câu hỏi dạng đúng/sai: là những câu hỏi phân biệt tính chat
như đúng/sai hay có/không, Các câu hỏi này phan lớn chỉ có 2 lựa chọn
đáp án.
- Loại 4: những câu hỏi không thuộc 3 loại trên.
Các thống kê khảo sát về các loại câu hỏi này trên tập phát triển được trình bày
trong Bảng 2.9 dưới đây Ta có thé thấy rõ, các câu hỏi trong tập dữ liệu này hầu hếtthuộc loại 1 và 2 (96%) Trong đó, chiếm ty lệ chủ yếu là các câu hỏi lấy thông tin(79%).
Bảng 2.9: Thống kê số lượng các loại câu hỏi xuất hiện trong tập phát triển
Loại Mô tả Số lượng Tỷ lệ
1 Câu hỏi lấy thông tin (Wh-question) 445 79%
2 Câu hỏi với lựa chọn nhiều đáp án đúng 96 17%
3 Câu hỏi dạng đúng/sai 5 1%
4 Các dạng câu hỏi khác 18 3%
2.4 Kết luận
Trong chương này, chúng tôi đã giới thiệu các thông tin tổng quát của hai bộ dữ liệuđược sử dụng cho bài toán Sau khi thực hiện các thống kê khảo sát, phân tích trên
bộ dữ liệu ViMMRC 2.0, chúng tôi rút ra được một s6 kết luận như sau:
- Phần lớn các đoạn đọc hiểu thuộc các khối lớp có trình độ tiểu học, đặc biệt
là các lớp 3-4-5) Nhưng lượng từ vựng lại tập trung ở các khối lớp cao hơn
cho thấy sự phức tạp về tác vụ đọc hiểu tăng dần qua các cấp bậc lớp học
23
Trang 31- Độ dài trung bình của các văn bản thơ chỉ bằng khoảng 1/3 so với văn xuôi.
Tuy nhiên sự phức tạp trong các câu hỏi lại cao hơn do tính sáng tạo và súc
tích trong ngôn ngữ của thể loại thơ
- Độ đài trung bình của câu hỏi và câu trả lời khá ngắn đòi hỏi mô hình phải
trích xuất thông tin chính xác đề có thể đưa ra câu trả lời đúng
- Phần lớn các câu hỏi trong tập dữ liệu thuộc loại suy luận Multi-sentence
Reasoning, rat ít các câu hỏi dạng suy luận Matching va Paraphrasing Điều
đó chứng tỏ rằng bộ đữ liệu có mức độ phức tạp cao
Việc giới thiệu các thông tin liên quan về các bộ dữ liệu được sử dụng giúp ta có thểhiểu được tổng quát những van dé cần giải quyết trong bài toán này Ngoài ra, quaquá trình phân tích khảo sát bộ dữ liệu ViMMRC 2.0, chúng tôi cũng mong có thé
đem lại được cái nhìn tổng quan về các đặc trưng, điểm mạnh và thách thức bộ dữliệu này đem lại cho bài toán MMRC trên tiếng Việt, từ đó góp phần giúp những
nghiên cứu sau này trên bộ dữ liệu có thé dé dang hơn trong việc tìm được các
phương pháp, hướng tiếp cận phù hợp
Trang 32Chương 3 HƯỚNG TIẾP CAN CHO BÀI TOÁN
Trong chương này, chúng tôi sẽ trình bày kiến trúc tổng quát được dé xuất và hướng
tiếp cận sử dụng để giải quyết bài toán MMRC, đồng thời giải thích các phươngpháp nghiên cứu cải tiến cũng như các lý thuyết nền tảng xung quanh Cụ thể, các
phương pháp học chuyển tiếp và những mô hình tiền huấn luyện sử dụng, kỹ thuậtđào tạo bổ trợ với tác vụ trung gian NLI, cơ chế mạng Attention đa bước sẽ được
trình bày trong các mục tiếp theo
3.1 Kiến trúc mô hình đề xuất
Trong tác vụ MMRC, đầu vào của mô hình bao gồm 3 thành phần chính là: đoạn
văn bản chứa ngữ cảnh, câu hỏi trắc nghiệm và tập ít nhất 2 lựa chọn cho câu trả lời.
Giả sử đoạn văn bản ngữ cảnh được ký hiệu là P Câu hỏi và lần lượt các lựa chọn
cho câu trả lời ký hiệu là Q và Ø Khi đó, mô hình MCQA có nhiệm vụ chon ra duy
nhất một câu trả lời đúng từ các lựa chọn O dựa trên P và Q
‘Segment 1 ‘Segment 2
(e15) | Pasage [Sem | ouesen [semi [Onion | (SEF of Enome }
Hình 3.1: Kiến trúc mô hình sử dụng cho tác vụ MMRC
Hình 3.1 trên đây minh hoạ về kiến trúc mô hình MMRC sử dụng trong bài toán
Trong đó, “Encoder” là bộ mã hoá câu tiền huấn luyện (pre-trained sentence
encoder) như BERT Trong bài toán này, chúng tôi sử dụng mBERT, ViBERT,
Bert4News, XLM-R làm bộ mã hoá từ “Classifier” là lớp phân loại trong mô hình
mạng nơ-ron Chỉ tiết cụ thể mạng phân loại này sẽ được mô tả trong Muc 3.4 Vớicâu hỏi gồm n lựa chọn đáp án, đầu vào là chuỗi token tương ứng với số lựa chọn
25
Trang 33đáp án Mỗi chuỗi token được cấu tạo từ đoạn ngữ cảnh, câu hỏi và một trong cáclựa chọn đáp án liên kết với nhau thành một chuỗi có chiều dài ! Kế tiếp, mỗi chuỗi
sẽ được mã hoá bởi bộ mã hoá câu dé lấy được vector biểu diễn H € R“*!, sau đóđược chuyên đổi thành giá trị p = C(H) (p € R1) thông qua mạng phân loại C Từ
đó, chúng ta thu được vector logit đầu ra từ mạng phân loại, p = [p1,P2, - ,
Pnl-Vector này được biến đổi thành vector xác suất thông qua lớp softmax để chọn đáp
án cho câu trả lời Hàm mắt mát để đánh giá hiệu suất mô hình được sử dụng làCross entropy (Log loss).
Nhu đã đề cập trước đó ở Mục 1.2.2, lay ý tưởng từ phương pháp MMM, chúng tôi
ề xuất áp dụng các mô hình họ BERT được huấn luyện trước trên dữ liệu tiếngViệt để làm mô hình biểu diễn ngôn ngữ, cùng với đó kết hợp thêm việc học bổ
sung với tác vụ NLI và sử dụng mang Attention đa bước Phương pháp huấn luyện
é xuất này được minh hoạ tổng quát ở Hinh 3.2 dưới đây
we CCoarse-tuning NLI task
.
stage 2:
Eine-tuning MRC task
-‘err man
-{ c13} | Passage [ISEP) | queston | (SEP Opto 1 | (SEP) |- 4 Encoder ->{ Classifier
¬ | Pr THiponess | SEPI] po (se)
Hình 3.2: Phương pháp huấn luyện mô hình với tác vụ bồ sung NLI
3.2 Phương pháp học chuyển tiếp trong xử lý ngôn ngữ tự nhiên
Phương pháp học chuyền tiếp (transfer learning) đã chứng minh được tầm quantrọng của nó đối với lĩnh vực NLP trong những năm gần đây, với khả năng ấn tượngtrong việc chuyền giao tri thức từ các mô hình đã huấn luyện cho bài toán trước đó