Khóa luận tốt nghiệp Khoa học dữ liệu: Cải thiện mô hình đọc hiểu trắc nghiệm trên tiếng Việt với hướng tiếp cận attention đa bước và suy luận ngôn ngữ tự nhiên

TOM TAT KHÓA LUẬNBài toán đọc hiểu tự động machine reading comprehension - MRC điển hình là nhóm tác vụ dựa trên Hỏi đáp tự động question-answering - QA cho phép máy tính tìm được thông

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

HOÀNG TRỌNG KHÔI - 19521706

PHẠM QUANG TƯỜNG - 19522499

KHÓA LUẬN TÓT NGHIỆP

CAI THIỆN MÔ HÌNH ĐỌC HIẾU TRAC NGHIỆM TREN

TIẾNG VIỆT VỚI HƯỚNG TIẾP CẬN ATTENTION ĐA

BƯỚC VÀ SUY LUẬN NGÔN NGỮ TỰ NHIÊN

Enhancing performance of Multiple-choice Reading

Comprehension on Vietnamese with Multi-step Attention and

Natural Language Inference approaches

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS LƯU THANH SƠN

ThS NGUYÊN VĂN KIỆT

Trang 2

LỜI CẢM ƠN

Nhóm chúng em xin gửi lời cảm ơn chân thành đến Thể Lưu Thanh Sơn và Thể

Nguyễn Văn Kiệt, cảm ơn hai thay đã chỉ bảo, hướng dẫn chúng em trong suốt quá

trình thực hiện khoá luận cũng như hoạt động trong nhóm nghiên cứu Đặc biệt,

chúng em xin cảm ơn thay Sơn đã luôn tận tình quan tâm, hỏi thăm, động viên và hỗchúng em suốt thời gian này Nhóm chúng em cũng xin gửi lời cảm ơn anh Trân

Vĩnh Khiêm và toàn thể quý thay cô cùng các anh, chị, các ban trong nhóm nghiêncứu NLP@UIT đã giúp đỡ, góp ý dé chúng em có thể hoàn thiện được một cách tốt

nhất đề tài Khoá luận này

Chúng em xin gửi lời tri ân đến quý thay cô của Trường Đại học Công nghệ Thôngtin nói chung và quý thầy cô của Khoa Khoa học và Kỹ thuật Thông tin nói riêng đãnhiệt tình giảng dạy, truyền đạt cho chúng em những kiến thức và kỹ năng hữu íchtrong những năm vừa qua, góp một phan lớn cung cấp kiến thức, nên tang dé chúng

em thực hiện đề tài này

Cuối cùng, chúng em xin gửi lời cảm ơn đến gia đình, bạn bè và cảm ơn tập thể

Khoa hoc Dữ liệu 2019 đã luôn bên cạnh giúp đỡ động viên và đưa ra những lời

Trang 3

1.2.2 Mô hình kiến trúc họ BERT và phương pháp MMM - 9

1.3 Thách thức của bài tOán - - + th vn nh HH nh nh rườn 10

1.4 Lý do thực hiện đề tài -26-222t 221 22212221122211221122211 211.211 c2 re, 11

“.‹ :A: Ô 12

Chương 2 BO DU LIỆU ¿-©222222222S+c2Execcrxesrreesrr 132.1 Bộ dữ liệu ViMMRC 2.0 22222:222222222222221112222221112 212111 re, 13

2.2 Bộ dữ liệu ViNLI, 5522222222222 t222 1E ri 14

2.3 Phân tích tong quan đặc trưng bộ dữ liệu ViMMRC . - 152.3.1 — Thống kê tổng quate ccceccccccseecssecsssecsssessscsssecsssecssecsseecssecssneesseees 152.3.2 Thống kê về độ dai đoạn đọc hiểu, câu hỏi, câu trả lời 172.3.3 Thống kê, phân tích về câu hỏi trắc nghiệm - 202.4 Kết luận ©cc 2c St 2E 1221122112112112211 2112111111111 re 23Chương 3 HƯỚNG TIEP CAN CHO BÀI TOÁN -:-++ 25

3.1 Kiến trúc mô hình đề xuất 2¿-©2+++222++ttExErrtrrrrrrrrrrrrrrrrrree 25

3.2 Phương pháp học chuyền tiếp trong xử lý ngôn ngữ tự nhiên 263.2.1 Kiến trúc BERT

Trang 4

3.2.5 MO hình XLM-R c+ St serererererrrrrrrrrrererrrrree 30

3.3 Kỹ thuật huấn luyện bổ sung với tác vụ NLL

3.4 Cơ chế multi-step attentiOn -2+22©+++22E++22EEEEtEEEExrrrrrrrrrrrrrree 323.5 Kết luận

Chương 4 THỰC NGHIEM, KET QUA VÀ ĐÁNH GIÁ 37

4.1 Độ đo đánh giá

4.2 Thiết lập tham số thí nghiệm +2+++++z++tzxxrrrrrxrrsrrx 374.3 Kết qua thử nghiệm

4.4, Phân tích kết quả :-2+52+2E2t2EE 2222212211221 221.211 re 404.4.1 Thách thức về mức độ đọc hiểu với các cấp bậc lớp học cao hơn 404.4.2 Ảnh hưởng của loại câu hỏi đối với hiệu suất mô hình 414.4.3 Tính hiệu quả của các phương pháp dé xuắt . -: s¿ 42

4.5 Phân tich lỗi c en Ỉ ⁄ 45

TÀI LIEU THAM KHẢO -22¿©222222EEE22EEEEEt2EEEEESEEEEErtrrrrrrrrrrrrrrrk 53

Trang 5

DANH MỤC HÌNH

Hình 1.1: Các phân loại tác vụ Doc hiểu tự động hiện có ¿5 <c+c+<cxe 4

Hình 1.2: Tác vụ Đọc hiểu trắc nghiệm tự động + + + c++++sxsscscseree 6Hình 1.3: Sự phát triển của Pre-trained LM va mdi liên hệ với BERT 9

Hình 1.4: Đọc hiểu tự động ứng dụng trong công cụ tìm kiếm và hệ thống chatbot 11

Hình 2.1: Quy trình xây dựng bộ dữ liệu VIMMRC 2.0 13Hình 2.2: Một số ví dụ mẫu cho tác vụ MMRC trong bộ dữ liệu „14Hình 2.3: Ví dụ về tác vụ NLI „lố

Hình 3.1: Kiến trúc mô hình sử dụng cho tác vụ MMRC 25Hình 3.2: Phương pháp huấn luyện mô hình với tác vụ bổ sung NLI 26

Hình 3.3: Kiến trúc Transformer Encoder và Multi-Head Attention 28

Hình 3.4: Quy trình tổng quát kỹ thuật STILT -¿©z+22++++cv++z+z+x 31Hình 3.5: Kiến trúc mang Attention đa bước gắn trên bộ mã hoá ngữ cảnh BERT.33

Hình 3.6: Self Attention Sum va Similarity AttentiOn -s -<+s+s<<++ 34

Hình 4.1: Kết quả dự đoán của mô hình co sở ViBERT trên tap phat triển theo cấp

bậc lớp hỌC kh nà HT Tà Hà TT HT TT TT HT HH ty 4I

Hình 4.2: Hiệu suất của mô hình ViBERT với tác vụ trung gian NLI và cơ chếMAN qua các loại suy luận -:-¿ ¿S532 S2E2121*£2E#EEEEEEESkEkrkrkrkrrerree 4

Hình 5.1: Giao diện chương trình minh hoạ 5 + + S+* sex 49

Hình 5.2: Ví dụ trả lời câu hỏi trắc nghiệm với chương trình minh hoạ 50

Trang 6

DANH MỤC BANG

Bảng 1.1: Các bộ dữ liệu MRC trên tiếng }„ 8

Bang 2.1: Thống kê tổng quát của bộ dữ liệu VIMMRC 2.0 - + 16

Bang 2.2: Thống kê bộ dữ liệu theo cấp bậc lớp học -cz+c+ 17 Bảng 2.3: Thống kê độ dài theo thể loại văn bản -2¿-©52¿225zc22szcczzcsrx 18 Bảng 2.4: Thống kê phân bó độ dài câu hỏi và câu trả lời 19

Bảng 2.5: Thống kê phân bó độ đài đoạn đọc hiểu 19 Bang 2.6: Ty lệ các loại suy luận theo thể loại văn bản „21 Bảng 2.7: Thống kê các câu hỏi có số lượng đáp án khác 4 „21

Bảng 2.8: Thống kê các thé loại suy luận theo cấp bậc lớp học - 22

Bang 2.9: Thống kê số lượng các loại câu hỏi xuất hiện trong tập phát trién 23

Bang 4.1: Tham số thí nghiệm cho các mô hình trên tác vụ MRC - 38

Bảng 4.2: Kết quả thực nghiệm trên các mô hình ngôn ngữ tiền huấn luyện cơ sở 39 Bảng 4.3: Kết quả thực nghiệm khi áp dụng các phương pháp cải tiến với đào tạo bổ sung tác vụ trung gian và mang Attention đa bước - ¿+ sc+c+s++++ 40 Bảng 4.4: Độ chính xác của mô hình ViBERT và XLM-R theo loại câu hỏi 42

Bang 4.5: Hiệu suất của mô hình ViBERT theo loại câu hỏi khi áp dung cơ chế MAN và tác vụ trung gian NLI đối với các loại câu hỏi khác nhau 42

Bang 4.6: Kết quả độ chính xác dự đoán theo cấp bậc lớp học của mô hình ViBERT

khi áp dụng cơ chế MAN và tác vụ trung gian NLÍ -2¿z+22s++czsc+r+ 44

Trang 7

DANH MỤC TU VIET TAT

BERT Bidirectional Encoder Representations from Transformers

LM Language Model

MAN Multi-step Attention Network

mBERT = Multilingual BERT

MCQA Multiple-choice Question Answering

MMRC_ Multiple-choice Machine Reading Comprehension

MRC Machine Reading Comprehension

NLI Natural Language Inference

NLP Natural Language Processing

SOTA State-Of-The-Art

STILT Supplementary Training on Intermediate Labeled-data Tasks

ViMMRC Vietnamese Multiple-choice Machine Reading Comprehension Corpus

ViNLI Vietnamese Natural Language Inference

Trang 8

TOM TAT KHÓA LUẬN

Bài toán đọc hiểu tự động (machine reading comprehension - MRC) điển hình là

nhóm tác vụ dựa trên Hỏi đáp tự động (question-answering - QA) cho phép máy

tính tìm được thông tin chính xác từ việc hiểu các văn bản ngôn ngữ tự nhiên dựatrên câu hỏi đưa vào MRC bao gồm 3 thành phan chính: văn cảnh, câu hỏi và câu

trả lời Tuỳ thuộc vào kiểu câu trả lời, bài toán có thê được phân thành các loại tác

vụ con như: trích xuất (extractive/span), trắc nghiệm (multiple-choices), luận lý

(boolean), và sinh văn bản (generative/free form) [1].

Đọc hiểu trắc nghiệm tự động (multiplechoice machine reading comprehension

MMRC) hay Hỏi đáp trắc nghiệm tự động (multiplechoice question answering MCQA) là một trong những tác vụ được nghiên cứu sớm nhất trong nhóm bài toánMRC, với việc bộ dữ liệu MCTest [2] được công bố năm 2013 Trong bài toán này,máy tính cần phải chọn ra ít nhất một câu trả lời đúng từ danh sách các đáp án tuỳ

-chọn Câu trả lời có thể ở dạng văn bản trích xuất, tự sinh hay thậm chí ở dạngđúng/sai Tác vụ Hỏi đáp trắc nghiệm nhắm đến việc nâng cao khả năng đọc hiểu

câu hỏi và văn bản của máy tính, từ đó đưa ra lựa chọn chính xác cho câu trả lời.

Trong những năm trở lại đây, đã có nhiều công trình nghiên cứu khoa học liên quan

trên thế giới về MMRC được xuất bản [3, 4, 5, 6, 7] Bên cạnh đó, bài toán MRC và

QA nói chung trên ngôn ngữ tiếng Việt cũng dần được cộng đồng nghiên cứu quantâm với hàng loạt các bộ dữ liệu mới được ra đời như UIT-ViQuAD [8], ViCoQA

[9], UIT-ViCoV19QA [10], ViHealthQA [11], UIT-EVJVQA [12] Tuy nhiên, chi

ViMMRC [13] là bộ dif liệu đầu tiên và sau này là phiên bản cải tiến ViMMRC 2.0[14] hỗ trợ cho tác vụ MMRC Do đó, đề tài nghiên cứu này sẽ tập trung vào cácphương pháp xử lý và cải tiến mô hình đọc hiéu cho bài toán đọc hiểu trac nghiệmtrên bộ dữ liệu tiếng Việt VIMMRC

Một trong những xu hướng nghiên cứu hiện nay của MRC là sử dụng các mô hình

ngôn ngữ tiền huấn luyện (pre-trained language models) mà điển hình là BERT [15]

và các biến thể của nó Nhiều nghiên cứu trên dữ liệu tiếng Việt cũng chỉ ra rằng,

Trang 9

những mô hình họ BERT đạt được kết quả tốt hơn so với các mô hình học sâu vàhọc máy truyền thống [16, 17, 18] Tác giả ở nghiên cứu [19] đã khảo sát chỉ tiết

hiệu suất của loạt mô hình đơn ngôn ngữ và đa ngôn ngữ họ BERT khác nhau chotác vụ phân loại văn bản trên nhiều bộ dữ liệu tiếng Việt Từ đó, có thể thấy rằng

mô hình kiến trúc họ BERT là cách tiếp cận tối ưu cho bài toán MMRC trên dữ liệutiếng Việt

Đề có thể trích xuất tuỳ chọn đáp án chính xác, mô hình máy học không chỉ phải

hiểu được toàn bộ ngữ cảnh của đoạn đọc hiểu, mà còn cần liên kết được các thông

tin liên quan giữa văn cảnh, câu hỏi và nội dung của các tuỳ chọn trả lời Vì vậy,

chúng tôi đề xuất hướng tiếp cận multi-stage dựa trên nghiên cứu trước đó [20], vớiviệc sử dụng BERT làm mô hình biểu diễn ngôn ngữ, kết hợp với cơ chế Attention

đa bước (multi-step attention network) và phương pháp học tri thức bổ sung thông

qua tác vụ suy luận ngôn ngữ tự nhiên (natural language inference) cho bài toán

MMRC trên dữ liệu tiếng Việt Cụ thể, chúng tôi sẽ tiến hành thực nghiệm kết hợp

các phương pháp tiên tiến khác nhau dé tìm ra phương thức state-of-the-art (SOTA)trên bài toán này, nhằm tạo tiền đề cho các nghiên cứu liên quan sau này của cộng

đồng nghiên cứu NLP trên tiếng Việt

Khoá luận được trình bày chia thành 5 chương với các nội dung chính như sau:

Chương 1: Tổng quan

Giới thiệu tổng quan về lĩnh vực Đọc hiểu tự động, tầm quan trọng của Bài toán đọc

hiểu tự động đặc biệt là Đọc hiểu trắc nghiệm tự động và những thách thức hiện có,

đồng thời đề cập đến các nghiên cứu liên quan trong và ngoài nước

Chương 2: Bộ dữ liệu

Giới thiệu tổng quan về các bộ dữ liệu tiếng Việt sử dụng trong nghiên cứu này

Trang 10

Chương 3: Hướng tiếp cận cho bài toán

Trình bày các hướng tiếp cận sẽ sử dụng, các phương pháp học sâu đã nghiên cứu

để xử lý bài toán MMRC và các lý thuyết nền tản xung quanh Những phương pháp

đã áp dụng trong bài bao gồm việc sử dụng các biến thể mô hình đa ngôn ngữ vàđơn ngôn ngữ tiền huấn luyện của BERT, phương pháp đào tạo bổ sung với tác vụtrung gian NLI và cơ chế mạng Attention đa bước

Chương 4: Thử nghiệm, kết quả và đánh giá

Trong chương này, chúng tôi sẽ giải thích độ đo đánh giá và các thiết lập tham số

cho các thử nghiệm, trình bày các kết quả thực nghiệm đạt được, đưa ra đánh giá và

so sánh kết quả các phương pháp khác nhau đồng thời thực hiện các phân tích lỗicho kết quả dự đoán của các mô hình

Chương 5: Chương trình minh hoạ

Trinh bày chương trình demo được xây dựng dé minh hoạ hệ thống đọc hiểu trắcnghiệm tự động sử dụng một số mô hình thực nghiệm trong báo cáo

Chương 6: Đóng góp, hạn chế và hướng phát triển

Tổng kết những kết quả đã đạt được của đề tài, từ đó rút ra kết luận, phân tích các

hạn chế, tự nhận xét, và đề xuất phương hướng phát triển sau này

Trang 11

Chương 1 TONG QUAN

Dé có cái nhìn tổng quan về để tài, sau đây, chúng tôi sẽ trình bày các khái niệm

liên quan về bài toán Đọc hiểu trắc nghiệm tự động, bàn về tính ứng dụng của bàitoán trong các giải pháp thực tế, cũng như đề cập đến những thách thức cần phải

giải quyết của bài toán

1.1 Giới thiệu bài toán

Đọc hiểu tự động (MRC) là một dé tài thú vị và thách thức trong lĩnh vực Xử lý

ngôn ngữ tự nhiên (natural language processing - NLP) với nhiều ứng dụng rộng rãitrên toàn thế giới Thế nhưng, đây không phải là một lĩnh vực mới phát triển Phân

loại nhóm tác vụ MRC dựa vào loại câu hỏi và câu trả lời, có thể kể đến một số tác

vụ điển hình như điền vào chỗ trong (cloze style), trac nghiệm (multiple-choice),

trích xuất văn bản (span prediction/extraction), câu hỏi tự do (free-form answer).Dựa vào ngữ cảnh đọc hiểu, ngoài các tác vụ sử dụng ngữ cảnh từ văn bản thôngthường, MRC còn bao gồm bài toán da tác vụ đọc hiểu (multi-modal MRC) kết hợp

giữa lĩnh vực NLP với lĩnh vực Xử lý ảnh (computer vision - CV) như VQA, khi

ngữ cảnh chứa đồng thời văn bản và hình ảnh minh hoạ

Machine Reading Comprehension Tasks

|

! i i I

Multiple Span Free-form

Choice Prediction Answer

Cloze Style

Hình 1.1: Các phân loại tác vụ Doc hiểu tự động hiện có!

Trang 12

Để hiểu rõ về tác vụ Đọc hiểu trắc nghiệm tự động, Hình 1.1 ở trên mô tả những tác

vụ con thường được phân loại cho nhóm tác vụ Đọc hiểu tự động hiện nay Cụ thé,

dưới đây sẽ là các định nghĩa phân loại tác vụ này, biết rằng một bộ dữ liệu có thé

thoả mãn nhiều phân loại khác nhau:

-_ Cloze style: Trong tác vụ này, câu hỏi sẽ chứa các chỗ trồng Hệ thong MRC

có nhiệm vụ tìm những từ hay cụm từ phù hợp nhất dựa vào nội dung ngữ

cảnh để điền vào chỗ trồng này Ví dụ: ROCStories [3],

- Multiple-choice: Trong tác vụ trắc nghiệm, hệ thống MRC cần phải dựa vào

ngữ cảnh được cung cấp, chọn ra được câu trả lời chính xác từ một tập các

lựa chọn đáp án Ví du: MCTest [2], RACE [4],

- Span prediction: Trong tác vụ trích xuất văn bản, câu trả lời là một

đoạn/cụm từ có sẵn nằm trong văn bản ngữ cảnh Hệ thống MRC có nhiệm

vụ dự đoán vị trí bat đầu và kết thúc của câu trả lời cụ thể trong đoạn ngữ

cảnh này Ví du: SQuAD [21], NewsQA [22],

-_ Free-form answer: Loại tác vụ này cho phép câu trả lời thuộc bất kỳ dạng

nào Do đó, câu trả lời không bị phụ thuộc vào bất cứ đoạn văn hay cụm từ

nao từ đoạn ngữ cảnh Ví dụ: WikiQA [23], CoQA [24],

Bộ dữ liệu ViMMRC 2.0 sử dụng trong đề tài này là một bộ dữ liệu đọc hiểu trắc

nghiệm dựa trên văn bản ngữ cảnh Các đáp án cho câu hỏi phần lớn có dạng form answer Trong để tài này, bài toán Đọc hiểu trắc nghiệm tự động (multiple-

free-choice machine reading comprehension) trên bộ dữ liệu Tiếng Việt — VIMMRC 2.0

sẽ được khái quát như sau:

- Đầu vào: Câu hỏi trắc nghiệm kèm theo tập các lựa chọn cho câu trả lời và

đoạn văn bản cung cấp ngữ cảnh

- Đầu ra: Một phương án trả lời duy nhất trong bộ các lựa chọn đáp án

Trang 13

đọc hiểu vấn đáp từ năm 1977, hay Hirschman và các cộng sự cũng đã xây dựng hệ

thống đọc hiểu từ năm 1999 Tuy nhiên, hầu hết các hệ thông MRC này đều là các

mô hình thống kê (statistical models) hay các hệ thông sử dụng quy tắc (rule-based)

Đến tận 2013, Richardson và các cộng sự [2] đã cho ra đời bộ dữ liệu MCTest (một

bộ dữ liệu trắc nghiệm), kéo theo các nghiên cứu về việc áp dụng mô hình máy học

vào bài toán đọc hiểu văn bản bắt đầu nở rộ Để giải quyết sự thiếu hụt các bộ dữliệu chất lượng, Hermann và các cộng sự [26] đã phát triển một phương pháp xây

dựng dữ liệu để tạo ra các bộ dữ liệu đọc hiểu có giám sát quy mô lớn vào năm

2015 Kể từ đó, lĩnh vực MRC bước vào thời kỳ phát triển nhanh chóng với sự xuất

Trang 14

CNN/Daily Mail [26], WikiQA [23], SQuADI.I [21], TriviaQA [27], RACE [4],

MultiRC [5], SQUAD2.0 [28], CoQA [24], Natural Question [29],

Mặt khác, tuy là một ngôn ngữ ít tài nguyên trên thế giới, tiếng Việt đã va dangnhận được nhiều sự quan tâm đến từ các nhà nghiên cứu với nhiều công trình trong

và ngoài nước được xuất bản Có không ít bộ dữ liệu chất lượng phục vụ cho tác vụ

MRC trên tiếng Việt được ra mắt trong những năm trở lại đây Trong đó, có thể kểđến ViMMRC [13] và ViQuAD [8] là hai bộ dữ liệu đầu tiên phục vụ cho tác vụnày Với ViQuAD chứa hơn 23.000 bộ câu hỏi từ 5.109 đoạn đọc hiểu cho tác vụđọc hiểu trích xuất văn bản Bộ dữ liệu UIT-ViQuAD 2.0 [30] ra mắt sau đó tạiVLSP 2021-ViMRC Challenge”, với sự bổ sung thêm 9.217 câu hỏi không thé trả

lời, đã khắc phục điểm yếu của bộ dữ liệu đầu tiên đối với những câu hỏi “bẫy”,

không rõ ràng trong đoạn đọc hiểu Mặt khác, ViMMRC [13] hiện là bộ dữ liệuhiếm hoi phục vụ tác vụ MMRC trên tiếng Việt, chỉ có kích thước giới hạn gồm

2,783 bộ câu hỏi cho 417 đoạn đọc hiéu được trích từ sách giáo khoa Tiếng Việt cấp

Tiểu học (từ lớp 1 đến lớp 5) Day cũng là lý do bộ dữ liệu VIMMRC 2.0 (một côngtrình gần đây đang trong quá trình công bó của chúng tôi, chỉ tiết bộ dữ liệu sẽ đượctrình bày tại Mục 2.1) được xây dựng, với sự mở rộng về kích thước cũng như nângcấp mức độ đọc hiểu

Một số bộ dữ liệu khác trên tiếng Việt cho tác vụ MRC có thể ké đến gồm Bộ dữliệu đọc hiểu hội thoại về đề tài sức khoẻ thu thập từ các bài báo điện tử tiếng ViệtViCoQA [9], Bộ dữ liệu các hỏi đáp cộng đồng về các thông tin chủ đề COVID-19

ViHealthQA [11] hoặc Bộ dữ liệu hỏi đáp tự động dựa trên hình ảnh UIT-EVJVQA

[12] Dé có cái nhìn tổng quan về các bộ dữ liệu tiếng Việt hiện tại phục vụ tác vụ

MRC, khảo sát ở Bảng 1.1 sau đây liệt kê, trình bày những thông tin cơ bản về các

bộ dữ liệu hiện có sử dụng cho tiếng Việt cho nhóm tác vụ Đọc hiểu tự động

? https://aihub vn/competitions/35

Trang 15

Bang 1.1: Các bộ dữ liệu MRC trên tiếng Việt

Bộ dữ liệu Phân loại Quy mô Nguồn dữ liệu

ViMMRC [13] Multple 417 doan doc hiéu va SGK Tiếng Việt cấp

choice 2.783 câu hỏi tiêu học

UIT-ViQuAD [8] Extractive 5.109 đoạn đọc hiéu và Wikipedia

23.074 câu hỏi

ViCoQA [9] Conversa- 2.000 đoạn hội thoại và Các bài báo chủ đề

tional MRC 10.000 câu hỏi sức khoẻ

UIT-ViQuAD2.0_ Extractive 5.173 đoạn đọc hiểu và Wikipedia

[30] 35.990 câu hỏi (9.217

câu hỏi không thê trả lời)

ViHealthQA [11] Retrieval 10.015 bộ câu hỏi Các bài báo điện tử

về đê tài sức khoẻ

UIT-ViWikiQA — Extractive 5.109 doan doc hiéu va Wikipedia

[31] 3.074 câu hỏi

UIT-ViNewsQA _ Extractive 4.416 bài báo và 22.057 Các bài báo chủ dé

[32] câu hỏi sức khoẻ

UIT-ViCov19QA Query 4.500 bộ câu hỏi FAQ từ các trang

[10] web về sức khoẻ

VIMQA [33] Bool and 10.047 bộ câu hỏi Wikipedia

Extractive (Multi-hop)

Legal text QA [34] Retrieval 5.922 bộ câu hỏi Văn bản pháp lý

MLQA [35] Extractive 12.738 câu hỏi tiếng Anh Wikipedia

và 5.029 câu hỏi ngôn ngữ khác gôm tiêng Việt

ViMMRC 2.0 [14] Multiple 599 doan doc hiéu va SGK Tiếng Việt và

Trang 16

1.2.2 Mô hình kiến trúc họ BERT và phương pháp MMM

Trong những năm gần đây, các mô hình ngôn ngữ lớn (Large LM) mạnh mẽ đangtrên đà phát triển, ví dụ như BERT [15] đã đạt được kết quả SOTA trên hàng loạtcác tác vụ phổ biến Theo như nghiên cứu của Zaib và các cộng sự [36], các môhình ngôn ngữ tiền huấn luyện (pre-trained language models) mang lại nhiều lợi thé

tiềm năng hơn các phương pháp học sâu thông thường, do việc được huấn luyện

trước trên một lượng lớn dữ liệu, từ đó có thể học được các đặc trưng có tính tổng

quát hơn Các đặc trưng này sau đó có thé được sử dụng dé giải quyết cho các tác

vụ cụ thể, như đọc hiểu văn bản, phân tích cảm xúc, tóm tắt văn bản, Ngoài ra,

các mô hình tiền huấn luyện còn có khả năng giải quyết van đề overfitting trong bàitoán khi huấn luyện trên các tập dữ liệu có kích thước hạn chế Một số nghiên cứu

trên tiếng Việt [16, 17, 18] cũng đã cho thay, việc sử dụng các mô hình ngôn ngữ họ

BERT cho hiệu suất vượt qua các phương pháp học sâu và học máy truyền thống.Đặc biệt, kết quả đạt được khi sử dụng các mô hình đơn ngôn ngữ vượt trội so với

các mô hình đa ngôn ngữ [19] với kiến trúc này

Semi-supervised Sequence Learning

MEDNN việc Permutftion LM

Kaoweelasuilen UniLM Monlạ [asta More lai

- VL-BERT

KnowBert UNITER - wxewvsssasmszssamov

Hình 1.3: Sự phát triển của Pre-trained LM và mối liên hệ với BERT

Trang 17

Mặt khác, công trình cua Jin và các cộng sự [20] đã giới thiệu phương pháp học

đa nhiệm nhiều giai đoạn (multi-stage multi-task learning) 4p dụng cho bài toánMMRC đem lại nhiều kết quả khả quan cho các bộ dữ liệu tiếng Anh hiện có.Nghiên cứu này thực nghiệm trên nhiều tác vụ trung gian khác nhau và chứng minhđược việc kết hợp tác vụ suy luận ngôn ngữ (NLI) có khả năng giúp cải thiện hiệusuất cho mô hình MMRC Kết hợp với sự ra đời của Bộ dữ liệu suy luận ngôn ngữ

tự nhiên cho tiếng Việt ViNLI [37], chúng tôi quyết định áp dụng các mô hình tiền

huấn luyện họ BERT với sự kết hợp của tác vụ bồ trợ NLI dé cải thiện kết quả chobài toán Đọc hiểu trắc nghiệm tự động trên bộ dữ liệu tiếng Việt VIMMRC 2.0

1.3 Thách thức của bài toán

Tác vụ MRC thiết kế cho máy tính xử lý, dựa trên mô phỏng các bài kiểm trả khả

năng đọc hiểu văn bản của con người: máy tính cần trả lời các câu hỏi đưa ra dựa

trên các thông tin từ ngữ cảnh của đoạn văn bản được cung cấp Nhưng khác vớicác tác vụ NLP truyền thống, MRC yêu cầu các kỹ thuật liên quan đến nhiều khía

cạnh ngôn ngữ về ý nghĩa từ vựng, ngữ pháp và cú pháp, đồng thời cũng yêu cầu

khả năng phân tích ngữ cảnh văn bản, kết hợp với các kỹ thuật suy luận ngữ nghĩa.Điều này khiến MRC trở thành một tác vụ thách thức trong lĩnh vực NLP Dựa vào

nguồn thông tin để trả lời câu hỏi, ta có thé phân tác vụ MRC thành 2 loại: tríchxuất thông tin (span extraction) như bộ dữ liệu SQUAD [21, 28] và câu trả lời tự do

(free-form answer) như bộ dữ liệu MCTest [2], MultiRC [5] Chính vi câu trả lời

không giới hạn bởi một cụm từ nhất định có sẵn trong đoạn ngữ cảnh, những bộ dữ

liệu free-form answer như ViMMRC càng đòi hỏi những kỹ năng đọc hiểu nâng cao

hơn để máy tính có thể thực hiện được tốt tác vụ này

Một trong những rào cản khác trong bài toán MMRC nói chung và lĩnh vực NLP

nói riêng là việc thiếu các nghiên cứu tập trung cho ngôn ngữ tiếng Việt cũng như

số lượng các bộ dữ liệu tiếng Việt chất lượng đặc biệt là các bộ dữ liệu phục vụ cho

tác vụ MMRC vẫn còn rat it, khi da số các công trình khoa học đều tập trung chủyếu vào tiếng Anh Cũng vì vậy, sự khác biệt về từ vựng cũng như cấu trúc ngữ

Trang 18

pháp giữa tiếng Anh và tiếng Việt cũng là một thách thức cho việc áp dụng đượcnhững nghiên cứu đi trước vào bài toán hiện có trên tiếng Việt Do đó, các kiến thứcngôn ngữ nhất định về tiếng Việt dé có thé thực hiện các phương pháp xử lý ngônngữ phù hợp là điều cần thiết.

1.4 Lý do thực hiện đề tài

Đọc hiểu tự động nói chung có thé được áp dụng rộng rãi trong nhiều hệ thống NLPkhác nhau, như các công cụ tìm kiếm hay các hệ thống chatbot Ví dụ cụ thể trongHình 1.4, khi chúng ta nhập câu hỏi vào công cụ tìm kiếm Bing, phụ thuộc vào mức

độ phức tạp mà kết quả có thể trả về trực tiếp đáp án chính xác, kèm theo các dẫnchứng trong hộp thoại ở dau trang Ngoài ra, với ChatGPT? (một mô hình ngôn ngữlớn phát triển bởi OpenAlf cung cấp dưới dạng một chatbot), ta có thé hỏi nhữngcâu như “Đâu là thủ đô của Việt Nam?”, và nhận được kết quả trả về sẽ là “Thu đô

của Việt Nam là Hà Nội” Qua đó, dễ thây được, MRC có thể giúp cải tiến hiệu suất

của các công cụ tìm kiếm và các hệ thống đối thoại tự động.

Ge processing

Hình 1.4: Đọc hiểu tự động ứng dung trong công cụ tìm kiếm và hệ thống chatbot

Thêm vào đó, những cải tiến đối với các công trình nghiên cứu về tác vụ MMRCnói riêng cũng sẽ giúp ích trên nhiều lĩnh vực thực tiễn khác nhau như giáo dục, tài

3 https://chat.openai.com/

4 https://openai.com/

11

Trang 19

chính, y tế, hay chăm sóc khách hàng Các ứng dụng với MMRC có thé kế đến nhưlà: đánh giá chất lượng các bài kiểm tra, hệ thống trả lời tự động cho việc tự học,

xây dựng các trợ lý ảo đối thoại tự động, từ đó làm giảm khối lượng lao động củacon người cũng như tăng hiệu suất công việc, đồng thời tối ưu chỉ phí hoạt động

Với việc hiện có hon 85 triệu người trên thé giới sử dụng tiếng Việt, các nghiên

cứu liên quan đến tác vụ MRC trên ngôn ngữ này sẽ có ý nghĩa thiết thực cho không

chỉ cộng đồng bản ngữ mà còn những người nước ngoài muốn giao tiếp bằng tiếng

Việt Các nghiên cứu trong tác vụ MMRC cũng sẽ đem lại những đóng góp chung

vào sự phát triển của nhóm tác vụ MRC Chúng tôi mong rằng, với những kết quả

đạt được từ khoá luận, chúng tôi có thể đóng góp một phần công sức, tạo tiền đềcho các công trình kế tiếp, giúp cho cộng đồng nghiên cứu AI nói chung và NLP

nói riêng trên tiếng Việt ngày càng phát triển

1.5 Kết luận

Bài toán đọc hiểu tự động tuy không phải là một chủ đề mới, nhưng với sự pháttriển nhanh chóng của các phương pháp học sâu tiên tiến cùng sự ra đời của những

bộ dữ liệu mở chất lượng, việc tiến hành áp dụng các hướng tiếp cận mới vào bài

toán Đọc hiểu trắc nghiệm trên dữ liệu tiếng Việt sẽ đem lại nhiều lợi ích thiết thực

trong việc giải quyết các van đề thực tế hiện nay dé cải thiện chất lượng cuộc sống.Ngoài ra, những nghiên cứu thử nghiệm đã thực hiện trong đề tài cũng sẽ góp phần

cung cấp những nền tang cơ bản cho cộng đồng Xử lý ngôn ngữ tự nhiên trong việc

thực hiện các công trình liên quan trong tương lai.

5 Theo thống kê của ethnologue.com năm 2022

Trang 20

Chương2 BỘ DỮ LIỆU

2.1 Bộ dữ liệu VIMMRC 2.0

ViMMRC 2.0 [14] là một bộ dữ liệu tiếng Việt phát triển bởi nhóm nghiên cứuNLP@UIT, được mở rộng từ bộ dữ liệu VIMMRCS ra mắt trước đó nhằm mục tiêu

mở rộng quy mô về cả kích thước lẫn độ phức tạp của bộ dữ liệu cũ

Đây là bộ dữ liệu dành cho tác vụ Đọc hiểu trắc nghiệm tự động, gồm các văn bảnđọc hiểu dành cho học sinh chương trình giáo dục phổ thông (từ khối lớp 1 đến lớp

12) Trong đó, các văn bản đọc hiểu chia thành hai thể loại là: thơ (poem) và vănxuôi (prose) truyền thống Các văn bản đọc hiểu được thu thập từ hai nguồn chính:

Thứ nhất là các bài đọc hiểu trong Sách Giáo Khoa môn Tiếng Việt (đối với khối

lớp 1-5) và môn Ngữ Văn (đối với khối lớp 6-12) của Nhà xuất bản Giáo dục do BộGiáo dục và Đào tạo biên soạn Thứ hai là các phần tóm tắt của các bài đọc hiểu

trên được sưu tầm từ hai nguồn dir liệu đáng tin cậy”, nơi các văn bản, tài liệu, đề

thi được chia sẻ công khai miễn phí Các bộ câu hỏi trắc nghiệm cũng được thu thập

từ hai nguồn dữ liệu này

L—>[ Question & answer set

Trang 21

Bộ dữ liệu chứa 5.273 cặp câu hỏi trắc nghiệm cho 699 đoạn đọc hiểu Trong đó, có

437 bài đọc hiểu với 2.768 câu hỏi trắc nghiệm thuộc mức độ tiêu học (lớp 1-5) và

262 bài đọc hiểu với 2.505 câu hỏi trắc nghiệm thuộc mức độ trung học (lớp 6-12).Hình 2.2 dưới đây là ví dụ về một đoạn đọc hiểu trong bộ dữ liệu Trong đó, những

phần ngữ cảnh được sử dụng để trả lời câu hỏi được tô màu và đánh số tương ứngvới câu hỏi.

Đoạn đọc hiểu: Trưa mùa hè, øZz;z »2⁄:z @ như mật ong trải nhẹ trên khắp cáccánh đông có ®, Những con sơn ca đang nhảy nhót trên sườn đồi Chúng bay lên cao và cất tiếng hót Tiếng hót lúc trầm, lúc bổng, lanh lót vang mãi đi xa Bong

dưng lũ sơn ca không hót nữa mà bay vút lên nền /zởi xanh tham

Câu hồi 1: Những con sơn ca đang nhảy nhót ở đâu?

Các đáp án:

A Trên cánh đông lúa.

B Trên sườn đồi.

C Trên mái hiên nha.

D Trên đồng cỏ bao la.

Câu hỏi 2: Thời tiết trong bài được được miêu tả như thế nào?

Các đáp án:

A Nắng vàng và trời xanh thẳm “

B Nẵng hanh vàng như chuối

C Nóng ôi bức trong người.

D Cái nắng lãnh lót.

Hình 2.2: Một số ví dụ mẫu cho tác vụ MMRC trong bộ dữ liệu

2.2 Bộ dữ liệu ViNLI

Suy luận ngôn ngữ tự nhiên (NLI) là một tác vụ quan trọng trong lĩnh vực hiểu

ngôn ngữ tự nhiên (NLU — một nhánh con của lĩnh vực NLP) qua việc dự đoán mối

Trang 22

quan hệ ngữ nghĩa giữa hai câu riêng biệt Cụ thể, NLI được định nghĩa là tác vụ

xác định tính đúng (entailment), sai (contradiction) hoặc trung lập (neutral) của giả

thuyết (hypothesis) dựa vào một tiền đề (premise) cho trước Một ví dụ về tác vụNLI được trình bày trong Hình 2.3 dưới đây:

Tiền đề: Cậu bé đang đi chơi với bạn

Giả thuyết: Cậu bé đang học bài Sai

Câu bé không ở một mình Ding Cậu bé thích màu đỏ Trung lập

Hình 2.3: Ví dụ về tác vụ NLI

ViNLI là một bộ dữ liệu tiếng Việt chất lượng cao mã nguồn mở phục vụ cho việc

đánh giá các mô hình suy luận ngôn ngữ tự nhiên được xây dựng bởi Huynh và cáccộng sự [37], ra mắt mới đây Bộ dữ liệu bao gồm hơn 30,000 cặp tién dé - giả

thuyết được gán nhãn thủ công, trích từ hơn 800 bài báo điện tử thuộc 13 chủ đềlĩnh vực khác nhau Khác với các bộ dữ liệu NLI trước đây, mỗi tién dé trong bộ dữ

liệu ViNLI được xây dựng kèm theo hai câu gid thuyét khác nhau thay vì chỉ một

2.3 Phân tích tong quan đặc trưng bộ dữ liệu VIMMRC

Dé tạo cơ sở cho việc thực hiện các nghiên cứu liên quan và giải quyết bài toán trên

bộ dữ liệu VIMMRC 2.0, nhóm đã thực hiện các khảo sát, thống kê, phân tích các

đặc trưng, khía cạnh khác nhau của bộ dữ liệu Các đặc trưng về độ dài văn bản,

mức độ đọc hiểu, loại câu hỏi, loại suy luận, sẽ được trình bày trong phần này.

2.3.1 Thống kê tổng quát

Bảng 2.1 sau đây mô tả các đặc trưng tổng quan của bộ dữ liệu Bộ dữ liệu gồm

699 đoạn đọc hiểu với 5.273 câu hỏi và 21.092 câu trả lời tương ứng được chia

thành các tập huấn luyện (train), phát triển (dev) và kiểm thử (test) theo tỷ lệ chia là

15

Trang 23

7-1-2 Kích thước tập từ vựng cũng đã được mở rộng hơn so với tập dữ liệu

ViMMRC [13] công bố trước đó Trong đó, thê loại văn ban mới (các bài thơ) cũng,

có số lượng chiếm khoảng 25% bộ dữ liệu

Bảng 2.1: Thống kê tổng quát của bộ dữ liệu ViMMRC 2.0

Train Dev Test All

tập trung nhiều nhất ở khối lớp 3, 4 và 5 Bên cạnh đó, các khối lớp tiểu học (khối

lớp 1 đến 5) nói chung cũng có nhiều đoạn văn đọc hiéu và câu hỏi hơn so với các

khối lớp cao hơn (khối lớp 6 đến 12) Số lượng đoạn văn đọc hiểu và câu hỏi có sự

khác nhau giữa các khối lớp, với các khối lớp tiêu học có sự tập trung nhiều hơn so

với các khối lớp trung học Tuy nhiên, lượng từ vựng lại tập trung ở các khối lớpcao hơn Điều này cho thấy độ phức tạp của yêu cầu mức độ đọc hiểu tăng dần theo

cấp bậc lớp học

Trang 24

Bảng 2.2: Thống kê bộ dữ liệu theo cấp bậc lớp học

Lớp li Số bàithơ Sốcâuhỏi Số câu trảlời Tập từ vựng

2.3.2 Thống kê về độ dài đoạn đọc hiểu, câu hỏi, câu trả lời

Bảng 2.3 trình bày khảo sát thống kê về đặc trưng của hai loại văn bản, trong đó

các giá trị độ dài được tính ở mức từ Số liệu cho thấy độ dài trung bình của cácđoạn thơ trong tập dữ liệu là khoảng 210 từ, trong khi đó đối với văn xuôi là khoảng

643 từ Điều này dẫn đến việc phải tìm ra các phương phù hợp đề xử lý sự khác biệt

này Độ dài các câu hỏi, câu trả lời trong bộ dữ liệu tương đối ngắn (khoảng 14-16

từ đối với câu hỏi và 7-9 từ đối với câu trả lời) Điều này sẽ đòi hỏi mô hình phải

trích xuất thông tin từ văn bản thật chính xác đề có thể trả lời được câu hỏi

17

Trang 25

Bảng 2.3: Thống kê độ dài theo thể loại văn bản

Thể loại Thơ Văn xuôiTập dữ liệu Tran Dev Test Tran Dev Test

Độ dai trung bình đoạnvăn 2102 1977 2864 6436 6312 637,5

Độ dài trung bình câu hỏi 14,3 15,2 16,0 14,1 16,3 14,2

Độ dai trung bình đáp án 71 8,5 7/7 §,5 9,0 92

Kích thước tập từ vựng 6.780 1.702 3.609 15.660 6.086 8.645

Thống kê tỷ lệ phân bố độ dài câu hỏi và câu trả lời trên các tập dữ liệu được thể

hiện trong Bang 2.4 Ta có thé thay, hau hết các câu hỏi (73%) có kích thước ít hơn

15 từ với tỷ lệ cao nhất (38%) chứa 11-15 từ Các câu hỏi dài hơn 21 từ không xuất

hiện thường xuyên trong tập dữ liệu (12%) Trong tập train, câu hỏi có độ dài 11-15

từ chiếm tỷ lệ cao nhất (39%), trong khi câu hỏi có độ dài 16-20 từ xuất hiện nhiềunhất trong tệp dev và test với tỷ lệ 0,16 và 0,15 tương ứng Các câu hỏi có kích

thước từ 21 đến 25 từ xuất hiện thường xuyên hơn trong bộ test với tỷ lệ 0,06 Cuối

cùng, các câu hỏi dai hơn 26 từ thường xuất hiện trong tap dev với tỷ lệ 0,11 Mặtkhác, đối với câu trả lời, kết quả cho thấy đa số câu trả lời có độ dài đưới 15 từ

(87%, trong đó 71% câu hỏi có độ dài dưới 10 từ) Các câu trả lời dài hơn (hơn l6

từ) chỉ chiếm dưới mức 12% trong bộ dữ liệu này Câu trả lời đài hơn 21 từ xuất

hiện thường xuyên hơn trong tập kiểm thử (test set)

Trang 26

Bảng 2.4: Thống kê phân bố độ dài câu hỏi và câu trả lời

Câu hỏi Câu trả lời

độ dài nhỏ hon 100 từ chiếm tỷ lệ thấp nhất khoảng 0,08 Thống kê trên cho thấy

cho thấy sự đa dạng về độ dài các văn bản trong bộ dữ liệu cũng như việc mộtlượng không nhỏ các đoạn đọc hiểu (18%) có kích thước lớn hơn 700 từ

Bang 2.5: Thống kê phân bé độ dài đoạn đọc hiểu

Độ dài đoạn đọc hiểu Train Dev Test Toàn bộ

Trang 27

2.3.3 Thống kê, phân tích về câu hỏi trắc nghiệm

Trong bộ dữ liệu này, các câu hỏi được phân loại thành 5 kiểu suy luận, có độ khó

và độ phức tap tăng dan Các kiêu suy luận được mô tả như sau:

- Word matching: Các từ khoá trong câu hỏi khớp hoàn toàn với những từ

khoá trong đoạn văn.

- Paraphrasing: Câu trả lời có thể được trích từ câu đơn trong đoạn văn dưới

cách viết khác Do đó, các câu hỏi có thể được tạo nên bằng cách sử dụng

những từ đồng nghĩa hoặc các kiến thức tương đồng đề ám chỉ

- Single-sentence Reasoning: Câu trả lời được suy luận từ những thông tin có

trong một câu duy nhất

- Multi-sentence Reasoning: Câu trả lời được suy luận bằng cách tổng hợp

thông tin từ nhiều câu khác nhau

- Ambiguous/Insuffieienf: Không thé tìm thấy thông tin về câu hỏi trong bài

đọc hoặc câu trả lời không phải là duy nhất

Bảng 2.6 và Bảng 2.8 sẽ giúp ta có cái nhìn tổng quát về đặc điểm các loại suyluận trong bộ dữ liệu Cụ thể ở Bang 2.6, ta có thé thấy mức độ suy luận cho các

câu hỏi về thơ có sự phức tạp hơn so với văn xuôi Đối với thơ, Multi-sentenceReasoning và Ambiguous Or Insufficient chiếm tỷ lệ cao nhất trong khi Word

Matching và Paraphrasing chỉ chiếm khoảng 1% dù kích thước văn ban đọc hiểutrung bình thấp hơn nhiều so với văn xuôi (chỉ khoảng 1/3, Bang 2.3) Điều này có

thể giải thích rằng, do thơ có tính sáng tạo, tỉnh tế trong ngôn ngữ và được sử dụngnhững từ ngữ súc tích Trong khi đó, các ý câu trong văn xuôi thường sẽ được diễn

đạt một cách chỉ tiết, trôi chảy và logic hơn

Trang 28

Bảng 2.6: Tỷ lệ các loại suy luận theo thé loại văn bản

Thể loại Thơ Van xuôi

Tập dữ liệu Train Dev Test Train Dev Test

Số liệu ở Bang 2.8 cho ta thấy sự khác biệt giữa các loại suy luận theo từng cấp

bậc lớp học Từ cấp độ trung học (lớp 6 trở lên) các câu hỏi dạng Word Matching vàParaphrasing xuất hiện rat ít Mặt khác, các câu hỏi thuộc dang Single-sentence

Reasoning và Multi-sentence Reasoning chiêm sé lượng lớn phân bố ở tất cả cáckhối lớp Ngoài ra, trong bộ đữ liệu cũng tồn tại một số câu hỏi chỉ có 2 hoặc 3 đáp

án lựa chọn (Bảng 2.7).

Bảng 2.7: Thống kê các câu hỏi có số lượng đáp án khác 4

Train Dey Test

Câu hỏi có 2 đáp án 30 5 42

Câu hỏi có 3 đáp án 88 9 117

21

Trang 29

Lớp Matching Paraphrasing

Bang 2.8: Thống kê các thé loại suy luận theo cấp bậc lớp học

Single-semence Multi-sentence Ambiguous Or Reasoning Reasoning Insufficient

Ngoài các loại suy luận, các câu hỏi còn có thể được phân loại dựa trên các lựachọn đáp án, chúng tôi đã thực hiện khảo sát và phân tích về khía cạnh này, qua đó

biết được các loại câu hỏi xuất hiện trong bộ dữ liệu gồm:

Loại 1 - Câu hỏi lấy thông tin: các câu hỏi về sự vật, sự việc Các câu hỏi

này thường sẽ có dang ai?, cái gì, vật gi?, như thế nào?, Day là dạng câuhỏi xuất hiện thường xuyên trong các văn bản đọc hiểu

Loại 2 - Câu hỏi với lựa chọn nhiều đáp án đúng: là các câu hỏi có xuất

hiện lựa chọn với nhiều đáp án đúng Dé trả lời được dang câu hỏi này, yêu

Trang 30

cầu cần phải nắm được ý nghĩa và so sánh các lựa chọn đáp án với nhau,cùng với việc tông hợp thông tin từ nhiều phan trong đoạn đọc hiéu.

- Loại 3 - Các câu hỏi dạng đúng/sai: là những câu hỏi phân biệt tính chat

như đúng/sai hay có/không, Các câu hỏi này phan lớn chỉ có 2 lựa chọn

đáp án.

- Loại 4: những câu hỏi không thuộc 3 loại trên.

Các thống kê khảo sát về các loại câu hỏi này trên tập phát triển được trình bày

trong Bảng 2.9 dưới đây Ta có thé thấy rõ, các câu hỏi trong tập dữ liệu này hầu hếtthuộc loại 1 và 2 (96%) Trong đó, chiếm ty lệ chủ yếu là các câu hỏi lấy thông tin(79%).

Bảng 2.9: Thống kê số lượng các loại câu hỏi xuất hiện trong tập phát triển

Loại Mô tả Số lượng Tỷ lệ

1 Câu hỏi lấy thông tin (Wh-question) 445 79%

2 Câu hỏi với lựa chọn nhiều đáp án đúng 96 17%

3 Câu hỏi dạng đúng/sai 5 1%

4 Các dạng câu hỏi khác 18 3%

2.4 Kết luận

Trong chương này, chúng tôi đã giới thiệu các thông tin tổng quát của hai bộ dữ liệuđược sử dụng cho bài toán Sau khi thực hiện các thống kê khảo sát, phân tích trên

bộ dữ liệu ViMMRC 2.0, chúng tôi rút ra được một s6 kết luận như sau:

- Phần lớn các đoạn đọc hiểu thuộc các khối lớp có trình độ tiểu học, đặc biệt

là các lớp 3-4-5) Nhưng lượng từ vựng lại tập trung ở các khối lớp cao hơn

cho thấy sự phức tạp về tác vụ đọc hiểu tăng dần qua các cấp bậc lớp học

23

Trang 31

- Độ dài trung bình của các văn bản thơ chỉ bằng khoảng 1/3 so với văn xuôi.

Tuy nhiên sự phức tạp trong các câu hỏi lại cao hơn do tính sáng tạo và súc

tích trong ngôn ngữ của thể loại thơ

- Độ đài trung bình của câu hỏi và câu trả lời khá ngắn đòi hỏi mô hình phải

trích xuất thông tin chính xác đề có thể đưa ra câu trả lời đúng

- Phần lớn các câu hỏi trong tập dữ liệu thuộc loại suy luận Multi-sentence

Reasoning, rat ít các câu hỏi dạng suy luận Matching va Paraphrasing Điều

đó chứng tỏ rằng bộ đữ liệu có mức độ phức tạp cao

Việc giới thiệu các thông tin liên quan về các bộ dữ liệu được sử dụng giúp ta có thểhiểu được tổng quát những van dé cần giải quyết trong bài toán này Ngoài ra, quaquá trình phân tích khảo sát bộ dữ liệu ViMMRC 2.0, chúng tôi cũng mong có thé

đem lại được cái nhìn tổng quan về các đặc trưng, điểm mạnh và thách thức bộ dữliệu này đem lại cho bài toán MMRC trên tiếng Việt, từ đó góp phần giúp những

nghiên cứu sau này trên bộ dữ liệu có thé dé dang hơn trong việc tìm được các

phương pháp, hướng tiếp cận phù hợp

Trang 32

Chương 3 HƯỚNG TIẾP CAN CHO BÀI TOÁN

Trong chương này, chúng tôi sẽ trình bày kiến trúc tổng quát được dé xuất và hướng

tiếp cận sử dụng để giải quyết bài toán MMRC, đồng thời giải thích các phươngpháp nghiên cứu cải tiến cũng như các lý thuyết nền tảng xung quanh Cụ thể, các

phương pháp học chuyển tiếp và những mô hình tiền huấn luyện sử dụng, kỹ thuậtđào tạo bổ trợ với tác vụ trung gian NLI, cơ chế mạng Attention đa bước sẽ được

trình bày trong các mục tiếp theo

3.1 Kiến trúc mô hình đề xuất

Trong tác vụ MMRC, đầu vào của mô hình bao gồm 3 thành phần chính là: đoạn

văn bản chứa ngữ cảnh, câu hỏi trắc nghiệm và tập ít nhất 2 lựa chọn cho câu trả lời.

Giả sử đoạn văn bản ngữ cảnh được ký hiệu là P Câu hỏi và lần lượt các lựa chọn

cho câu trả lời ký hiệu là Q và Ø Khi đó, mô hình MCQA có nhiệm vụ chon ra duy

nhất một câu trả lời đúng từ các lựa chọn O dựa trên P và Q

‘Segment 1 ‘Segment 2

(e15) | Pasage [Sem | ouesen [semi [Onion | (SEF of Enome }

Hình 3.1: Kiến trúc mô hình sử dụng cho tác vụ MMRC

Hình 3.1 trên đây minh hoạ về kiến trúc mô hình MMRC sử dụng trong bài toán

Trong đó, “Encoder” là bộ mã hoá câu tiền huấn luyện (pre-trained sentence

encoder) như BERT Trong bài toán này, chúng tôi sử dụng mBERT, ViBERT,

Bert4News, XLM-R làm bộ mã hoá từ “Classifier” là lớp phân loại trong mô hình

mạng nơ-ron Chỉ tiết cụ thể mạng phân loại này sẽ được mô tả trong Muc 3.4 Vớicâu hỏi gồm n lựa chọn đáp án, đầu vào là chuỗi token tương ứng với số lựa chọn

25

Trang 33

đáp án Mỗi chuỗi token được cấu tạo từ đoạn ngữ cảnh, câu hỏi và một trong cáclựa chọn đáp án liên kết với nhau thành một chuỗi có chiều dài ! Kế tiếp, mỗi chuỗi

sẽ được mã hoá bởi bộ mã hoá câu dé lấy được vector biểu diễn H € R“*!, sau đóđược chuyên đổi thành giá trị p = C(H) (p € R1) thông qua mạng phân loại C Từ

đó, chúng ta thu được vector logit đầu ra từ mạng phân loại, p = [p1,P2, - ,

Pnl-Vector này được biến đổi thành vector xác suất thông qua lớp softmax để chọn đáp

án cho câu trả lời Hàm mắt mát để đánh giá hiệu suất mô hình được sử dụng làCross entropy (Log loss).

Nhu đã đề cập trước đó ở Mục 1.2.2, lay ý tưởng từ phương pháp MMM, chúng tôi

ề xuất áp dụng các mô hình họ BERT được huấn luyện trước trên dữ liệu tiếngViệt để làm mô hình biểu diễn ngôn ngữ, cùng với đó kết hợp thêm việc học bổ

sung với tác vụ NLI và sử dụng mang Attention đa bước Phương pháp huấn luyện

é xuất này được minh hoạ tổng quát ở Hinh 3.2 dưới đây

we CCoarse-tuning NLI task

.

stage 2:

Eine-tuning MRC task

-‘err man

-{ c13} | Passage [ISEP) | queston | (SEP Opto 1 | (SEP) |- 4 Encoder ->{ Classifier

¬ | Pr THiponess | SEPI] po (se)

Hình 3.2: Phương pháp huấn luyện mô hình với tác vụ bồ sung NLI

3.2 Phương pháp học chuyển tiếp trong xử lý ngôn ngữ tự nhiên

Phương pháp học chuyền tiếp (transfer learning) đã chứng minh được tầm quantrọng của nó đối với lĩnh vực NLP trong những năm gần đây, với khả năng ấn tượngtrong việc chuyền giao tri thức từ các mô hình đã huấn luyện cho bài toán trước đó

Tiêu đề	Cải thiện mô hình đọc hiểu trắc nghiệm trên tiếng Việt với hướng tiếp cận attention đa bước và suy luận ngôn ngữ tự nhiên
Tác giả	Hoàng Trọng Khôi, Phạm Quang Tường
Người hướng dẫn	ThS. Lưu Thanh Sơn, ThS. Nguyễn Văn Kiệt
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	67
Dung lượng	19,1 MB