Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu đọc hiểu tự động dựa trên cấp độ câu cho Tiếng Việt

Từ đó đề xuất ba hướng tiếp cận giải quyết bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt: tiếp cận theo hướng xếp hạng câu với các mô hình đặc trưng nhưBM25, Word Count; h

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TÍNH

DO NGUYEN THUAN PHONG

NGUYEN DUY NHAT

KHOA LUAN TOT NGHIEP

NGHIÊN CỨU ĐỌC HIẾU TU ĐỘNG DỰA TREN CAP

ĐỘ CÂU DÀNH CHO TIENG VIỆT

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HÒ CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

DO NGUYEN THUẬN PHONG - 18520126

NGUYEN DUY NHẬT - 18520118

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG DỰA TREN CAP

ĐỘ CÂU DÀNH CHO TIENG VIỆT

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS NGUYEN LƯU THUY NGÂN

ThS NGUYÊN VĂN KIỆT

TP HÒ CHÍ MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

.-ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Docc —— ~ Chủ tịch.

Qe ccc == ~ Thư ký.

“— cece eee ~ Ủy viên.

Alec cee cee ee tense nee eeneeeen eens eeneneens — Ủy viên.

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

TP HCM ngày tháng năm

NHẬN XÉT KHÓA LUẬN TÓT NGHIỆP

(CUA CAN BO HƯỚNG DAN)

Tên khóa luân:

NGHIÊN CỨU ĐỌC HIẾU TỰ DONG TREN CAP ĐỘ CÂU DÀNH CHO TIENG VIỆT

Nhóm SV thực hiện: Cán bộ hướng dẫn:

Đỗ Nguyễn Thuận Phong 18520126 TS Nguyễn Luu Thuy Ngân

Nguyễn Duy Nhật 18520118 ThS Nguyễn Văn Kiệt

Đánh gia Khóa luận

1 Vé cuôn báo cáo:

Số trang Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản pham

Một sô nhận xét vê hình thức cuôn báo cáo:

<nhận xét về định dạng, cách thức viết báo cáo, phân bố nội dung, chương mục có hợp lý

không >

Trang 5

<nhận xét về kiên thức, phương pháp mà sinh viên đã tìm hiểu, nghiên cứu nhận xét wu diém

và hạn chê>

3 Về thái độ làm việc của sinh viên:

Trang 6

Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cửnhân, xếp loại Giỏi/ Khá/ Trung bình

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 7

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Tên khóa luân:

NGHIÊN CỨU ĐỌC HIẾU TỰ DONG TREN CAP ĐỘ CÂU DÀNH CHO TIENG VIỆT

Nhóm SV thực hiện: Can bô phản biện:

Đỗ Nguyễn Thuận Phong 18520126 ThS Nguyễn Trọng Chỉnh

Nguyễn Duy Nhật 18520118

Đánh gia Khóa luận

1 Vê cuôn báo cáo:

Số trang Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm

Một sô nhận xét về hình thức cuôn báo cáo:

<nhận xét về định dạng, cách thức viết bdo cáo, phân bồ nội dung, chương mục có hợp lý

không >

Trang 8

2 Về nội dung nghiên cứu:

<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiếu, nghiên cứu nhận xét wu diém

và hạn ché>

3 Vệ thái độ làm việc của sinh viên:

<nhận xét về thái độ, wu khuyết diém của từng sinh viên tham gia>

Trang 9

Đánh giá chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cửnhân, xếp loại Giỏi/ Khá/ Trung bình

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 10

ĐẠI HỌC QUOC GIA TP HO CHI MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TEN DE TÀI: NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG DUA TREN CAP ĐỘ CÂUCHO TIENG VIET

TEN DE TAI TIENG ANH: SENTENCE EXTRACTION BASED MACHINE

READING COMPREHENSION FOR VIETNAMESE

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Nguyễn Lưu Thùy Ngân

ThS Nguyễn Văn Kiệt

Thời gian thực hiện:Từ ngày 06/09/2021 đến ngày 01/01/2022

Sinh viên thực hiện:

Đỗ Nguyễn Thuận Phong - 18520126 Lớp: KHMT2018

Email:18520126@gm.uit.edu.vn Điện thoại: 0788927163

Nguyễn Duy Nhật - 18520118 Lop: KHMT2018

Email:18520118(gm.uit.edu.vn Điện thoại: 0967524457

Nội dung đề tai:(M6 tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của dé tài)

e - Mục tiêu, phạm vi và đôi tượng của đê tai:

Trang 11

Xây dựng bộ dir liệu trích xuất câu dựa trên đọc hiểu tự động trong tiếng Việt

(ViWikiQA) Đề xuất thuật toán chuyền đổi với mục đích chuyên đổi bộ dữ liệu

UIT-ViQuAD thành bộ dữ liệu UIT-ViWikiQA.

Nghiên cứu các mô hình, kỹ thuật có liên quan cho bài toán đọc hiểu văn bản tự động

Từ đó đề xuất ba hướng tiếp cận giải quyết bài toán đọc hiểu tự động dựa trên cấp độ

câu cho tiếng Việt: tiếp cận theo hướng xếp hạng câu với các mô hình đặc trưng nhưBM25, Word Count; hướng tiếp cận phân lớp với các mô hình như maLSTM, BiGRU

và hướng tiếp cận đọc hiểu tự động với các mô hình BERT, XLM-Roberta

Phân tích các loại câu hỏi trong tiếng Việt của bộ dữ liệu UIT-ViWikiQA và đánh giá

hiệu suât của các mô hình trong ba hướng tiêp cận được dé xuât trên từng loại câu hỏi.

a ^^

_

Hình 1: Quy trình nghiên cứu trích xuất câu dựa trên đọc hiểu tự động

Hình 1 cho thấy quy trình nghiên cứu đọc hiểu tự động của chúng tôi Quy trình gồmhai giai đoạn lớn là nghiên cứu và tìm ra thuật toán chuyên đổi bộ dit liệu UIT-ViQuAD

(Nguyen et al.) thành bộ dữ liệu mới (UIT-ViWikiQA) và giai đoạn thực nghiệm bộ dữ

liệu trên các mô hình máy học và đánh giá kết quả

I Xây dựng bộ dữ liệu UIT-ViWikiQA

Quá trình chuyên đôi đữ liệu của chúng tôi gôm có 3 giai đoạn: Nghiên cứu và

tìm ra thuật toán chuyền đổi, Tạo bộ dit liệu, Kiểm tra lai đữ liệu

Giai đoạn 1: Nghiên cứu và tim ra thuật toán chuyền doi

Chúng tôi tiến hành đọc và nghiên cứu về các thành phan và thông số của bộ dữliệu UIT-ViQuAD (Nguyen và các cộng sự) Sau đó tiến hành đề xuất các ý tưởng

khác nhau và vận dụng vào việc chuyển đổi thử một mẫu đữ liệu của

UIT-ViQuAD Sau đó chúng tôi chon ra thuật toán tốt nhất và độ chính xác dé chuyển

đôi chính thức Y tưởng chính của thuật toán chuyên đôi sẽ dựa vào việc tách câu

Trang 12

và dựa vao các vi trí bat dau của câu trong đoạn văn va answer_start trong được

cung cấp từ bộ dit liệu UIT-ViQuAD

Giai đoạn 2: Tạo bộ dữ liệu.

Trong giai đoạn này, chúng tôi áp dụng thuật toán đã được tìm ra ở giai đoạn 1

để tiền hành chuyền đôi đồng loạt bộ đữ liệu ViQuAD thành bộ dit liệu ViWikiQA Cau trúc biểu diễn dit liệu được lưu dưới dang json bao gồm câu hỏi,

UIT-câu trả lời và đoạn văn chứa nội dung trả lời cho UIT-câu hỏi Bảng 1 cho thấy ba ví

dụ minh họa cho dir liệu.

1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi

nghỉ hưu năm 1987 Trước đó ông từng giữ chức vụ Thủ tướng Chính

phủ Việt Nam Dân chủ Cộng hòa từ năm 1955 đến năm 1976 Ông là

vị Thủ tướng Việt Nam tại vị lâu nhất (1955— 1987) Ông là học trò,

cộng sự của Chủ tịch Hồ Chí Minh Ông có tên gọi thân mật là Tô, đây

từng là bí danh của ông Ông còn có tên gọi là Lâm Bá Kiệt khi làmPhó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học

Lãm).

hội chủ nghĩa Việt Nam?

Phạm Văn Đồng (1 tháng 3 năm 1906 — 29 tháng 4 năm 2000) là Thủtướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm

1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi

nghỉ hưu năm 1987.

Tên gọi nào được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm cơ

quan Biện sự xứ tại Quê Lâm?

Trang 13

Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm).

Bang 1: Ví dụ về dit liệu của bộ dữ liệu UIT-ViWikiQAGiai đoạn 3: Kiểm tra lai dữ liệu

Nhằm cung cấp một bộ dữ liệu cho cộng đồng nghiên cứu nên việc cung cấp một

bộ dữ liệu chuẩn, chính xác và sạch là điều cần thiết Vì thế sau khi hoàn thành

bộ dit liệu chúng tôi tiến hành rà soát lại tat cả các mẫu dữ liệu theo phương pháp

tự động Chúng tôi kiểm tra lại các vị trí bắt đầu của câu trả lời (answer_start)xem đã chuân và chính xác hay không

2 Thực hiện giải quyết bài toán với các mô hình

2.1 Bài toán:

Bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt

Đầu vào: Đoạn văn và câu hỏi liên quan đến nội dung của đoạn văn

Đâu ra: Câu trả lời tương ứng cho câu hỏi (câu trả lời là một câu trong đoạn văn).

Ví dụ:

Đâu vào:

Đoạn văn: Phạm Văn Đồng (1 tháng 3 năm 1906 — 29 tháng 4 năm 2000) làThủ tướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm

1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi nghỉ hưu

năm 1987 Trước đó ông từng giữ chức vụ Thủ tướng Chính phủ Việt Nam

Dân chủ Cộng hòa từ năm 1955 đến năm 1976 Ông là vị Thủ tướng Việt Namtại vị lâu nhất (1955—1987) Ông là học trò, cộng sự của Chủ tịch Hồ ChíMinh Ông có tên gọi thân mật là Tô, đây từng là bí danh của ông Ông còn

có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại QuếLâm (Chủ nhiệm là Hồ Học Lãm)

Câu hỏi: Tên gọi nao được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm

cơ quan Biện sự xứ tại Quê Lâm?

Trang 14

Đầu ra:

Câu trả lời: Ông còn có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơquan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm)

2.2 Phương pháp giải quyết bài toán

Đối với bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt, chúng tôi

đề xuất ba phương pháp tiếp cận giải quyết bài toán: tiếp cận dựa trên xếp hạng

câu, tiép cận dựa trên phân loại va tiêp cận dựa trên đọc hiệu tự động.

i) Tiép cận dựa trên xêp hang câu.

Đối với hướng tiếp cận dựa trên xếp hạng câu, khi nhận đầu vào là đoạn văn

và câu hỏi Chúng tôi tiến hành tách câu đối với đoạn văn khi đó nhận được

một danh sách các câu của đoạn văn S= (s 1,s 2 s n) đối với đoạn gồm n

câu Sau đó chúng tôi sử dụng các mô hình tính độ tương đồng giữ s ¡(0<i<(n+1)) với câu hỏi Các mô hình chúng tôi sử dụng bao gồm WordCount, BM25 Vậy kết quả của bài toán là câu s_¡ có độ tương đồng với câu

hỏi cao nhât.

Trang 15

ii) Tiếp cận dựa trên phân lớp

Tương tự hướng tiếp cận xếp hang câu, chúng tôi tách câu đổi với đoạn văn

và thu được một danh sách các câu S= (s_1,s 2 s n) đối với đoạn văn gồm

n câu Sau đó, chúng tôi sử dung mô hình phan lớp với đầu vào là một câu Si

và câu hỏi Q Và đầu ra của mô hình phân lớp là nhãn 0 và 1 với ý nghĩa tương

ứng là 1 khi câu s_i mang nội dung trả lời cho câu hỏi Q và ngược lại nhãn 0

là câu không mang nội dung trả lời Mô hình được chúng tôi sử dụng đối với

hướng tiếp cận này là Manhattan LSTM (maLSTM) và BiGRU

Manhattan LSTM (maLSTM) (đề xuất bởi Jonas và Aditya): The modelmaLSTM là một sự chuyên đổi của mô hình LSTM dé phù hợp hơn với dạng

dữ liệu gồm những cặp câu, điều đó đồng nghĩa với việc nó hoàn toàn phủ

hợp với bộ dữ liệu UIT-ViWikiQA khi đầu vào sẽ là một câu hỏi và một câu

trong đoạn văn thì khi đó mô hình dự đoán ra 1 sẽ có nghĩa là câu đó có khả

năng trả lời cho câu hỏi tương ứng, ngược lại dự đoán ra 0 sẽ là câu hỏi đó

Câu hỏi Câu †rong đoạn văn

Hình 3: Kiến trúc mô hình maLSTM

iii) Tiếp cận dựa trên đọc hiểu tự động

Trang 16

Đối với hướng tiếp cận dựa trên đọc hiéu tự động chúng tôi áp dung các mô

hình tương tự các bài toán đọc hiểu tự động Khi đó mô hình đọc hiểu nhậnđầu vào là đoạn văn và câu hỏi; đầu ra là câu trả lời mà mô hình trích xuất

Các mô hình được chúng tôi sử dụng đối với hướng tiếp cận này là QANet

(Yu et al), BERT (Devlin và các cộng sự), XLM-Roberta (Conneau và các cộng sự).

XLM-Roberta (Conneau và các cộng sự): XLM-R là một phương pháp tốt

dé được dao tạo trước các mô hình đa ngôn ngữ trên quy mô lớn, dẫn đến tăng

hiệu suất đáng kế cho hàng loạt các nhiệm vụ Mô hình này cũng vượt trộihơn hoàn toàn so với mô hình đa ngôn ngữ BERT (mBERT) trên nhiều tác vụ

xử lý ngôn ngữ tự nhiên Do đó chúng tôi áp dụng mô hình cho việc đánh hiệu

suất cho bộ dit liệu UIT-ViWikiQA để bộ dit liệu được tiếp cận với các mô

Trang 17

2.3 Thông số đánh giá

Dé đánh giá hiệu suất của các mô hình, chúng tôi sử dụng hai thông số tương tựthông số được sử dụng đánh giá cho bộ dữ liệu UIT-VIQuAD và bộ dữ liệuSQuAD (Rajpurkar và các cộng sự) là F1-Score và EM Đối với một cặp câu gồm

câu trả lời được mô hình dự đoán và câu trả lời chính xác Khi đó EM nhận giá

trị là 1 khi câu được dự đoán và câu trả lời chính giống nhau hoàn toàn và ngược

lại EM nhận gia tri là 0 F1-Score đo lượng sự trùng lặp giữa câu câu dự đoán và câu trả lời chính xác.

¢ - Kết quả mong đợi của đề tài

Tạo ra được bộ dữ liệu chuyển đổi cho bài toán đọc hiểu văn bản tự động trên cấp độ

câu đối với tiếng Việt (UIT-ViWikiQA) từ bộ dữ liệu UIT-ViQuAD

Đề xuất ba phương pháp tiếp cận cho bài toán đọc hiéu tự động dựa trên cấp độ câu cho

tiếng Việt (Hướng tiếp cận dựa trên đọc hiểu, Hướng tiếp cận dựa trên phân loại , Hướng

tiếp cận dựa trên xếp hạng) Mỗi phương pháp tiếp cận sử dụng các mô hình đánh giákhác nhau: Hướng tiếp cận dựa trên đọc hiểu tự động (QANet, PhoBERT, XML-Roberta), Hướng tiếp cận dựa trên phân loại (maLSTM, BiGRU), Hướng tiếp cận dựatrên xếp hạng (Word Count, BM25)

Phân tích hiệu suât của từng mô hình trên môi loại câu hỏi khác nhau và làm rõ đặc diém

và nguyên nhân gây ra sự ảnh hưởng.

« Tai Liệu tham khảo

1 Conneau, Alexis, Kartiky Khandelwal, Naman Goyal, Vishrav Chaudhary,

Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov 2020 “Unsupervised Cross-lingual

Representation Learning at Scale.” 2020.

2 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova 2019.

“BERT: Pre-training of Deep Bidirectional Transformers for Language

Understanding.” 2019.

Trang 18

3 Jonas, Mueller, and Thyagarajan Aditya 2016 “Siamese Recurrent Architectures

for Learning Sentence Similarity.” Proceedings of the AAAI Conference on Artificial Intelligence 30.

4 Nguyen, Kiet V., Vu D Nguyen, Anh G Nguyen, and Ngan L Nguyen 2020.

“A Vietnamese Dataset for Evaluating Machine Reading Comprehension.” 2020.

5 Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy Liang 2016.

“SQuAD: 100,000+ Questions for Machine Comprehension of Text.” 2016.

6 Yu, Admas W., David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen,

Mohammad Norouzi, and Quoc V Le 2018 “QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension.” 2018.

Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

« M6 tả tóm tắt kế hoạch làm việc: Kế hoạch làm việc được chúng tôi thực hiện chi

¬ “ms um Thang

12

Tìm hiểu tổng quan va khảo sát đề tài

Tìm thuật toán và tạo bộ dữ liệu

tiết trong bảng sau:

thiện

Báo cáo

Trang 19

e Phan công công việc cho từng thành viên:

Công việc Đỗ Nguyễn Thuận | Nguyễn Duy

Phong Nhật

Khảo sát bai toán va tìm hiểu tong quan

Tìm kiếm và thử nghiệm thuật toán chuyên

đôi bộ đữ liệu

Kiểm tra bộ đữ liệu

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Trang 20

MỤC LỤC

Chương 1 TONG QUAN 22- 52 SE EEEE2E12E1521271711211211211 111121211 cxe 8

In Dinh nghia bal toa oo ec a 8 1.2 Tinh ứng dụng của bài toán - - c1 3211211191111 111111111 11111181 ray 9

143 Kếtluận nh nghi 10Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 11

2.1 Cac bộ dữ liệu liên quan - - c2 2321336113311 111 11111 re 11

2.1.1 _ Công trình trên thé giới : -¿©-+¿©+++2++2E+tEESExrzrxerxeerkrrrkee 11

2.1.2 Cong trình trong ƯỚC - -.- Gv TH ng nh nành 14

2.2 Các mô hình liên quañ - - 2c 3221322332113 13 1 EEEEEEErrrrrrerkrsrke 15

2.2.1 Phương pháp dựa vào xếp hạng câu - 2 2 z+se+xezxerszrszsee 15

2.2.2 Phuong pháp dựa vào phân loại - + Sc + *+x+etxsesseresrsses 16

2.2.3 Phương pháp đọc hiểu tự động - ¿2 s+cs+E++EzEeExeExerxrrerree 17

XI NN(G) nh s5 Ò VỀ /@ể/ Ẳ—~ 18Chương 3 QUÁ TRÌNH CHUYEN DOI VA TONG QUAN VỀ BỘ DU LIEU

UIT-ViWikiQa ccceccceccesscessesssesssessesssesssessesssessesssesssessesssesssessesasessustiesssessesssesssesseeees 19

3.1 Quá trình chuyển đối bộ dữ LGU ccc eseseseesessessesesteseesessestesesees 19

3.1.1 Thuật toán chuyên đôi bộ dit liệu -2-252+cx+zx+zxczEzrsrred 193.1.2 Kiếm tra chất lượng bộ dữ liệu - - 55 251 *+ysErsereersrrreres 22

3.2 Phân tích bộ dữ liệu UIT-ViWikiQA ©5225c22cc2xcccxcrrerkerrees 23

3.2.1 Tổng quan về bộ dit liệu UIT-ViWikiQA 2-55ccscsccce2 23

3.2.2 Phan tích UIT-ViWikiQA theo loại câu hỏi - - 5-55: 24 3.2.3 Phân tích UIT-ViWikiQA theo loại suy luận -.‹- 5-55: 28

3.3 Kết luận c St St TT 111111 15111111111111111151211111111E1EEEEEttke 32

Trang 21

Chương 4 CÁC HƯỚNG TIẾP CAN VÀ MÔ HÌNH GIẢI QUYÉT BÀI TOÁN

33

4.1 Hướng tiếp cận dựa trên phương pháp xếp hạng - 2-55: 33

4.1.1 Tổng quan -5++S2+EEE 2E E2E1211211111211211 211111 E1.xe 33

5.3 Kết quả thử nghiệm -2-©2¿22+22E22EE22E221221E271 211221 221z xe, 495.4 Phân tích kết quả ¿-©2¿+2++22E2EE2EE22112712212211271 211221 xe, 51

5.4.1 Tac động của tính chat ngữ cảnh - 2 2 s+cx+£EczEzEzrxsrxered 51

5.4.2 Tac động của các yếu tố dựa trên loại câu hỏi s- ccxscszxccez 53

5.4.3 Tac động của các yếu tố dựa trên loại suy luận - -+2 5S

Chương 6 KẾT LUẬN VÀ HUONG PHAT TRIÊN 2-5s+cz+cz+xzez 58

6.I Kết luận c 22tr 586.2 Hạn ché voeeccccccccccceccececscsesecscsesecsesessucsesvsucecsceveucacsvseacacavsucacevsvsusacavseaceesvees 59

Trang 22

6.3. Hướng phát triển

Trang 23

DANH MỤC HÌNH VẾ

Hình 3.1: Phân bố các loại câu trên tập phát triển của UIT-ViWikiQA 26Hình 3.2: Phân bố của các loại câu hỏi trên tập kiểm tra của UIT-VIWIKIQA 26Hình 3.3: Phân bố các loại câu hỏi và từ dé hỏi trong tập phát triển và kiểm tra của

UIT-VIWIKIQA 01 28

Hình 3.4: Phân bố các loại suy luận có trong tập phát triển của UIT-VïWikiQA 31Hình 3.5: Phân bố các loại suy luận có trong tập kiêm tra của UIT-ViWikiQA 31Hình 4.1: Kiến trúc mô hình theo hướng tiếp cận xếp hạng 5: 52 52 34Hình 4.2: Kiến trúc mô hình theo hướng tiếp cận phân loại 5: 5z 52 36Hình 4.3: Kiến trúc mô hình LSTM - -¿ ©2+c¿22vvtttExxtrrtrrrtrrrrrrrrrrrrrk 37Hình 4.4: Kiến trúc mô hình MaLSTM - 5: 55cc22tvtiertrirrrrrrrsrrrrrrrrree 39Hình 4.5: Kiến trúc mô hình theo hướng tiếp cận đọc hiểu tự động 41Hình 4.6: Kiến trúc mô hình XLM-Roberta .c.cccccccsccssessessesessssessessessessesessessesseees 42Hình 5.1: Biểu diễn trùng lặp token giữa câu tra lời đúng và câu trả lời được dự đoán

Hình 5.2: Hiệu suất của các mô hình đối với các loại câu hỏi khác nhau của tập pháttriển và được đánh giá trên EM và F Ï~§COF€ 2-2 2S +E+EE£EE2EE2EZEerEerxersrree 53

Hình 5.3: Hiệu suất của các mô hình đối với các loại suy luận khác nhau trên tập phát

triển và được đánh giá trên Fl-score và EM ¿ s¿©-++2+z+2x2zxerxesrxrsrsees 55

Trang 24

DANH MỤC BANG

Bảng 1.1: Ví dụ về bai toán đọc hiểu dựa trên trích xuất câu cho tiếng Việt 9Bảng 3.1: Thống kê tổng quan về bộ dữ liệu UIT-ViWikiQA - 24

Bảng 3.2: Các loại câu hỏi trong bộ dữ liệu ULT-VIWIkIQA - c c2 25

Bang 3.3: Các loại suy luận có trong bộ dit liệu UIT-VIWIkIQA - 30

Bảng 5.1: Hiệu suất của các mô hình được đánh giá trên tập phát triển và tập kiếm

CA eee 49

Bang 5.2: Hiệu suất của các mô hình MRC trên UIT-ViWikiQA và phiên bản xáo

Ò900ì8:LIÍNƯHIađaiaadiẳ 52

Trang 25

DANH MỤC TỪ VIET TAT

STT Từ viết tắt Ý nghĩa

1 NLP Natural Language Processing

2 MRC Machine Reading Comprehension

3 QA Question Answering

4 BERT Bidirectional Encoder Representations from

Transformers

5 LSTM Long Short Term Memory

6 BiLSTM Bidirectional Long Short Term Memory

7 MaLSTM Manhattan Long Short Term Memory

8 EM Exact Match

Trang 26

thế, trong khoá luận này chúng tôi đã đề xuất một bộ đữ liệu đọc hiểu dưa trên cấp

độ câu trên ngôn ngữ tiếng Việt (UIT-ViWikiQA) được lấy từ các các bài báo trêntrang Wikipedia! thông qua bộ dữ liệu UIT-ViQuAD 1.0 và thuật toán chuyển déi dochúng tôi đề xuất Chúng tôi mong muốn bộ dữ liệu của mình sẽ góp phần làm phong

phú và đa dang hơn cho tài nguyên của bài toán đọc hiểu tự động trên tiếng Việt

Ngoài ra, dé hiểu rõ hơn về bài toán đọc hiểu tự động dựa trên cấp độ câu trên tiếng

Việt cũng như bộ dữ liệu UIT-ViWikiQA, chúng tôi cũng thống kê một vài số liệu

về kích thước của bộ dữ liệu về số lượng bài báo, đoạn văn, câu hỏi vả từ vựng cũng

như phân tích về loại câu hỏi cùng với sự đa dạng về từ dé hỏi, các loại suy luận củatập câu hỏi có trong bộ dit liệu UIT-ViWikiQA Chúng tôi đề xuất ba hướng tiếp cận

để đánh giá bài toán đọc hiểu tự động dựa trên cấp độ câu trên tiếng Việt: hướng tiếpcận dựa trên trích xuất câu, hướng tiếp cận dựa trên phương pháp phân loại và hướngtiếp cận dựa trên phương pháp đọc hiểu tự động Sau một loạt các thử nghiệm củachúng tôi, chúng tôi rút ra được mô hình XLM-Riarge+BiLSTM ở phương pháp tiếp

cận dựa trên đọc hiệu tự động cho kết quả cao nhất với F1-score là 93.95% và EM la91.79% trên tập phát triển và F1-score là 93.88% và EM là 91.86% trên tập kiểm tra

Bên cạnh đó chúng tôi cũng phân tích và nhận thấy răng các mô hình theo hướng tiếpcận đọc hiểu tự động chịu ảnh hưởng của ngữ cảnh và đối với các loại câu hỏi khác

nhau thì các mô hình có các hiệu suất trung bình khác nhau và các mô hình có hiệusuất thấp hơn ở các loại câu hỏi khó Why , How và các loại câu hỏi có từ dé hỏi đa

dạng như What, Where Ngoài ra, chúng tôi phân tích trên loại suy luận của câu hỏi

thì các mô hình có hiệu suât giảm dân khi các câu hỏi có tính suy luận khó dân lên

1 https://vi.wikipedia.org/

Trang 27

như các mô hình đạt hiệu suất cao ở loại suy luận Word Matching và hiệu suất thấp

nhất ở loại suy luận Multi-sentence Matching Cuối cùng, chúng tôi đề xuất một vài

hướng phát triển ở tương lai cho bài toán đọc hiểu tự động dựa trên trích xuất câu trên

tiếng Việt

Trang 28

MO DAU

Dat van dé

Hiện nay, với sự phát triển mạnh mẽ của trí tuệ nhân tạo cũng như khoa học côngnghệ kỹ thuật kéo theo số lượng người truy cập vào các trang mạng xã hội cũng nhưcác nén tảng trực tuyến ngày càng nhiều và gia tăng đáng ké theo từng ngày Việcngười dùng tra cứu thông tin thông qua các nền tảng trực tuyến có lẽ không còn xa lạvới chúng ta nhất là trong thời đại trí tuệ nhân tạo nói chung và các mô hình máy họcnói riêng dang được áp dung rất nhiều xung quanh cuộc sống hiện nay Để có thé

cung cấp thông tin một các chính xác cho người dùng thì các nền tảng trực tuyến đòi

hỏi phải có đữ liệu liên quan đến rất nhiều chủ đề, từ đó áp dụng vào vài bài toán đọchiểu tự động

Bài toán đọc hiểu tự động là nhiệm vụ đang thu hút rất nhiều sự chú ý và được ứngdụng trên nhiều lĩnh vực như: kinh doanh, sức khỏe, giáo dục, Chúng tôi nhận thấyrằng trên thé giới hiện nay có nhiều bộ đữ liệu kích thước lớn và chất lượng tốt cho

các nghiên cứu về lĩnh vực xử lý ngôn ngữ tự nhiên và cụ thể là nhiệm vụ MRC,

nhưng thực trạng là các bộ dữ liệu đó được tập trung chủ yếu phát triển trên các loạingôn ngữ như tiếng Anh, tiếng Trung Trong khi đó, trên tiếng Việt thì quá ít tàinguyên về các bộ dữ liệu để phục vụ các bài toán MRC Vì thế, trong khóa luận này,

chúng tôi đề xuất một bộ dữ liệu dựa trên cấp độ câu cho tiếng Việt (UIT-ViWikiQA) dé có thể áp dụng cho bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt

Bảng 1.1 là một số ví dụ cho bài toán đọc hiểu tự động dựa trên cáp độ câu do chúng

tôi đề xuất Với đầu vào của bài toán là một đoạn văn và câu hỏi tương ứng, đầu ra làmột câu chứa câu trả lời cho câu hỏi đó được trích xuất từ đoạn văn Với đầu ra như

vậy, chúng tôi muốn hướng đến một câu trả lời cung cấp đầy đủ thông tin xung quanh

câu hỏi của người dùng thay vi chỉ tập trung đúng vao câu trả lời cho câu hỏi đó.

Mục tiêu khoá luận tốt nghiệp

Trang 29

Mục tiêu của khoá luận tốt nghiệp này là nghiên cứu bài toán đọc hiểu tự động dựatrên cấp độ câu cho tiếng Việt Dé làm được điều này chúng tôi tập trung vào các mục

tiêu chính sau đây:

e Xây dựng một bộ di liệu UIT-ViWikiQA phục vụ cho bai toán đọc hiểu tự

động trên cấp độ câu Ngoài ra, chúng tôi cũng phân tích tong quan về bộ ditliệu và phân tích chi tiết dé có cái nhìn toàn cảnh và sâu sắc về bộ đữ liệu trênnhiều khía cạnh ngôn ngữ khác nhau

e Giới thiệu ba hướng tiếp cận cho bai toán đọc hiểu tự động dựa trên cấp độ

câu cho tiếng Việt: hướng tiếp cận dựa trên xếp hạng, hướng tiếp cận dựa trênphân loại, hướng tiếp cận dựa trên đọc hiểu tự động

e_ Triển khai các mô hình theo ba hướng tiếp cận bên trên với bộ dữ liệu của

chúng tôi.

e Tiến hành phân tích đánh giá làm rõ ngữ cảnh, các loại câu hỏi, cũng như

những câu hỏi đòi hỏi sự suy luận đều có tác động đến hiệu suất các mô hình

trong hướng tiếp cận đọc hiéu tự động

Đôi tượng và phạm vỉ nghiên cứu

Vệ giới hạn nghiên cứu, chúng tôi chủ yêu tập trung vào các vân dé sau:

o Xây dụng bộ dir liệu đọc hiéu tự động trên cap độ câu dành cho tiêng

Việt với nguôn gôc lây từ các bài báo của Wikipedia.

o Giới thiệu ba hướng tiêp cận khác nhau phục vụ cho việc giải quyết bai

toán đọc hiệu tự động trên cap độ câu.

Trang 30

o_ Triển khai các mô hình tiên tiến trên ba hướng tiếp cận khác nhau và

được triển khai trên bộ đữ liệu của chúng tôi

o Phân tích về bộ dit liệu một cách tong quan và chuyên sâu dé có những

đánh giá sâu sắc nhất về hiệu suất của các mô hình trên nhiều khía cạnh

ngôn ngữ.

Kêt quả nghiên cứu

Qua nghiên cứu này, chúng tôi đạt được một số kết quả như sau:

Xây bộ dữ liệu UIT-VIWIkIQA từ bộ dữ liệu UIT-ViQuAD thông qua thuật

toán chuyển đổi do chúng tôi đề xuất Bộ đữ liệu UIT-ViWikiQA là bộ dữ liệu

đầu tiên phục vụ cho bài toán đọc hiểu tự động trên cấp độ câu dành cho tiếng

Việt Chúng tôi mong muốn đóng góp và làm đa dạng hơn nguồn dit liệu chobài toán đọc hiéu tự động trên tiếng Việt Bộ dit liệu được xây dung từ 174 bàibáo của trang Wikipedia dé từ đó tạo ra hon 23,000 cặp câu hỏi-câu trả lời

Chúng tôi đề xuất ba hướng tiếp cận cho việc giải quyết bài toán đọc hiểu tự

động trên cấp độ câu dành cho tiếng Việt bao gồm: Hướng tiếp cận dựa trên

xếp hạng, Hướng tiếp cận dựa trên phân loại và Hướng tiếp cận dựa trên đọchiểu tự động

Chúng tôi trién khai nhiều mô hình khác nhau dựa trên ba hướng tiếp cận đượcchúng tôi giới thiệu bên trên bao gồm: Word Count, BM25 (Hướng tiếp cận

dựa trên xếp hạng), MaLSTM, BIGRU (hướng tiếp cận dựa trên phân loại),

QANet, DrQA, WikiBERT, mBERT, ALBERT, PhoBERT, XLM-Roberta

(hướng tiếp cận dựa trên đọc hiểu tự động) Trong đó, mô hình

XLM-Riarge+BiLSTM dat hiệu suất cao nhất với Fl-score và EM trên tập phát triển

lần luợt là 93.95% và 91.79% và trên tập kiểm tra lần lượt là 93.88% và

Trang 31

hình trên các loại câu hỏi khác nhau, trên các loại suy luận khác nhau Và

chúng tôi phân tích sự ảnh huong của tinh chat ngữ cảnh lên các mô hình dựa trên đọc hiéu tự động.

Cau trúc khoá luận

Khoá luận gôm 6 chương với các nội dung chính như sau:

e Chương 1: Tổng quan

Trong chương nay, chúng tôi giới thiệu về bài toán đọc hiểu tự động trên cấp độ câu.Giới thiệu về lý do thực hiện đề tài và tính ứng dụng của đề tài và khả năng ứng dụng

thực tê của đê tài.

e Chương 2: Các công trình nghiên cứu liên quan

Ở chương này, chúng tôi thực hiện khảo sát về các công trình liên quan đến MRC.Chúng tôi khảo sát về các bộ dữ liệu MRC có trên các ngôn ngữ như tiếng Anh, Hàn,Trung và các bộ dữ liệu trên tiếng Việt Sau đó, chúng tôi khảo sát về các mô hìnhphục vụ cho việc giải quyết bài toán MRC trên nhiều hướng tiếp cận khác nhau

e_ Chương 3: Quá trình chuyên đổi và tổng quan về bộ dữ liệu UIT-ViWikiQA

Chúng tôi trình bày về công việc tạo ra bộ dữ liệu ViWikiQA từ bộ dữ liệu ViQuAD thông thuật toán chuyên đổi do chúng tôi đề xuất Sau đó chúng tôi thựchiện thông kê một số chỉ tiết cho bộ dữ liệu UIT-ViWikiQA như số câu hỏi, số đoạnvăn, số từ Sau đó, chúng tôi phân tích thêm về loại câu hỏi, sự đa dang từ dé hỏi và

UIT-tính suy luận của câu hỏi đê có cái nhìn sâu sắc về bộ dữ liệu.

e Chương 4: Các hướng tiếp cận và mô hình giải quyết bài toán

Ở chương này, chúng tôi trình bày về ba hướng tiếp cận cho phép giải quyết bài toánđọc hiểu tự động trên cấp độ câu: hướng tiếp cận dựa trên xếp hạng, hướng tiếp cận

dựa trên phân loại và hướng tiếp cận dựa trên đọc hiéu tự động Sau đó tại mỗi hướng

tiếp cận được chúng tôi giới thiệu về một mô hình tiêu biểu để có cái nhìn cụ thể hơn

về mỗi hướng tiếp cận

e Chương 5: Cài đặt, thử nghiệm và đánh gia

Trang 32

Chúng tôi thực hiện triển khai các mô hình theo ba hướng tiếp cận đã được chúng tôi

giới thiệu trên bộ dữ liệu UIT-ViWikiQA và các mô hình được đánh giá trên hai

thông số bao gồm: F1-score và EM Bên cạnh đó, chúng tôi cũng phân tích hiệu suất

cuả các mô hình trên các khía cạnh ngôn ngữ như: loại câu hỏi khác nhau, tính đa

dang của từ dé hỏi, hay tính suy luận của câu hỏi Ngoài ra chúng tôi cũng phân tích

về sự ảnh hưởng của yếu tô ngữ cảnh đối với các mô hình theo hướng tiếp cận dựa

trên đọc hiểu tự động

e Chương 6: Kết luận và hướng phát triển

Tại chương cuối cùng, chúng tôi kết luận về những kết quả mà chúng tôi đã đạt đượcthông qua khoá luận tốt nghiệp này Ngoài ra, chúng tôi cũng chỉ ra những điểm hạn

chế và đề xuất các ý tưởng nghiên cứu trong tương lai để phát triển đề tài này

Trang 33

Chương 1 TONG QUAN

1.1 Dinh nghĩa bài toán

Bài toán đọc hiểu tự động Machine Reading Comprehension (MRC) là một trong

những bai toán thu hut được sự chú ý của các nhà nghiên cứu trong lĩnh vực xử lí

ngôn ngôn ngữ tự nhiên — Natural Language Processing (NLP) trên toàn thế giới

MRC là nhiệm vụ của con người giúp cho máy tinh đọc hiểu văn ban và trả lời những

câu hỏi liên qua đến văn bản đó Đối với mỗi con người chúng ta, việc đọc hiểu vănban và trả lời câu hỏi đôi khi tưởng chừng đơn giản nhưng cũng có thé gặp rất nhiềukhó khăn nếu thông tin văn bản quá nhiều câu hỏi liên quan đến văn bản đòi hỏi sự

suy luận cao Vì thế, MRC có thể xem là một nhiệm vụ gây ra rất nhiều thách thức

trên máy tinh va bai toán đọc hiểu văn bản tự động dựa trên bộ dữ liệu MRC trên cấp

độ câu trên tiếng Việt (UIT-ViWikiQA) được chúng tôi giới thiệu cũng không ngoại

ứng với nội dung đoạn văn Dau ra (output) của bài toán là một câu đ; trong đoạn văn

D chứa nội dung trả lời cho câu hỏi Q Một số ví dụ về đoạn văn, câu hỏi và câu trả

lời được thê hiện thông qua Bảng 1.1

Edward I (17/18 tháng 6 1239 — 7 tháng 7 1307), còn được gọi lav

Edward Longshanks và Kẻ đánh bại người Scots (Latin: Malleus

Scotorum), là Vua của Anh từ 1272 đến 1307 Là trưởng tử của

Đoạn văn | Henry III, Edward có dính liu đến những âm mưu chính trị dưới

thời phụ hoàng, bao gồm cả cuộc nồi dậy của các nam tước Năm

1259, ông tham gia vào phong trào cải cách của các nam tước trong

một thời gian ngắn, ủng hộ Điều khoản Oxford Tuy nhiên, sau khi

Trang 34

hòa giải với phụ thân, ông lại đứng về phía hoàng gia trong cuộc

xung đột vũ trang sau đó, được gọi là Chiến tranh Nam tước lần

thứ hai Sau trận Lewes, Edward bị các nam tước nồi loạn bat làmcon tin, song ông trốn thoát sau vài thang và tham gia vào cuộc

chiến chống lại Simon de Montfort Montfort bị đánh bại trại trận

Evesham năm 1265, và trong vòng hai năm tiếp theo cuộc nồi dậy

bị đẹp tan Nền hòa bình tái lập ở nước Anh, Edward lại tham giaCuộc Thập tự chinh thứ chín vào vùng Đất Thánh Cuộc Thập tựchinh kết thúc sau một thời gian ngắn, và Edward đang trên đường

trở về quê hương năm 1272 khi ông nhận được tin phụ vương đã

băng hà Trở về một cách chậm chạp, ông đặt chân tới Anh quốc

năm 1274 và làm lễ gia miện tại Westminster ngày 19 tháng 8.

Dưới thời Henry III, Edward I đã làm những việc làm “tai tiếng"

Câu héi2 | Năm 1259, Edward đã có hành động gi chống đối lại phụ hoàng?

Năm 1259, ông tham gia vào phong trào cải cách của các nam tước

Câu trả lời 2 " ,

-trong một thời gian ngăn, ủng hộ Điêu khoản Oxford.

Bảng 1.1: Ví dụ về bài toán đọc hiểu dựa trên trích xuất câu cho tiếng Việt.

1.2 Tính ứng dụng của bài toán

Bài toán đọc hiểu văn bản có những ứng dụng rộng rãi trong nghiên cứu cũng như

trong cuộc sống của chúng ta nhất là trong thời đại 4.0 cùng với sự phát triển của

khoa học ki thuật hiện đại.

e Cáchệ thong doc hiéu tu động cũng có thé được tích hợp vào nên tảng Chatbot,

hay các ứng dụng trợ lý ảo (Virtual assistant) như Siri của Apple, Cortana của

Trang 35

Microsoft, Google Assistant, Bixby của Samsung , hệ thong tìm kiếm thôngminh như Google, Yahoo, Bing nhằm hỗ trợ giải đáp thắc mắc, tìm kiếmthông tin cho con người trên nhiều lĩnh vực khác nhau Giúp con người tiếtkiệm thời gian tìm kiếm thông tin mà vẫn biết được chính xác thông tin cầntìm kiếm.

e Là nền tảng để xây dựng hệ thống giao tiếp tự động (chatbot) trong doanh

nghiệp các lĩnh vực như: y tế, tài chính, giáo dục, Qua đó giúp tiết kiệm chiphí và nhân sự cho việc thuê người dé trả lời câu hỏi người dùng qua tong daitrực tuyến

Ngoài những ứng dụng trên, bài toán đọc hiểu tự động dựa trên trích xuất câu do

chúng tôi đề xuất còn có những ứng dụng khác như:

e Được ứng dụng vào trong các hệ thông hỏi đáp nhưng cung cấp đầy đủ thông

tin hơn về câu trả lời cho người dùng, giúp người dùng hiểu rõ hơn về thông

tin mà họ quan tâm.

e_ Cung cấp tài nguyên đầu tiên cho dit liệu doc hiểu văn ban dựa trên trích xuất

câu cho tiếng Việt

e Lanén tang dé có thé xây dung và cai thiện các bai toán đọc hiểu tự động khác

cũng như các bài toán thuộc lĩnh vực Xử lí ngôn ngữ tự nhiên trên tiếng Việt

Trang 36

Chuong 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Sự ra đời và phát triển của các bộ dữ liệu dé phục vụ cho các hệ thống QuestionAnswering (QA) cũng như các hệ thống Machine Reading Comprehension (MRC)

ngày càng phô biến va đa dang về ngôn ngữ cũng như kích thước của bộ dữ liệu Mat

khác, dé có thé phát triển hệ thống QA cũng như các hệ thống MRC, các nhà nghiêncứu đã đề xuất rất nhiều phương pháp cho hiệu suất cao Hơn thế nữa, bộ đữ liệu UIT-ViWikiQA là bộ dữ liệu MRC dựa trên cấp độ câu đầu tiên dành cho tiếng Việt đượcchúng tôi đề xuất và đánh giá trên ba hướng tiếp cận: xếp hạng câu, phân loại, và đọchiểu tự động Vì thé trong chương này, chúng tôi đã tiến hành khảo sát hàng loạt cáccông trình công bố bộ đữ liệu trên thế giới và trong nước cũng như một số mô hìnhtrên từng phương pháp tiếp cận bài toán dé có cái nhìn tổng quát hơn về bộ dit liệuUIT-ViWikiQA và các phương pháp dé giải quyết bài toán đọc hiểu dựa trên cấp độ

A

cau.

2.1 Cac bộ dữ liệu liên quan

2.1.1 Công trình trên thế giới

Phần lớn các bộ dữ liệu đọc hiểu được phát triển trên tiếng Anh — ngôn ngữ phổ biếnnhất trên thế giới hiện nay Trên tiếng Anh, khi nhắc đến bài toán MRC, chúng takhông thé không nhắc đến bộ di liệu SQUAD [1] Vào năm 2016, Rajpurkar và cộng

sự đã công bố bộ dit liệu SQUAD cùng với các quy trình xây dựng chặt chẽ dé taonên bộ dit liệu MRC có chất lượng cao qua bai báo mang tên SQuAD: 100,000+

Question for Machine Comprehension Text SQUAD thuộc loại dữ liệu

span-extraction trong bài toán MRC - loại dữ liệu mà câu trả lời ứng với mỗi câu hỏi được

trích xuất từ đoạn văn Bằng việc thu thập các bài báo thông qua Wikipedia từ đó các

crowdworkers đã tạo ra bộ dữ liệu SQuAD với hơn 100,000 cặp câu hỏi và câu trả

lời SQuAD đã gây được sự quan tâm cũng như ấn tượng đến với các nhà nghiên cứuNLP nói chung và MRC nói riêng nhờ số lượng cặp câu hỏi cũng như chất lượng mà

nó đạt được Không chỉ dừng lại ở đó vào năm 2018, Rajpurkar và cộng sự đã giới

thiệu bộ dữ liệu SQUAD 2.0 [2], bộ dữ liệu được xem là phiên bản mới nhất của

11

Trang 37

SQuAD với sự kết hợp của SQuAD và với hơn 50,000 câu hỏi không trả lời được.Khi đó, ngoài trả lời câu hỏi khi có thể, hệ thống MRC còn phải xác định đâu là câu

hỏi không thể trả lời được và không đưa ra câu trả lời Ta có thê thấy SQuAD 2.0 ra

đời có thể gây ra không ít thách thức cho cộng đồng nghiên cứu trên toàn thế giới mà

đó còn là tiền đề dé bài toán MRC ngày càng phát triển và hoàn thiện Không chỉ cóSQuAD và SQuaD 2.0 mà còn có nhiều bộ dữ liệu thuộc loại dữ liệu cũng được biếtđến là như là những bộ dữ liệu MRC trên tiếng Anh mang day tính thách thức

NewsQA [3] được Trischler cùng các cộng sự giới thiệu vào năm 2017 NewsQA có

hơn 100,000 cặp câu hỏi và câu trả lời được các crowdworkers thu thập từ hơn 10.000

bài báo tin tức từ CNN thông qua một quy trình gồm bốn giai đoạn Không chỉ vậytrên tiếng Anh còn có những bộ dữ liệu đọc hiểu thuộc loại span-extraction được

chúng tôi khảo sát như: TriviaQA [4], Natural Questions [5], emrQA [6], SQuAD [7].

Spoken-Nếu như dữ liệu thuộc loại span-extraction thì đầu ra là một câu trả lời được trích từvăn ban đầu vào, thì trên tiếng Anh loại dữ liệu đọc hiéu dang trắc nghiệm (multiple-choice) cũng được phát triển rất vượt bậc Ví dụ như MCTest là một bộ dữ liệu trả

lời các câu hỏi trắc nghiệm đọc hiểu về 500 câu chuyện hư cấu và 200 câu hỏi trên

tiếng Anh được Richardson cùng các cộng sự giới thiệu vào năm 2013 Ngoài rachúng ta có thé kê đến một số bộ dữ liệu multiple-choice trên tiếng Anh như: RACE

[8], HeadQA [9], MultiIMRC [10], CosmosQA [11].

Ngoài ra, trong quá trình khảo sát chúng tôi còn tìm thay một bộ dit liệu đọc hiểu trêntiếng Anh đã gây ra không ít thách thức cho cộng đồng nghiên cứu có tên là WikiQA[12] Bộ dữ liệu được giới thiệu bởi Yi Yang và các cộng sự vào năm 2015 Đề xây

dựng bộ dữ liệu, các tác giả đã tuyển dụng nhân viên thông qua một nền tảng tương

tự như Amazon Mturk để gán nhãn liệu các câu trả lời cho câu hỏi được xem là đúng.Các tác giả thiết kế một web người dùng gồm hai giai đoạn dé có thé thực hiện quytrình gán nhãn cho bộ dữ liệu Giai đoạn đầu tiên giao diện sẽ hiển thị một câu hỏi để

kiểm tra cộng với tiêu đề và một đoạn tóm tắt của trang Wikipedia cùng với đó là câu

hỏi “Đoạn văn ngăn có trả lời cho câu hỏi không?” Nêu người gán nhãn chọn

12

Trang 38

“không” sau đó chọn tất cả các câu trong đoạn là không chính xác và giao diện sẽchuyền sang câu hỏi tiếp theo Ngược lại, hệ thống sẽ bước vào giai đoạn thứ hai vàđặt một checkbox theo dọc mỗi câu trong đoạn văn dé nhân viên gán nhãn thực hiệnthao tác gán nhãn Đề đảm bảo chất lượng mỗi câu hỏi sẽ được gán nhãn bởi ba côngnhân Bộ dữ liệu bao gồm 3074 câu hỏi và 29258 câu trong đó 1473 câu được gắn

nhãn là câu trả lời cho các câu hỏi tương ứng trong bộ dữ liệu Bộ dữ liệu WikiQA

đã mở ra nhiều thách thức cho bài toán đọc hiểu trên tiếng Anh, cũng như là nền tang

dé có thé phát triển một số bộ dữ liệu tương tự trên các ngôn ngữ khác

Không chỉ trên tiếng Anh mà trên các ngôn ngữ khác các bộ dữ liệu đọc hiểu thuộcloại span-extraction cũng được phát triển rất mạnh mẽ CMRC 2018 [13] là bộ đữliệu đọc hiểu trên tiếng Trung với 20.000 câu hỏi được thu thập trên Wikipedia Cácngôn ngữ như tiếng Hàn, tiếng Nga, tiếng Pháp, tiếng Đức cũng có những bộ dữ liệuđọc hiểu thuộc loại span-extraction lần lượt như: KorQuAD I.0 [14], SberQuAD [15],

FQuAD [16], GermanQuAD [17].

Theo khảo sát, chúng tôi nhận thấy được các bộ dữ liệu loại multiple-choice chưathực sự được phát triển trên các ngôn ngữ nước ngoài ngọai trừ tiếng Anh Bộ đữ liệu

C3 [18], bộ đữ liệu được xem là bộ đữ liệu đọc hiểu multiple choice đầu tiên trên

tiếng Trung được Kai Sun cùng các cộng sự giới thiệu vào năm 2020 C3 chứa khoảng13.369 tài liệu bao gồm cả đối thoại hoặc nhiều văn bản kết hợp, 19.577 câu hỏi trắc

nghiệm.

Sự hòa nhập của các nước trên thế giới đã tac động rất nhiều về mọi mặt về con ngườicũng như cuộc sống Chúng ta có thể học cùng lúc nhiều ngôn ngữ, tìm hiểu về văn

hóa của các quốc gia khác Từ đó, chúng ta mới có thé hoàn thiện và biết thêm về

nhiều thứ xung quanh Vì thế trong cuộc sống ngày nay, sự hòa nhập trên nhiều lĩnhvực là điều rất quan trọng Và những bộ dữ liệu đọc hiểu cũng không ngoại lệ Quanhững khảo sát trên, chúng ta đã phần nào thấy được sự thành công của các bộ dữ

liệu trên thế giới thông qua từng loại ngôn ngữ khác nhau như tiếng Anh, tiếng Trung,

tiếng Hàn, tiếng Nga, Nhung dé liên kết và phát triển, cũng như mang lại nhữngthách thức trên nhiều khía cạnh cho các nhà nghiên cứu trên thế giới, trong những

13

Trang 39

năm gan đây các nhà khoa học đã phát triển và giới thiệu các bộ dữ liệu đọc hiểu trên

đa ngôn ngữ XQuAD [19] là bộ dit liệu đọc hiéu thuộc loại span-extraction với kích

thước lên đến 240 đoạn văn cùng với 1,190 cặp câu hỏi — câu trả lời được Artetxe

cùng các đồng nghiệp phát triển trên bộ SQuAD v1.1 kết hợp với bản dich củaSQuAD vI.1 sang 10 ngôn ngữ khác nhau: tiếng Tây Ban Nha, tiếng Đức, tiếng HyLạp, tiếng Nga, tiếng Thổ Nhĩ Kì, tiếng A Rap, tiếng Việt, tiếng Thái, tiếng Trung vàtiếng Hindi Ngoài ra, bộ dt liệu MLQA [20] cũng là bộ dữ liệu loại span-extraction

được xây dựng trên đa ngôn ngữ.

2.1.2 Công trình trong nước

Sự phát triển của bài toán MRC thúc đây sự ra đời của các bộ dữ liệu trên các tiếngnước ngoài lẫn tiếng Việt Theo những công trình mà chúng tôi khảo sát ở trên các

ngôn ngữ nước ngoài, hầu hết các bộ dữ liệu đọc hiểu được phát triển rất nhiều trên

tiếng Anh cũng như tiếng Trung Dé có thé phát triển và hoàn thiện bài toán MRCtrên tiếng Việt và thêm tiếng Việt là ngôn ngữ có ít tài nguyên về MRC vì thế trongnhững nằm gần đây, sự phát triển của các bộ dữ liệu trên tiếng Việt đang được cácnhà nghiên cứu quan tâm và đặt lên hàng đầu Thông qua quá trình khảo sát, chúngtôi nhận thấy rằng trên tiếng Việt có một số bộ dit liệu tiêu biểu như: UIT-ViQuAD

[21] UIT-ViNewsQA [22], VIMMRC [23] và ViCoQA [24].

Có lẽ bộ SQuAD trên tiếng Anh là nguồn cảm hứng cho các nhà nghiên cứu MRCtrên tiếng Việt Vào năm 2020, trên bài báo A Vietnamese Dataset for Evaluating

Machine Reading Comprehension, Nguyen và các cộng sự đã giới thiệu bộ dữ liệu

trả lời câu hỏi thuộc loại span-extraction mang tên UIT-ViQuAD 1.0 cùng với đó là

một quy trình tạo nên tập dữ liệu đọc hiểu mới dựa vào ViQuAD 1.0 [21]

UIT-ViQuAD 1.0 với hơn 23.000 cặp câu hỏi-câu trả lời do con người tao ra dựa trên

5.109 đoạn văn được trích từ 174 bài báo tiếng Việt được thu thu thập trên nguồn

Wikipeida tiếng Việt Tác giả tiến hành thử nghiệm về các phương pháp MRC hiện

đại cho tiếng Anh và tiếng Trung như những mô hình thử nghiệm đầu tiên trên ViQuAD 1.0 Không chi vậy, tác giả đã ước tính hiệu suất của con người trên tập dữliệu và so sánh nó với kết quả của các mô hình máy học UIT-ViQuAD 1.0 tạo ra

UIT-14

Trang 40

nhiều thách thức cho cộng đồng nghiên cứu với nhiều câu hỏi đòi hỏi khả năng suyluận từ nhiều câu liên kết với nhau trong một đoạn văn Cũng giống như tiếng Anh,

đúng 1 năm sau khi bộ UIT-ViQuAD 1.0 được các tác giả giới thiệu đến cộng đồng

nghiên cứu thì bộ di liệu UIT-ViQuAD 2.0 đã được ra đời UIT-ViQuAD 2.0 [25] là

tập dữ liệu đọc hiểu bao gồm các câu hỏi do các crowd-workers đặt ra từ các bài viếtWikipeida trên tiếng Việt, trong đó câu là trả lời là một khoảng văn bản được trích từ

đoạn văn tương ứng hoặc câu hỏi không thé tra loi được UIT-ViQuAD 2.0 là sự kết

hợp của hơn 23.000 câu hỏi trong UIT-ViQuAD 1.0 bởi hơn 12.000 câu hỏi không

thé trả lời được Dé có thé đạt hiệu suất cao trên UIT-ViQuAD 2.0, các hệ thongMRC không chi phải trả lời câu hỏi khi có thé mà còn phải không trả lòi với những

câu hỏi không trả lời được.

Tiếp theo sự ra đời và thành công của bộ dữ liệu đọc hiểu UIT-ViQuAD, hai bộ ditliệu khác thuộc loại span-extraction cũng được ra đời trên tiếng Việt một năm sau đó

được mang tên UIT-ViNewsQA và UIT-ViCoQA UIT-VINewsQA được Nguyen cùng các cộng sự giới thiệu với hơn 22.057 cặp câu hỏi - câu trả lời dựa trên 4.416 bài báo trên lĩnh vực sức khỏe được thu thập từ trang tin tức VNExpress UIT- ViCoQA cũng là một bộ dữ liệu trên lĩnh vực sức khỏe được Son cùng các cộng sự

giới thiệu với 10,000 câu hỏi và câu trả lời trên 2000 cuộc trò chuyện về bài báo tin

tức sức khỏe.

Không chỉ vậy, cũng giống như trên các ngôn ngữ khác, tên tiếng Việt cũng có bộ đữliệu ViMMRC thuộc loại multiple choice được Nguyen và các cộng sự phát triển vàonăm 2020 Bộ dit liệu này bao gồm 417 văn bản tiếng Việt và 2.783 cặp câu hỏi vàcâu trả lời trắc nghiệm Dữ liệu trên bộ dữ liệu được thu thập từ các văn bản tiếngViệt phù hợp cho học sinh từ lớp 1 đến lớp 5 của môn học có tên là tiếng Việt

2.2 Các mô hình liên quan

2.2.1 Phương pháp dựa vào xếp hang câu

Phương pháp dựa vào xếp hạng câu là phương pháp đầu tiên được chúng tôi sử dụng

cho bài toán đọc hiểu tự động dựa trên trích xuất câu trên tiếng Việt trên bộ dữ liệu

15

Tiêu đề	Nghiên cứu đọc hiểu tự động dựa trên cấp độ câu dành cho Tiếng Việt
Tác giả	Đỗ Nguyễn Thuận Phong, Nguyễn Duy Nhật
Người hướng dẫn	TS. Nguyễn Lưu Thuy Ngân, ThS. Nguyễn Văn Kiệt
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	115
Dung lượng	58,88 MB