Từ đó đề xuất ba hướng tiếp cận giải quyết bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt: tiếp cận theo hướng xếp hạng câu với các mô hình đặc trưng nhưBM25, Word Count; h
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TÍNH
DO NGUYEN THUAN PHONG
NGUYEN DUY NHAT
KHOA LUAN TOT NGHIEP
NGHIÊN CỨU ĐỌC HIẾU TU ĐỘNG DỰA TREN CAP
ĐỘ CÂU DÀNH CHO TIENG VIỆT
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HÒ CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
DO NGUYEN THUẬN PHONG - 18520126
NGUYEN DUY NHẬT - 18520118
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG DỰA TREN CAP
ĐỘ CÂU DÀNH CHO TIENG VIỆT
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
TS NGUYEN LƯU THUY NGÂN
ThS NGUYÊN VĂN KIỆT
TP HÒ CHÍ MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
.-ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Docc —— ~ Chủ tịch.
Qe ccc == ~ Thư ký.
“— cece eee ~ Ủy viên.
Alec cee cee ee tense nee eeneeeen eens eeneneens — Ủy viên.
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM ngày tháng năm
NHẬN XÉT KHÓA LUẬN TÓT NGHIỆP
(CUA CAN BO HƯỚNG DAN)
Tên khóa luân:
NGHIÊN CỨU ĐỌC HIẾU TỰ DONG TREN CAP ĐỘ CÂU DÀNH CHO TIENG VIỆT
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Đỗ Nguyễn Thuận Phong 18520126 TS Nguyễn Luu Thuy Ngân
Nguyễn Duy Nhật 18520118 ThS Nguyễn Văn Kiệt
Đánh gia Khóa luận
1 Vé cuôn báo cáo:
Số trang Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản pham
Một sô nhận xét vê hình thức cuôn báo cáo:
<nhận xét về định dạng, cách thức viết báo cáo, phân bố nội dung, chương mục có hợp lý
không >
Trang 5<nhận xét về kiên thức, phương pháp mà sinh viên đã tìm hiểu, nghiên cứu nhận xét wu diém
và hạn chê>
3 Về thái độ làm việc của sinh viên:
Trang 6Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cửnhân, xếp loại Giỏi/ Khá/ Trung bình
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 7ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Tên khóa luân:
NGHIÊN CỨU ĐỌC HIẾU TỰ DONG TREN CAP ĐỘ CÂU DÀNH CHO TIENG VIỆT
Nhóm SV thực hiện: Can bô phản biện:
Đỗ Nguyễn Thuận Phong 18520126 ThS Nguyễn Trọng Chỉnh
Nguyễn Duy Nhật 18520118
Đánh gia Khóa luận
1 Vê cuôn báo cáo:
Số trang Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm
Một sô nhận xét về hình thức cuôn báo cáo:
<nhận xét về định dạng, cách thức viết bdo cáo, phân bồ nội dung, chương mục có hợp lý
không >
Trang 82 Về nội dung nghiên cứu:
<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiếu, nghiên cứu nhận xét wu diém
và hạn ché>
3 Vệ thái độ làm việc của sinh viên:
<nhận xét về thái độ, wu khuyết diém của từng sinh viên tham gia>
Trang 9Đánh giá chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cửnhân, xếp loại Giỏi/ Khá/ Trung bình
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 10ĐẠI HỌC QUOC GIA TP HO CHI MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TEN DE TÀI: NGHIÊN CỨU ĐỌC HIẾU TỰ ĐỘNG DUA TREN CAP ĐỘ CÂUCHO TIENG VIET
TEN DE TAI TIENG ANH: SENTENCE EXTRACTION BASED MACHINE
READING COMPREHENSION FOR VIETNAMESE
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Nguyễn Lưu Thùy Ngân
ThS Nguyễn Văn Kiệt
Thời gian thực hiện:Từ ngày 06/09/2021 đến ngày 01/01/2022
Sinh viên thực hiện:
Đỗ Nguyễn Thuận Phong - 18520126 Lớp: KHMT2018
Email:18520126@gm.uit.edu.vn Điện thoại: 0788927163
Nguyễn Duy Nhật - 18520118 Lop: KHMT2018
Email:18520118(gm.uit.edu.vn Điện thoại: 0967524457
Nội dung đề tai:(M6 tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của dé tài)
e - Mục tiêu, phạm vi và đôi tượng của đê tai:
Trang 11Xây dựng bộ dir liệu trích xuất câu dựa trên đọc hiểu tự động trong tiếng Việt
(ViWikiQA) Đề xuất thuật toán chuyền đổi với mục đích chuyên đổi bộ dữ liệu
UIT-ViQuAD thành bộ dữ liệu UIT-ViWikiQA.
Nghiên cứu các mô hình, kỹ thuật có liên quan cho bài toán đọc hiểu văn bản tự động
Từ đó đề xuất ba hướng tiếp cận giải quyết bài toán đọc hiểu tự động dựa trên cấp độ
câu cho tiếng Việt: tiếp cận theo hướng xếp hạng câu với các mô hình đặc trưng nhưBM25, Word Count; hướng tiếp cận phân lớp với các mô hình như maLSTM, BiGRU
và hướng tiếp cận đọc hiểu tự động với các mô hình BERT, XLM-Roberta
Phân tích các loại câu hỏi trong tiếng Việt của bộ dữ liệu UIT-ViWikiQA và đánh giá
hiệu suât của các mô hình trong ba hướng tiêp cận được dé xuât trên từng loại câu hỏi.
a ^^
_
Hình 1: Quy trình nghiên cứu trích xuất câu dựa trên đọc hiểu tự động
Hình 1 cho thấy quy trình nghiên cứu đọc hiểu tự động của chúng tôi Quy trình gồmhai giai đoạn lớn là nghiên cứu và tìm ra thuật toán chuyên đổi bộ dit liệu UIT-ViQuAD
(Nguyen et al.) thành bộ dữ liệu mới (UIT-ViWikiQA) và giai đoạn thực nghiệm bộ dữ
liệu trên các mô hình máy học và đánh giá kết quả
I Xây dựng bộ dữ liệu UIT-ViWikiQA
Quá trình chuyên đôi đữ liệu của chúng tôi gôm có 3 giai đoạn: Nghiên cứu và
tìm ra thuật toán chuyền đổi, Tạo bộ dit liệu, Kiểm tra lai đữ liệu
Giai đoạn 1: Nghiên cứu và tim ra thuật toán chuyền doi
Chúng tôi tiến hành đọc và nghiên cứu về các thành phan và thông số của bộ dữliệu UIT-ViQuAD (Nguyen và các cộng sự) Sau đó tiến hành đề xuất các ý tưởng
khác nhau và vận dụng vào việc chuyển đổi thử một mẫu đữ liệu của
UIT-ViQuAD Sau đó chúng tôi chon ra thuật toán tốt nhất và độ chính xác dé chuyển
đôi chính thức Y tưởng chính của thuật toán chuyên đôi sẽ dựa vào việc tách câu
Trang 12và dựa vao các vi trí bat dau của câu trong đoạn văn va answer_start trong được
cung cấp từ bộ dit liệu UIT-ViQuAD
Giai đoạn 2: Tạo bộ dữ liệu.
Trong giai đoạn này, chúng tôi áp dụng thuật toán đã được tìm ra ở giai đoạn 1
để tiền hành chuyền đôi đồng loạt bộ đữ liệu ViQuAD thành bộ dit liệu ViWikiQA Cau trúc biểu diễn dit liệu được lưu dưới dang json bao gồm câu hỏi,
UIT-câu trả lời và đoạn văn chứa nội dung trả lời cho UIT-câu hỏi Bảng 1 cho thấy ba ví
dụ minh họa cho dir liệu.
1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi
nghỉ hưu năm 1987 Trước đó ông từng giữ chức vụ Thủ tướng Chính
phủ Việt Nam Dân chủ Cộng hòa từ năm 1955 đến năm 1976 Ông là
vị Thủ tướng Việt Nam tại vị lâu nhất (1955— 1987) Ông là học trò,
cộng sự của Chủ tịch Hồ Chí Minh Ông có tên gọi thân mật là Tô, đây
từng là bí danh của ông Ông còn có tên gọi là Lâm Bá Kiệt khi làmPhó chủ nhiệm cơ quan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học
Lãm).
hội chủ nghĩa Việt Nam?
Phạm Văn Đồng (1 tháng 3 năm 1906 — 29 tháng 4 năm 2000) là Thủtướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm
1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi
nghỉ hưu năm 1987.
Tên gọi nào được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm cơ
quan Biện sự xứ tại Quê Lâm?
Trang 13Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm).
Bang 1: Ví dụ về dit liệu của bộ dữ liệu UIT-ViWikiQAGiai đoạn 3: Kiểm tra lai dữ liệu
Nhằm cung cấp một bộ dữ liệu cho cộng đồng nghiên cứu nên việc cung cấp một
bộ dữ liệu chuẩn, chính xác và sạch là điều cần thiết Vì thế sau khi hoàn thành
bộ dit liệu chúng tôi tiến hành rà soát lại tat cả các mẫu dữ liệu theo phương pháp
tự động Chúng tôi kiểm tra lại các vị trí bắt đầu của câu trả lời (answer_start)xem đã chuân và chính xác hay không
2 Thực hiện giải quyết bài toán với các mô hình
2.1 Bài toán:
Bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt
Đầu vào: Đoạn văn và câu hỏi liên quan đến nội dung của đoạn văn
Đâu ra: Câu trả lời tương ứng cho câu hỏi (câu trả lời là một câu trong đoạn văn).
Ví dụ:
Đâu vào:
Đoạn văn: Phạm Văn Đồng (1 tháng 3 năm 1906 — 29 tháng 4 năm 2000) làThủ tướng đầu tiên của nước Cộng hòa Xã hội chủ nghĩa Việt Nam từ năm
1976 (từ năm 1981 gọi là Chủ tịch Hội đồng Bộ trưởng) cho đến khi nghỉ hưu
năm 1987 Trước đó ông từng giữ chức vụ Thủ tướng Chính phủ Việt Nam
Dân chủ Cộng hòa từ năm 1955 đến năm 1976 Ông là vị Thủ tướng Việt Namtại vị lâu nhất (1955—1987) Ông là học trò, cộng sự của Chủ tịch Hồ ChíMinh Ông có tên gọi thân mật là Tô, đây từng là bí danh của ông Ông còn
có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơ quan Biện sự xứ tại QuếLâm (Chủ nhiệm là Hồ Học Lãm)
Câu hỏi: Tên gọi nao được Phạm Văn Đồng sử dụng khi làm Phó chủ nhiệm
cơ quan Biện sự xứ tại Quê Lâm?
Trang 14Đầu ra:
Câu trả lời: Ông còn có tên gọi là Lâm Bá Kiệt khi làm Phó chủ nhiệm cơquan Biện sự xứ tại Quế Lâm (Chủ nhiệm là Hồ Học Lãm)
2.2 Phương pháp giải quyết bài toán
Đối với bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt, chúng tôi
đề xuất ba phương pháp tiếp cận giải quyết bài toán: tiếp cận dựa trên xếp hạng
câu, tiép cận dựa trên phân loại va tiêp cận dựa trên đọc hiệu tự động.
i) Tiép cận dựa trên xêp hang câu.
Đối với hướng tiếp cận dựa trên xếp hạng câu, khi nhận đầu vào là đoạn văn
và câu hỏi Chúng tôi tiến hành tách câu đối với đoạn văn khi đó nhận được
một danh sách các câu của đoạn văn S= (s 1,s 2 s n) đối với đoạn gồm n
câu Sau đó chúng tôi sử dụng các mô hình tính độ tương đồng giữ s ¡(0<i<(n+1)) với câu hỏi Các mô hình chúng tôi sử dụng bao gồm WordCount, BM25 Vậy kết quả của bài toán là câu s_¡ có độ tương đồng với câu
hỏi cao nhât.
Trang 15ii) Tiếp cận dựa trên phân lớp
Tương tự hướng tiếp cận xếp hang câu, chúng tôi tách câu đổi với đoạn văn
và thu được một danh sách các câu S= (s_1,s 2 s n) đối với đoạn văn gồm
n câu Sau đó, chúng tôi sử dung mô hình phan lớp với đầu vào là một câu Si
và câu hỏi Q Và đầu ra của mô hình phân lớp là nhãn 0 và 1 với ý nghĩa tương
ứng là 1 khi câu s_i mang nội dung trả lời cho câu hỏi Q và ngược lại nhãn 0
là câu không mang nội dung trả lời Mô hình được chúng tôi sử dụng đối với
hướng tiếp cận này là Manhattan LSTM (maLSTM) và BiGRU
Manhattan LSTM (maLSTM) (đề xuất bởi Jonas và Aditya): The modelmaLSTM là một sự chuyên đổi của mô hình LSTM dé phù hợp hơn với dạng
dữ liệu gồm những cặp câu, điều đó đồng nghĩa với việc nó hoàn toàn phủ
hợp với bộ dữ liệu UIT-ViWikiQA khi đầu vào sẽ là một câu hỏi và một câu
trong đoạn văn thì khi đó mô hình dự đoán ra 1 sẽ có nghĩa là câu đó có khả
năng trả lời cho câu hỏi tương ứng, ngược lại dự đoán ra 0 sẽ là câu hỏi đó
Câu hỏi Câu †rong đoạn văn
Hình 3: Kiến trúc mô hình maLSTM
iii) Tiếp cận dựa trên đọc hiểu tự động
Trang 16Đối với hướng tiếp cận dựa trên đọc hiéu tự động chúng tôi áp dung các mô
hình tương tự các bài toán đọc hiểu tự động Khi đó mô hình đọc hiểu nhậnđầu vào là đoạn văn và câu hỏi; đầu ra là câu trả lời mà mô hình trích xuất
Các mô hình được chúng tôi sử dụng đối với hướng tiếp cận này là QANet
(Yu et al), BERT (Devlin và các cộng sự), XLM-Roberta (Conneau và các cộng sự).
XLM-Roberta (Conneau và các cộng sự): XLM-R là một phương pháp tốt
dé được dao tạo trước các mô hình đa ngôn ngữ trên quy mô lớn, dẫn đến tăng
hiệu suất đáng kế cho hàng loạt các nhiệm vụ Mô hình này cũng vượt trộihơn hoàn toàn so với mô hình đa ngôn ngữ BERT (mBERT) trên nhiều tác vụ
xử lý ngôn ngữ tự nhiên Do đó chúng tôi áp dụng mô hình cho việc đánh hiệu
suất cho bộ dit liệu UIT-ViWikiQA để bộ dit liệu được tiếp cận với các mô
Trang 172.3 Thông số đánh giá
Dé đánh giá hiệu suất của các mô hình, chúng tôi sử dụng hai thông số tương tựthông số được sử dụng đánh giá cho bộ dữ liệu UIT-VIQuAD và bộ dữ liệuSQuAD (Rajpurkar và các cộng sự) là F1-Score và EM Đối với một cặp câu gồm
câu trả lời được mô hình dự đoán và câu trả lời chính xác Khi đó EM nhận giá
trị là 1 khi câu được dự đoán và câu trả lời chính giống nhau hoàn toàn và ngược
lại EM nhận gia tri là 0 F1-Score đo lượng sự trùng lặp giữa câu câu dự đoán và câu trả lời chính xác.
¢ - Kết quả mong đợi của đề tài
Tạo ra được bộ dữ liệu chuyển đổi cho bài toán đọc hiểu văn bản tự động trên cấp độ
câu đối với tiếng Việt (UIT-ViWikiQA) từ bộ dữ liệu UIT-ViQuAD
Đề xuất ba phương pháp tiếp cận cho bài toán đọc hiéu tự động dựa trên cấp độ câu cho
tiếng Việt (Hướng tiếp cận dựa trên đọc hiểu, Hướng tiếp cận dựa trên phân loại , Hướng
tiếp cận dựa trên xếp hạng) Mỗi phương pháp tiếp cận sử dụng các mô hình đánh giákhác nhau: Hướng tiếp cận dựa trên đọc hiểu tự động (QANet, PhoBERT, XML-Roberta), Hướng tiếp cận dựa trên phân loại (maLSTM, BiGRU), Hướng tiếp cận dựatrên xếp hạng (Word Count, BM25)
Phân tích hiệu suât của từng mô hình trên môi loại câu hỏi khác nhau và làm rõ đặc diém
và nguyên nhân gây ra sự ảnh hưởng.
« Tai Liệu tham khảo
1 Conneau, Alexis, Kartiky Khandelwal, Naman Goyal, Vishrav Chaudhary,
Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov 2020 “Unsupervised Cross-lingual
Representation Learning at Scale.” 2020.
2 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova 2019.
“BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding.” 2019.
Trang 183 Jonas, Mueller, and Thyagarajan Aditya 2016 “Siamese Recurrent Architectures
for Learning Sentence Similarity.” Proceedings of the AAAI Conference on Artificial Intelligence 30.
4 Nguyen, Kiet V., Vu D Nguyen, Anh G Nguyen, and Ngan L Nguyen 2020.
“A Vietnamese Dataset for Evaluating Machine Reading Comprehension.” 2020.
5 Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy Liang 2016.
“SQuAD: 100,000+ Questions for Machine Comprehension of Text.” 2016.
6 Yu, Admas W., David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen,
Mohammad Norouzi, and Quoc V Le 2018 “QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension.” 2018.
Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
« M6 tả tóm tắt kế hoạch làm việc: Kế hoạch làm việc được chúng tôi thực hiện chi
¬ “ms um Thang
12
Tìm hiểu tổng quan va khảo sát đề tài
Tìm thuật toán và tạo bộ dữ liệu
tiết trong bảng sau:
thiện
Báo cáo
Trang 19e Phan công công việc cho từng thành viên:
Công việc Đỗ Nguyễn Thuận | Nguyễn Duy
Phong Nhật
Khảo sát bai toán va tìm hiểu tong quan
Tìm kiếm và thử nghiệm thuật toán chuyên
đôi bộ đữ liệu
Kiểm tra bộ đữ liệu
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 20MỤC LỤC
Chương 1 TONG QUAN 22- 52 SE EEEE2E12E1521271711211211211 111121211 cxe 8
In Dinh nghia bal toa oo ec a 8 1.2 Tinh ứng dụng của bài toán - - c1 3211211191111 111111111 11111181 ray 9
143 Kếtluận nh nghi 10Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 11
2.1 Cac bộ dữ liệu liên quan - - c2 2321336113311 111 11111 re 11
2.1.1 _ Công trình trên thé giới : -¿©-+¿©+++2++2E+tEESExrzrxerxeerkrrrkee 11
2.1.2 Cong trình trong ƯỚC - -.- Gv TH ng nh nành 14
2.2 Các mô hình liên quañ - - 2c 3221322332113 13 1 EEEEEEErrrrrrerkrsrke 15
2.2.1 Phương pháp dựa vào xếp hạng câu - 2 2 z+se+xezxerszrszsee 15
2.2.2 Phuong pháp dựa vào phân loại - + Sc + *+x+etxsesseresrsses 16
2.2.3 Phương pháp đọc hiểu tự động - ¿2 s+cs+E++EzEeExeExerxrrerree 17
XI NN(G) nh s5 Ò VỀ /@ể/ Ẳ—~ 18Chương 3 QUÁ TRÌNH CHUYEN DOI VA TONG QUAN VỀ BỘ DU LIEU
UIT-ViWikiQa ccceccceccesscessesssesssessesssesssessesssessesssesssessesssesssessesasessustiesssessesssesssesseeees 19
3.1 Quá trình chuyển đối bộ dữ LGU ccc eseseseesessessesesteseesessestesesees 19
3.1.1 Thuật toán chuyên đôi bộ dit liệu -2-252+cx+zx+zxczEzrsrred 193.1.2 Kiếm tra chất lượng bộ dữ liệu - - 55 251 *+ysErsereersrrreres 22
3.2 Phân tích bộ dữ liệu UIT-ViWikiQA ©5225c22cc2xcccxcrrerkerrees 23
3.2.1 Tổng quan về bộ dit liệu UIT-ViWikiQA 2-55ccscsccce2 23
3.2.2 Phan tích UIT-ViWikiQA theo loại câu hỏi - - 5-55: 24 3.2.3 Phân tích UIT-ViWikiQA theo loại suy luận -.‹- 5-55: 28
3.3 Kết luận c St St TT 111111 15111111111111111151211111111E1EEEEEttke 32
Trang 21Chương 4 CÁC HƯỚNG TIẾP CAN VÀ MÔ HÌNH GIẢI QUYÉT BÀI TOÁN
33
4.1 Hướng tiếp cận dựa trên phương pháp xếp hạng - 2-55: 33
4.1.1 Tổng quan -5++S2+EEE 2E E2E1211211111211211 211111 E1.xe 33
5.3 Kết quả thử nghiệm -2-©2¿22+22E22EE22E221221E271 211221 221z xe, 495.4 Phân tích kết quả ¿-©2¿+2++22E2EE2EE22112712212211271 211221 xe, 51
5.4.1 Tac động của tính chat ngữ cảnh - 2 2 s+cx+£EczEzEzrxsrxered 51
5.4.2 Tac động của các yếu tố dựa trên loại câu hỏi s- ccxscszxccez 53
5.4.3 Tac động của các yếu tố dựa trên loại suy luận - -+2 5S
Chương 6 KẾT LUẬN VÀ HUONG PHAT TRIÊN 2-5s+cz+cz+xzez 58
6.I Kết luận c 22tr 586.2 Hạn ché voeeccccccccccceccececscsesecscsesecsesessucsesvsucecsceveucacsvseacacavsucacevsvsusacavseaceesvees 59
Trang 226.3. Hướng phát triển
Trang 23DANH MỤC HÌNH VẾ
Hình 3.1: Phân bố các loại câu trên tập phát triển của UIT-ViWikiQA 26Hình 3.2: Phân bố của các loại câu hỏi trên tập kiểm tra của UIT-VIWIKIQA 26Hình 3.3: Phân bố các loại câu hỏi và từ dé hỏi trong tập phát triển và kiểm tra của
UIT-VIWIKIQA 01 28
Hình 3.4: Phân bố các loại suy luận có trong tập phát triển của UIT-VïWikiQA 31Hình 3.5: Phân bố các loại suy luận có trong tập kiêm tra của UIT-ViWikiQA 31Hình 4.1: Kiến trúc mô hình theo hướng tiếp cận xếp hạng 5: 52 52 34Hình 4.2: Kiến trúc mô hình theo hướng tiếp cận phân loại 5: 5z 52 36Hình 4.3: Kiến trúc mô hình LSTM - -¿ ©2+c¿22vvtttExxtrrtrrrtrrrrrrrrrrrrrk 37Hình 4.4: Kiến trúc mô hình MaLSTM - 5: 55cc22tvtiertrirrrrrrrsrrrrrrrrree 39Hình 4.5: Kiến trúc mô hình theo hướng tiếp cận đọc hiểu tự động 41Hình 4.6: Kiến trúc mô hình XLM-Roberta .c.cccccccsccssessessesessssessessessessesessessesseees 42Hình 5.1: Biểu diễn trùng lặp token giữa câu tra lời đúng và câu trả lời được dự đoán
Hình 5.2: Hiệu suất của các mô hình đối với các loại câu hỏi khác nhau của tập pháttriển và được đánh giá trên EM và F Ï~§COF€ 2-2 2S +E+EE£EE2EE2EZEerEerxersrree 53
Hình 5.3: Hiệu suất của các mô hình đối với các loại suy luận khác nhau trên tập phát
triển và được đánh giá trên Fl-score và EM ¿ s¿©-++2+z+2x2zxerxesrxrsrsees 55
Trang 24DANH MỤC BANG
Bảng 1.1: Ví dụ về bai toán đọc hiểu dựa trên trích xuất câu cho tiếng Việt 9Bảng 3.1: Thống kê tổng quan về bộ dữ liệu UIT-ViWikiQA - 24
Bảng 3.2: Các loại câu hỏi trong bộ dữ liệu ULT-VIWIkIQA - c c2 25
Bang 3.3: Các loại suy luận có trong bộ dit liệu UIT-VIWIkIQA - 30
Bảng 5.1: Hiệu suất của các mô hình được đánh giá trên tập phát triển và tập kiếm
CA eee 49
Bang 5.2: Hiệu suất của các mô hình MRC trên UIT-ViWikiQA và phiên bản xáo
Ò900ì8:LIÍNƯHIađaiaadiẳ 52
Trang 25DANH MỤC TỪ VIET TAT
STT Từ viết tắt Ý nghĩa
1 NLP Natural Language Processing
2 MRC Machine Reading Comprehension
3 QA Question Answering
4 BERT Bidirectional Encoder Representations from
Transformers
5 LSTM Long Short Term Memory
6 BiLSTM Bidirectional Long Short Term Memory
7 MaLSTM Manhattan Long Short Term Memory
8 EM Exact Match
Trang 26thế, trong khoá luận này chúng tôi đã đề xuất một bộ đữ liệu đọc hiểu dưa trên cấp
độ câu trên ngôn ngữ tiếng Việt (UIT-ViWikiQA) được lấy từ các các bài báo trêntrang Wikipedia! thông qua bộ dữ liệu UIT-ViQuAD 1.0 và thuật toán chuyển déi dochúng tôi đề xuất Chúng tôi mong muốn bộ dữ liệu của mình sẽ góp phần làm phong
phú và đa dang hơn cho tài nguyên của bài toán đọc hiểu tự động trên tiếng Việt
Ngoài ra, dé hiểu rõ hơn về bài toán đọc hiểu tự động dựa trên cấp độ câu trên tiếng
Việt cũng như bộ dữ liệu UIT-ViWikiQA, chúng tôi cũng thống kê một vài số liệu
về kích thước của bộ dữ liệu về số lượng bài báo, đoạn văn, câu hỏi vả từ vựng cũng
như phân tích về loại câu hỏi cùng với sự đa dạng về từ dé hỏi, các loại suy luận củatập câu hỏi có trong bộ dit liệu UIT-ViWikiQA Chúng tôi đề xuất ba hướng tiếp cận
để đánh giá bài toán đọc hiểu tự động dựa trên cấp độ câu trên tiếng Việt: hướng tiếpcận dựa trên trích xuất câu, hướng tiếp cận dựa trên phương pháp phân loại và hướngtiếp cận dựa trên phương pháp đọc hiểu tự động Sau một loạt các thử nghiệm củachúng tôi, chúng tôi rút ra được mô hình XLM-Riarge+BiLSTM ở phương pháp tiếp
cận dựa trên đọc hiệu tự động cho kết quả cao nhất với F1-score là 93.95% và EM la91.79% trên tập phát triển và F1-score là 93.88% và EM là 91.86% trên tập kiểm tra
Bên cạnh đó chúng tôi cũng phân tích và nhận thấy răng các mô hình theo hướng tiếpcận đọc hiểu tự động chịu ảnh hưởng của ngữ cảnh và đối với các loại câu hỏi khác
nhau thì các mô hình có các hiệu suất trung bình khác nhau và các mô hình có hiệusuất thấp hơn ở các loại câu hỏi khó Why , How và các loại câu hỏi có từ dé hỏi đa
dạng như What, Where Ngoài ra, chúng tôi phân tích trên loại suy luận của câu hỏi
thì các mô hình có hiệu suât giảm dân khi các câu hỏi có tính suy luận khó dân lên
1 https://vi.wikipedia.org/
Trang 27như các mô hình đạt hiệu suất cao ở loại suy luận Word Matching và hiệu suất thấp
nhất ở loại suy luận Multi-sentence Matching Cuối cùng, chúng tôi đề xuất một vài
hướng phát triển ở tương lai cho bài toán đọc hiểu tự động dựa trên trích xuất câu trên
tiếng Việt
Trang 28MO DAU
Dat van dé
Hiện nay, với sự phát triển mạnh mẽ của trí tuệ nhân tạo cũng như khoa học côngnghệ kỹ thuật kéo theo số lượng người truy cập vào các trang mạng xã hội cũng nhưcác nén tảng trực tuyến ngày càng nhiều và gia tăng đáng ké theo từng ngày Việcngười dùng tra cứu thông tin thông qua các nền tảng trực tuyến có lẽ không còn xa lạvới chúng ta nhất là trong thời đại trí tuệ nhân tạo nói chung và các mô hình máy họcnói riêng dang được áp dung rất nhiều xung quanh cuộc sống hiện nay Để có thé
cung cấp thông tin một các chính xác cho người dùng thì các nền tảng trực tuyến đòi
hỏi phải có đữ liệu liên quan đến rất nhiều chủ đề, từ đó áp dụng vào vài bài toán đọchiểu tự động
Bài toán đọc hiểu tự động là nhiệm vụ đang thu hút rất nhiều sự chú ý và được ứngdụng trên nhiều lĩnh vực như: kinh doanh, sức khỏe, giáo dục, Chúng tôi nhận thấyrằng trên thé giới hiện nay có nhiều bộ đữ liệu kích thước lớn và chất lượng tốt cho
các nghiên cứu về lĩnh vực xử lý ngôn ngữ tự nhiên và cụ thể là nhiệm vụ MRC,
nhưng thực trạng là các bộ dữ liệu đó được tập trung chủ yếu phát triển trên các loạingôn ngữ như tiếng Anh, tiếng Trung Trong khi đó, trên tiếng Việt thì quá ít tàinguyên về các bộ dữ liệu để phục vụ các bài toán MRC Vì thế, trong khóa luận này,
chúng tôi đề xuất một bộ dữ liệu dựa trên cấp độ câu cho tiếng Việt (UIT-ViWikiQA) dé có thể áp dụng cho bài toán đọc hiểu tự động dựa trên cấp độ câu cho tiếng Việt
Bảng 1.1 là một số ví dụ cho bài toán đọc hiểu tự động dựa trên cáp độ câu do chúng
tôi đề xuất Với đầu vào của bài toán là một đoạn văn và câu hỏi tương ứng, đầu ra làmột câu chứa câu trả lời cho câu hỏi đó được trích xuất từ đoạn văn Với đầu ra như
vậy, chúng tôi muốn hướng đến một câu trả lời cung cấp đầy đủ thông tin xung quanh
câu hỏi của người dùng thay vi chỉ tập trung đúng vao câu trả lời cho câu hỏi đó.
Mục tiêu khoá luận tốt nghiệp
Trang 29Mục tiêu của khoá luận tốt nghiệp này là nghiên cứu bài toán đọc hiểu tự động dựatrên cấp độ câu cho tiếng Việt Dé làm được điều này chúng tôi tập trung vào các mục
tiêu chính sau đây:
e Xây dựng một bộ di liệu UIT-ViWikiQA phục vụ cho bai toán đọc hiểu tự
động trên cấp độ câu Ngoài ra, chúng tôi cũng phân tích tong quan về bộ ditliệu và phân tích chi tiết dé có cái nhìn toàn cảnh và sâu sắc về bộ đữ liệu trênnhiều khía cạnh ngôn ngữ khác nhau
e Giới thiệu ba hướng tiếp cận cho bai toán đọc hiểu tự động dựa trên cấp độ
câu cho tiếng Việt: hướng tiếp cận dựa trên xếp hạng, hướng tiếp cận dựa trênphân loại, hướng tiếp cận dựa trên đọc hiểu tự động
e_ Triển khai các mô hình theo ba hướng tiếp cận bên trên với bộ dữ liệu của
chúng tôi.
e Tiến hành phân tích đánh giá làm rõ ngữ cảnh, các loại câu hỏi, cũng như
những câu hỏi đòi hỏi sự suy luận đều có tác động đến hiệu suất các mô hình
trong hướng tiếp cận đọc hiéu tự động
Đôi tượng và phạm vỉ nghiên cứu
Vệ giới hạn nghiên cứu, chúng tôi chủ yêu tập trung vào các vân dé sau:
o Xây dụng bộ dir liệu đọc hiéu tự động trên cap độ câu dành cho tiêng
Việt với nguôn gôc lây từ các bài báo của Wikipedia.
o Giới thiệu ba hướng tiêp cận khác nhau phục vụ cho việc giải quyết bai
toán đọc hiệu tự động trên cap độ câu.
Trang 30o_ Triển khai các mô hình tiên tiến trên ba hướng tiếp cận khác nhau và
được triển khai trên bộ đữ liệu của chúng tôi
o Phân tích về bộ dit liệu một cách tong quan và chuyên sâu dé có những
đánh giá sâu sắc nhất về hiệu suất của các mô hình trên nhiều khía cạnh
ngôn ngữ.
Kêt quả nghiên cứu
Qua nghiên cứu này, chúng tôi đạt được một số kết quả như sau:
Xây bộ dữ liệu UIT-VIWIkIQA từ bộ dữ liệu UIT-ViQuAD thông qua thuật
toán chuyển đổi do chúng tôi đề xuất Bộ đữ liệu UIT-ViWikiQA là bộ dữ liệu
đầu tiên phục vụ cho bài toán đọc hiểu tự động trên cấp độ câu dành cho tiếng
Việt Chúng tôi mong muốn đóng góp và làm đa dạng hơn nguồn dit liệu chobài toán đọc hiéu tự động trên tiếng Việt Bộ dit liệu được xây dung từ 174 bàibáo của trang Wikipedia dé từ đó tạo ra hon 23,000 cặp câu hỏi-câu trả lời
Chúng tôi đề xuất ba hướng tiếp cận cho việc giải quyết bài toán đọc hiểu tự
động trên cấp độ câu dành cho tiếng Việt bao gồm: Hướng tiếp cận dựa trên
xếp hạng, Hướng tiếp cận dựa trên phân loại và Hướng tiếp cận dựa trên đọchiểu tự động
Chúng tôi trién khai nhiều mô hình khác nhau dựa trên ba hướng tiếp cận đượcchúng tôi giới thiệu bên trên bao gồm: Word Count, BM25 (Hướng tiếp cận
dựa trên xếp hạng), MaLSTM, BIGRU (hướng tiếp cận dựa trên phân loại),
QANet, DrQA, WikiBERT, mBERT, ALBERT, PhoBERT, XLM-Roberta
(hướng tiếp cận dựa trên đọc hiểu tự động) Trong đó, mô hình
XLM-Riarge+BiLSTM dat hiệu suất cao nhất với Fl-score và EM trên tập phát triển
lần luợt là 93.95% và 91.79% và trên tập kiểm tra lần lượt là 93.88% và
Trang 31hình trên các loại câu hỏi khác nhau, trên các loại suy luận khác nhau Và
chúng tôi phân tích sự ảnh huong của tinh chat ngữ cảnh lên các mô hình dựa trên đọc hiéu tự động.
Cau trúc khoá luận
Khoá luận gôm 6 chương với các nội dung chính như sau:
e Chương 1: Tổng quan
Trong chương nay, chúng tôi giới thiệu về bài toán đọc hiểu tự động trên cấp độ câu.Giới thiệu về lý do thực hiện đề tài và tính ứng dụng của đề tài và khả năng ứng dụng
thực tê của đê tài.
e Chương 2: Các công trình nghiên cứu liên quan
Ở chương này, chúng tôi thực hiện khảo sát về các công trình liên quan đến MRC.Chúng tôi khảo sát về các bộ dữ liệu MRC có trên các ngôn ngữ như tiếng Anh, Hàn,Trung và các bộ dữ liệu trên tiếng Việt Sau đó, chúng tôi khảo sát về các mô hìnhphục vụ cho việc giải quyết bài toán MRC trên nhiều hướng tiếp cận khác nhau
e_ Chương 3: Quá trình chuyên đổi và tổng quan về bộ dữ liệu UIT-ViWikiQA
Chúng tôi trình bày về công việc tạo ra bộ dữ liệu ViWikiQA từ bộ dữ liệu ViQuAD thông thuật toán chuyên đổi do chúng tôi đề xuất Sau đó chúng tôi thựchiện thông kê một số chỉ tiết cho bộ dữ liệu UIT-ViWikiQA như số câu hỏi, số đoạnvăn, số từ Sau đó, chúng tôi phân tích thêm về loại câu hỏi, sự đa dang từ dé hỏi và
UIT-tính suy luận của câu hỏi đê có cái nhìn sâu sắc về bộ dữ liệu.
e Chương 4: Các hướng tiếp cận và mô hình giải quyết bài toán
Ở chương này, chúng tôi trình bày về ba hướng tiếp cận cho phép giải quyết bài toánđọc hiểu tự động trên cấp độ câu: hướng tiếp cận dựa trên xếp hạng, hướng tiếp cận
dựa trên phân loại và hướng tiếp cận dựa trên đọc hiéu tự động Sau đó tại mỗi hướng
tiếp cận được chúng tôi giới thiệu về một mô hình tiêu biểu để có cái nhìn cụ thể hơn
về mỗi hướng tiếp cận
e Chương 5: Cài đặt, thử nghiệm và đánh gia
Trang 32Chúng tôi thực hiện triển khai các mô hình theo ba hướng tiếp cận đã được chúng tôi
giới thiệu trên bộ dữ liệu UIT-ViWikiQA và các mô hình được đánh giá trên hai
thông số bao gồm: F1-score và EM Bên cạnh đó, chúng tôi cũng phân tích hiệu suất
cuả các mô hình trên các khía cạnh ngôn ngữ như: loại câu hỏi khác nhau, tính đa
dang của từ dé hỏi, hay tính suy luận của câu hỏi Ngoài ra chúng tôi cũng phân tích
về sự ảnh hưởng của yếu tô ngữ cảnh đối với các mô hình theo hướng tiếp cận dựa
trên đọc hiểu tự động
e Chương 6: Kết luận và hướng phát triển
Tại chương cuối cùng, chúng tôi kết luận về những kết quả mà chúng tôi đã đạt đượcthông qua khoá luận tốt nghiệp này Ngoài ra, chúng tôi cũng chỉ ra những điểm hạn
chế và đề xuất các ý tưởng nghiên cứu trong tương lai để phát triển đề tài này
Trang 33Chương 1 TONG QUAN
1.1 Dinh nghĩa bài toán
Bài toán đọc hiểu tự động Machine Reading Comprehension (MRC) là một trong
những bai toán thu hut được sự chú ý của các nhà nghiên cứu trong lĩnh vực xử lí
ngôn ngôn ngữ tự nhiên — Natural Language Processing (NLP) trên toàn thế giới
MRC là nhiệm vụ của con người giúp cho máy tinh đọc hiểu văn ban và trả lời những
câu hỏi liên qua đến văn bản đó Đối với mỗi con người chúng ta, việc đọc hiểu vănban và trả lời câu hỏi đôi khi tưởng chừng đơn giản nhưng cũng có thé gặp rất nhiềukhó khăn nếu thông tin văn bản quá nhiều câu hỏi liên quan đến văn bản đòi hỏi sự
suy luận cao Vì thế, MRC có thể xem là một nhiệm vụ gây ra rất nhiều thách thức
trên máy tinh va bai toán đọc hiểu văn bản tự động dựa trên bộ dữ liệu MRC trên cấp
độ câu trên tiếng Việt (UIT-ViWikiQA) được chúng tôi giới thiệu cũng không ngoại
ứng với nội dung đoạn văn Dau ra (output) của bài toán là một câu đ; trong đoạn văn
D chứa nội dung trả lời cho câu hỏi Q Một số ví dụ về đoạn văn, câu hỏi và câu trả
lời được thê hiện thông qua Bảng 1.1
Edward I (17/18 tháng 6 1239 — 7 tháng 7 1307), còn được gọi lav
Edward Longshanks và Kẻ đánh bại người Scots (Latin: Malleus
Scotorum), là Vua của Anh từ 1272 đến 1307 Là trưởng tử của
Đoạn văn | Henry III, Edward có dính liu đến những âm mưu chính trị dưới
thời phụ hoàng, bao gồm cả cuộc nồi dậy của các nam tước Năm
1259, ông tham gia vào phong trào cải cách của các nam tước trong
một thời gian ngắn, ủng hộ Điều khoản Oxford Tuy nhiên, sau khi
Trang 34hòa giải với phụ thân, ông lại đứng về phía hoàng gia trong cuộc
xung đột vũ trang sau đó, được gọi là Chiến tranh Nam tước lần
thứ hai Sau trận Lewes, Edward bị các nam tước nồi loạn bat làmcon tin, song ông trốn thoát sau vài thang và tham gia vào cuộc
chiến chống lại Simon de Montfort Montfort bị đánh bại trại trận
Evesham năm 1265, và trong vòng hai năm tiếp theo cuộc nồi dậy
bị đẹp tan Nền hòa bình tái lập ở nước Anh, Edward lại tham giaCuộc Thập tự chinh thứ chín vào vùng Đất Thánh Cuộc Thập tựchinh kết thúc sau một thời gian ngắn, và Edward đang trên đường
trở về quê hương năm 1272 khi ông nhận được tin phụ vương đã
băng hà Trở về một cách chậm chạp, ông đặt chân tới Anh quốc
năm 1274 và làm lễ gia miện tại Westminster ngày 19 tháng 8.
Dưới thời Henry III, Edward I đã làm những việc làm “tai tiếng"
Câu héi2 | Năm 1259, Edward đã có hành động gi chống đối lại phụ hoàng?
Năm 1259, ông tham gia vào phong trào cải cách của các nam tước
Câu trả lời 2 " ,
-trong một thời gian ngăn, ủng hộ Điêu khoản Oxford.
Bảng 1.1: Ví dụ về bài toán đọc hiểu dựa trên trích xuất câu cho tiếng Việt.
1.2 Tính ứng dụng của bài toán
Bài toán đọc hiểu văn bản có những ứng dụng rộng rãi trong nghiên cứu cũng như
trong cuộc sống của chúng ta nhất là trong thời đại 4.0 cùng với sự phát triển của
khoa học ki thuật hiện đại.
e Cáchệ thong doc hiéu tu động cũng có thé được tích hợp vào nên tảng Chatbot,
hay các ứng dụng trợ lý ảo (Virtual assistant) như Siri của Apple, Cortana của
Trang 35Microsoft, Google Assistant, Bixby của Samsung , hệ thong tìm kiếm thôngminh như Google, Yahoo, Bing nhằm hỗ trợ giải đáp thắc mắc, tìm kiếmthông tin cho con người trên nhiều lĩnh vực khác nhau Giúp con người tiếtkiệm thời gian tìm kiếm thông tin mà vẫn biết được chính xác thông tin cầntìm kiếm.
e Là nền tảng để xây dựng hệ thống giao tiếp tự động (chatbot) trong doanh
nghiệp các lĩnh vực như: y tế, tài chính, giáo dục, Qua đó giúp tiết kiệm chiphí và nhân sự cho việc thuê người dé trả lời câu hỏi người dùng qua tong daitrực tuyến
Ngoài những ứng dụng trên, bài toán đọc hiểu tự động dựa trên trích xuất câu do
chúng tôi đề xuất còn có những ứng dụng khác như:
e Được ứng dụng vào trong các hệ thông hỏi đáp nhưng cung cấp đầy đủ thông
tin hơn về câu trả lời cho người dùng, giúp người dùng hiểu rõ hơn về thông
tin mà họ quan tâm.
e_ Cung cấp tài nguyên đầu tiên cho dit liệu doc hiểu văn ban dựa trên trích xuất
câu cho tiếng Việt
e Lanén tang dé có thé xây dung và cai thiện các bai toán đọc hiểu tự động khác
cũng như các bài toán thuộc lĩnh vực Xử lí ngôn ngữ tự nhiên trên tiếng Việt
Trang 36Chuong 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Sự ra đời và phát triển của các bộ dữ liệu dé phục vụ cho các hệ thống QuestionAnswering (QA) cũng như các hệ thống Machine Reading Comprehension (MRC)
ngày càng phô biến va đa dang về ngôn ngữ cũng như kích thước của bộ dữ liệu Mat
khác, dé có thé phát triển hệ thống QA cũng như các hệ thống MRC, các nhà nghiêncứu đã đề xuất rất nhiều phương pháp cho hiệu suất cao Hơn thế nữa, bộ đữ liệu UIT-ViWikiQA là bộ dữ liệu MRC dựa trên cấp độ câu đầu tiên dành cho tiếng Việt đượcchúng tôi đề xuất và đánh giá trên ba hướng tiếp cận: xếp hạng câu, phân loại, và đọchiểu tự động Vì thé trong chương này, chúng tôi đã tiến hành khảo sát hàng loạt cáccông trình công bố bộ đữ liệu trên thế giới và trong nước cũng như một số mô hìnhtrên từng phương pháp tiếp cận bài toán dé có cái nhìn tổng quát hơn về bộ dit liệuUIT-ViWikiQA và các phương pháp dé giải quyết bài toán đọc hiểu dựa trên cấp độ
A
cau.
2.1 Cac bộ dữ liệu liên quan
2.1.1 Công trình trên thế giới
Phần lớn các bộ dữ liệu đọc hiểu được phát triển trên tiếng Anh — ngôn ngữ phổ biếnnhất trên thế giới hiện nay Trên tiếng Anh, khi nhắc đến bài toán MRC, chúng takhông thé không nhắc đến bộ di liệu SQUAD [1] Vào năm 2016, Rajpurkar và cộng
sự đã công bố bộ dit liệu SQUAD cùng với các quy trình xây dựng chặt chẽ dé taonên bộ dit liệu MRC có chất lượng cao qua bai báo mang tên SQuAD: 100,000+
Question for Machine Comprehension Text SQUAD thuộc loại dữ liệu
span-extraction trong bài toán MRC - loại dữ liệu mà câu trả lời ứng với mỗi câu hỏi được
trích xuất từ đoạn văn Bằng việc thu thập các bài báo thông qua Wikipedia từ đó các
crowdworkers đã tạo ra bộ dữ liệu SQuAD với hơn 100,000 cặp câu hỏi và câu trả
lời SQuAD đã gây được sự quan tâm cũng như ấn tượng đến với các nhà nghiên cứuNLP nói chung và MRC nói riêng nhờ số lượng cặp câu hỏi cũng như chất lượng mà
nó đạt được Không chỉ dừng lại ở đó vào năm 2018, Rajpurkar và cộng sự đã giới
thiệu bộ dữ liệu SQUAD 2.0 [2], bộ dữ liệu được xem là phiên bản mới nhất của
11
Trang 37SQuAD với sự kết hợp của SQuAD và với hơn 50,000 câu hỏi không trả lời được.Khi đó, ngoài trả lời câu hỏi khi có thể, hệ thống MRC còn phải xác định đâu là câu
hỏi không thể trả lời được và không đưa ra câu trả lời Ta có thê thấy SQuAD 2.0 ra
đời có thể gây ra không ít thách thức cho cộng đồng nghiên cứu trên toàn thế giới mà
đó còn là tiền đề dé bài toán MRC ngày càng phát triển và hoàn thiện Không chỉ cóSQuAD và SQuaD 2.0 mà còn có nhiều bộ dữ liệu thuộc loại dữ liệu cũng được biếtđến là như là những bộ dữ liệu MRC trên tiếng Anh mang day tính thách thức
NewsQA [3] được Trischler cùng các cộng sự giới thiệu vào năm 2017 NewsQA có
hơn 100,000 cặp câu hỏi và câu trả lời được các crowdworkers thu thập từ hơn 10.000
bài báo tin tức từ CNN thông qua một quy trình gồm bốn giai đoạn Không chỉ vậytrên tiếng Anh còn có những bộ dữ liệu đọc hiểu thuộc loại span-extraction được
chúng tôi khảo sát như: TriviaQA [4], Natural Questions [5], emrQA [6], SQuAD [7].
Spoken-Nếu như dữ liệu thuộc loại span-extraction thì đầu ra là một câu trả lời được trích từvăn ban đầu vào, thì trên tiếng Anh loại dữ liệu đọc hiéu dang trắc nghiệm (multiple-choice) cũng được phát triển rất vượt bậc Ví dụ như MCTest là một bộ dữ liệu trả
lời các câu hỏi trắc nghiệm đọc hiểu về 500 câu chuyện hư cấu và 200 câu hỏi trên
tiếng Anh được Richardson cùng các cộng sự giới thiệu vào năm 2013 Ngoài rachúng ta có thé kê đến một số bộ dữ liệu multiple-choice trên tiếng Anh như: RACE
[8], HeadQA [9], MultiIMRC [10], CosmosQA [11].
Ngoài ra, trong quá trình khảo sát chúng tôi còn tìm thay một bộ dit liệu đọc hiểu trêntiếng Anh đã gây ra không ít thách thức cho cộng đồng nghiên cứu có tên là WikiQA[12] Bộ dữ liệu được giới thiệu bởi Yi Yang và các cộng sự vào năm 2015 Đề xây
dựng bộ dữ liệu, các tác giả đã tuyển dụng nhân viên thông qua một nền tảng tương
tự như Amazon Mturk để gán nhãn liệu các câu trả lời cho câu hỏi được xem là đúng.Các tác giả thiết kế một web người dùng gồm hai giai đoạn dé có thé thực hiện quytrình gán nhãn cho bộ dữ liệu Giai đoạn đầu tiên giao diện sẽ hiển thị một câu hỏi để
kiểm tra cộng với tiêu đề và một đoạn tóm tắt của trang Wikipedia cùng với đó là câu
hỏi “Đoạn văn ngăn có trả lời cho câu hỏi không?” Nêu người gán nhãn chọn
12
Trang 38“không” sau đó chọn tất cả các câu trong đoạn là không chính xác và giao diện sẽchuyền sang câu hỏi tiếp theo Ngược lại, hệ thống sẽ bước vào giai đoạn thứ hai vàđặt một checkbox theo dọc mỗi câu trong đoạn văn dé nhân viên gán nhãn thực hiệnthao tác gán nhãn Đề đảm bảo chất lượng mỗi câu hỏi sẽ được gán nhãn bởi ba côngnhân Bộ dữ liệu bao gồm 3074 câu hỏi và 29258 câu trong đó 1473 câu được gắn
nhãn là câu trả lời cho các câu hỏi tương ứng trong bộ dữ liệu Bộ dữ liệu WikiQA
đã mở ra nhiều thách thức cho bài toán đọc hiểu trên tiếng Anh, cũng như là nền tang
dé có thé phát triển một số bộ dữ liệu tương tự trên các ngôn ngữ khác
Không chỉ trên tiếng Anh mà trên các ngôn ngữ khác các bộ dữ liệu đọc hiểu thuộcloại span-extraction cũng được phát triển rất mạnh mẽ CMRC 2018 [13] là bộ đữliệu đọc hiểu trên tiếng Trung với 20.000 câu hỏi được thu thập trên Wikipedia Cácngôn ngữ như tiếng Hàn, tiếng Nga, tiếng Pháp, tiếng Đức cũng có những bộ dữ liệuđọc hiểu thuộc loại span-extraction lần lượt như: KorQuAD I.0 [14], SberQuAD [15],
FQuAD [16], GermanQuAD [17].
Theo khảo sát, chúng tôi nhận thấy được các bộ dữ liệu loại multiple-choice chưathực sự được phát triển trên các ngôn ngữ nước ngoài ngọai trừ tiếng Anh Bộ đữ liệu
C3 [18], bộ đữ liệu được xem là bộ đữ liệu đọc hiểu multiple choice đầu tiên trên
tiếng Trung được Kai Sun cùng các cộng sự giới thiệu vào năm 2020 C3 chứa khoảng13.369 tài liệu bao gồm cả đối thoại hoặc nhiều văn bản kết hợp, 19.577 câu hỏi trắc
nghiệm.
Sự hòa nhập của các nước trên thế giới đã tac động rất nhiều về mọi mặt về con ngườicũng như cuộc sống Chúng ta có thể học cùng lúc nhiều ngôn ngữ, tìm hiểu về văn
hóa của các quốc gia khác Từ đó, chúng ta mới có thé hoàn thiện và biết thêm về
nhiều thứ xung quanh Vì thế trong cuộc sống ngày nay, sự hòa nhập trên nhiều lĩnhvực là điều rất quan trọng Và những bộ dữ liệu đọc hiểu cũng không ngoại lệ Quanhững khảo sát trên, chúng ta đã phần nào thấy được sự thành công của các bộ dữ
liệu trên thế giới thông qua từng loại ngôn ngữ khác nhau như tiếng Anh, tiếng Trung,
tiếng Hàn, tiếng Nga, Nhung dé liên kết và phát triển, cũng như mang lại nhữngthách thức trên nhiều khía cạnh cho các nhà nghiên cứu trên thế giới, trong những
13
Trang 39năm gan đây các nhà khoa học đã phát triển và giới thiệu các bộ dữ liệu đọc hiểu trên
đa ngôn ngữ XQuAD [19] là bộ dit liệu đọc hiéu thuộc loại span-extraction với kích
thước lên đến 240 đoạn văn cùng với 1,190 cặp câu hỏi — câu trả lời được Artetxe
cùng các đồng nghiệp phát triển trên bộ SQuAD v1.1 kết hợp với bản dich củaSQuAD vI.1 sang 10 ngôn ngữ khác nhau: tiếng Tây Ban Nha, tiếng Đức, tiếng HyLạp, tiếng Nga, tiếng Thổ Nhĩ Kì, tiếng A Rap, tiếng Việt, tiếng Thái, tiếng Trung vàtiếng Hindi Ngoài ra, bộ dt liệu MLQA [20] cũng là bộ dữ liệu loại span-extraction
được xây dựng trên đa ngôn ngữ.
2.1.2 Công trình trong nước
Sự phát triển của bài toán MRC thúc đây sự ra đời của các bộ dữ liệu trên các tiếngnước ngoài lẫn tiếng Việt Theo những công trình mà chúng tôi khảo sát ở trên các
ngôn ngữ nước ngoài, hầu hết các bộ dữ liệu đọc hiểu được phát triển rất nhiều trên
tiếng Anh cũng như tiếng Trung Dé có thé phát triển và hoàn thiện bài toán MRCtrên tiếng Việt và thêm tiếng Việt là ngôn ngữ có ít tài nguyên về MRC vì thế trongnhững nằm gần đây, sự phát triển của các bộ dữ liệu trên tiếng Việt đang được cácnhà nghiên cứu quan tâm và đặt lên hàng đầu Thông qua quá trình khảo sát, chúngtôi nhận thấy rằng trên tiếng Việt có một số bộ dit liệu tiêu biểu như: UIT-ViQuAD
[21] UIT-ViNewsQA [22], VIMMRC [23] và ViCoQA [24].
Có lẽ bộ SQuAD trên tiếng Anh là nguồn cảm hứng cho các nhà nghiên cứu MRCtrên tiếng Việt Vào năm 2020, trên bài báo A Vietnamese Dataset for Evaluating
Machine Reading Comprehension, Nguyen và các cộng sự đã giới thiệu bộ dữ liệu
trả lời câu hỏi thuộc loại span-extraction mang tên UIT-ViQuAD 1.0 cùng với đó là
một quy trình tạo nên tập dữ liệu đọc hiểu mới dựa vào ViQuAD 1.0 [21]
UIT-ViQuAD 1.0 với hơn 23.000 cặp câu hỏi-câu trả lời do con người tao ra dựa trên
5.109 đoạn văn được trích từ 174 bài báo tiếng Việt được thu thu thập trên nguồn
Wikipeida tiếng Việt Tác giả tiến hành thử nghiệm về các phương pháp MRC hiện
đại cho tiếng Anh và tiếng Trung như những mô hình thử nghiệm đầu tiên trên ViQuAD 1.0 Không chi vậy, tác giả đã ước tính hiệu suất của con người trên tập dữliệu và so sánh nó với kết quả của các mô hình máy học UIT-ViQuAD 1.0 tạo ra
UIT-14
Trang 40nhiều thách thức cho cộng đồng nghiên cứu với nhiều câu hỏi đòi hỏi khả năng suyluận từ nhiều câu liên kết với nhau trong một đoạn văn Cũng giống như tiếng Anh,
đúng 1 năm sau khi bộ UIT-ViQuAD 1.0 được các tác giả giới thiệu đến cộng đồng
nghiên cứu thì bộ di liệu UIT-ViQuAD 2.0 đã được ra đời UIT-ViQuAD 2.0 [25] là
tập dữ liệu đọc hiểu bao gồm các câu hỏi do các crowd-workers đặt ra từ các bài viếtWikipeida trên tiếng Việt, trong đó câu là trả lời là một khoảng văn bản được trích từ
đoạn văn tương ứng hoặc câu hỏi không thé tra loi được UIT-ViQuAD 2.0 là sự kết
hợp của hơn 23.000 câu hỏi trong UIT-ViQuAD 1.0 bởi hơn 12.000 câu hỏi không
thé trả lời được Dé có thé đạt hiệu suất cao trên UIT-ViQuAD 2.0, các hệ thongMRC không chi phải trả lời câu hỏi khi có thé mà còn phải không trả lòi với những
câu hỏi không trả lời được.
Tiếp theo sự ra đời và thành công của bộ dữ liệu đọc hiểu UIT-ViQuAD, hai bộ ditliệu khác thuộc loại span-extraction cũng được ra đời trên tiếng Việt một năm sau đó
được mang tên UIT-ViNewsQA và UIT-ViCoQA UIT-VINewsQA được Nguyen cùng các cộng sự giới thiệu với hơn 22.057 cặp câu hỏi - câu trả lời dựa trên 4.416 bài báo trên lĩnh vực sức khỏe được thu thập từ trang tin tức VNExpress UIT- ViCoQA cũng là một bộ dữ liệu trên lĩnh vực sức khỏe được Son cùng các cộng sự
giới thiệu với 10,000 câu hỏi và câu trả lời trên 2000 cuộc trò chuyện về bài báo tin
tức sức khỏe.
Không chỉ vậy, cũng giống như trên các ngôn ngữ khác, tên tiếng Việt cũng có bộ đữliệu ViMMRC thuộc loại multiple choice được Nguyen và các cộng sự phát triển vàonăm 2020 Bộ dit liệu này bao gồm 417 văn bản tiếng Việt và 2.783 cặp câu hỏi vàcâu trả lời trắc nghiệm Dữ liệu trên bộ dữ liệu được thu thập từ các văn bản tiếngViệt phù hợp cho học sinh từ lớp 1 đến lớp 5 của môn học có tên là tiếng Việt
2.2 Các mô hình liên quan
2.2.1 Phương pháp dựa vào xếp hang câu
Phương pháp dựa vào xếp hạng câu là phương pháp đầu tiên được chúng tôi sử dụng
cho bài toán đọc hiểu tự động dựa trên trích xuất câu trên tiếng Việt trên bộ dữ liệu
15