Xuất phát từ nhu cầu đơn giản nhưng quan trọng là giải đáp thắc mắc của mỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu UIT-ViQuAD 2.0, chúng tôi thật sự mong muốn có thê xây dựng một h
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
DANG VĂN NHÂN - NGUYEN LE MINH
KHOA LUAN TOT NGHIEP
BUILDING QUESTION ANSWERING SYSTEM BASED ON VIETNAMESE MACHINE READING COMPREHENSION
CU NHAN NGANH CONG NGHE THONG TIN
ĐỊNH HUONG NHAT BẢN
TP HO CHÍ MINH, 2022
Trang 2DAI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
DANG VĂN NHÂN - 18521172
NGUYEN LE MINH - 18521106
KHOA LUAN TOT NGHIEP
XAY DUNG HE THONG HOI DAP DUA TREN DOC
HIEU TU DONG CHO TIENG VIET
BUILDING QUESTION ANSWERING SYSTEM BASED ON VIETNAMESE MACHINE READING COMPREHENSION
CU NHAN NGANH CONG NGHE THONG TIN
ĐỊNH HUONG NHẬT BẢN
GIẢNG VIÊN HƯỚNG DẪN
ThS NGUYÊN VĂN KIỆT
TS NGUYÊN LƯU THÙY NGÂN
TP HÒ CHÍ MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
= — Chủ tịch.
= — Thư ký.
Boece cece cece cent eee e eee eee ene eee ene e en aees — Uy viên
— ne ence eee eee eee ences tne enaeenas — Ủy viên
Trang 4LỜI CẢM ƠN
Trước tiên, chúng tôi xin gửi lời cảm on và biết ơn sâu sắc đến ThS Nguyễn VănKiệt — thầy chủ nhiệm của lớp CNCL2018 - khoa Khoa Học và Kỹ Thuật Thông Tin —trường Đại học Công Nghệ Thông Tin — Dai học Quốc Gia thành phố Hồ Chí Minh, người
đã tận tình chỉ bảo, giúp đỡ chúng tôi trong suốt thời gian 4 năm Đại học, hướng nghiêncứu khóa luận Và cũng là người đưa ra những ý tưởng, kiểm tra sự phù hợp của luận văn
Kế đến, nhóm xin cảm ơn chân thành đến cô TS Nguyễn Lưu Thùy Ngân là người đồnghướng dẫn cho đề tài khóa luận
Chúng tôi cũng xin gửi lời cảm ơn đến toàn thể các thầy cô trường Đại học Công
Nghệ Thông Tin nói chung và khoa Khoa Hoc và Kỹ Thuật Thông Tin nói riêng đã giảng
dạy, và tạo điều kiện cho chúng tôi trong quá trình học tập và nghiên cứu tại trường Nhữngkiến thức mà chúng tôi nhận được sẽ là hành trang giúp chúng tôi vững bước và tiến xa
trong sự nghiệp tương lai.
Cuối cùng, chúng tôi xin cảm ơn gia đình, bạn bè đặc biệt là tập thể lớp CNCL2018
đã luôn ở bên để cùng nhau thực hiện từng đồ án, vượt qua từng môn học, động viên và
giúp đỡ nhau trong từng khoảnh khắc trong cuộc sống là nguồn cô vũ lớn lao, là động lực
giúp chúng tôi hoàn thành luận văn này.
Chúng tôi đã cô gắng hoàn thành luận văn trong phạm vi và khả năng có thé Tuynhiên sẽ không tránh khỏi những thiếu sót Chúng tôi rất mong nhận được sự cảm thông
và tận tình chỉ bảo của quý thay cô, toàn thé các bạn và hứa rằng không dừng lại con đườnghọc hành tại đây mà sẽ luôn nghiên cứu phát triển trau dồi thêm nhiều kiến thức
Trang 5ĐẠI HOC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
DE CUONG CHI TIẾT
TEN DE TAI TIENG VIET: XAY DUNG HE THONG HOI DAP DUA TREN
ĐỌC HIỂU TỰ DONG CHO TIENG VIET
TEN DE TAI TIENG ANH: BUILDING QUESTION ANSWERING SYSTEM
BASED ON VIETNAMESE MACHINE READING COMPREHENSION
Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt
TS Nguyễn Lưu Thùy Ngân
Thời gian thực hiện: Từ tháng 02/2022 đến tháng 06/2022
Sinh viên thực hiện:
Nguyễn Lê Minh - 18521106(@gm.uit.edu.vn) - CNCL2018.2
Dang Văn Nhân - 18521172(@gm.uit.edu.vn) - CNCL2018.2
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của dé tài)
1 Mục tiêu, phạm vi và đối tượng:
Giới thiệu đề tài: Cuộc sống của mỗi người luôn gắn liền với các câu hỏi và câu trả lời
Việc trả lời câu hỏi diễn ra hàng ngày, hàng giờ trong đầu mỗi người dù họ có ý thức
được việc đó hay không Trả lời câu hỏi đôi khi chỉ để giải tỏa sự thắc mắc của mỗi
người như là: “Tại sao con chim lại biết bay?”, “Hôm nay ăn gì?” Nhưng trả lời câu hỏi
đôi khi cũng có thể quyết định số phận của một người: “Tôi nên thi vào trường đại học
A hay B?” Có những câu hỏi có thé được giải đáp dé dàng chỉ với việc tra Google, hỏi
bạn bè, thầy cô, nhưng cũng có những câu hỏi mãi vẫn chưa thé giải đáp được như là:
“Có tồn tại người ngoài hành tinh hay không?” Xuất phát từ nhu cầu đơn giản nhưng
quan trọng là giải đáp thắc mắc của mỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu
UIT-ViQuAD 2.0, chúng tôi thật sự mong muốn có thê xây dựng một hệ thống có thể trả
lời được các câu hỏi đặt ra Thực tế, không phải câu hỏi nào cũng có câu trả lời, và khi
Trang 6đó câu trả lời tốt nhất nên là “khong biết”, ở đó mô hình đưa ra dự đoán là chuỗi rỗng:
“* Bộ dữ liệu UIT-ViQuAD 2.0 với 23 000 câu hỏi có đáp án và 12 000 câu không thétrả lời sẽ giúp chúng tôi làm việc đó Đầu vào của bài toán là một đoạn văn và câu hỏi
Đầu ra là câu trả lời do mô hình dự đoán dựa vào đoạn văn tương ứng
Bài toán: Machine Reading Comprehension (MRC) là một trong những bài toán đang
noi lên trong những năm gần đây nhằm giải quyết khả năng đọc hiểu văn bản tự động.Van dé đọc hiểu của máy đối với tiếng Việt có độ khó cao hơn so với tiếng Anh Vì tiếngViệt là ngôn ngữ có dấu, nên mô hình phải học từ nhiều ký tự hơn Hơn nữa, nhiều từkhác nhau có nghĩa giống nhau hoặc những từ giống nhau nhưng trong các ngữ cảnhkhác nhau có nghĩa khác nhau rất dễ làm cho mô hình dự đoán sai Đặc biệt là đối vớicác câu hỏi sử dụng từ đồng âm hoặc từ đồng nghĩa Sự phức tạp của bài toán này không
chỉ là tìm câu trả lời cho câu hỏi mà còn phải xác định câu hỏi đó có câu trả lời hay
không Trọng tâm luận văn là tìm câu trả lời đúng cho câu hỏi, vì đa số câu hỏi đều cócâu trả lời Tuy nhiên, vẫn có 1 số trường hợp câu hỏi không có câu trả lời thì mô hìnhcần dự đoán được các trường hợp như vậy Cũng như con người, sẽ có trường hợp cónhững câu hỏi gây khó khăn khiến hệ thống không thê trả lời được Câu hỏi không cócâu trả lời nằm trong những trường hợp sau đây:
Trường hợp 1: Khi hệ thong không truy suất đến được đoạn văn có câu trả lời (khôngtìm được đoạn văn có câu trả lời hoặc đoạn văn có câu trả lời không ton tại trong đữ liệu
được truy xuất)
Trường hợp 2: Khi câu hỏi sai (không thê có câu trả lời chính xác), ví dụ như "Lý do 1
Mục tiêu: Mô hình đạt độ chính xác cao nhất hiện nay trên bộ dữ liệu UIT-ViQuAD 2.0
là mô hình được xây dựng trong cuộc thi VLSP2021-MRC Mô hình top 1 trong cuộc
thi đạt độ chính xác F1=77,241% (đánh giá trên tập test) Mục tiêu của chúng tôi là xây
dựng mô hình đạt độ chính xác >80% trên độ đo F1 Dé đạt được điều đó, chúng tôi đặt
ra các nhiệm vụ là xây dựng hệ thống phải ứng dụng được các phương pháp hiện đại như
retro-reader (ensemble model), multi-hop
Pham vi: Chúng tôi thực hiện xây dựng và đánh giá trên bộ dữ liệu UIT-ViQuAD 2.0.
Đôi tượng: Đôi tượng hướng đên là toàn bộ mọi người, những ai có nhu câu giải đáp
những thắc mặc vê kiên thức nhờ vào trí tuệ nhân tạo.
Trang 7Bang 1 Các thông số về bộ dữ liệu UIT-ViQuAD 2.0
Tương tự như bộ UIT-ViQuAD 1.0, câu trả lời cho mỗi câu hỏi là một khoảng trích từ đoạn văn UIT-ViQuAD 2.0 có thêm câu trả lời là văn bản rỗng cho câu hỏi không trả
lời được và thêm trường câu trả lời mà mô hình có thể chọn khi không có câu trả lời Vớitập dữ liệu này, hệ thong MRC phải trả lời các câu hỏi khi có thé và xác định khi nào
ngữ cảnh không hỗ trợ câu trả lời Bảng 2 đưa ra ví dụ trường hợp câu hỏi có câu trả lời
và câu hỏi không có câu trả lời:
Passage: Một loại phần mềm giáo dục sau này được thiết kế dé sử dụng trong lớp học Điền hình là các
khác trong phòng Trong khi giáo viên thường chọn sử dụng phần mềm giáo dục từ các loại khác trong hệthống IT, một loại phần mềm giáo dục đã phát triển nhanh được mong đợi sẽ trợ giúp việc giảng dạy tại lớp
học Các chức năng của phần mềm thường rất chuyên dụng và do rất nhiều hãng sản xuất, bao gồm các nhà
xuất bản sách giáo dục
Question 1: Những phần mềm được thiết kế dé sử dụng trong lớp học là loại phần mềm nao?
Answer 1 (Answerable): là các phần mềm được chiếu lên một bảng trắng lớn ở trước lớp và chạy
đồng thời trên màn hình các máy tính khác trong phòng
Question 2: Trong khi giáo viên sử đụng phần mềm giáo duc từ các loại khác trong hệ thống IT, loại
phần mềm của trường UK phát triển nhanh với sự kì vọng như thế nào?
Answer 2 (Unanswerable): <No Answer>
Plausible answer: được mong đợi sẽ trợ giúp việc giảng dạy tại lớp học
Bảng 2 Trường hợp câu hỏi có câu trả lời và không có câu trả lời
3 Phương pháp thực hiện
Quy trình:
Trang 8Hình đưới mô tả tông quát quy trình nghiên cứu và xây dựng hệ thống của chúng
Phát triển cải tiễn
UIT-ViQuAD2.0
Quy trình trên gồm 3 giai đoạn chính Đầu tiên là tìm hiểu và nghiên cứu các kiến
thức, phương pháp liên quan Sau đó chúng tôi bắt đầu xây dựng hệ thống từ nền tảng
kiến thức thu được Cuối cùng là thực nghiệm đánh giá kết quả và phát triển cải tiến hệthống
3.1 Tìm hiểu và nghiên cứu phương pháp
Chúng tôi bắt đầu thực hiện đồ án bang cách tìm hiểu và nghiên cứu các kiến thứccần thiết Chúng tôi cần giải quyết hai van đề lớn đối với bài toán máy đọc hiểu tiếng
Việt Đầu tiên là khả năng đọc hiểu của máy: cần xây dựng một hệ thống có thé xác định
xem một câu hỏi có trả lời được hay không Thứ hai là sự phúc tạp, các đặc trưng riêng
của tiếng Việt: mô hình cần trích xuất và có thê tận dụng các đặc điểm riêng của tiếng
Việt dé máy có thé hiéu sâu nghĩa của câu hỏi và cho câu trả lời chính xác hơn
Hướng tiếp cận: Hướng tiếp cận đối với bài toán là sử dụng bộ dữ liệu đã được
xây dựng như UIT-ViQuAD 2.0 Bộ dữ liệu sẽ giúp mô hình học được các trường hợp
câu hỏi có câu trả lời hay không Về phương pháp mà nhóm sử dụng được tham khảo từcác phương pháp áp dụng trên bộ dit liệu tiếng Anh SQuAD 2.0 va các bộ dit liệu tương
tự, vì hệ thống này cho tiếng Việt chưa phổ biến Chúng tôi sẽ kết hợp nhiều phương
pháp khác nhau và cải tiễn hơn nữa dé tạo ra một hệ thong đạt hiệu suất cao nhất có thé
Ngoài ra, chúng tôi hiện tại đã có 1 ý tưởng khác biệt so với các mô hình hiện có là sử
dụng thêm mô dun filter, mô đun này đã được chúng tôi áp dung tại cuộc thi VLSP-MRC
2021 và đem lại hiệu quả tốt (giúp tăng 1-2%)
Với sự phát triển của transfer learning (học chuyền giao) trong lĩnh vực NLP, các
pretrained-model được ưa chuộng vì nó tiết kiệm thời gian đào tạo về lượng lớn dữ liệu
để mô hình có thể xử lý tốt một ngôn ngữ và tác vụ cụ thé Cho đến hiện tại, chúng tôi
đã nghiên cứu một số mô hình phô biến cho kết quả tốt về các chủ đề tiếng Việt, các chủ
dé MRC nói chung va MRC Việt Nam nói riêng, vi dụ như PhoBert Invalid source
specified., XLM-RoBERTa [1].
Retro-Reader:
Retro reader là một trong những phương pháp hiện đại nhất đến nay cho bài toán
đọc hiểu tự động Phương pháp được đề xuất cho bộ dữ liệu SQuAD 2.0 (bộ dữ liệu có
Trang 9cau trúc tương tự với UIT-ViQuAD 2.0) Bài báo của tác giả với phương pháp
Retro-reader lấy cảm hứng từ cách con người giải quyết vấn đề các câu hỏi đọc hiểu tích hợp
2 giai đoạn:
1 Giai đoạn 1: Doc sơ sài dé điều tra ngắn gọn các tương tác tông thé của đoạn văn
và câu hỏi rồi đưa ra phán đoán ban đầu
2 Giai đoạn 2: Đọc chuyên sâu để xác minh câu trả lời và đưa ra dự đoán cuối cùng
Multi-Hop Paragraph Retrieval:
Phương pháp này liên quan đến nhiệm vụ trả lời câu hỏi mã nguồn mở Tác giatrình bay phương pháp này dé lấy ra nhiều đoạn văn hỗ trợ, được lồng vào nhau giữa mộtkho kiến thức lớn, chứa bang chứng cần thiết dé trả lời một câu hỏi nhất định Phương
pháp truy xuất lặp đi lặp lại các đoạn văn hỗ trợ bằng cách hình thành một biéu diễn
vector chung của cả câu hỏi và đoạn văn Việc truy xuất được thực hiện bang cách xem
xét các đại diện cấp câu theo ngữ cảnh của các đoạn văn trong nguồn tri thức Phuong
pháp của tác gia dat được hiệu suất hiện đại trên hai tap đữ liệu nỗi tiếng, SQUAD-Open
và HotpotQA, tương ứng với vai trò là điểm chuan QA miền mở đơn và đa bước Nhiệm
vụ trả lời câu hỏi mã nguồn mở bao gồm 2 tác vụ là truy xuất tài liệu (tầm tài liệu liênquan dựa trên câu hỏi đầu vào) và trả lời câu hỏi dựa trên tài liệu (đề tài chúng tôi đang
tìm hiểu) Bài toán này bao hàm bài toán của chúng tôi Vì vậy, chúng tôi có thé tham
khảo để phát triển cho bài toán của mình
Chúng tôi sẽ tiếp tục nghiên cứu và tìm hiểu các mô hình, phương pháp khác
Công việc này được thực hiện xuyên suốt cả quá trình thực hiện đồ án
3.2 Xây dựng hệ thống
Sau một thời gian tìm hiểu và nghiên cứu, chúng tôi đã xây dựng hệ thống với
XLM-R (Hình 2) và tự phát triển một module output filter(Hình 3)
Processing
Data
Load Data VEIHUNZ
Đầu tiên, chúng tôi tải dữ liệu train lên và thực hiện xử lý đữ liệu, chia thành từngcụm gồm: Đoạn văn, câu hỏi, câu trả lời Dữ liệu test chia thành từng cụm gồm: Đoạnvăn và câu hỏi Dé mô hình có thể hiểu được ngôn ngữ của con người chúng tôi cần tiến
hành mã hóa các đoạn văn, câu hỏi và câu trả lời (encode data) với mô hình XLM-R,
tương ứng với đó là tokenizer cho XLM-R Cả mô hình và tokenizer cho XLM-R đã
được huấn luyện trước, chúng tôi chỉ tải về và sử dụng lại Chúng tôi tiến hành mã hóa
và trích xuất ra các thông tin quan trọng cần cho việc huấn luyện mô hình Sau đó, tiến
hành đào tạo mô hình qua 3-4 epoch Với các tham số được huấn luyện, mô hình sẽ tìm
Trang 10ra các vi tri bat dau và kêt thúc từ đoạn văn Câu trả lời được chon là câu trả lời có tích
vô hướng vi trí bat dau và vi trí kêt thúc cao nhat.
XLM-R: đã được đề xuất trong Học tập biểu diễn đa ngôn ngữ không giám sát
theo quy mô bởi Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer va Veselin Stoyanov XLM-R dựa trên mô hình RoBERTa của Facebook,
được phat hành vào năm 2019 Day là một mô hình ngôn ngữ da ngôn ngữ lớn được đào tạo trên 2,5TB dữ liệu CommonCrawl đã lọc và là trạng thái của mô hình XLM XLM-
R cho thấy khả năng đào tạo nhiều mô hình ngôn ngữ (bao gồm cả tiếng Việt) mà khônglàm giảm hiệu suất trên mỗi ngôn ngữ Các mô hình như XLM và mBERT bị hạn chếtrong việc học các đại diện có giá trị cho các ngôn ngữ ít tài nguyên XLM-R cải tiến
dựa trên các phương pháp tiếp cận đa ngôn ngữ trước đây bằng cách kết hợp nhiều dữ
liệu và ngôn ngữ đào tạo (hơn 100) - bao gồm ngôn ngữ tài nguyên thấp, thiếu bộ dit liệuđược gắn nhãn và không được gắn nhãn rộng rãi Không giống như một số mô hình đangôn ngữ khác, nó không yêu cầu hiểu ngôn ngữ nào được sử dụng và xác định ngôn
ngữ chính xác từ id đầu vào.
Hình 2 cho thấy cách XLM-R nhận vào input và đưa ra câu trả lời Mô hình nhận
vào đoạn văn (hay ngữ cảnh C) và câu hỏi (Q), mã hóa (tokenize) chúng và nối lại thành
một cụm phân tách bởi token [SEP] Sau khi xử lý và tính toán, mô hình sẽ cho ra nhiều
vị trí bắt đầu và vị trí kết thúc Kết quả được chọn sẽ là tích vô hướng có giá trị lớn nhất
của vị trí bắt đầu và kết thúc Nếu tích này không vượt qua một ngưỡng giá trị quy định
thì kết quả là câu hỏi không có câu trả lời Nếu vượt qua thì đây là câu hỏi có câu trả lời,
khoảng (span) từ vị trí bắt đầu đến vị trí kết thúc là câu trả lời cho câu hỏi
Question Context
Hình 1.2 Mô hình XLM-R cho nhiệm vụ tra lời câu hỏi
Sự khác biệt của hệ thống chúng tôi là moudle filter output Chúng tôi thu thập từkhoảng 8 tệp kết quả khác nhau từ các lần huấn luyện (ở mỗi lần huấn luyện chúng tôithay đôi các siêu tham số ảnh hưởng đến kết quả dự đoán):
h — {Au Ain}, wotn = {Anp Ann}
Trang 11Trong đó, ƒ¡, , f„ là các file két quả dự đoán cho các câu hỏi trong bộ dữ liệu
test ở các lân huân luyện khác nhau Ajj, , 4;„ là các câu trả loi mà mô hình dự đoán.
Két quả cuôi cùng cua chúng tôi sau khi lọc là:
ƒ = {Ay An}
Trong đó f là file két quả cuôi cùng với các câu trả lời 4+, , An Câu tra lời được
chọn có sô lân lặp nhiêu nhật từ các file:
A; = max _repeat_answer{A¡, , Ani} (n là số file được chọn dé lọc kết quả)
Thực nghiệm cho thấy Module này đã giúp chúng tôi tăng 1-2% độ chính xác
ch | Seo op om Filter 2
Hình 1.3 Hệ thống với module filter output
Chúng tôi sé tiếp tục cải tiễn mô hình hệ thống với những phương pháp, kiến thứctìm hiểu được
4 Phương pháp đánh gia.
Tương tự như phương pháp đánh giá trên tập dữ liệu SQuAD 2.0, để đánh giáhiệu suất của mô hình hệ thống, chúng tôi cũng sử dụng Exact-match và F1-Scores làm
thước đo cho nhiệm vụ máy đọc hiểu tiếng Việt trên bộ dữ liệu UIT-ViQuAD 2.0
5 Kết quả mong đợi
Chúng tôi mong đợi rằng sau đồ án sẽ xây dựng thành công một hệ thống MRC
dành riêng cho tiếng Việt với độ chính xác lớn hơn 80% (độ đo F1), giải quyết đượcnhững hạn chế hiện tại và đóng góp vào sự phát triển cho NLP nói chung và lĩnh vựcMRC nói riêng Bên cạnh đó, chúng tôi cũng viết một paper về giải pháp cho bài toánMRC gửi đến VLSP và hi vọng được hội nghị chấp nhận Chúng tôi đánh giá đây là một
đồ án mang tính ứng dụng thực tế cao và kỳ vọng răng nó có thê góp phần thay đổi phát triển trên rất nhiều lĩnh vực đối với các doanh nghiệp và xã hội Việt Nam với gần 100
triệu dân Hiện tại chúng tôi đã phát triển được mô hình với độ chính xác 76,386% (độ
đo F1) Nếu mô hình dat được độ chính xác trên 80% sớm hơn dự kiến, chúng tôi sẽnghiên cứu phat trién thêm module truy xuất tài liệu dé phát triển trở thành bài toán trảlời câu hỏi mã nguồn mở
6 Tài liệu tham khảo
[1] Alexis Conneau and Kartikay Khandelwal, Naman Goyal,Vishrav Chaudhary,
Guillaume Wenzek, FranciscoGuzmán, Edouard Grave, Myle Ott, Luke Zettle-moyer,
Trang 12and Veselin Stoyanov, "Unsupervisedcross-lingual representation learning at scale," arXivpreprint arXiv, p 1911.02116, 2019.
[2] Do, Phong Nguyen-Thuan and Nguyen, Nhat Duy and Huynh, Tin Van and Nguyen, Kiet Van and Nguyen, Anh Gia-Tuan and Nguyen, Ngan Luu-Thuy, "Sentence extraction-based machine reading comprehension for vietnamese," International Conference on Knowledge Science, Engineering and Management, 2021.
[3] Nguyen, Kiet and Nguyen, Vu and Nguyen, Anh and Nguyen, Ngan, "A
{V}ietnamese Dataset for Evaluating Machine Reading Comprehension," in Proceedings of the 28th International Conference on Computational Linguistics, International Committee on Computational Linguistics, 2020.
[4] Pranav Rajpurkar and Jian Zhang and Konstantin Lopyrev and Percy Liang,
"SQuAD: 100, 000+ Questions for Machine Comprehension of Text," CoRR, vol abs/1606.05250, 2016.
[5] Pranav Rajpurkar and Robin Jia and Percy Liang, "Know What You Don't Know:
Unanswerable Questions for SQUAD," CoRR, 2018.
[6] Kiet Van Nguyen and Duc{-}Vu Nguyen and Anh Gia{-}Tuan Nguyen and Ngan Luu{-}Thuy Nguyen, "New Vietnamese Corpus for Machine ReadingComprehension of
Health News," CoRR, 2020.
[7] Van Nguyen, Kiet and Duy Nguyen, Nhat and Do, Phong Nguyen-Thuan and Gia-Tuan Nguyen, Anh and Nguyen, Ngan Luu-Thuy},, "ViReader: A Wikipedia-Based Vietnamese Reading Comprehension System Using Transfer Learning,” 10.3233/JIFS-
210683, 2021.
[8] Van Nguyen, Kiet and Tran, Son Quoc and Nguyen, Luan Thanh and Van Huynh,
Tin and Luu, Son T and Nguyen, Ngan Luu-Thuy, "VLSP 2021-ViMRC Challenge: Vietnamese Machine Reading Comprehension.," CoRR, 2022.
[9] Lample, Guillaume and Conneau, Alexis, "Cross-lingual language model pretraining,” arXiv preprint arXiv:1901.07291, 2019.
[10] Liu, Yinhan and Ott, Myle and Goyal, Naman and Du, Jingfei and Joshi, Mandar and Chen, Danqi and Levy, Omer and Lewis, Mike and Zettlemoyer, Luke and Stoyanov, Veselin, "Roberta: A robustly optimized bert pretraining approach," arXiv preprint arXiv:1907.11692, 2019.
[11] Nguyen, Nguyen Luong Tran and Duong Minh Le and Dat Quoc, "BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese," 2021.
[12] Stoyanov, Alexis Conneau and Kartikay Khandelwal and Naman Goyal and Vishrav Chaudhary and Guillaume Wenzek and Francisco Guzman and Edouard Grave and Myle Ott and Luke Zettlemoyer and Veselin, "Unsupervised Cross-lingual Representation Learning at Scale," 2020.
Trang 13[13] Dat Quoc Nguyen and Tuan Anh, "PhoBERT: Pre-trained language models for {V }ietnamese," in Findings of the Association for Computational Linguistics: EMNLP
2020, Association for Computational Linguistics, 2020, pp 1037 1042.
[14] Baradaran, Razieh and Ghiasi, Razieh and Amirkhani, Hossein, "A survey on machine reading comprehension systems," Natural Language Engineering, 2020.
[15] Mervin, R, "An overview of question answering system," International Journal
Of Research In Advance Technology In Engineering (IJRATE), 2013.
[16] Shao, Taihua and Guo, Yupu and Chen, Honghui and Hao, Zepeng,
"Transformer-based neural network for answer selection in question answering," IEEE Access, 2019.
[17] Izacard, Gautier and Grave, Edouard, "Leveraging passage retrieval with generative models for open domain question answering," arXiv preprint arXiv:2007.01282, 2020.
[18] Saxena, Apoorv and Tripathi, Aditay and Talukdar, Partha, "Improving multi-hop question answering over knowledge graphs using knowledge base embeddings," Proceedings of the 58th annual meeting of the association for computational linguistics, 2020.
[19] Li, Xiaoya and Yin, Fan and Sun, Zijun and Li, Xiayu and Yuan, Arianna and
Chai, Duo and Zhou, Mingxin and Li, Jiwei, "Entity-relation extraction as multi-turn
question answering," arXiv preprint arXiv:1905.05529, 2019.
[20] Das, Rajarshi and Dhuliawala, Shehzaad and Zaheer, Manzil and McCallum, Andrew, "Multi-step retriever-reader interaction for scalable open-domain question answering," arXiv preprint arXiv: 1905.05733, 2019.
[21] Su, Lixin and Guo, Jiafeng and Fan, Yixing and Lan, Yanyan and Zhang, Ruqing
and Cheng, Xueqi, "An adaptive framework for conversational question answering," Proceedings of the AAAI Conference on Artificial Intelligence, 2019.
[22] Zhang, Zhuosheng and Yang, Junjie and Zhao, Hai, "Retrospective reader for machine reading comprehension," Proceedings of the AAAI Conference on Artificial Intelligence, 2021.
[23] Sadhuram, Machhirke Vinodkumar and Soni, Aparna, "Natural language processing based new approach to design factoid question answering system,” 2020 Second International Conference on Inventive Research in Computing Applications
(ICIRCA), 2020.
[24] McCann, Bryan and Keskar, Nitish Shirish and Xiong, Caiming and Socher, Richard, "The natural language decathlon: Multitask learning as question answering," arXiv preprint arXiv: 1806.08730, 2018.
Trang 14[25] Singh, Sonit, "Natural language processing for information extraction,” arXiv preprint arXiv: 1807.02383, 2018.
[26] Yatskar, Mark, "A qualitative comparison of CoQA, SQuAD 2.0 and QuAC,"
arXiv preprint arXiv:1809.10735, 2018.
[27] Lee, Gyeongbok and Hwang, Seung-won and Cho, Hyunsouk, "SQuAD2-CR: Semi-supervised annotation for cause and rationales for unanswerability in SQUAD 2.0," Proceedings of The 12th Language Resources and Evaluation Conference, 2020.
[28] Van Nguyen, Kiet and Tran, Son Quoc and Nguyen, Luan Thanh and Van Huynh, Tin and Luu, Son T and Nguyen, Ngan Luu-Thuy, "Vlsp 2021 shared task: Vietnamese
machine reading comprehension," arXiv preprint arXiv:2203.11400, 2022.
[29] Van Nguyen, Kiet and Van Huynh, Tin and Nguyen, Duc-Vu and Nguyen, Anh Gia-Tuan and Nguyen, Ngan Luu-Thuy, "New vietnamese corpus for machine reading comprehension of health news articles," Transactions on Asian and Low-Resource
Language Information Processing, 2020.
[30] Van Nguyen, Kiet and Tran, Khiem Vinh and Luu, Son T and Nguyen, Anh Tuan and Nguyen, Ngan Luu-Thuy.
[31] Nguyen, Kiet Van and Tran, Khiem Vinh and Luu, Son T and Nguyen, Anh
Gia-Tuan and Nguyen, Ngan Luu-Thuy, "Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension,"
pháp hiện dai giúp cải
thiện bài toán
Xây dựng mô hình x x x
dựa vào các phương
pháp tìm hiêu được
Trang 15Chạy mô hình và phân
tích kêt quả
Đánh giá và cải thiện
chât lượng mô hình
Viết báo cáo và báo x x
cáo tiên độ
Báo cáo khóa luận x
e Phân công công viéc:
Xác nhận của CBHD TP HCM, ngày 15 tháng 12 năm 2021
(Ký tên và ghi rõ họ tên)
ThS Nguyễn Văn Kiệt
Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 16TS Nguyễn Lưu Thùy Ngân
Nguyễn Lê Minh
Đặng Văn Nhân
Trang 17MỤC LỤC
Chương 1 TONG QUAN -¿- 5-5: SE EEEEEEEE1219E12121217121212111211111 111016 5
1.1 Giới thiệu hệ thống hỏi đáp dựa trên đọc hiểu tự động miền mở 51.2 Tổng quan về truy xuất tài liệu và đọc hiểu 2-2-2 ¿+5 >xezxez+zzzxzxree 7
1.2.1 Truy xuất tài liệu - + 22+ SE EEEEE121212112121121 111111 cte 7
1.2.2 Bài toán đọc hiểu tự động c5 c2 21211212111 te 71.3 Tính ứng dụng của đề tài -:- Set 1E 1 1E E12151111111111111 1111111 1xx, 8Chương 2 CÁC CONG VIỆC LIEN QUAN ccccscsccscsesesessescsesscsesesuescsesesscsesssseseseees 10
2.1 Bộ đữ liệu << att Uni, VO 10
2.1.1 Các bộ dit liệu nước NOI occ ecccessceseseesesessssessescsesecsesecsesessessseeeecees 10
2.1.2 Các bộ dữ liệu cho tiếng VIiỆt -¿-22- 5: 2x22E2E2EEEerxerxerrrrrvee 13
3.2.2 Mô đun trích xuất câu + ¿©+5£+E+St2EEEEEEEEEEEEEEEEEEkerrkerrkerrrei 26
3.2.3 Mô đun Re-ranker CĐ Đ SE 3333333181111 11 1111111 nen 30
4.3 Ñ€Ad€Y LLLQQQQ HT TT TK EU 33
Trang 183.3.1 Mô hình dựa trên XLM-R SG 2 11H như 35
3.3.2 Mô đun filter - 5 SE St E2 2121212121211 11112111 re 38
3.4 Kết hợp toàn hệ thống ¿+ ©tSE92E2E12E1232122122122121121121212121 21 re 40
3.5 Xây dựng giao diện cho hệ thống - - 2 ¿+2 +EE+E£E+E£EEEEZEeEEzEerkrrerkrree 43
3.5.1 Giao diện trang truy XUẤT - +: 2 E222 E211 1E Erree 433.5.2 Giao diện trang đọc hiỂU (11121215111 1511111115151 1111 E111 E111 rrr 453.5.3 Trang toàn bộ hệ thống - ¿+ +52 +E+E+E£EEEE+EEEEEEEEEEEEEEEEErrkrkrrrree 49Chương 4 THU NGHIỆM VA PHAN TÍCH - 2 2 + +E£+E+E£E££E+E+Ee£xzEzrree 52
4.1 Thử nghiệm - ch nh nh 52
4.1.1 Cai đặt thử nghiệm co.cc ccccscescesesscssessesssessesseesessssscsssessesssssssseaeeees 52
4.2 Phân tích phương phấp - - <6 1E E191 ng ngư 55
5.3 Hạn chế s 2c t 2x22 2E1211212712121121121121111121121121111111 1111.111 615.4 Hướng phat triỂn - 2 E29 EEEEEEEE12121211211171112111 1111111111 cxe 61
DANH MỤC CÔNG TRINH TÁC GIẢ - ¿2 ¿5252 2+2S22E£E+2EtEx+EExerrxerrrrerees 63
TÀI LIEU THAM KHẢO - 2-5: S552 SE9S22EEEE2EE21232121212121211 21112111212 tre, 64
0006 925 69
Trang 19DANH MỤC HÌNH VE
Hình 1.1.1 Google truy xuất đoạn văn và in đậm câu trả lời - 2-5 <2 =s¿ 5
Hình 2.2.1 Mô dun Retriever của Đỗ và các cộng sự -5-++s+s+x+c+c+eces 20
Hình 2.2.2 Mô hình IDr(QA - 5G 2c 2311123111111 1931111111911 1011111 1H Hy 21
Hình 2.2.3 Mô hình ViR€ader - - - 2 1121119510 119 11119 11 19v thư 22
Hình 3.2.1 Minh hoa mô dun SCOTITE - - 5 1111133311111 9 11 ng re 28
Hình 3.2.2 Minh họa mô đun RetrIeVer - SE E88 8811111 E v5 32
Hình 3.3.1 Tổng quan mô dun Reader - 2 ¿5c x+2++£++E++E£xezxezxzzezxezxee 34Hình 3.3.2 Minh họa huấn luyện mô hình cho bài toán đọc hiểu tự động 36
Hình 3.3.3 Mô đun Reader - - .- c1 1219 TH ng kg 37
Hình 3.3.4 Minh hoa mô đun FIÏ€r + SE SE kE v35 38
Hình 3.4.1 Mô hình tong quan hệ thống -2- ¿5c + 5225+2S+2E£x+zx+zzz+zxezxez 42Hình 3.5.1 Mô hình tổng quan giao diỆn - + 2 + +E£E+E+E££E+EeEeEzE+Eersrxez 44Hình 3.5.2 Minh họa giao diện truy xuấtt +- + 2 + +EEE+E+EEEEzEEEeErkrrerrreee 44Hình 3.5.3 Minh họa kết quả câu hỏi - 2-2 52 S2+E+E££E£E+EvEEEzEeEerxrkrrerereee 45Hình 3.5.4 Tổng quan hệ thống và giao diện mô hình đọc hiểu 46Hình 3.5.5 Giao diện chức năng đọc hiỂU St v11 E1 EEEEEEEEEkrkrkrkekrkes 47Hình 3.5.6 Giao diện kết quả đọc hiỀu -¿- + 2 52+E+E£££E+E+EEEEzEeEeErkerersreee 48Hình 3.5.7 Giao diện không có câu trả lời đọc hiều - 2-52 s+cz>s5+2 49Hình 3.5.8 Tổng quan hệ thống đọc hiểu tự động . -:-5 25255+55+2 50
Hình 3.5.9 Minh hoa giao diện trả lời câu hỏi - - <5 + ++kessseeresee 50
Hình 3.5.10 Giao diện kết quả hệ thống hỏi đáp - - 252 +ceczzxz£z£zsxez 51
Trang 20DANH MỤC BANG
Bảng 2.1.1 Minh họa dữ liệu SQuAD - cv ng ng ke 11
Bang 2.1.2 Minh họa bộ dữ liệu SQUAD 2.Ô - cay 13
Bang 2.1.3 Minh họa bộ dữ liệu UIT-VINewsQA Ă che re 14
Bang 2.1.4 Minh họa dữ liệu ViQuATD T.U - 2 c5 11+ Shin 16
Bang 2.1.5 Minh hoa bộ dữ liệu UIT-VIWIkIQA 2G se 17
Bảng 2.1.6 Số liệu tổng quát UIT-ViQuAD 2.0 -5255-522cccs+EszzEerxzrerxeree 18
Bang 2.1.7 Minh họa bộ dữ liệu UIT-VIQuAD 2.0 - - - Sssseisey 18
Bang 3.1.1 Ví dụ mô đun RuÌes -. 5 1139 1k vn ng ngư 25
Bảng 3.2.1 Ví dụ câu hỏi phụ thuộc ngữ cảnh - c5 c1 vvirseseeesre 29
Bảng 3.2.2 Phương pháp đánh giá giữa các câu - 55s ss++scessseereses 30
Bang 3.3.1 Minh hoa câu trả lời được chọn sau khi qua mô dun filter 40
Bang 4.1.1 Kết qua thử nghiệm mô hình Retriever - - ¿2-5 52+s+£z£z+sz2 54Bang 4.1.2 Kết qua thử nghiệm mô hình Reader 2-2-5 252 +£z£zz£+£z£z+xz2 54
Bang 4.1.3 Kết quả thử nghiệm hệ thống hỏi dap . - 2-5-5 2 22s+£s5s25+2 55 Bảng 4.2.1 So sánh kết quả các phương pháp . :- 2-52 +2s5++s+zszsezxzs+2 55
Bảng 4.3.1 Lỗi không có câu trả lời -¿-¿- 2552 5+2E+Sv£2E+EeEzvexexerxrrererervee 57
Bảng 4.3.2 Lỗi không nhận ra câu trả lời ¿- - 5 5 S22 £££££E+E+EzE+xexeeers 58 Bảng 4.3.3 Lỗi câu trả lời Sai 5-5-5 S5 S221 1212111111121 211121211111 e 59
Trang 21DANH MỤC TU VIET TAT
CL Computational Linguistics
MRC Machine Reading Comprehension
NLP Natural Language Prosessing
QA Question Answering
STR Sentence Transformer
VLSP Vietnam language and Speech Processing
XLM-R XLM-RoBerta
Trang 22TÓM TÁT KHÓA LUẬN
Hỏi đáp và Machine Reading Comprehension (MRC) là hai trong những bài toán
đang nổi lên trong những năm gan đây nhằm giải quyết kha năng đọc hiểu văn bản tựđộng Vấn đề đọc hiểu của máy đối với tiếng Việt có độ khó cao hơn so với tiếngAnh Vì tiếng Việt là ngôn ngữ có dấu, nên mô hình phải học từ nhiều ký tự hơn Hơn
nữa, nhiều từ khác nhau có nghĩa giống nhau hoặc những từ giống nhau nhưng trong
các ngữ cảnh khác nhau có nghĩa khác nhau rat dé làm cho mô hình dự đoán sai Đặcbiệt là đối với các câu hỏi sử dụng từ đồng âm hoặc từ đồng nghĩa Sự phức tạp của
bài toán này không chỉ là tìm câu trả lời cho câu hỏi mà còn phải xác định câu hỏi đó
có câu trả lời hay không Trọng tâm luận văn là tìm câu trả lời đúng cho câu hỏi, vì
đa số câu hỏi đều có câu trả lời Tuy nhiên, vẫn có một số trường hợp câu hỏi không
có câu trả lời thì mô hình cần dự đoán được các trường hợp như vậy Cũng như con
người, sẽ có trường hợp có những câu hỏi gây khó khăn khiến hệ thống không thể trả
lời được Câu hỏi không có câu trả lời năm trong những trường hợp sau đây:
e Trường hop 1: Khi hệ thống không truy xuất đến được đoạn văn có câu trả lời
(không tìm được đoạn văn có câu trả lời hoặc đoạn văn có câu trả lời không
ton tại trong dữ liệu được truy xuất)
e Trường hợp 2: Khi câu hỏi sai (không thể có câu trả lời chính xác), ví dụ như
"Lý do [+1 =3".
e Trường hợp 3: Khi con người chưa trả lời được câu hỏi đó, ví dụ như "Có bao
nhiêu chủng loại người ngoài hành tinh?".
Đối với câu hỏi có thê trả lời: hệ thống sẽ đưa ra đáp án phù hợp nhất Còn đốivới câu hỏi không trả lời được: dé trống câu trả lời thay vì đưa ra câu trả lời sai cho
câu hỏi đó.
Nhiệm vụ của chúng tôi đặt ra ở khóa luận là xây dựng một hệ thống hỏi đáp dựatrên đọc hiểu tiếng Việt với sự kết hợp giữa mô hình Retriever và mô hình MRC dànhcho tiếng Việt nhằm giải quyết những vấn đề trên
Trang 23Chúng tôi đã đạt được một số kết quả nhất định như kế thừa và cải tiễn thành
công mô hình Retriever từ Đỗ và các cộng sự [2] Bên cạnh đó chúng tôi cũng đã kết
hợp mô hình mà chúng tôi xây dựng từ cuộc thi VLSP 2021 với mô hình trên đề tạo
thành một hệ thống hỏi đáp tiếng Việt hoàn chỉnh Cuối cùng, chúng tôi phát triển
một giao diện dé người dùng có thé tương tác và có trải nghiệm tốt hơn cũng như làm
cho hệ thống có tính ứng dụng thực tiễn
Trang 24MỞ ĐẦU
Cuộc sông của mỗi người luôn gắn liền với các câu hỏi và câu trả lời Việc trả
lời câu hỏi diễn ra hàng ngày, hàng giờ trong đầu mỗi người dù họ có ý thức đượcviệc đó hay không Trả lời câu hỏi đôi khi chỉ để giải tỏa sự thắc mắc của mỗi người
như là: “Tại sao con chim lại biết bay?”, “Hôm nay ăn gì?” Nhưng trả lời câu hỏi đôikhi cũng có thể quyết định số phận của một người: “Tôi nên thi vào trường đại học
A hay B?” Có những câu hỏi có thể được giải đáp dé dàng chỉ với việc tra Google,hỏi bạn bè, thầy cô, nhưng cũng có những câu hỏi mãi vẫn chưa thé giải đáp đượcnhư là: “Có tồn tại người ngoài hành tinh hay không?” Google hiện nay là một công
cụ truy xuất những văn bản, tài liệu có khả năng chứa câu trả lời chứ không truy xuấtcâu trả lời Xuất phát từ nhu cầu đơn giản nhưng quan trọng là giải đáp thắc mắc củamỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu UIT-VIQuAD 2.0 [3], chúng tôithật sự mong muốn có thé xây dựng một hệ thống hỏi đáp có thé trả lời được các câu
hỏi đặt ra, đặc biệt hơn nữa là với tiếng Việt Thực tế, không phải câu hỏi nào cũng
có câu trả lời, và khi đó câu trả lời tốt nhất nên là “không biết”, ở đó mô hình đưa ra
dự đoán là chuỗi rỗng: “”’ Bộ dữ liệu UIT-ViQuAD 2.0 với 23.000 câu hỏi có đáp án
và 12.000 câu không thé trả lời sẽ giúp chúng tôi làm việc đó Đầu vào của bài toán
là một câu hỏi Hệ thống tiến hành truy xuất các tài liệu liên quan Đầu ra là câu trả
lời do mô hình dự đoán từ các tài liệu truy xuất được
Mục tiêu khóa luận của chúng tôi là xây dựng được một hệ thống hỏi đáphoàn chỉnh bao gồm mô hình truy xuất tài liệu và mô hình đọc hiểu tài liệu đạt được
độ chính xác cao Bên cạnh đó là xây dựng giao diện tương tác cho người dùng để
ứng dụng mang tính thực tiễn hơn.
Đối tượng nghiên cứu và phạm vi: Chúng tôi thực hiện xây dựng, đánh giátrước hết là trên bộ dit liệu UIT-ViQuAD 2.0 và sẽ mở rộng thêm các bộ dữ liệu khác
trong tương lai Đối tượng hướng đến là toàn bộ mọi người, những ai có nhu cầu giảiđáp những thắc mắc về kiến thức nhờ vào trí tuệ nhân tạo trên tiếng Việt
Trang 25Qua luận văn chúng tôi đã đạt được một số kết quả nhất định như phát triểnđược hệ thống Retriever có độ chính xác cao, xây dựng mô hình doc hiểu tự động đạt
độ chính xác cao và tổng hợp thành một hệ thống hỏi dap hoàn chỉnh Ngoài ra, chúngtôi cũng xây dựng thành công giao diện cho từng mô hình và trên toàn hệ thống Cuối
cùng, chúng tôi đạt hạng 4 chung cuộc trong cuộc thi VLSP-MRC 2021 và có một
bài báo được chấp nhận tại tap chi VNU Journal
Bài báo cáo luận văn của chúng tôi gồm có 5 chương
> Chương 1 là chương tông quan nhằm giới thiệu và giúp người đọc có cái nhìn
khái quát về đề tài
> Chương 2 là các công việc, bộ dữ liệu, mô hình liên quan trong quá trình
chúng tôi thực hiện khóa luận.
> Chương 3 là chương mô tả chỉ tiết về hệ thông hỏi đáp của chúng tôi.
Vv Chương 4 nhằm phan tích, dua ra kết qua thử nghiệm và lỗi
> Chương 5 là kết luận và hướng phát triển trong tương lai
Trang 26Chương 1 TONG QUAN
1.1 Giới thiệu hệ thống hỏi đáp dựa trên đọc hiểu tự động miền mở
Hệ thống hỏi đáp được xây dựng nhằm mục đích tìm kiếm câu trả lời cho người
dùng Hệ thống hỏi đáp là sự kết hợp của hai bài toán lớn trong lĩnh vực NLP là truy
xuât và đọc hiéu tự động.
Đối với bài toán truy xuất, hệ thống nổi tiếng nhất có thé ké đến là Google Chỉ
với thanh công cụ truy xuất đơn giản nhưng mạnh mẽ, Google truy xuất đến tất cảcác trang web chứa thông tin liên quan trong thời gian ngăn Điều đó giúp Google trở
thành trang web được truy cập nhiều nhất trong năm 2021 và có thể còn thống trị
trong nhiều năm tới vì nhu cầu tìm kiếm câu trả lời của con người diễn ra hàng ngày.Tuy nhiên, Google chỉ trả về các trang web có khả năng chứa câu trả lời và chỉ đưa
ra câu trả lời được bôi đậm trong đoạn văn đối với các câu hỏi đơn giản Hình 1.1.1minh họa câu trả lời bên trong đoạn văn do Google dự đoán, phần 1n đậm là câu trảlời cho câu hỏi người dùng nhập vào, trong NLP được biết đến là đọc hiểu tự động,
nghĩa là tìm ra câu trả lời dựa vào đoạn văn truy xuât được.
ai là người đầu tiên đặt chân lên mặt trăng xX mm 4$ Q
Q Tấtcả (8g Tintức ()Hinhanh E] Video : Thêm Công cụ
Khoảng 6.660.000 kết quả (0,48 giây)
Ngày 20/7/1969, Neil Armstrong cùng nhà du hành vũ trụ Buzz Aldrin trên tau vũ trụ
Apollo-11 đã đặt chân tới Mat Trăng trước sự chứng kiến của hàng trăm triệu khán giả xem
truyền hình trên toàn thế giới Ông đề lại câu nói nỗi tiếng: "Đây là bước chân nhỏ bé của
một con người, nhưng là bước nhảy vĩ đại của nhân loại".
Hình 1.1.1 Google truy xuất đoạn văn và in đậm câu trả lời
Hệ thống hỏi đáp có thê phân thành hai loại là hỏi đáp dựa trên miền mở vàhỏi đáp miền đóng Miền mở là nguồn kiến thức mà bat ky ai cũng có thé đóng gópnhư Wikipedia, ngược lại là miền đóng
Trang 27Dựa trên nguồn kiến thức văn bản được đào tạo cho các hệ thống hoi dap, hệthong hỏi đáp được chia thành hai loại: hệ thống hỏi đáp dựa trên tri thức, hệ thốnghỏi đáp dạng văn bản và hệ thống kết hợp Thật không may, nền tảng kiến thức chotiếng Việt không được phát triển như vậy Hiện nay, các hệ thống hỏi đáp cho tiếngViệt chưa nhiều trong khi tiềm năng của bài toán này là rất lớn vì dân số người ViệtNam là gần 100 triệu người Đặc biệt, hệ thống hỏi đáp dựa trên đọc hiểu tự động
trên phiên bản có thê trả lời hoặc không thé trả lời vẫn chưa có Vì vậy, chúng tôi tập
trung nghiên cứu bài toán hỏi đáp cho tiếng Việt cho phiên bản này
Đối với các nguồn tri thức phi cấu trúc (văn bản của tài liệu), đọc hiểu bằng máy(Machine Reading Comprehension), vốn là thành phần cốt lõi của hệ thống hỏi đáphiện đại, đã thu được nhiều thành tựu Hệ thong doc hiéu tu động nhận một câu hoi
và một tài liệu, và nó được yêu cầu tìm câu trả lời trong tài liệu đó
Khác với hệ thống hỏi đáp truyền thống, hệ thống hỏi đáp hiện nay kết hợpnhiều thành phần như phân tích câu hỏi, truy xuất tài liệu, lựa chon câu trả lời từ cáctài liệu truy xuất được Với sự phát triển nhanh chóng của các mô hình đọc hiểu sử
dụng kiến trúc mạng neural, đã có nhiều mô hình đạt được độ chính xác ngang bằng,
thậm chí vượt qua con người trên ngôn ngữ tiếng Anh với các bộ dữ liệu như SQuAD
1.0 và SQuAD 2.0.
Trong khóa luận này, chúng tôi xây dựng một hệ thống hỏi đáp dựa trên các mô
hình đọc hiểu tự động sử dụng nguồn tài liệu miền mở cho tiếng Việt Cách tiếp cậndựa trên mô hình đọc hiểu tự động có lợi vì: các hệ thong có thé sử dụng một số lượnglớn các tài liệu có săn làm nguồn kiến thức cho việc biểu diễn từ hoặc token bằng
cách sử dụng các mô hình ngôn ngữ được đào tạo trước (Pretrained-Model) Đối vớicác nguồn tri thức tài nguyên và các mô hình (chắng hạn như thuật toán truy xuất
thông tin và mô hình ngôn ngữ dựa trên máy biến áp được đào tạo trước) có thê thích
ứng dé dàng và hiệu quả.
Trang 28Dựa trên các công trình nghiên cứu từ trước về hệ thống hỏi đáp, chúng tôi kếthừa, nghiên cứu và phát triển thêm dé có thể xây dựng một hệ thống hỏi đáp mang
lại lợi ích cho người Việt.
1.2 Tổng quan về truy xuất tài liệu và đọc hiểu
1.2.1 Truy xuất tài liệu
Trước tiên, chúng ta nói đến một thuật ngữ quen thuộc trong NLP là trích xuất
thông tin Trong đó có nhiều bài toán con như trích xuất thời gian, địa điểm, tên riêng
từ một đoạn văn bản Hay trích xuất quan hệ (relation extraction) là bài toán tìm va
trích xuất dựa trên các quan hệ ngữ nghĩa trong văn bản Trích xuất quan hệ có liênkết chặt chẽ đến việc tìm ra các cơ sở dữ liệu liên quan, hay cấu trúc các nguồn trithức liên quan theo dạng đồ thị, là cách hữu ích đề các công cụ tìm kiếm tìm ra nguồnthông tin liên quan cho người dùng Truy xuất tài liệu là dạng bài toán như vậy Trong
đó, người dùng nhập vào thông tin cần tìm kiếm và nhiệm vụ của mô hình truy xuấttài liệu là trả về các tài liệu liên quan nhất đến người dùng Trong hệ thống của chúngtôi, các tài liệu là các đoạn văn từ Wikipedia tiếng Việt Nhiệm vụ của chúng tôi là
tối ưu hóa khả năng truy xuất dé tìm được các tài liệu liên quan nhất phục vụ cho bài
toán đọc hiểu
1.2.2 Bài toán đọc hiểu tự động
Bài toán đọc hiểu tự động (MRC), một thành phần quan trọng trong hệ thốnghỏi đáp đã có lịch sử ra đời từ lâu Có nhiều dạng bài toán đọc hiểu tự động như đọc
hiểu dựa trên cuộc hội thoại, đọc hiểu dé chọn đáp án trắc nghiệm, đọc hiểu dựa trên
tri thức (ví dụ như tính toán) và đọc hiểu tự động trích xuất khoảng (span-extraction
MRC) Hệ thống của chúng tôi được xây dựng dựa trên bộ dữ liệu MRC trích xuấtkhoảng vì đây là bộ dữ liệu phù hợp với bài toán truy xuất Hau hết các kiến thức cầntìm đều nằm trong các văn bản Chính vì vậy, việc truy xuất các văn bản chứa thôngtin liên quan và trích xuất câu trả lời từ văn bản rất phù hợp với một hệ thống hỏi đáp
có tính ứng dụng cao.
Trang 291.3 Tính ứng dụng của đề tài
Tuy chỉ là một công cụ nhìn có vẻ đơn giản với một đầu vào là câu hỏi và mộtđầu ra là câu trả lời, nhưng chúng tôi tin rằng hệ thông hỏi đáp là một ứng dụng khôngthê thiếu trong tương lai Trong bối cảnh lượng thông tin đang ngày càng gia tăng,việc tìm kiếm thông tin đúng trong thời gian ngắn là yêu cầu tối quan trọng Google
là một công cụ giúp chúng ta làm việc đó, vì nó truy xuất được các bài viết liên quantrong thời gian cực kỳ ngắn Năm 2021 Google là trang web được truy cập nhiều nhất
với khoảng 105 tỷ lượt, gấp gần 3 lần trang web đứng thứ hai là Youtube với khoảng36,4 tỷ lượt Và đáng ngạc nhiên rằng chỉ trong tháng 02 năm 2022 lượt truy cập
Google đã tăng lên đến 89,3 tỷ Điều đó cho thấy bên cạnh lượng dữ liệu không lồ
tăng rất nhanh theo cấp số nhân từng ngày thì nhu cầu tìm kiếm câu trả lời của conngười cũng nhiều hơn Tuy nhiên, Google không trả lời ngay lập tức mà con ngườivẫn phải tự đưa ra câu trả lời dựa vào các trang web trả về Trong thực tế điều này là
tốt, vì con người cần tự mình tư duy mà không nên quá phụ thuộc vào các công cụ
tìm kiếm Bên cạnh đó, các thông tin liên quan đôi khi cũng cần thiết dé bổ trợ chocâu trả lời Tuy nhiên, không phải lúc nào con người cũng cần tìm ra cả đoạn văn haybài viết mà thứ họ cần chỉ là tìm ra câu trả lời Chăng hạn, như khi đọc báo, nhữngngười viết báo thường đưa ra nhiều thông tin lan man và không tập trung vào thôngtin người đọc cần Như vậy, nếu có một hệ thống hỏi đáp sẽ giúp người dùng tiết kiệm
được rất nhiều thời gian mà vẫn đảm bảo tìm ra thông tin cần thiết.
Khi mà lượng thông tin trở nên lớn hơn, các tai liệu cho một câu hỏi cũng trở
nên nhiều hơn, nhưng câu trả lời cho một số câu hỏi ví dụ về chủ đề lịch sử thì chỉ cómột Do đó, hệ thống hỏi đáp giúp con người giảm tải các áp lực khi tìm kiếm câu trảlời trong bối cảnh có quá nhiều tài liệu liên quan
Trong cuộc sống, chúng ta đi học, đi làm cũng để tìm ra câu trả lời giúp pháttriển bản thân Một đứa trẻ hay hỏi được cho là thông minh, và người có thể trả lời
được nhiều câu hỏi được cho là hiểu biết rộng Hệ thống hỏi đáp cũng có thé giúp con
Trang 30người học tập và tim hiệu một cách nhanh nhât mà không bi nhàm chán vì những nội
dung lan man.
Ngoài ra, đây cũng là nền tảng cho hệ thống chatbot Hệ thống hỏi đáp có thêphát triển thêm dé trả lời được đa dạng các trường hợp Khi đã phát triển đến một độchính xác cao và phản hồi trong thời gian ngăn Hệ thống hoàn toàn có thé thay thé
con người dé giao tiếp với khách hàng trong đa dạng các lĩnh vực
Khi kết hợp với các mô hình học máy khác, hệ thống có thể tạo ra các sảnpham mang tính tương lai như Robot hay chuyên viên tu van AI, ứng dụng học tập
Nhận biết sự thiết thực cao của đề tài Chúng tôi đánh giá đây là một đề tài cực
kỳ thực tế và hữu dụng đối với mọi ngành nghề, mọi tầng lớp trong xã hội
Trang 31Chương 2 CAC CÔNG VIỆC LIÊN QUAN
2.1 Bộ dữ liệu
Dữ liệu đóng vai trò cực kỳ quan trọng cho bất kỳ bài toán NLP nào Dữ liệu
đúng và phù hợp thì các mô hình mới phát huy được hết khả năng của mình
Hệ thống của chúng tôi lay dữ liệu truy xuất từ nguồn Wikipedia tiếng Việt
Đây là miền dữ liệu mở với lượng thông tin lớn cho đa dạng các kiến thức khác nhau
Đối với phần đọc hiểu tự động (MRC), bài toán đã xuất hiện từ cách đây gần
80 năm Tuy nhiên, vì thiếu đữ liệu chất lượng nên bài toán không thé phát triển mạnh
cho tới thời gian gần đây, các bộ dit liệu liên quan đến MRC trên các ngôn ngữ ra đờiđóng góp quan trọng cho sự phát triển của của bài toán và có thé mở ra một kỷ nguyên
mới cho hướng đi của việc trả lời câu hỏi.
2.1.1 Các bộ dữ liệu nước ngoài
2.1.1.1 SQuAD
Có thé nói bộ dữ liệu trả lời câu hỏi được công bồ bởi đại hoc Stanford (SquAD[4]) là bộ đữ liệu hồi sinh cho bài toán đọc hiểu tự động trích xuất khoảng (span
extraction), tức câu trả lời là một khoảng liên tục bên trong đoạn văn đầu vào SQuAD
được công bố vào năm 2016 bao gồm các câu hỏi do cộng đồng đặt ra trên một tập
hợp các bài bao Wikipedia, trong đó câu trả lời cho mọi câu hỏi là một khoảng hoặc
một đoạn từ đoạn văn bản tương ứng Đây là một trong những bộ dữ liệu đọc hiểuthay déi MRC và ảnh hưởng rat lớn đến nhiều bộ dữ liệu đọc hiểu ra đời sau này baogồm cả ViQuAD 1.0 [3] va SQuAD 2.0 [4] Ở phiên bản SQuAD 1.1 chứa 107.785
cặp câu hỏi - trả lời trên 536 bài báo.
Ví dụ bộ dữ liệu SQuAD:
Doan văn ban: A prime number (or a prime) is a natrual number greater than 1
that has no positive divisors other than 1 and itself A natural number greater than
1 that is not a prime number is called a composite number For example, 5 is prime
10
Trang 32because | and 5 are its only positive integer factors, whereas 6 is composite because
it has the divisors 2 and 3 in addition to 1 and 6 The fundamental theorem of
arithmetic establishes the central role of primes in number theory: any integer
greater than 1 can be expressed as a product of primes that is unique up to ordering.
The uniqueness in this theorem requires excluding | as a prime because one can
include arbitrarily many instances of | in any factorization, e.g., 3, 1-3, 1-1- 3,
etc are all valid factorizations of 3.
(Số nguyên tố (hay nguyên tô) là số tự nhiên lớn hơn 1 không có ước số dương nàokhác 1 và chính nó Số tự nhiên lớn hơn 1 không phải là số nguyên tố được gọi làhợp số Ví dụ, 5 là số nguyên tổ vì 1 và 5 là các thừa số nguyên đương duy nhấtcủa nó, trong khi 6 là hợp số vì nó có các ước số 2 và 3 ngoài 1 và 6 Dinh lý cơ
bản của số học thiết lập vai trò trung tâm của số nguyên tố trong lý thuyết số: bat
kỳ số nguyên nào lớn hon 1 đều có thé được biéu thị dưới dạng tích các số nguyên
tố duy nhất theo thứ tự Tính duy nhất trong định lý này yêu cầu loại trừ 1 như một
số nguyên tô vì người ta có thé bao gồm tùy ý nhiều trường hợp của | trong bat kỳ
phép thừa nao, ví dụ: 3, 1 - 3, I - I1 - 3, v.v đều là thừa số hợp lệ của 3.)
Câu hỏi: What is the only divisor besides 1 that a prime number can have?
(Ước số duy nhất ngoài 1 mà một số nguyên tô có thể có là gi?)
Câu trả lời: itself itself itself itself itself
(chính nó / chính nó / chính nó / chính nó / chính nó)
Câu hỏi: What are numbers greater than 1 that can be divided by 3 or more
numbers called?
(Số lớn hon 1 có thé chia cho 3 hay nhiều số được gọi là gì?)
Câu trả lời: composite number composite number composite number primes
(số tông hợp / số tổng hợp / số tong hợp / số nguyên tố)
Bảng 2.1.1 Minh họa dữ liệu SQuAD.
11
Trang 332.1.1.2 SQuAD 2.0
Phiên bản SQuAD 1.0 giải quyết được vấn đề trả lời câu hỏi có trong đoạn
văn, tức là đoạn văn đầu vào buộc phải chứa câu trả lời cho câu hỏi Nhưng dé ungdụng đến người dùng thì phải giải quyết cả trường hợp câu hỏi không thé trả lời được,
đôi khi do người dùng đặt câu hỏi sai hoặc đoạn văn đầu vào không chứa câu trả lờicho câu hỏi Dé giải quyết những điểm yếu này, tác giả giới thiệu SQuAD 2.0 [5] -phiên bản mới nhất của Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD) SQuAD 2.0 kếthop dir liệu SQUAD hiện có với hơn 50.000 câu hỏi không thể trả lời được thêm bởi
những người gán nhãn dữ liệu, kèm theo đó là các câu trả lời gây nhiễu cho mô hình
(những câu mà con người có thé trả lời sai khi đọc không kỹ đoạn văn) Dé làm tốtSQuAD 2.0, hệ thống không chi trả lời câu hỏi khi có thé, mà còn phải xác định khinào thì câu hỏi không thê tìm ra câu trả lời trong đoạn văn và dự đoán là chuỗi rỗng.SQuAD 2.0 là một nhiệm vụ hiểu ngôn ngữ tự nhiên day thách thức đối với các môhình hiện có: một hệ thong neural manh mé dat 86% F1 trén SQUAD 1.1 chi dat 66%F1 trên SQUAD 2.0 Đây cũng là nguồn cảm hứng phát triển bộ dit liệu UIT-ViQuAD
2.0 được chúng tôi sử dụng dé huấn luyện mô hình đọc hiểu tự động
Ví dụ bộ dữ liệu SQuAD 2.0:
Tiêu dé: “Normans” (Nguoi Norman)
Doan van ban: “The Normans (Norman: Nourmands; French: Normands; Latin:
Normanni) were the people who in the 10th and 11th centuries gave their name to
Normandy, a region in France They were descended from Norse ("Norman" comes
from "Norseman") raiders and pirates from Denmark, Iceland and Norway who,
under their leader Rollo, agreed to swear fealty to King Charles II of West Francia.
Through generations of assimilation and mixing with the native Frankish and
Roman-Gaulish populations, their descendants would gradually merge with the
Carolingian-based cultures of West Francia The distinct cultural and ethnic
12
Trang 34identity of the Normans emerged initially in the first half of the 10th century, and
it continued to evolve over the succeeding centuries.”
(Người Norman (tiếng Norman: Nourmands; tiếng Pháp: Normands; tiếng Latinh:Normanni) là những người vào thé ky 10 và 11 đã đặt tên cho Normandy, một vùng
ở Pháp Họ là hậu duệ của người Bắc Âu ("Norman" đến từ "Norseman") những kẻ
cướp biển và Cướp bién từ Đan Mach, Iceland và Na Uy, những người dưới sự lãnhđạo của họ Rollo, đã đồng ý thể trung thành với Vua Charles III của Tây Francia.Trải qua nhiều thế hệ đồng hóa và hòa trộn với các dân tộc Frankish và La Mã-
Gaulish bản địa, con cháu của họ sẽ dan dần hợp nhất với các nền văn hóa dựa trên
Carolingian của Tây Francia Bản sắc văn hóa và dân tộc khác biệt của ngườiNorman xuất hiện ban đầu vào nửa đầu thế kỷ 10, và nó tiếp tục phát triển trongnhững thế kỷ tiếp theo.)
Câu hỏi 1: In what country is Normandy located?
(Normandy nằm ở quốc gia nào?)
Câu trả lời: France (Pháp)
Câu hỏi 2: Who gave their name to Normandy in the 1000's and 1100's?
(Ai đã đặt tên của ho là Normandy vào những năm 1000 và 11002)
Câu trả lời hợp lí (sai): Normandy
Bảng 2.1.2 Minh họa bộ dữ liệu SQuAD 2.0
2.1.2 Các bộ dữ liệu cho tiếng Việt
2.1.2.1 UIT-ViNewsQA
Đây là bộ dữ liệu dành cho đọc hiểu tiếng Việt tổng hợp các bài báo về sứckhỏe UIT-ViNewsQA [6] được xuất bản vào tháng 1 năm 2020 ViNewsQA nhưmột kho ngữ liệu mới cho tiếng Việt dé đánh giá các mô hình đọc hiểu chăm sóc sứckhỏe Kho ngữ liệu bao gồm 22.057 cặp câu hỏi-câu trả lời do con người tạo ra
13
Trang 35Những người gán dữ liệu tạo ra các câu hỏi và câu trả lời của họ dựa trên bộ sưu tập
hơn 4.416 bài trực tuyên về chăm sóc sức khỏe của Việt Nam, trong đó các câu trả lời bao gôm các khoảng được trích ra từ các bài báo tương ứng Đặc biệt, tác giả xây
dựng quy trình tạo kho ngữ liệu cho phan đọc hiểu tiếng Việt của máy
Ví dụ bộ dữ liệu UTT-VINewsQA:
Đoạn văn bản: Nghiên cứu cho thấy resveratrol trong rượu vang đỏ có khả nănglàm giảm huyết áp, khi thí nghiệm trên chuột Resveratrol là một hợp chất trong vỏ
nho có khả năng chống oxy hóa, chống nắm mốc và ký sinh trùng Trên Circulation,
các nhà khoa học từ King’s College London (Anh) công bồ kết quả thí nghiệm tìm
ra sự liên quan giữa chuột và resveratrol Cụ thé, resveratrol tác động đến huyết áp
của những con chuột này, làm giảm huyết áp của chúng
Câu hỏi 1: Chất bồ trong vỏ nho có tác dụng gì?
Câu trả lời: có khả năng chống oxy hóa, chống nắm mốc và ký sinh trùng
Câu hỏi 2: Các nhà khoa học từ trường King's tìm ra phát hiện gì về loài chuột và
Hàn Quốc, Trên tiếng Việt, Nguyễn va các cộng sự cũng xây dựng bộ dữ liệu đọc
hiểu tự động với cấu trúc tương tự Bộ dữ liệu này bao gồm hơn 23.000 cặp câu hỏi
- câu trả lời do con người tạo ra dựa trên 5.109 đoạn văn của 174 bài báo tiếng Việt
từ Wikipedia Đặc biệt, tác gia đề xuất một quy trình tạo bộ dữ liệu mới cho MRC
Việt Nam Các phân tích chuyên sâu của tác giả minh họa rằng bộ dit liệu của tác giả
14
Trang 36yêu cầu các khả năng ngoài suy luận đơn giản như đối sánh từ và yêu cầu các suyluận một câu và nhiều câu Bên cạnh đó, tác giả tiễn hành thử nghiệm các phương
pháp MRC hiện đại cho tiếng Anh và tiếng Trung như mô hình thử nghiệm đầu tiên
trên UIT-ViQuAD Tác giả cũng ước tính hiệu suất của con người trên bộ dữ liệu và
so sánh nó với kết quả thử nghiệm của các mô hình học máy mạnh mẽ Do đó, sựkhác biệt đáng ké giữa hiệu suất của con người và hiệu suất của mô hình tốt nhất trên
bộ dữ liệu cho thay rằng các cải tiến có thé được thực hiện trên UIT-ViQuAD trong
nghiên cứu trong tương lai Bộ dữ liệu của tác giả được cung cấp miễn phí trên trang
web của tác giả để khuyến khích cộng đồng nghiên cứu vượt qua những thách thứctrong MRC Việt Nam Bộ dữ liệu đầu tiên lấy nguồn từ Wikipedia tiếng Việt được
xuất bản vào tháng 9 năm 2020 Độ chính xác của bài toán trong phiên bản 1.0 của
UIT-ViQuAD hiện đạt độ chính xác cao nhất là 89,54%.
Vi dụ bộ dữ liệu UIT-ViQuAD 1.0:
Doan văn bản: Thuật ngữ dé chỉ thực vật hạt kin là \"Angiosperm\", có nguồn gốc
từ tiếng Hy Lạp cô đại œyyetov (chỗ chứa) và øxepuơ (hat), được Paul Hermann tạo
thành dưới dạng thuật ngữ Angiospermae vào năm 1690, như là tên gọi của một
trong các ngành chính trong giới thực vật của ông, nó bao gồm thực vật có hoa và
tạo ra các hạt được bao phủ trong các bao vỏ (quả nang), ngược lại với
Gymnospermae của ông, hay thực vật có hoa với các quả thuộc loại quả bế hay quả
nứt - toàn bộ quả hay mỗi miếng riêng rẽ của nó được coi như là hạt và trần trụi
Thuật ngữ nay va từ trái nghĩa của nó đã được Carolus Linnaeus duy tri với cùng
ngữ cảnh, nhưng với các ứng dụng hạn hẹp hơn, như trong tên gọi của các bộ trong
lớp Didynamia của ông Việc sử dụng nó trong bất kỳ cách tiếp cận nào đối với
lĩnh vực hiện đại của nó chỉ trở thành có thé sau khi Robert Brown thiết lập vàonăm 1827 sự tồn tại của các noãn trần thực sự trong Cycadeae (Tuế) và Coniferae(Thông), cho phép gọi chúng một cách chính xác là thực vật hạt trần Từ thời điểm
này trở đi, cũng giống như Gymnosperm được dùng dé chỉ thực vật hat trần thi
15
Trang 37thuật ngữ Angiosperm đã được nhiều nhà thực vật học dùng với ý nghĩa đối lập,
nhưng với giới hạn thay đôi, như là tên nhóm cho các thực vật hai lá mầm khác
Câu hỏi: Thuật ngữ thực vật hat kín Angioosperm được định nghĩa đầu tiên trên
ngôn ngữ nào?
Câu trả lời: tiếng Hy Lạp
Bảng 2.1.4 Minh họa dữ liệu ViQuAD 1.0.
đôi dé tạo tập dữ liệu cho việc đọc hiểu tự động dựa trên trích xuất câu và ba loại
phương pháp tiếp cận dé đọc hiéu tự động dựa trên trích xuất câu bang tiéng Việt
Bên cạnh đó, tác giả cũng phân tích kết quả thử nghiệm về loại câu hỏi trong tiếngViệt và ảnh hưởng của ngữ cảnh đến hiệu suất của các mô hình MRC, từ đó chỉ ra
những thách thức từ bộ dữ liệu UIT-ViWikiQA mà tác giả đề xuất với cộng đồng
xử lý ngôn ngữ Day là bộ dit liệu được chuyền đổi từ bộ dữ liệu UIT-ViQuAD dé
đánh giá khả năng đọc hiểu của máy dựa trên trích xuất câu bằng tiếng Việt Tập dữ
liệu được phát hành vào tháng 5 năm 2021.
Vi dụ bộ dữ liệu UIT-ViWikiQA:
Doan văn bản: Paris năm ở điểm gặp nhau của các hành trình thương mại đường
bộ và đường sông, và là trung tâm của một vùng nông nghiệp giàu có Vào thế kỷ
10, Paris đã là một trong những thành phó chính của Pháp cùng các cung điện
hoàng gia, các tu viện và nhà thờ Từ thế kỷ 12, Paris trở thành một trong những
trung tâm của châu Âu về giáo dục và nghệ thuật Thế kỷ 14, Paris là thành phố
quan trọng bậc nhất của Cơ Đốc giáo và trong các thế kỷ 16, 17, đây là nơi diễn
16
Trang 38ra Cách mạng Pháp cùng nhiều sự kiện lịch sử quan trọng của Pháp và châu Âu.
Đến thế kỷ 19 và 20, thành phó trở thành một trong những trung tâm văn hóa của
thế giới, thủ đô của nghệ thuật và giải trí
Câu hỏi: VỊ trí địa lý của Paris có gì đặc biệt?
Câu trả lời: Paris nằm ở điểm gặp nhau của các hành trình thương mại đường bộ
và đường sông, và là trung tâm của một vùng nông nghiệp giàu có.
Bảng 2.1.5 Minh họa bộ dữ liệu UIT-ViWikiQA.
2.1.3 Bộ dữ liệu chính
Phiên bản đầu tiên của UIT-ViQuAD 2.0 là UIT-ViQuAD 1.0, một bộ dữ liệuđược phát triển dựa trên SQuAD 1.0 Bộ dữ liệu chứa hơn 23 000 cặp câu hoi-cau trảlời trên hơn 170 bài báo được trích xuất từ Wikipedia Các tiêu đề từ bộ dữ liệu đượclây từ các bài báo thứ hạng cao trên Wikipedia; mỗi tiêu đề chia thành nhiều đoạn,mỗi đoạn có nhiều câu hỏi Câu trả lời là một khoảng liên tục được trích từ đoạn văn
Bộ dữ liệu này được cung cấp lần đầu tại Proceedings of the 8" InternationalWorkshop on Vietnamese Language and Speech Processing (Hội thảo Quốc tế về Xử
lý Giọng nói và Ngôn ngữ Tiếng Việt lần thứ 8) (VLSP 2021) cho nhiệm vụ đọc hiểu
tự động UIT-ViQuAD 2.0 kết hợp 23 000 câu hỏi trong UIT-ViQuAD 1.0 với hơn
12 000 câu hỏi không thể trả lời Điểm khác biệt so với phiên bản 1.0 là mỗi câu hỏi
có thể trả lời hoặc không Tương tự như bộ UIT-ViQuAD 1.0, câu trả lời cho mỗi câu
hỏi là một khoảng được trích ra từ đoạn văn Câu trả lời là văn bản rỗng cho câu hỏi
không trả lời được và thêm trường câu trả lời gây nhiễu (con người và mô hình thường
chọn nhưng thực tế không phải câu trả lời đúng) Với bộ dữ liệu UIT-ViQuAD 2.0,
hệ thống MRC phải trả lời các câu hỏi khi có thể và xác định khi nào ngữ cảnh không
hỗ trợ câu trả lời Bảng 2.1.7 cho thấy tổng số câu hỏi trong UIT-ViQuAD 2.0 là35,990 Ngoài ra, bảng này cũng liệt kê số lượng bài báo, đoạn văn và câu hỏi không
trả lời được trong bộ dữ huấn luyện, đánh giá và thử nghiệm của bộ dữ liệu
17
Trang 39Train Public Test Private Test All
Number of articles 138 19 19 176
Number of passages 4,101 557 515 5,173
Number of total questions 28,457 3,821 3,712 35,990
Number of unanswerable 9,217 1,168 1116 11,501 questions
Bang 2.1.6 Số liệu tổng quát UIT-ViQuAD 2.0
Ví dụ cho bộ dt liệu UIT-ViQuAD 2.0:
Đoạn văn bản: Mã máy nhị phân (khác với mã hợp ngữ) có thê được xem như làphương thức biểu diễn thấp nhất của một chương trình đã biên dịch hay hợp dịch,hay là ngôn ngữ lập trình nguyên thủy phụ thuộc vào phần cứng (ngôn ngữ lập trìnhthé hệ đầu tiên) Mac dù chúng ta hoàn toàn có thể viết chương trình trực tiếp bằng
mã nhị phân, việc này rất khó khăn và dễ gây ra những lỗi nghiêm trọng vì ta cần
phải quản lý từng bit đơn lẻ và tính toán các địa chỉ và hằng số học một cách thủcông Do đó, ngoại trừ những thao tác cần tối ưu và gỡ lỗi chuyên biệt, chúng ta rấthiểm khi làm điều này
Câu hỏi 1: Ngôn ngữ lập trình thế hệ đầu tiên là ngôn ngữ gì?
Câu trả lời: Mã máy nhị phân
Câu hỏi 2: Ngôn ngữ lập trình hợp ngữ đầu tiên là ngôn ngữ gi?
Câu trả lời: “”
Cau tra lời hợp lí (sai): Mã máy nhị phân
Bang 2.1.7 Minh họa bộ dữ liệu UIT-ViQuAD 2.0.
2.2 Các mô hình liên quan
Cùng với các bộ dữ liệu là các mô hình tiêu biêu đạt độ chính xác cao, đê từ
đó chúng tôi có thé so sánh và phát triển
18
Trang 402.2.1 ViQAS
Ở mô hình hệ thống, chúng tôi kế thừa phần lớn mô đun Retriever (hình 2.1.1)
từ công trình của Đỗ và các cộng sự [2], và phát triển thêm Mô đun Retriever sửdụng nên tảng là sự liên quan giữa các câu trong đoạn văn dai với câu hỏi Chúng tôiđánh giá phương pháp này có thé sử dụng trong nhiều trường hợp với mối liên hệ
giữa các câu trong đoạn văn hay giữa các câu với câu hỏi về mặt ngữ cảnh ở mức độ
đơn giản Điểm yêu của cách tiếp cận này sẽ bộc lộ ở những trường hợp có ngữ cảnhphức tạp liên quan với nhau hay câu hỏi cần câu trả lời kết hợp giữa nhiều câu trong
đoạn văn.
19