Chúng tôi xây dựng bộ dữ liệu đọc hiểu tự động suy luận số liệu đầu tiên trên tiếngViệt, ViCOVIDQA từ những bài báo chủ đề Covid-19 với quy trình xây dựng dit liệu nghiêm ngặt và sự sáng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
LE VIET THANG
KHOA LUAN TOT NGHIEP
NGHIÊN CUU ĐỌC HIEU TỰ DONG DỰA TREN SUY
LUAN SO LIEU CHO VAN BAN TIENG VIET CHU DE
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC VA KĨ THUAT THONG TIN
LÊ VIET THANG - 18520356
KHOA LUAN TOT NGHIEP
NGHIÊN CỨU ĐỌC HIẾU TU ĐỘNG DỰA TREN SUY
LUẬN SO LIEU CHO VĂN BAN TIENG VIET CHỦ DE
COVID-19
COVID-19 VIETNAMESE MACHINE READING
COMPREHENSION WITH NUMERICAL REASONING
CỬ NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS NGUYEN VAN KIET
TP HO CHÍ MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
Ti8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LOI CAM ON
Được trở thành sinh viên cua Trường Dai học Công nghệ Thông tin và có những
trải nghiệm ban dau đặt nền móng sự nghiệp tin at hẳn không chỉ là niềm vinh dự của riêng em mà còn của nhiều sinh viên khác đã và đang theo học tại trường.
Trong suốt quá trình học tập và rèn luyện của mình tại Khoa Khoa học và Kỹ thuật Thông tin, em luôn nhận được sự giúp đỡ, động viên, và hướng dẫn tận tâm của
thdy cô, các anh chị khóa trên va ban bè.
Trước hết, em xin gửi lời cảm ơn chân thành đến thấy ThS Nguyễn Văn Kiệt đã hướng dẫn chủ đề một cách tận tình, đề ra nhiều hướng nghiên cứu thú vị, tìm tài liệu
liên quan và theo sát dé hướng dan em hoàn thành khóa luận tốt nghiệp một cách tốt nhất.
Em cũng xin được gửi lời cảm ơn sâu sắc đến thay TS Lương Ngọc Hoàng, tuy không trực tiếp hướng dan đề tài này nhưng thay là người giúp em đưa ra hướng kiểm tra
các giả thuyết trong thí nghiệm và trình bày khóa luận, động viên em lúc mệt mỏi để
có thể tự tin đi được hết chặng đường này.
Cam ơn anh Lưu Thanh Sơn và thay TS Đỗ Trọng Hợp với những kiến thức chuyên
sâu về Machine Learning và những buổi thảo luận ý nghĩa giúp em hiểu được nhiều vấn dé khoa học, cảm on thay TS Nguyễn Gia Tuấn Anh vì những câu chuyện và
những ví dụ di dỏm cua thdy để sinh viên thoải mái nhất trong những giờ học trực tuyến.
Đặc biệt hơn cả, em mong muốn được bày tỏ lòng biết ơn của mình đến quý thay cô
ở UIT nói chung và toàn thể đại gia đình Khoa Khoa học và Kỹ thuật Thông tin nói riêng, những người trẻ tuổi, tài năng và nhiệt huyết luôn tạo cho sinh viên môi trường năng động và sáng tạo dé mài dũa khả năng và tiếp thêm ngọn lửa đam mê dé chúng
em vững bước trên con đường sự nghiệp.
Cuối cùng nhưng không kém phân quan trọng; em muốn gửi lời cảm ơn tới những người bạn cũng là những người anh em ở nhóm “Mùa sau nghỉ game” là Trần Đăng
Trang 5Khoa, Hoàng Đình Quang, Phan Lực Lượng, Nguyên Thế Mạnh và Phạm Huỳnh
Phúc đã đồng hành cùng em trong học tập và cuộc sống, và hỗ trợ hết mình để em có
thể hoàn thành nghiên cứu này một cách trọn vẹn và chỉnh chu nhất.
Mot lần nữa, tận đáy lòng mình, em chân thành cảm ơn !
Tác giả
Lê Việt Thắng
Trang 6MỤC LỤC
Chương1 GIỚI THIỆU esseereeeeeeeeereseeeeeser LD
1.1 Đặt vấn đề eeeeiiiriiririirirararrreaou T3 1.2 Bài toán đọc hiểu tự động suy luận số liệu và tính ứng dụng 1
1.2.1 _ Bài toán đọc hiểu tự động suy luận số liệu 14
1.2.2 _ Tính ứng dụng của đề tài eecceeeeerrsoo LD
1.2.3 Mục tiêu: eeiiiiiiiiiieiareersor LO
1.2.4 _ Đối tượng và phạm vi nghiên cứu: - e -eee LO
1.3 Kết quả nghiên cứu: eeeeeeeeeeereerererrrrrrrrrrrrrreoe T7 1.4 Cấu trúc của luận Van iinet T7 Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN 19
PRE CA AY, eC)
2.2 Các bộ dữ liệu đọc hiểu tự động liên quan «. 19
2.2.1 Các bộ dữ liệu tiếng nước ngoài - e e- LO
2.2.1.1 Các bộ dữ liệu đọc hiểu tự động rút trích từ đoạn văn 20
2.2.1.2 Các bộ dữ liệu trắc nghiệm nhiều đáp án 22
2.2.2 Cac bộ dữ đọc hiểu tự động tiếng Việ
2.3 Các phương pháp giải quyết bài toán đọc hiểu tự động hiện nay 24
2.3.1 QANct
2.3.2 NAQANet ii 27 2.3.3 NumNet
2.4 Các phương pháp đánh giá bài toán đọc hiêu tự động 3.3 2.4.1 ACCUYACY cc.HHHHHHHHHHHHHhhhhhhareirrie OO 2.4.2 F1-SCOFG c2
Trang 72.4.3 Exact MafCHh 5 5-5 sskxkEEEEkEEEErEkEEkkEkEkrkrkerrkrkrrkrrrrererrsrkrerrsreee 34
2.5 (ca sẽ 35
Chương 3 XÂY DỰNG BỘ DỮ LIỆU 22++++cc2EEEEttrrcrrrvrrrrrrrre 37
3.1 MG ca 37
3.2 Quy trình xây dựng bộ dữ liệu -c<+cexeeriseriikreriiiirriree 38
3.2.1 Tuyển dụng annotator và xây dựng Guidelines 39
3.2.1.1 Tuyển dụng annofatOF ccvececccvcvvveeereervvveererrrrreeerirrrrree 39
3.2.1.2 Xây dựng GuidelÏfes ccrrierrriirtrrirrtriirirrrriirrrrrree 40 3.2.2 _ Thu thập bài báo -c-ccccrrrerrrrrrrrtrrrrirrrtrrrrrrrrrrrrrrrrrrrree 45
3.2.3 — Tạo câu hỏi và câu trả lờii « cccccsececesersseretrsrrsserserreee 46
3.2.4 Kiểm tra dữ liệu cc-vecscccresirrrrritrtrrrirtrrirrrrrkrree 47
3.2.5 _ Thu thập thêm câu trả lời -cecescreeerrerreerrrrrrrrrrrrerrre 47
3.3 Phân tích bộ dữ liệu ViCOVIIDQA cccccccrriikiriirirriirirree 48
3.3.1 Phân tích tổng quan ViCOVIDQA c -ccccccccsccccceee 48
3.3.2 Phan tích loại suy luận của câu hỏi ccccccsccccccserrsercres 49
3.3.3 _ Phân tích loại câu hỏi -ccccccccreeerteerretsrrertrrrrrsrrrerrreee 51 3.3.4 Phân tích theo độ dài -cccecceeriierierrrerireririrrrierrrrie 52
3.3.5 _ Chủ đề các đoạn văn của ViCOVIDQA -.cccccscccreesree 54
3.4 Kết Luận cceerrrrrrririrriiiiririrrrrre 56
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ - - 57
4.1 Mở đầu ehhihHHHHHH HH 57
4.2 Cài đặt thực nghiém ecsessecsssecssecsessssecssecsssecssessseeessesseessaseessessaseessersueesaeessessaeessaes 57
4.3 Phân tích kết quả thực nghiệm -22:+cee2treeEtrrervtrrrrtrrrrrrrre 59
4.3.1 Kết quả thực nghiệm -cccccccvcvveesrerrrrveesrrrrrrrrerrrre 59
Trang 84.3.2 _ Phân tích kết quả -. -cccrrkierrrrrrrrriiiirrrrrrriie 61
4.3.2.1 Phân tích loại suy luận -. -ce-rireririiiiririiree 62
4.3.2.2 Phân tích độ dài đoạn văn -c -scccsccveereerxeertsrrrrssers 63 4.3.2.3 Phân tích độ dài câu hỏi -cceereccceerreceerrrrererrrree 64
Trang 9DANH MỤC HÌNH
Hình 2.1: Kiến trúc của mô hình QA Net . -cccccccccccriiiiieesevsvvvrrrrrrrrrrrseree 26
Hình 2.2: Kiến trúc mô hình NAQANGI SH 28Hình 2.3 Kiến túc của mô hình NumNet [35] ccccccvececvevevvvvvvvvvverrrrrrrre 30
Hình 3.1: Minh họa quy trình xây dựng bộ dữ liệu VICOVIDOA 39
Hình 3.2: Tỉ lệ các chủ dé bài báo trong ViCOVIDQA -cccerrcee 55Hình 4.1: Kết quả đánh giá hiệu suất các thực nghiệm theo loại suy luận trong tập
kiểm thử của ViCOVIDQA -::-:ccc222222222EE2111121 411111111121 1111111.1 ee 62
Hình 4.2: Kết quả đánh giá hiệu suất của các thực nghiệm theo độ dài tối đa của
đoạn văn ở các khoảng độ dài trên tập kiểm thử VICOVIDQA 64Hình 4.3: Kết quả đánh giá hiệu suất của các thực nghiệm theo độ dài tối đa của câuhỏi theo các khoảng độ dài trên tập kiểm thử ViCOVIDQA 64
Trang 10DANH MỤC BANG
Bang 1.1 Ví dụ bài toán đọc hiểu tự động suy luận số liệu 14
Bảng 3.1: Ví dụ câu hỏi trích xuất từ đoạn văn và câu hỏi suy luận số liệu 37
Bảng 3.2 Một số ví dụ về các loại câu hỏi suy luận +41
Bang 3.3: Bang mô tả các loại câu hỏi của ViCOVIDQA 5
Bảng 3.4: Tổng quan bộ dữ liệu ViCOVIDQA ssseeses 48
Bang 3.5 Tỉ lệ các loại câu hỏi suy luận có trong VICOVIDQA AD Bảng 3.6: Bang thống kê các loại câu hỏi có trong ViCOVIDQA 5 1 Bảng 3.7: Tỉ lệ độ dài của các đoạn văn trong ViCOVIDQA theo các khoảng độ dài wn DZ Bang 3.8: Tỉ lệ độ dài của câu hỏi va câu trả lời trong ViCOVIDQA theo các khoảng độ ai sesesesssssssssssssssssssssssssssesssssssssesssssssssssesssssssssessssnssssessssnssssssssssssssessssnsssssssssssssssssssssssss DD Bang 4.1: Kết quả các thực nghiệm trên VICOVIDQA 2 Ở Bang 4.2: Kết quả các thực nghiệm trên ViQuAD «-e-ee- OL Bảng 4.3: Kết quả nghiên cứu cắt bỏ mô đun suy luận trong mô hình NumNet trên tập dữ liệu kiểm thử của ViCOVIDQA (dấu X thé hiện cho việc sử dụng mô dun đó trong thực nghiệm) 66
Trang 11DANH MỤC TU VIET TAT
STT Từ viết tắt Ý Nghĩa
1 EM Exact Match
2 MRC Machine Reading Comprehension
3 NAQANet Numerically-aware QANet model
4 FFN Feed-forward Neural Network
5 CNN Convolutional Neural Netwok
6 RNN Recurrent Neural Network
Trang 12TÓM TẮT KHÓA LUẬN
Trong thời điểm dịch bệnh Covid-19 diễn biến phức tạp như hiện nay đã anh hưởngrất nhiều đến cuộc sống và sinh hoạt của con người trên toàn thế giới Hàng ngày,hàng giờ luôn có hàng trăm, hàng nghìn tin tức về diễn biến dịch bệnh luôn được cậpnhật trên các trang thông tin điện tử, báo điện tử dé giúp mọi người cập nhật được
thông tin dịch bệnh và giúp tự bảo vệ sức khỏe cho mình Tận dụng nguồn dữ liệuđồi dào này và kết hợp với sự phát triển của bài toán đọc hiểu tự động trong những
năm gần đây, đặc biệt là bài toán đọc hiểu tự động suy luận số liệu Chúng tôi thựchiện nghiên cứu này nhăm mục đích xây dựng một hệ thống đọc hiểu tự động suyluận số liệu chủ đề Covid-19 trên tiếng Việt
Chúng tôi xây dựng bộ dữ liệu đọc hiểu tự động suy luận số liệu đầu tiên trên tiếngViệt, ViCOVIDQA từ những bài báo chủ đề Covid-19 với quy trình xây dựng dit liệu
nghiêm ngặt và sự sáng tạo trong cách đặt những câu hỏi suy luận giúp tạo ra tính
thách thức rất cao trong ViCOVIDQA, đặt nền móng đầu tiên cho hướng nghiên cứu
bài toán đọc hiểu tự động suy luận số liệu trên tiếng Việt Bên cạnh việc xây dựng dữ
liệu, chúng tôi còn tiễn hành đánh giá hiệu suất của hai mô hình đọc hiểu tự động suy
luận là NAQANet và NumNet trên ViCOVIDQA Sau quá trình đánh giá, chúng tôi
thu được kết quả tốt nhất trên tập kiêm thử là 22.37% EM va 26.58% F1 khi thực
nghiệm với mô hình NAQANet và dé hiéu rõ hơn về các mô hình này, chúng tôi phân
tích kĩ hơn về hiệu suất của các mô hình thông qua nhiều khía cạnh khác nhau của
ViCOVIDQA.
12
Trang 13Chương 1 GIỚI THIỆU
Moi người dân có thé dé dàng tiếp cận với nguồn thông tin chính thống về chính sách
và chỉ đạo của cơ quan nhà nước về diễn biến dịch bệnh một cách nhanh nhất đồng
thời cũng tránh được rủi ro người dân tiếp cận với những nguồn thông tin sai lệch,gây mất trật tự, an toàn xã hội và đặc biệt hơn còn ảnh hưởng không tốt đến nhận
thức của cộng đông.
Góp một phần không nhỏ vào công cuộc phòng, chống Covid-19 và khôi phục nềnkinh tế không thé không kể đến các ứng dụng trí tuệ nhân tạo Day được xem nhưmột công cụ hỗ trợ đắc lực dé không chỉ kiểm soát diễn biến lây lan dịch bệnh, đưa
ra dự đoán cho các nhà hoạch định, mà còn giúp các nhân viên y tế chân đoán tình
hình sức khỏe của bệnh nhân thông qua tiếng ho, dự đoán Covid-19 qua ảnh chụp CT
phdi, rut ngăn thời gian điều trị và mang lại hiệu quả cao trong công tác y tế
Nhận thức được tầm quan trọng của việc được tiếp cận các nguồn thông tin chính xácliên quan đến tình hình dịch bệnh và những tiện ích mà trí tuệ nhân tạo mang lại chocon người, chúng tôi đã nghiên cứu và xây dựng hệ thống đọc hiéu tự động (MachineReading Comprehension - MRC) tiếng Việt dé người dùng có thé dé dàng tiếp cận,tra cứu và thu thập cho mình những kiến thức, kỹ năng cũng như giải đáp thắc mắc
xoay quanh các bài báo về chủ đề Covid-19
13
Trang 141.2 Bài toán đọc hiểu tự động suy luận số liệu và tính ứng dụng
1.2.1 Bai toán đọc hiểu tự động suy luận số liệu
Suy luận trong bai toán đọc hiểu tự động là một trong những xu hướng nghiên cứu
về bài toán này những năm trở lại đây Ngoài đưa ra những câu trả lời được trích xuấttrong đoạn văn thì mô hình còn có thé trả lời những loại suy luận khác như logic [1],
đồng tham chiếu [2], va trong đó suy luận số liệu là một loại suy luận rất thú vị
Với bài toán đọc hiểu tự động kết hợp với suy luận số liệu này thì ngoài việc chỉ cóthé đưa ra câu trả lời có sẵn trong đoạn văn thì những mô hình giải quyết bài toán nàycòn có khả năng tính toán các phép tính cơ bản trong số liệu để trả lời cho câu hỏi,việc này có tính ứng dụng rất cao trong những văn bản cập nhật diễn biến dịch bệnhCovid-19 như hiện nay khi các số liệu về dịch bệnh liên tục được đưa ra và yêu cầungười đọc phải tự suy luận thì bây giờ với những mô hình đọc hiểu tự động này cóthê giúp con người trả lời những thông tin đó, giúp tiết kiệm được thời gian cho người
doc, chi tiệt vê bài toán sẽ được chúng tôi mô tả ở dưới.
Đầu vào: Một bài báo tiếng Việt C và một câu hỏi Q về nội dung liên quan trong bài
báo.
Đầu ra: Câu trả lời A cho câu hỏi Q được rút trích từ bài báo hoặc được tính toán
dựa theo những con sô có trong bài báo và câu hỏi.
Bang 1.1 Ví dụ bai toán đọc hiểu tự động suy luận số liệuSáng nay 5.8, Bộ Y tế thông báo 3.941 ca mặc Covid-19 ghi nhận trong nước (giảm
326 ca so với sáng hôm qua); TP.HCM có 2.349 ca.Theo thông báo của Bộ Y tế từ
18 giờ 30 ngày 4.8 đến 6 giờ sáng nay, trên Hệ thống Quốc gia quản lý ca bệnh
Covid-19 ghi nhận 3.943 ca nhiễm mới, trong đó 2 ca nhập cảnh và 3.941 ca ghi
nhận trong nước (giảm 326 ca so với sang hôm qua) tại 24 tỉnh, thành Sáng 5.8:
Cả nước 3.943 ca Covid-19, riêng TP.HCM 2.349 bệnh nhân Trong số các trường
hợp mắc mới do lây nhiễm trong nước, tại TP.HCM có 2.349 ca, Bình Dương 497
ca, Tây Ninh 235 ca, Long An 189 ca, Tiền Giang 169 ca, Đồng Nai 110 ca, ĐàNẵng 92 ca, Bà Rịa - Vũng Tàu 66 ca, Vĩnh Long 58 ca, Bình Dinh 35 ca, Đồng
14
Trang 15Tháp 32 ca, An Giang 21 ca, Sóc Trăng 20 ca, Phú Yên 17 ca, Kiên Giang 12 ca.
Các tỉnh: Đắk Lắk, Quảng Bình và Trà Vinh mỗi nơi có 9 ca; Bạc Liêu 6 ca, Lạng
Sơn 2 ca Các tỉnh: Thanh Hóa, Lâm Đồng, Quảng Trị và Hà Tĩnh mỗi địa phương
có 1 ca 1.008/3.941 ca ghi nhận trong cộng đồng Theo Bộ Y tế từ đầu dịch đến
nay, Việt Nam có 181.756 ca mắc Covid-19 (2.331 ca nhập cảnh va 179.425 camắc trong nước); 54.332 ca đã được điều trị khỏi Số trường hợp nhiễm mới ghinhận trong nước của đợt dịch thứ 4 (từ 27.4) đến nay là 177.855 ca, trong đó 51.558bệnh nhân đã khỏi bệnh 470 bệnh nhân nặng đang điều trị hồi sức tích cực và 21bệnh nhân nguy kịch đang điều trị ECMO
Câu hoi 1: tinh nào có sô ca mặc nhiêu nhât cả nước ?
Đáp án: TP.HCM
Câu hỏi 2: Long An, Tiền Giang, Đồng Nai tỉnh nào có 189 ca nhiễm ?
Dap an: Long An
Câu hỏi 3: Tổng số ca nhiém Covid-19 tại TP.HCM va Binh Dương là bao nhiêu ?
Dap án: 2846
Câu hỏi 4: Ti lệ bệnh nhân đã khỏi bệnh tinh từ 27/4 là bao nhiêu ?
Đáp án: 28.99 %
1.2.2 Tinh ứng dung của đề tài
Bài toán đọc hiểu tự động thường được sử dụng nhiều nhất trong các hệ thống chatbot,
trợ lý ảo nồi tiếng như Cortana, Alexa, Siri, có thé trả lời bất kì câu hỏi nào của
người dùng một cách nhanh chóng và tiết kiệm thời gian hơn so với khi người dùng
phải tự tìm nguồn tài liệu dé đọc, hiểu và tự trả lời Ngoài ra, bài toán này còn đượcứng dụng vào những hệ thống tìm kiếm thông tin nổi tiếng trên toàn thế giới nhưGoogle, Bing, Yahoo, xếp hạng kết quả tìm kiếm giúp người dùng dé dang tìm
thây nội dung liên quan tạo ra trải nghiệm thoải mái và tiện lợi Bên cạnh đó, chủ đê
15
Trang 16về Covid-19 hiện đang là chủ dé rất “nóng”, do đó việc xây dựng một ứng dung đọc
hiểu tự động có thể hỗ trợ người dùng tìm kiếm, cập nhật thông tin về diễn biến dịch
bệnh và giải đáp thắc mắc của người dùng từ những nguồn nội dung chính thống và
tin cậy, đặc biệt với bài toán đọc hiểu tự động suy luận số liệu thì còn có thé giải đápcho người dùng những câu hỏi đòi hỏi sự tính toán số liệu trong những văn bản cậpnhật thông tin diễn biến dịch bệnh chang chit số liệu
Nhìn chung, đề tài nghiên cứu này có ứng dụng rất thiết thực trong thời điểm hiện tại,
giúp ích cho hàng triệu người Việt Nam bảo vệ được sức khỏe của mình trong mùa dịch.
1.2.3 Mục tiêu:
Mục tiêu nghiên cứu của chúng tôi là xây dựng hệ thống đọc hiểu tự động kết hợp
suy luận số liệu cho văn bản chủ đề Covid-19 cho tiếng Việt Dé hoàn thành được
mục tiêu này, chúng tôi phải thực hiện 3 công việc:
e Nghiên cứu và xây dựng bộ dữ liệu đọc hiệu tự động kết hợp suy luận số liệu
chủ đề Covid-19 dé phục vụ cho bai toán đọc hiểu tự động kết hợp suy luận.
e Nghiên cứu các mô hình doc hiểu tự động kết hợp suy luận hiện có trên thế
gidi.
e Áp dụng những mô hình đọc hiểu tự động này vào bộ dữ liệu đã xây dựng
được dé phân tích và so sánh kết quả Kết luận và nêu ra hướng phát triển cho
đề tài
1.2.4 Đối tượng và phạm vi nghiên cứu:
Đối tượng: Bài toán đọc hiểu tự động kết hợp suy luận số liệu tiếng Việt.
Pham vi nghiên cứu: Với nghiên cứu này, phạm vi nghiên cứu của chúng tôi tập
trung vào các bài báo chủ đề Covid-19 tiếng Việt, về giới hạn trong nghiên cứu thì
chúng tôi chỉ tập trung khác thác những vấn đề sau:
e Xây dựng bộ dữ liệu đọc hiểu tự động có sự kết hợp của các loại suy luận sé
liệu vào câu hoi va câu tra lời.
16
Trang 17e Đánh giá hai mô hình suy luận số liệu nổi tiếng là NumNet và NAQANet trên
bộ dữ liệu đã xây dựng và bộ dữ liệu ViQuAD [3] và so sánh kết quả.
e Phân tích kết quả và ảnh hưởng của các khía cạnh khác nhau của bộ dữ liệu
lên hiệu suât của hai mô hình này.
1.3 Kết quả nghiên cứu:
Thông qua nghiên cứu này, chúng tôi đã đạt được một số kết quả như sau:
e Xây dựng thành công ViCOVIDQA, bộ dữ liệu đọc hiểu tự động kết hợp suy
luận số liệu chủ đề Covid-19 tiếng Việt bao gồm 6594 cặp câu hỏi và câu trảlời được xây dựng từ 841 bài báo chủ đề Covid-19 Đây là bộ dữ liệu đọc hiểu
tự động kết hợp suy luận số liệu đầu tiên trên tiếng Việt để làm bước đệm đầutiên cho những nghiên cứu về bài toán này sau này
e Đánh giá hai mô hình đọc hiểu tự động suy luận số liệu là NumNet và
NAQANet trên bộ dữ liệu ViCOVIDQA và so sánh với kết quả của hai môhình này trên bộ dữ liệu ViQuAD [3], kết quả tốt nhất đạt được trên bộ dữ liệuViCOVIDQA là khi sử dụng mô hình NAQANet kết hợp với mô hình nhúng
PhoW2V với 22.37% EM va 26.58% F1.
e Phân tích được các khía cạnh khác nhau của bộ dữ liệu VICOVIDQA và anh
hưởng của mô hình lên hai khía cạnh là kích thước của đoạn văn và loại câu hỏi suy luận.
1.4 Cấu trúc của luận văn
Phần còn lại của luận văn sẽ được tô chức như sau:
Chương 2: Các công trình liên quan
Ở chương này, chúng tôi sẽ khái quát về các công trình nghiên cứu về những bộ dữ
liệu đọc hiểu tự động đang có hiện nay mà chúng tôi tìm hiểu được cũng như là những
mô hình giải quyết bài toán đọc hiểu tự động suy luận số liệu và các phương pháp
đánh giá cho bài toán này.
17
Trang 18Chương 3: Xây dựng bộ dữ liệu
Trong chương nay, chúng tôi mô ta chi tiết quy trình xây dựng bộ dữ liệu đọc hiểu tựđộng từ xây dung guidelines, tuyển dụng, thu thập dit liệu, xây dựng câu hỏi và câu
trả lời, kiểm tra dữ liệu và thu thập thêm câu trả lời Đồng thời chúng tôi cũng thực
hiện phân tích tổng quan và các khía cạnh của bộ dữ liệu vừa xây dựng được.
Chương 4: Thực nghiệm và đánh giá kết quả
Đây là chương sẽ mô tả về những thực nghiệm của chúng tôi với hai mô hình làNAQANet và NumNet trên ViCOVIDQA và ViQuAD [3] Bên cạnh đó thì tại đây,
chúng tôi cũng thực hiện phân tích ảnh hưởng của các khía cạnh khác nhau của
ViCOVIDQA lên hiệu suất mô hình
Chương 5: Kết luận và hướng phát triển
Cuối cùng, chúng tôi sẽ trình bày lại những kết quả đã đạt được trong đề tài và nhữnghạn chế còn ton tại đề từ đó đề xuất hướng phát triển cho những nghiên cứu sau này
18
Trang 19Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN
2.1 Mớỡ đầu
Trong thời điểm dịch bệnh Covid-19 đang diễn biến rat căng thắng như hiện nay cũngkhông thể nào ngăn cản được bước đi của khoa học Mặc dù đây là giai đoạn khó
khăn nhưng các nhà khoa học vẫn luôn tìm cách thích ứng được với nó dé cho ra
những nghiên cứu chất lượng dé phuc vu cho viéc chống chọi với dịch bệnh trong
nhiều lĩnh vực khác nhau như y tế, xã hội, Đối với lĩnh vực trí tuệ nhân tao đangphát triển rất mạnh trong gần đây cũng đóng góp rất nhiều nghiên cứu về chủ đề này
như dự đoán trường hợp mac Covid qua ảnh X quang [4], nhận diện người đeo khâutrang [5], Đặc biệt, trong lĩnh vực xử lý ngôn ngữ tự nhiên thì cũng đóng góp rat
nhiều những nghiên cứu mang tính ứng dụng rất cao như PhoNER [6], bộ dữ liệunhận dạng thực thé chủ đề Covid-19 tiếng Việt giúp dé dàng trích xuất được thôngtin của bệnh nhân trong văn bản Bên cạnh đó, một số nghiên cứu khác về trích xuấtthông tin trong các văn bản về chủ đề Covid-19 như [7], xác định thông tin bị thiếutrong văn bản Covid-19 [8], tóm tắt văn bản chủ đề Covid-19 [9], Để hoàn thànhnghiên cứu này, chúng tôi tập trung vào các khảo sát các nghiên cứu về những bộ dữliệu đọc hiểu tự động, đặc biệt là những bộ dữ liệu đọc hiểu tự động suy luận trêntiếng Việt và trên toàn thế giới, đồng thời cũng nghiên cứu các phương pháp giảiquyết bài toán này
2.2 Các bộ dữ liệu đọc hiểu tự động liên quan
2.2.1 Các bộ dữ liệu tiếng nước ngoài
Chúng tôi rất cảm ơn nghiên cứu [10] đã giúp ích chúng tôi rất nhiều trong việc tìm
hiểu các bộ dữ liệu đọc hiểu tự động trên thế giới Theo nghiên cứu [10], các bộ dữliệu đọc hiểu tự động trên thế giới hiện nay rất đa dạng về cả số lượng, độ lớn và ngônngữ Tính đến đầu năm 2020, hiện trên thế giới có gần 60 bộ dữ liệu về đọc hiéu tựđộng với nhiều ngôn ngữ khác nhau mà trong đó tiếng Anh là chiếm đa số Đề đi vào
chi tiệt các bộ dữ liệu này, chúng tôi dựa vào loại câu trả lời của của bộ dir liệu ma
19
Trang 20phân loại các bộ dữ liệu đọc hiểu tự động thành hai loại là đọc hiểu tự động có câutrả lời rút trích từ đoạn văn và đọc hiểu tự động trắc nghiệm nhiều đáp án dé nghién
Cứu.
2.2.1.1 Các bộ dữ liệu đọc hiểu tự động rút trích từ đoạn văn
Đây là loại bài toán đọc hiểu tự động mà câu trả lời sẽ được rút trích trực tiếp từ đoạn
văn để trả lời cho câu hỏi liên quan Có rất nhiều bộ dữ liệu có nguồn ngữ liệu được
lay từ wikipedia mà chúng tôi tìm hiểu có thé kê đến như WikiQA [11] được công bốnăm 2015 bởi tác giả Y1 Yang và các cộng sự, bộ dữ liệu bao gồm 3047 câu hỏi, khác
với những bộ dữ liệu trên là phải tao câu hỏi và câu trả lời dựa vào dam đông, WikiQA
sử dụng câu hỏi thực tế từ người dùng tìm kiếm thông qua Bing Bên cạnh đó, một
số câu hỏi trong bộ dit liệu này không thê được trả lời với đoạn văn đưa ra, vì vậy,
mô hình cần phải nhận diện ra được những câu hỏi không thé trả lời này Một bộ dữliệu khác cũng sử dụng câu hỏi tìm kiếm và đáp án thực tế từ Bing khác là MSMARCO [12] được công bố năm 2016 Bộ dữ liệu này bao gồm 1,010,916 câu hỏi
và câu trả lời từ lịch sử tra cứu của người dùng, bên cạnh đó, bộ dữ liệu còn có
8,841,823 đoạn văn được trích xuất từ 3,563,535 websites khác nhau MS MARCO
yêu cầu mô hình giải quyết 3 nhiệm vụ khác nhau: (1) nhận diện câu hỏi có thể trảlời dựa vào đoạn văn được đưa ra; (2) Trả lời câu hỏi nếu như câu hỏi đó có thé trảlời được; (3) Xếp hạng những đoạn văn liên quan đến câu hỏi được đưa ra [10]
Những bộ dữ liệu thường xuyên được lấy ra làm benchmark cho những bài báo khoa
học tại những hội nghị, tap chí uy tín thi chúng ta không thé không nhắc đến SQUAD2.0 [13] được công bồ bởi nhà khoa học Rajpurkar và các cộng sự năm 2018, là phiênbản cuối cùng của Stanford Question Answering Dataset (SquAD) là phiên bản cải
tiễn của bộ dữ liệu rất thành công trước đó là SQUAD 1.1 [14] được công bố bởi cùng
tác giả vào năm 2016 Ở SQuAD 1.1, bộ dữ liệu này bao gồm hơn 100,000 câu hỏi
được tạo ra từ đám đông, mỗi câu trả lời cho câu hỏi là một phần của của đoạn văn
liên quan Khi vừa được công bố năm 2016, SQuAD 1.1 trở thành bộ dữ liệu được sửdụng dé đánh giá các mô hình giải quyết bài toán đọc hiểu tự động nhiều nhất lúc bay
20
Trang 21giờ Tiếp nối sự thành công đó của SQuAD 1.1 thì SQuAD 2.0 ra đời với hơn 50,000câu hỏi không thé trả lời được, sự nâng cấp này đòi hỏi những mô hình giải quyết bài
toán đọc hiểu tự động trên bộ dit liệu ngày ngoài khả năng trả lời câu hỏi thì cũng cần
phải xác định được câu trả lời nào có thé tra lời được Đối với những mô hình hiệntại, SQuAD 2.0 vẫn đang là bộ dữ liệu thách thức với kết quả cao nhất trên tập test
an là 90.939 Exact Match và 93.214 Fl score Ngoài SQuAD 1.1 và SQuAD 2.0 thì
vẫn còn những bộ dữ liệu benchmark khác như TriviaQA được công bố năm 2017bởi tác giả Manda Joshi và các cộng sự, với hơn 650 nghìn cặp câu hỏi và câu trả lời,
bộ dữ liệu này có nhiều đặc điểm mà các bộ dữ liệu đọc hiểu tự động khác không cóđược là: (1) các tổ hợp câu hỏi phức tap; (2) có sự thay đối về từ ngữ, cú pháp giữacâu hỏi và đoạn văn liên quan; (3) có nhiều câu hỏi suy luận phải kết hợp nhiều câu
ở những vi trí khác nhau trong đoạn văn.
Bộ dữ liệu gần với chúng tôi nhất, cũng là bộ dữ liệu mà chúng tôi nghiên cứu nhiềunhất là DROP [15], được công bố năm 2019 bởi tác giả Dheeru Dua và các cộng sự,
đây được xem là “làn gió mới” trong bài toán đọc hiểu tự động khi mang suy luận số
liệu vào bài toán này Bộ dit liệu DROP bao gồm 96 nghìn cặp câu hỏi và câu trả lờiđược tạo ra bởi đám đông, khác với các bộ dữ liệu trước đây, DROP yêu cầu mô hìnhgiải quyết các phép toán như cộng, trừ, nhân, chia, đếm để trả lời cho câu hỏi Điềunày khiến các mô hình chỉ học dựa trên ngữ cảnh của đoạn văn như các bộ dữ liệuđọc hiểu tự động trước đây không thực sự hoạt động tốt trên bộ dữ liệu này mà đòihỏi mô hình phải học được mối quan hệ giữa các con sé, các thực thé trong đoạn văn,
từ đó mở ra một hướng nghiên cứu mới trong bài toán đọc hiểu tự động sử dụngGraph Neural Network (GNN) để học các mối quan hệ này trong đoạn văn Cuốicùng, liên quan đến chủ đề Covid-19, chúng tôi tìm hiểu về bộ dữ liệu COVID-QA[16] được công bố bời tác giả Timo Moller và các cộng sự năm 2020 cũng là năm bắtđầu của đại dịch Covid-19, bộ dữ liệu này bao gồm 2019 cặp câu hỏi và câu trả lời
được gán nhãn bởi các chuyên gia sinh học và nhà khoa học nghiên cứu về
Covid-19.
21
Trang 222.2.1.2 Các bộ dữ liệu trắc nghiệm nhiều đáp án
Ở loại bài toán đọc hiểu tự động này, mô hình được yêu cầu phải dự đoán đúng mộttrong những đáp án được đưa ra trong câu hỏi Bộ dữ liệu đầu tiên trong loại này mà
chúng tôi tìm hiểu trong các bộ dữ liệu đọc hiểu tự động điền từ vào chỗ trống làChildren’s Book Test (CBT) [17] được công bố bởi tác gia Flex Hill cùng các cộng
sự tại viện nghiên cứu trí tuệ nhân tạo của Facebook năm 2016 và được chấp nhậnđăng tại hội nghị danh giá về máy học ICLR (International Conference on LearningRepresentation) Facebook CBT có tổng cộng 687343 câu hỏi, đây là bộ dữ liệu sửdụng sách thiếu nhi dé làm các đoạn văn, mỗi đoạn văn bao gồm 21 câu liên tục, 20
câu đầu tiên sẽ được sử dụng làm ngữ cảnh và một từ sẽ bị lượt bỏ trong câu thứ 21
Nhiệm vụ của mô hình sẽ là chọn một trong 10 đáp án được đưa ra dựa vào ngữ cảnh
của đoạn văn và câu hỏi Một bộ dữ liệu trắc nghiệm khác là RACE [18], được công
bố năm 2017, bộ dit liệu này được thu thập từ các bài kiểm tra tiếng Anh cho học sinhTrung Quốc bao gồm gần 28000 đoạn văn và 100000 cặp câu hỏi và câu trả lời bao
gồm nhiều chủ đề đa dạng đề kiểm tra khả năng đọc hiểu và suy luận của học sinh
Bộ dữ liệu này hiện đang có kết quả độ chính xác cao nhất với mô hình ALBERT
[19] là 91.4 %.
Một số bộ dit liệu trắc nghiệm nhiều đáp án có kích thước rất lớn có thé ké đến như
Google MC-AFP [20] là bộ dữ liệu đọc hiểu tự động với khoảng 2 triệu mẫu Đượccông bồ vào năm 2016 bởi Soricut và các cộng sự, bộ dữ liệu này sử dụng nguồn ngữliệu từ LCD’s English Gigaword Đồng thời, tác giả của MC-AFP cũng đưa ra một
phương pháp dé tạo sinh các bộ đữ liệu đọc hiểu tự động sử dụng vector biểu diễn
của những đoạn văn Trong các mô hình thực nghiệm của tác giả, với kiến trúc mạnghọc sâu đa tầng của tác giả đạt độ chính xác 83.2 % và gần với đạt được tới khả năng
trả lời của con người trên cùng bộ dữ liệu này Một bộ dữ liệu có kích thước rất lớn
khác là CNN/Daily Mail [21], được công bố năm 2015 bởi nhà khoa học Hermann
và các cộng sự tại viện nghiên cứu về trí tuệ nhân tạo DeepMind và đại học hoànggia Oxford Day là bộ dữ liệu có kích thước rất lớn, nguồn của dit liệu được thu thập
từ hai website tin tức lớn trên thế giới là CNN và Daily Mail Với nguồn dữ liệu từ
22
Trang 23CNN, bộ dữ liệu bao gồm 90,266 đoạn van va 380,298 câu hỏi, tương tự với dữ liệuthu thập từ Daily Mail, bộ dữ liệu được tạo ra từ 196,691 đoạn văn và 879,450 câu
hỏi Một bộ dữ liệu có kích thước lớn khác mà chúng tôi tìm hiểu là Who-did-What[22] được công bố bởi tác giả Takeshi cùng các cộng sự năm 2016 với hơn 200,000câu hỏi trắc nghiệm điền vào chỗ trống được thu thập từ nguồn ngữ liệu LDC EnglishGigaword Theo [10], để so sánh với với bộ dữ liệu CNN/Daily Mail thì bộ dữ liệu
này có 3 điểm khác biệt chính Thứ nhất, Who-did-What không tóm tắt nội dung đoạnvăn để làm đoạn văn cho bộ dữ liệu giống như CNN/Daily Mail Thứ hai, tác giả
tránh việc an tên của một cá nhân bằng mà thay vào đó là XXX Thứ ba, nhữngcâu hỏi trong bộ dữ liệu Who-did-What có thé dé dàng bị giải boi mô hình baseline[22] trong khi con người chỉ có giải được 84% trong tổng số câu hỏi của bộ dữ liệunày Ngoài hai bộ dữ liệu kê trên chúng tôi còn tìm hiéu thêm bộ dit liệu đọc hiểu tựđộng điền từ vào chỗ trồng khác mang tính suy luận rat cao là LAMBADA [23] được
công bố bởi tác giả Denis và các cộng sự năm 2016 tại hội nghị danh giá nhất tronglĩnh vực xử lý ngôn ngữ tự nhiên ACL (Association for Computational Linguistics).
Bộ dữ liệu yêu cầu người đọc dự đoán từ còn thiếu ở cuối câu hỏi Đây là bộ dữ liệusuy luận rất khó, yêu cầu mô hình đề giải quyết bài toán này phải thông minh đủ déhiểu toàn bộ ngữ cảnh đoạn văn và trả lời Bời vì có gần 20% các từ cần dự đoánkhông có trong ngữ cảnh đoạn văn nên khi trả lời câu hỏi trong bộ dir liệu này cần
người đọc phải đọc toàn bộ đoạn văn va hoàn toàn không thể suy luận ra được kết
quả cho từ còn thiếu trong câu hỏi nếu chỉ đọc một đoạn nhỏ trong câu hỏi sau đó tracứu ngược lại đoạn văn Độ chính xác cao nhất của bộ dữ liệu này hiện tại là 86.4%
sử dụng mô hình ngôn ngữ GPT-3 [24].
2.2.2 Các bộ dữ đọc hiểu tự động tiếng Việt
Mặc dù tiếng Việt được xem là một trong những ngôn ngữ có nguồn ngữ liệu được
xem là ít so với các ngôn ngữ khác như tiếng Anh, Trung, Hàn, Nga, Tuy nhiênkhông vì điều đó mà các nghiên cứu của chúng ta về đọc hiểu tự động bị hạn chế mà
hoàn toàn ngược lại, các nhà khoa hoc của chúng ta vẫn luôn tìm cách vượt qua những khó khăn nay mà cống hiến dé tạo ra rất nhiều bộ dit liệu không thua kém gi các
23
Trang 24nghiên cứu khác trên thế giới, tiêu biểu có thể kể đến như UIT-ViQuAD [3], được
công bố năm 2020 Bộ dữ liệu này gồm có 23,074 cặp câu hỏi và câu trả lời được tao
từ 5,109 đoạn văn của 174 bài viết được thu thập từ Wikipedia tiếng Việt và gán nhãndựa vào đám đông Một bộ dữ liệu khác cũng được tác giả Nguyen và các cộng sự
công bố trong cùng năm là UIT-ViNewsQA [25] với 22,057 cặp câu hỏi và câu trảlời tạo từ 4416 văn bản về chủ đề sức khỏe, đây là bộ dữ liệu đọc hiểu tự động tiếng
Việt đâu tiên tập trung vê chủ dé này và có tính ứng dụng rat cao trong cuộc sông.
Một số bộ dữ liệu đọc hiểu tự động trắc nghiệm nhiều đáp án tiếng Việt có thé kê đến
như ViMMRC [26] công bố năm 2020 bao gồm 2,783 câu hỏi trắc nghiệm nhiều đáp
án dựa vào 417 văn bản trong môn Tiếng Việt của học sinh tiểu học tại Việt Nam và
độ khó trong suy luận của câu hỏi trong bộ dữ liệu này sẽ được tăng dần từ lớp 1 đếnlớp 5 dé mô hình có thé trả lời Kết quả độ chính xác cao nhất trong nghiên cứu này
là 61.81 %, tuy nhiên kết quả này vẫn còn khá thấp khi so với độ chính xác của conngười khi trả lời những câu hỏi này Được tạo ra bằng cách trích xuất câu từ bộ dữliệu UIT-ViQuAD, UIT-WikiQA [27] là bộ dữ liệu đọc hiểu tự động dựa vào cấp độ
câu trên tiếng Việt được công bố năm 2021 có cùng kích thước với bộ dữ liệu
UIT-ViQuAD, các tác giả của UIT-WikiQA đã thành công đề xuất được thuật toán tríchxuất câu dựa vào đoạn văn và câu trả lời từ bộ đữ liệu UIT-ViQuAD và đạt kết quảcao nhất là 85.87 % Exact Match và 88.77% F1-score với mô hình XLM-Large [28]
2.3 Các phương pháp giải quyết bài toán đọc hiểu tự động hiện nay
Trong những năm gần đây, với sự phát triển của các phương pháp học sâu và các môhình được huấn luyện sẵn như BERT [29], GPT [24] T5 [30], XLM-R [28], do đóhầu hết những phương pháp giải quyết các bài toán đọc hiểu tự động hiểu tự độnghiện nay hầu hết đều đi theo hướng tận dụng sự mạnh mẽ của những mô hình này kết
hợp với các kiến trúc học sâu để cho ra kết quả tốt nhất Đã có rất nhiều nghiên cứu
được công bồ về kết quả SOTA (state of the art) trên các bộ dữ liệu đọc hiểu tự động
tận dụng sức mạnh của những mô hình này như GPT-3 [24] trên bộ dữ liệu
LAMBADA, mô hình RoBERTa [31, 32] trên bộ dữ liệu CoQA [33] và WikiQA
24
Trang 25[11], Ngoài những phương pháp này, một số kiến trúc học sâu thú vị khác mặc dù
không sử dụng các mô hình này nhưng cũng đạt kết quả rất cao trên các bộ dữ liệu
đọc hiểu tự động có thê kề đến như QANet [34], Retriever-Reader, Đối với nghiên
cứu này, chúng tôi tập trung nghiên cứu chi tiết hai mô hình suy luận được dùng déđánh giá hiệu suất trên bộ dữ liệu DROP [15] là NAQANet [15] và NumNet [35].Đặc biệt NumNet còn là mô hình đầu tiên đặt tiền đề cho hướng nghiên cứu sử dụng
GNN cho các mô hình suy luận số liệu sau này
2.3.1 QANet
QANet [34] được các tác giả nhận xét thì khác với những mô hình doc hiểu tự độngkhác sử dụng các kiến trúc mô hình Recurrent Neural Network (RNN) thì QANet lạichủ yếu sử dụng kiến trúc mô hình Convolutional Neural Network (CNN) kết hợpvới self-attention giúp mô hình tính toán nhanh hơn và xử lý những token ở đầu vàomột cách song song với nhau Hình 2.1 mô tả kiến trúc của mô hình QANet
Mô hình nhúng đầu vào (Input Embedding Layer) QANet sử dụng mô hình
GLOVE [36] làm lớp nhúng đầu vào cho kiến trúc của mô hình này Phiên bản môhình GLOVE mà QANet sử dụng có kích thước rất lớn, bộ dữ liệu Common Crawl
mà mô hình này sử dụng với bộ từ điển có khoảng 2.2 triệu từ, 840 tỉ token khác nhau
và chiều dài của vector đầu ra của mô hình này là 300 Bên cạnh đó QANet còn sửdung mạng tích chập một chiều (1D — CNN) chưa được huấn luyện trước dé dé quét
qua từng kí tự trong của mỗi từ của đầu vào tạo ra một vector biéu diễn ở mức kí tự
có độ dài là 200 Cuối cùng, đầu ra của một từ x được cho trước sẽ là kết hợp của hai
vector
[x„;xe]€ R°°° voi x,, là vector đầu ra khi nhúng qua mô hình GLOVE va x, là
vector đầu ra của mô hình tích chập quét qua từng kí tự
Mô hình khối mã hóa (Encoder Block) kiến trúc của mỗi khối này bao gồm nhiềulớp kiến trúc mô hình tích chập (Conv Layer) và kết thúc bằng một lớp self-attention
và một lớp feedforward được minh họa ở hình 2.1 Ở lớp mô hình tích chập, QANet
sử dụng Deep Wise Separable CNN với kích thước kernel là 7 và 128 filters thay vì
25
Trang 26kiến trúc mô hình tích chập truyền thống vì theo tác giả quan sát thấy khi sử dụngDeep Wise Separable CNN sẽ giảm được bộ nhớ và mang tính tổng quát hóa tốt hơn.Tiếp đến là lớp self-attention, lớp này sử dụng kĩ thuật multi-head attention [37] với
số head là 8 Và cuối cùng, mô hình được đưa qua một lớp mô hình Feed ForwardNeural Network có kích thước đầu ra là 128 Trong kiến trúc của những lớp này đềuđược thêm vào một lớp chuẩn hóa đầu vào và skip-connection, điều này giúp hạn chế
được trường hợp vanishing gradient khi kết hợp nhiều khối này với nhau trong quá
trình huấn luyện Cả hai kiến trúc mô hình mã hóa nhúng (QANet-Emb-Eno) và kiếntrúc mô hình mã hóa (QANet-Mod-Enc) đều sử dụng kiến trúc kết hợp nhiều khối mãhóa này, điểm khác nhau của hai mô hình là mô hình mã hóa nhúng sử dụng 4 lớp
mô hình tích chập thay vì 2 như trong kiến trúc mô hình mã hóa
Start Prob Start Prob
Stacked Embedding Stacked Embedding
| Encoder Blocks | Encoder Blocks Layer Norm
———¬
S$
Embedding Embedding G en “sion /)
One Encoder Block
Context Question
Hình 2.1: Kiến trúc của mô hình QANet
26
Trang 27Context-Query Attention Sau khi đã có được hai ma trận là Q và C lần lượt là ma
trận mã hóa của câu hỏi và đoạn văn đầu vào của mô hình, đầu tiên một ma trận
khoảng cách của mỗi cặp đoạn văn và câu hỏi S € RTM với n là số từ trong câu hỏi
và m là số từ trong đoạn văn Đối với context-to-query attention, ma trận này sẽ đượcchuẩn hóa qua hàm softmax dé tạo ra ma trận dé tao ra ma trận khoảng cách S, sau
đó trọng số attention của câu hỏi (Q € RTM**) sẽ được tính bằng công thức Ø = SQ
và tương tự với query-to-context attention, trọng số attention của đoạn văn (C € IR#X®
) được tính theo công thức € = SSTMC với Š là chuẩn hóa softmax theo từng cột của
ma trận S Đầu ra cuối cùng của Context-Query Attention là một ma trận kết hợp của
ma trận C, Ế va 0 dé biểu diễn thông tin mà mô hình thọc được thông qua đoạn văn
và câu hỏi, [C,Q,C © Ø,€ © C] € RTM*¢.
Cuối cùng, đầu ra từ lớp Context-Query Attention sẽ được chuyển từ không gianRTM*44 sang không gian IR”“X# thông qua một mô hình tuyến tính Ma trận này sẽ
được đưa vảo lần lượt ba lớp mô hình mã hóa dé tạo ra ba ma trận lần lượt là Mo =
QANet-Mod-Enc(), M1 = QANet-Mod-Enc(M1) và Ma = QANet-Mod-Enc(M2),
Cuối cùng, xác suất của một từ là diém bắt đầu cho câu trả lời và điểm kết thúc cho
câu trả lời được tính theo công thức sau:
p = softmax (FNN[M); M,])
p* = softmax (FNN[M,; M;])
Với p1 và p? lần lượt là xác suất của điểm bat dau và điểm kết thúc của câu trả lời,
ENN là mô hình feed-forward 2 lớp với hàm kích hoạt là ReLU.
2.3.2 NAQANet
NAQAN&et [15] — Mô hình nhận biết số liệu là mô hình cơ sở đầu tiên được dùng déđánh giá bộ dữ liệu DROP, mô hình này sử dung kiến trúc tương đối giống với kiếntrúc của mô hình QANet [34], điểm nổi bật của mô hình này là ngoài xác định điểmbắt đầu và điểm kết thúc câu trả lời như QANet thì NAQAN&t bồ sung thêm ba loạicâu trả lời có trong bộ dit liệu DROP là (1) điểm bắt đầu và điểm kết thúc của đáp án
27
Trang 28nằm trên câu hỏi; (2) câu trả lời phép đếm; (3) câu trả lời là phép toán giữa các con
số Ngoài ra trước khi đưa ra câu trả lời thì NAQANet còn cần phải dự đoán xem rằng
câu trả lời cho câu hỏi sẽ thuộc về loại tính toán nào giúp cho mô hình có khả năng
học tốt hơn khi trả lời các loại câu hỏi khác nhau, kiến trúc của mô hình được minh
| Stacked Embedding Stacked Embedding |
| Encoder Blocks Encoder Blocks |
Hình 2.2: Kiến trúc mô hình NAQANet
Câu trả lời nằm trên câu hỏi: Vì bộ dữ liệu DROP [15], có một số câu hỏi mà trong
đó câu trả lời sẽ nằm trên chính câu hỏi đó thay vì nằm trên đoạn văn Đầu tiên môhình sẽ tính toán một vector h“ dé biên diễn những thông tin có trong đoạn văn
Trang 29Với el9Ì @ hể là tích vô hướng của hai vector el9l và h€, el9Ï là vector biểu diễn
từng từ trong câu hỏi.
Câu trả lời phép đếm: Tác giả của NAQANet [15] đặt ra nhận định rằng các câu hỏi
phép đếm thường có kết quả là những con số nguyên dương hàng đơn vị (từ 0 — 9)
Từ đó dé giải bài toán phép đếm này, NAQANet sử dụng mô hình feed-forward vớihàm kích hoạt là softmax lên vector hdé tính xác suất của đáp án
pou" = softmax (FFN(h‘))
Câu tra lời phép toán giữa các con số: Trong bộ dữ liệu DROP [15], có rat nhiều
câu hỏi suy luận số liệu mà câu trả lời là đáp án của phép tính cộng trừ của những con
số trong đoạn văn Dé giải quyết loại câu hỏi suy luận này, đầu tiên mô hình sẽ tríchxuất ra tất cả những con số ở trong đoạn văn, sau đó gán cho những con số này cácphép tính cộng, trừ hoặc bằng 0, nếu số đó có giá trị bằng không thì điều này có nghĩa
là con số đó không đóng góp vào phép tính đề tạo ra câu trả lời Dé làm được điều
này thì NAQANet sử dụng thêm một lớp mô hình mã hóa tạo ra ma trận M3 =
QANet-Mod-Enc(M›) sau đó ghép ma trận này với Mo, vector biéu diễn cho từng con số trong
đoạn văn hŸ chính là cột thứ i của ma trận được ghép tir M3 và Mo ở trên Loại phép
tính gán cho con số này sẽ được tính thông qua một mô hình feed-forward với hàm
kích hoạt là softmax.
pm" = softmax (FFN(h†))
Cuối cùng dap án của câu hỏi sé được tinh bằng tổng của tat cả những con số đã
được gán phép tính.
Bên cạnh các dự đoán về câu trả lời suy luận số liệu trên, NAQANet còn sử dụng
một đầu ra khác đề dự đoán loại câu trả lời cho câu hỏi với công thức:
Trang 30» Pr(type )Pr(answer/type)
type
Từ đó giúp mô hình có thé học được loại câu trả lời va trả lời đáp án chính xác nhất
dựa vào loại này.
2.3.3 NumNet
NumNet [35] là mô hình đầu tiên sử dụng sức mạnh của GNN dé học mối liên hệ
giữa các con số, tác giả của NumNet cho răng đối với bài toán suy luận số liệu này
thì việc biểu diễn các con số dựa vào ngữ cảnh của nó trong đoạn văn và câu hỏi chưathể hiện được hết quan hệ giữa số liệu Vì vậy, mô hình NumNet được ra đời dé giaiquyết được van dé này Với thiết kế kiến trúc của mô hình bao gồm ba mô đun là (1)
Mô đun mã hóa; (2) Mô đun suy luận và (3) Mô đun dự đoán mà trong dó Mô đun
suy luận là phần kiến trúc khiến mô hình này nồi bật so với những mô hình giải quyết
bài toán đọc hiểu tự động trước đây Kiến trúc mô hình NumNet được mô tả trong
Hình 2.3 Kiến túc của mô hình NumNet [35]
Mô đun mã hóa: Giống với QANet [34] và NAQANet [15], NumNet cũng tận dụng
lại kiến trúc những khối mã hóa và Context-Query Attention của QANet đề xử lý dữ
liệu đầu vào Đầu tiên đoạn văn C và câu hỏi Q sau khi được đưa vào mô hình sẽ
được cho qua mô hình mã hóa nhúng dé chuyền thành các vector biểu diễn cho câu
hỏi và đoạn văn:
30
Trang 31cạnh trong đồ thị của mình là (1) cạnh quan hệ lớn hơn (E ) va (2) canh quan hé nho hơn hoặc bang (E) Đối với loại cạnh quan hệ lớn hon, đây là cạnh giữa hai nút v; va
1; trong đồ thị G (ổ¡; = (Vir 0j)) với 0ạ, 0; EV nếu như giá trị của nút 0; lớn hơn giá
trị của nút v; Và tương tự với loại cạnh còn lại thì quan hệ giữa hai nút v; và 0; (6; j=
(¡, v;)) nêu như giá trị tai nút v; nhỏ hơn hoặc băng với giá tri tại nút 0.
Quay trở lại với tính toán trong mô hình thì sau khi dữ liệu được cho qua mô đun mã
hóa và tính toán được hai ma trận Q và Ể thì hai ma trận mã hóa cho câu hỏi và đoạn
văn lần lượt là M@ và M° cũng được tính toán bằng cách đưa hai ma trận Q và Ế qua
lớp mô hình mã hóa của QANet.
M2 = OANet-Mod-Ene (Q)M°€ = QANet-Mod-Enc (C)
Với mỗi số liệu trong câu hỏi và đoạn văn đã được trích xuất từ trước dé xây dựng
các nút trong đồ thị G, vector biểu diễn từng nút (0Ÿ) trong câu hỏi sẽ là cột thứ i
trong ma trận MỸ với i là vị trí của số đó trong câu hỏi và tương tự như vậy với vectorbiểu diễn những nút này trong đoạn văn (vf) cũng sé là cột thứ j trong ma trận Mf
với j là vị trí của số đó trong đoạn văn Tập hợp tat cả những điểm này là 0 = {z7} U
{v? } Sau khi đã có được những thông tin này, mô hình bắt đầu tận dụng sức mạnh
của GNN dé suy luận thông qua 3 bước sau
31
Trang 32e_ Ước lượng nút liên quan: Như chúng ta đã biết ở mô hình NAQANet, mặc
dù có rất nhiều số liệu xuất hiện trong đoạn văn và câu hỏi, nhưng chỉ có mộtvài số thực sự liên quan Do đó, dé xác định được mức độ liên quan của từngnút này đến câu trả lời, NumNet sử dụng một trọng một mô hình feed-forward
với hàm kích hoạt sigmoid.
a; = sigmoid(FNN(v;))
a; chính là độ liên quan của nút v; đến câu trả lời với v; € 09
e Lan truyền thông tin: Trong GNN, vai trò của một nút trong suy luận không
chỉ dựa vào thông tin chính nó mà còn phụ thuộc vào ngữ cảnh xung quanh
của nó — các nút hàng xóm NumNet sử dụng một ma trận ð; để biểu diễnthông tin được lan truyền xung quanh một nút ¡
e Cap nhật vector biêu diễn nút: Sau khi đã có được ma trận biêu diễn cho
những thông tin lan truyền xung quanh các nút có trong đồ thị G, vector biểu
diễn cho từng nút đó sẽ được cập nhật lại theo công thức:
vj = ReLU (Wz; + ð¡ + bự)Với Wy va br lần lượt là trọng số và bias của mô hình, hàm kích hoạt cho mô
hình nay là ReLU.
32
Trang 33Sau khi tính toán hết cả 3 bước trên dé cập nhật vector biểu diễn cho từng nút,
NumNet gọi đây là một quá trình suy luận và được biểu diễn bằng một hàm
v' = Reasoning-Step (0,9)
Khi chỉ thực hiện một quá trình suy luận thì khi này mô hình chỉ có học được mốiquan hệ giữa các nút liền kề nhau trong đồ thi Dé các mối quan hệ này có thé đượchọc kĩ hơn và biéu diễn vector của từng nút được rõ ràng hơn thì NumNet [] đề xuấtphương pháp sử dụng nhiều quá trình suy luận xếp chồng với nhau
v' = Reasoning-Step (011)
Với t>=1 va ma trận sau khi trả về sau k-quá trình suy luận sẽ là ma trận chứa tất
cả vector biểu diễn của từng nút, cũng là từng số ở trong câu hỏi và đoạn văn (U)
Cuối cùng, ghép ma trận U này cùng ma trận mã hóa đoạn văn M© dé tạo ra ma trận
đầu ra My cho mô đun dự đoán Cu thê như sau:
Mn" [i] = aN nếu wf là mot số
Mạ = FNN([M?; M"“" J),
Mẹ = QANet-Mod-Enc (Mạ),
Với MZ" là ma trận biểu diễn số liệu và có cùng kích thước với M, do đó với những
vị trí w¿ trong đoạn văn mà không phải là số thì sẽ được biểu diễn băng một vector
không, còn nếu là số thì vector này sẽ là cột thứ i tương ứng trong ma trận U
Mô đun dự đoán: kiến trúc của mô đun này giống hoàn toàn với với kiến trúc dựđoán của mô hình NAQANet [15] với bốn công đầu ra là (1) câu trả lời nằm trên đoạnvăn; (2) câu trả lời nằm trên câu hỏi; (3) câu trả lời phép đếm và (4) câu trả lời phép
toán giữa các con số được chúng ta mô tả ở 2.3.2
2.4 Các phương pháp đánh giá bài toán đọc hiểu tự động
2.4.1 Accuracy
Theo khảo sát của chúng tôi, đối với những bài toán đọc hiểu tự động trắc nghiệm
nhiều đáp án như RACE [18], CBT [17], những phương pháp giải loại bài toán đọc
33
Trang 34hiểu tự động này tương đối giống với bài toán phân loại (classification) và xếp hạng
(ranking), do đó phương pháp đánh giá những bài toán này chủ yếu là độ chính xác:
Đối với bài toán đọc hiểu tự động rút trích từ đoạn văn thì việc xác định được câu trả
lời đó có phải là một câu trả lời chính xác hay không thì có vẻ nhập nhăng hơn nhiều
so với bài toán đọc hiểu tự động trắc nghiệm nhiều đáp án Bài toán này xác định đáp
án của câu dựa vào khoảng cách giữa vị trí bắt đầu và vị trí kết thúc của đáp án nằm
trên đoạn văn, sau đó hai điểm này sẽ được so sánh với Vi trí bắt đầu và kết thúc thực
tế của đáp án vì vậy giả sử câu trả lời đưa ra thiếu một chữ hay thừa một chữ được
xem là hoan toàn sai thì cũng chưa được chính xác vì có thể đoạn văn trong câu trảlời vẫn mang ý nghĩa Vì vậy trong các nghiên cứu về bài toán này như ViQuAD [3],SquAD [13], DROP [15] đều sử dụng độ đo mức độ token là E1-Score
R.=2: precision - recall _ TP
precision + recall Tp + 5 (FP + FN)
Mà ở trong đó thi true poisitive (TP) là số lượng token giống nhau giữa câu trả lời
và câu hỏi, false negative (FN) là phần token còn lại mà mô hình chưa dự đoán
đúng, false poisitive (FP) là phần token mà mô hình đự đoán ra nhưng sai với thực
tế Với độ đo này thì kết quả đánh giá sẽ bao quát được về từng token có trong vị tríbắt đầu và vị trí kết thúc của câu trả lời mà mô hình dự đoán được
2.4.3 Exact Match
Exact Match (EM) là độ đo đánh gia dùng dé đánh giá một từ hoặc cụm từ được dựđoán bởi mô hình, EM được tính là tỉ lệ phần trăm mà mô hình dự đoán đúng hoàntoàn được đáp án thực tế đến từng chữ Cách tính của EM tương dối giống với
34
Trang 35Accuracy vì chúng đều là lay số lượng câu trả lời đúng so với thực tế dé chia cho tổng
số câu hỏi Trong bài toán đọc hiểu tự động trích xuất từ đoạn văn thì EM và Accuracy
có thé xem như cùng một phương pháp nhưng ở bài toán đọc hiểu tự động trắc
nghiệm nhiều đáp án thì EM không được sử dụng vì ở bài toán này đáp án của bài
toán không phải là một từ hay cụm từ mà chỉ đơn giản là nhãn của đáp án nên việc
dùng EM được xem là không cần thiết Công thức đề tính EM là
Exact Match =~XAC atc = N
Với M là tong số câu hỏi mà mô hình trả lời đúng được chính xác 100% từng chữ va
N là tông sô lượng câu hỏi có trong bài toán.
2.5 Kết luận
Dựa vào những khảo sát của chúng tôi cho thấy mặc dù trong thời điểm dịch
Covid-19 đang hoành hoành như hiện nay thì các nghiên cứu không vì đó mà suy giảm,
ngược lại cho thấy sự thích ứng rất nhanh từ các nhà khoa học trong việc chuyển đổi
nghiên cứu nhăm mục đích tạo ra những công cụ ứng dụng trí tuệ nhân tạo dé phuc
vụ cho tình hình chống dịch hiện nay
Đối với lĩnh vực xử lý ngôn ngữ tự nhiên nói chung va bai toán doc hiểu tự độngtrong những năm gan đây có sự phát triển vô cùng mạnh mẽ với những bộ dữ liệu đa
dạng cả về ngôn ngữ, kích thước lẫn các loại câu hỏi suy luận, đồng thời với sự phát
triển của các mô hình học sau và những mô hình được huấn luyện san như BERT[29], GPT-3 [24], XLM-R [28], thi những mô hình có hiệu suất cao hon con nguoitrên các bài toán đọc hiểu tự động không còn xa nữa Hiện nay, đối với bài toán đọchiểu tự động chủ đề Covid-19 vẫn đang là một chủ đề hoàn toàn mới mẻ và có tính
ứng dung rat cao trong thời điểm dịch bệnh Covid-19 diễn ra rất căng thắng như hiện
nay vì hằng ngày có hàng trăm hàng nghìn câu hỏi liên quan đến chủ dé này xuất hiện
trên hot search của nhiều diễn đàn nồi tiếng như Twitter, Quora, Facebook, thì với
sự xuất hiện của bộ đữ liệu đọc hiểu tự động chủ đề Covid-19 duy nhất là
COVID-QA [16] thì vân còn rat hạn chê đôi với chủ đê này Các nghiên cứu về suy luận sô
35
Trang 36liệu trong bài toán đọc hiểu tự động và những mô hình suy luận kết hợp GNN là một
trong những hướng đi rất mới cho bài toán đọc hiểu tự động này khi bây giờ mô hìnhkhông chỉ xác định câu trả lời dựa vào hiểu được ngữ cảnh của đoạn văn và câu hỏinữa mà còn có thé di sâu vào mối quan hệ giữa các thực thé trong đoạn văn và câu
hỏi.
36
Trang 37Chương 3 XÂY DUNG BO DU LIEU
3.1 Mớ đầu
Trong nghiên cứu này, việc xây dựng một bộ dữ liệu đọc hiểu tự động kết hợp với
suy luận số liệu đóng vai trò cốt lõi trong toàn bộ nghiên cứu Vì vậy, chúng tôi xây
dựng bộ dữ liệu ViCOVIDQA là bộ dit liệu đọc hiểu tự động suy luận số liệu tiếngViệt đầu tiên với mục đích trước mắt là để phục vụ cho nghiên cứu này và xa hơnnữa là cống hién cho cộng đồng nghiên cứu khoa học dé có thé phát triển bài toánđọc hiểu tự động suy luận số liệu trên tiếng Việt Để xây dựng được bộ dữ liệu này,chúng tôi đã tiến hành thu thập dữ liệu từ 4 trang báo điện tử lớn và uy tín của ViệtNam là VnExpress, ThanhNien, BaoMoi, ZingNews các bài báo có gắn hashtag
“Covid-19” với đa dạng chủ đề như Thời Sự, Đời Sống, Pháp Luật, làm văn bản
cho bộ dữ liệu Dựa theo bộ dữ liệu DROP [15], chúng tôi xây dựng guidelines với
các định nghĩa về các loại câu hỏi, loại suy luận và cách đặt câu hỏi dé xây dựng bộ
câu hỏi — câu tra lời dựa vào những bài báo thu thập được Ngoài những câu hỏi - câu
trả lời được rút trích từ đoạn văn, thì VICOVIDQA còn được thêm vào những câu
hỏi mang tính suy luận số liệu sử dụng các phép toán cộng, trừ, nhân, chia và cácphép toán khác như so sánh, liệt kê, phép đếm, và có câu trả lời tự do để tạo rađược sự đa dạng về loại suy luận trong ViCOVIDQA và cũng làm tăng tính tháchthức cho những mô hình giải quyết các bài toán đọc hiểu tự động hiện nay, ví dụ ở
bảng 3.1 Sau cùng, chúng tôi thực hiện những phân tích và thống kê mô tả về độ dàiđoạn văn, câu hỏi, các loại suy luận ton tại trong ViCOVIDQA, các loại câu hỏi đểngười đọc có thé hiểu được tổng quan bộ dữ liệu đã xây dựng được
Bảng 3.1: Ví dụ câu hỏi trích xuât từ đoạn văn và câu hỏi suy luận sô liệu.
Số ca nhiễm Covid-19 trong ngày ở Malaysia tiếp tục lập mốc ky lục mới,
trong khi tình hình dich bệnh ở một số nước Đông Nam A khác còn diễn biến
phức tạp Bộ Y tế Malaysia hôm nay 25.7 ghi nhận thêm 17.045 ca nhiễm
Covid-19, vượt số ca nhiễm mới/ngày cao kỷ lục được công bố hôm qua là
15.902 ca, nâng tổng số ca nhiễm vượt cột mốc triệu ca, theo báo The Star
37