Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu đọc hiểu tự động dựa trên suy luận số liệu cho văn bản tiếng Việt chủ đề Covid-19

Chúng tôi xây dựng bộ dữ liệu đọc hiểu tự động suy luận số liệu đầu tiên trên tiếngViệt, ViCOVIDQA từ những bài báo chủ đề Covid-19 với quy trình xây dựng dit liệu nghiêm ngặt và sự sáng

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

LE VIET THANG

KHOA LUAN TOT NGHIEP

NGHIÊN CUU ĐỌC HIEU TỰ DONG DỰA TREN SUY

LUAN SO LIEU CHO VAN BAN TIENG VIET CHU DE

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC VA KĨ THUAT THONG TIN

LÊ VIET THANG - 18520356

KHOA LUAN TOT NGHIEP

NGHIÊN CỨU ĐỌC HIẾU TU ĐỘNG DỰA TREN SUY

LUẬN SO LIEU CHO VĂN BAN TIENG VIET CHỦ DE

COVID-19

COVID-19 VIETNAMESE MACHINE READING

COMPREHENSION WITH NUMERICAL REASONING

CỬ NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS NGUYEN VAN KIET

TP HO CHÍ MINH, 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

Ti8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LOI CAM ON

Được trở thành sinh viên cua Trường Dai học Công nghệ Thông tin và có những

trải nghiệm ban dau đặt nền móng sự nghiệp tin at hẳn không chỉ là niềm vinh dự của riêng em mà còn của nhiều sinh viên khác đã và đang theo học tại trường.

Trong suốt quá trình học tập và rèn luyện của mình tại Khoa Khoa học và Kỹ thuật Thông tin, em luôn nhận được sự giúp đỡ, động viên, và hướng dẫn tận tâm của

thdy cô, các anh chị khóa trên va ban bè.

Trước hết, em xin gửi lời cảm ơn chân thành đến thấy ThS Nguyễn Văn Kiệt đã hướng dẫn chủ đề một cách tận tình, đề ra nhiều hướng nghiên cứu thú vị, tìm tài liệu

liên quan và theo sát dé hướng dan em hoàn thành khóa luận tốt nghiệp một cách tốt nhất.

Em cũng xin được gửi lời cảm ơn sâu sắc đến thay TS Lương Ngọc Hoàng, tuy không trực tiếp hướng dan đề tài này nhưng thay là người giúp em đưa ra hướng kiểm tra

các giả thuyết trong thí nghiệm và trình bày khóa luận, động viên em lúc mệt mỏi để

có thể tự tin đi được hết chặng đường này.

Cam ơn anh Lưu Thanh Sơn và thay TS Đỗ Trọng Hợp với những kiến thức chuyên

sâu về Machine Learning và những buổi thảo luận ý nghĩa giúp em hiểu được nhiều vấn dé khoa học, cảm on thay TS Nguyễn Gia Tuấn Anh vì những câu chuyện và

những ví dụ di dỏm cua thdy để sinh viên thoải mái nhất trong những giờ học trực tuyến.

Đặc biệt hơn cả, em mong muốn được bày tỏ lòng biết ơn của mình đến quý thay cô

ở UIT nói chung và toàn thể đại gia đình Khoa Khoa học và Kỹ thuật Thông tin nói riêng, những người trẻ tuổi, tài năng và nhiệt huyết luôn tạo cho sinh viên môi trường năng động và sáng tạo dé mài dũa khả năng và tiếp thêm ngọn lửa đam mê dé chúng

em vững bước trên con đường sự nghiệp.

Cuối cùng nhưng không kém phân quan trọng; em muốn gửi lời cảm ơn tới những người bạn cũng là những người anh em ở nhóm “Mùa sau nghỉ game” là Trần Đăng

Trang 5

Khoa, Hoàng Đình Quang, Phan Lực Lượng, Nguyên Thế Mạnh và Phạm Huỳnh

Phúc đã đồng hành cùng em trong học tập và cuộc sống, và hỗ trợ hết mình để em có

thể hoàn thành nghiên cứu này một cách trọn vẹn và chỉnh chu nhất.

Mot lần nữa, tận đáy lòng mình, em chân thành cảm ơn !

Tác giả

Lê Việt Thắng

Trang 6

MỤC LỤC

Chương1 GIỚI THIỆU esseereeeeeeeeereseeeeeser LD

1.1 Đặt vấn đề eeeeiiiriiririirirararrreaou T3 1.2 Bài toán đọc hiểu tự động suy luận số liệu và tính ứng dụng 1

1.2.1 _ Bài toán đọc hiểu tự động suy luận số liệu 14

1.2.2 _ Tính ứng dụng của đề tài eecceeeeerrsoo LD

1.2.3 Mục tiêu: eeiiiiiiiiiieiareersor LO

1.2.4 _ Đối tượng và phạm vi nghiên cứu: - e -eee LO

1.3 Kết quả nghiên cứu: eeeeeeeeeeereerererrrrrrrrrrrrrreoe T7 1.4 Cấu trúc của luận Van iinet T7 Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN 19

PRE CA AY, eC)

2.2 Các bộ dữ liệu đọc hiểu tự động liên quan «. 19

2.2.1 Các bộ dữ liệu tiếng nước ngoài - e e- LO

2.2.1.1 Các bộ dữ liệu đọc hiểu tự động rút trích từ đoạn văn 20

2.2.1.2 Các bộ dữ liệu trắc nghiệm nhiều đáp án 22

2.2.2 Cac bộ dữ đọc hiểu tự động tiếng Việ

2.3 Các phương pháp giải quyết bài toán đọc hiểu tự động hiện nay 24

2.3.1 QANct

2.3.2 NAQANet ii 27 2.3.3 NumNet

2.4 Các phương pháp đánh giá bài toán đọc hiêu tự động 3.3 2.4.1 ACCUYACY cc.HHHHHHHHHHHHHhhhhhhareirrie OO 2.4.2 F1-SCOFG c2

Trang 7

2.4.3 Exact MafCHh 5 5-5 sskxkEEEEkEEEErEkEEkkEkEkrkrkerrkrkrrkrrrrererrsrkrerrsreee 34

2.5 (ca sẽ 35

Chương 3 XÂY DỰNG BỘ DỮ LIỆU 22++++cc2EEEEttrrcrrrvrrrrrrrre 37

3.1 MG ca 37

3.2 Quy trình xây dựng bộ dữ liệu -c<+cexeeriseriikreriiiirriree 38

3.2.1 Tuyển dụng annotator và xây dựng Guidelines 39

3.2.1.1 Tuyển dụng annofatOF ccvececccvcvvveeereervvveererrrrreeerirrrrree 39

3.2.1.2 Xây dựng GuidelÏfes ccrrierrriirtrrirrtriirirrrriirrrrrree 40 3.2.2 _ Thu thập bài báo -c-ccccrrrerrrrrrrrtrrrrirrrtrrrrrrrrrrrrrrrrrrrree 45

3.2.3 — Tạo câu hỏi và câu trả lờii « cccccsececesersseretrsrrsserserreee 46

3.2.4 Kiểm tra dữ liệu cc-vecscccresirrrrritrtrrrirtrrirrrrrkrree 47

3.2.5 _ Thu thập thêm câu trả lời -cecescreeerrerreerrrrrrrrrrrrerrre 47

3.3 Phân tích bộ dữ liệu ViCOVIIDQA cccccccrriikiriirirriirirree 48

3.3.1 Phân tích tổng quan ViCOVIDQA c -ccccccccsccccceee 48

3.3.2 Phan tích loại suy luận của câu hỏi ccccccsccccccserrsercres 49

3.3.3 _ Phân tích loại câu hỏi -ccccccccreeerteerretsrrertrrrrrsrrrerrreee 51 3.3.4 Phân tích theo độ dài -cccecceeriierierrrerireririrrrierrrrie 52

3.3.5 _ Chủ đề các đoạn văn của ViCOVIDQA -.cccccscccreesree 54

3.4 Kết Luận cceerrrrrrririrriiiiririrrrrre 56

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ - - 57

4.1 Mở đầu ehhihHHHHHH HH 57

4.2 Cài đặt thực nghiém ecsessecsssecssecsessssecssecsssecssessseeessesseessaseessessaseessersueesaeessessaeessaes 57

4.3 Phân tích kết quả thực nghiệm -22:+cee2treeEtrrervtrrrrtrrrrrrrre 59

4.3.1 Kết quả thực nghiệm -cccccccvcvveesrerrrrveesrrrrrrrrerrrre 59

Trang 8

4.3.2 _ Phân tích kết quả -. -cccrrkierrrrrrrrriiiirrrrrrriie 61

4.3.2.1 Phân tích loại suy luận -. -ce-rireririiiiririiree 62

4.3.2.2 Phân tích độ dài đoạn văn -c -scccsccveereerxeertsrrrrssers 63 4.3.2.3 Phân tích độ dài câu hỏi -cceereccceerreceerrrrererrrree 64

Trang 9

DANH MỤC HÌNH

Hình 2.1: Kiến trúc của mô hình QA Net . -cccccccccccriiiiieesevsvvvrrrrrrrrrrrseree 26

Hình 2.2: Kiến trúc mô hình NAQANGI SH 28Hình 2.3 Kiến túc của mô hình NumNet [35] ccccccvececvevevvvvvvvvvverrrrrrrre 30

Hình 3.1: Minh họa quy trình xây dựng bộ dữ liệu VICOVIDOA 39

Hình 3.2: Tỉ lệ các chủ dé bài báo trong ViCOVIDQA -cccerrcee 55Hình 4.1: Kết quả đánh giá hiệu suất các thực nghiệm theo loại suy luận trong tập

kiểm thử của ViCOVIDQA -::-:ccc222222222EE2111121 411111111121 1111111.1 ee 62

Hình 4.2: Kết quả đánh giá hiệu suất của các thực nghiệm theo độ dài tối đa của

đoạn văn ở các khoảng độ dài trên tập kiểm thử VICOVIDQA 64Hình 4.3: Kết quả đánh giá hiệu suất của các thực nghiệm theo độ dài tối đa của câuhỏi theo các khoảng độ dài trên tập kiểm thử ViCOVIDQA 64

Trang 10

DANH MỤC BANG

Bang 1.1 Ví dụ bài toán đọc hiểu tự động suy luận số liệu 14

Bảng 3.1: Ví dụ câu hỏi trích xuất từ đoạn văn và câu hỏi suy luận số liệu 37

Bảng 3.2 Một số ví dụ về các loại câu hỏi suy luận +41

Bang 3.3: Bang mô tả các loại câu hỏi của ViCOVIDQA 5

Bảng 3.4: Tổng quan bộ dữ liệu ViCOVIDQA ssseeses 48

Bang 3.5 Tỉ lệ các loại câu hỏi suy luận có trong VICOVIDQA AD Bảng 3.6: Bang thống kê các loại câu hỏi có trong ViCOVIDQA 5 1 Bảng 3.7: Tỉ lệ độ dài của các đoạn văn trong ViCOVIDQA theo các khoảng độ dài wn DZ Bang 3.8: Tỉ lệ độ dài của câu hỏi va câu trả lời trong ViCOVIDQA theo các khoảng độ ai sesesesssssssssssssssssssssssssssesssssssssesssssssssssesssssssssessssnssssessssnssssssssssssssessssnsssssssssssssssssssssssss DD Bang 4.1: Kết quả các thực nghiệm trên VICOVIDQA 2 Ở Bang 4.2: Kết quả các thực nghiệm trên ViQuAD «-e-ee- OL Bảng 4.3: Kết quả nghiên cứu cắt bỏ mô đun suy luận trong mô hình NumNet trên tập dữ liệu kiểm thử của ViCOVIDQA (dấu X thé hiện cho việc sử dụng mô dun đó trong thực nghiệm) 66

Trang 11

DANH MỤC TU VIET TAT

STT Từ viết tắt Ý Nghĩa

1 EM Exact Match

2 MRC Machine Reading Comprehension

3 NAQANet Numerically-aware QANet model

4 FFN Feed-forward Neural Network

5 CNN Convolutional Neural Netwok

6 RNN Recurrent Neural Network

Trang 12

TÓM TẮT KHÓA LUẬN

Trong thời điểm dịch bệnh Covid-19 diễn biến phức tạp như hiện nay đã anh hưởngrất nhiều đến cuộc sống và sinh hoạt của con người trên toàn thế giới Hàng ngày,hàng giờ luôn có hàng trăm, hàng nghìn tin tức về diễn biến dịch bệnh luôn được cậpnhật trên các trang thông tin điện tử, báo điện tử dé giúp mọi người cập nhật được

thông tin dịch bệnh và giúp tự bảo vệ sức khỏe cho mình Tận dụng nguồn dữ liệuđồi dào này và kết hợp với sự phát triển của bài toán đọc hiểu tự động trong những

năm gần đây, đặc biệt là bài toán đọc hiểu tự động suy luận số liệu Chúng tôi thựchiện nghiên cứu này nhăm mục đích xây dựng một hệ thống đọc hiểu tự động suyluận số liệu chủ đề Covid-19 trên tiếng Việt

Chúng tôi xây dựng bộ dữ liệu đọc hiểu tự động suy luận số liệu đầu tiên trên tiếngViệt, ViCOVIDQA từ những bài báo chủ đề Covid-19 với quy trình xây dựng dit liệu

nghiêm ngặt và sự sáng tạo trong cách đặt những câu hỏi suy luận giúp tạo ra tính

thách thức rất cao trong ViCOVIDQA, đặt nền móng đầu tiên cho hướng nghiên cứu

bài toán đọc hiểu tự động suy luận số liệu trên tiếng Việt Bên cạnh việc xây dựng dữ

liệu, chúng tôi còn tiễn hành đánh giá hiệu suất của hai mô hình đọc hiểu tự động suy

luận là NAQANet và NumNet trên ViCOVIDQA Sau quá trình đánh giá, chúng tôi

thu được kết quả tốt nhất trên tập kiêm thử là 22.37% EM va 26.58% F1 khi thực

nghiệm với mô hình NAQANet và dé hiéu rõ hơn về các mô hình này, chúng tôi phân

tích kĩ hơn về hiệu suất của các mô hình thông qua nhiều khía cạnh khác nhau của

ViCOVIDQA.

12

Trang 13

Chương 1 GIỚI THIỆU

Moi người dân có thé dé dàng tiếp cận với nguồn thông tin chính thống về chính sách

và chỉ đạo của cơ quan nhà nước về diễn biến dịch bệnh một cách nhanh nhất đồng

thời cũng tránh được rủi ro người dân tiếp cận với những nguồn thông tin sai lệch,gây mất trật tự, an toàn xã hội và đặc biệt hơn còn ảnh hưởng không tốt đến nhận

thức của cộng đông.

Góp một phần không nhỏ vào công cuộc phòng, chống Covid-19 và khôi phục nềnkinh tế không thé không kể đến các ứng dụng trí tuệ nhân tạo Day được xem nhưmột công cụ hỗ trợ đắc lực dé không chỉ kiểm soát diễn biến lây lan dịch bệnh, đưa

ra dự đoán cho các nhà hoạch định, mà còn giúp các nhân viên y tế chân đoán tình

hình sức khỏe của bệnh nhân thông qua tiếng ho, dự đoán Covid-19 qua ảnh chụp CT

phdi, rut ngăn thời gian điều trị và mang lại hiệu quả cao trong công tác y tế

Nhận thức được tầm quan trọng của việc được tiếp cận các nguồn thông tin chính xácliên quan đến tình hình dịch bệnh và những tiện ích mà trí tuệ nhân tạo mang lại chocon người, chúng tôi đã nghiên cứu và xây dựng hệ thống đọc hiéu tự động (MachineReading Comprehension - MRC) tiếng Việt dé người dùng có thé dé dàng tiếp cận,tra cứu và thu thập cho mình những kiến thức, kỹ năng cũng như giải đáp thắc mắc

xoay quanh các bài báo về chủ đề Covid-19

13

Trang 14

1.2 Bài toán đọc hiểu tự động suy luận số liệu và tính ứng dụng

1.2.1 Bai toán đọc hiểu tự động suy luận số liệu

Suy luận trong bai toán đọc hiểu tự động là một trong những xu hướng nghiên cứu

về bài toán này những năm trở lại đây Ngoài đưa ra những câu trả lời được trích xuấttrong đoạn văn thì mô hình còn có thé trả lời những loại suy luận khác như logic [1],

đồng tham chiếu [2], va trong đó suy luận số liệu là một loại suy luận rất thú vị

Với bài toán đọc hiểu tự động kết hợp với suy luận số liệu này thì ngoài việc chỉ cóthé đưa ra câu trả lời có sẵn trong đoạn văn thì những mô hình giải quyết bài toán nàycòn có khả năng tính toán các phép tính cơ bản trong số liệu để trả lời cho câu hỏi,việc này có tính ứng dụng rất cao trong những văn bản cập nhật diễn biến dịch bệnhCovid-19 như hiện nay khi các số liệu về dịch bệnh liên tục được đưa ra và yêu cầungười đọc phải tự suy luận thì bây giờ với những mô hình đọc hiểu tự động này cóthê giúp con người trả lời những thông tin đó, giúp tiết kiệm được thời gian cho người

doc, chi tiệt vê bài toán sẽ được chúng tôi mô tả ở dưới.

Đầu vào: Một bài báo tiếng Việt C và một câu hỏi Q về nội dung liên quan trong bài

báo.

Đầu ra: Câu trả lời A cho câu hỏi Q được rút trích từ bài báo hoặc được tính toán

dựa theo những con sô có trong bài báo và câu hỏi.

Bang 1.1 Ví dụ bai toán đọc hiểu tự động suy luận số liệuSáng nay 5.8, Bộ Y tế thông báo 3.941 ca mặc Covid-19 ghi nhận trong nước (giảm

326 ca so với sáng hôm qua); TP.HCM có 2.349 ca.Theo thông báo của Bộ Y tế từ

18 giờ 30 ngày 4.8 đến 6 giờ sáng nay, trên Hệ thống Quốc gia quản lý ca bệnh

Covid-19 ghi nhận 3.943 ca nhiễm mới, trong đó 2 ca nhập cảnh và 3.941 ca ghi

nhận trong nước (giảm 326 ca so với sang hôm qua) tại 24 tỉnh, thành Sáng 5.8:

Cả nước 3.943 ca Covid-19, riêng TP.HCM 2.349 bệnh nhân Trong số các trường

hợp mắc mới do lây nhiễm trong nước, tại TP.HCM có 2.349 ca, Bình Dương 497

ca, Tây Ninh 235 ca, Long An 189 ca, Tiền Giang 169 ca, Đồng Nai 110 ca, ĐàNẵng 92 ca, Bà Rịa - Vũng Tàu 66 ca, Vĩnh Long 58 ca, Bình Dinh 35 ca, Đồng

14

Trang 15

Tháp 32 ca, An Giang 21 ca, Sóc Trăng 20 ca, Phú Yên 17 ca, Kiên Giang 12 ca.

Các tỉnh: Đắk Lắk, Quảng Bình và Trà Vinh mỗi nơi có 9 ca; Bạc Liêu 6 ca, Lạng

Sơn 2 ca Các tỉnh: Thanh Hóa, Lâm Đồng, Quảng Trị và Hà Tĩnh mỗi địa phương

có 1 ca 1.008/3.941 ca ghi nhận trong cộng đồng Theo Bộ Y tế từ đầu dịch đến

nay, Việt Nam có 181.756 ca mắc Covid-19 (2.331 ca nhập cảnh va 179.425 camắc trong nước); 54.332 ca đã được điều trị khỏi Số trường hợp nhiễm mới ghinhận trong nước của đợt dịch thứ 4 (từ 27.4) đến nay là 177.855 ca, trong đó 51.558bệnh nhân đã khỏi bệnh 470 bệnh nhân nặng đang điều trị hồi sức tích cực và 21bệnh nhân nguy kịch đang điều trị ECMO

Câu hoi 1: tinh nào có sô ca mặc nhiêu nhât cả nước ?

Đáp án: TP.HCM

Câu hỏi 2: Long An, Tiền Giang, Đồng Nai tỉnh nào có 189 ca nhiễm ?

Dap an: Long An

Câu hỏi 3: Tổng số ca nhiém Covid-19 tại TP.HCM va Binh Dương là bao nhiêu ?

Dap án: 2846

Câu hỏi 4: Ti lệ bệnh nhân đã khỏi bệnh tinh từ 27/4 là bao nhiêu ?

Đáp án: 28.99 %

1.2.2 Tinh ứng dung của đề tài

Bài toán đọc hiểu tự động thường được sử dụng nhiều nhất trong các hệ thống chatbot,

trợ lý ảo nồi tiếng như Cortana, Alexa, Siri, có thé trả lời bất kì câu hỏi nào của

người dùng một cách nhanh chóng và tiết kiệm thời gian hơn so với khi người dùng

phải tự tìm nguồn tài liệu dé đọc, hiểu và tự trả lời Ngoài ra, bài toán này còn đượcứng dụng vào những hệ thống tìm kiếm thông tin nổi tiếng trên toàn thế giới nhưGoogle, Bing, Yahoo, xếp hạng kết quả tìm kiếm giúp người dùng dé dang tìm

thây nội dung liên quan tạo ra trải nghiệm thoải mái và tiện lợi Bên cạnh đó, chủ đê

15

Trang 16

về Covid-19 hiện đang là chủ dé rất “nóng”, do đó việc xây dựng một ứng dung đọc

hiểu tự động có thể hỗ trợ người dùng tìm kiếm, cập nhật thông tin về diễn biến dịch

bệnh và giải đáp thắc mắc của người dùng từ những nguồn nội dung chính thống và

tin cậy, đặc biệt với bài toán đọc hiểu tự động suy luận số liệu thì còn có thé giải đápcho người dùng những câu hỏi đòi hỏi sự tính toán số liệu trong những văn bản cậpnhật thông tin diễn biến dịch bệnh chang chit số liệu

Nhìn chung, đề tài nghiên cứu này có ứng dụng rất thiết thực trong thời điểm hiện tại,

giúp ích cho hàng triệu người Việt Nam bảo vệ được sức khỏe của mình trong mùa dịch.

1.2.3 Mục tiêu:

Mục tiêu nghiên cứu của chúng tôi là xây dựng hệ thống đọc hiểu tự động kết hợp

suy luận số liệu cho văn bản chủ đề Covid-19 cho tiếng Việt Dé hoàn thành được

mục tiêu này, chúng tôi phải thực hiện 3 công việc:

e Nghiên cứu và xây dựng bộ dữ liệu đọc hiệu tự động kết hợp suy luận số liệu

chủ đề Covid-19 dé phục vụ cho bai toán đọc hiểu tự động kết hợp suy luận.

e Nghiên cứu các mô hình doc hiểu tự động kết hợp suy luận hiện có trên thế

gidi.

e Áp dụng những mô hình đọc hiểu tự động này vào bộ dữ liệu đã xây dựng

được dé phân tích và so sánh kết quả Kết luận và nêu ra hướng phát triển cho

đề tài

1.2.4 Đối tượng và phạm vi nghiên cứu:

Đối tượng: Bài toán đọc hiểu tự động kết hợp suy luận số liệu tiếng Việt.

Pham vi nghiên cứu: Với nghiên cứu này, phạm vi nghiên cứu của chúng tôi tập

trung vào các bài báo chủ đề Covid-19 tiếng Việt, về giới hạn trong nghiên cứu thì

chúng tôi chỉ tập trung khác thác những vấn đề sau:

e Xây dựng bộ dữ liệu đọc hiểu tự động có sự kết hợp của các loại suy luận sé

liệu vào câu hoi va câu tra lời.

16

Trang 17

e Đánh giá hai mô hình suy luận số liệu nổi tiếng là NumNet và NAQANet trên

bộ dữ liệu đã xây dựng và bộ dữ liệu ViQuAD [3] và so sánh kết quả.

e Phân tích kết quả và ảnh hưởng của các khía cạnh khác nhau của bộ dữ liệu

lên hiệu suât của hai mô hình này.

1.3 Kết quả nghiên cứu:

Thông qua nghiên cứu này, chúng tôi đã đạt được một số kết quả như sau:

e Xây dựng thành công ViCOVIDQA, bộ dữ liệu đọc hiểu tự động kết hợp suy

luận số liệu chủ đề Covid-19 tiếng Việt bao gồm 6594 cặp câu hỏi và câu trảlời được xây dựng từ 841 bài báo chủ đề Covid-19 Đây là bộ dữ liệu đọc hiểu

tự động kết hợp suy luận số liệu đầu tiên trên tiếng Việt để làm bước đệm đầutiên cho những nghiên cứu về bài toán này sau này

e Đánh giá hai mô hình đọc hiểu tự động suy luận số liệu là NumNet và

NAQANet trên bộ dữ liệu ViCOVIDQA và so sánh với kết quả của hai môhình này trên bộ dữ liệu ViQuAD [3], kết quả tốt nhất đạt được trên bộ dữ liệuViCOVIDQA là khi sử dụng mô hình NAQANet kết hợp với mô hình nhúng

PhoW2V với 22.37% EM va 26.58% F1.

e Phân tích được các khía cạnh khác nhau của bộ dữ liệu VICOVIDQA và anh

hưởng của mô hình lên hai khía cạnh là kích thước của đoạn văn và loại câu hỏi suy luận.

1.4 Cấu trúc của luận văn

Phần còn lại của luận văn sẽ được tô chức như sau:

Chương 2: Các công trình liên quan

Ở chương này, chúng tôi sẽ khái quát về các công trình nghiên cứu về những bộ dữ

liệu đọc hiểu tự động đang có hiện nay mà chúng tôi tìm hiểu được cũng như là những

mô hình giải quyết bài toán đọc hiểu tự động suy luận số liệu và các phương pháp

đánh giá cho bài toán này.

17

Trang 18

Chương 3: Xây dựng bộ dữ liệu

Trong chương nay, chúng tôi mô ta chi tiết quy trình xây dựng bộ dữ liệu đọc hiểu tựđộng từ xây dung guidelines, tuyển dụng, thu thập dit liệu, xây dựng câu hỏi và câu

trả lời, kiểm tra dữ liệu và thu thập thêm câu trả lời Đồng thời chúng tôi cũng thực

hiện phân tích tổng quan và các khía cạnh của bộ dữ liệu vừa xây dựng được.

Chương 4: Thực nghiệm và đánh giá kết quả

Đây là chương sẽ mô tả về những thực nghiệm của chúng tôi với hai mô hình làNAQANet và NumNet trên ViCOVIDQA và ViQuAD [3] Bên cạnh đó thì tại đây,

chúng tôi cũng thực hiện phân tích ảnh hưởng của các khía cạnh khác nhau của

ViCOVIDQA lên hiệu suất mô hình

Chương 5: Kết luận và hướng phát triển

Cuối cùng, chúng tôi sẽ trình bày lại những kết quả đã đạt được trong đề tài và nhữnghạn chế còn ton tại đề từ đó đề xuất hướng phát triển cho những nghiên cứu sau này

18

Trang 19

Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN

2.1 Mớỡ đầu

Trong thời điểm dịch bệnh Covid-19 đang diễn biến rat căng thắng như hiện nay cũngkhông thể nào ngăn cản được bước đi của khoa học Mặc dù đây là giai đoạn khó

khăn nhưng các nhà khoa học vẫn luôn tìm cách thích ứng được với nó dé cho ra

những nghiên cứu chất lượng dé phuc vu cho viéc chống chọi với dịch bệnh trong

nhiều lĩnh vực khác nhau như y tế, xã hội, Đối với lĩnh vực trí tuệ nhân tao đangphát triển rất mạnh trong gần đây cũng đóng góp rất nhiều nghiên cứu về chủ đề này

như dự đoán trường hợp mac Covid qua ảnh X quang [4], nhận diện người đeo khâutrang [5], Đặc biệt, trong lĩnh vực xử lý ngôn ngữ tự nhiên thì cũng đóng góp rat

nhiều những nghiên cứu mang tính ứng dụng rất cao như PhoNER [6], bộ dữ liệunhận dạng thực thé chủ đề Covid-19 tiếng Việt giúp dé dàng trích xuất được thôngtin của bệnh nhân trong văn bản Bên cạnh đó, một số nghiên cứu khác về trích xuấtthông tin trong các văn bản về chủ đề Covid-19 như [7], xác định thông tin bị thiếutrong văn bản Covid-19 [8], tóm tắt văn bản chủ đề Covid-19 [9], Để hoàn thànhnghiên cứu này, chúng tôi tập trung vào các khảo sát các nghiên cứu về những bộ dữliệu đọc hiểu tự động, đặc biệt là những bộ dữ liệu đọc hiểu tự động suy luận trêntiếng Việt và trên toàn thế giới, đồng thời cũng nghiên cứu các phương pháp giảiquyết bài toán này

2.2 Các bộ dữ liệu đọc hiểu tự động liên quan

2.2.1 Các bộ dữ liệu tiếng nước ngoài

Chúng tôi rất cảm ơn nghiên cứu [10] đã giúp ích chúng tôi rất nhiều trong việc tìm

hiểu các bộ dữ liệu đọc hiểu tự động trên thế giới Theo nghiên cứu [10], các bộ dữliệu đọc hiểu tự động trên thế giới hiện nay rất đa dạng về cả số lượng, độ lớn và ngônngữ Tính đến đầu năm 2020, hiện trên thế giới có gần 60 bộ dữ liệu về đọc hiéu tựđộng với nhiều ngôn ngữ khác nhau mà trong đó tiếng Anh là chiếm đa số Đề đi vào

chi tiệt các bộ dữ liệu này, chúng tôi dựa vào loại câu trả lời của của bộ dir liệu ma

19

Trang 20

phân loại các bộ dữ liệu đọc hiểu tự động thành hai loại là đọc hiểu tự động có câutrả lời rút trích từ đoạn văn và đọc hiểu tự động trắc nghiệm nhiều đáp án dé nghién

Cứu.

2.2.1.1 Các bộ dữ liệu đọc hiểu tự động rút trích từ đoạn văn

Đây là loại bài toán đọc hiểu tự động mà câu trả lời sẽ được rút trích trực tiếp từ đoạn

văn để trả lời cho câu hỏi liên quan Có rất nhiều bộ dữ liệu có nguồn ngữ liệu được

lay từ wikipedia mà chúng tôi tìm hiểu có thé kê đến như WikiQA [11] được công bốnăm 2015 bởi tác giả Y1 Yang và các cộng sự, bộ dữ liệu bao gồm 3047 câu hỏi, khác

với những bộ dữ liệu trên là phải tao câu hỏi và câu trả lời dựa vào dam đông, WikiQA

sử dụng câu hỏi thực tế từ người dùng tìm kiếm thông qua Bing Bên cạnh đó, một

số câu hỏi trong bộ dit liệu này không thê được trả lời với đoạn văn đưa ra, vì vậy,

mô hình cần phải nhận diện ra được những câu hỏi không thé trả lời này Một bộ dữliệu khác cũng sử dụng câu hỏi tìm kiếm và đáp án thực tế từ Bing khác là MSMARCO [12] được công bố năm 2016 Bộ dữ liệu này bao gồm 1,010,916 câu hỏi

và câu trả lời từ lịch sử tra cứu của người dùng, bên cạnh đó, bộ dữ liệu còn có

8,841,823 đoạn văn được trích xuất từ 3,563,535 websites khác nhau MS MARCO

yêu cầu mô hình giải quyết 3 nhiệm vụ khác nhau: (1) nhận diện câu hỏi có thể trảlời dựa vào đoạn văn được đưa ra; (2) Trả lời câu hỏi nếu như câu hỏi đó có thé trảlời được; (3) Xếp hạng những đoạn văn liên quan đến câu hỏi được đưa ra [10]

Những bộ dữ liệu thường xuyên được lấy ra làm benchmark cho những bài báo khoa

học tại những hội nghị, tap chí uy tín thi chúng ta không thé không nhắc đến SQUAD2.0 [13] được công bồ bởi nhà khoa học Rajpurkar và các cộng sự năm 2018, là phiênbản cuối cùng của Stanford Question Answering Dataset (SquAD) là phiên bản cải

tiễn của bộ dữ liệu rất thành công trước đó là SQUAD 1.1 [14] được công bố bởi cùng

tác giả vào năm 2016 Ở SQuAD 1.1, bộ dữ liệu này bao gồm hơn 100,000 câu hỏi

được tạo ra từ đám đông, mỗi câu trả lời cho câu hỏi là một phần của của đoạn văn

liên quan Khi vừa được công bố năm 2016, SQuAD 1.1 trở thành bộ dữ liệu được sửdụng dé đánh giá các mô hình giải quyết bài toán đọc hiểu tự động nhiều nhất lúc bay

20

Trang 21

giờ Tiếp nối sự thành công đó của SQuAD 1.1 thì SQuAD 2.0 ra đời với hơn 50,000câu hỏi không thé trả lời được, sự nâng cấp này đòi hỏi những mô hình giải quyết bài

toán đọc hiểu tự động trên bộ dit liệu ngày ngoài khả năng trả lời câu hỏi thì cũng cần

phải xác định được câu trả lời nào có thé tra lời được Đối với những mô hình hiệntại, SQuAD 2.0 vẫn đang là bộ dữ liệu thách thức với kết quả cao nhất trên tập test

an là 90.939 Exact Match và 93.214 Fl score Ngoài SQuAD 1.1 và SQuAD 2.0 thì

vẫn còn những bộ dữ liệu benchmark khác như TriviaQA được công bố năm 2017bởi tác giả Manda Joshi và các cộng sự, với hơn 650 nghìn cặp câu hỏi và câu trả lời,

bộ dữ liệu này có nhiều đặc điểm mà các bộ dữ liệu đọc hiểu tự động khác không cóđược là: (1) các tổ hợp câu hỏi phức tap; (2) có sự thay đối về từ ngữ, cú pháp giữacâu hỏi và đoạn văn liên quan; (3) có nhiều câu hỏi suy luận phải kết hợp nhiều câu

ở những vi trí khác nhau trong đoạn văn.

Bộ dữ liệu gần với chúng tôi nhất, cũng là bộ dữ liệu mà chúng tôi nghiên cứu nhiềunhất là DROP [15], được công bố năm 2019 bởi tác giả Dheeru Dua và các cộng sự,

đây được xem là “làn gió mới” trong bài toán đọc hiểu tự động khi mang suy luận số

liệu vào bài toán này Bộ dit liệu DROP bao gồm 96 nghìn cặp câu hỏi và câu trả lờiđược tạo ra bởi đám đông, khác với các bộ dữ liệu trước đây, DROP yêu cầu mô hìnhgiải quyết các phép toán như cộng, trừ, nhân, chia, đếm để trả lời cho câu hỏi Điềunày khiến các mô hình chỉ học dựa trên ngữ cảnh của đoạn văn như các bộ dữ liệuđọc hiểu tự động trước đây không thực sự hoạt động tốt trên bộ dữ liệu này mà đòihỏi mô hình phải học được mối quan hệ giữa các con sé, các thực thé trong đoạn văn,

từ đó mở ra một hướng nghiên cứu mới trong bài toán đọc hiểu tự động sử dụngGraph Neural Network (GNN) để học các mối quan hệ này trong đoạn văn Cuốicùng, liên quan đến chủ đề Covid-19, chúng tôi tìm hiểu về bộ dữ liệu COVID-QA[16] được công bố bời tác giả Timo Moller và các cộng sự năm 2020 cũng là năm bắtđầu của đại dịch Covid-19, bộ dữ liệu này bao gồm 2019 cặp câu hỏi và câu trả lời

được gán nhãn bởi các chuyên gia sinh học và nhà khoa học nghiên cứu về

Covid-19.

21

Trang 22

2.2.1.2 Các bộ dữ liệu trắc nghiệm nhiều đáp án

Ở loại bài toán đọc hiểu tự động này, mô hình được yêu cầu phải dự đoán đúng mộttrong những đáp án được đưa ra trong câu hỏi Bộ dữ liệu đầu tiên trong loại này mà

chúng tôi tìm hiểu trong các bộ dữ liệu đọc hiểu tự động điền từ vào chỗ trống làChildren’s Book Test (CBT) [17] được công bố bởi tác gia Flex Hill cùng các cộng

sự tại viện nghiên cứu trí tuệ nhân tạo của Facebook năm 2016 và được chấp nhậnđăng tại hội nghị danh giá về máy học ICLR (International Conference on LearningRepresentation) Facebook CBT có tổng cộng 687343 câu hỏi, đây là bộ dữ liệu sửdụng sách thiếu nhi dé làm các đoạn văn, mỗi đoạn văn bao gồm 21 câu liên tục, 20

câu đầu tiên sẽ được sử dụng làm ngữ cảnh và một từ sẽ bị lượt bỏ trong câu thứ 21

Nhiệm vụ của mô hình sẽ là chọn một trong 10 đáp án được đưa ra dựa vào ngữ cảnh

của đoạn văn và câu hỏi Một bộ dữ liệu trắc nghiệm khác là RACE [18], được công

bố năm 2017, bộ dit liệu này được thu thập từ các bài kiểm tra tiếng Anh cho học sinhTrung Quốc bao gồm gần 28000 đoạn văn và 100000 cặp câu hỏi và câu trả lời bao

gồm nhiều chủ đề đa dạng đề kiểm tra khả năng đọc hiểu và suy luận của học sinh

Bộ dữ liệu này hiện đang có kết quả độ chính xác cao nhất với mô hình ALBERT

[19] là 91.4 %.

Một số bộ dit liệu trắc nghiệm nhiều đáp án có kích thước rất lớn có thé ké đến như

Google MC-AFP [20] là bộ dữ liệu đọc hiểu tự động với khoảng 2 triệu mẫu Đượccông bồ vào năm 2016 bởi Soricut và các cộng sự, bộ dữ liệu này sử dụng nguồn ngữliệu từ LCD’s English Gigaword Đồng thời, tác giả của MC-AFP cũng đưa ra một

phương pháp dé tạo sinh các bộ đữ liệu đọc hiểu tự động sử dụng vector biểu diễn

của những đoạn văn Trong các mô hình thực nghiệm của tác giả, với kiến trúc mạnghọc sâu đa tầng của tác giả đạt độ chính xác 83.2 % và gần với đạt được tới khả năng

trả lời của con người trên cùng bộ dữ liệu này Một bộ dữ liệu có kích thước rất lớn

khác là CNN/Daily Mail [21], được công bố năm 2015 bởi nhà khoa học Hermann

và các cộng sự tại viện nghiên cứu về trí tuệ nhân tạo DeepMind và đại học hoànggia Oxford Day là bộ dữ liệu có kích thước rất lớn, nguồn của dit liệu được thu thập

từ hai website tin tức lớn trên thế giới là CNN và Daily Mail Với nguồn dữ liệu từ

22

Trang 23

CNN, bộ dữ liệu bao gồm 90,266 đoạn van va 380,298 câu hỏi, tương tự với dữ liệuthu thập từ Daily Mail, bộ dữ liệu được tạo ra từ 196,691 đoạn văn và 879,450 câu

hỏi Một bộ dữ liệu có kích thước lớn khác mà chúng tôi tìm hiểu là Who-did-What[22] được công bố bởi tác giả Takeshi cùng các cộng sự năm 2016 với hơn 200,000câu hỏi trắc nghiệm điền vào chỗ trống được thu thập từ nguồn ngữ liệu LDC EnglishGigaword Theo [10], để so sánh với với bộ dữ liệu CNN/Daily Mail thì bộ dữ liệu

này có 3 điểm khác biệt chính Thứ nhất, Who-did-What không tóm tắt nội dung đoạnvăn để làm đoạn văn cho bộ dữ liệu giống như CNN/Daily Mail Thứ hai, tác giả

tránh việc an tên của một cá nhân bằng mà thay vào đó là XXX Thứ ba, nhữngcâu hỏi trong bộ dữ liệu Who-did-What có thé dé dàng bị giải boi mô hình baseline[22] trong khi con người chỉ có giải được 84% trong tổng số câu hỏi của bộ dữ liệunày Ngoài hai bộ dữ liệu kê trên chúng tôi còn tìm hiéu thêm bộ dit liệu đọc hiểu tựđộng điền từ vào chỗ trồng khác mang tính suy luận rat cao là LAMBADA [23] được

công bố bởi tác giả Denis và các cộng sự năm 2016 tại hội nghị danh giá nhất tronglĩnh vực xử lý ngôn ngữ tự nhiên ACL (Association for Computational Linguistics).

Bộ dữ liệu yêu cầu người đọc dự đoán từ còn thiếu ở cuối câu hỏi Đây là bộ dữ liệusuy luận rất khó, yêu cầu mô hình đề giải quyết bài toán này phải thông minh đủ déhiểu toàn bộ ngữ cảnh đoạn văn và trả lời Bời vì có gần 20% các từ cần dự đoánkhông có trong ngữ cảnh đoạn văn nên khi trả lời câu hỏi trong bộ dir liệu này cần

người đọc phải đọc toàn bộ đoạn văn va hoàn toàn không thể suy luận ra được kết

quả cho từ còn thiếu trong câu hỏi nếu chỉ đọc một đoạn nhỏ trong câu hỏi sau đó tracứu ngược lại đoạn văn Độ chính xác cao nhất của bộ dữ liệu này hiện tại là 86.4%

sử dụng mô hình ngôn ngữ GPT-3 [24].

2.2.2 Các bộ dữ đọc hiểu tự động tiếng Việt

Mặc dù tiếng Việt được xem là một trong những ngôn ngữ có nguồn ngữ liệu được

xem là ít so với các ngôn ngữ khác như tiếng Anh, Trung, Hàn, Nga, Tuy nhiênkhông vì điều đó mà các nghiên cứu của chúng ta về đọc hiểu tự động bị hạn chế mà

hoàn toàn ngược lại, các nhà khoa hoc của chúng ta vẫn luôn tìm cách vượt qua những khó khăn nay mà cống hiến dé tạo ra rất nhiều bộ dit liệu không thua kém gi các

23

Trang 24

nghiên cứu khác trên thế giới, tiêu biểu có thể kể đến như UIT-ViQuAD [3], được

công bố năm 2020 Bộ dữ liệu này gồm có 23,074 cặp câu hỏi và câu trả lời được tao

từ 5,109 đoạn văn của 174 bài viết được thu thập từ Wikipedia tiếng Việt và gán nhãndựa vào đám đông Một bộ dữ liệu khác cũng được tác giả Nguyen và các cộng sự

công bố trong cùng năm là UIT-ViNewsQA [25] với 22,057 cặp câu hỏi và câu trảlời tạo từ 4416 văn bản về chủ đề sức khỏe, đây là bộ dữ liệu đọc hiểu tự động tiếng

Việt đâu tiên tập trung vê chủ dé này và có tính ứng dụng rat cao trong cuộc sông.

Một số bộ dữ liệu đọc hiểu tự động trắc nghiệm nhiều đáp án tiếng Việt có thé kê đến

như ViMMRC [26] công bố năm 2020 bao gồm 2,783 câu hỏi trắc nghiệm nhiều đáp

án dựa vào 417 văn bản trong môn Tiếng Việt của học sinh tiểu học tại Việt Nam và

độ khó trong suy luận của câu hỏi trong bộ dữ liệu này sẽ được tăng dần từ lớp 1 đếnlớp 5 dé mô hình có thé trả lời Kết quả độ chính xác cao nhất trong nghiên cứu này

là 61.81 %, tuy nhiên kết quả này vẫn còn khá thấp khi so với độ chính xác của conngười khi trả lời những câu hỏi này Được tạo ra bằng cách trích xuất câu từ bộ dữliệu UIT-ViQuAD, UIT-WikiQA [27] là bộ dữ liệu đọc hiểu tự động dựa vào cấp độ

câu trên tiếng Việt được công bố năm 2021 có cùng kích thước với bộ dữ liệu

UIT-ViQuAD, các tác giả của UIT-WikiQA đã thành công đề xuất được thuật toán tríchxuất câu dựa vào đoạn văn và câu trả lời từ bộ đữ liệu UIT-ViQuAD và đạt kết quảcao nhất là 85.87 % Exact Match và 88.77% F1-score với mô hình XLM-Large [28]

2.3 Các phương pháp giải quyết bài toán đọc hiểu tự động hiện nay

Trong những năm gần đây, với sự phát triển của các phương pháp học sâu và các môhình được huấn luyện sẵn như BERT [29], GPT [24] T5 [30], XLM-R [28], do đóhầu hết những phương pháp giải quyết các bài toán đọc hiểu tự động hiểu tự độnghiện nay hầu hết đều đi theo hướng tận dụng sự mạnh mẽ của những mô hình này kết

hợp với các kiến trúc học sâu để cho ra kết quả tốt nhất Đã có rất nhiều nghiên cứu

được công bồ về kết quả SOTA (state of the art) trên các bộ dữ liệu đọc hiểu tự động

tận dụng sức mạnh của những mô hình này như GPT-3 [24] trên bộ dữ liệu

LAMBADA, mô hình RoBERTa [31, 32] trên bộ dữ liệu CoQA [33] và WikiQA

24

Trang 25

[11], Ngoài những phương pháp này, một số kiến trúc học sâu thú vị khác mặc dù

không sử dụng các mô hình này nhưng cũng đạt kết quả rất cao trên các bộ dữ liệu

đọc hiểu tự động có thê kề đến như QANet [34], Retriever-Reader, Đối với nghiên

cứu này, chúng tôi tập trung nghiên cứu chi tiết hai mô hình suy luận được dùng déđánh giá hiệu suất trên bộ dữ liệu DROP [15] là NAQANet [15] và NumNet [35].Đặc biệt NumNet còn là mô hình đầu tiên đặt tiền đề cho hướng nghiên cứu sử dụng

GNN cho các mô hình suy luận số liệu sau này

2.3.1 QANet

QANet [34] được các tác giả nhận xét thì khác với những mô hình doc hiểu tự độngkhác sử dụng các kiến trúc mô hình Recurrent Neural Network (RNN) thì QANet lạichủ yếu sử dụng kiến trúc mô hình Convolutional Neural Network (CNN) kết hợpvới self-attention giúp mô hình tính toán nhanh hơn và xử lý những token ở đầu vàomột cách song song với nhau Hình 2.1 mô tả kiến trúc của mô hình QANet

Mô hình nhúng đầu vào (Input Embedding Layer) QANet sử dụng mô hình

GLOVE [36] làm lớp nhúng đầu vào cho kiến trúc của mô hình này Phiên bản môhình GLOVE mà QANet sử dụng có kích thước rất lớn, bộ dữ liệu Common Crawl

mà mô hình này sử dụng với bộ từ điển có khoảng 2.2 triệu từ, 840 tỉ token khác nhau

và chiều dài của vector đầu ra của mô hình này là 300 Bên cạnh đó QANet còn sửdung mạng tích chập một chiều (1D — CNN) chưa được huấn luyện trước dé dé quét

qua từng kí tự trong của mỗi từ của đầu vào tạo ra một vector biéu diễn ở mức kí tự

có độ dài là 200 Cuối cùng, đầu ra của một từ x được cho trước sẽ là kết hợp của hai

vector

[x„;xe]€ R°°° voi x,, là vector đầu ra khi nhúng qua mô hình GLOVE va x, là

vector đầu ra của mô hình tích chập quét qua từng kí tự

Mô hình khối mã hóa (Encoder Block) kiến trúc của mỗi khối này bao gồm nhiềulớp kiến trúc mô hình tích chập (Conv Layer) và kết thúc bằng một lớp self-attention

và một lớp feedforward được minh họa ở hình 2.1 Ở lớp mô hình tích chập, QANet

sử dụng Deep Wise Separable CNN với kích thước kernel là 7 và 128 filters thay vì

25

Trang 26

kiến trúc mô hình tích chập truyền thống vì theo tác giả quan sát thấy khi sử dụngDeep Wise Separable CNN sẽ giảm được bộ nhớ và mang tính tổng quát hóa tốt hơn.Tiếp đến là lớp self-attention, lớp này sử dụng kĩ thuật multi-head attention [37] với

số head là 8 Và cuối cùng, mô hình được đưa qua một lớp mô hình Feed ForwardNeural Network có kích thước đầu ra là 128 Trong kiến trúc của những lớp này đềuđược thêm vào một lớp chuẩn hóa đầu vào và skip-connection, điều này giúp hạn chế

được trường hợp vanishing gradient khi kết hợp nhiều khối này với nhau trong quá

trình huấn luyện Cả hai kiến trúc mô hình mã hóa nhúng (QANet-Emb-Eno) và kiếntrúc mô hình mã hóa (QANet-Mod-Enc) đều sử dụng kiến trúc kết hợp nhiều khối mãhóa này, điểm khác nhau của hai mô hình là mô hình mã hóa nhúng sử dụng 4 lớp

mô hình tích chập thay vì 2 như trong kiến trúc mô hình mã hóa

Start Prob Start Prob

Stacked Embedding Stacked Embedding

| Encoder Blocks | Encoder Blocks Layer Norm

———¬

S$

Embedding Embedding G en “sion /)

One Encoder Block

Context Question

Hình 2.1: Kiến trúc của mô hình QANet

26

Trang 27

Context-Query Attention Sau khi đã có được hai ma trận là Q và C lần lượt là ma

trận mã hóa của câu hỏi và đoạn văn đầu vào của mô hình, đầu tiên một ma trận

khoảng cách của mỗi cặp đoạn văn và câu hỏi S € RTM với n là số từ trong câu hỏi

và m là số từ trong đoạn văn Đối với context-to-query attention, ma trận này sẽ đượcchuẩn hóa qua hàm softmax dé tạo ra ma trận dé tao ra ma trận khoảng cách S, sau

đó trọng số attention của câu hỏi (Q € RTM**) sẽ được tính bằng công thức Ø = SQ

và tương tự với query-to-context attention, trọng số attention của đoạn văn (C € IR#X®

) được tính theo công thức € = SSTMC với Š là chuẩn hóa softmax theo từng cột của

ma trận S Đầu ra cuối cùng của Context-Query Attention là một ma trận kết hợp của

ma trận C, Ế va 0 dé biểu diễn thông tin mà mô hình thọc được thông qua đoạn văn

và câu hỏi, [C,Q,C © Ø,€ © C] € RTM*¢.

Cuối cùng, đầu ra từ lớp Context-Query Attention sẽ được chuyển từ không gianRTM*44 sang không gian IR”“X# thông qua một mô hình tuyến tính Ma trận này sẽ

được đưa vảo lần lượt ba lớp mô hình mã hóa dé tạo ra ba ma trận lần lượt là Mo =

QANet-Mod-Enc(), M1 = QANet-Mod-Enc(M1) và Ma = QANet-Mod-Enc(M2),

Cuối cùng, xác suất của một từ là diém bắt đầu cho câu trả lời và điểm kết thúc cho

câu trả lời được tính theo công thức sau:

p = softmax (FNN[M); M,])

p* = softmax (FNN[M,; M;])

Với p1 và p? lần lượt là xác suất của điểm bat dau và điểm kết thúc của câu trả lời,

ENN là mô hình feed-forward 2 lớp với hàm kích hoạt là ReLU.

2.3.2 NAQANet

NAQAN&et [15] — Mô hình nhận biết số liệu là mô hình cơ sở đầu tiên được dùng déđánh giá bộ dữ liệu DROP, mô hình này sử dung kiến trúc tương đối giống với kiếntrúc của mô hình QANet [34], điểm nổi bật của mô hình này là ngoài xác định điểmbắt đầu và điểm kết thúc câu trả lời như QANet thì NAQAN&t bồ sung thêm ba loạicâu trả lời có trong bộ dit liệu DROP là (1) điểm bắt đầu và điểm kết thúc của đáp án

27

Trang 28

nằm trên câu hỏi; (2) câu trả lời phép đếm; (3) câu trả lời là phép toán giữa các con

số Ngoài ra trước khi đưa ra câu trả lời thì NAQANet còn cần phải dự đoán xem rằng

câu trả lời cho câu hỏi sẽ thuộc về loại tính toán nào giúp cho mô hình có khả năng

học tốt hơn khi trả lời các loại câu hỏi khác nhau, kiến trúc của mô hình được minh

| Stacked Embedding Stacked Embedding |

| Encoder Blocks Encoder Blocks |

Hình 2.2: Kiến trúc mô hình NAQANet

Câu trả lời nằm trên câu hỏi: Vì bộ dữ liệu DROP [15], có một số câu hỏi mà trong

đó câu trả lời sẽ nằm trên chính câu hỏi đó thay vì nằm trên đoạn văn Đầu tiên môhình sẽ tính toán một vector h“ dé biên diễn những thông tin có trong đoạn văn

Trang 29

Với el9Ì @ hể là tích vô hướng của hai vector el9l và h€, el9Ï là vector biểu diễn

từng từ trong câu hỏi.

Câu trả lời phép đếm: Tác giả của NAQANet [15] đặt ra nhận định rằng các câu hỏi

phép đếm thường có kết quả là những con số nguyên dương hàng đơn vị (từ 0 — 9)

Từ đó dé giải bài toán phép đếm này, NAQANet sử dụng mô hình feed-forward vớihàm kích hoạt là softmax lên vector hdé tính xác suất của đáp án

pou" = softmax (FFN(h‘))

Câu tra lời phép toán giữa các con số: Trong bộ dữ liệu DROP [15], có rat nhiều

câu hỏi suy luận số liệu mà câu trả lời là đáp án của phép tính cộng trừ của những con

số trong đoạn văn Dé giải quyết loại câu hỏi suy luận này, đầu tiên mô hình sẽ tríchxuất ra tất cả những con số ở trong đoạn văn, sau đó gán cho những con số này cácphép tính cộng, trừ hoặc bằng 0, nếu số đó có giá trị bằng không thì điều này có nghĩa

là con số đó không đóng góp vào phép tính đề tạo ra câu trả lời Dé làm được điều

này thì NAQANet sử dụng thêm một lớp mô hình mã hóa tạo ra ma trận M3 =

QANet-Mod-Enc(M›) sau đó ghép ma trận này với Mo, vector biéu diễn cho từng con số trong

đoạn văn hŸ chính là cột thứ i của ma trận được ghép tir M3 và Mo ở trên Loại phép

tính gán cho con số này sẽ được tính thông qua một mô hình feed-forward với hàm

kích hoạt là softmax.

pm" = softmax (FFN(h†))

Cuối cùng dap án của câu hỏi sé được tinh bằng tổng của tat cả những con số đã

được gán phép tính.

Bên cạnh các dự đoán về câu trả lời suy luận số liệu trên, NAQANet còn sử dụng

một đầu ra khác đề dự đoán loại câu trả lời cho câu hỏi với công thức:

Trang 30

» Pr(type )Pr(answer/type)

type

Từ đó giúp mô hình có thé học được loại câu trả lời va trả lời đáp án chính xác nhất

dựa vào loại này.

2.3.3 NumNet

NumNet [35] là mô hình đầu tiên sử dụng sức mạnh của GNN dé học mối liên hệ

giữa các con số, tác giả của NumNet cho răng đối với bài toán suy luận số liệu này

thì việc biểu diễn các con số dựa vào ngữ cảnh của nó trong đoạn văn và câu hỏi chưathể hiện được hết quan hệ giữa số liệu Vì vậy, mô hình NumNet được ra đời dé giaiquyết được van dé này Với thiết kế kiến trúc của mô hình bao gồm ba mô đun là (1)

Mô đun mã hóa; (2) Mô đun suy luận và (3) Mô đun dự đoán mà trong dó Mô đun

suy luận là phần kiến trúc khiến mô hình này nồi bật so với những mô hình giải quyết

bài toán đọc hiểu tự động trước đây Kiến trúc mô hình NumNet được mô tả trong

Hình 2.3 Kiến túc của mô hình NumNet [35]

Mô đun mã hóa: Giống với QANet [34] và NAQANet [15], NumNet cũng tận dụng

lại kiến trúc những khối mã hóa và Context-Query Attention của QANet đề xử lý dữ

liệu đầu vào Đầu tiên đoạn văn C và câu hỏi Q sau khi được đưa vào mô hình sẽ

được cho qua mô hình mã hóa nhúng dé chuyền thành các vector biểu diễn cho câu

hỏi và đoạn văn:

30

Trang 31

cạnh trong đồ thị của mình là (1) cạnh quan hệ lớn hơn (E ) va (2) canh quan hé nho hơn hoặc bang (E) Đối với loại cạnh quan hệ lớn hon, đây là cạnh giữa hai nút v; va

1; trong đồ thị G (ổ¡; = (Vir 0j)) với 0ạ, 0; EV nếu như giá trị của nút 0; lớn hơn giá

trị của nút v; Và tương tự với loại cạnh còn lại thì quan hệ giữa hai nút v; và 0; (6; j=

(¡, v;)) nêu như giá trị tai nút v; nhỏ hơn hoặc băng với giá tri tại nút 0.

Quay trở lại với tính toán trong mô hình thì sau khi dữ liệu được cho qua mô đun mã

hóa và tính toán được hai ma trận Q và Ể thì hai ma trận mã hóa cho câu hỏi và đoạn

văn lần lượt là M@ và M° cũng được tính toán bằng cách đưa hai ma trận Q và Ế qua

lớp mô hình mã hóa của QANet.

M2 = OANet-Mod-Ene (Q)M°€ = QANet-Mod-Enc (C)

Với mỗi số liệu trong câu hỏi và đoạn văn đã được trích xuất từ trước dé xây dựng

các nút trong đồ thị G, vector biểu diễn từng nút (0Ÿ) trong câu hỏi sẽ là cột thứ i

trong ma trận MỸ với i là vị trí của số đó trong câu hỏi và tương tự như vậy với vectorbiểu diễn những nút này trong đoạn văn (vf) cũng sé là cột thứ j trong ma trận Mf

với j là vị trí của số đó trong đoạn văn Tập hợp tat cả những điểm này là 0 = {z7} U

{v? } Sau khi đã có được những thông tin này, mô hình bắt đầu tận dụng sức mạnh

của GNN dé suy luận thông qua 3 bước sau

31

Trang 32

e_ Ước lượng nút liên quan: Như chúng ta đã biết ở mô hình NAQANet, mặc

dù có rất nhiều số liệu xuất hiện trong đoạn văn và câu hỏi, nhưng chỉ có mộtvài số thực sự liên quan Do đó, dé xác định được mức độ liên quan của từngnút này đến câu trả lời, NumNet sử dụng một trọng một mô hình feed-forward

với hàm kích hoạt sigmoid.

a; = sigmoid(FNN(v;))

a; chính là độ liên quan của nút v; đến câu trả lời với v; € 09

e Lan truyền thông tin: Trong GNN, vai trò của một nút trong suy luận không

chỉ dựa vào thông tin chính nó mà còn phụ thuộc vào ngữ cảnh xung quanh

của nó — các nút hàng xóm NumNet sử dụng một ma trận ð; để biểu diễnthông tin được lan truyền xung quanh một nút ¡

e Cap nhật vector biêu diễn nút: Sau khi đã có được ma trận biêu diễn cho

những thông tin lan truyền xung quanh các nút có trong đồ thị G, vector biểu

diễn cho từng nút đó sẽ được cập nhật lại theo công thức:

vj = ReLU (Wz; + ð¡ + bự)Với Wy va br lần lượt là trọng số và bias của mô hình, hàm kích hoạt cho mô

hình nay là ReLU.

32

Trang 33

Sau khi tính toán hết cả 3 bước trên dé cập nhật vector biểu diễn cho từng nút,

NumNet gọi đây là một quá trình suy luận và được biểu diễn bằng một hàm

v' = Reasoning-Step (0,9)

Khi chỉ thực hiện một quá trình suy luận thì khi này mô hình chỉ có học được mốiquan hệ giữa các nút liền kề nhau trong đồ thi Dé các mối quan hệ này có thé đượchọc kĩ hơn và biéu diễn vector của từng nút được rõ ràng hơn thì NumNet [] đề xuấtphương pháp sử dụng nhiều quá trình suy luận xếp chồng với nhau

v' = Reasoning-Step (011)

Với t>=1 va ma trận sau khi trả về sau k-quá trình suy luận sẽ là ma trận chứa tất

cả vector biểu diễn của từng nút, cũng là từng số ở trong câu hỏi và đoạn văn (U)

đầu ra My cho mô đun dự đoán Cu thê như sau:

Mn" [i] = aN nếu wf là mot số

Mạ = FNN([M?; M"“" J),

Mẹ = QANet-Mod-Enc (Mạ),

Với MZ" là ma trận biểu diễn số liệu và có cùng kích thước với M, do đó với những

vị trí w¿ trong đoạn văn mà không phải là số thì sẽ được biểu diễn băng một vector

không, còn nếu là số thì vector này sẽ là cột thứ i tương ứng trong ma trận U

Mô đun dự đoán: kiến trúc của mô đun này giống hoàn toàn với với kiến trúc dựđoán của mô hình NAQANet [15] với bốn công đầu ra là (1) câu trả lời nằm trên đoạnvăn; (2) câu trả lời nằm trên câu hỏi; (3) câu trả lời phép đếm và (4) câu trả lời phép

toán giữa các con số được chúng ta mô tả ở 2.3.2

2.4 Các phương pháp đánh giá bài toán đọc hiểu tự động

2.4.1 Accuracy

Theo khảo sát của chúng tôi, đối với những bài toán đọc hiểu tự động trắc nghiệm

nhiều đáp án như RACE [18], CBT [17], những phương pháp giải loại bài toán đọc

33

Trang 34

hiểu tự động này tương đối giống với bài toán phân loại (classification) và xếp hạng

(ranking), do đó phương pháp đánh giá những bài toán này chủ yếu là độ chính xác:

Đối với bài toán đọc hiểu tự động rút trích từ đoạn văn thì việc xác định được câu trả

lời đó có phải là một câu trả lời chính xác hay không thì có vẻ nhập nhăng hơn nhiều

so với bài toán đọc hiểu tự động trắc nghiệm nhiều đáp án Bài toán này xác định đáp

án của câu dựa vào khoảng cách giữa vị trí bắt đầu và vị trí kết thúc của đáp án nằm

trên đoạn văn, sau đó hai điểm này sẽ được so sánh với Vi trí bắt đầu và kết thúc thực

tế của đáp án vì vậy giả sử câu trả lời đưa ra thiếu một chữ hay thừa một chữ được

xem là hoan toàn sai thì cũng chưa được chính xác vì có thể đoạn văn trong câu trảlời vẫn mang ý nghĩa Vì vậy trong các nghiên cứu về bài toán này như ViQuAD [3],SquAD [13], DROP [15] đều sử dụng độ đo mức độ token là E1-Score

R.=2: precision - recall _ TP

precision + recall Tp + 5 (FP + FN)

Mà ở trong đó thi true poisitive (TP) là số lượng token giống nhau giữa câu trả lời

và câu hỏi, false negative (FN) là phần token còn lại mà mô hình chưa dự đoán

đúng, false poisitive (FP) là phần token mà mô hình đự đoán ra nhưng sai với thực

tế Với độ đo này thì kết quả đánh giá sẽ bao quát được về từng token có trong vị tríbắt đầu và vị trí kết thúc của câu trả lời mà mô hình dự đoán được

2.4.3 Exact Match

Exact Match (EM) là độ đo đánh gia dùng dé đánh giá một từ hoặc cụm từ được dựđoán bởi mô hình, EM được tính là tỉ lệ phần trăm mà mô hình dự đoán đúng hoàntoàn được đáp án thực tế đến từng chữ Cách tính của EM tương dối giống với

34

Trang 35

Accuracy vì chúng đều là lay số lượng câu trả lời đúng so với thực tế dé chia cho tổng

số câu hỏi Trong bài toán đọc hiểu tự động trích xuất từ đoạn văn thì EM và Accuracy

có thé xem như cùng một phương pháp nhưng ở bài toán đọc hiểu tự động trắc

nghiệm nhiều đáp án thì EM không được sử dụng vì ở bài toán này đáp án của bài

toán không phải là một từ hay cụm từ mà chỉ đơn giản là nhãn của đáp án nên việc

dùng EM được xem là không cần thiết Công thức đề tính EM là

Exact Match =~XAC atc = N

Với M là tong số câu hỏi mà mô hình trả lời đúng được chính xác 100% từng chữ va

N là tông sô lượng câu hỏi có trong bài toán.

2.5 Kết luận

Dựa vào những khảo sát của chúng tôi cho thấy mặc dù trong thời điểm dịch

Covid-19 đang hoành hoành như hiện nay thì các nghiên cứu không vì đó mà suy giảm,

ngược lại cho thấy sự thích ứng rất nhanh từ các nhà khoa học trong việc chuyển đổi

nghiên cứu nhăm mục đích tạo ra những công cụ ứng dụng trí tuệ nhân tạo dé phuc

vụ cho tình hình chống dịch hiện nay

Đối với lĩnh vực xử lý ngôn ngữ tự nhiên nói chung va bai toán doc hiểu tự độngtrong những năm gan đây có sự phát triển vô cùng mạnh mẽ với những bộ dữ liệu đa

dạng cả về ngôn ngữ, kích thước lẫn các loại câu hỏi suy luận, đồng thời với sự phát

triển của các mô hình học sau và những mô hình được huấn luyện san như BERT[29], GPT-3 [24], XLM-R [28], thi những mô hình có hiệu suất cao hon con nguoitrên các bài toán đọc hiểu tự động không còn xa nữa Hiện nay, đối với bài toán đọchiểu tự động chủ đề Covid-19 vẫn đang là một chủ đề hoàn toàn mới mẻ và có tính

ứng dung rat cao trong thời điểm dịch bệnh Covid-19 diễn ra rất căng thắng như hiện

nay vì hằng ngày có hàng trăm hàng nghìn câu hỏi liên quan đến chủ dé này xuất hiện

trên hot search của nhiều diễn đàn nồi tiếng như Twitter, Quora, Facebook, thì với

sự xuất hiện của bộ đữ liệu đọc hiểu tự động chủ đề Covid-19 duy nhất là

COVID-QA [16] thì vân còn rat hạn chê đôi với chủ đê này Các nghiên cứu về suy luận sô

35

Trang 36

liệu trong bài toán đọc hiểu tự động và những mô hình suy luận kết hợp GNN là một

trong những hướng đi rất mới cho bài toán đọc hiểu tự động này khi bây giờ mô hìnhkhông chỉ xác định câu trả lời dựa vào hiểu được ngữ cảnh của đoạn văn và câu hỏinữa mà còn có thé di sâu vào mối quan hệ giữa các thực thé trong đoạn văn và câu

hỏi.

36

Trang 37

Chương 3 XÂY DUNG BO DU LIEU

3.1 Mớ đầu

Trong nghiên cứu này, việc xây dựng một bộ dữ liệu đọc hiểu tự động kết hợp với

suy luận số liệu đóng vai trò cốt lõi trong toàn bộ nghiên cứu Vì vậy, chúng tôi xây

dựng bộ dữ liệu ViCOVIDQA là bộ dit liệu đọc hiểu tự động suy luận số liệu tiếngViệt đầu tiên với mục đích trước mắt là để phục vụ cho nghiên cứu này và xa hơnnữa là cống hién cho cộng đồng nghiên cứu khoa học dé có thé phát triển bài toánđọc hiểu tự động suy luận số liệu trên tiếng Việt Để xây dựng được bộ dữ liệu này,chúng tôi đã tiến hành thu thập dữ liệu từ 4 trang báo điện tử lớn và uy tín của ViệtNam là VnExpress, ThanhNien, BaoMoi, ZingNews các bài báo có gắn hashtag

“Covid-19” với đa dạng chủ đề như Thời Sự, Đời Sống, Pháp Luật, làm văn bản

cho bộ dữ liệu Dựa theo bộ dữ liệu DROP [15], chúng tôi xây dựng guidelines với

các định nghĩa về các loại câu hỏi, loại suy luận và cách đặt câu hỏi dé xây dựng bộ

câu hỏi — câu tra lời dựa vào những bài báo thu thập được Ngoài những câu hỏi - câu

trả lời được rút trích từ đoạn văn, thì VICOVIDQA còn được thêm vào những câu

hỏi mang tính suy luận số liệu sử dụng các phép toán cộng, trừ, nhân, chia và cácphép toán khác như so sánh, liệt kê, phép đếm, và có câu trả lời tự do để tạo rađược sự đa dạng về loại suy luận trong ViCOVIDQA và cũng làm tăng tính tháchthức cho những mô hình giải quyết các bài toán đọc hiểu tự động hiện nay, ví dụ ở

bảng 3.1 Sau cùng, chúng tôi thực hiện những phân tích và thống kê mô tả về độ dàiđoạn văn, câu hỏi, các loại suy luận ton tại trong ViCOVIDQA, các loại câu hỏi đểngười đọc có thé hiểu được tổng quan bộ dữ liệu đã xây dựng được

Bảng 3.1: Ví dụ câu hỏi trích xuât từ đoạn văn và câu hỏi suy luận sô liệu.

Số ca nhiễm Covid-19 trong ngày ở Malaysia tiếp tục lập mốc ky lục mới,

trong khi tình hình dich bệnh ở một số nước Đông Nam A khác còn diễn biến

phức tạp Bộ Y tế Malaysia hôm nay 25.7 ghi nhận thêm 17.045 ca nhiễm

Covid-19, vượt số ca nhiễm mới/ngày cao kỷ lục được công bố hôm qua là

15.902 ca, nâng tổng số ca nhiễm vượt cột mốc triệu ca, theo báo The Star

37

Tiêu đề	Nghiên cứu đọc hiểu tự động dựa trên suy luận số liệu cho văn bản tiếng Việt chủ đề Covid-19
Tác giả	Lê Việt Thắng
Người hướng dẫn	ThS. Nguyễn Văn Kiệt
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	74
Dung lượng	35,76 MB