Để đánh giá thách thức cho bộ dữ liệu của chúng em đối với mô hình, chúng em sử dụng các mô hình ngôn ngữ được dao tạo trước của SOTA: BERT [14], XLM-R [13], phoBERT [10], và SBERT [12]
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
LUONG NGỌC PHƯƠNG NHI - 20520263
LE THI LAN ANH - 20521067
KHOA LUAN TOT NGHIEP
XAC THUC THONG TIN DUA TREN
SUY LUAN SO LIEU
Fact verification with numerical reasoning
CU NHAN NGANH CONG NGHE THONG TIN
Trang 2LỜI CẢM ƠN
Trong quá trình thực hiện ý tưởng nghiên cứu và hoàn thành đề tài, chúng
em may mắn nhận được sự hỗ trợ từ Thầy Cô, Nhà Trường và Gia đình
Chúng em xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Lưu ThùyNgân và ThS Huỳnh Văn Tín đã đồng hành và theo chúng em dé hướng dẫn, quantâm, lo lắng và chỉnh sửa dé có được Khóa luận tốt nghiệp tốt nhất Thay, cô làngười truyền nguồn cảm hứng, kiến thức để chúng em có đủ nhiệt huyết để thựchiện Khóa luận tới cuối cùng
Tiếp theo, chúng em xin gửi lời cảm ơn chân thành đến Khoa Khoa học và
Kỹ thuật thông tin, Phòng Dao Tạo, trường Dai học Công Nghệ Thông Tin đã hỗtrợ và tạo điều kiện, giúp đỡ chúng em trong suốt quá trình học tập và nghiên cứu
Trang 3MỤC LỤC
Chương 1 = TONG QUAN - 2 2SE+EE‡EE2EE2EE2EE2E12E12112112171 21.1 xe 3
1.1 Bài toán kiểm tra và xác thực thông tỉn 2-2 2 ++++£+E+zxzxezxerxee 3
1.2 Nhiệm vu xác thực thông tin dựa trên suy luận số liệu đối với tiếng Việt 5
1.3 Sự anh hưởng của các mô hình Pre-trained BERTology lên nhiệm vụ xác
thực thông tin dựa trên suy luận SỐ |ÏỆU ác St SE EEEEEEEEEEEEEEEESEEEkerkrkerkrree 5
1.4 Những đóng góp chính của đề tài - 2c 5c+2z+kc2E2EEcEECEEEerkerkerrkrree 6
Chuong2 © CAC CÔNG TRÌNH LIÊN QUAN -2-2©2+c+s>sz+xcse2 7
2.1 Các bộ dữ liệu liên quañ s5 + 11901211 911911 91 21h ng ng 7
2.1.1 Bộ dữ liệu FEVER tiếng Anh -+- + ©52+cs+cxczrerxerkerreereee 7
2.1.2 Các bộ dữ liệu khác -+-©+e+++EkcEkSEEerkerkkerkerkerrrerkee 7 2.2 Các mô hình liên Qua1 - c2 622 33 3352EE%22EE£EEEEeEEEesEeeeeeeesrreerersee 8 2.3 Quy trình xây dựng bộ dữ lIỆU - - - - E21 + 1E EESekeeerseeeseeeree 11
Chương3 XÂY DỰNG BO DU LIỆU 2-52 2£2+EE+EzEzEzrrrxee 13
3.1 Mô tả bộ dit liệu ViFEVER 22- 522222 2ExEEE CS EExErErrerkrrrrrrrrrvee 13 3.2 Quy trình xây dựng dữ lIỆU - - - G5 5 3111991112111 11 1 1 vn rey 13
3.2.1 _ Thu thập dữ liệu -2¿©-+c++2E+2E+tEErrEerxerxerrrerrrree 14
3.2.2 Tuyển chọn đội ngũ tạo dữ liệu - - 5 5c + + skkseseerseeeek 14
3.2.3 Tạo câu khang định và tim bang chứng -¿ ¿-s+ 15
3.2.4 Kiểm tra bộ dữ liệu :-©2¿©2++cx2E2EteEErrEerkrrkrrrrerrrree 17
Chương 4 PHÂN TÍCH BO DU LIỆU - 2-2: ©22+2E£+£+£x+zxzzzsersez 19
4.1 Thống kê tổng quan ¿-2¿+¿©++2E++EE++EE+£EEESEEEEEEEEEEEEEErrrkerrrrrrrees 19
4.2 Mire do tring Lap 0 21
43 Ty 16 t M61 nh 22
Trang 44.4 Quy tắc tạo dữ liệu -:- St St EEE1211211211211211211 21121111 11c, 23
No sốc “(-(-CQ-QÄÄÄÂHHẬHH))))L 26
Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIA - ¿©z+cx+cxzzesrxez 27
5.1 Mô hình cơ sở và cài đặt thí nghiệm - 5- 55+ *++*++eexeeersssss 27 5.2 Độ đo đánh giá -2- 22-222 EEEE1127112712712112112711 211.11 11.1E.1xexe 28
¬“n veà ca 28
5.2.3 IIE vo AăĂ 29
5.3 Kết quả thí nghiệm ¿2-2 +k+EE+EE#EEEEEEEEEEEE 1221111121111 1e 1e, 30
Chương 6 PHAN TÍCH KET QUẢ 2-2 2©2++c++£z+z+re+reei 35
6.1 Chiều dài ảnh hưởng đến hiệu suất mô hình 2-2-2 2 2252 35
6.1.1 Chiều đài đoạn tiền đề : -¿- + 2+2c+tEEccEvrxerkerrrerkrree 35
6.1.2 Chiều dài câu khang định 2-©22©2<+E2E+EEerxrrerrkeree 36
6.1.3 Tổng chiều dài đoạn tiền đề và câu khang định - 37
6.2 Ảnh hưởng của trùng lặp và từ mới từ đến hiệu suất mô hình 38
6.2.1 evv Ư8- 38
6.2.2 Longest Common Subsequence - 5s sxtsseesersereeers 39
6.3 Phân tích lỗi bằng ma trận nhầm lẫn - 2-2 2 2 +2 ++££+£zz£zzs+2 41
6.4 Phân tích kết quả dự đoán sai -¿- 2: +¿©+2++2E++EE+eEE+vrxesrxrsrxrrrree 49
Chuong 7 KÉT LUẬN VA HƯỚNG PHÁT TRIÉN -2- s2 5z¿ 52
7.1 Kết luận s-©5c 2k 2k 2E E21 21122111121111111211 11211111 ceeye 52
Trang 5PHU LUC 1 Vi DU MINH HOA CHO TUNG QUY TAC TẠO CÂU KHANG
ĐỊNH NHAN HO TRỢ VA BAC BO
Trang 6DANH MỤC HÌNH
Hình 1.1 Ví dụ các câu khang định — bang chứng được lấy từ bài báo 4Hình 2.1 Giao diện đánh nhãn các câu khang định ccesseccessceessseecesseeeesseees 12
Hình 3.1 Quy trình xây dung bộ dữ liệu VIFEVER eeceeceeeeeeeeeteeeeeeeeteeneeeees 13
Hình 3.2 Quy trình tuyển chọn người tạo bộ dữ liệu VIFEVER -. 14Hình 3.3 Cấu trúc của một mẫu dữ liệu -¿- - ¿6 + Sx+E£EEEE+EvEEzE+EeExzxerrxsrers 17Hình 4.1 Biểu đồ phân bố chiều dài - 2-2-2 2 + £+E++EE+E++E+EE+EzEzrezrerreee 21
Hình 4.2 Tỷ lệ kết hợp các quy tắc tạo câu Hỗ trợ - 2 2+z+sz+szsz+x++: 24
Hình 4.3 Ty lệ kết hợp các quy tắc tạo câu Bác bỏ -. ¿- 5¿©c++2cx2zsczsez 24
Hình 4.4 Tỷ lệ kết hợp các câu tạo thành bằng chứng .: ¿ ¿©z©5s+¿ 26Hình 6.1 Hiệu suất của mô hình theo chiều dài đoạn tiền đề trên tập dev 35Hình 6.2 Hiệu suất của mô hình theo chiều dài đoạn tiền đề trên tập test 36Hình 6.3 Hiệu suất của mô hình theo chiều dài của câu khẳng định trên tập dev 36Hình 6.4 Hiệu suất của mô hình theo chiều dài của câu khang định trên tập test 37Hình 6.5 Hiệu suất của mô hình theo tong chiều dai đoạn tiền dé và câu khẳng định
trén tap dev NGA / =5 MEM m 37
Hình 6.6 Hiệu suất của mô hình theo tông chiều dài đoạn tiền đề va câu khang định
Hình 6.7 Hiệu suất của mô hình theo Jaccard trên tập dev se se 39Hình 6.8 Hiệu suất của mô hình theo Jaccard trên tẬp (€S cà Ăn 39Hình 6.9 Hiệu suất của mô hình theo LCS trên tập eV Lee, 40Hình 6.10 Hiệu suất của mô hình theo LCS trên tẬP (€S( Ăn 40Hình 6.11 Hiệu suất của mô hình theo tỷ lệ từ mới trên tập dev Al
Hình 6.12 Hiệu suất của mô hình theo ty lệ từ mới trên tập test - 41
Hình 6.13 Ma trận nhằm lẫn mô hình Bert-base-multilingual . - 42Hình 6.14 Ma trận nhằm lẫn mô hình XLM-Roberta-large 2-2 2 2 +: 43
Hình 6.15 Ma trận nhằm lẫn mô hình phoBER'T-large 2-2 2 2 2+52zss 44
Hình 6.16 Ma trận nhằm lẫn mô hình Bartpho_word : s¿ 22s 45Hình 6.17 Ma trận nhằm lẫn mô hình cafeBERLT - 2 2 +zx+£e£E+zxzxezxeze2 46
Trang 7Hình 6.18 Ma trận nhằm lẫn mô hình SBERT-large Hình 6.19 Ma trận nhằm lẫn mô hình InfoXLM-large
Trang 8DANH MỤC BANG
Bảng 3.1 Quy tắc tạo câu khang định của nhãn Hỗ trợ 2 2 2 z+szzs+ 15Bang 3.2 Quy tắc tao câu khang định của nhãn Bác bỏ -2- 2 2 2252255+‡ 16Bảng 3.3 Kết quả đồng thuận giai đoạn kiểm tra -2-©2¿©5¿2cx2zxcsrxccreee 18Bảng 4.1 Thống kê tổng quan dit liệu ViFEVER, 2- 2-55 ©5s+cx+cxzxsccxez 19Bang 4.2 Mức độ trùng lặp từ giữa đoạn tiền dé va câu khang định 22
Bảng 4.3 Tỷ lệ từ mới trong câu khang định so với đoạn văn tiền đề 23 Bang 4.4 Quy tắc tao câu khang định của nhãn Hỗ trợ -2- 2 2 2255: 25
Bảng 4.5 Quy tắc tạo câu khang định của nhãn Bác bỏ -. -¿-c5¿©55z©55+2 25Bảng 5.1 Hiệu suất của mô hình trên tập Dev va Test của bộ ngữ liệu VIFEVER .31Bảng 5.2 Hiệu suất mô hình trên toàn bộ tập dev dữ liệu bằng chứng 32
Bảng 5.3 Hiệu suất trên các tập đữ liệu bằng chứng với độ đo Precision 32
Bảng 6.1 Ví dụ các cau khẳng định bi dự đoán nhãn sa1 - «55 +5<<+ 49
Trang 9DANH MỤC TU VIET TAT
STT Từ viết tắt Ý nghĩa
1 |LCS Longest Common Subsequence
2 |NLI Natural Language Inference
3 | NLP Natural Language Processing
4 |SVM Support Vector Machines
5 | FEVER Fact Extraction and VERification
6 | LSTM Long Short-term Memory
7 |5 Supported
8 IR Refuted
9 |N NotenoughInfo
Trang 10TOM TAT KHÓA LUẬN
1 Vấn đề nghiên cứu
Sự bùng nỗ thông tin trên Internet dẫn đến nhu cầu ngày càng cao cho việc
xác thực thông tin hay còn gọi là kiểm tra sự thật Tuy nhiên, những bài báo hoặc
nghiên cứu về xác thực thông tin thường tập trung vào tiếng Anh, tiếng Trung, nhưng trên tiếng Việt vẫn còn hạn chế về số lượng tài nguyên phục vụ cho nghiêncứu này, đặc biệt là bộ dir liệu số Do đó nhóm chúng em đã tiến hành nghiên cứuphát triển ViFEVER nhằm cung cấp bộ dữ liệu cho nhiệm vụ xác thực thông tintiếng Việt Bên cạnh đó ứng dụng các mô hình xác thực thông tin tiên tiến, giúpngười dùng dễ dàng kiểm tra được tính chính xác của thông tin
2 Quá trình thực hiện:
Bộ dữ liệu xác thực thông tin dựa trên suy luận số liệu ViFEVER đượcchúng em thu thập và xây dựng trên miền dữ liệu báo điện tử VnExpress!, mộttrong những trang tin tức có độ uy tín cao cùng với số lượng người đọc đông đảotính đến thời điểm hiện tại Với một hệ sinh thái đa dạng như vậy, chúng em tinchắc rằng đó là một nguồn đữ liệu khá đồi dào và đủ tiêu chuẩn cho bài toán Bêncạnh đó, bộ dữ liệu được đánh giá và tinh chỉnh liên tục trong suốt quá trình xâydựng dé đảm bảo độ chính xác và tính toàn vẹn Bộ dữ liệu sau khi được hoàn thiện
sẽ được thực hiện các phần phân tích dé nắm rõ hơn về bản chất của đữ liệu và nhờ
đó có thể đưa ra những phương pháp phủ hợp quá trình xử lý và ứng dụng
Tiếp đến chúng em nghiên cứu và tìm hiểu nhiều loại mô hình cho bài toán
xác thực thông tin như: mBERT, SBERT, phoBERT, XLM-R, InfoXLM, cùng
với những kỹ thuật truy xuất thông tin cho nhiệm vụ tìm kiếm các bằng chứng choviệc xác thực thông tin Với bộ dữ liệu đã được hoàn thiện, tiến hành chạy thựcnghiệm và kiểm chứng độ chính xác và đánh giá hiệu suất của các mô hình Tiếpđến thực hiện việc phân tích kết quả thực nghiệm dé có thé đưa ra những đánh giá
! https://vnexpress.net/
Trang 11hiệu suât của từng mô hình Từ đó, rút ra mô hình tôt nhât cho bài toán kiêm tra và
xác thực thông tin cho số liệu trên miền dữ liệu tiếng Việt.
3 Tóm tắt kết quả nghiên cứu:
Trong bài báo cáo, chúng em đã giới thiệu sơ lược về bài toán xác thực thôngtin dựa trên suy luận số liệu, nhân mạnh tam quan trọng của việc đảm bảo độ tin cậy
và chính xác của thông tin đặc biệt là xác thực thông tin số liệu trong thời đại sỐ
hóa Báo cáo cũng giới thiệu bộ dữ liệu VIFEVER, một công cụ quan trọng cho
nghiên cứu và phát triển các mô hình xử lý ngôn ngữ tự nhiên (NLP) trong ngữcảnh tiếng Việt, cùng với đó là các bước xây dựng và đánh giá chỉ tiết từ thu thập,
xử lý và gán nhãn dữ liệu đến việc phân tích và đánh giá hiệu quả của bộ dữ liệu
Sau khi xây dựng được bộ dữ liệu VIFEVER chúng em đã áp dụng nhiều môhình ngôn ngữ để kiểm tra khả năng xác thực thông tin Quá trình huấn luyện đòihỏi sự tinh chỉnh và điều chỉnh cân thận dé đạt được kết quả tối ưu Kết quả thí
nghiệm cho thấy nhiều mô hình đạt được kết quả rất khả quan, với các chỉ số đánh
giá như độ chính xác (accuracy) và Fl-score cao Đặc biệt, các mô hình như
XLM-R Large, phoBEXLM-RT Large, CafeBEXLM-RT đã chứng minh khả năng vượt trội với độ
chính xác cao và mô hình SBERT, BM25 có kết quả tốt trong việc dự đoán các câubăng chứng nhãn Supported, mở ra nhiều tiềm năng trong việc ứng dụng vào thực tế
dé xác thực thông tin
4 Tác động, phương thức chuyến giao và kha năng ứng dựng kết qua nghiên
cứu:
Nghiên cứu này minh chứng về tính hiệu qua của bộ dit liệu ViFEVER trong
việc xác thực thông tin dựa trên suy luận số liệu của tiếng Việt Đặc biệt dữ liệuđược xây dựng với thông tin được trải dai trên 12 chủ đề khác nhau nhờ đó sẽ mang
tới những lợi ích to lớn trong việc ứng dụng vào đa dạng lĩnh vực Kết quả thu được
từ mô hình có thể triển khai, áp dụng cho các hệ thống xác thực và kiểm tra thôngtin, gop phần vào việc xây dựng môi trường thông tin đáng tin cậy và bảo vệ người
dùng khỏi thông tin sai lệch.
Trang 12Chương 1 TONG QUAN
Trong chương này sẽ giới thiệu tổng quan về bài toán kiém tra và xác thựcthông tin, tâm quan trọng của xác thực thông tin đối với tiếng Việt Các nổi bậttrong quá trình xây dựng dữ liệu của dé tài cũng như các đóng góp chính của dé
`
tal.
1.1 Bài toán kiểm tra và xác thực thông tin
Kiểm tra tính chính xác của thông tin (Fact-checking) [23] là một bài toánkiểm tra và xác minh tính chính xác của thông tin, dữ liệu hoặc các sự kiện trướckhi được công bố đến mọi người Mục tiêu của Fact-checking [23] là xác định tínhđúng đắn của thông tin dựa trên các bằng chứng có thé được kiểm tra được, changhạn như tải liệu chính thống, nguồn tin đáng tin cậy, hoặc sự kiện được ghi nhận
chính xác Trong đê tài này, bài toán của chúng em được mô tả như sau:
Cho một câu tiêng Việt có chứa sô liệu A và một đoạn văn bản tiêng Việt có
sô liệu B Mục tiêu là xây dựng một hệ thông có thê xác minh tính chính xác của
câu A dựa trên việc tìm các chứng cứ (Evidence) trong văn bản B, cụ thê:
Đầu vào (Input): Một văn bản B và một câu A liên quan đến nội dung B
Đầu ra (Output): Nhãn X thé hiện tính xác thực của câu A dựa trên văn ban
B với X là nhãn thuộc tập nhãn {Hỗ trợ (Supported), Bác bỏ (Refuted), Không théxác thực (NotenoughInfo)} và các băng chứng (Evidence) dé minh chứng rang:
“Đoạn văn B có chứa những bằng chứng để xác thực được câu A hay không?”
Sau đây là ví dụ (Hình 1.1):
Trang 13Hình 1.1 Ví dụ các câu khẳng định — bằng chứng được lấy từ bài báo
T kiến được PGS Mai Thanh Phong, Hiệu trưởng trường Đại hoc Bach khoa, Đại học Quốc gia TP HCM, nêu
tại buổi lim việc của Phé thủ tướng Trin Hing Ha với hai đại học quốc gia, sảng 6/9.
84 sinh viên các ngành khoa học cơ bản, khoa hoc sự sông thip hoặc giãm 14 tinh rạng chung của nhiễu trường.
Tại ĐỆW@OWöWVEiAUIE TiCIML -ó những nzanh tuyén không nỗi 10 sinh viễn hoặc chưa tái 50% chỉ tiêu như
Địa chất học, Kỹ thuật dia chất, Hải dương học, Khoa học môi trường Một so ngành như [BEND Ton gido
học, Lịch sử, Địa lý chỉ duy tri tuyên ERODE mii nim, it hon các ngành khác.
Tinh chumg trong cả nước, Bộ Gido duc và Diao tạo cho biết bản lĩnh trực tuyên sinh kém nhất (Néng Lam nghiệp
wa Thủy sản, Khoa học sự sang, Khoa học tự nhiễn, Dịch vụ xã hệi) chỉ tuyên được 49-61% chỉ tiêu đất ra.
Ba đê nghị Chính phủ hỗ tro bang cách mở rộng điện miễn, giảm học phi cho sinh viễn và có cơ chà đặt hang
với những ngành khoa hoc cơ bản Hiện, với những ngành khá tuyến nói trên, Đại học Quậc gia TẾ HCM hỗ trợ
sinh viên 35% học phi, các trường thánh viễn hệ tro 20%.
Ủng cũng yêu cầu hai dai hoc có dé an ting thả trên cơ sở nhấp lý, nhỉn nhận về vị trị, tam quan trong của minh
đề đã xuất những van đã Nha mước nhải đầu tư, đặt hing; những nhiệm vu chiên hrợc phải thuc hiển Trong dé,
Phé thủ tưởng yêu cầu tập trung vào những van đã ma các trường đại học khác chưa quan tầm, như đầu tr cho
Câu khẳng định va các nhẫn trả lời
Claim: Đại hoc Quốc gia TP HCM dang gặp vẫn dé thiên sinh viên ở ngành Địa chất học khi chỉ tuyên được
chưa tới 10 sinh viên.
Nhắn: Supported
Bang chứng:
Evidence 1: Tại Đại học Quốc gia TP HOM, có những ngành tuyển không nổi 10 sinh viễn hoặc chưa tới 30%
chỉ tiêu như Địa chất học, Kỹ thuật địa chất, Hai dương hoc, Khoa học môi trưởng
Tat thu hút học sinh lựa chon lam nguyên vong học, ở
Evidence 1: Tại Đại học Quốc gia TP HCM, có những ngành tuyển không nổi 10 sinh viễn hoặc chưa tới 30%
chỉ tiêu như Dia chất học, Kỹ thuật địa chất, Hải dương hoc, Khoa hoc môi trưởng.
Evidence 2: Một số ngành nl Triết học, Tên giáo học, Lich sử, Địa lý chỉ duy tri tuyển khoảng 30-100 sinh
viên mỗi năm, it hơn ede ngành khác
(Claim: Những môn khoa học cơ bản khi hoc xong khỏ tim kiém được việc làm hoặc mức lương thần khoảng 5
triển đồng, dẫn đền tỉnh trang giảm sinh viên đăng ki các ngành này.
Nhãn: Notenouzhinfo
Trang 141.2 Nhiệm vụ xác thực thông tin dựa trên suy luận số liệu đối với tiếng Việt
Cùng với sự phát triển của Internet, thông tin được chia sẻ một cách dễ dàng vànhanh chóng hơn Bên cạnh đó số lượng tin tức ngày càng nhiều càng làm tăng nhu
cầu cần xác thực thông tin của người dùng hay còn được gọi là xác minh dữ kiện(fact - checking) Việc xác thực thông tin có tính ứng dụng cao trong lĩnh nhiều lĩnh
vực khác nhau từ báo chí, truyền thông xã hội, cho đến phòng chống gian lận, tinđồn sai sự thật
Do đó, việc kiểm tra và xác thực thông tin đối với con người là vô cùng quantrọng Tuy nhiên, các nghiên cứu về xác thực thông tin thường tập trung vào tiếngAnh, tiếng Trung, nhưng trên tiếng Việt vẫn còn hạn chế về số lượng tài nguyênphục vụ cho nghiên cứu này Vì vậy chúng em quyết định thực hiện đề tài nghiêncứu này dé góp phần làm phong phú tài nguyên nghiên cứu fact-checking cho tiếng
Việt Trong khi các bộ dữ liệu khác quan tâm xác thực các thông tin một cách chung
trên nội dung thì chúng em sẽ tập trung giải quyết vấn đề xác thực thông tin liênquan đến số liệu Để đánh giá thách thức cho bộ dữ liệu của chúng em đối với mô
hình, chúng em sử dụng các mô hình ngôn ngữ được dao tạo trước của SOTA:
BERT [14], XLM-R [13], phoBERT [10], và SBERT [12] đã đạt được hiệu suất ấn
tượng về nhiệm vụ xác thực thông tin dựa trên suy luận sô liệu.
1.3 Sự ảnh hưởng của các mô hình Pre-trained BERTology lên nhiệm vụ xác
thực thông tin dựa trên suy luận số liệu
Bên cạnh việc xây dung và phát triển dit liệu, dé tài nghiên cứu này sẽ đánh giá
hiệu suất của mô hình ngôn ngữ BERT và những biến thể của chúng được đảo tạotrước trong việc thực hiện các nhiệm vụ xác thực thông tin dựa trên suy luận số liệutrong tiếng Việt Chúng em sử dụng bộ dit liệu ViFEVER dé đánh giá hiệu suất của
BERT [14], phoBERT [10], XLM-R [13], infoXLM [6], visoBERT [19], cafeBERT
[20], Bartpho-word [18] va phân tích tác động cua các yéu tố như độ dài câu, độphức tạp cú pháp và sự mơ hồ ngữ nghĩa Kết quả cho thấy hiệu suất của các môhình bị ảnh hưởng bởi những yếu tố này, đồng thời cung cấp thông tin chi tiết về
Trang 15khả năng của BERT trong việc thực hiện các nhiệm vụ xác thực thông tin tiếng
Việt.
Đề tài này góp phan vào việc hiéu rõ hơn về hiệu suất của các mô hình ngôn ngữ
như BERT [14], phoBERT [10], XLM-R [13], InfoXLM [6], Bartpho-word [18] ở các phiên ban base, large, va cafeBERT [20] trong nhiệm vụ xác thực thông tin dựa
trên suy luận số liệu trong tiếng Việt Những phát hiện này có thé được sử dụng dé
cải thiện hiệu suất của BERT và các mô hình ngôn ngữ khác cho các nhiệm vụ xácthực thông tin tiếng Việt trong tương lai Đề tài cũng mở ra nhiều hướng nghiên cứutrong tương lai, bao gồm cải thiện hiệu suất của BERT cho các nhiệm vụ xác thực
thông tin tiếng Việt, phát triển các mô hình ngôn ngữ mới hiệu quả hơn và áp dụng
các kỹ thuật xác thực thông tin vào các ứng dụng thực tế tiếng Việt
1.4 Những đóng góp chính của đề tài
Các đóng góp của đề tài này như sau:
— Chúng em giới thiệu VIFEVER, một bộ dữ liệu dùng cho xác thực thông
tin dựa trên suy luận sỐ liệu chất lượng cao do chúng em tự xây dựng bao
gồm hon 10.000 cặp câu tiền dé, giả thuyết, bằng chứng và nhãn suy luậnđược tạo bằng người dé đánh giá nhiệm vụ xác thực thông tin
— Chúng em tiến hành thử nghiệm trên các mô hình dựa trên mạng nơ-ron
và dựa trên transformer được đào tạo trước.
— Chúng em cũng đã tiến hành phân tích các đặc điểm, khía cạnh ngôn ngữ
có trong ViFEVER dé hiểu được điều gì chi phối đến hiệu suất của mô
hình được dao tạo trước Dé tài này có thé giúp chúng em hiểu rõ hơn về
các mô hình đào tạo trước cũng như bộ dữ liệu VIFEVER.
Trang 16Chuong 2 CAC CÔNG TRÌNH LIEN QUAN
Chương 2 sẽ trình bày một số công trình nghiên cứu liên quan bao gém các bộ
dữ liệu cũng như các phương pháp xác thực thông tin ở thời điểm hiện tại Cáctrình công bố dữ liệu trên thé giới cũng như trong nước được chúng em khảo sát dé
có cái nhìn tông quát về xu hướng của nhiệm vụ này.
2.1 Các bộ dữ liệu liên quan
2.1.1 Bộ dữ liệu FEVER tiếng Anh
FEVER [1] (Fact Extraction and VERification) là một trong những bộ dữ
liệu tiêu chuẩn được thiết kế đặc biệt cho nhiệm vụ kiểm chứng thông tin trong lĩnh
vực xử lý ngôn ngữ tự nhiên (NLP) và trí tuệ nhân tạo (AI).
Bộ dữ liệu FEVER được xây dựng từ các bài viết trên Wikipedia - một trongnhững nguồn tài liệu phô biến va da dạng nhất Bộ dữ liệu chứa hơn 185.000 câu
khẳng định (claim) được tạo ra bằng sự thay đồi các câu trích dẫn từ Wikipedia Déi
với mỗi câu khẳng định, có ít nhất một đoạn văn bản từ Wikipedia được xác định là
bang chứng dé hỗ trợ hoặc bác bỏ các câu khang định đó Các đoạn văn bằng chứngnày phải liên quan trực tiếp và đủ dé đánh giá tính xác thực của câu khang định
Ứng với mỗi câu khăng định sẽ được gán một trong ba nhãn "Supported" (Hỗ trợ),
"Refuted" (Bác bỏ), hoặc "NotenoughInfo" (Không đủ thông tin) Các nhãn này sé
cho biết được câu khang định có đúng với bằng chứng từ Wikipedia hay không
Bộ dữ liệu FEVER là một tài nguyên quan trọng giúp thúc đây nghiên cứu vàphát triển trong lĩnh vực kiểm chứng thông tin, đóng góp vào việc cải thiện chất
lượng và độ tin cậy của thông tin trên Internet.
2.1.2 Cac bộ dữ liệu khác
— Bộ dé liệu Liar, Liar Pants on Fire [2] được đề xuất bởi William Yang
Wang được phat triển với mục đích nghiên cứu xác định sự thật giữa cáctuyên bó, tập trung vào việc phát hiện sự lừa đối trong các tuyên bố màcon người tạo ra Bộ dữ liệu gồm hơn 12.800 câu tuyên bố ngắn từ trang
Trang 17politifact.com Mỗi câu tuyên bố đi kèm với mộ nhãn cho biết mức độ sựthất của nó Các nhãn bao gồm "True" (Đúng), "Mostly true" (Phần lớn làđúng), "Half true" (Một nửa đúng), "Mostly false" (Phần lớn là sai),
"False" (Sai), và "Pants on Fire" (Hoàn toàn không đúng) Bộ dữ liệu nay
nhằm hỗ trợ nghiên cứu và phát triển các phương pháp đề phân tích và dựđoán tính xác thực của các tuyên bó dựa trên dữ liệu ngôn ngữ tự nhiên
— Bộ dữ liệu FEVEROUS [3] được đề xuất bởi Rami Aly và các cộng sự
với đề tài trích xuất sự kiện và xác minh trên thông tin cấu trúc và khôngcấu trúc gồm 87.026 tuyên bố và bằng chứng được trích xuất từWikipedia FEVEROUS bao gồm các cặp tuyên bố (claim) và bằngchứng (evidence) tương tự như FEVER Mỗi cặp tuyên bố - bằng chứngnày đều được gắn nhãn dé cho biết tuyên bố có được hỗ trợ, bác bỏ haykhông đủ thông tin đề đưa ra kết luận
— Bộ đữ liệu VITAMINC [4] được đề xuất bởi Tal Schuster và các cộng sự
với đề tài xác minh tính chân thực của các tuyên bố gồm 400.000 cặptuyên bố - bằng chứng được trích xuất từ Wikipedia Mỗi cặp bao gồmmột tuyên bố (claim) cần được xác minh và các băng chứng (evidence)liên quan đến tuyên bố đó Các tuyên bố và băng chứng này được gắnnhãn để chỉ ra tính xác thực của tuyên bố (true, false, hoặc không đủthông tin) Dữ liệu trong VITAMINC bao gồm các tuyên bố và bằngchứng từ nhiều nguồn và lĩnh vực khác nhau Điều này dam bảo tính đadạng và đại diện cho nhiều loại thông tin và ngữ cảnh khác nhau
2.2 Các mô hình liên quan
Xác thực thông tin đóng vai trò quan trọng trong việc đánh giá độ tin cậy của
thông tin trong kỷ nguyên số ngày nay Hiện nay, có rất nhiều phương pháp tiếp cậnkhác nhau để giải quyết bài toán xác thực thông tin, điển hình là các phương hiệnđại như các mô hình neural nhân tạo, học sâu hay các mô hình sử dụng cơ chế self-
attention.
Trang 18Đầu tiên, BERT [9] là một mô hình học sâu được phát triển bởi Google vàonăm 2018, đã đem lại bước tiến lớn trong xử lý ngôn ngữ tự nhiên và xác thựcthông tin Điểm mạnh của BERT là khả năng hiểu và đại diện cho ngữ cảnh trongvăn bản một cách toàn diện Mô hình này sử dụng lớp mã hóa Transformer dé họccách biểu diễn của từ và câu đồng thời, cho phép nó nhận diện các mối quan hệ
phức tạp giữa các từ và ngữ pháp trong các đoạn văn.
BERT [9] thường được sử dụng để giải quyết các tác vụ như phân tích cảmxúc, dịch máy tự động và quan trọng nhất là xác thực thông tin Trong xác thựcthông tin, BERT có thể phân tích và đánh giá tính chân thực của các tuyên bố dựatrên ngữ cảnh và sự liên kết với thông tin ngữ nghĩa khác Với việc tiền huấn trướctrên các tập dữ liệu lớn, BERT có thê cải thiện độ chính xác và hiệu suất của các hệthống xác thực thông tin bang cách cung cấp những phân tích sâu sắc và khả năng
đưa ra dự đoán chính xác.
Về phương diện xác thực thông tin còn phải nhắc đến LSTM [25] là một loạimạng nơ-ron học sâu đặc biệt được thiết kế để xử lý dữ liệu chuỗi, làm cho nó trởthành công cụ quan trọng trong xác thực thông tin Đặc điểm nỗi bật của LSTM là
khả năng lưu giữ thông tin lâu dài và xử lý các mối quan hệ phức tạp giữa các thành
phan trong chuỗi Mô hình này được sử dụng rộng rãi dé dự đoán và phân tích cácmẫu trong dữ liệu văn bản, đặc biệt là khi phải xử lý các tuyên bố và thông tin cótính chu kỳ hoặc liên quan đến thời gian
Trong xác thực thông tin, LSTM [25] có thể học và nhận diện các mẫu khác
biệt giữa thông tin chân thực và thông tin sai lệch dựa trên các đặc trưng như cú
pháp, sự liên kết giữa các ý tưởng và sự phát triển của câu chuyện Việc áp dụngLSTM trong các hệ thong xác thực thông tin giúp cải thiện độ chính xác và khảnăng dự đoán, đồng thời tăng cường tính hiệu quả của các quyết định và đánh giá
thông tin.
Thêm nữa, Random Forest [26] và SVM [27] là hai mô hình phân loại cô điển trong lĩnh vực học máy, chúng thường được áp dung dé phân tích và đánh giá
Trang 19các đoạn văn bản trong xác thực thông tin Random Forest [26] hoạt động bằngcách xây dựng nhiều cây quyết định độc lập và kết hợp kết quả từ các cây con, giúpgiảm thiêu overfitting và cải thiện độ chính xác của mô hình Trong khi đó, SVM[27] tạo ra các siêu mặt phẳng dé phân chia các lớp dữ liệu, dựa trên các điểm dữliệu biểu diễn trong không gian đặc trưng.
Cả hai mô hình này đều có tính linh hoạt và có thé được điều chỉnh dé phùhợp với yêu cầu cụ thê của bài toán xác thực thông tin Trong các hệ thống xác thực
thông tin, Random Forest [26] và SVM [27] giúp phân loại và đánh giá tính chân
thực của các tuyên bố dựa trên các đặc trưng ngữ nghĩa và cú pháp, từ đó cải thiện
khả năng lọc và xử ly thông tin dang tin cậy.
Cuối cùng là Transformer [8] Transformer là một kiến trúc mạng nơ-ron sử
dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và các tác vụ liên quan Mô hình này
được biết đến nhờ sự phát triển của GPT [28], một phiên bản của Transformer đượchuấn luyện trước trên dữ liệu lớn và có khả năng tạo văn bản tự động Transformer
sử dụng các lớp Attention dé hiểu mỗi quan hệ giữa các từ và câu trong văn bản,cho phép nó đưa ra dự đoán chính xác và phân tích sâu sắc về ngữ nghĩa và ngữ
cảnh của thông tin.
Trong xác thực thông tin, Transformer có thể giúp phân tích và đánh giá tínhchân thực của các tuyên bố dựa trên sự liên kết ngữ nghĩa và ngữ cảnh Bằng cách
sử dụng các biểu diễn mã hóa và các lớp Attention, Transformer [8] cung cap những
phân tích sâu sắc và đưa ra những đề xuất chính xác về tính chân thực của thông tin,
đồng thời nâng cao hiệu quả của các hệ thống xác thực thông tin hiện đại
Mỗi mô hình đều có những đặc điểm và ứng dụng riêng, đóng vai trò quan
trọng trong việc nghiên cứu và áp dụng trong lĩnh vực xác thực thông tin và xử lý
ngôn ngữ tự nhiên Việc kết hợp và sử dụng chính xác các mô hình này có thé giúpcải thiện đáng kể khả năng đánh giá và xác thực thông tin đáng tin cậy trong các
ứng dụng thực tế.
10
Trang 202.3 Quy trình xây dựng bộ dữ liệu
— Quy trình xây dung dữ liệu của bộ ViNLI [17]:
VINLI là bộ dữ liệu tiếng Việt về suy luận ngôn ngữ tự nhiên, các giai đoạnxây dựng dữ liệu được thực hiện một các nghiêm ngặt qua từng giai đoạn Đầu tiên
là việc tuyên dụng và huấn luyện một đội ngũ người Việt bản ngữ (annotator) cónền tảng ngôn ngữ vững vàng, qua đó đảm bảo chất lượng và đồng nhất trong quátrình tạo dữ liệu Sau đó, đữ liệu câu tiền đề được thu thập từ các bài báo trênVnExpress, tập trung vào hơn 10 chủ đề khác nhau và được chọn dựa trên sự phùhợp với nội dung chính của đoạn văn Tiếp theo, thiết kế các câu giả thuyết dựa trêncác nhãn suy luận, mỗi câu tiền đề có đến các câu giả thuyết dé tạo ra sự đa dạng vềnội dung Cuối cùng, các annotator khác sẽ kiểm tra lại, với quy trình chọn nhãnvàng băng đa số phiếu và loại bỏ các trường hợp không đạt sự đồng nhất về nhãn
suy luận Từ đó cho ra được kết quả mức độ đồng nhất cao, khang dinh su tin cay
và chat lượng của dữ liệu trong nghiên cứu suy luận ngôn ngữ tự nhiên tiếng Việt
— Quy tình xây dựng bộ dữ liệu FEVER [1]:
Quy trình xây dựng bộ dữ liệu FEVER bao gồm hai tác vụ chính Nhiệm vụđầu tiên là tạo ra các khẳng định, trong đó dữ liệu được lay từ Wikipedia va xử lýbằng Stanford CoreNLP [24] Mẫu câu được lấy từ phần mở đầu của khoảng 50,000trang phố biến và chọn ngẫu nhiên mỗi câu dé cho các annototar tạo ra các khangđịnh về một sự thật duy nhất liên quan đến thực thé chính của trang Wikipedia Cácannotator cũng được yêu cầu tạo ra các biến thể của các khẳng định, sử dụng cácphép biến đổi như diễn giải lại, phủ định, thay thế thực thể hoặc quan hệ dé làm chokhang định trở nên tổng quát hoặc cụ thé hơn
Nhiệm vụ thứ hai là đánh nhãn các khẳng định, trong đó các annotator phải phân loại mỗi khẳng định là SUPPORTED (Được hỗ trợ), REEUTED (Bị bác bỏ)
hoặc NOTENOUGHINFO (Không đủ thông tin) Họ phải tìm kiếm bang chứng từcác trang Wikipedia để chứng minh hoặc bác bỏ từng khăng định và sử dụng giaodiện đánh nhãn như hình 2.1 để ghi nhận câu chứng cho sự phân loại Quy trình này
11
Trang 21đảm bảo sự nhất quán giữa các annotator và tính chính xác của dữ liệu bằng việcđánh giá 5 chiều, so sánh với các annotator khác và xác minh bằng tay bởi các tácgiả Quy trình xây dựng này giúp tạo ra tập dữ liệu chất lượng, hỗ trợ cho việc pháttriển và đánh giá các công cụ xử lý ngôn ngữ tự nhiên.
Claim Labelling Task (WF2)
Claim Barbara Bush was a spouse of a United States president during his term.
| submit | = Skip (opens menu) Home = Guidelines
Wikipedia article for Barbara Bush Add a custom page from Wikipedia if If you need to combine multiple
essential information is missing from the sentences from the original page
= = dictionary E.g the claim mentions an (Barbara Bush), this will add it to the
Fees Ban Xem, Noo nh ah W eee me wie bao “Supports entity that does not appear in the dictionary so that it can form part of the
- ‘st Presi of the Unit les vet Wk " %
H + 'Wikipedi for Barbara Bush ti ide Ệ
First Lady of the United States from 1989 to 1993 XRefutes bianca! = pasar
Cancel Add Custom Page Add Main Wikipedia Page
(Barbara Bush)
She is the mother of George W Bush , the 43rd President, and Jeb Expand
Bush , the 43rd Governor of Florida Quick Links
First Lady of the United States
She served as the Second Lady of the United States from 1981 to 1989 Expand George H W Bush
George W Bush List of Presidents of the United States
First Lady of the United States
Barbara Pierce was born in Flushing, New York Expand
First Lady of the United States (FLOTUS) is the informal but accepted title held by
the wife of the President of the United States, concurrent with the president's term of She attended Milton Public School from 1931 to 1937, and Rye Country Expand DI Go
Raw Schaal fram 1937-1940
Hình 2.1 Giao điện đánh nhãn các câu khang dinh
12
Trang 22Chương 3 XÂY DỰNG BO DU LIEU
Chương 3 sẽ trình bày quy trình xây dựng bộ dit liệu ViFEVER từ việc thu thập
dữ liệu, tiền xử lý dit liệu, tuyển chọn đội ngũ và hướng dẫn tạo dữ liệu cùng với đó
là việc đánh giá và kiểm tra lại dữ liệu từ đó đảm bảo dữ liệu đạt chat lượng cao
3.1 Mô tả bộ dữ liệu ViIFEVER
Bộ dữ liệu ViFEVER được tạo ra nhằm giải quyết bài toán kiểm tra và xác
thực thông tin dựa trên suy luận số liệu Cấu tạo của bộ dữ liệu gồm bốn phầnchính: Đoạn văn tiền đề, câu khẳng định, nhãn suy luận và bang chứng Bộ dữ liệuđược xây dựng dựa trên các bài báo trên trang trực tuyến và được xử lý dé chỉ lay
những đoạn có chứa số liệu Ngoài ra, dé xây dựng được một bộ dữ liệu có chất
lượng tốt thì cần phải thực hiện theo một quy trình xây dựng dữ liệu được trình bày
ở phần bên dưới
3.2 Quy trình xây dựng dữ liệu
Chúng em tiến hành xây dựng đữ liệu theo một quy trình chặt chẽ nhăm đảm
bảo tính chính xác, độ tin cậy và chất lượng cho bộ dữ liệu Quy trình được tham
khảo từ quy trình xây dựng bộ dữ liệu ViNLI [17] và FEVER [1] được thé hiện ởhình 3.1 và gồm bốn giai đoạn chính: thu thập đoạn văn tiền đề, tuyển chọn đội ngũtạo dữ liệu, tạo câu khẳng định và tìm bằng chứng và kiểm tra lại dữ liệu
vN[äx PRESS Thu thập dữ liệu Dữ liệu là đoạn Câu khẳng định —_ Kiểm tra dữliệu =|
800 Bai báo ne ee văn chứa số liệu ~~ va bảng ching —>
trực tuyến Tiền xử lý dữ liệu Bộ dữ liệu ViFever
Trang 233.2.1 Thu thập dữ liệu
Chúng em tiến hành thu thập hơn 10.000 bài báo được đăng tải trên trangbáo điện tử có độ uy tín cao ở Việt Nam VnExpress trải dài trên 12 chủ đề khác
nhau gồm: Số hóa, du lịch, giáo dục, giải trí, khoa học, kinh doanh, pháp luật, sức
khỏe, thế gidi, thé thao, thời sự và xe Sau đó chúng em tiến hành xử lý sơ bộ các
dữ liệu đã được tải về dé lay ra các đoạn văn chỉ chứa số liệu
3.2.2 Tuyến chọn đội ngũ tạo dữ liệu
Quá trình tuyển chọn và huấn luyện được tham khảo từ quy trình của bộ dữ
liệu FEVER [1] thực hiện theo các bước ở hình 3.2 Người tao dữ liệu là người tao
dữ liệu là người Việt có nền tảng và khả năng truyền đạt ngôn ngữ tốt và phải thamgia một đợt huấn luyện dé hiểu rõ các quy tắc và tiêu chí đánh giá dit liệu Sau khingười tao dữ liệu đọc hiệu bộ quy tắc tao dữ liệu thì sẽ viết ra 20 câu khang địnhcho bộ huấn luyện dữ liệu Sau đó sẽ tiến hành che đi các nhãn Hỗ trợ, Bác bỏ,Không đủ thông tin của các cặp đoạn văn tiền đề - câu khăng định Tiếp đến tiếnhành việc gán nhãn cho các câu khăng định trên Tỷ lệ đồng thuận được đánh giátheo hệ số Kappa của Cohen [5], nếu tỷ lệ đồng thuận khi gán nhãn đạt trên 0.95 thìngười tạo dữ liệu sẽ được tham gia vào việc xây dựng dữ liệu chính thức Nếu tỷ lệ
đồng thuận thấp, người tạo dữ liệu cần xem lại những lỗi đã mắc và thực hiện lại
quá trình huấn luyện với bộ dit liệu mới Trong quá trình huấn luyện nếu có những
bất đồng trong việc gán nhãn, chúng em sẽ xem xét và nếu can thiết sẽ tiến hành
tinh chỉnh các quy tắc viết câu, dé đảm bảo dit liệu có chất lượng tốt và độ chính
xác cao.
@® + Dat @
—` Tạo câu khẳng dinh ———> Đánh giá đồng thuận —_, < pg đồng thuận>0.95`> ——>
| , Người tạo dữ liệu
Trang 243.2.3 Tạo câu khẳng định và tim bằng chứng
Người tạo dữ liệu được yêu cầu tạo ra các câu khẳng định chứa các số liệu và
nội dung đã được đề cập ở đoạn văn gốc nhưng được diễn giải lại bằng su sáng tao
và vốn ngôn từ riêng của người đặt, hạn chế dùng lại các từ hoặc cụm từ đã xuấthiện trong đoạn văn tiền đề Người đặt câu sẽ tạo ba câu khăng định cho ba nhãn
theo hướng dẫn sau:
e_ Hỗ trợ (Supported): câu suy luận đúng với thông tin và số liệu đã được dé
cập trong đoạn văn gốc
e Bac bỏ (Refuted): câu suy luận sai với thông tin và số liệu được đề cập
trong đoạn văn gốc
e Không đủ thông tin (NotenoughInfo): câu chưa thể kết luận được đúng
hoặc sai với thông tin va sô liệu được dé cập trong đoạn văn gôc.
Bên cạnh đó người đặt câu được yêu cầu phải tìm bằng chứng cho hai nhãn
đã viết là Hỗ trợ và Bác bỏ Các bằng chứng được thực hiện bằng cách chọn từngcâu trong đoạn tiền đề có liên quan đến câu khẳng định ma người tạo dữ liệu vừaviết Số lượng bang chứng được giới han là tối thiêu một bang chứng và tối đa bốnbang chứng đối với từng câu khang định Dé tạo ra các câu khang định, người tạo
dữ liệu có thé tham khảo những quy tắc viết câu được cung cấp trong hướng dẫn.Hai bang 3.1 và 3.2 (có ví dụ minh hoa trong bảng 10 va 11 ở phần phụ lục 1) tómtắt các quy tắc này và bảng quy tắc này được tham khảo từ bộ ViNLI [17] Ngườitạo dữ liệu cần phải viết ba câu khăng định và tìm bằng chứng (đối với hai nhãn Hỗtrợ và Bác bỏ) cho từng đoạn tiền đề
Bang 3.1 Quy tắc tạo câu khẳng định của nhãn Hỗ trợ
STT Quy tắc
1 Biên đôi câu trúc câu từ chủ động sang bị động và ngược lại
2 _ Thay thé bang từ đồng nghĩa, tương tự
15
Trang 253 Thêm/lược bỏ bổ nghĩa mà vẫn giữ nguyên ý nghĩa ban đầu của câu
4 Déi danh từ đại diện thành mệnh dé quan hệ
5 _ Đổi tân ngữ thành mệnh dé quan hệ
6 Đối tính từ thành mệnh dé quan hệ
7 Thay thé các cụm từ định lượng khác có ý nghĩa tương tự
8 Tao câu tiền giả định
9 Truong hợp khác
Bang 3.2 Quy tắc tạo câu khẳng định của nhãn Bác bỏ
STT Quy tắc
1 Dung từ phủ định
2 _ Thay thé băng từ trái nghĩa
3 Cấu trúc suy luận sai về thực thể
4 Cau trúc suy luận sai về sự kiện
5 Tạo câu mang ý nghĩa trái ngược với đoạn tiền giả định
6 Trường hợp khác
Cấu trúc biểu diễn của dữ liệu được lưu trữ dưới dang json bao gồm phầnđoạn văn (paragraph), các câu khang định (claim), các nhãn (label) của câu và đoạnvăn tương ứng, ngoài ra còn có danh sách các chứng cứ (evidence) Dưới đây là cấutrúc của một mẫu dữ liệu sau khi hoàn thành:
Trong đó
“paragraph”: Nội dung đoạn văn.
“evidence start”: VỊ trí kí tự dau tiên của băng chứng.
16
Trang 26“link”: đường dẫn đến trang bài báo.
“annotator_labels”: tên nhãn của câu.
“evidence”: Danh sách các bang chứng
“context”: Nội dung bài báo.
“sentenceID”: id cua bài báo.
“topic”: tên chủ dé
“claim”: Câu khang định được suy luận từ đoạn van
“id”: id của câu khang định
"paragraph": "Ba mẹ con được đưa vào Bệnh viện Sản nhỉ Phú Thọ cấp cứu, bác sĩ chẩn đoán nhiễm độc thức ăn, hiện chưa rõ loại độc tố Sau một
ngày điều trị tích cực bằng truyền dịch, sử dụng kháng sinh, bù điện giải, các bệnh nhân đỡ nôn, đỡ mất nước, sức khỏe phục hồi.",
"context": "Ba mẹ con được đưa vào Bệnh viện Sản nhỉ Phú Tho cấp cứu, bác si chẩn đoán nhiễm độc thức an, hiện chưa rõ loại độc tố Sau một
ngày điều trị tích cực bằng truyền dịch, sử dụng kháng sinh, bù điện giải, các bệnh nhân đỡ nôn, đỡ mất nước, sức khỏe phục hồi.\nNgày 38\/8,
ThS BS Nguyễn Đức Long, trưởng khoa Cấp cứu, cho biết trường hợp này may mắn vì các nạn nhân được đưa đến viện sớm ngay sau khi xuất hiện các
triệu chứng ngộ độc nên được điều trị kịp thời.\nNhững loại nấm có phần gốc phình to giống củ hầu hết là nấm độc Tuy nhiên, trên thực tế,
một số loại nấm độc có màu sắc và hình dạng giống với nấm thường nên rất dễ gây nhầm lẫn Do đó, các bác sĩ khuyến cáo người dân cần nhận biết
và phân biệt được các loại nấm Nấm chưa rõ nguồn gốc, không biết có độc hay không thì tốt nhất không nên ăn.\nTrường hợp ăn nấm và xuất hiện
các biểu hiện ngộ độc như nôn nao, buồn nôn, nôn, đi ngoài, cần nhanh chóng gây nôn càng sớm càng tốt để đẩy bớt độc tố ra ngoài, đồng thời
uống nhiều nước, tốt nhất là dùng oresol Sau đó, nhanh chóng đến cơ sở y tế gan nhất để khám và điều trị kịp thời.\n",
"sentenceTD": "uit_9033_1",
i Sức khỏe", : "Bệnh viện Sản nhi Phú Thọ tiếp nhận ca bệnh ba mẹ con bị ngộ độc thức ăn.", : "“uit_9033_1_1_@68"
Hình 3.3 Cầu trúc của một mẫu dit liệu
3.2.4 Kiểm tra bộ dữ liệu
Chúng em tiến hành một vòng kiểm tra dữ liệu bằng cách gán nhãn chéo bởi
nhiều người tạo dữ liệu cho các cặp đoạn văn tiền đề - câu khẳng định Chúng em
chọn ra bốn người tạo dit liệu khác nhau là thành viên đã tham gia vào giai đoạnviết câu khắng định, sẽ gán nhãn cho các cặp đoạn văn tiền đề - câu khẳng định
Nhờ đó có thể bảo đảm được tính khách quan và loại bỏ được những ảnh hưởng củaquan điểm cá nhân Những mẫu dữ liệu được gán nhãn sẽ không trùng với tập ngữliệu mà người gán nhãn đã viết Việc này giúp đảm bảo rằng quá trình kiểm tra dữliệu diễn ra độc lập và không thiên vị Nếu một cặp đoạn văn tiền đề - câu khăngđịnh không có ít nhất ba trong tổng số năm nhãn giống nhau, nó sẽ bị loại khỏi bộ
17
Trang 27dữ liệu Quy tắc này giúp đảm bảo rằng chỉ những dữ liệu có độ tin cậy cao mới
được sử dụng vào quá trình thực nghiệm và đánh giá mô hình Phương pháp mới
này cung cấp một góc nhìn mới cho vấn đề mà bài báo gốc FEVER chưa đề cậpđến Bảng 3.4 thể hiện kết quả của giai đoạn kiểm tra, cho thấy tỷ lệ các cặp đoạntiền đề và câu khăng định đạt bốn nhãn giống nhau là 85% và tỷ lệ các cặp đoạn tiền
dé và câu khang định đạt được ba nhãn giống nhau là 94%
Bang 3.3 Kết quả dong thuận giai đoạn kiém tra
Thống kê Tỷ lệ
4+ labels agree 85%
3+ labels agree 94%
18
Trang 28Chương 4 PHAN TÍCH BO DU LIEU
Chương 4 sé trình bày các thông kê tổng quan về dữ liệu bao gồm: số lượng,chiêu dài của đoạn tiên dé, câu khang định, mức độ trùng lặp từ, tỷ lệ từ loại mới,
quy tắc tạo dữ liệu và bằng chứng
4.1 Thống kê tổng quan
Dé huấn luyện và đánh giá mô hình, chúng em tiến hành phân chia dữ liệu một
cách ngẫu nhiên thành ba phan với tỷ lệ là: 80% cho tập huấn luyện (train), 10%cho tập phát triển (dev), 10% cho tập kiểm tra Bảng 4.1 cho thấy các thống kê sợ
bộ gồm: SỐ lượng của từng cặp đoạn văn tiền đề - câu khẳng định trên 12 chủ đề
khác nhau cùng với đó là độ dài trung bình (tính theo từ) của các đoạn văn tiền đề
và câu khang định Độ dài trung bình của các đoạn văn tiền dé và câu khang định
trên ba tập Train, Dev, Test lần lượt là 58,3 từ cho đoạn văn tiền đề và 20,5 từ cho
câu khẳng định Độ dài trung bình của các đoạn văn và câu khăng định trên ba tập
Train, Dev, Test khá đồng đều, góp phan đảm bảo tính nhất quán cho bộ dữ liệu và
giúp mô hình học tập hiệu quả hơn.
Bang 4.1 Thống kê tong quan dữ liệu ViFEVER
Chđểnmn 7 Tran Dev Tet Tổng
Trang 29Chiéu dai trung bình của đoạn văn 58,6 57,5 58,8 58,3
tién dé (theo tir)
Chiều dài trung bình câu khang định 20.4 20,4 20,6 20,5
(theo tir)
Đề hiểu rõ hơn về su phân bố độ dài của các đoạn văn tiền đề và câu khẳng
định chúng em tính hành phân tích và đánh giá Từ kết quả được thé hiện ở Hình4.1 cho thấy độ dài của đoạn văn tiền đề đài nhất rơi vào 179 từ và thấp nhất là 19
từ Độ dài lớn nhất của câu khang định là 68 từ và nhỏ nhất là 6 từ Do đoạn văn làmột tập hợp của nhiều câu văn do đó độ dài của đoạn tiền đề sẽ dài hơn so với câukhẳng định Ngoài ra, tỷ lệ các câu khang định có độ dai rơi vào khoảng từ 10 đến
20 từ cũng chiếm phan lớn trong bộ dữ liệu cho thấy các câu khang định có độ dài
ngăn gọn, súc tích.
20
Trang 30Chúng em tiến hành tính toán mức độ trùng lặp từ giữa các đoạn văn tiền đề
và câu khẳng định trong bộ dir liệu VIFEVER Chúng em lựa chọn sử dụng Jaccardnhằm đánh giá mức độ trùng lặp từ vựng dựa trên tần suất xuất hiện của các từ
không theo thứ tự giữa đoạn văn tiền đề và câu khẳng định Mặc khác LCS
(Longest Common Subsequence) để đánh giá sự tương đồng trong cấu trúc giữa
đoạn tiền dé và câu khang định, bang cách tập trung vào việc tìm đoạn con chung
dài nhất giữa hai chuỗi Việc sử dụng hai phương pháp này giúp đánh giá mức độtrùng lặp từ ở hai khía cạnh khác nhau là từ vựng và cau trúc câu Bên cạnh đó déphù hợp hơn khi phân tích trên ngữ liệu tiếng Việt trước tiên chúng em sử dụngVnCoreNLP [15] dé tách từ trước khi áp dụng Jaccard và LCS
21
Trang 31Bảng 4.2 Mức độ trùng lặp từ giữa đoạn tiên dé và câu khang định
-Hỗ trợ 23,72 72,92
Bac bo 19,76 70,12 Không đủ thông tin 15,74 67,41
Kết quả sau khi phân tích được thé hiện ở bang 4.2, dựa trên kết quả phân tích,chúng em nhận thấy răng nhãn Hỗ trợ có tỷ lệ trùng lặp từ vựng cao nhất khi tínhbang chỉ số Jaccard, cũng như mức độ trùng lặp từ theo thứ tự cao nhất khi tínhbằng chỉ số LCS Ngược lại, nhãn Thiếu thông tin có tỷ lệ trùng lặp từ vựng thấpnhất theo ca hai chỉ số Jaccard và LCS Lý do là các câu khang định thuộc nhãnKhông đủ thông tin được viết ra với một số thông tin không nằm trong đoạn văn
goc.
4.3 Ty lệ từ mới
Chúng em tính hành việc phân tích từ loại mới được sử dụng trong bộ dữ liệu
nhằm đánh giá dang sự đa dang trong cách sử dụng từ ngữ của người viết Dé thựchiện một cách hiệu quả chúng em cũng dùng VnCoreNLP [15] dé tiến hành tách từ.Tiếp đến chúng em sử dụng PhoNLP [16] nhằm phân loại chỉ tiết các từ mới theo
nhóm từ.
Từ kết quả được thể hiện ở Bảng 4.3 cho thấy nhãn Không đủ thông tin có sốlượng từ loại mới nhiều nhất với 54,27% Nguyên nhân có thể do câu Không đủthông tin được tạo nên bởi những thông tin chưa hề xuất hiện ở đoạn văn gốc Bêncạnh đó loại từ danh từ và động từ được sử dụng nhiều nhất trong các câu khẳngđịnh được tạo ra bởi người tạo dữ liệu Điều này phù hợp với quy luật chung trongngôn ngữ tự nhiên, khi danh từ và động từ thường là những thành phần chính của
câu.
22
Trang 32Bang 4.3 Tỷ lệ từ mới trong câu khẳng định so với đoạn văn tiên dé
4.4 Quy tắc tạo dữ liệu
Người tạo dữ liệu có thé linh hoạt sử dụng một hoặc nhiều quy tắc dé xâydựng câu khang định Chúng em đã tiến hành phân tích cách thức kết hợp các quytac này dé tạo nên câu Hỗ trợ và Bác bỏ.
Dựa trên Hình 4.3, ta có thê thấy sỐ lượng câu Hỗ trợ được tạo ra bằng mộtquy tắc chiếm tỷ lệ cao nhất, đạt 57% Điều này cho thấy đây là phương pháp phổbiến nhất mà người tạo dữ liệu áp dụng Tiếp theo, 41% số câu Hỗ trợ được tạo rabang hai quy tắc, thé hiện sự kết hợp linh hoạt giữa các quy tắc dé tăng cường tínhthuyết phục cho câu khắng định Tuy nhiên, việc sử dụng ba quy tắc hoặc nhiều hơn
để tạo câu Hỗ trợ ít phô biến hơn, chỉ chiếm 2%
Trái ngược với câu Hỗ trợ, xu hướng sử dụng một quy tắc dé tạo câu Bác bỏchiếm ưu thế áp đảo, với tỷ lệ lên đến 97% Điều này cho thấy người tạo đữ liệuthường có xu hướng thiên về việc sử dụng một quy tắc hiệu qua dé phản bác lại nộidung của đoạn tiền đề Việc kết hợp hai quy tắc trong câu Bác bỏ chỉ chiếm 3%, chothấy phương pháp này ít được sử dụng hơn
23
Trang 33mirude s=2rude m=3rude
Hình 4.2 Tỷ lệ kết hợp các quy tắc tạo câu Hỗ trợ
Hình 4.3 Tỷ lệ kết hợp các quy tắc tạo câu Bác bỏ
Tiếp đến chúng em tiến hành việc phân tích các quy tắc tạo câu khang địnhnhằm giúp hiểu rõ hơn xu hướng và tiêu chuẩn mà người tao dit liệu áp dụng vào
trong quá trình xây dựng dữ liệu Chúng em đã chọn ra từ bộ dữ liệu 200 cặp đoạn
tiền đề và câu khang định ngẫu nhiên của hai nhãn Hỗ trợ và Bác bỏ dé thực hiệnphân tích.
Kết quả thu được từ Bảng 4.4 cho thấy, trong các câu Hỗ trợ, người tạo dữ liệu
có xu hướng sử dụng quy tắc "thay thế bằng từ đồng nghĩa, tương tự" nhiều nhất với
tỷ lệ 38% Lý do có thể là do việc thay thế từ ngữ giúp tạo sự mượt mà, dễ hiểu cho
câu khăng định, đồng thời vẫn giữ nguyên ý nghĩa của câu Ngược lại, quy tắc "đổi
24
Trang 34danh từ/tân ngữ(tính từ thành mệnh đề quan hệ" được sử dụng ít nhất, chỉ chiếm3% Nguyên nhân có thé là do việc sử dụng mệnh dé quan hệ khiến câu khang địnhtrở nên dai dòng, phức tạp và khó hiểu hơn.
Đối với các câu Bác bỏ, Bảng 4.5 cho thấy quy tắc được áp dụng nhiều nhất là
"tạo câu mang ý nghĩa trái ngược với đoạn tiền đề" với tỷ lệ 38% do nó phù hợp
nhất với mục đích chính của câu Bác bỏ là phủ định nội dung của đoạn tiền đề Bên
cạnh đó quy tac ít được sử dụng nhat là "Câu trúc suy luận sai vê sự kiện", chỉ
2 Thay thé bang từ đồng nghĩa, tương tự 38%
3 Thêm/lược bỏ bổ nghĩa mà vẫn giữ nguyên ý nghĩa ban 26%
đầu của câu
4 Đôi danh từ đại diện thành mệnh dé quan hệ 1%
5 Đối tân ngữ thành mệnh dé quan hệ 1%
6 Đối tính từ thành mệnh dé quan hệ 1%
7 _ Thay thé các cụm từ định lượng khác có ý nghĩa tương tự 9%
8 _ Tạo câu tiên giả định 11.5%