Vì vậy, ở đề tàinày, tác giả tập trung vào sử dụng hướng tiếp cận dựa vào phương pháp phát hiệntin giả có diễn giải cụ thể đó là dựa vào bằng chứng evidence-based.Với Phương pháp phát hi
Trang 1ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 22 Thư ký: TS Phan Trọng Nhân
3 Phản biện 1: TS Nguyễn Minh Hải
4 Phản biện 2: TS Bùi Thanh Hùng
5 Ủy viên: PGS.TS Dương Tuấn Anh
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngànhsau khi luận văn đã được sửa chữa (nếu có)
VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
Ngày, tháng, năm sinh: 26/09/1999 Nơi sinh: Gia Lai
Chuyên ngành: Khoa học Máy tính Mã số: 8480101
I TÊN ĐỀ TÀI: PHÁT HIỆN TỰ ĐỘNG TIN GIẢ Y TẾ TRÊN MẠNG
XÃ HỘI
II NHIỆM VỤ VÀ NỘI DUNG:
• Xây dựng mô hình phát hiện tin giả dựa theo bằng chứng dựa vào mô hình học
sâu
• Nghiên cứu và đề xuất các phương pháp nhằm đưa ra bằng chứng giúp kết quả
của tác vụ kiểm tra tin giả trở nên chính xác và đáng tin cậy hơn
• Đóng góp một bộ dữ liệu tin giả tiếng việt có bằng chứng và ngữ cảnh
• Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất
III NGÀY GIAO NHIỆM VỤ: 04/09/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023
V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ, TS Nguyễn Tiến Thịnh
Tp HCM, ngày tháng năm 2024CÁN BỘ HƯỚNG
DẪN 1
CÁN BỘ HƯỚNG
(Họ tên và chữ ký) (Họ tên và chữ ký) (Họ tên và chữ ký)
PGS.TS Quản Thành Thơ TS Nguyễn Tiến Thịnh
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Trang 4Để hoàn thành luận văn tốt nghiệp này, học viên đã nhận được sự hỗ trợ tích cực
từ rất nhiều phía Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chân thành đếngiảng viên hướng dẫn trực tiếp của em, thầy PGS.TS Quản Thành Thơ Thầy làngười định hướng chính, cung cấp tài liệu cũng như theo dõi quá trình thực hiện đềtài và hỗ trợ khi em gặp khó khăn Hơn hết thầy đã truyền cảm hứng cho em từ khicòn là sinh viên của Đại học Bách Khoa về niềm đam mê với học máy, học sâu, xử língôn ngữ tự nhiên và nhiều vấn đề khác trong Lĩnh vực Khoa học Máy tính
Em xin được gửi lời cảm ơn đến thầy TS Nguyễn Tiến Thịnh, thầy đã địnhhướng, hỗ trợ em từ giai đoạn Đề cương luận văn, cũng như đưa ra những góp ý quýbáu để em hoàn thiện hơn Luận văn tốt nghiệp này
Em xin được tỏ lòng biết ơn sự tận tình dạy dỗ, giúp đỡ của quý thầy cô trongkhoa Khoa học và Kỹ thuật Máy tính nói riêng cũng như trường Đại học Bách khoa
TP Hồ Chí Minh nói chung Những kiến thức nhận được từ quý thầy cô là vô cũngquý giá và bổ ích, hỗ trợ rất lớn cho em có thể hoàn thành luận văn tốt nghiệp này.Cuối cùng, em muốn gửi lời cảm ơn đến gia đình, người thân, bạn bè, những người
đã quan tâm, động viên, giúp đỡ cả về thể chất lẫn tinh thần để em có đủ nghị lực,sức khỏe hoàn thành tốt luận văn tốt nghiệp này
Với lòng biết ơn chân thành, em xin gửi lời chúc sức khỏe cũng như những lờichúc tốt đẹp nhất đến các quý thầy cô trong Khoa Khoa học và Kỹ thuật Máy tính -Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh
TP Hồ Chí Minh, ngày 01 tháng 12 năm 2023
Trang 5ý Đã có nhiều nghiên cứu trước hiện thực bài toán này nhưng chủ yếu là trên ngônngữ tiếng anh Trong luận văn này, học viên đề xuất một mô hình ExFAN, tự độngphát hiện tin giả một cách có giải thích Mô hình được xây dựng dựa trên các mô hìnhTransformer và mô hình hoá bài toán thành tác vụ NLI (Suy luận ngôn ngữ tự nhiên).Bên cạnh đó, học viên cũng xây dựng một bộ dữ liệu tin giả ViFactCheckingOSNsdựa trên các bài đăng trên nền tảng OSNs (Online social network) có ngữ cảnh, bằngchứng Kết quả đánh giá trên các bộ dữ liệu và cài đặt khác nhau cho thấy mô hình
đã đạt kết quả tốt hơn khi so sánh với các mô hình cơ sở và kết quả cạnh tranh vớicác mô hình State-of-art khác trong cùng hướng nghiên cứu
Trang 6With the development of science and technology, social networks have becomeextremely popular in daily life Along with the strong increase in the number of users
on social networks, the number of posts has also increased rapidly Social media is nownot only a place for socializing, exchanging, and entertainment, but also a place forpeople to easily, quickly, and conveniently update news However, many individuals andorganizations exploit social media to disseminate misinformation, also known as fakenews, for malicious purposes, especially news related to healthcare since the COVID-
19 pandemic, which has attracted a large number of social media users Receivingthis fake news not only causes public anxiety and social disorder but also damagesthe reputation of individuals, organizations, and businesses Furthermore, fake medicalnews can have serious health consequences, even endangering the lives of those whoreceive it Therefore, automatically detecting fake news on social media has become atopic of great interest
There have been many studies on this issue, mainly in English In this thesis, thestudent proposes a model ExFAN to automatically detect fake news in an explainablemanner The model is built based on Transformer models and conceptualizes the prob-lem as a NLI (Natural Language Inference) task In addition, student also constructs
a fake news dataset ViFactCheckingOSNs based on posts on the OSNs (Online cial Network) with context and evidence Evaluation results on various datasets anddifferent setups show that the model has achieved better results compared to baselinemodels and competitive results with other state-of-the-art models in the same researchdirection
Trang 7So-Lời cam đoan
Tôi xin cam đoan luận văn tốt nghiệp: “PHÁT HIỆN TỰ ĐỘNG TIN GIẢ Y TẾTRÊN MẠNG XÃ HỘI” là công trình nghiên cứu của bản thân Những phần tài liệuđược sử dụng trong luận văn đã được nêu rõ trong phần Tài liệu tham khảo Các sốliệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu có sai sót tôi xinchịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra
Học viên
Trần Thị Thắm
Trang 81 GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu chung 1
1.2 Mô tả Bài toán phát hiện tin giả 3
1.3 Mục tiêu và nhiệm vụ của luận văn 4
1.4 Giới hạn đề tài 5
1.5 Đóng góp của luận văn 6
1.6 Tóm tắt nội dung 6
2 CƠ SỞ LÝ THUYẾT 8 2.1 Tổng quan về Tin giả 8
2.1.1 Khái niệm về tin giả 8
2.1.2 Phân loại tin giả 8
2.2 Cơ sở kiến thức về mô hình học sâu 10
2.2.1 Mô hình Artificial Neural Network - ANN 10
2.2.2 Mô hình Transformer 14
2.2.2.1 Khái niệm Transformer 14
2.2.2.2 Tổng quan mô hình Transformer 14
2.2.3 Mô hình BERT 17
2.2.4 Mô hình Sentence BERT 19
2.2.5 Suy Luận Ngôn Ngữ Tự Nhiên - NLI 21
3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 24 3.1 Tự động phát hiện tin giả không diễn giải 25
3.1.1 Cách tiếp cận dựa vào nội dung 25
3.1.2 Cách tiếp cận dựa vào ngữ cảnh xã hội 27
3.2 Phát hiện tin giả một cách có diễn giải 28
3.3 Thảo luận 29
4 BỘ DỮ LIỆU KIỂM TRA TIN GIẢ CÓ BẰNG CHỨNG 31 4.1 Tổng quan về các tập dữ liệu 31
4.2 Bộ dữ liệu HealthVer 32
4.2.1 Tổng quan về dữ liệu 32
4.2.2 Chiến lược chia tập huấn luyện và tập kiểm tra 33
4.2.3 Phân tích bộ dữ liệu 33
4.3 Bộ dữ liệu COVIDFact 36
4.3.1 Tổng quan về dữ liệu 36
4.3.2 Chiến lược chia tập huấn luyện và tập kiểm tra 36
4.3.3 Phân tích bộ dữ liệu 37 4.4 Bộ dữ liệu DS01-ISE-ICHEVE (Information Checking and Verification) 38
Trang 94.4.1 Tổng quan về dữ liệu 38
4.4.2 Phân tích bộ dữ liệu 40
4.5 Xây dựng bộ dữ liệu ViFactCheckingOSNs dựa trên về tin trên mạng xã hội 41
4.5.1 Phân tích bộ dữ liệu 43
5 MÔ HÌNH ĐỀ XUẤT ExFAN 46 5.1 Mô hình tham khảo 46
5.2 Mô hình đề xuất ExFAN 49
5.2.1 Tác vụ tự động truy xuất bằng chứng sử dụng công cụ tìm kiếm 50 5.2.2 Tác vụ đánh giá sự tương đồng về ngữ nghĩa 52
5.2.3 Tác vụ xác minh sự thật 53
6 THÍ NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH ExFAN 56 6.1 Phương pháp đánh giá 56
6.2 Mô hình Baseline và cài đặt 58
6.3 Kết quả thực nghiệm và thảo luận 59
6.3.1 Trên các bộ dữ liệu tiếng anh 59
6.3.2 Trên các bộ dữ liệu tiếng việt 59
7 KẾT LUẬN 62 7.1 Kết quả đạt được 62
7.2 Hạn chế và vấn đề tồn đọng 63
7.3 Hướng phát triển 63
Trang 101.1 Minh họa về bài toán phát hiện tin giả 3
1.2 Ví dụ minh họa một cặp claim-evidence là support 4
2.1 Cấu trúc của một Perceptron 11
2.2 Các hàm phi tuyến được sử dụng trong Perceptron 11
2.3 Mô hình neural network đơn giản 12
2.4 Kiến trúc tổng quát của transformer 15
2.5 Kiến trúc của Encoder 16
2.6 Kiến trúc mô hình Sentence BERT trong dự đoán nhãn đối với tập dữ liệu diễn giải ngôn ngữ tự nhiên (NLI) [9] 19
2.7 Kiến trúc mô hình Sentence BERT trong tính toán tương đồng giữa 2 câu bằng hệ số cosine [9] 19
2.8 Kiến trúc của mô hình NLI BERT 23
3.1 Taxonomy cho bài toán phát hiện tin giả 25
3.2 Các đặc trưng dựa trên Social Context được sử dụng để phát hiện tin tức giả mạo 27
4.1 Tỉ lệ các nhãn trong tập test của dữ liệu HealthVer 33
4.2 Tỉ lệ các nhãn trong tập validation của dữ liệu HealthVer 34
4.3 Tỉ lệ các nhãn trong tập train của dữ liệu HealthVer 34
4.4 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu HealthVer 36
4.5 Tỉ lệ các nhãn trong tập test của dữ liệu COVIDFact 37
4.6 Tỉ lệ các nhãn trong tập validation của dữ liệu COVIDFact 37
4.7 Tỉ lệ các nhãn trong tập train của dữ liệu COVIDFact 38
4.8 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu COVIDFact 38
4.9 Tỉ lệ các nhãn trong tập dữ liệu DS01-ISE-ICHEVE 40
4.10 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu DS01-ISE-ICHEVE 42
4.11 Tỉ lệ các nhãn trong tập test của dữ liệu ViFactCheckingOSNs 43
4.12 Tỉ lệ các nhãn trong tập train của dữ liệu ViFactCheckingOSNs 43
4.13 Tin giả 45
4.14 Tin thật 45
4.15 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu Vi-FactCheckingOSNs 45
5.1 Kiến trúc mô hình FacTeR-Check 47
5.2 Kiến trúc của mô hình đề xuất ExFAN 49
Trang 115.3 Kiến trúc của tác vụ Tự động truy xuất bằng chứng sử dụng công
cụ tìm kiếm 505.4 Kiến trúc mô hình SBERT tiếng Việt 525.5 Kết quả của mô hình mDebertaV3 so sánh với các mô hình đa ngôn ngữkhác trên bộ dữ liệu XNLI [66] 53
Trang 124.1 Các thông số liên quan các tập dữ liệu kiểm tra tin giả 324.2 Thống kê độ dài tin tức trong tập dữ liệu HealthVer 354.3 Thống kê độ dài tin tức trong tập dữ liệu COVIDFact 394.4 Thống kê độ dài tin tức trong tập dữ liệu DS01-ISE-ICHEVE 414.5 Thống kê độ dài tin tức trong tập dữ liệu ViFactCheckingOSNs 445.1 Ví dụ của việc áp dụng logical reasoning cho phát hiện tin giả từ cặpClaim (C) - Evidence (E) 556.1 Điều kiện và giải thích các giá trị trong ma trận nhầm lẫn 576.2 Kết quả thực nghiệm mô hình ExFAN so với các mô hình baseline 606.3 Kết quả trên bộ dữ liệu ViFactCheckingOSNs 616.4 Kết quả cuộc thi UIT Data Science Challenge 2023 61
Trang 13Thuật ngữ & từ viết tắt
AI Artificial Intelligence
BERT Bidirectional Encoder Representations from TransformersNLI Natural Language Inference
OSNs Online social networks
SBERT Sentence BERT
SNN Siamese Neural Network
SOTA State-of-the-Art
XNLI Cross-lingual Natural Language Inference
Trang 14GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu chung
Cùng với sự phát triển của Internet và mạng xã hội, tin tức giả mạo đã trởthành một vấn đề phổ biến bao gồm các loại thực thể gian lận khác nhau, chẳnghạn như những đánh giá sai lệch, tài khoản trực tuyến giả mạo và các trang web
có hại Theo vnexpress 1, mô hình ngôn ngữ sinh tự động như ChatGPT đã đưaviệc tạo ra hàng loạt nội dung giả mạo lên một tầm cao mới, khiến việc phânbiệt thông tin thật và thông tin sai lệch trở nên khó khăn hơn bao giờ hết TheoNewsGuard, các trang web chứa nội dung giả mạo do AI tạo đã tăng lên đến hơn1.000% kể từ tháng 5, với hơn 600 trang chứa bài viết không chính xác được tạo
ra mỗi ngày Không chỉ có nội dung sai lệch về bầu cử, chiến tranh, hay thiêntai, mà còn cả những câu chuyện giả mạo được lan truyền trên nhiều nền tảngtruyền thông và mạng xã hội Những nghiên cứu gần đây đã chỉ ra rằng việc tạo
ra nội dung giả mạo bằng trí tuệ nhân tạo đã tạo ra một môi trường thông tintràn ngập thông tin không chính xác, gây ảnh hưởng tiêu cực đến người tiêu dùng.Điều đáng ngại hơn nữa là việc lan truyền những tin tức giả mạo gây ảnh hưởngxấu tới đời sống, kinh tế của xã hội và sức khoẻ của mọi người Ví dụ, trong đạidịch Covid-19, việc lan truyền thông tin sai lệch về virus diễn ra nhanh chóng vàgây thiệt hại nghiêm trọng Ở Việt Nam, tin tức giả mạo về các phương pháp điềutrị COVID-19 đã khiến người dân tích trữ hydroxychloroquine, khiến cho nhữngbệnh nhân cần thiết không thể tiếp cận được thuốc quan trọng 2 Theo thống kêcủa Trung tâm Xử lý tin giả Việt Nam (VAFC) thuộc Bộ Thông tin và Truyềnthông, trong sáu tháng đầu năm 2021, trung tâm nhận được hơn 1,1 nghìn lượtbáo cáo tin giả, xuất hiện nhiều nhất trên các mạng xã hội xuyên biên giới, như
1 Mối nguy AI ’siêu lan truyền’ thông tin sai lệch
2 Chạy đua tìm ’thần dược’ - Kỳ 1: Tranh cãi thuốc sốt rét điều trị COVID-19
Trang 15Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
Facebook, YouTube và TikTok 3
Việc phát hiện tin giả trên mạng xã hội đặt ra một số vấn đề nghiên cứu mới
và đầy thách thức Khi tin tức giả mạo được tạo ra bằng trí tuệ nhân tạo ngàycàng phức tạp hơn, nhiều mô hình phát hiện gian lận dựa trên học máy tự động
đã được đề xuất
Có rất nhiều hướng để tiếp cận với bài toán phát hiện tin giả nhưng kháiquát có thể chia thành 2 hướng tiếp cận [1] đó là:
1 Phương pháp phát hiện tin giả không diễn giải
2 Phương pháp phát hiện tin giả có diễn giải
Phương pháp phát hiện tin giả không diễn giải: Cách tiếp cận này dựavào nội dung mẫu, dựa vào phong cách của văn bản như cú pháp, ý nghĩa văn bảndựa trên những chiến thuật đơn giản như nắm bắt đầy đủ dấu câu, từ vựng, cảmxúc của văn bản đóng vai trò nền tảng cho cách tiếp cận này Bên cạnh đó, cáchtiếp cận về ngữ cảnh, cách này tập trung sự quan tâm với các yếu tố của mạng
xã hội liên quan tới người dùng (lý lịch của người dùng), các bài viết và bình luậncủa người dùng
Cách tiếp cận trên có nhược điểm đó là kém trong việc tổng quát hóa và khógiải thích được cho người dùng Với những tin giả đa dạng và có văn phong, đặcđiểm gần giống tin thật thì việc sử dụng cách dựa vào các đặc trưng của bài viết
sẽ khó đạt hiệu quả cao và mang tính thực tế Bên cạnh đó, cách làm này cũngkhông chỉ ra được những bằng chứng tin tức này là giả hay thật Vì vậy, ở đề tàinày, tác giả tập trung vào sử dụng hướng tiếp cận dựa vào phương pháp phát hiệntin giả có diễn giải cụ thể đó là dựa vào bằng chứng (evidence-based)
Với Phương pháp phát hiện tin giả có diễn giải: Bài toán được mô hìnhhóa như một quá trình lý luận, trong đó các bằng chứng bên ngoài được cung cấp
để xác thực lại thông tin đúng hay sai Mô hình này cần giúp khám phá và tíchhợp các thông tin hữu ích của bằng chứng cho việc xác nhận tin tức
Bài toán tự động phát hiện tin giả là bài toán có ý nghĩa thực tế và giúp đemlại lợi ích cho người dùng mạng xã hội Vì vậy, trong khuôn khổ luận văn này, họcviên đã thực hiện đề tài "Phát hiện tự động tin giả y tế trên mạng xã hội"nhằm giải quyết vấn đề này trong các tin tiếng việt Trong đề tài, tác giả trình bàycác công trình nghiên cứu liên quan, các phương pháp khác nhau được sử dụngtrong bài toán phát hiện tin giả và một số thử nghiệm trên các bộ dữ liệu tin giả
có diễn giải
3 https://nhandan.vn/ngan-chan-tin-gia-tin-sai-su-that-ve-dich-covid-19-post658083.html
Trang 161.2 Mô tả Bài toán phát hiện tin giả
Hình 1.1: Minh họa về bài toán phát hiện tin giả
Hình 1.1 mô tả những bài toán chính trong việc phát hiện tin giả sử dụngvăn bản bao gồm các bài toán sau:
• Check worthiness: Xác định các tuyên bố cần xác minh
• Verify Claim: Đánh giá tính xác thực của tuyên bố dựa trên các đặc trưngcủa chính tuyên bố đó
• Evidence Retrieval: Tìm kiếm các nguồn hỗ trợ hoặc bác bỏ tuyên bố
• Veracity Prediction: Xác minh tính đúng đắn tuyên bố dựa vào các bằngchứng đã thu thập ở bước Evidence Retrieval
Tuy nhiên, trong phạm vi nghiên cứu và thực hiện luận văn tốt nghiệp này,học viên sẽ tập trung vào một bài toán kiểm tra tin giả sử dụng chứng
cứ, cụ thể các phát biểu được kiểm chứng bằng các tin tức, bài viết thu thập từcác nguồn khác và phân loại cặp tuyên bố - chứng cứ là SUPPORTS (Ủng hộ),REFUTES (Bác bỏ) hay là NEI (Không đủ thông tin) (như Hình 1.2) Giới hạnnày giúp cho việc thiết lập dữ liệu huấn luyện đơn giản hơn nhưng lại được ứngdụng trong thực tế hiệu quả (vì giúp đưa ra được bằng chứng cụ thể cho việc kiểmtra tin)
Input: Các đầu vào cho bài toán phát hiện tin giả bao gồm một tuyên bố cOutput: Danh sách các evidence ˆε(e) và một label y(c, e) ∈ {SUPPORTS, RE-FUTES, NEI}
Trang 17Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
Hình 1.2: Ví dụ minh họa một cặp claim-evidence là support
1.3 Mục tiêu và nhiệm vụ của luận văn
Đề tài này hướng đến mục tiêu tìm hiểu và xây dựng mô hình tự động pháthiện tin giả y tế tiếng việt trên mạng xã hội bằng cách ứng dụng các kỹ thuật họcsâu Trong đó, hệ thống nhận dữ liệu đầu vào là bài viết về tin tức y tế trên mạng
xã hội Từ mục tiêu tổng quát trên, học viên sẽ lần lượt giải quyết các vấn đề sau
để đưa ra một giải pháp thiết kế và hiện thực một kiến trúc hệ thống giải quyếtđược bài toán của đề tài:
– Tìm hiểu bài toán phát hiện tin giả dựa trên bằng chứng sử dụng các môhình học sâu
– Nắm được các phương pháp giải quyết cho Bài toán phát hiện tin giả, đặcbiệt là các phương pháp gần đây sử dụng các mô hình học sâu Từ đó chỉ rađược các ưu nhược điểm của từng phương pháp
– Đưa ra được đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thựcnghiệm
– Xây dựng mô hình học sâu nhằm phát hiện tin tức là giả hay thật dựa trêncác bằng chứng thu thập từ bên ngoài
– Xây dựng bộ dữ liệu tin giả có diễn giải trên mạng xã hội cho tiếng việt
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quátrình hoàn thiện luận văn:
Trang 18– Tìm hiểu về Hệ thống phát hiện tin giả, đặc biệt là nhóm Bài toán phát hiệntin giả dựa trên cơ sở bằng chứng từ nguồn tin bên ngoài, các công trình liênquan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phươngpháp.
– Nghiên cứu và đề xuất các mô hình giúp cải thiện độ chính xác cho Bài toánPhát hiện tin tức giả dựa trên bằng chứng
– Tìm kiếm các tập dữ liệu thực tế (đặc biệt là dữ liệu tiếng việt) đã được công
bố và thực hiện xử lý dữ liệu Tập trung vào các tập dữ liệu thường được sửdụng trong các báo cáo khoa học để có được kết quả đánh giá khách quan.Bên cạnh đó, xây dựng bộ dữ liệu tin giả có diễn giải trên mạng xã hội chotiếng việt
– Thực nghiệm, đánh giá kết quả của các mô hình đề xuất trên các tập dữ liệu
đã được xử lý trước đó
– Chỉ ra những hạn chế và vấn đề tồn đọng, đề xuất các giải pháp cải tiến và
mở rộng của bài toán trong tương lai
1.4 Giới hạn đề tài
Xây dựng hệ thống tự động phát hiện tin giả là một bài toán rộng và có nhiềutác vụ cũng như nhiều cách tiếp cận khác nhau, vì vậy nội dung của luận văn sẽđược giới hạn như sau:
– Tập trung vào bài toán Tự động phát hiện tin giả y tế tiếng việt sử dụngbằng chứng Bằng chứng là các thông tin được khai thác từ các công cụ tìmkiếm như Bing, Google
– Khảo sát trên 4 tập dữ liệu là CovidFact [2], HealthVer [3], DS01-ISE-ICHEVE(Information Checking and Verification)4 và bộ dữ liệu ViFactCheckingOSNs
Trang 19Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
1.5 Đóng góp của luận văn
Trong luận văn, học viên đề xuất 2 phương án giúp cải thiện hiệu suất củaphương pháp Tự động phát hiện tin giả y tế tiếng việt trên mạng xã hội sử dụngbằng chứng:
– Đề xuất một khung công cụ phát hiện tin tức giả sử dụng bằng chứng và môhình bài toán thành tác vụ NLI (Natural Language Inferene) giúp kết quảxác thực tin trở nên chính xác và đáng tin cậy hơn
– Tăng khả năng học của mô hình bằng các mô hình pretrained mạnh, đa ngônngữ, giải quyết bài toán kiểm tra tin giả tiếng việt
– Xây dựng một bộ dữ liệu ViFactCheckingOSNs tin giả tiếng việt trênmạng xã hội có bằng chứng và ngữ cảnh
– Các thí nghiệm trên bốn bộ dữ liệu là CovidFact [2], HealthVer [3], bộ dữliệu DS01-ISE-ICHEVE (Information Checking and Verification)5 và bộ dữliệu ViFactCheckingOSNs do học viên xây dựng cho thấy mô hình đề xuấtđạt được cải tiến hiệu suất so với các mô hình cơ sở, cụ thể là tăng 3 - 5 %F1 score trên bộ dữ liệu tiếng anh và tăng 3 - 10 % F1 score trên bộ dự liệutiếng việt
– Mô hình đề xuất đã đạt giải nhì trong cuộc thi UIT Data Science lenge 2023 được tổ chức bởi Khoa Khoa học và Kỹ thuật Thông tin, TrườngĐại học Công nghệ Thông tin – ĐHQG TP HCM, chủ đề “phân biệt tin thật,tin giả trên mạng xã hội” 6
vi của đề tài Cuối cùng là nhiệm vụ và cấu trúc của luận văn
– Chương 2, CƠ SỞ LÝ THUYẾT: Tổng hợp những vấn đề học thuật liênquan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dungcủa học sâu, từ Mạng nơ ron nhân tạo (Artificial Neural Network) và đặc
5 https://dsc.uit.edu.vn/
6 https://dsc.uit.edu.vn/
Trang 20biệt là lý thuyết về tác vụ Suy luận ngôn ngữ tự nhiên (Natural LanguageInference).
– Chương 3, CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Trìnhbày một cách tổng quát về những nghiên cứu liên quan đã và đang được thựchiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán Phầnnày cũng đưa ra những bàn luận và đánh giá cho các phương pháp kể trên vì
đó là cơ sở quan trọng cho những nghiên cứu của học viên trong quá trìnhthực hiện luận văn
– Chương 4, BỘ DỮ LIỆU KIỂM TRA TIN GIẢ CÓ BẰNG CHỨNG:Giới thiệu các bộ dữ liệu cho bài toán phát hiện tin giả có bằng chứng cũngnhư xây dựng bộ dữ liệu dành riêng cho tin giả tiếng việt trên mạng xã hội
có bằng chứng
– Chương 5, MÔ HÌNH ĐỀ XUẤT ExFAN: Giới thiệu mô hình cơ sở cho
Tự động phát hiện tin giả y tế tiếng việt trên mạng xã hội Đồng thời đưa racác cải tiến và động lực cho mô hình đề xuất
– Chương 6, THÍ NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH ExFAN: Ởchương này, học viên trình bày các bước tiến hành thí nghiệm trên những tập
dữ liệu khác nhau và đánh giá kết quả của những cải tiến so với mô hình cơsở
– Chương 7, KẾT LUẬN: Tổng hợp các kết quả đạt được trong quá trìnhthực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khaithực nghiệm Phần này cũng trình bày những hạn chế và vấn đề tồn đọng,cuối cùng đề xuất các giải pháp cải tiến trong tương lai
Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luậnvăn Tài liệu tham khảo sẽ được trình bày ở cuối luận văn
Trang 21Chương 2
CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về Tin giả
2.1.1 Khái niệm về tin giả
Thuật ngữ "tin giả" là một khái niệm tương đối mới xuất hiện cùng với sựbùng nổ về thông tin ngày nay
Học giả về truyền thông Nolan Higdon đã định nghĩa "Tin tức giả là nội dungsai sự thật hoặc gây hiểu lầm được trình bày dưới dạng tin tức và được truyền đạtdưới các định dạng bao gồm truyền thông nói, viết, in, điện tử và kỹ thuật số" [4].Tin tức giả mạo cũng đề cập đến những câu chuyện bịa đặt có rất ít hoặc không
có sự thật và khó có thể xác minh được
2.1.2 Phân loại tin giả
Các trường hợp điển hình của tin giả bao gồm quảng cáo lừa đảo (trong kinhdoanh và chính trị), tuyên truyền của chính phủ, các hình ảnh chỉnh sửa hoặc dùngsai mục đích ban đầu, tài liệu giả mạo, bản đồ giả, gian lận trên Internet, các trangweb giả mạo và mục từ trên Wikipedia không đúng sự thật, Tin giả có thể gây
ra tác hại đáng kể nếu mọi người để nó lừa dối Để giải quyết mối đe dọa này đốivới chất lượng thông tin, trước tiên chúng ta cần hiểu chính xác các loại tin giả
Có rất nhiều nghiên cứu về tin giả và phân loại tin giả, một trong những báo cáođược tham khảo và trích dẫn nhiều về phân loại tin giả là của Claire Wardle [5].Theo phân loại này, các tin giả được phân thành 3 nhóm chính :
1) Thông tin sai lệch (Mis-information): Thông tin sai lệch được phổ biến màkhông có ý định gây hại Bao gồm 2 loại là Kết nối sai (False connection) khi tiêu
Trang 22đề và chú thích không phù hợp nội dung như giật tít, loại 2 là nội dung gây hiểulầm (misleading content) là sử dụng sai thông tin và gây hiểu lầm cho người đọc
ví dụ như các trang lừa đảo hứa hẹn quảng cáo Một trong những trò lừa bịp nổitiếng nhất của chiến dịch là việc tạo ra một phiên bản trùng lặp phức tạp của
tờ báo Le Soir của Bỉ, với một bài báo sai sự thật cho rằng Macron được Ả Rập
Xê Út tài trợ1 Một ví dụ khác là việc lưu hành các tài liệu trực tuyến tuyên bốsai sự thật rằng Macron đã mở một tài khoản ngân hàng nước ngoài ở Bahamas2
Và cuối cùng, thông tin sai lệch được lan truyền thông qua "các cuộc tấn côngTwitter", trong đó các cá nhân có kết nối với nhau, đều đồng thời đưa lên Twittercác thẻ (hashtag) bắt đầu bằng , chứa thông điệp giống hệt nhau để lan truyền tinđồn về Macron (ví dụ: anh ta có quan hệ tình cảm với con gái riêng của mình).2) Thông tin giả mạo (Dis-information): Được tạo và chia sẻ bởi những người
có ý định gây hại Bao gồm: bối cảnh sai (False context) là loại thông tin giả mạonày được sử dụng để mô tả nội dung xác thực nhưng đã được điều chỉnh lại theonhững cách nguy hiểm Ví dụ, vào tháng 8 năm 2021, trên mạng xã hội chia sẻvới tốc độ chóng mặt về tin một người bác sĩ tên Trần Khoa, người này chia sẻ đãquyết định "nhường đi chiếc máy thở" của ba mẹ mình đang dùng cho một sảnphụ đang cần 3 Thông tin này đi kèm với một lá thư rất lâm ly của bác sĩ Khoa
và nhận được sự đồng cảm lớn từ cộng đồng mạng Tuy nhiên, Sở Y tế Thànhphố Hồ Chí Minh cho biết sau, khi kiểm tra có đủ cơ sở khẳng định thông tin lantruyền về trường hợp một bác sĩ rút ống thở của người nhà để nhường máy thởcho mẹ con sản phụ là hư cấu
3) Thông tin ác ý (Mal-information) Thông tin dựa trên nội dung đã có trongthực tế, được sử dụng để gây hại cho một người, một tổ chức hoặc một quốc gia.Một ví dụ nổi bật về thông tin ác ý là khi các email của Emmanuel Macron bị rò
rỉ vào thứ Sáu trước cuộc bỏ phiếu chung cuộc diễn ra vào ngày 7 tháng 5 Thôngtin chứa trong các email là thật nhưng chiến dịch tranh cử của Macron vẫn bị cáobuộc về việc sử dụng thông tin sai sự thật để làm giảm tác động từ ảnh hưởngcủa các cuộc rò rỉ thông tin tiềm ẩn 4 Tuy nhiên, bằng cách tiết lộ thông tin cánhân ra công chúng vài phút trước khi các phương tiện truyền thông ở Pháp mấtđiện, vụ rò rỉ đã gây tổn hại lớn cho chiến dịch tranh cử của Macron
1 https://crosscheck.firstdraftnews.com/checked-french
2 https://crosscheck.firstdraftnews.com/checked-french
3 song-thai-la-hu-cau-17239.html
https://ttbc-hcm.gov.vn/thong-tin-bac-si-nhuong-may-tho-cua-nguoi-than-de-cuu-san-phu-4 https://www.nytimes.com/2017/05/08/world/europe/macron-hacking-attack-france.html
Trang 23Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
2.2 Cơ sở kiến thức về mô hình học sâu
2.2.1 Mô hình Artificial Neural Network - ANN
Mô hình Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) là môhình tính toán được xây dựng lấy ý tưởng từ cấu trúc và cách hoạt động của mạngnơ-ron thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập thôngtin đầu vào Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinh họckết nối và hoạt động cùng nhau Chúng hoạt động bằng cách tiếp nhận các thôngtin đưa vào từ các đuôi gai (dendrite), tính toán và tổng hợp tại thân nơ-ron (cellbody), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon)
Có thể dễ dàng rút ra nhận xét rằng nơ-ron sinh học nhận nhiều thông tinđầu vào nhưng chỉ đưa ra một kết quả duy nhất thông qua quá trình
xử lý trung gian phức tạp
Tương tự như cách thức hoạt động nêu trên của mạng nơ-ron thần kinh,ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc nhưHình 2.5 Trong đó:
– x1, x2, x3, , xn lần lượt là các biến đại diện cho dữ liệu đầu vào
– phép cộng (summation) và hàm kích hoạt (activation function) là các phéptính toán và tổng hợp các thông tin dữ liệu đầu vào
– w1, w2, w3, , wn là các trọng số cần phải học, đóng vai trò tham gia quá trìnhtính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra.– y là output của tiến trình, đại diện cho dữ liệu đầu ra
Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một perceptronđược mô tả theo từng bước sau:
1 Perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích sốcủa từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng:
Trang 24Hình 2.1: Cấu trúc của một Perceptron
Hình 2.2: Các hàm phi tuyến được sử dụng trong Perceptron
ˆ
y =1 if f(a) ≥ threshold
0 if f (a) < threshold (2.2)Bằng cách kết hợp nhiều perceptron với nhau sẽ tạo nên cấu trúc mô hìnhmạng ANN Mạng ANN bao gồm nhiều perceptron như là các nút mạng tính toán
Trang 25Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
làm tăng tính phức tạp cũng như khả năng học cho mạng, các perceptron đó hìnhthành nên các tầng như hình sau:
Hình 2.3: Mô hình neural network đơn giản
– Tầng đầu vào (input layer): là tầng đầu tiên, thể hiện các dữ liệu đầu vàocủa mô hình
– Tầng ẩn (hidden layer): là tầng nằm giữa gồm các phép tính toán nhằmchuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra
– Tầng kết quả (output layer): là tầng cuối cùng thể hiện dữ liệu đầu ra củamạng
Quá trình suy luận từ tầng vào tới tầng ra của mạng NN là quá trình lantruyền tiến (feedforward), tức là đầu vào các nơ-ron tại 1 tầng đều lấy từ kết quảcác nơ-ron tầng trước đó mà không có quá trình suy luận ngược lại Mỗi nơ-ron
sẽ nhận tất cả đầu vào từ các nơ-ron ở tầng trước đó và sử dụng một hàm kíchhoạt dạng (activation function) phi tuyến như sigmoid, ReLU, tanh để tính toánđầu ra
z(l+1) = W(l+1)· a(l)
a(l+1) = f (z(l+1))
Hàm lỗi của mạng cũng tương tự như logistic regression có dạng cross-entropy,tuy nhiên khác logistic regression ở chỗ mạng NN có nhiều đầu ra nên hàm lỗicũng phải lấy tổng lỗi của tất cả các đầu ra này:
Trang 26Để tối ưu được hàm lỗi J (W ) này người ta sử dụng giải thuật lan truyềnngược (backpropagation) để tính được đạo hàm của hàm lỗi này.
Trang 27Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
2.2.2 Mô hình Transformer
2.2.2.1 Khái niệm Transformer
Năm 2017, một nhóm các nhà nghiên cứu làm việc tại Google đã trình bàyTransformer , một kiến trúc mạng mới dựa trên khái niệm attention(Chú ý) để xử
lý các nhiệm vụ phức tạp liên quan đến ngôn ngữ con người, như dịch thuật Kiếntrúc này đã làm cách mạng ngành xử lý ngôn ngữ tự nhiên, cho phép huấn luyệncác mô hình để giải quyết các nhiệm vụ cực kỳ phức tạp một cách hiệu quả Kể
từ đó, một số lượng không đếm được các ứng dụng, kiến trúc và mô hình đã đượccông bố để giải quyết các nhiệm vụ như phân tích cảm xúc [6], tạo văn bản hoặctrả lời câu hỏi [7] Tuy nhiên, khái niệm attention cũng sớm được áp dụng vào cáclĩnh vực khác như tạo âm nhạc [8]
Một trong những đặc điểm quan trọng nhất của các kiến trúc này trong lĩnhvực hiểu ngôn ngữ tự nhiên nằm ở khả năng hiểu context (bối cảnh), cho phép thựchiện các nhiệm vụ như trả lời câu hỏi với hiệu suất cao Trong khi ở các phươngpháp dựa trên thống kê NLP trước đó, các từ được xử lý độc lập mà không xemxét mối quan hệ giữa chúng trong một câu hoặc một đoạn văn, cơ chế dựa trênattention của kiến trúc Transformer cho phép xem xét các mối quan hệ này vàthiết lập các kết nối sâu
Tương tự như các kiến trúc sâu khác như Mạng Nơ-ron Hồi tiếp (RNN) hoặcMạng Nơ-ron tích chập (CNN), Transformer bao gồm một loạt các lớp mã hóa vàgiải mã hoạt động theo trình tự trên đầu vào Mục tiêu của kiến trúc này là thuđược một biểu diễn vector gọi là nhúng của câu đầu vào một cách toàn diện nhất
có thể để sau này sử dụng trong các nhiệm vụ cụ thể Ví dụ, BERT là một cài đặt
cụ thể của kiến trúc Transformer, trong đó đầu ra cho một đầu vào cụ thể là mộtnhúng của 768 vị trí xác định nhiều đặc tính của đầu vào
Đây cũng là một mô hình học sâu được thiết kế để phục vụ giải quyết nhiềubài toán trong xử lý ngôn ngữ và tiếng nói, ví dụ như bài toán dịch tự động, bàitoán sinh ngôn ngữ, phân loại, nhận dạng thực thể, nhận dạng tiếng nói, chuyểnvăn bản thành tiếng nói, Tuy nhiên, khác với RNNs, Transformer không xử lýcác phần tử trong một chuỗi một cách tuần tự Nếu dữ liệu đầu vào là một câungôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu trước rồi mớitới phần cuối câu Do tính năng này, Transformer có thể tận dụng khả năng tínhtoán song song của GPU và giảm thời gian xử lý đáng kể
2.2.2.2 Tổng quan mô hình Transformer
Giống như những mô hình dịch máy khác, kiến trúc tổng quan của mô hìnhtransformer bao gồm 2 phần lớn là encoder và decoder Encoder dùng để họcvector biểu của câu với mong muốn rằng vector này mang thông tin hoàn hảo của
Trang 28câu đó Decoder thực hiện chức năng chuyển vector biểu diễn kia thành ngôn ngữđích.
Một trong những ưu điểm của transformer là mô hình này có khả năng xử
lý song song cho các từ Bộ Encoders của mô hình Transformer là một dạngfeedforward neural nets, bao gồm nhiều encoder layer khác, mỗi encoder layer này
xử lý đồng thời các từ Trong khi đó, với mô hình LSTM, thì các từ phải được xử
lý tuần tự Ngoài ra, mô hình Transformer còn xử lý câu đầu vào theo 2 hướng màkhông cần phải thêm một LSTM nữa như trong kiến trúc Bidirectional LSTM
Hình 2.4: Kiến trúc tổng quát của transformer
Bộ Encoder
Bộ Encoder của transformer sử dụng cơ chế Position Encoding dùng để đưa
Trang 29Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
thông tin về vị trí của các từ vào mô hình transformer
Đầu tiên, các từ được biểu diễn bằng một vector sử dụng một ma trận wordembedding có số dòng bằng kích thước của tập từ vựng Sau đó các từ trong câuđược tìm kiếm trong ma trận này, và được nối nhau thành các dòng của một matrận 2 chiều chứa ngữ nghĩa của từng từ riêng biệt Transformer xử lý các từ songsong, do đó, với chỉ word embedding mô hình không thể nào biết được vị trí các
từ Như vậy, chúng ta cần một cơ chế nào đó để đưa thông tin vị trí các từ vàotrong vector đầu vào Đó là lúc positional encoding xuất hiện và giải quyết vấn đềcủa chúng ta và ý nghĩa của position encoding sẽ khác nhau tùy thuộc vào độ dàicủa câu đó
Encoder của mô hình transformer có thể bao gồm nhiều encoder layer tượng
tự nhau Mỗi encoder layer của transformer lại bao gồm 2 thành phần chính làmulti head attention và feedforward network, ngoài ra còn có cả skip connection
và normalization layer
Hình 2.5: Kiến trúc của Encoder
Trang 30Encoder đầu tiên sẽ nhận ma trận biểu diễn của các từ đã được cộng vớithông tin vị trí thông qua positional encoding Sau đó, ma trận này sẽ được xử lýbởi Multi Head Attention Multi Head Attention thực chất là self-attention.
Bộ Decoder
Decoder thực hiện chức năng giải mã vector của câu nguồn thành câu đích,
do đó decoder sẽ nhận thông tin từ encoder là 2 vector key và value Kiến trúc củadecoder rất giống với encoder, ngoại trừ có thêm một multi head attention nằm
ở giữa dùng để học mối liên quan giữ từ đang được dịch với các từ được ở câunguồn
Do lượng dữ liệu lớn, thời gian thực hiện và tài nguyên tính toán cần thiết
để huấn luyện loại mô hình này, các nhà nghiên cứu thường sử dụng các kiến trúcđược huấn luyện trước sau đó điều chỉnh để giải quyết các nhiệm vụ cụ thể.Một loạt các kiến trúc đã được đề xuất thực hiện cơ chế dựa trên sự chú ý
kể từ khi nó được đề xuất Các mô hình như BERT, Roberta, XML hoặc RoBERTa đang được sử dụng trong một số lượng lớn các nhiệm vụ NLP với thànhcông lớn
BERT (Bidirectional Encoder Representations from Transformers) là mộttrong những pre-trained model về xử lý ngôn ngữ tự nhiên được sử dụng rộngrãi nhất, được phát triển bới Google AI BERT cũng là mô hình gốc và là nềntảng cho sự hình thành các mô hình phổ biến sau này như distilBERT, RoBERTa,ALBERT, Các mô hình BERT đều được hiện thực các tác vụ như phân loại(classification), hỏi đáp (Q&A), POS-Tagging,
Trong học máy, máy tính không thể hiểu được các dữ liệu thô như ảnh, vănbản, âm thanh, video, Do đó máy tính cần đến quá trình mã hóa đầu vào sangdạng số và từ dạng số giải mã ra kết quả đầu ra Đây là 2 quá trình encoder vàdecoder BERT ứng dụng kỹ thuật Transformer, một kỹ thuật được công bố bởiGoogle, một kiến trúc bao gồm 2 encoder và 1 decoder, với mục đích biểu diễn từ,hay còn được gọi là Word Embedding
Ưu điểm của BERT so với các mô hình Word Embedding khác đó chính làviệc embedding một từ phụ thuộc vào các từ xung quanh nó, được gọi là ngữ cảnhcủa từ (context) BERT được đánh giá là một mô hình có độ chính xác cao và cóứng dụng lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên
BERT có thể được sử dụng trong việc xác định mức độ tương đồng giữa haicâu văn bản Việc này có thể được thực hiện bằng cách đưa riêng biệt hai câu vàoBERT, sau đó đầu ra sẽ được đưa vào một bộ phân loại (classification) để xácđịnh điểm tương đồng (similarity score)
Trang 31Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
Cơ chế hoạt động của BERT được mô tả như sau:
Tokenizer của BERT được tạo ra từ mô hình WordPiece, một mô hình nhằmphân chia văn bản thành các từ vựng (vocabulary) có trong dữ liệu của BERT
Từ vựng ở đây có thể là các ký tự (character), các từ (word) hoặc là các phụ tốtrong từ (subword) Kho từ vựng của BERT bao gồm tất cả ký tự tiếng Anh vàhơn 30000 từ và phụ tố của từ phổ biến trong tiếng Anh
Khi phân tích một từ, bộ tokenizer sẽ kiểm tra xem từ đó có nằm trong từđiển hay không Nếu không, từ đó sẽ được phân thành các phụ tố của nó Trườnghợp xấu nhất, từ sẽ được phân thành các ký tự riêng biệt Chính vì vậy, BERT
sẽ không thể gặp phải trường hợp Out-of-Vocabulary (OOV), tức gặp phải các từkhông có trong từ điển của BERT
Segment ID
Mỗi token sẽ được đi kèm với một chỉ số segment ID chỉ bao gồm 2 giá trị 0hoặc 1 để xác định token đó thuộc về câu nào trong cặp câu đầu vào của BERT.Quá trình Embedding
Mô tả đầu ra
Một câu sau khi trải qua quá trình embedding, kết quả trả về có thể được
mô tả thông qua một đối tượng (object) có 4 chiều:
• Số layer: bao gồm 13 layer Thông thường, BERT chỉ có 6 layer cho mỗiencoder, như vậy sẽ có 12 layer tổng cộng Layer thứ 13 sẽ là đầu vào của quátrình Embedding
• Số batch: số lượng câu được đưa vào BERT
• Số token: Số lượng token có trong câu
• Số lượng feature: giá trị feature được quy định Đối với BERT, giá trị này là768
Trang 32Khởi tạo vector embedding
Để khởi tạo vector embedding dành cho một từ hoặc 1 câu, một tác vụ nào
đó cần được thực hiện để tổng hợp các đầu ra của các layer thành một kết quảcuối cùng Một số tác vụ có thể kể đến như phép nối (concatenate), phép tổng(sum), phép lấy trung bình (mean),
Word Vector
Mỗi token sẽ có 2 giá trị bao gồm số layer và feature của nó tại layer đó Wordvector được xác định bằng cách thực hiện một tác vụ đối với một số lượng layerxác định của mỗi token
Sentence Vector
Sentence vector của 1 câu tại đầu ra của một layer được xác định bằng cáchthực hiện một tác vụ đối với toàn bộ các token vector của câu đó tại layer đangxét
Nils và các cộng sự [9] đã giới thiệu Sentence BERT (hay SBERT), một môhình Sentence Embedding nhằm giải quyết vấn đề nêu trên
Cosine-Hình 2.7: Kiến trúc mô hình Sentence BERT trong tính toán tương đồng giữa 2 câubằng hệ số cosine [9]
Trang 33Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
Khác với BERT, SBERT thực hiện việc embedding cho một câu mỗi lần thựcthi, và không sử dụng bộ phân loại tại đầu ra Các câu đều được embedding quacùng một mô hình BERT với trọng số giống nhau
Pooling là một tác vụ để tổng hợp các output của các layer thành một vectorkết quả duy nhất Một số tác vụ pooling có thể kể đến như phép lấy trung bình(mean), phép lấy lớn nhất (max), Phép Mean pooling được đánh giá là có hiệusuất và kết quả tốt nhất trên các tập dữ liệu NLI và STSb
Siamese Neural Network (SNN) [10] Siamese Neural Network (SNN) làmột kiến trúc mạng nơ-ron chứa hai hoặc nhiều mạng con giống hệt nhau (cácmạng có cùng cấu hình cũng như tham số và trọng số) và mọi cập nhật về tham
số nếu xảy ra sẽ được phản ánh ngay lập tức đến các mạng con của nó
SNN chủ yếu được sử dụng để tìm sự giống nhau của dữ liệu đầu vào bằngcách so sánh các vectơ đặc trưng của chúng Được sử dụng cho các bài toán nhưtác vụ suy luận ngôn ngữ, phát hiện ảnh giả mạo,
Thông thường, một mạng thần kinh có xu hướng sử dụng các lớp ẩn để dựđoán các lớp của một vấn đề Nhưng trong trường hợp các lớp mới sắp được thêmvào hoặc bị loại bỏ, phải đào tạo lại mô hình trên toàn bộ tập dữ liệu (cả dữ liệumới và dữ liệu hiện có) Ngoài ra, các mạng lưới thần kinh sâu có thể cần mộtlượng lớn dữ liệu để dự đoán chính xác kết quả SNN, lại học theo cách khác, đó
là học cách tìm điểm tương đồng giữa các luồng dữ liệu đầu vào và cho phép việcphân loại các lớp dữ liệu mới mà không cần đào tạo lại toàn bộ mạng lưới thầnkinh
Luồng làm việc của SNN như sau:
1 Chọn một cặp dữ liệu đầu vào được chọn từ dataset
2 Đưa mỗi câu qua mỗi mạng con của SNN để xử lý
3 Đầu ra của mạng con là một embedding vector
4 Tính khoảng cách Euclidean giữa 2 vector embedding này
5 Sử dụng hàm Sigmoid để đưa điểm giữa 2 câu về từ 0 tới 1, score càng lớnthì 2 embedding càng giống nhau và ngược lại
Ưu điểm của SNN
SNN có một số ưu điểm nổi bật như sau:
Lượng dữ liệu cần thiết để huấn luyện SNN là rất ít Chỉ cần vài amples là
đủ (1-5 samples) huấn luyện SNN Phương pháp mà nó sử dụng ở đây là One-ShotLearning hoặc Few-Shot Learning Chính vì cần ít dữ liệu huấn luyện như vậy nênchúng ta cũng không lo lắng việc dữ liệu bị mất cân bằng (Image Imbalance)
Trang 34Khả năng kết hợp với các bộ phân loại khác cao Do cơ chế học của SNNkhác biệt với các bộ phân lớp thông thường khác, nên chúng ta hoàn toàn có thểkết hợp chúng lại với nhau Việc làm này thường cho ra kết quả tốt hơn.
Học từ sự tương đồng về ngữ nghĩa: SNN tập trung vào việc học các Features
ở các lớp sâu hơn, nơi mà các Features giống nhau được đặt gần nhau Do đó,
nó có thể hiểu được phần nào sự tương đồng về ngữ nghĩa của các Input Data.Nhược điểm của SNN
SNN cũng có những nhược điểm sau: Thời gian huấn luyện lâu hơn SNN họctheo từng cặp đôi một với nhau nên khả năng học của nó chậm hơn các NN khác.Không thể hiện xác suất mỗi lớp trong Output SNN chỉ đưa đưa 1 giá trịScore trong đoạn [0,1], thể hiện sự giống nhau giữa 2 Input Data Score càng gần
1 thì 2 Input Data càng giống nhau và ngược lại
Hàm Loss của SNN
Bởi vì, SNN học theo kiểu từng đôi một của Input Data nên Cross EntropyLoss Function thường không được sử dụng Thay vào đó, 2 Loss Functions là TripleLoss và Contrastive Loss được sử dụng nhiều hơn
Triple Loss function
Ý tưởng của Triple Loss là sử dụng bộ 3 Input Data bao gồm: Anchor (A),Positive (P) và Nagative (N) mà ở đó, khoảng cách từ A đến P được tối thiểuhóa, trong khi khoảng cách từ A đến N được tối đa hóa trong suốt quá trình huấnluyện model
Suy luận Ngôn ngữ Tự nhiên (NLI) là một nhiệm vụ xử lý ngôn ngữ tự nhiên,trong đó mục tiêu là đánh giá xem một câu gọi là giả thuyết có thể suy luận đượcdựa trên một câu gọi là tiền đề [11] Nói cách khác, với hai câu a và b, có thể suyluận xem có sự liên hệ chặt chẽ giữa chúng không, có nghĩa là b dựa trên a, nếu
có một mối quan hệ trung lập, trong đó b có thể đúng dựa trên a hoặc nếu mốiquan hệ là mâu thuẫn, có nghĩa là b không đúng dựa trên a [12] Trong ba trườnghợp này, cặp câu có thể có độ tương đồng cao, nhưng việc phát hiện mối quan hệsuy luận đi một bước xa hơn, liên quan đến các mô hình hiểu ngôn ngữ tự nhiênsâu hơn
Với một cặp câu, mô hình sẽ xác định nhãn cho cặp câu đó thuộc 1 trong 3giá trị sau:
• 0 - Entailment Cặp câu có nội dung tương tự nhau
• 1 - Neutral Cặp câu có nội dung trung lập với nhau
Trang 35Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
• 2 - Contradiction Cặp câu không có nội dung tương tự nhau
Để xác định được nhãn, các vector embedding của từng câu cùng độ lớnkhoảng cách giữa chúng |u − v| sẽ được vào một mạng Feed Forward NeuronNetwork (FFNN) Từ đó các output được tính toán soft-max để xác định nhãncuối cùng dành cho cặp câu đầu vào
Có các tập dữ liệu khác nhau đã được thiết kế để huấn luyện và đánh giá các
mô hình NLP cho NLI, tuy nhiên, chúng cũng thường được sử dụng để huấn luyệncác Transformer đa năng do tầm quan trọng của nhiệm vụ này trong tác vụ Hiểungôn ngữ tự nhiên (Natural Language Understanding – NLU) Bộ dữ liệu Suy luậnNgôn ngữ Tự nhiên Stanford (SNLI) [13] là một bộ dữ liệu gồm 570.000 cặp câuđược gán nhãn là mâu thuẫn, trung lập hoặc ủng hộ bởi 5 người gán nhãn Suyluận Ngôn ngữ Tự nhiên qua nhiều thể loại (MultiNLI) [14] để vượt qua một sốhạn chế của bộ dữ liệu SNLI, trong đó tất cả các câu được trích xuất từ chú thíchhình ảnh MultiNLI được giới thiệu như một bộ dữ liệu phức tạp hơn với ngônngữ đa dạng hơn Tập dữ liệu Suy luận Ngôn ngữ Tự nhiên Đa ngôn ngữ (XNLI)[15] được xây dựng để phục vụ như một bộ dữ liệu đa ngôn ngữ bao gồm các cặpcâu từ 15 ngôn ngữ khác nhau Mạng nơ-ron tái phát (LSTMs) [16], [17] đã chứngminh khả năng đạt hiệu suất cao trong lĩnh vực này Một số phương pháp dựatrên Transformer cũng đã được đề xuất, cho phép so sánh các câu song ngữ [18].NLI đóng một vai trò rất quan trọng trong việc tự động kiểm tra tin giả Vớimột tập hợp các tuyên bố, việc xác minh các tuyên bố này là đúng hay sai có thểđược mô hình hóa như một nhiệm vụ NLI, trong đó mục tiêu của chúng ta là pháthiện sự suy luận với một trong những tuyên bố sai đã thu thập Tương tự, với một
bộ sưu tập các sự thật đúng, chúng ta có thể mô hình như một nhiệm vụ NLI quátrình xác định xem một sự thật mới có đúng dựa trên các sự thật hiện có trongtập hợp thông tin đó hay không
Trang 36Hình 2.8: Kiến trúc của mô hình NLI BERT
Theo kiến trúc BERT trong Hình 2.8, một tiền đề và một giả thuyết của mộtmẫu sẽ được nối vào một đầu vào Đầu vào này có thứ tự sau: token "[CLS]", sau
đó tất cả các token của tiền đề, sau đó token "[SEP]", sau đó là tất cả các tokencủa giả thuyết, và token "[SEP]" ở cuối Mỗi token đầu vào sẽ được chuyển đổithành một bộ nhúng từ, bộ nhúng phân đoạn và bộ nhúng vị trí Những bộ nhúngnày sẽ đi qua kiến trúc BERT để tạo ra một vector ngữ cảnh cho mỗi token đầuvào và một vector ngữ cảnh cho toàn bộ đầu vào Vector ngữ cảnh của toàn bộđầu vào được trả về tại vị trí "[CLS]" Vector này sẽ được sử dụng để xác địnhmối quan hệ giữa tiền đề và giả thuyết thông qua một bộ phân loại Bộ phân loạinày là một mạng nơ-ron truyền thẳng được kết nối đầy đủ với vector ngữ cảnh củađầu vào Nó sẽ được huấn luyện trong các bước điều chỉnh tinh chỉnh Kiến trúcBERT giúp tính toán vector ngữ cảnh với các đặc trưng cú pháp và ngữ nghĩa củađầu vào BERT có ứng dụng trong việc tính toán điểm tương đồng của hai câuvăn bản, tuy nhiên BERT chỉ có thể nhận một cặp câu cho mỗi lần thực hiện tínhtoán Một vấn đề được nêu ra: nếu muốn so sánh sự tương đồng không chỉ mộtcặp câu mà rất nhiều cặp câu, thì cần phải so sánh từng cặp câu với nhau Giả
sử với một dataset có 100 nghìn câu, ta cần thực hiện khoảng 500 triệu phép sosánh Đối với hệ thống phát hiện tin giả, việc so sánh từng cặp câu là không khảthi Vì vậy, mô hình Sentence BERT hỗ trợ tốt việc này
Trang 37Chương 3
CÔNG TRÌNH NGHIÊN
CỨU LIÊN QUAN
Trong những năm gần đây, tác vụ phát hiện tin giả trên mạng xã hội đã thuhút sự chú ý của các nhà nghiên cứu Trong chương này, học viên sẽ trình bày tổngquan về các nghiên cứu hiện có tập trung vào các công trình nghiên cứu liên quantới bài toán phát hiện tin giả tự động Các công trình nghiên cứu về phát hiện tingiả sẽ chia thành các cách tiếp cận như hình 3.1
Trang 38Hình 3.1: Taxonomy cho bài toán phát hiện tin giả
3.1 Tự động phát hiện tin giả không diễn giải
Phương pháp phát hiện tin giả cơ bản dựa vào Neural Network để tự độngphát hiện được một số lượng các thông tin dựa trên góc nhìn về nội dung bàiviết (content-based) và ngữ cảnh xã hội (context-based) của nó, từ đó tạonên mô hình phân loại tin giả một cách hiệu quả
3.1.1 Cách tiếp cận dựa vào nội dung
Đối với việc xác minh tin tức, nội dung tin tức (ngôn ngữ và dữ liệu hìnhảnh) được sử dụng như một đặc trưng trong các mô hình phát hiện tin giả [19].Kết quả từ nghiên cứu của Kim và các cộng sự [20] đã chứng minh rằng độ chínhxác trong việc phát hiện tin đồn chỉ sử dụng đặc trưng dựa trên nội dung cao hơn
so với việc sử dụng tất cả các đặc trưng khác kết hợp đồng thời
Các nghiên cứu về phát hiện tin giả dựa trên nội dung văn bản chủ yếu phụthuộc vào các đặc trưng được trích xuất từ văn bản mà bộ phân loại dựa vào để
Trang 39Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính
xác định tin giả, chẳng hạn như các đặc trưng ngôn ngữ học và cú pháp [21], đặctrưng cảm xúc [22], hoặc các đặc trưng dựa trên phong cách và chất lượng củavăn bản [23] Các thử nghiệm đã chỉ ra rằng tin giả thường mang theo cảm xúcmạnh mẽ hoặc cực đoan để kích động và thu hút người đọc [23] Hơn nữa, tin giảthường thể hiện tính hung hăng trong diễn đạt, chứa các từ mang tính chủ quan
và cảm xúc bạo lực [24] Tiêu đề tin giả thường bao gồm nhiều dấu chấm than vàdấu hỏi hơn so với tin tức thật [25] Ngoài ra, các tiêu đề tin giả thường xuất hiệntrong các từ viết hoa, hoặc các chữ trong một từ được lặp lại một cách không bìnhthường [36] Nó cũng thường chứa từ vựng được lặp lại, khác với tin tức thật, màbao gồm một loạt từ vựng Hơn nữa, hầu hết các tiêu đề tin giả dài hơn so vớicác tiêu đề tin tức thật [26] Ngược lại, nội dung văn bản của bài báo tin giả ngắnhơn so với bài báo tin tức thật [27]
Cụ thể, cách dựa trên nội dung phần lớn học thông tin của n-gram (tác giảWang năm 2017 [28]), ngữ nghĩa (tác giả Khattar và các cộng sự năm 2019 [29]),cảm xúc (tác giả Ajao, Bhowmik, và Zargari năm 2019), lập trường (tác giả Ma,Gao và Wong năm 2018 ), và văn phong viết (tác giả Gr¨ondahl và Asokan năm
2019 [30]) từ bài viết Ví dụ, tác giả Karimi và cộng sự (năm 2019) [31] đã pháthiện các thông tin về văn phong dựa trên cấu trúc nội dung của một vài ngôn ngữ,như cấp độ diễn ngôn dựa trên cú pháp tu từ nhằm giúp phát hiện tin giả Vàonăm 2020, tác giả Zhou và các cộng sự [32] đã nghiên cứu nội dung tin tức tại 4cấp độ: từ vựng (lexicon), cú pháp (syntax), ngữ nghĩa (semantic) và diễn ngôn(discourse) và sử dụng một mô hình học máy để khám phá mẫu chung của các tingiả
Các phương pháp này tránh được công việc của các phương pháp dựa trêntrích xuất tính năng thủ công và tìm hiểu sâu sắc các biểu diễn thông tin ở cấp
độ cao, giúp cải thiện hiệu quả độ chính xác của mô hình
Trang 403.1.2 Cách tiếp cận dựa vào ngữ cảnh xã hội
Hình 3.2: Các đặc trưng dựa trên Social Context được sử dụng để phát hiện tin tứcgiả mạo
Các phương pháp phát hiện tin giả dựa vào Social Context được chia thànhhai loại đặc trưng là Đặc trưng dựa trên network và Đặc trưng dựa trênngười dùng như hình 3.2
Đặc trưng dựa trên network
Đây là các đặc trưng được trích xuất thông qua việc xây dựng các mạng chuyênbiệt như mạng lan truyền, mạng tương tác và mạng truyền bá Các đặc trưng dựatrên mạng bao gồm:
• Mạng lan truyền: phân tích mô hình lan truyền thông tin và mô hình truyền
từ quan điểm tương tác của các nhà nghiên cứu [36]
Đặc trưng dựa trên người dùng
Các đặc trưng dựa trên đặc điểm của người dùng có thể được sử dụng để pháthiện tin giả [40], [41] Người dùng trên mạng xã hội đóng vai trò quan trọng trong