Với mục đích khắc phục hiện tượng trên, khóa luận này đề xuất một hệ thống có thé hỗ trợ phát hiện các tin tức không đáng tin cậy đồng thời cập nhật chính bản thân nó liên tục theo thời
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
BUI ANH KHÔI - 19520649
KHÓA LUẬN TÓT NGHIỆP
HE THONG NHAN DIỆN ĐỘ TIN CAY CUA THONG TIN TREN MẠNG XÃ HỘI VIỆT NAM THEO THỜI
GIAN THỰC SỬ DỤNG PHƯƠNG PHÁP
HỌC SÂU TRỰC TUYẾN
ONLINE DEEP LEARNING APPROACH FOR REAL-TIME
RELIABLE INTELLIGENCE IDENTIFICATION ON
VIETNAMESE SOCIAL NETWORKS
CỬ NHÂN NGANH KHOA HỌC DU LIEU
GIANG VIEN HUONG DAN
TS Đỗ Trọng Hợp
TS Nguyễn Thanh Bình
Trang 2LỜI CẢM ƠN
Trong thời gian thực hiện luận văn tốt nghiệp này, tôi đã nhận được rất nhiều
sự giúp đỡ và hướng dẫn tận tình từ nhiều góc nhìn Tôi xin gửi lời chào đến tất cảnhững người đã hỗ trợ mình dé vượt qua khó khăn dé hoàn thành báo cáo vào năm
báu đề hoàn thành luận văn bằng thực lực của mình
Tôi cũng gửi lời cảm ơn đến những người bạn đã hỗ trợ tham gia xây dựng
bộ dữ liệu và đóng góp kết quả ở khóa luận này Nếu không có sự hỗ trợ của họ, tôi
đã không thê hoàn thành kết quả nghiên cứu
Tôi cũng muốn thể hiện sự hài lòng với bản thân mình vì đã là một học sinh
có trách nhiệm, có gắng và làm việc chăm chỉ trong hoàn cảnh căng thắng dé có thé
hoàn thành khóa luận này.
Và cuối cùng cũng là đặc biệt nhất, tôi xin gửi lời cảm ơn đến gia đình, đặc
biệt là bố mẹ vi đã luôn bên cạnh cổ vũ ủng hộ tôi Nhờ có họ tôi đã có thể vững tinbước trên con người học tập của mình và là động lực để tôi thực hiện những điều
lớn lao.
Tôi xin chân thành cảm ơn!
Tác giả
Trang 3MỤC LỤC
Chương l GIỚI THIỆU ccccc¿222222vvvccrrrrrrrvrvcee 31.1 Cấu trúc khĩa luận -222V222++++222EEEEY+rtt2EEEEEELrrrrtrrrrrrrrrrrree 31.2 Lí do chọn đề tài 22222cc+2222222222ttEEEEEEEEErrrtttrErkkrrrrrrrrrrkrrrrrree 31.3 Tổng quan về tin giả và bài tốn đánh giá độ tin cậy của tin tức ð
1.3.1 Khai niệm tin giả
1.3.2 Tổng quan về bài tốn đánh giá độ tin cậy của tin tức 6
1.3.2.1 Phát hiện tự động dựa trên nội dung
1.3.2.2 Phát hiện tự động dựa trên ngữ cảnh xã hội - 7
Chương2 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN §
2.1 Các cơng trình nghiên cứu về phát hiện tin giả trên thé giới 82.2 Các cơng trình nghiên cứu về phát hiện tin giả tại Việt Nam
2.3 Các van dé cịn tồn tại và phương hướng giải quyết của khĩa luận 9
2.3.1 Các vấn đề cịn tồn tại -ccccscccerrrerirtrrrrrrirrrrrrri 9
2.3.2 Mục tiêu của đề tài -2222+cc222ExxtreErkrrrrrrrrrrrrrve 0
Chương 3 PHƯƠNG PHÁP HỌC SÂU TRỰC TUYẾN - 1
KG xt LY di Sẽ .4AäđädđdHHĂĂ 1
3.1.1 _ Tiền xử lý dữ liệu văn bản : +2222z+seccvverrrrrxeerrrrrrcee 1
3.1.2 Tiền xử lý đữ liệu ảnh cccccc2222222EEEEttrttrrrrrrrrer 23.1.3 _ Tiền xử lý metadata -:c5222cvvvrrrrrrrrrrvrrrrrrrrrer 3
3.1.4 _ Tiền xử lý tên người dùng .-¿ 2cc+eccvvcrrrrrvrrrrrrrrree 4
3.2 Phương pháp học sâu - - + + kề E1 H101 1111101 1.1 ty 4
3.2.1 Mạng nơ-ron nhiều lớp (Multilayer Perceptron) - 5
3.2.2 _ Đặc trưng dữ liệu văn bản - ¿+6 scsrsketekerrrkekerereree 6
Trang 43.2.2.1 BiLSTM và BiGRU ằ-ccccccerirrerrrrrrrerirrerer 17 3.2.2.2 TextCNN.
3.2.3 Đặc trưng dữ liệu ảnh minh họa - - ¿+ +5 +c+c+xe£erzxeese 20
3.2.4 Đặc trưng các số liệu liên quan
3.2.5 Đặc trưng về nguồn tỉn -. .2:22222c222222tSEEEEerrrrrkrrrrrrkrvee 213.2.6 Phương pháp kết hợp đa mô hình
3.3 Phương pháp học trực tuyến và hiện tượng Catastrophic Forgetting 233.3.1 Định nghĩa Học trực tuyến cho mạng nơ-ron nhân tao
3.3.2 Học chủ động ¿- - - ¿5< 5S Sx*k E12 2121111110121 1 1111 1g rhêp 23
3.3.3 Catastrophic Forgetting và áp dung Replay dé khắc phục 24
3.3.3.1 Hiện tượng Concept Dift trong dữ liệu tin tức 24
3.3.3.2 Catastrophic FOTBetting - 6s ccsteteteeirerrereree 25
3.3.3.3 Cơ chế Replay của hệ thần kinh sinh học -. 26
3.3.3.4 Áp dụng Replay cho mạng nơ-ron nhân tạo -: - 28
Chương 4 THỰC NGHIỆM SO SÁNH HIỆU SUAT CÁC MÔ HINH 30
4.1 Bộ dữ liệu HH 30 4.1.1 ReINTEL 2020 public train ¿+ - + 5S ‡++keeEvxerrkekeree 30
4.1.2 _ FEvent: Bai đăng tin tức của Việt nam trên Facebook theo sự kién.31
4.1.2.1 Nguồn gốc bộ dữ liệu -22:¿222+2zvcvcvvverrrrrerrerrree 31
4.1.2.2 Phương pháp thu thập - 5+5 st+x+xvxererrrversrerrrerrrrree 31
4.2 Xây dựng mô hình - «kh HT TT HH it 33 4.2.1 Các dạng bộ nhớ tạm thời jMĨ ¿-¿- + 5+ ++++keeEexerrkekeree 34 4.2.2 Mô hình cho đặc trưng văn bản 5-5-c+cc<c<c-c-c .- 94 4.2.3 Mô hình dành cho đặc trưng ảnh - - 5555 5++++c+c+cscscxe 35
Trang 54.2.4 Mô hình dành cho đặc trưng metadata - - 5+ 5<555< 35
4.2.5 | Mô hình dành cho đặc trưng tên người ding
4.2.6 Các mô hình kết hợp -ccc+:++222cvrvrvrrttrrrrrrrrrrrrrrrrer 35
4.3 Thiết kế luồng dữ liệu thí nghiệm
4.4 Phương pháp đánh giá - +5 + ren 37 4.4.1 _ Các tiêu chí đánh giá
4.4.2 Giai đoạn thực nghiệm ¿6555 Ss+csxseeerereeererereeerrrrerve.28Ỷ
4.4.3 — Giai đoạn triển khai
4.5 Kết quả thực nghiệm và thảo luận +©v+z222v+vzvvcvvvreerrrxz 40
4.5.1 Kết quả trên bộ dữ liệu RelNTEL - : -c+cc5sccc<c2 40
4.5.1 Kết quả trên bộ dữ liệu FEvent -cccc:z+22cccvcvecerrrrre 46
4.5.2 Nhận xét và thảo luận - + tk it 53
4.5.2.1 Hiệu xuất của các mô hình khi được huấn luyện trực tuyến _— 53
4.5.2.2 Khả năng của các dạng bộ nhớ tạm - - + + s+s++<s= 55
4.5.2.3 So sánh mô hình Online và Offline - -5-«- -<s= 57
Chương 5 XÂY DỰNG HE THONG XỬ LY THỜI GIAN THỤC 59
5.1 Tổng quan kiến trúc hệ thống ¿¿2+++2++++22v++rtttvvvveerrxee 59
5.2 Xử lý stream c St tt HH HH2 0101121021001 re 60
5.3 Kiến trúc MicrOSerViCes -2222c222222 2222222211122 2211 cetrtkeccri 61
5.4 Container hóa các mô đun - - + 5+ rverererxerrrrerrrerkrrrrrrrver 61
5.5 Quá trình xây dung hệ th6ng ccccccssesssssseessssssesesssseessssssseesssseesesssseeesesssecsed 62
5.5.1 | Xây dựng Tiện ích trên trình duyỆt - - - + +©++++c+c+<<++ 62 5.5.2 Xây dựng Bộ phận xử lý - cty 67 5.5.2.1 WebsoCket St HH 67
Trang 65.5.2.2 Mô đun tiền xử lý .c¿c22222ccccvvvrrerrrtrrrrrrrrrrerrrrerr 68
5.5.2.3 M6 đun mô hình.
5.5.2.4 Mô đun lưu trữ ccccccttrtetheeerereườn 69
Chương 6 KÉT LUẬN VÀ PHƯƠNG HƯỚNG PHAT TRIỄN
6.1 Các kết quả đạt được - -: 2222 222tr rrrrrrrrrrrrrrrrrrrrree 7I6.2 Các điểm hạn chế
6.3 Hướng phát triển ccc:+-2222E2222+zttttEEEEEErrrrrtrtrrrrrrrrrrrrrrrrrree 72
Trang 7Hình 1.1: Sơ đồ mô tả
Hình 3.1: Quy trình tiền xử lý dữ liệu văn bản ¿-©2c+2222+zcccccsscee 1Hình 3.2: Quy trình tiền xử lý dit liệu ảnh - -¿-2222+2222vzrsecvvvrrerrvsrrrrrr 2
Hình 3.3: Các dạng đặc trưng được sử dụng cho bài toán phát hiện tin giả tự động.
Hình 3.4: Kiến trúc mạng nơ-ron nhân tạo nhiều lớp .-: -:s2 5
Hình 3.5: Kiến trúc RNN cccccccotonnnnn2222122211 re 7Hình 3.6: Kiếm trúc LSTM -22222++2222222222+t22222221322E.EEEEEEErrrrrrrrrrrrrrer §
Hình 3.7: Kiến trúc GRU 22+©2VV++++2EE2++t222E31222221111222211 2221122221 xe 9Hình 3.8: Kiến trúc của một Khối du (Residual Bloek) - -¿-c5+ 21
Hình 3.9: Sơ đồ kế hợp đa mô hình ¿ 2+z+2E+++++2EE++zzttrvzerrrrrscee 22
Hình 3.10: Sơ đồ mô tả quá trình mô hình cập nhật chính nó trên từng mẫu mới đến
từ luồng dữ liệu liên tục -.:¿-52222+2222+222222E++tE2EEErtEEEkrrrrrrrkrrerrkrrrrrer 23
Hình 3.11: Mô tả phương pháp học chủ động . -¿ 5 5+++£+s+c+xsxsxs+ 24
Hình 3.12: Cơ chế Replay trong mạng thần kinh sinh học [39] 26Hình 3.13: Mô tả vị trí của Hồi hải mã trong não người [41]
Hình 3.14: Hoạt động của cơ chế Replay trong quá trình củng có trí nhớ trong các
giai đoạn tỉnh thức, NREM, REM . ¿552cc 28
Hình 3.15: Mô tả kiến trúc mô hình được xây dựng với cơ chế Replay 28
Hình 4.1: Mô tả phương pháp Prequential Evaluation -.- - «-«-«eccs 40
Hình 5.1: Tổng quan kiến trúc của Bộ phận xử lý -ccz+2cczxxe 60
Hình 5.2: Kiến trúc Container [57] — 62Hình 5.3: Kiến trúc của co 1 63Hình 5.4: Giao diện của tiện ích — Dữ liệu thô đã được gửi đến bộ phận xử lý và tiện
ích đang chờ đợi phản hồi 22222£222VEESS2++tt22EEESEEErrrrtttrErkvrrrrrrrrrrrrreg 65
Hình 5.5: Giao diện của tiện ích — Tiện ích hiển thị dự đoán nhận được từ bộ phận
xt LY va hai n0 no 66
Trang 8Hình 5.6: Giao diện của tiện ích — Sau khi người dùng thao tác, phản hồi sẽ được
gửi về bộ phận xử lý và bài viết sẽ được đánh đấu theo nhãn tương ứng 66
Trang 9DANH MỤC BANG
Bang 4.1: Mơ tả thuộc tính bộ dữ liệu ReINTEL public trạn . - 31
Bang 4.2: Hướng dẫn gán nhãn cho bộ dữ liệu FEvent - : -¿-5:c55+2 32
Bang 4.3: Mơ tả thuộc tính bộ dữ liệu FEvenI - ¿-¿- 55+ 5<5++++++c+ecx+ 33
Bang 4.4: Chia dữ liệu các sessions trong quá trình thực nghiêm 37
Bảng 4.5: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G được khởi tạo trong quá trình huấn luyện (trên bộ dữ liệu ReINTEL 2020) 41
Bảng 4.6: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G là PhoW2V (trên bộ dữ liệu Re[NTEL 2020) -+- +©«=++s+s+e 42
Bảng 4.7: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G 1a phoBERT (trên bộ dit liệu Re[NTEL 2020) -.- ¿+ + +c+x+xsvcvrvxsee 43
Bảng 4.8: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng ảnh (trên
bộ dữ liệu ReINTEL 2020) ¿+ ¿+ 55+ E*+k£k*EEEVEEEkEkEEET HH0 g1 rưy 43
Bảng 4.9: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng metadata
và tên người dùng (trên bộ dữ liệu ReINTEL 2020) „44
Bảng 4.10: Kết quả hiệu xuất phân loại của các mơ hình sử dụng kết hợp nhiều đặc
trưng (trên bộ dữ liệu ReINTEL 2020) - + ¿2-6 2 £+£+£++k+EeEekerrkekererre 45
Bang 4.11: Kết quả hiệu suất các mơ hình khi trong quá trình khởi tạo (trên bộ dữ
I9)85{0060500202000600606ẺSẺẺa1ạ 46
Bảng 4.12: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G được khởi tạo trong quá trình huấn luyện (trên bộ dữ liệu EEvent) 47
Bảng 4.13: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G là PhoW2V (trên bộ dữ liệu FEvent) - 5-55 525+552cccsccsxzxsrrrre 47
Bảng 4.14: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản
cĩ G là phoBERT (trên bộ dữ liệu FEvent) 48
Bang 4.15: Kết quả hiệu xuất phân loại của các mơ hình sử dung đặc trưng ảnh (trên
49
bộ dữ liệu FEvent).
Bảng 4.16: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng metadata
Trang 10Bảng 4.17: Kết quả hiệu xuất phân loại của các mô hình sử dụng kết hợp nhiều đặc
trưng (trên bộ dữ liệu FEVeII() - - 6 +5 3E EvEvEEESkEkEkrkrkrrrekekrkrkrkrkrerrre 53
Bang 4.18: Hiệu xuất của mô hình PhoBERT+TextCNN trên bộ dữ liệu
ReINTEL2020 qua các dạng bộ nhớ tạm - ¿+ + 25+ 5++++£‡£e£srzxzxsrerrx 56 Bảng 4.19: So sánh mô hình Online và Offline của các mô hình đơn lẻ trên bộ dữ
II )85{006020920200000ẺĐ88a.A 58
Bang 5.1: Mô tả các hàm xử lý chính trong Tiện ích Chrome - 64
Bảng 5.2: Giới hạn tài nguyên và thứ tự khởi chạy của các thành phần trong hệ
Trang 11DANH MỤC TU VIET TATSTT Tên thuật ngữ Chú thích
BERT Bidirectional Encoder Representations from
' Transformers
2 | BiGRU Bidirectional Gated Recurrent Unit
3 | BiLSTM Bidirectional Long Short Term Memory
4 | CNN Convolutional Neural Network
5 |HD Independent and Identically Distributed
6 |MLP Multilayer Perceptron
7 |NLP Natural Language Processing
8 | NON-IID Non - Independent and Identically Distributed
9 | RGB RGB là viết tắt của “red, green, va blue”
10 | RNN Recurrent Neural Network
11 | SVM Support Vector Machine
J2 TextCNN Convolutional Neural Network for Text
Classification
13 URL Uniform Resource Locator
Trang 12TÓM TÁT KHÓA LUẬN
Với sự nở rộ bùng né của của những trang mạng xã hội tại Việt Nam, người
dùng đã có một nơi đề dễ dàng tiếp nhận, chia sẻ các nội dung, thông tin, cũng như
chức năng kết nối mọi người Tuy nhiên, với các đặc tính như nặc danh, lan truyền
thông tin nhanh cũng đã “tiếp tay” cho vấn nạn tin giả, tin tức thiếu tính tin cậy.Chính vì lượng thông tin sai lệch được lan truyền khắp nơi đó, nó sẽ ảnh hưởng đếnđời sống và an toàn của cá nhân con người và các tổ chức
Với mục đích khắc phục hiện tượng trên, khóa luận này đề xuất một hệ thống
có thé hỗ trợ phát hiện các tin tức không đáng tin cậy đồng thời cập nhật chính bản
thân nó liên tục theo thời gian thực trong quá trình sử dụng mạng xã hội của người
dùng Hệ thống được xây dựng theo kiến trúc Microservices dudi dạng các
container Điều này tối ưu hóa các thao tác khi triển khai, vận hành và bảo trì Mô
hình đóng vai trò là bộ não của hệ thống được xây ứng dụng kỹ thuật Học trựctuyến lên các mô hình học sâu giúp mô hình có thé tự cập nhật liên tục thích ứng
với sự thay đổi của xu hướng dữ liệu
Quá trình thực nghiệm được diễn ra trên hai nguồn dữ liệu là ReINTEL2020
và FEvent — bộ dữ liệu chúng tôi tự thu thập và các mô hình sẽ được so sánh hiệu
suất dựa trên các tiêu chí như khả năng học kiến thức mới, khả năng lưu trữ kiến
thức cũ và hiệu suất tổng thể Các dang bộ nhớ tạm thời sẽ được áp dụng để thực
hiện cơ chế Replay Mô hình tốt nhất trên đặc trực văn bản là TextCNN sử dụng đặctrưng văn bản được đã được biến đổi bằng phoBERT trên bộ dữ liện ReINTEL2020với flnews Flan» ƒ1pase lần lượt là 0.5997, 0.9143, 0.9840 Còn đối với bộ dữ liệu
FEvent, mô hình TextCNN sử dụng đặc trưng từ PhoW2V - Word Embedding được
huấn luyện trước cho hiệu suất học kiến thức mới tốt nhất với ƒ1„¿„ bằng 0.7166
trong khi mô hình cho khả năng ghi nhớ tốt nhất là PhoBERT kết hợp với BiGRU
với ƒ1pase bằng 0.9818
Các dạng mô hình còn lại cho thấy sự không ồn định trong ngữ cảnh được
huấn luyện trực tuyến Dạng mô hình được chọn để triển khai cần phải có sự hài
hòa giữa hiệu suất phân loại và chỉ phí tính toán
Trang 13Nhìn chung, mô hình được huấn luyện Offline có thể bỏ đưa ra các dự đoánkhông chính xác đối với dữ liệu trong tương lai (khi mà phân bó có sự thay đồi) vàđiều này đã được cải thiện bằng việc sử dụng các mô hình Online.
Từ kết quả của đề tài chúng tôi hy vọng sẽ cải hiện được vấn nạn tin giả trênnền tảng mạng xã hội Việt Nam, mang lại cho người dùng một cách nhìn khách
quan khi trải nghiệm mạng xã hội và giúp họ có một không gian mạng an toàn hơn.
Trang 14Chương 1 GIỚI THIỆU
1.1 Cấu trúc khóa luận
Khóa luận sẽ được trình bày thành 6 chương với các nội dung chính cụ thể
như sau:
¢ CHUONG | - GIỚI THIỆU: Sơ lược về thực trạng mạng xã hội hiện nay và
tính cần thiết của dé tài Định nghĩa về bài toán và các chủ thé liên quan
e_ CHƯƠNG 2 - CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Giới thiệu các
công trình nghiên cứu liên quan trên thế giới và ở Việt Nam từ đó phân tíchcác ưu nhược điềm dé dé ra phương hướng giải quyết
e CHUONG 3 - PHƯƠNG PHÁP HỌC SÂU TRỰC TUYẾN: Giới thiệu về
các phương pháp Học sâu sử trong bài toán nhận nhiện độ tin cậy của thông
tin mạng xã hội Giới thiệu về phương pháp Học trực tuyến, hiện tượngCatastrophic Forgetting và giải pháp Replay dựa trên cơ chế củng cố trí nhớcủa hệ thần kinh sinh học
se CHƯƠNG 4- THỰC NGHIỆM SO SANH HIỆU XUẤT CÁC MÔ HÌNH:
Mô tả thiết kế thí nghiệm, bộ dữ liệu, các phương pháp đánh giá và phân tíchkết quả hiệu suất các mô hình
s- CHƯƠNG 5 - XÂY DUNG HE THONG XỬ LY THỜI GIAN THỰC: Giới
thiệu về kiến trúc hệ thống, các nguyên lý dùng đề xây dụng hệ thống và cácbước xây dựng hệ thống
¢ CHƯƠNG 6- KET LUẬN VÀ HƯỚNG PHÁT TRIÊN: Tổng kết các kết
quả đạt được về ưu nhược điểm và đưa ra các hướng phát triển của đề tài
trong tương lai.
Trang 15dùng có được một không gian dé có thê tiếp nhận cũng như chia sẻ thông tin mộtcách tiện lợi, nhanh chóng và dễ dàng Khác biệt với các phương tiện truyền thôngtruyền thống (sách báo, radio, TV, ), dé liệu mạng xã hội mang những đặc điểmriêng của nó Chúng chứa được khối lượng thông tin lớn và lượng thông tin mớiđược tạo ra có tính liên tục theo thời gian thực, đa dạng, phổ biến nhanh và tính mở
của các nguồn tin Những đặc điểm trên đang mang lại những lợi ích to lớn cũng
như nâng cao trải nghiệm của người dùng mạng xã hội Nhưng cũng chính vì các
đặc điểm đó đã góp phần khiến cho các trang mạng xã hội trở thành một không gian
vô cùng nguy hiểm Tính liên tục và lưu lượng lớn của dữ liệu đã làm cho hiệntượng thông tin không có tính tin cậy hay còn được gọi là tin giả xảy ra với tần suấtlớn và tràn lan Tính mở cũng như tốc độ lan tỏa cũng đã giúp cho các tin tức sailệch này bị lan truyền đi một cách nhanh chóng và tính an danh và đa dạng nguồn
tin đã khiến chúng trở trên rất khó dé kiểm duyệt, truy vết Nếu lượng thông tin
thiếu tính tin cậy đó không được ngăn chặn kịp thời, những hậu quả vô cùng phức
tạp và khôn lường sớm muộn cũng sẽ xảy ra.
Đối với người dùng sử dụng mạng xã hội phô thông, việc tiếp cận thông tinsai lệch có thể làm giảm sự tin cậy và an toàn trong cuộc sống của họ, cũng như gây
ra những tác động tiêu cực đến hanh vi và sức khỏe tinh thần Ngoài ra, các thông
tin sai lệch mang tính kích động thường được các tổ chức, cá nhân có mục đích xấu
sử dụng như một công cụ để gây chia sẽ, thao túng dư luận, và thổi phồng nhữngvấn đề nhạy cảm gây mâu thuẫn giữa các nhóm và cá nhân Không chỉ những người
dùng phô thông mà ngay cả các nhà kiểm duyệt nội dung cũng phải đối mặt với cácthách thức và khó khăn khi đối mặt với tin giả Họ phải đối mặt với một lượng tin
tức không lồ trên mạng xã hội, điều này khiến cho việc kiểm duyệt trở nên phức tạp
và tiêu tốn nhiều thời gian, công sức Tin giả còn có thể “ngụy trang” thành tin thật,cho nên việc bỏ sót chúng là điều hoàn toàn có thể xảy ra Cuối cùng, việc kiểm
duyệt yêu cầu một lượng kiến thức và kinh nghiệm phong phú trong việc đối mặt
với tin giả.
Trang 16Các công trình nghiên cứu về chủ đề này hiện nay đã đưa ra rất nhiều giảipháp đề giải quyết với vấn đề trên, song, chúng chỉ tập trung vào việc tối ưu bàitoán phân loại bằng các mô hình học máy, học sâu trên bộ dữ liệu sẵn có Thêm vào
đó, chưa có một công cụ cụ thé nào được đưa ra dé phục vụ các nhu cầu liên quancho người dùng mang xã hội phổ thông cũng như các nhà kiểm duyệt nội dung
Nhận biết được tỉnh nguy cấp của vấn đề, luận văn này đề xuất một hệ thống đánh
giá tự động độ tin cậy của các bài đăng tin tức trên mạng xã hội theo thời gian thực
đồng thời học và thích nghi được khi dữ liệu có sự thay đổi Qua đó, người dùng sẽ
có sự cân nhắc cũng như cái nhìn khách quan hơn khi tiếp cận các bài đăng tin tức
trên mạng xã hội, mang lại một môi trường mạng xã hội an toàn hơn.
1.3 Tổng quan về tin giả và bài toán đánh giá độ tin cậy của tin tức
1.3.1 Khai niệm tin giả
Khái niệm “tin giả” là một khái niệm tương đối mới và đã được định nghĩatheo nhiều các khác nhau
Theo từ điển Oxford: "Tin giả là thông tin sai sự thật được phát sóng hoặcxuất bản dưới dạng tin tức nhằm mục đích lừa đảo hoặc có động cơ chính trị.”
Facebook cũng đã đưa ra định nghĩa của họ về thông tin sai lệch trên mạng
xã hội trong tiêu chuẩn cộng đồng: “Thông tin sai lệch là nội dung chứa tuyên bố
mà bên thứ ba đáng tin cậy xác định là sai sự thật Tin đồn không thể xác minh là
tuyên bố mà đối tác chuyên môn tại nguồn xác nhận là rat khó hoặc không thé truy
vết, trong trường hợp không có nguồn tin đáng tin cậy, nội dung tuyên bố không đủ
cụ thé dé vạch trần hoặc tuyên bố đó đáng ngờ/phi lý đến mức khó tin.”
Tuy nhiên, để có cái nhìn nhất quán về khải niệm này, Cục Phát thanh,truyền hình và thông tin điện tử đã định nghĩa “tin giả” như sau: “Tin giả trên không
gian mạng là những thông tin sai sự thật được cố ý đăng tải, lan truyền nhằm mụcđích không chính đáng gây hiểu lầm cho người đọc, người xem hoặc những thông
tin có một phần sự thật nhưng không hoàn toàn chính xác do không được kiểm
Trang 17chứng, xác minh hoặc bị phóng đại, suy diễn, làm thay đổi bản chất của sự việc,thường xuất hiện đưới dạng tin tức và được lan truyền chủ yếu trên mạng xã hội”.
1.3.2 Tổng quan về bài toán đánh giá độ tin cậy của tin tức
Bài toán đánh giá độ tin cậy của tin tức hay phát hiện tin giả trên mạng xã
hội có thể được định nghĩa cụ thé là tác vụ tìm kiếm và xác định các nội dung trên
mạng xã hội là “tin cay” hay “không tin cay.”
Tin cậy/Tin thật
Nội dung văn bản, ảnh
minh họa, thông tin
tương tác, nguồn tin,
Mô hình phân loại
tác giả, các sự thật và các thông tin trực quan cũng như xã hội của tin tức dựa trên
nhận biết xã hội và tư duy, kinh nghiệm của người điểm duyệt Khi áp sử dụngphương pháp tự động, tin giả sẽ được nhận biết bằng cách áp dụng các mô hình học
máy, học sâu khác nhau tùy theo hoặc kết hợp các đặc trưng của tin tức nhưng chủyếu có thê phân loại thành hai nhóm chính là: nội dung và ngữ cảnh xã hội
1.3.2.1 Phát hiện tự động dựa trên nội dung
Đánh giá tính tin cậy của tin tức mạng xã hội dựa trên nội dung nghĩa là sử
dụng các thành phần như nội dung văn bản, hình ảnh mô tả của mau tin dé đưa ra
dự đoán Đối với nội dung văn bản, bài toán trên có thể xem như một bài toán phân
loại văn bản Tương tự, đối với hình ảnh mô tả, bài toán có thể được tiếp cận dưới
Trang 181.3.2.2 Phat hiện tự động dựa trên ngữ cảnh xã hội
Phát hiện tin giả dựa vào ngữ cảnh xã hội nghĩa là sử dụng các thông tin liên
quan đến lượng tương tác, các thông tin công khai của người dùng và nguồn tinnhư: lượt thích, lượt chia sẻ, số lượng bình luận, tên nguồn tin, thời điểm đăng tin, để phân loại Tất cả thông tin trên đều có thể được sử dụng dưới dạng đặc trưng
dau vào cho các mô hình học máy và học sâu.
Trang 19Chương 2 CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN
2.1 Các công trình nghiên cứu về phát hiện tin giả trên thế giới
Công cuộc phát hiện và ngăn chặn tin giả là một bài toán được quan tâm trong
cộng đồng các nhà nghiên cứu toàn cầu Hiện nay, trên thế giới đã có rất nhiều công
trình nghiên cứu được đưa ra đề giải quyết bài toán phát hiện tin giả với đa dạng cácphương pháp và đặc trưng đầu vào
Hướng tiếp cận chủ yếu hiện nay phân loại dựa vào các đặc trưng văn bản
bằng các kiến trúc học sâu như RNN va CNN [1], [2], [3] [4], [5] hoặc phức tạphơn là các mô hình dạng Transformer [6], [7] Để tăng cường hiệu suất, đã có
những hướng tiếp cận kết hợp đặc trưng văn bản với các đặc trưng khác như
metadata sử dụng MLP, SVM và hình ảnh với Transfer learning hoặc CNN Các
phương pháp học kết hợp khác nhau cũng đã được sử dụng để xây dựng mô hìnhkết hợp nhiều đặc trưng đầu vào như Boosting hay Multimodal [6], [7] [8]
2.2 Cac công trình nghiên cứu về phát hiện tin giả tại Việt Nam
Tại Việt Nam, đã có những nỗ lực nghiên cứu đóng góp vào công cuộc giảiquyết bài toán tin giả
Năm 2020, cuộc thi ReINTEL Challenge [9] đã được tổ chức với bài toán đặt
ra là xác định tính tin cậy của tin tức trên mạng xã hội kèm theo đó, cuộc thi cũng
đã đưa ra một bộ dữ liệu các bài đăng tin tức trên mạng xã hội với đa dạng đặc
trưng như văn bản, hình ảnh và các thông tin về lượt tương tác Qua cuộc thi, đã cónhiều giải pháp được đưa ra dưới dạng mô hình đơn hoặc mô hình kết hợp sử dụng
các phương pháp tốc nhất hiện nay như PhoBERT [10], [11], [12], [13] vàbert4news [10], [12], cho nội dung văn bản tiếng Việt, và MLP, SVM [11], [12],[13] cho các đặc trưng về metadata và các phương pháp kết hợp như Boosting [13],Multimodal [11], [12] với kết quả ROC-AUC của đội đứng đầu là 0.9521
Một nghiên cứu khác của các sinh viên Đại học Đà Nẵng [14] cũng đã mô tảtổng quan các vấn đề liên quan đến bài toán và đề xuất phương pháp tự động phát
Trang 20hiện dựa trên đặc trưng văn bản và đặt được kết quả F1-Score cao nhất với kiến trúc
RNN là 0.77 trên bộ dữ liệu lĩnh vực chính trị và 0.73 trên bộ dữ liệu lĩnh vực
Covid-19.
2.3 Các vấn đề còn tồn tại và phương hướng giải quyết của khóa luận
2.3.1 Các vấn dé còn tồn tại
Các nghiên cứu liên quan cho thấy các tác giả đã kết hợp nhiều dạng kiến
trúc mô hình khác nhau cho nhiêu loại đặc trưng khác nhau để giải quyết bài toán.Mỗi đặc trưng đều có thể đóng một vai trò quan trọng khác nhau trong việc phát
hiện tin giả cũng như đều có thể cải thiện của mô hình nhận diện khi chúng được
kết hợp với nhau Tuy nhiên, cho đến thời điểm hiện tại, các mô hình mà các nghiêncứu liên quan đưa ra chỉ tập trung vào việc tối ưu hóa hiệu suất của mô hình phân
loại trên bộ dữ liệu hiện có Điều này khiến chúng trở nên bị phụ thuộc vào dữ liệu
sử dụng cho quá trình huấn luyện và kiểm thử nghĩa là chỉ thể hiện tốt trên tập dữliệu huấn luyện/kiểm thử của thời điểm hiện tại Điều này có thê dẫn đến việc nhậndiện sai hoặc bỏ sót một số tin tức quan trọng do mô hình không thé cap nhat chinh
nó ngay khi dữ liệu có xu hướng thay đổi
Tin tức trên mạng xã hội là một dạng dữ liệu đặc biệt và có tính thay đổi xu
hướng theo thời gian Chang hạn như các tin tức nóng trên mạng xã hội thường chi
ram rộ trong một khoảng thời gian nào đó trước khi bị “chiếm sóng” bởi một sựkiện nóng khác Điều này đòi hỏi các mô hình nhận diện tin giả phải có khả năng
thay đổi, thích nghi, đáp ứng tùy thuộc vào sự thay đổi của xu hướng dữ liệu tin tức,
khiến cho việc nhận diện tin giả càng thêm phần thách thức
Hơn nữa, phát hiện được tin giả là một hành động đòi hỏi sự đáp ứng tức thời
vì tin tức sai lệch thường có đặc tính lan tỏa nhanh một cách chóng mặt và có thể
gây ra những ảnh hưởng tiêu cực đến cộng đồng trong thời gian ngắn Vì vậy, đápứng được nhu cầu nhận diện tin giả đúng và tức thời cũng là một thử thách mà bài
toán đặt ra.
Trang 212.3.2 Mục tiêu của đề tài
Để đáp ứng dược nhu cầu ngày càng tăng của việc phát hiện tin giả trênmạng xã hội, thông qua nghiên cứu này, chúng tôi xây dựng một hệ thống nhận biếttính tin cậy của tin tức một cách chính xác theo thời gian thực đồng thời có thé thích
nghỉ với các thay đổi về xu hướng dữ liệu tin tức trên mạng xã hội mà vẫn có thểđám bảo tính gọn nhẹ, tốc độ xử lý
Kế thừa các ưu điểm mà các nghiên cứu đi trước đã đạt được cũng như giải
quyết những hạn chế đang phải đối diện, chúng tôi đặt ra các mục tiêu cho đề tài
như sau:
e _ Xây dựng các mô hình phát hiện tin giả thông qua việc áp dụng các kiến trúc
mô hình học sâu hiện đại và kết hợp sử dụng nhiều dạng đặc trưng để đạt
được hiệu suất tốt nhất
© Mô hình hoạt động trong hệ thống có thé thích nghỉ với các thay đổi về xu
hướng dữ liệu đồng thời có thể lưu giữ lại những tri thức cũ đã được họcbằng cách áp dựng phương pháp Học trực tuyến (Online Learning)
e Hệ thống được tạo ra phải đảm bảo sự gọn nhẹ, và tốc độ xử lý để có thể
hoạt động trên môi trường đám mây hoặc môi trường có tài nguyên hạn chế
Chúng tôi hy vọng đề tài sẽ giải quyết được các vấn dé đang ngày càng trở
nên nghiêm trọng trong công cuộc phòng chống tin giả trên mạng xã hội, mang lại
cho người dùng một mạng xã hội một không gian mạng an toàn và lành mạnh.
Trang 22Chương 3 PHƯƠNG PHAP HỌC SÂU TRỰC TUYẾN
kích thước, kiểu và dạng dữ liệu phù hợp mà kiến trúc mô hình yêu cầu Các dạng
dữ liệu khác nhau sẽ có các phương pháp tiền xử lý đặc thù cho dang dữ liệu đó
3.1.1 Tiền xử lý dữ liệu văn bản
Văn bản thô
Chuẩn hóa Bỏ
viết thường stopwords
Hình 3.1: Quy trình tiền xử lý đữ liệu văn bản
Văn bản bài đăng trên mạng xã hội thông thường sẽ được viết dưới dạngngôn ngữ giao tiếp, thông dụng, gần gũi với người đọc Các thành phần đặc biệt như
từ viết tắt, biểu tượng cảm xúc, đường dẫn thường được sử dụng dé tăng tính tươngtác, tính sinh động cho bài viết và dễ dàng gửi gắm thông điệp Trong nghiên cứu
này, các yếu té trên cần phải trải qua các bước lần lượt:
© Loại bỏ biểu tượng cảm xúc: Các biểu tượng cảm xúc thường được dùng dé
bổ sung cảm xúc cho văn bản nhưng nó cũng có thể là thành phần gây nhiễu
© Loại bỏ đường dẫn và URLs: Trong dữ liệu văn bản của các bài viết trên
mạng xã hội thường bao gồm các đường dẫn và URLs Những thành phần
này thường vô nghĩa đối với các thuật toán và có vai trò như một điểm gây
nhiều.
Trang 23¢ Chuan hóa thành kiểu viết thường: Dữ liệu văn bản thường bao gồm cả chữ
hoa lẫn chữ thường Điều này có thé hạn chế hiệu suất của các mô hình
© Tach từ: Dữ liệu văn ban sẽ được chia thành các từ cầu thành bằng cách gom
nhóm các từ đơn liền kề thành các cụm từ có nghĩa Công đoạn này được
thực hiện bằng cách sử dụng VnCoreNLP [17] một công cụ tách từ dành chocác bài toán NLP tiếng Việt
© Loại bỏ từ dừng: Từ dừng (trong tiếng Anh là “sopwords”) là các từ có tan
suất xuất hiện nhiều và không đóng góp vào ý nghĩa của văn bản, chúng sẽ
đóng vai trò như thành phan gây nhiễu Các từ này sẽ được loại bỏ dé giảm
thiểu hiện tượng đữ liệu gây nhiễu và cả hiện hiệu suất mô hình phân loại
3.1.2 Tién xứ lý dữ liệu ảnh
Véc-tơ ảnh
Hình 3.2: Quy trình tiền xử lý dữ liệu ảnh
Ảnh minh họa trên mạng xã hội thường mang nhiều hình dạng cũng như kíchthước khác nhau, thậm chí có những bài viết còn không đính kèm theo ảnh Vì vậy
trước khi được đưa vào mô hình dé trích xuất đặc trưng, ảnh thô cũng phải được traiqua các bước tiền xử lý Các bước cụ thể gồm:
e Tải ảnh: Tùy thuộc vào bộ dữ liệu cũng như dạng dữ mà dữ liệu ảnh đính
kèm sẽ ở các dạng khác nhau như đường dẫn hoặc tệp tin Nếu ở dạng đườngdẫn thì phải được tải về từ Internet trước khi chuyển sang các thao tác kế
Trang 24tiếp Việc này có thé thực hiện bằng thư viện requests! va pillow trong
Python Ảnh bị khuyết sẽ được điền bằng một bức ảnh trắng
© Chuan hóa mã màu: Ảnh khi được tải về sẽ bao gồm nhiều định dạng mã
màu khác nhau Dé đảm bảo tính đồng bộ về kênh màu giữa các ảnh, ảnh sẽ
được chuẩn hóa mã màu ở định dạng RGB
e Chuẩn hóa kích thước 256 x 256: Kích thước của ảnh trong bộ dữ liệu có thể
thay đổi và không đồng nhất, do đó chúng ta cần thay đổi kích thước của ảnh
đến một kích thước đồng nhất đề thuận tiện cho việc xử lý Trong trường hợp
này, chúng tôi resize ảnh thành kích thước 256 x 256.
© Chuyên thành dạng véc-tơ: Dé có thé sử dung đề cập nhật tham sé mô hình
và dự đoán, ảnh phải được chuyển đổi thành dạng các véc-tơ số thực (có kích
thước 3 x 256 x 256) Công đoạn này có thể thực hiện bằng các thư viện
Python như Numpy? hoặc PytorchŸ.
e_ Chuẩn hóa anh: Để cho việc tính toán trở nên hiệu quả, dễ dàng và tiết kiệm
chi phí, ảnh sẽ được chuẩn hóa về khoảng [0, 1] bằng các chia các véc-tơ anh
cho giá trị 255.
3.1.3 Tiền xử lý metadata
Dữ liệu metadata ở nhiều dạng hỗn loạn khác nhau, để đưa vào mô hình thì
chúng phải trải qua các giai đoạn xử lý nhằm đưa về dạng thích hợp Quá trình tiền
xử lý dữ liệu metadata trải qua các bước sau:
© Chuyên đổi các thông tin về dạng số: Dữ liệu Metadata mang các thông tin
như lượt tương tác thường nằm ở nhiều kiểu dữ liệu khác nhau hoặc thậm chí
bị khuyết Ví dụ: “IK bình luận”, 10, “1,4K người đã thích”, Các thông
1 https://requests.readthedocs.io/en/latest/
? https://numpy.org/
3 https://pytorch.org/
Trang 25tin dang này sẽ được trích xuất về dang số sử dụng biểu thức đặc trưng thông
qua thư viện re* Các thông tin bị khuyết sẽ được điền là 0.
© _ Trích xuất các thông tin về thời gian: Các dữ liệu như ngày trong tuần hoặc
giờ sẽ được trích xuất từ dữ liệu dạng timestamp có trong metadata Thư viện
datetime sẽ giúp ích trong quá trình này.
© Chuan hóa bằng log scale: Đôi khi dữ liệu metadata sẽ có phân bố rất lớn
hoặc rất nhỏ không đều nhau, điều này tác động đến khả năng tính toán và
đưa ra dựa đoán của mô hình Trong trường hợp này, các dữ liệu sẽ được
chuẩn hóa bởi ham log dé đưa về một phạm vi giá trị cố định (dữ liệu sẽ
được cộng thêm một lượng rất nhỏ để tránh trường hợp tính log của giá trị
0).
3.1.4 Tiền xử lý tên người dùng
Đề đảm bảo sự bảo mật danh tính của nguồn tin, trước khi được sử dụng để
cập nhật mô hình, các id tên người dùng sẽ được đưa vào một hàm băm Giá trị của hàm băm sẽ được sử dụng cho các bước xử lý sau.
3.2 Phương pháp học sâu
Học sâu (hay Deep Learning) là một phương pháp học máy tiên tiến dựa trên
mạng nơ-ron nhân tạo cho phép mô hình học được các đặc trưng phức tạp từ những
dạng dữ liệu phức tạp Trong những năm trở lại đây, phương pháp học sâu đã thể
hiện được hiệu suất của mình trong tác vụ đánh giá độ tin cậy của tin tức Trong
nghiên cứu này, các dạng mô hình học sâu khác nhau sẽ được sử dụng đơn lẻ hoặc
kết hợp trên những đặc trưng sau: nội dung văn bản của tin tức, hình ảnh minh họacủa tin tức, thông tin số liệu liên quan và nguồn tin
+ https://docs.python.org/3/library/re.html
Trang 26Phát hiện tin giả
Hình 3.3: Các dạng đặc trưng được sử dung cho bài toán phát hiện tin gia tự động.
3.2.1 Mạng nơ-ron nhiều lớp (Multilayer Perceptron)
Mạng nơ-ron nhiều lớp hay mạng Perceptron nhiều lớp (MLP) là một dạng
mô hình học sâu đơn giản nhất cho các bài toán học có giám sát Một mạng nơ-ron
nhiều lớp bao gồm nhiều lớp (layer) là tập hợp của một hoặc nhiều nơ-ron, có 3
dạng lớp chính là lớp đầu vào, lớp ân và lớp đầu ra
Hidden Input Output
Ja >)
Trang 273.2.2 Đặc trưng dữ liệu văn bản
Đặc trưng văn bản nội dung trong bài toán phân loại tin giả có thể được xử lý
như tác vụ phân loại văn bản thông thường Văn bản có thể được biến đổi thànhdạng véc-tơ đặc trưng sau đó đưa vào mô hình phân loại Để trích xuất đặc trưng từ
văn bản tin tức, chúng tôi sử dụng hai phương pháp là Word Embedding và
PhoBERT embedding.
Word Embedding là phương pháp trích xuất đặc trưng dữ liệu văn bản bằngcách biểu diễn các từ dưới dạng các vector đặc trưng trong không gian đa chiều.Các từ mang ý nghĩa tương đồng nhau sẽ có vị trí gần nhau trong không gian này
BERT [18] (hay Bidirectional Encoder Representations from Transformers)
là một mô hình ngôn ngữ sử dụng kiến trúc Transformer dé hoc các cho các từ và
câu BERT là một trong những dạng mô hình hiện đại nhất trong lĩnh vực NLP.PhoBERT [19] là một phiên bản của BERT được tối ưu hóa để sử dụng cho dữ liệutiếng Việt Đặc trưng văn bản trích xuất được thông qua PhoBERT có thể được sử
dụng để giải quyết trong nhiều bài toán khác nhau
Sau khi được trích xuất bằng các phương pháp kê trên, các đặc trưng này sẽ
được sử dụng làm đầu vào cho các mô hình học sâu có trách nhiệm phân loại văn
bản Trong nghiên cứu này, chúng tôi sử dụng ba loại mô hình là BiLSTM, BiGRU
và TextCNN BiLSTM (hay Bidirectional Long Short-Term Memory) và BiGRU
(Bidirectional Gated Recurrent Units) là các kiến trúc mô hình học sâu dựa trên
kiến trúc mạng nơ-ron hồi quy (RNN - Recurrent Neural Networks) Mô hình dangnày có khả năng nắm bắt được các phụ thuộc xa, đồng thời có thể nhìn nhận ngữcảnh theo hai chiều (nhờ vào kiến trúc Bidirectional [20]), nên thường được sử dụng
để giải quyết các tác vụ phân loại văn bản Cuối cùng, TextCNN [21] (hay
Convolutional Neural Network for text classification) là mô hình học sâu sử dụng
các kết nói tích chập dé lọc cách thông tin đặc trưng theo từng phan của văn bản
Trang 283.2.2.1 BiLSTM và BiGRU
BiLSTM và BiGRU là các dạng đặc biệt của mạng nơ-ron hồi quy RNN.Recurrent Neural Network [22] (RNN) là một dạng mạng nơ-ron đặc biệt dùng để
xử lý các dữ liệu dạng chuỗi như văn bản Với mỗi kí tự x;, RNN sẽ tạo ra đầu ra ø;
và trạng thái ân h, (mang các thông tin của văn ban từ x) đến x,) dựa trên trạng thái
an hy, trước đó Hình 3.5 Tuy nhiên cũng chính vì lý do này khiến cho RNNkhông hiệu quả trong việc xử lý các vấn đề có liên quan đến thông tin dài hạn doxảy ra hiện tượng “vanishing gradient” hoặc ”exploding gradient” khi tiến hànhtruyền ngược (backpropagated) trên chuỗi quá dài
LSTM [23] (Long Short-Term Memory) được ra đời để khắc phục các hạnchế của RNN về phụ thuộc xa Khác với RNN, LSTM có thêm các thành phần đặcbiệt như c¿, f; (cổng quên), i, (cổng vào) và o, (cổng ra) Một mạng LSTM sẽ bao
gồm nhiều tế bào LSTM (LSTM Cell)
Trang 29Tại mỗi bước t, mang LSTM sẽ chon lọc ra các tri thức quan trọng từ cạ~;
bằng công f; kết hop với h¿_; dé cập nhật c¿, tiếp theo c, sẽ được cập nhật một lần
nữa bằng các thông tin chon lọc từ đầu vào qua cổng i; kết hợp với hạ_; Trạng thái
an h, sẽ được tính thông qua trạng thái công o, kết hợp với hy_y
Tương tự LSTM, GRU [24] (Gated Recurrent Unit) cũng được ra đời dé bù
đắp vào các thiếu sót của RNN GRU đơn gián hơn LSTM do ít hơn các thành phanchi bao gồm 2 cổng là r; (cổng reset) va z¿ (cổng update) Cổng reset sẽ xác định
tầm qua trong của trạng thái an trước đó h¿_; và công update quyết định mức độ
đóng góp của trạng thái hiện tại h, trong việc tính toán hạ.
Trang 30Các kiến trúc mô hình có dạng RNN ké trên chi sử lý thông tin theo một
chiều của dé liệu Tuy nhiên các ngữ cảnh phụ thuộc trong câu trên thực tế có quan
hệ theo hai chiều Vấn đề này được giải quyết bằng kiến trúc Bidirectional [20]
trong đó thông tin sẽ được xử lý thông qua hai mạng RNN: một mạng RNN xử lý
theo thứ tự từ trước đến sau (forward), và một mạng RNN xử lý theo thứ tự từ sau
về trước (backward) Nhờ đó mà các ngữ cảnh phụ thuộc trong chuỗi văn bản sẽ
được nhìn nhận theo hai chiều
3.2.2.2 TextCNN
Mô hình TextCNN [21] (Convolutional Neural Network cho dữ liệu văn ban)
là một dạng mô hình thông dụng trong các tác vu xử lý ngôn ngữ tự nhiên, đặc biệt
là trong bài toán phân loại văn bản.
TextCNN sử dụng các bộ lọc tích chập trên các n-gram khác nhau của các từ
trong văn bản để tạo thành các đặc trưng của văn bản Thông qua việc sử dụng
nhiều bộ lọc mang kích thước không giống nhau, mô hình có thể nhận biết được cácđặc tính của văn bản ở nhiều tỉ lệ khác nhau, giúp tăng khả năng nhìn nhận và đánh
giá thông tin của mô hình Sau khi bộ lọc tích chập được áp dụng kết quả sẽ đượctruyền qua một lớp pooling (có thé là max-pooling hoặc average-pooling) dé thu
Trang 31thập các giá trị quan trọng nhất Sau đó, các đặc trưng được trích xuất này sẽ đượcđưa vào một MLP dé phân loại.
3.2.3 Đặc trưng dữ liệu ảnh minh họa
Hình ảnh minh họa là một đặc trưng quan trọng thể hiện nội dung của tin tứcmạng xã hội Việc trích xuất đặc trưng hình ảnh có thé được thực hiện bằng các mô
hình với kiến trúc CNN, tuy nhiên một số nghiên cứu đã chỉ ra rằng, các mô hìnhhọc chuyển được huấn luyện trước (pretrained) có thể trích xuất được các đặc trưng
chung cho các tác vụ phân loại hình ảnh khác nhau [25], [26] Một số kiến trúc môhình có dạng CNN được huấn luyện sẵn có hiệu suất tốt trong việc trích xuất đặc
trưng có thé ké đến như VGG [27] và Resnet [28] Tuy nhiên, so với VGG, Resnet
lại có lượng tham số nhỏ hơn, đảm bảo tính gọn nhẹ trong khi hiệu suất không quáchênh lệch [29], [30] Vì vậy đặc trưng hình ảnh sẽ được trích xuất sử bằng các mô
hình có kiến trúc Resnet được huấn luyện trước sau đó, véc-tơ đặc trưng sẽ đượctruyền vào một mạng nơ-ron đóng vai trò là bộ phận phân loại
Resnet (Residual Network) là dạng mạng nơ-ron dựa trên kiến trúc CNN,được tạo ra để khắc phục hiện tượng “vanishing gradient” trong quá trình huấn
luyện khi xây dựng các kiến trúc CNN quá sâu gây ra sự mat mát thông tin Resnet
giải quyết vấn đề này bằng cách xây dựng mô hình sử dụng các Residual Block
(tạm dịch là Khối dư)
Trang 32x + F(x)
Hình 3.8: Kiến trúc của một Khối du (Residual Block)
Các khối dư có khả năng truyền thắng dữ liệu đầu vào dé kết hợp với đầu racủa khối thông qua các lối tat (shortcut connections hoặc một số tài liệu gọi là skip
connections) Việc này sẽ chống lại hiện tượng đạo hàm bằng 0 gây nên “vanishing
gradient” cho phép tạo ra các kiến trúc mạng sâu với hiệu suất tốt hơn trong việcphân loại, nhận diện và trích xuất đặc trưng của ảnh Mô hình ResNet có nhiều biến
thể khác nhau với các độ sâu và số lượng khối Residual khác nhau
3.2.4 Đặc trưng các số liệu liên quan
Các đặc trưng về số liệu có thể kế đến như: lượt tương tác, lượt chia sẻ, lượtbình luận, ngày đăng tin, giờ đăng tin, ngày trong tuần mà tin được đăng, độ dài vănban, Các đặc trưng này sẽ được chuẩn hóa, sau đó sử dụng một mạng MLP đểtiến hành phân loại
3.2.5 Đặc trưng về nguồn tin
Nguồn tin là một thông tin quan trọng có thé quyết định tính tin cậy của mẫutin Đề theo dõi được nguồn tin nào có đáng tin cậy hay không chúng tôi sẽ biến đổi
ánh xạ mỗi nguồn tin thành một véc-tơ đặc trưng trong không gian nhiều chiều, sau
đó sử dụng MLP dé có được kết quả phân loại
Trang 333.2.6 Phương pháp kết hợp đa mô hình
Các đặc trưng mặc dù có thể được sử dụng dưới dạng các mô hình đơn lẻ,
tuy nhiên chúng lại đóng vai trò khác nhau trong việc phân loại tin tức Vì thế, việc kết hợp đa mô hình sẽ góp phan cải thiện hiệu suất phân loại tông thé.
Phương pháp kết hợp đa mô hình (hay Mulúmodal Ensemble [31]) đặc biệt
hiệu quả trong các bài toán mà dữ liệu đầu vào có nhiều dạng khác nhau (như ảnh,
âm thanh, văn bản) Bằng các kết hợp các mô hình huấn luyện trên các đặc trưng dit liệu khác nhau lại với nhau, phương pháp này có thể tận dụng được thông tin cung
cấp từ nhiều nguồn để tổng hợp thành kết quả dự đoán từ đó nâng cao hiệu quả và
độ tin cậy.
B văn bản Mô pyr loai
® Hình ảnh Mô y ¿ loại
Kết hợp trung bình có t ố
Mô hình phân loại ae
Trang 343.3 Phương pháp học trực tuyến và hiện tượng Catastrophic Forgetting
3.3.1 Dinh nghĩa Học trực tuyến cho mạng nơ-ron nhân tạo
eee BEE
F1171111111111
Lo gian ———————————
Hình 3.10: Sơ đồ mô ta quá trình mô hình cập nhật chính nó trên từng mẫu mới đến
từ luông đữ liệu liên tục.
Học trực tuyến (tiếng Anh là Online Learning) là một dạng của Học liên tục (tiếng Anh là Continual Learning) Thay vi được tối ưu trên bộ dit liệu có sẵn cố định như các phương pháp truyền thống, trong phương pháp này, mô hình sẽ được
cập nhật liên tục từ một luồng đữ liệu đến liên tục Mô hình được huấn luyện trực tuyến sẽ được cập nhật liên tục trên từng điểm dữ liệu đơn lẻ vừa đến (Xem Hình
3.10):
Online Training: < H,_+,D,,M¿_¡ > < H,,M, >
Trong đó: D = {D,, Dp, , D,} là luồng dữ liệu liên tục cho tới thời điểm t,
D, = {xp y¿} chính là điểm dữ liệu được huấn luyện tại thời điểm t, H, là mô hình
tại thời điểm t và M_t là bộ nhớ ngoài tại thời điểm t.
Việc mô hình có thé được cập nhật trên từng điểm dit liệu mới sẽ giúp cho việc thích ứng được với các thay đổi về xu hướng dữ liệu Vì vậy, đây là một hướng
đi phù hợp dé phát hiện tin giả trên mang xã hội.
3.3.2 Học chủ động
Khi áp dụng phương pháp Học trực tuyến cho bài toán này, mô hình phải
được cập nhật liên tục theo hướng học có giám sát tức là mỗi bước cập nhật yêu cầu
phải được thực hiện trên từng cặp {z;¿, y;} tương ứng là dữ liệu tin tức và nhãn (tin
Trang 35cậy/không tin cậy) Tuy nhiên dữ liên tin tức trên mạng xã hội khi được thu thập chi
chưa phan nội dung - x; chứ không chứa nhãn - y, gây ra khó khăn trong quá trình huấn luyện Phương pháp Active learning [32], [33] (học chủ động) được áp dụng
dé khắc phục van dé này Trong phương pháp này, mô hình có thé gửi truy van dé
tương tác với người dùng (hoặc truy van đến một số nguồn thông tin khác) dé gan nhãn cho các điểm dữ liệu mới Mô hình bên trong hệ thống mà luận văn này đề
xuất sẽ được cập nhật từ dữ liệu mới cũng như phản hồi của người dùng về nhãn dự
đoán hiện tại.
Dữ liệu không
nhãn
Active Learning
Huấn luyện
mô hình
Hình 3.11: Mô tả phương pháp học chủ động.
3.3.3 Catastrophic Forgetting và áp dung Replay dé khắc phục
3.3.3.1 Hién tượng Concept Dift trong dữ liệu tin tức
Trong học sâu truyền thống (Offline Learning), các dữ liệu dụng để huấn
luyện mô hình sẽ được giả định là dit liệu đồng nhất hay dit liệu iid (independent
Trang 36and identically distributed) Nghĩa là các điểm dữ liệu sẽ tuân thủ theo các đặc trưng
chung Ví dụ, đối với dit liệu văn bản, dit liệu văn bản đồng nhất nghĩa là chúng
được thu thập từ cùng một chủ đề, cùng một thé loại, cùng trong một thời điểm
tương đồng nhau Tuy nhiên, trong ngữ cảnh Học trực tuyến, không thé chắc chan điểm dữ liệu mới được đưa vào quá trình huấn luyện là đồng nhất với dir liệu cũ mà
mô hình đã được học trước đó Khi dự tiễn hành dự đoán trên dữ liệu không đồng
nhất, mô hình rất dé đưa ra các dự đoán sai Tương tự, khi ta cho mô hình học dữ liệu không đồng nhất, chúng sẽ mat khả năng dự đoán các điểm dữ liệu trên phân
phối cũ trước đó hay nói cách khác, chúng sẽ quên đi những kiến thức đã học.
Concept Dift (tạm dịch là sự thay đổi khái niệm) [34], [35] là một hiện tượng
xảy ra trong lĩnh vực Học máy và công nghệ trí tuệ nhân tạo khi mô hình tối ưu trên
dữ liệu cũ mà không được cập nhật các dữ liệu mới dẫn đến dữ dự đoán sai lệch trong kết quả dự đoán Đối với dữ liệu bài viết tin tức trên mạng xã hội có rất nhiều tác nhẫn có thé dẫn đến việc xảy ra hiện tượng thay đổi xu hướng dit liệu Nguyên
nhân thứ nhất, chủ đề tin tức khả biến theo thời gian Ví dụ khi có một sự kiện
“nóng” xảy ra, người dùng mạng xã hội thường có xu hướng quan tâm nó và các bài
viết tin tức liên quan cũng sẽ xuất hiện nhiều hơn Điều này dẫn đến các từ khóa liên quan sẽ xuất hiện nhiều hơn cũng như những bức ảnh minh họa giống nhau sẽ xuất hiện thường xuyên hơn Nguyên nhân thứ hai, độ “phủ sóng” của những tin tức này sẽ không tồn tại lâu mà sẽ bị làm cho “lu mờ” bởi các tin tức nóng mới khác
điều này dẫn đến xu hướng về chủ đề tin tức sẽ bị liên tục thay đổi Cuối cùng, một
số bài viết tin tức khi mới xuất hiện mà chưa được kiểm chứng đều được cho là tin giả, tuy nhiên sau đó chúng được xác minh là thật Điều này dẫn đến sự thay đồng không chỉ trong chủ đề dữ liệu mà còn dẫn đến sự thay đổi trong nhãn của tin tức.
3.3.3.2 Catastrophic Forgetting
Các yêu cầu của bài toán đánh giá độ tin cậy của tin tức đòi hỏi mô hình
không chỉ đáp ứng được sự thay đổi của dữ liệu mà còn có thể bảo toàn được những tri thức trước đó đã học nhằm đem lại một hiệu suất toàn diện Tuy nhiên, đối quá
Trang 37trình huấn luyện trực tuyến mạng nơ-ron nhân tạo sẽ xảy ra hiện tượng quên đi những kiến thức mà đã được học trước đó, hiện tượng này gọi là Catastrophic Forgetting Việc liên tục học những điểm dit liệu mới yêu cầu các trọng số của mô hình phải thay đổi liên tục, khi mô hình thay đổi quá nhiều sẽ dẫn đến những dự đoán sai lầm trên dit liệu cũ Hiện tượng này cũng được biết đến qua nghịch ly “én định — mềm dẻo” [36] — một van dé quan trọng trong các phương pháp học sâu cũng như trong lĩnh vực thần kinh học.
3.3.3.3 Cơ chế Replay của hệ thần kinh sinh học
Đối với động vật có vú nói chung và con người nói riêng, học tập là một khả
năng tự nhiên của hệ thống sinh học Thông quá đó, các trải nghiệm trong đời sống, các kiến thức tiếp thu được sẽ hình thành nên sự thích ứng và cải thiện hiệu suất
trong hành vi [37] Trái người với mạng nơ-ron nhân tạo, động vật cũng như con
người có thể học liên tục suốt đời tuy nhiên việc này hiếm khi khiến chúng ta quên
Trang 38Trong bộ não của động vật có vú, tồn tại một cơ chế cho VIỆC chống lại sự
lãng quên và tạo điều kiện cho việc cũng cô trí nhớ đó chính là cơ chế “Nhắc lại” hay tiếng Anh gọi là “Replay” [40] Hai bộ phận quan trọng trong não người phục
vụ cho cơ chế này chính là vùng Hồi hải mã (hay Hippocampus) và vỏ đại não (tiếng Anh là Neocortex).
Hình 3.13: Mô tả vị trí của Hồi hải mã trong não người [41].
Khi tiếp nhận một thông tin mới, Hồi hai mã sẽ tiến hành mã hóa thông tin này dưới dạng thích hợp và được tổ chức, phân bồ, lưu trữ như một phiên bản tạm thời tại vùng trí nhớ ngăn hạn Các thông tin được mã hóa sau đó được truyền tới
vùng vỏ đại não để xử lý phân tích phục vụ cho các tác vụ phức tạp như đưa ra
quyết định, suy luận và góp phan hình thành trí nhớ dài hạn [42], [43] Khi diễn ra quá trình Replay, hồi hải mã sẽ tái hiện lại các thông tin được lưu trữ và vùng vỏ não sẽ được tái kích hoạt trên các thông tin cũ này góp phần củng có kiến thức, và cải thiện khả năng ghi nhớ Quá trình Replay có thể diễn ra ở nhiều trạng thái khác nhau của hệ thần kinh như trạng thái thức, luân phiên trạng ngủ NREM [44] va REM [45] với tần suất khác nhau.
Trang 39ãmm=— mm
ÿ Synaptic
Consolidation
Active System Consolidation
Hình 3.14: Hoạt động của co chế Replay trong quá trình củng cố trí nhớ trong các
giai đoạn tỉnh thức, NREM, REM.
Encoding
Neocortex
3.3.3.4 Áp dung Replay cho mang no-ron nhan tao
Để ngăn chặn hiện tượng Catastrophic Forgetting trong quá trình học trực tuyến của mạng nơ-ron nhân tạo, đã có rất nhiều phương pháp được đưa ra tuy
nhiên cơ chế Replay đã chứng tỏ là phương pháp hiệu quả nhất [42] Lay ý tưởng từ
hệ thần kinh của động vật, kiến trúc học sâu được sử dụng cho nghiên cứu này có thé được thé hiện thành ba thành phần chính: Bộ mã hóa (G), Bộ nhớ tạm thời (M)
và Bộ phân lớp (F) (Hình 3 I5).
Bộ nhớ tạm thời
Bộ mã hóa Bộ phân lớp
Hình 3.15: Mô tả kiến trúc mô hình được xây dựng với cơ chế Replay.
Bộ mã hóa và Bộ nhớ tạm thời sẽ đóng vai trò như vùng Hỏi hải mã trong
não người, trong khi Bộ phân lớp sẽ tương ứng là vùng vỏ não Bộ mã hóa có trách
Trang 40nhiệm biến đổi đầu vào thành các đặc trưng có ý nghĩa và lưu trữ chúng và bộ nhớ
tạm thời, sau đó học từ những đặc trưng này, Bộ phân lớp sẽ học được cách đưa ra
dự đoán chính xác nhất Với từng điểm dữ liệu mới, đặc trưng sau khi trích suất sẽđược trộn với một vài hoặc tất cả các đặc trưng trong quá khứ được lưu trữ trong Bộnhớ tạm thời, góp phan củng có kiến thức và khắc phục Catastrophic Forgetting