Khóa luận tốt nghiệp Khoa học dữ liệu: Hệ thống nhận diện độ tin cậy của thông tin trên mạng xã hội Việt Nam theo thời gian thực sử dụng phương pháp học sâu trực tuyến

Với mục đích khắc phục hiện tượng trên, khóa luận này đề xuất một hệ thống có thé hỗ trợ phát hiện các tin tức không đáng tin cậy đồng thời cập nhật chính bản thân nó liên tục theo thời

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

BUI ANH KHÔI - 19520649

KHÓA LUẬN TÓT NGHIỆP

HE THONG NHAN DIỆN ĐỘ TIN CAY CUA THONG TIN TREN MẠNG XÃ HỘI VIỆT NAM THEO THỜI

GIAN THỰC SỬ DỤNG PHƯƠNG PHÁP

HỌC SÂU TRỰC TUYẾN

ONLINE DEEP LEARNING APPROACH FOR REAL-TIME

RELIABLE INTELLIGENCE IDENTIFICATION ON

VIETNAMESE SOCIAL NETWORKS

CỬ NHÂN NGANH KHOA HỌC DU LIEU

GIANG VIEN HUONG DAN

TS Đỗ Trọng Hợp

TS Nguyễn Thanh Bình

Trang 2

LỜI CẢM ƠN

Trong thời gian thực hiện luận văn tốt nghiệp này, tôi đã nhận được rất nhiều

sự giúp đỡ và hướng dẫn tận tình từ nhiều góc nhìn Tôi xin gửi lời chào đến tất cảnhững người đã hỗ trợ mình dé vượt qua khó khăn dé hoàn thành báo cáo vào năm

báu đề hoàn thành luận văn bằng thực lực của mình

Tôi cũng gửi lời cảm ơn đến những người bạn đã hỗ trợ tham gia xây dựng

bộ dữ liệu và đóng góp kết quả ở khóa luận này Nếu không có sự hỗ trợ của họ, tôi

đã không thê hoàn thành kết quả nghiên cứu

Tôi cũng muốn thể hiện sự hài lòng với bản thân mình vì đã là một học sinh

có trách nhiệm, có gắng và làm việc chăm chỉ trong hoàn cảnh căng thắng dé có thé

hoàn thành khóa luận này.

Và cuối cùng cũng là đặc biệt nhất, tôi xin gửi lời cảm ơn đến gia đình, đặc

biệt là bố mẹ vi đã luôn bên cạnh cổ vũ ủng hộ tôi Nhờ có họ tôi đã có thể vững tinbước trên con người học tập của mình và là động lực để tôi thực hiện những điều

lớn lao.

Tôi xin chân thành cảm ơn!

Tác giả

Trang 3

MỤC LỤC

Chương l GIỚI THIỆU ccccc¿222222vvvccrrrrrrrvrvcee 31.1 Cấu trúc khĩa luận -222V222++++222EEEEY+rtt2EEEEEELrrrrtrrrrrrrrrrrree 31.2 Lí do chọn đề tài 22222cc+2222222222ttEEEEEEEEErrrtttrErkkrrrrrrrrrrkrrrrrree 31.3 Tổng quan về tin giả và bài tốn đánh giá độ tin cậy của tin tức ð

1.3.1 Khai niệm tin giả

1.3.2 Tổng quan về bài tốn đánh giá độ tin cậy của tin tức 6

1.3.2.1 Phát hiện tự động dựa trên nội dung

1.3.2.2 Phát hiện tự động dựa trên ngữ cảnh xã hội - 7

Chương2 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN §

2.1 Các cơng trình nghiên cứu về phát hiện tin giả trên thé giới 82.2 Các cơng trình nghiên cứu về phát hiện tin giả tại Việt Nam

2.3 Các van dé cịn tồn tại và phương hướng giải quyết của khĩa luận 9

2.3.1 Các vấn đề cịn tồn tại -ccccscccerrrerirtrrrrrrirrrrrrri 9

2.3.2 Mục tiêu của đề tài -2222+cc222ExxtreErkrrrrrrrrrrrrrve 0

Chương 3 PHƯƠNG PHÁP HỌC SÂU TRỰC TUYẾN - 1

KG xt LY di Sẽ .4AäđädđdHHĂĂ 1

3.1.1 _ Tiền xử lý dữ liệu văn bản : +2222z+seccvverrrrrxeerrrrrrcee 1

3.1.2 Tiền xử lý đữ liệu ảnh cccccc2222222EEEEttrttrrrrrrrrer 23.1.3 _ Tiền xử lý metadata -:c5222cvvvrrrrrrrrrrvrrrrrrrrrer 3

3.1.4 _ Tiền xử lý tên người dùng .-¿ 2cc+eccvvcrrrrrvrrrrrrrrree 4

3.2 Phương pháp học sâu - - + + kề E1 H101 1111101 1.1 ty 4

3.2.1 Mạng nơ-ron nhiều lớp (Multilayer Perceptron) - 5

3.2.2 _ Đặc trưng dữ liệu văn bản - ¿+6 scsrsketekerrrkekerereree 6

Trang 4

3.2.2.1 BiLSTM và BiGRU ằ-ccccccerirrerrrrrrrerirrerer 17 3.2.2.2 TextCNN.

3.2.3 Đặc trưng dữ liệu ảnh minh họa - - ¿+ +5 +c+c+xe£erzxeese 20

3.2.4 Đặc trưng các số liệu liên quan

3.2.5 Đặc trưng về nguồn tỉn -. .2:22222c222222tSEEEEerrrrrkrrrrrrkrvee 213.2.6 Phương pháp kết hợp đa mô hình

3.3 Phương pháp học trực tuyến và hiện tượng Catastrophic Forgetting 233.3.1 Định nghĩa Học trực tuyến cho mạng nơ-ron nhân tao

3.3.2 Học chủ động ¿- - - ¿5< 5S Sx*k E12 2121111110121 1 1111 1g rhêp 23

3.3.3 Catastrophic Forgetting và áp dung Replay dé khắc phục 24

3.3.3.1 Hiện tượng Concept Dift trong dữ liệu tin tức 24

3.3.3.2 Catastrophic FOTBetting - 6s ccsteteteeirerrereree 25

3.3.3.3 Cơ chế Replay của hệ thần kinh sinh học -. 26

3.3.3.4 Áp dụng Replay cho mạng nơ-ron nhân tạo -: - 28

Chương 4 THỰC NGHIỆM SO SÁNH HIỆU SUAT CÁC MÔ HINH 30

4.1 Bộ dữ liệu HH 30 4.1.1 ReINTEL 2020 public train ¿+ - + 5S ‡++keeEvxerrkekeree 30

4.1.2 _ FEvent: Bai đăng tin tức của Việt nam trên Facebook theo sự kién.31

4.1.2.1 Nguồn gốc bộ dữ liệu -22:¿222+2zvcvcvvverrrrrerrerrree 31

4.1.2.2 Phương pháp thu thập - 5+5 st+x+xvxererrrversrerrrerrrrree 31

4.2 Xây dựng mô hình - «kh HT TT HH it 33 4.2.1 Các dạng bộ nhớ tạm thời jMĨ ¿-¿- + 5+ ++++keeEexerrkekeree 34 4.2.2 Mô hình cho đặc trưng văn bản 5-5-c+cc<c<c-c-c .- 94 4.2.3 Mô hình dành cho đặc trưng ảnh - - 5555 5++++c+c+cscscxe 35

Trang 5

4.2.4 Mô hình dành cho đặc trưng metadata - - 5+ 5<555< 35

4.2.5 | Mô hình dành cho đặc trưng tên người ding

4.2.6 Các mô hình kết hợp -ccc+:++222cvrvrvrrttrrrrrrrrrrrrrrrrer 35

4.3 Thiết kế luồng dữ liệu thí nghiệm

4.4 Phương pháp đánh giá - +5 + ren 37 4.4.1 _ Các tiêu chí đánh giá

4.4.2 Giai đoạn thực nghiệm ¿6555 Ss+csxseeerereeererereeerrrrerve.28Ỷ

4.4.3 — Giai đoạn triển khai

4.5 Kết quả thực nghiệm và thảo luận +©v+z222v+vzvvcvvvreerrrxz 40

4.5.1 Kết quả trên bộ dữ liệu RelNTEL - : -c+cc5sccc<c2 40

4.5.1 Kết quả trên bộ dữ liệu FEvent -cccc:z+22cccvcvecerrrrre 46

4.5.2 Nhận xét và thảo luận - + tk it 53

4.5.2.1 Hiệu xuất của các mô hình khi được huấn luyện trực tuyến _— 53

4.5.2.2 Khả năng của các dạng bộ nhớ tạm - - + + s+s++<s= 55

4.5.2.3 So sánh mô hình Online và Offline - -5-«- -<s= 57

Chương 5 XÂY DỰNG HE THONG XỬ LY THỜI GIAN THỤC 59

5.1 Tổng quan kiến trúc hệ thống ¿¿2+++2++++22v++rtttvvvveerrxee 59

5.2 Xử lý stream c St tt HH HH2 0101121021001 re 60

5.3 Kiến trúc MicrOSerViCes -2222c222222 2222222211122 2211 cetrtkeccri 61

5.4 Container hóa các mô đun - - + 5+ rverererxerrrrerrrerkrrrrrrrver 61

5.5 Quá trình xây dung hệ th6ng ccccccssesssssseessssssesesssseessssssseesssseesesssseeesesssecsed 62

5.5.1 | Xây dựng Tiện ích trên trình duyỆt - - - + +©++++c+c+<<++ 62 5.5.2 Xây dựng Bộ phận xử lý - cty 67 5.5.2.1 WebsoCket St HH 67

Trang 6

5.5.2.2 Mô đun tiền xử lý .c¿c22222ccccvvvrrerrrtrrrrrrrrrrerrrrerr 68

5.5.2.3 M6 đun mô hình.

5.5.2.4 Mô đun lưu trữ ccccccttrtetheeerereườn 69

Chương 6 KÉT LUẬN VÀ PHƯƠNG HƯỚNG PHAT TRIỄN

6.1 Các kết quả đạt được - -: 2222 222tr rrrrrrrrrrrrrrrrrrrrree 7I6.2 Các điểm hạn chế

6.3 Hướng phát triển ccc:+-2222E2222+zttttEEEEEErrrrrtrtrrrrrrrrrrrrrrrrrree 72

Trang 7

Hình 1.1: Sơ đồ mô tả

Hình 3.1: Quy trình tiền xử lý dữ liệu văn bản ¿-©2c+2222+zcccccsscee 1Hình 3.2: Quy trình tiền xử lý dit liệu ảnh - -¿-2222+2222vzrsecvvvrrerrvsrrrrrr 2

Hình 3.3: Các dạng đặc trưng được sử dụng cho bài toán phát hiện tin giả tự động.

Hình 3.4: Kiến trúc mạng nơ-ron nhân tạo nhiều lớp .-: -:s2 5

Hình 3.5: Kiến trúc RNN cccccccotonnnnn2222122211 re 7Hình 3.6: Kiếm trúc LSTM -22222++2222222222+t22222221322E.EEEEEEErrrrrrrrrrrrrrer §

Hình 3.7: Kiến trúc GRU 22+©2VV++++2EE2++t222E31222221111222211 2221122221 xe 9Hình 3.8: Kiến trúc của một Khối du (Residual Bloek) - -¿-c5+ 21

Hình 3.9: Sơ đồ kế hợp đa mô hình ¿ 2+z+2E+++++2EE++zzttrvzerrrrrscee 22

Hình 3.10: Sơ đồ mô tả quá trình mô hình cập nhật chính nó trên từng mẫu mới đến

từ luồng dữ liệu liên tục -.:¿-52222+2222+222222E++tE2EEErtEEEkrrrrrrrkrrerrkrrrrrer 23

Hình 3.11: Mô tả phương pháp học chủ động . -¿ 5 5+++£+s+c+xsxsxs+ 24

Hình 3.12: Cơ chế Replay trong mạng thần kinh sinh học [39] 26Hình 3.13: Mô tả vị trí của Hồi hải mã trong não người [41]

Hình 3.14: Hoạt động của cơ chế Replay trong quá trình củng có trí nhớ trong các

giai đoạn tỉnh thức, NREM, REM . ¿552cc 28

Hình 3.15: Mô tả kiến trúc mô hình được xây dựng với cơ chế Replay 28

Hình 4.1: Mô tả phương pháp Prequential Evaluation -.- - «-«-«eccs 40

Hình 5.1: Tổng quan kiến trúc của Bộ phận xử lý -ccz+2cczxxe 60

Hình 5.2: Kiến trúc Container [57] — 62Hình 5.3: Kiến trúc của co 1 63Hình 5.4: Giao diện của tiện ích — Dữ liệu thô đã được gửi đến bộ phận xử lý và tiện

ích đang chờ đợi phản hồi 22222£222VEESS2++tt22EEESEEErrrrtttrErkvrrrrrrrrrrrrreg 65

Hình 5.5: Giao diện của tiện ích — Tiện ích hiển thị dự đoán nhận được từ bộ phận

xt LY va hai n0 no 66

Trang 8

Hình 5.6: Giao diện của tiện ích — Sau khi người dùng thao tác, phản hồi sẽ được

gửi về bộ phận xử lý và bài viết sẽ được đánh đấu theo nhãn tương ứng 66

Trang 9

DANH MỤC BANG

Bang 4.1: Mơ tả thuộc tính bộ dữ liệu ReINTEL public trạn . - 31

Bang 4.2: Hướng dẫn gán nhãn cho bộ dữ liệu FEvent - : -¿-5:c55+2 32

Bang 4.3: Mơ tả thuộc tính bộ dữ liệu FEvenI - ¿-¿- 55+ 5<5++++++c+ecx+ 33

Bang 4.4: Chia dữ liệu các sessions trong quá trình thực nghiêm 37

Bảng 4.5: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng văn bản

cĩ G được khởi tạo trong quá trình huấn luyện (trên bộ dữ liệu ReINTEL 2020) 41

cĩ G là PhoW2V (trên bộ dữ liệu Re[NTEL 2020) -+- +©«=++s+s+e 42

cĩ G 1a phoBERT (trên bộ dit liệu Re[NTEL 2020) -.- ¿+ + +c+x+xsvcvrvxsee 43

Bảng 4.8: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng ảnh (trên

bộ dữ liệu ReINTEL 2020) ¿+ ¿+ 55+ E*+k£k*EEEVEEEkEkEEET HH0 g1 rưy 43

Bảng 4.9: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng metadata

và tên người dùng (trên bộ dữ liệu ReINTEL 2020) „44

Bảng 4.10: Kết quả hiệu xuất phân loại của các mơ hình sử dụng kết hợp nhiều đặc

trưng (trên bộ dữ liệu ReINTEL 2020) - + ¿2-6 2 £+£+£++k+EeEekerrkekererre 45

Bang 4.11: Kết quả hiệu suất các mơ hình khi trong quá trình khởi tạo (trên bộ dữ

I9)85{0060500202000600606ẺSẺẺa1ạ 46

cĩ G được khởi tạo trong quá trình huấn luyện (trên bộ dữ liệu EEvent) 47

cĩ G là PhoW2V (trên bộ dữ liệu FEvent) - 5-55 525+552cccsccsxzxsrrrre 47

cĩ G là phoBERT (trên bộ dữ liệu FEvent) 48

Bang 4.15: Kết quả hiệu xuất phân loại của các mơ hình sử dung đặc trưng ảnh (trên

49

bộ dữ liệu FEvent).

Bảng 4.16: Kết quả hiệu xuất phân loại của các mơ hình sử dụng đặc trưng metadata

Trang 10

Bảng 4.17: Kết quả hiệu xuất phân loại của các mô hình sử dụng kết hợp nhiều đặc

trưng (trên bộ dữ liệu FEVeII() - - 6 +5 3E EvEvEEESkEkEkrkrkrrrekekrkrkrkrkrerrre 53

Bang 4.18: Hiệu xuất của mô hình PhoBERT+TextCNN trên bộ dữ liệu

ReINTEL2020 qua các dạng bộ nhớ tạm - ¿+ + 25+ 5++++£‡£e£srzxzxsrerrx 56 Bảng 4.19: So sánh mô hình Online và Offline của các mô hình đơn lẻ trên bộ dữ

II )85{006020920200000ẺĐ88a.A 58

Bang 5.1: Mô tả các hàm xử lý chính trong Tiện ích Chrome - 64

Bảng 5.2: Giới hạn tài nguyên và thứ tự khởi chạy của các thành phần trong hệ

Trang 11

DANH MỤC TU VIET TATSTT Tên thuật ngữ Chú thích

BERT Bidirectional Encoder Representations from

' Transformers

2 | BiGRU Bidirectional Gated Recurrent Unit

3 | BiLSTM Bidirectional Long Short Term Memory

4 | CNN Convolutional Neural Network

5 |HD Independent and Identically Distributed

6 |MLP Multilayer Perceptron

7 |NLP Natural Language Processing

8 | NON-IID Non - Independent and Identically Distributed

9 | RGB RGB là viết tắt của “red, green, va blue”

10 | RNN Recurrent Neural Network

11 | SVM Support Vector Machine

J2 TextCNN Convolutional Neural Network for Text

Classification

13 URL Uniform Resource Locator

Trang 12

TÓM TÁT KHÓA LUẬN

Với sự nở rộ bùng né của của những trang mạng xã hội tại Việt Nam, người

dùng đã có một nơi đề dễ dàng tiếp nhận, chia sẻ các nội dung, thông tin, cũng như

chức năng kết nối mọi người Tuy nhiên, với các đặc tính như nặc danh, lan truyền

thông tin nhanh cũng đã “tiếp tay” cho vấn nạn tin giả, tin tức thiếu tính tin cậy.Chính vì lượng thông tin sai lệch được lan truyền khắp nơi đó, nó sẽ ảnh hưởng đếnđời sống và an toàn của cá nhân con người và các tổ chức

Với mục đích khắc phục hiện tượng trên, khóa luận này đề xuất một hệ thống

có thé hỗ trợ phát hiện các tin tức không đáng tin cậy đồng thời cập nhật chính bản

thân nó liên tục theo thời gian thực trong quá trình sử dụng mạng xã hội của người

dùng Hệ thống được xây dựng theo kiến trúc Microservices dudi dạng các

container Điều này tối ưu hóa các thao tác khi triển khai, vận hành và bảo trì Mô

hình đóng vai trò là bộ não của hệ thống được xây ứng dụng kỹ thuật Học trựctuyến lên các mô hình học sâu giúp mô hình có thé tự cập nhật liên tục thích ứng

với sự thay đổi của xu hướng dữ liệu

Quá trình thực nghiệm được diễn ra trên hai nguồn dữ liệu là ReINTEL2020

và FEvent — bộ dữ liệu chúng tôi tự thu thập và các mô hình sẽ được so sánh hiệu

suất dựa trên các tiêu chí như khả năng học kiến thức mới, khả năng lưu trữ kiến

thức cũ và hiệu suất tổng thể Các dang bộ nhớ tạm thời sẽ được áp dụng để thực

hiện cơ chế Replay Mô hình tốt nhất trên đặc trực văn bản là TextCNN sử dụng đặctrưng văn bản được đã được biến đổi bằng phoBERT trên bộ dữ liện ReINTEL2020với flnews Flan» ƒ1pase lần lượt là 0.5997, 0.9143, 0.9840 Còn đối với bộ dữ liệu

FEvent, mô hình TextCNN sử dụng đặc trưng từ PhoW2V - Word Embedding được

huấn luyện trước cho hiệu suất học kiến thức mới tốt nhất với ƒ1„¿„ bằng 0.7166

trong khi mô hình cho khả năng ghi nhớ tốt nhất là PhoBERT kết hợp với BiGRU

với ƒ1pase bằng 0.9818

Các dạng mô hình còn lại cho thấy sự không ồn định trong ngữ cảnh được

huấn luyện trực tuyến Dạng mô hình được chọn để triển khai cần phải có sự hài

hòa giữa hiệu suất phân loại và chỉ phí tính toán

Trang 13

Nhìn chung, mô hình được huấn luyện Offline có thể bỏ đưa ra các dự đoánkhông chính xác đối với dữ liệu trong tương lai (khi mà phân bó có sự thay đồi) vàđiều này đã được cải thiện bằng việc sử dụng các mô hình Online.

Từ kết quả của đề tài chúng tôi hy vọng sẽ cải hiện được vấn nạn tin giả trênnền tảng mạng xã hội Việt Nam, mang lại cho người dùng một cách nhìn khách

quan khi trải nghiệm mạng xã hội và giúp họ có một không gian mạng an toàn hơn.

Trang 14

Chương 1 GIỚI THIỆU

1.1 Cấu trúc khóa luận

Khóa luận sẽ được trình bày thành 6 chương với các nội dung chính cụ thể

như sau:

¢ CHUONG | - GIỚI THIỆU: Sơ lược về thực trạng mạng xã hội hiện nay và

tính cần thiết của dé tài Định nghĩa về bài toán và các chủ thé liên quan

e_ CHƯƠNG 2 - CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Giới thiệu các

công trình nghiên cứu liên quan trên thế giới và ở Việt Nam từ đó phân tíchcác ưu nhược điềm dé dé ra phương hướng giải quyết

e CHUONG 3 - PHƯƠNG PHÁP HỌC SÂU TRỰC TUYẾN: Giới thiệu về

các phương pháp Học sâu sử trong bài toán nhận nhiện độ tin cậy của thông

tin mạng xã hội Giới thiệu về phương pháp Học trực tuyến, hiện tượngCatastrophic Forgetting và giải pháp Replay dựa trên cơ chế củng cố trí nhớcủa hệ thần kinh sinh học

se CHƯƠNG 4- THỰC NGHIỆM SO SANH HIỆU XUẤT CÁC MÔ HÌNH:

Mô tả thiết kế thí nghiệm, bộ dữ liệu, các phương pháp đánh giá và phân tíchkết quả hiệu suất các mô hình

s- CHƯƠNG 5 - XÂY DUNG HE THONG XỬ LY THỜI GIAN THỰC: Giới

thiệu về kiến trúc hệ thống, các nguyên lý dùng đề xây dụng hệ thống và cácbước xây dựng hệ thống

¢ CHƯƠNG 6- KET LUẬN VÀ HƯỚNG PHÁT TRIÊN: Tổng kết các kết

quả đạt được về ưu nhược điểm và đưa ra các hướng phát triển của đề tài

trong tương lai.

Trang 15

dùng có được một không gian dé có thê tiếp nhận cũng như chia sẻ thông tin mộtcách tiện lợi, nhanh chóng và dễ dàng Khác biệt với các phương tiện truyền thôngtruyền thống (sách báo, radio, TV, ), dé liệu mạng xã hội mang những đặc điểmriêng của nó Chúng chứa được khối lượng thông tin lớn và lượng thông tin mớiđược tạo ra có tính liên tục theo thời gian thực, đa dạng, phổ biến nhanh và tính mở

của các nguồn tin Những đặc điểm trên đang mang lại những lợi ích to lớn cũng

như nâng cao trải nghiệm của người dùng mạng xã hội Nhưng cũng chính vì các

đặc điểm đó đã góp phần khiến cho các trang mạng xã hội trở thành một không gian

vô cùng nguy hiểm Tính liên tục và lưu lượng lớn của dữ liệu đã làm cho hiệntượng thông tin không có tính tin cậy hay còn được gọi là tin giả xảy ra với tần suấtlớn và tràn lan Tính mở cũng như tốc độ lan tỏa cũng đã giúp cho các tin tức sailệch này bị lan truyền đi một cách nhanh chóng và tính an danh và đa dạng nguồn

tin đã khiến chúng trở trên rất khó dé kiểm duyệt, truy vết Nếu lượng thông tin

thiếu tính tin cậy đó không được ngăn chặn kịp thời, những hậu quả vô cùng phức

tạp và khôn lường sớm muộn cũng sẽ xảy ra.

Đối với người dùng sử dụng mạng xã hội phô thông, việc tiếp cận thông tinsai lệch có thể làm giảm sự tin cậy và an toàn trong cuộc sống của họ, cũng như gây

ra những tác động tiêu cực đến hanh vi và sức khỏe tinh thần Ngoài ra, các thông

tin sai lệch mang tính kích động thường được các tổ chức, cá nhân có mục đích xấu

sử dụng như một công cụ để gây chia sẽ, thao túng dư luận, và thổi phồng nhữngvấn đề nhạy cảm gây mâu thuẫn giữa các nhóm và cá nhân Không chỉ những người

dùng phô thông mà ngay cả các nhà kiểm duyệt nội dung cũng phải đối mặt với cácthách thức và khó khăn khi đối mặt với tin giả Họ phải đối mặt với một lượng tin

tức không lồ trên mạng xã hội, điều này khiến cho việc kiểm duyệt trở nên phức tạp

và tiêu tốn nhiều thời gian, công sức Tin giả còn có thể “ngụy trang” thành tin thật,cho nên việc bỏ sót chúng là điều hoàn toàn có thể xảy ra Cuối cùng, việc kiểm

duyệt yêu cầu một lượng kiến thức và kinh nghiệm phong phú trong việc đối mặt

với tin giả.

Trang 16

Các công trình nghiên cứu về chủ đề này hiện nay đã đưa ra rất nhiều giảipháp đề giải quyết với vấn đề trên, song, chúng chỉ tập trung vào việc tối ưu bàitoán phân loại bằng các mô hình học máy, học sâu trên bộ dữ liệu sẵn có Thêm vào

đó, chưa có một công cụ cụ thé nào được đưa ra dé phục vụ các nhu cầu liên quancho người dùng mang xã hội phổ thông cũng như các nhà kiểm duyệt nội dung

Nhận biết được tỉnh nguy cấp của vấn đề, luận văn này đề xuất một hệ thống đánh

giá tự động độ tin cậy của các bài đăng tin tức trên mạng xã hội theo thời gian thực

đồng thời học và thích nghi được khi dữ liệu có sự thay đổi Qua đó, người dùng sẽ

có sự cân nhắc cũng như cái nhìn khách quan hơn khi tiếp cận các bài đăng tin tức

trên mạng xã hội, mang lại một môi trường mạng xã hội an toàn hơn.

1.3 Tổng quan về tin giả và bài toán đánh giá độ tin cậy của tin tức

1.3.1 Khai niệm tin giả

Khái niệm “tin giả” là một khái niệm tương đối mới và đã được định nghĩatheo nhiều các khác nhau

Theo từ điển Oxford: "Tin giả là thông tin sai sự thật được phát sóng hoặcxuất bản dưới dạng tin tức nhằm mục đích lừa đảo hoặc có động cơ chính trị.”

Facebook cũng đã đưa ra định nghĩa của họ về thông tin sai lệch trên mạng

xã hội trong tiêu chuẩn cộng đồng: “Thông tin sai lệch là nội dung chứa tuyên bố

mà bên thứ ba đáng tin cậy xác định là sai sự thật Tin đồn không thể xác minh là

tuyên bố mà đối tác chuyên môn tại nguồn xác nhận là rat khó hoặc không thé truy

vết, trong trường hợp không có nguồn tin đáng tin cậy, nội dung tuyên bố không đủ

cụ thé dé vạch trần hoặc tuyên bố đó đáng ngờ/phi lý đến mức khó tin.”

Tuy nhiên, để có cái nhìn nhất quán về khải niệm này, Cục Phát thanh,truyền hình và thông tin điện tử đã định nghĩa “tin giả” như sau: “Tin giả trên không

gian mạng là những thông tin sai sự thật được cố ý đăng tải, lan truyền nhằm mụcđích không chính đáng gây hiểu lầm cho người đọc, người xem hoặc những thông

tin có một phần sự thật nhưng không hoàn toàn chính xác do không được kiểm

Trang 17

chứng, xác minh hoặc bị phóng đại, suy diễn, làm thay đổi bản chất của sự việc,thường xuất hiện đưới dạng tin tức và được lan truyền chủ yếu trên mạng xã hội”.

1.3.2 Tổng quan về bài toán đánh giá độ tin cậy của tin tức

Bài toán đánh giá độ tin cậy của tin tức hay phát hiện tin giả trên mạng xã

hội có thể được định nghĩa cụ thé là tác vụ tìm kiếm và xác định các nội dung trên

mạng xã hội là “tin cay” hay “không tin cay.”

Tin cậy/Tin thật

Nội dung văn bản, ảnh

minh họa, thông tin

tương tác, nguồn tin,

Mô hình phân loại

tác giả, các sự thật và các thông tin trực quan cũng như xã hội của tin tức dựa trên

nhận biết xã hội và tư duy, kinh nghiệm của người điểm duyệt Khi áp sử dụngphương pháp tự động, tin giả sẽ được nhận biết bằng cách áp dụng các mô hình học

máy, học sâu khác nhau tùy theo hoặc kết hợp các đặc trưng của tin tức nhưng chủyếu có thê phân loại thành hai nhóm chính là: nội dung và ngữ cảnh xã hội

1.3.2.1 Phát hiện tự động dựa trên nội dung

Đánh giá tính tin cậy của tin tức mạng xã hội dựa trên nội dung nghĩa là sử

dụng các thành phần như nội dung văn bản, hình ảnh mô tả của mau tin dé đưa ra

dự đoán Đối với nội dung văn bản, bài toán trên có thể xem như một bài toán phân

loại văn bản Tương tự, đối với hình ảnh mô tả, bài toán có thể được tiếp cận dưới

Trang 18

1.3.2.2 Phat hiện tự động dựa trên ngữ cảnh xã hội

Phát hiện tin giả dựa vào ngữ cảnh xã hội nghĩa là sử dụng các thông tin liên

quan đến lượng tương tác, các thông tin công khai của người dùng và nguồn tinnhư: lượt thích, lượt chia sẻ, số lượng bình luận, tên nguồn tin, thời điểm đăng tin, để phân loại Tất cả thông tin trên đều có thể được sử dụng dưới dạng đặc trưng

dau vào cho các mô hình học máy và học sâu.

Trang 19

Chương 2 CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN

2.1 Các công trình nghiên cứu về phát hiện tin giả trên thế giới

Công cuộc phát hiện và ngăn chặn tin giả là một bài toán được quan tâm trong

cộng đồng các nhà nghiên cứu toàn cầu Hiện nay, trên thế giới đã có rất nhiều công

trình nghiên cứu được đưa ra đề giải quyết bài toán phát hiện tin giả với đa dạng cácphương pháp và đặc trưng đầu vào

Hướng tiếp cận chủ yếu hiện nay phân loại dựa vào các đặc trưng văn bản

bằng các kiến trúc học sâu như RNN va CNN [1], [2], [3] [4], [5] hoặc phức tạphơn là các mô hình dạng Transformer [6], [7] Để tăng cường hiệu suất, đã có

những hướng tiếp cận kết hợp đặc trưng văn bản với các đặc trưng khác như

metadata sử dụng MLP, SVM và hình ảnh với Transfer learning hoặc CNN Các

phương pháp học kết hợp khác nhau cũng đã được sử dụng để xây dựng mô hìnhkết hợp nhiều đặc trưng đầu vào như Boosting hay Multimodal [6], [7] [8]

2.2 Cac công trình nghiên cứu về phát hiện tin giả tại Việt Nam

Tại Việt Nam, đã có những nỗ lực nghiên cứu đóng góp vào công cuộc giảiquyết bài toán tin giả

Năm 2020, cuộc thi ReINTEL Challenge [9] đã được tổ chức với bài toán đặt

ra là xác định tính tin cậy của tin tức trên mạng xã hội kèm theo đó, cuộc thi cũng

đã đưa ra một bộ dữ liệu các bài đăng tin tức trên mạng xã hội với đa dạng đặc

trưng như văn bản, hình ảnh và các thông tin về lượt tương tác Qua cuộc thi, đã cónhiều giải pháp được đưa ra dưới dạng mô hình đơn hoặc mô hình kết hợp sử dụng

các phương pháp tốc nhất hiện nay như PhoBERT [10], [11], [12], [13] vàbert4news [10], [12], cho nội dung văn bản tiếng Việt, và MLP, SVM [11], [12],[13] cho các đặc trưng về metadata và các phương pháp kết hợp như Boosting [13],Multimodal [11], [12] với kết quả ROC-AUC của đội đứng đầu là 0.9521

Một nghiên cứu khác của các sinh viên Đại học Đà Nẵng [14] cũng đã mô tảtổng quan các vấn đề liên quan đến bài toán và đề xuất phương pháp tự động phát

Trang 20

hiện dựa trên đặc trưng văn bản và đặt được kết quả F1-Score cao nhất với kiến trúc

RNN là 0.77 trên bộ dữ liệu lĩnh vực chính trị và 0.73 trên bộ dữ liệu lĩnh vực

Covid-19.

2.3 Các vấn đề còn tồn tại và phương hướng giải quyết của khóa luận

2.3.1 Các vấn dé còn tồn tại

Các nghiên cứu liên quan cho thấy các tác giả đã kết hợp nhiều dạng kiến

trúc mô hình khác nhau cho nhiêu loại đặc trưng khác nhau để giải quyết bài toán.Mỗi đặc trưng đều có thể đóng một vai trò quan trọng khác nhau trong việc phát

hiện tin giả cũng như đều có thể cải thiện của mô hình nhận diện khi chúng được

kết hợp với nhau Tuy nhiên, cho đến thời điểm hiện tại, các mô hình mà các nghiêncứu liên quan đưa ra chỉ tập trung vào việc tối ưu hóa hiệu suất của mô hình phân

loại trên bộ dữ liệu hiện có Điều này khiến chúng trở nên bị phụ thuộc vào dữ liệu

sử dụng cho quá trình huấn luyện và kiểm thử nghĩa là chỉ thể hiện tốt trên tập dữliệu huấn luyện/kiểm thử của thời điểm hiện tại Điều này có thê dẫn đến việc nhậndiện sai hoặc bỏ sót một số tin tức quan trọng do mô hình không thé cap nhat chinh

nó ngay khi dữ liệu có xu hướng thay đổi

Tin tức trên mạng xã hội là một dạng dữ liệu đặc biệt và có tính thay đổi xu

hướng theo thời gian Chang hạn như các tin tức nóng trên mạng xã hội thường chi

ram rộ trong một khoảng thời gian nào đó trước khi bị “chiếm sóng” bởi một sựkiện nóng khác Điều này đòi hỏi các mô hình nhận diện tin giả phải có khả năng

thay đổi, thích nghi, đáp ứng tùy thuộc vào sự thay đổi của xu hướng dữ liệu tin tức,

khiến cho việc nhận diện tin giả càng thêm phần thách thức

Hơn nữa, phát hiện được tin giả là một hành động đòi hỏi sự đáp ứng tức thời

vì tin tức sai lệch thường có đặc tính lan tỏa nhanh một cách chóng mặt và có thể

gây ra những ảnh hưởng tiêu cực đến cộng đồng trong thời gian ngắn Vì vậy, đápứng được nhu cầu nhận diện tin giả đúng và tức thời cũng là một thử thách mà bài

toán đặt ra.

Trang 21

2.3.2 Mục tiêu của đề tài

Để đáp ứng dược nhu cầu ngày càng tăng của việc phát hiện tin giả trênmạng xã hội, thông qua nghiên cứu này, chúng tôi xây dựng một hệ thống nhận biếttính tin cậy của tin tức một cách chính xác theo thời gian thực đồng thời có thé thích

nghỉ với các thay đổi về xu hướng dữ liệu tin tức trên mạng xã hội mà vẫn có thểđám bảo tính gọn nhẹ, tốc độ xử lý

Kế thừa các ưu điểm mà các nghiên cứu đi trước đã đạt được cũng như giải

quyết những hạn chế đang phải đối diện, chúng tôi đặt ra các mục tiêu cho đề tài

như sau:

e _ Xây dựng các mô hình phát hiện tin giả thông qua việc áp dụng các kiến trúc

mô hình học sâu hiện đại và kết hợp sử dụng nhiều dạng đặc trưng để đạt

được hiệu suất tốt nhất

hướng dữ liệu đồng thời có thể lưu giữ lại những tri thức cũ đã được họcbằng cách áp dựng phương pháp Học trực tuyến (Online Learning)

e Hệ thống được tạo ra phải đảm bảo sự gọn nhẹ, và tốc độ xử lý để có thể

hoạt động trên môi trường đám mây hoặc môi trường có tài nguyên hạn chế

Chúng tôi hy vọng đề tài sẽ giải quyết được các vấn dé đang ngày càng trở

nên nghiêm trọng trong công cuộc phòng chống tin giả trên mạng xã hội, mang lại

cho người dùng một mạng xã hội một không gian mạng an toàn và lành mạnh.

Trang 22

Chương 3 PHƯƠNG PHAP HỌC SÂU TRỰC TUYẾN

kích thước, kiểu và dạng dữ liệu phù hợp mà kiến trúc mô hình yêu cầu Các dạng

dữ liệu khác nhau sẽ có các phương pháp tiền xử lý đặc thù cho dang dữ liệu đó

3.1.1 Tiền xử lý dữ liệu văn bản

Văn bản thô

Chuẩn hóa Bỏ

viết thường stopwords

Hình 3.1: Quy trình tiền xử lý đữ liệu văn bản

Văn bản bài đăng trên mạng xã hội thông thường sẽ được viết dưới dạngngôn ngữ giao tiếp, thông dụng, gần gũi với người đọc Các thành phần đặc biệt như

từ viết tắt, biểu tượng cảm xúc, đường dẫn thường được sử dụng dé tăng tính tươngtác, tính sinh động cho bài viết và dễ dàng gửi gắm thông điệp Trong nghiên cứu

này, các yếu té trên cần phải trải qua các bước lần lượt:

bổ sung cảm xúc cho văn bản nhưng nó cũng có thể là thành phần gây nhiễu

mạng xã hội thường bao gồm các đường dẫn và URLs Những thành phần

này thường vô nghĩa đối với các thuật toán và có vai trò như một điểm gây

nhiều.

Trang 23

¢ Chuan hóa thành kiểu viết thường: Dữ liệu văn bản thường bao gồm cả chữ

hoa lẫn chữ thường Điều này có thé hạn chế hiệu suất của các mô hình

nhóm các từ đơn liền kề thành các cụm từ có nghĩa Công đoạn này được

thực hiện bằng cách sử dụng VnCoreNLP [17] một công cụ tách từ dành chocác bài toán NLP tiếng Việt

suất xuất hiện nhiều và không đóng góp vào ý nghĩa của văn bản, chúng sẽ

đóng vai trò như thành phan gây nhiễu Các từ này sẽ được loại bỏ dé giảm

thiểu hiện tượng đữ liệu gây nhiễu và cả hiện hiệu suất mô hình phân loại

3.1.2 Tién xứ lý dữ liệu ảnh

Véc-tơ ảnh

Hình 3.2: Quy trình tiền xử lý dữ liệu ảnh

Ảnh minh họa trên mạng xã hội thường mang nhiều hình dạng cũng như kíchthước khác nhau, thậm chí có những bài viết còn không đính kèm theo ảnh Vì vậy

trước khi được đưa vào mô hình dé trích xuất đặc trưng, ảnh thô cũng phải được traiqua các bước tiền xử lý Các bước cụ thể gồm:

e Tải ảnh: Tùy thuộc vào bộ dữ liệu cũng như dạng dữ mà dữ liệu ảnh đính

kèm sẽ ở các dạng khác nhau như đường dẫn hoặc tệp tin Nếu ở dạng đườngdẫn thì phải được tải về từ Internet trước khi chuyển sang các thao tác kế

Trang 24

tiếp Việc này có thé thực hiện bằng thư viện requests! va pillow trong

Python Ảnh bị khuyết sẽ được điền bằng một bức ảnh trắng

màu khác nhau Dé đảm bảo tính đồng bộ về kênh màu giữa các ảnh, ảnh sẽ

được chuẩn hóa mã màu ở định dạng RGB

e Chuẩn hóa kích thước 256 x 256: Kích thước của ảnh trong bộ dữ liệu có thể

thay đổi và không đồng nhất, do đó chúng ta cần thay đổi kích thước của ảnh

đến một kích thước đồng nhất đề thuận tiện cho việc xử lý Trong trường hợp

này, chúng tôi resize ảnh thành kích thước 256 x 256.

và dự đoán, ảnh phải được chuyển đổi thành dạng các véc-tơ số thực (có kích

thước 3 x 256 x 256) Công đoạn này có thể thực hiện bằng các thư viện

Python như Numpy? hoặc PytorchŸ.

e_ Chuẩn hóa anh: Để cho việc tính toán trở nên hiệu quả, dễ dàng và tiết kiệm

chi phí, ảnh sẽ được chuẩn hóa về khoảng [0, 1] bằng các chia các véc-tơ anh

cho giá trị 255.

3.1.3 Tiền xử lý metadata

Dữ liệu metadata ở nhiều dạng hỗn loạn khác nhau, để đưa vào mô hình thì

chúng phải trải qua các giai đoạn xử lý nhằm đưa về dạng thích hợp Quá trình tiền

xử lý dữ liệu metadata trải qua các bước sau:

như lượt tương tác thường nằm ở nhiều kiểu dữ liệu khác nhau hoặc thậm chí

bị khuyết Ví dụ: “IK bình luận”, 10, “1,4K người đã thích”, Các thông

1 https://requests.readthedocs.io/en/latest/

? https://numpy.org/

3 https://pytorch.org/

Trang 25

tin dang này sẽ được trích xuất về dang số sử dụng biểu thức đặc trưng thông

qua thư viện re* Các thông tin bị khuyết sẽ được điền là 0.

giờ sẽ được trích xuất từ dữ liệu dạng timestamp có trong metadata Thư viện

datetime sẽ giúp ích trong quá trình này.

hoặc rất nhỏ không đều nhau, điều này tác động đến khả năng tính toán và

đưa ra dựa đoán của mô hình Trong trường hợp này, các dữ liệu sẽ được

chuẩn hóa bởi ham log dé đưa về một phạm vi giá trị cố định (dữ liệu sẽ

được cộng thêm một lượng rất nhỏ để tránh trường hợp tính log của giá trị

0).

3.1.4 Tiền xử lý tên người dùng

Đề đảm bảo sự bảo mật danh tính của nguồn tin, trước khi được sử dụng để

cập nhật mô hình, các id tên người dùng sẽ được đưa vào một hàm băm Giá trị của hàm băm sẽ được sử dụng cho các bước xử lý sau.

3.2 Phương pháp học sâu

Học sâu (hay Deep Learning) là một phương pháp học máy tiên tiến dựa trên

mạng nơ-ron nhân tạo cho phép mô hình học được các đặc trưng phức tạp từ những

dạng dữ liệu phức tạp Trong những năm trở lại đây, phương pháp học sâu đã thể

hiện được hiệu suất của mình trong tác vụ đánh giá độ tin cậy của tin tức Trong

nghiên cứu này, các dạng mô hình học sâu khác nhau sẽ được sử dụng đơn lẻ hoặc

kết hợp trên những đặc trưng sau: nội dung văn bản của tin tức, hình ảnh minh họacủa tin tức, thông tin số liệu liên quan và nguồn tin

+ https://docs.python.org/3/library/re.html

Trang 26

Phát hiện tin giả

Hình 3.3: Các dạng đặc trưng được sử dung cho bài toán phát hiện tin gia tự động.

3.2.1 Mạng nơ-ron nhiều lớp (Multilayer Perceptron)

Mạng nơ-ron nhiều lớp hay mạng Perceptron nhiều lớp (MLP) là một dạng

mô hình học sâu đơn giản nhất cho các bài toán học có giám sát Một mạng nơ-ron

nhiều lớp bao gồm nhiều lớp (layer) là tập hợp của một hoặc nhiều nơ-ron, có 3

dạng lớp chính là lớp đầu vào, lớp ân và lớp đầu ra

Hidden Input Output

Ja >)

Trang 27

3.2.2 Đặc trưng dữ liệu văn bản

Đặc trưng văn bản nội dung trong bài toán phân loại tin giả có thể được xử lý

như tác vụ phân loại văn bản thông thường Văn bản có thể được biến đổi thànhdạng véc-tơ đặc trưng sau đó đưa vào mô hình phân loại Để trích xuất đặc trưng từ

văn bản tin tức, chúng tôi sử dụng hai phương pháp là Word Embedding và

PhoBERT embedding.

Word Embedding là phương pháp trích xuất đặc trưng dữ liệu văn bản bằngcách biểu diễn các từ dưới dạng các vector đặc trưng trong không gian đa chiều.Các từ mang ý nghĩa tương đồng nhau sẽ có vị trí gần nhau trong không gian này

BERT [18] (hay Bidirectional Encoder Representations from Transformers)

là một mô hình ngôn ngữ sử dụng kiến trúc Transformer dé hoc các cho các từ và

câu BERT là một trong những dạng mô hình hiện đại nhất trong lĩnh vực NLP.PhoBERT [19] là một phiên bản của BERT được tối ưu hóa để sử dụng cho dữ liệutiếng Việt Đặc trưng văn bản trích xuất được thông qua PhoBERT có thể được sử

dụng để giải quyết trong nhiều bài toán khác nhau

Sau khi được trích xuất bằng các phương pháp kê trên, các đặc trưng này sẽ

được sử dụng làm đầu vào cho các mô hình học sâu có trách nhiệm phân loại văn

bản Trong nghiên cứu này, chúng tôi sử dụng ba loại mô hình là BiLSTM, BiGRU

và TextCNN BiLSTM (hay Bidirectional Long Short-Term Memory) và BiGRU

(Bidirectional Gated Recurrent Units) là các kiến trúc mô hình học sâu dựa trên

kiến trúc mạng nơ-ron hồi quy (RNN - Recurrent Neural Networks) Mô hình dangnày có khả năng nắm bắt được các phụ thuộc xa, đồng thời có thể nhìn nhận ngữcảnh theo hai chiều (nhờ vào kiến trúc Bidirectional [20]), nên thường được sử dụng

để giải quyết các tác vụ phân loại văn bản Cuối cùng, TextCNN [21] (hay

Convolutional Neural Network for text classification) là mô hình học sâu sử dụng

các kết nói tích chập dé lọc cách thông tin đặc trưng theo từng phan của văn bản

Trang 28

3.2.2.1 BiLSTM và BiGRU

BiLSTM và BiGRU là các dạng đặc biệt của mạng nơ-ron hồi quy RNN.Recurrent Neural Network [22] (RNN) là một dạng mạng nơ-ron đặc biệt dùng để

xử lý các dữ liệu dạng chuỗi như văn bản Với mỗi kí tự x;, RNN sẽ tạo ra đầu ra ø;

và trạng thái ân h, (mang các thông tin của văn ban từ x) đến x,) dựa trên trạng thái

an hy, trước đó Hình 3.5 Tuy nhiên cũng chính vì lý do này khiến cho RNNkhông hiệu quả trong việc xử lý các vấn đề có liên quan đến thông tin dài hạn doxảy ra hiện tượng “vanishing gradient” hoặc ”exploding gradient” khi tiến hànhtruyền ngược (backpropagated) trên chuỗi quá dài

LSTM [23] (Long Short-Term Memory) được ra đời để khắc phục các hạnchế của RNN về phụ thuộc xa Khác với RNN, LSTM có thêm các thành phần đặcbiệt như c¿, f; (cổng quên), i, (cổng vào) và o, (cổng ra) Một mạng LSTM sẽ bao

gồm nhiều tế bào LSTM (LSTM Cell)

Trang 29

Tại mỗi bước t, mang LSTM sẽ chon lọc ra các tri thức quan trọng từ cạ~;

bằng công f; kết hop với h¿_; dé cập nhật c¿, tiếp theo c, sẽ được cập nhật một lần

nữa bằng các thông tin chon lọc từ đầu vào qua cổng i; kết hợp với hạ_; Trạng thái

an h, sẽ được tính thông qua trạng thái công o, kết hợp với hy_y

Tương tự LSTM, GRU [24] (Gated Recurrent Unit) cũng được ra đời dé bù

đắp vào các thiếu sót của RNN GRU đơn gián hơn LSTM do ít hơn các thành phanchi bao gồm 2 cổng là r; (cổng reset) va z¿ (cổng update) Cổng reset sẽ xác định

tầm qua trong của trạng thái an trước đó h¿_; và công update quyết định mức độ

đóng góp của trạng thái hiện tại h, trong việc tính toán hạ.

Trang 30

Các kiến trúc mô hình có dạng RNN ké trên chi sử lý thông tin theo một

chiều của dé liệu Tuy nhiên các ngữ cảnh phụ thuộc trong câu trên thực tế có quan

hệ theo hai chiều Vấn đề này được giải quyết bằng kiến trúc Bidirectional [20]

trong đó thông tin sẽ được xử lý thông qua hai mạng RNN: một mạng RNN xử lý

theo thứ tự từ trước đến sau (forward), và một mạng RNN xử lý theo thứ tự từ sau

về trước (backward) Nhờ đó mà các ngữ cảnh phụ thuộc trong chuỗi văn bản sẽ

được nhìn nhận theo hai chiều

3.2.2.2 TextCNN

Mô hình TextCNN [21] (Convolutional Neural Network cho dữ liệu văn ban)

là một dạng mô hình thông dụng trong các tác vu xử lý ngôn ngữ tự nhiên, đặc biệt

là trong bài toán phân loại văn bản.

TextCNN sử dụng các bộ lọc tích chập trên các n-gram khác nhau của các từ

trong văn bản để tạo thành các đặc trưng của văn bản Thông qua việc sử dụng

nhiều bộ lọc mang kích thước không giống nhau, mô hình có thể nhận biết được cácđặc tính của văn bản ở nhiều tỉ lệ khác nhau, giúp tăng khả năng nhìn nhận và đánh

giá thông tin của mô hình Sau khi bộ lọc tích chập được áp dụng kết quả sẽ đượctruyền qua một lớp pooling (có thé là max-pooling hoặc average-pooling) dé thu

Trang 31

thập các giá trị quan trọng nhất Sau đó, các đặc trưng được trích xuất này sẽ đượcđưa vào một MLP dé phân loại.

3.2.3 Đặc trưng dữ liệu ảnh minh họa

Hình ảnh minh họa là một đặc trưng quan trọng thể hiện nội dung của tin tứcmạng xã hội Việc trích xuất đặc trưng hình ảnh có thé được thực hiện bằng các mô

hình với kiến trúc CNN, tuy nhiên một số nghiên cứu đã chỉ ra rằng, các mô hìnhhọc chuyển được huấn luyện trước (pretrained) có thể trích xuất được các đặc trưng

chung cho các tác vụ phân loại hình ảnh khác nhau [25], [26] Một số kiến trúc môhình có dạng CNN được huấn luyện sẵn có hiệu suất tốt trong việc trích xuất đặc

trưng có thé ké đến như VGG [27] và Resnet [28] Tuy nhiên, so với VGG, Resnet

lại có lượng tham số nhỏ hơn, đảm bảo tính gọn nhẹ trong khi hiệu suất không quáchênh lệch [29], [30] Vì vậy đặc trưng hình ảnh sẽ được trích xuất sử bằng các mô

hình có kiến trúc Resnet được huấn luyện trước sau đó, véc-tơ đặc trưng sẽ đượctruyền vào một mạng nơ-ron đóng vai trò là bộ phận phân loại

Resnet (Residual Network) là dạng mạng nơ-ron dựa trên kiến trúc CNN,được tạo ra để khắc phục hiện tượng “vanishing gradient” trong quá trình huấn

luyện khi xây dựng các kiến trúc CNN quá sâu gây ra sự mat mát thông tin Resnet

giải quyết vấn đề này bằng cách xây dựng mô hình sử dụng các Residual Block

(tạm dịch là Khối dư)

Trang 32

x + F(x)

Hình 3.8: Kiến trúc của một Khối du (Residual Block)

Các khối dư có khả năng truyền thắng dữ liệu đầu vào dé kết hợp với đầu racủa khối thông qua các lối tat (shortcut connections hoặc một số tài liệu gọi là skip

connections) Việc này sẽ chống lại hiện tượng đạo hàm bằng 0 gây nên “vanishing

gradient” cho phép tạo ra các kiến trúc mạng sâu với hiệu suất tốt hơn trong việcphân loại, nhận diện và trích xuất đặc trưng của ảnh Mô hình ResNet có nhiều biến

thể khác nhau với các độ sâu và số lượng khối Residual khác nhau

3.2.4 Đặc trưng các số liệu liên quan

Các đặc trưng về số liệu có thể kế đến như: lượt tương tác, lượt chia sẻ, lượtbình luận, ngày đăng tin, giờ đăng tin, ngày trong tuần mà tin được đăng, độ dài vănban, Các đặc trưng này sẽ được chuẩn hóa, sau đó sử dụng một mạng MLP đểtiến hành phân loại

3.2.5 Đặc trưng về nguồn tin

Nguồn tin là một thông tin quan trọng có thé quyết định tính tin cậy của mẫutin Đề theo dõi được nguồn tin nào có đáng tin cậy hay không chúng tôi sẽ biến đổi

ánh xạ mỗi nguồn tin thành một véc-tơ đặc trưng trong không gian nhiều chiều, sau

đó sử dụng MLP dé có được kết quả phân loại

Trang 33

3.2.6 Phương pháp kết hợp đa mô hình

Các đặc trưng mặc dù có thể được sử dụng dưới dạng các mô hình đơn lẻ,

tuy nhiên chúng lại đóng vai trò khác nhau trong việc phân loại tin tức Vì thế, việc kết hợp đa mô hình sẽ góp phan cải thiện hiệu suất phân loại tông thé.

Phương pháp kết hợp đa mô hình (hay Mulúmodal Ensemble [31]) đặc biệt

hiệu quả trong các bài toán mà dữ liệu đầu vào có nhiều dạng khác nhau (như ảnh,

âm thanh, văn bản) Bằng các kết hợp các mô hình huấn luyện trên các đặc trưng dit liệu khác nhau lại với nhau, phương pháp này có thể tận dụng được thông tin cung

cấp từ nhiều nguồn để tổng hợp thành kết quả dự đoán từ đó nâng cao hiệu quả và

độ tin cậy.

B văn bản Mô pyr loai

® Hình ảnh Mô y ¿ loại

Kết hợp trung bình có t ố

Mô hình phân loại ae

Trang 34

3.3 Phương pháp học trực tuyến và hiện tượng Catastrophic Forgetting

3.3.1 Dinh nghĩa Học trực tuyến cho mạng nơ-ron nhân tạo

eee BEE

F1171111111111

Lo gian ———————————

Hình 3.10: Sơ đồ mô ta quá trình mô hình cập nhật chính nó trên từng mẫu mới đến

từ luông đữ liệu liên tục.

Học trực tuyến (tiếng Anh là Online Learning) là một dạng của Học liên tục (tiếng Anh là Continual Learning) Thay vi được tối ưu trên bộ dit liệu có sẵn cố định như các phương pháp truyền thống, trong phương pháp này, mô hình sẽ được

cập nhật liên tục từ một luồng đữ liệu đến liên tục Mô hình được huấn luyện trực tuyến sẽ được cập nhật liên tục trên từng điểm dữ liệu đơn lẻ vừa đến (Xem Hình

3.10):

Online Training: < H,_+,D,,M¿_¡ > < H,,M, >

Trong đó: D = {D,, Dp, , D,} là luồng dữ liệu liên tục cho tới thời điểm t,

D, = {xp y¿} chính là điểm dữ liệu được huấn luyện tại thời điểm t, H, là mô hình

tại thời điểm t và M_t là bộ nhớ ngoài tại thời điểm t.

Việc mô hình có thé được cập nhật trên từng điểm dit liệu mới sẽ giúp cho việc thích ứng được với các thay đổi về xu hướng dữ liệu Vì vậy, đây là một hướng

đi phù hợp dé phát hiện tin giả trên mang xã hội.

3.3.2 Học chủ động

Khi áp dụng phương pháp Học trực tuyến cho bài toán này, mô hình phải

được cập nhật liên tục theo hướng học có giám sát tức là mỗi bước cập nhật yêu cầu

phải được thực hiện trên từng cặp {z;¿, y;} tương ứng là dữ liệu tin tức và nhãn (tin

Trang 35

cậy/không tin cậy) Tuy nhiên dữ liên tin tức trên mạng xã hội khi được thu thập chi

chưa phan nội dung - x; chứ không chứa nhãn - y, gây ra khó khăn trong quá trình huấn luyện Phương pháp Active learning [32], [33] (học chủ động) được áp dụng

dé khắc phục van dé này Trong phương pháp này, mô hình có thé gửi truy van dé

tương tác với người dùng (hoặc truy van đến một số nguồn thông tin khác) dé gan nhãn cho các điểm dữ liệu mới Mô hình bên trong hệ thống mà luận văn này đề

xuất sẽ được cập nhật từ dữ liệu mới cũng như phản hồi của người dùng về nhãn dự

đoán hiện tại.

Dữ liệu không

nhãn

Active Learning

Huấn luyện

mô hình

Hình 3.11: Mô tả phương pháp học chủ động.

3.3.3 Catastrophic Forgetting và áp dung Replay dé khắc phục

3.3.3.1 Hién tượng Concept Dift trong dữ liệu tin tức

Trong học sâu truyền thống (Offline Learning), các dữ liệu dụng để huấn

luyện mô hình sẽ được giả định là dit liệu đồng nhất hay dit liệu iid (independent

Trang 36

and identically distributed) Nghĩa là các điểm dữ liệu sẽ tuân thủ theo các đặc trưng

chung Ví dụ, đối với dit liệu văn bản, dit liệu văn bản đồng nhất nghĩa là chúng

được thu thập từ cùng một chủ đề, cùng một thé loại, cùng trong một thời điểm

tương đồng nhau Tuy nhiên, trong ngữ cảnh Học trực tuyến, không thé chắc chan điểm dữ liệu mới được đưa vào quá trình huấn luyện là đồng nhất với dir liệu cũ mà

mô hình đã được học trước đó Khi dự tiễn hành dự đoán trên dữ liệu không đồng

nhất, mô hình rất dé đưa ra các dự đoán sai Tương tự, khi ta cho mô hình học dữ liệu không đồng nhất, chúng sẽ mat khả năng dự đoán các điểm dữ liệu trên phân

phối cũ trước đó hay nói cách khác, chúng sẽ quên đi những kiến thức đã học.

Concept Dift (tạm dịch là sự thay đổi khái niệm) [34], [35] là một hiện tượng

xảy ra trong lĩnh vực Học máy và công nghệ trí tuệ nhân tạo khi mô hình tối ưu trên

dữ liệu cũ mà không được cập nhật các dữ liệu mới dẫn đến dữ dự đoán sai lệch trong kết quả dự đoán Đối với dữ liệu bài viết tin tức trên mạng xã hội có rất nhiều tác nhẫn có thé dẫn đến việc xảy ra hiện tượng thay đổi xu hướng dit liệu Nguyên

nhân thứ nhất, chủ đề tin tức khả biến theo thời gian Ví dụ khi có một sự kiện

“nóng” xảy ra, người dùng mạng xã hội thường có xu hướng quan tâm nó và các bài

viết tin tức liên quan cũng sẽ xuất hiện nhiều hơn Điều này dẫn đến các từ khóa liên quan sẽ xuất hiện nhiều hơn cũng như những bức ảnh minh họa giống nhau sẽ xuất hiện thường xuyên hơn Nguyên nhân thứ hai, độ “phủ sóng” của những tin tức này sẽ không tồn tại lâu mà sẽ bị làm cho “lu mờ” bởi các tin tức nóng mới khác

điều này dẫn đến xu hướng về chủ đề tin tức sẽ bị liên tục thay đổi Cuối cùng, một

số bài viết tin tức khi mới xuất hiện mà chưa được kiểm chứng đều được cho là tin giả, tuy nhiên sau đó chúng được xác minh là thật Điều này dẫn đến sự thay đồng không chỉ trong chủ đề dữ liệu mà còn dẫn đến sự thay đổi trong nhãn của tin tức.

3.3.3.2 Catastrophic Forgetting

Các yêu cầu của bài toán đánh giá độ tin cậy của tin tức đòi hỏi mô hình

không chỉ đáp ứng được sự thay đổi của dữ liệu mà còn có thể bảo toàn được những tri thức trước đó đã học nhằm đem lại một hiệu suất toàn diện Tuy nhiên, đối quá

Trang 37

trình huấn luyện trực tuyến mạng nơ-ron nhân tạo sẽ xảy ra hiện tượng quên đi những kiến thức mà đã được học trước đó, hiện tượng này gọi là Catastrophic Forgetting Việc liên tục học những điểm dit liệu mới yêu cầu các trọng số của mô hình phải thay đổi liên tục, khi mô hình thay đổi quá nhiều sẽ dẫn đến những dự đoán sai lầm trên dit liệu cũ Hiện tượng này cũng được biết đến qua nghịch ly “én định — mềm dẻo” [36] — một van dé quan trọng trong các phương pháp học sâu cũng như trong lĩnh vực thần kinh học.

3.3.3.3 Cơ chế Replay của hệ thần kinh sinh học

Đối với động vật có vú nói chung và con người nói riêng, học tập là một khả

năng tự nhiên của hệ thống sinh học Thông quá đó, các trải nghiệm trong đời sống, các kiến thức tiếp thu được sẽ hình thành nên sự thích ứng và cải thiện hiệu suất

trong hành vi [37] Trái người với mạng nơ-ron nhân tạo, động vật cũng như con

người có thể học liên tục suốt đời tuy nhiên việc này hiếm khi khiến chúng ta quên

Trang 38

Trong bộ não của động vật có vú, tồn tại một cơ chế cho VIỆC chống lại sự

lãng quên và tạo điều kiện cho việc cũng cô trí nhớ đó chính là cơ chế “Nhắc lại” hay tiếng Anh gọi là “Replay” [40] Hai bộ phận quan trọng trong não người phục

vụ cho cơ chế này chính là vùng Hồi hải mã (hay Hippocampus) và vỏ đại não (tiếng Anh là Neocortex).

Hình 3.13: Mô tả vị trí của Hồi hải mã trong não người [41].

Khi tiếp nhận một thông tin mới, Hồi hai mã sẽ tiến hành mã hóa thông tin này dưới dạng thích hợp và được tổ chức, phân bồ, lưu trữ như một phiên bản tạm thời tại vùng trí nhớ ngăn hạn Các thông tin được mã hóa sau đó được truyền tới

vùng vỏ đại não để xử lý phân tích phục vụ cho các tác vụ phức tạp như đưa ra

quyết định, suy luận và góp phan hình thành trí nhớ dài hạn [42], [43] Khi diễn ra quá trình Replay, hồi hải mã sẽ tái hiện lại các thông tin được lưu trữ và vùng vỏ não sẽ được tái kích hoạt trên các thông tin cũ này góp phần củng có kiến thức, và cải thiện khả năng ghi nhớ Quá trình Replay có thể diễn ra ở nhiều trạng thái khác nhau của hệ thần kinh như trạng thái thức, luân phiên trạng ngủ NREM [44] va REM [45] với tần suất khác nhau.

Trang 39

ãmm=— mm

ÿ Synaptic

Consolidation

Active System Consolidation

Hình 3.14: Hoạt động của co chế Replay trong quá trình củng cố trí nhớ trong các

giai đoạn tỉnh thức, NREM, REM.

Encoding

Neocortex

3.3.3.4 Áp dung Replay cho mang no-ron nhan tao

Để ngăn chặn hiện tượng Catastrophic Forgetting trong quá trình học trực tuyến của mạng nơ-ron nhân tạo, đã có rất nhiều phương pháp được đưa ra tuy

nhiên cơ chế Replay đã chứng tỏ là phương pháp hiệu quả nhất [42] Lay ý tưởng từ

hệ thần kinh của động vật, kiến trúc học sâu được sử dụng cho nghiên cứu này có thé được thé hiện thành ba thành phần chính: Bộ mã hóa (G), Bộ nhớ tạm thời (M)

và Bộ phân lớp (F) (Hình 3 I5).

Bộ nhớ tạm thời

Bộ mã hóa Bộ phân lớp

Hình 3.15: Mô tả kiến trúc mô hình được xây dựng với cơ chế Replay.

Bộ mã hóa và Bộ nhớ tạm thời sẽ đóng vai trò như vùng Hỏi hải mã trong

não người, trong khi Bộ phân lớp sẽ tương ứng là vùng vỏ não Bộ mã hóa có trách

Trang 40

nhiệm biến đổi đầu vào thành các đặc trưng có ý nghĩa và lưu trữ chúng và bộ nhớ

tạm thời, sau đó học từ những đặc trưng này, Bộ phân lớp sẽ học được cách đưa ra

dự đoán chính xác nhất Với từng điểm dữ liệu mới, đặc trưng sau khi trích suất sẽđược trộn với một vài hoặc tất cả các đặc trưng trong quá khứ được lưu trữ trong Bộnhớ tạm thời, góp phan củng có kiến thức và khắc phục Catastrophic Forgetting

Tiêu đề	Hệ thống nhận diện độ tin cậy của thông tin trên mạng xã hội Việt Nam theo thời gian thực sử dụng phương pháp học sâu trực tuyến
Tác giả	Bui Anh Khoi
Người hướng dẫn	TS. Đỗ Trọng Hợp, TS. Nguyễn Thanh Bỡnh
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	92
Dung lượng	29,78 MB