LỜI CÁM ƠN Kính gửi Thầy/Cô,Đề tài " Nhận diện sự tin cậy của tin tức trên mạng xã hội việt nam bằng phương pháp học trực tuyến và các công nghệ đữ liệu lớn" là nhiệm vụ quan trọng và ý
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
CHAU TAN - 20520926
KHOA LUAN TOT NGHIEP
NHAN DIEN SU TIN CAY CUA TIN TUC TREN MANG
XÃ HOI VIET NAM BANG PHƯƠNG PHAP HỌC TRUC
TUYEN VA CAC CONG NGHE DU LIEU LON
VIETNAMESE NEWS VERIFICATION ON SOCIAL MEDIA BY
USING ONLINE LEARNING AND BIG DATA TECHNOLOGY
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHÍ MINH, 2024
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LỜI CÁM ƠN Kính gửi Thầy/Cô,
Đề tài " Nhận diện sự tin cậy của tin tức trên mạng xã hội việt nam bằng phương
pháp học trực tuyến và các công nghệ đữ liệu lớn" là nhiệm vụ quan trọng và ý
nghĩa mà em đã chọn đề nghiên cứu và thực hiện khóa luận tốt nghiệp sau bốn
năm theo học chương trình cử nhân ngành Khoa Học Dữ Liệu tại trường Đại học Công nghệ Thông tin.
Em xin bày tỏ lòng biết ơn sâu sắc đến TS Đỗ Trọng Hợp và TS Trần Văn Thành, người đã là nguồn động viên và hướng dẫn em một cách tận tâm trong suốt quá trình nghiên cứu Những lời chỉ bảo và kiến thức sâu rộng của các thầy
đã giúp em vượt qua những thách thức, đồng thời làm cho khóa luận trở nên linh hoạt và đầy đủ.
Em cũng xin gửi lòng biết ơn chân thành đến các thay, cô thuộc Khoa Khoa
học và Kỹ thuật thông tin, những người đã chia sẻ những ý kiến quý báu và đưa
ra những đóng góp quan trọng dé nâng cao chất lượng của khóa luận.
Không thể không đề cập dén sự hỗ trợ và tạo điều kiện thuận lợi từ Khoa Khoa
học và Kỹ thuật thông tin, lãnh đạo và các anh chị sinh viên tại trường Đại học
Công nghệ Thông tin Điều này đã giúp em có một môi trường làm việc tích
cực và hiệu quả.
Cuối cùng, em muốn bay tỏ lòng biết ơn đặc biệt đến gia đình và bạn bè, những
người đã luôn bên em, động viên và chia sẻ niềm vui trong suốt thời gian học tập và nghiên cứu.
Chân thành cảm ơn và trân trọng,
Châu Tan
Trang 4MỤC LỤC
9:1019)/6001600627.10000777 2
1.1 Đặt vấn đề cv nh ng 21.2 Lý do chọn để tài - se 2E2EEEEEkEE1EE1211112112112112111 11111 3
1.3 Mục tiêu khóa luận - << << E2 2111111122311 1111119953111 kg 1 ngư, 5
1.4 Đối tượng và phạm vi nghiên cứu -2- 2 s+++E++E£+£xerxzEzrerrserxees 7
CHUGNG 2 TONG QUAN -2 222 2222222121121 21211 cEkcrkee 9
2.1 Giới thiệu để tài HH HH ệu 92.2 Tính ứng dụng của đề tài 5+ e1 k EkEEkEE1211211211 1152111 1x 1xx, 11
2.3 Thach thingie eee 6 5¬ 12CHƯƠNG 3 NGHIÊN CUU LIEN QUAN -cc¿-:c-+c++ccxverrrrre 14
3.1 Tình hình nghiên cứu trên thế giới - 2 + 2+£+£+£+++E++z++xserxezzeee 14
3.2 Tình hình nghiên cứu ở Việt Nam - 5 + kg ng kg 16
CHƯƠNG 4 CO SỞ LÝ THUYẾT cc:cc2+cccvxvrerrrrrrrrrrrrrrrrrree 18
4.1 Cac góc độ dé nhận diện sự tin cậy của TIN ỨC ccccccsesesesrs 184.2 Bài toán nhận diện sự tin cậy của ti ỨC - cv vnreireerrrrrreeree 19 4.3 Các thuật toán học sâu cho bài toán . - << 55533 S+222 2 veessssesee 21
4.3.1 Mang Neural Nhân TạO - - s11 HH kg kg re, 21
4.3.2 Cơ chế Tập trung và Kiến trúc Transformer - +: 24
4.4 Công nghệ dữ liệu lỚI << + E311 3E ưy 29
Trang 54.4.1 — Giới thiệu về dữ liệu lớn -¿- 5c t+k+ESEEEESEEEEEESEEEEEkrEerrkrkerrrx 29
4.4.2 — HadoOD SH HH HT HH HH HH 3l
4.4.3 Spark — 33
CHƯƠNG 5 TRIÊN KHAI HE THONG THU THẬP DU LIEU TU ĐỘNG 36
5.1 Giới thiệu về hệ thống thu thập dit liệu tự động -++-x>++ 365.2 Nguôn dit liệu c5 St St EỀ 1 E1211211211171111111111 21111111111 e 365.3 Hệ thống thu thập dữ liệu từ các trang báo - 2-2 sz+sz+ce+rxerseee 375.4 Hệ thống thu thập di liệu từ người sử dụng mang xã hội 38
CHUONG 6 PHAN TÍCH ĐẶC TRƯNG VÀ CÀI ĐẶT THU NGHIỆM CAC
MÔ HÌNH 40
6.1 Phân tích một số đặc trưng - 2 + +k+EE+EE+EE£EE+EEEErkerkerkerxrrsrre 40
6.1.1 Tiêu ASAI tứ re 40
6.1.2 Nội dung tin tỨC - SĂ 2.1 ST HH HH tre 40
6.1.3 Tóm tắt nội dung tin tỨC 5-©+SE+EE+EEEEEEEEerEerkerkererree 406.1.4 Độ truyền thông của tin tỨC - + + s+E++E++E+Eerkerxerkerseree 416.1.5 _ Thể loại của tim tỨC c-+crktrrrkrtrtrirrrtrirrrriireries 41
6.1.6 Tính giật tít cỦa tin ỨC - - - + k1 ng ng rg 416.1.7 Uy tín của ngu6n tin tire c cecceccecsesssessessessssssessessessvessessessecsecssesseesecaes 41
6.2 Giới thiệu các mô hình sẽ được khai triển cho bài toán - -: 41
6.2.1 BERT ho 41 6.2.2 AIBERT oo ce eeeecceceeeeseeseeseesessecseceeesceeceseeceeseeaesaessesseseesseeeeseeeaeeaees 44 6.2.3 RoBERTa HH HH TH TH ng Hết 46 6.2.4 XLM-NNG( LH HH HH HH HH Hưng nh như 48 6.2.5 — DIstilBERIT Ă ẶẶ SH LH HH HH HH ren 50
Trang 66.2.6 MobileBERT Ăn HH HH ng ngư 52
6.3 Môi trường cai đặt các mô hình - - 5 + + xen erkt 53
CHUONG 7 TRIEN KHAI HE THONG XU LY DU LIEU LỚN VA HOC
TRUC TUYEN TÍCH HOP VOI CAC MO HÌNH HOC SÂU - +: 55
7.1 Tích hợp hệ thống thu thập đữ liệu tự động vào hệ thống xử ly dữ liệu lớn
55
7.2 Hệ thống Học trực tuyến (Online Learning) ccccceccscsessesssessessessessesseesee 567.3 Cơ chế đánh giá lại điểm số nguén tỉn -¿ 5¿©22©5++cx++zxcccsees 577.4 Thiết kế dữ liệu và giao điện cho ứng dụng - 2 2s s+zs+zs+zszsz 58
7.4.1 Thiết kế dữ liệu -cccccccriirrkirirrrirrrtrirrrrrrierries 58
7.4.2 Giao diện Ứng Ụng .- s1, 62CHƯƠNG 8 ĐÁNH GIÁ VÀ KET QUẢ: ccccccscccverrrrrrrerrrrre 65
8.1 Cac thang đo đánh giá -.- sàn HH nghệ 65
8.1.2 — Pr€CiSIOn ĂẶ Q0 HT HH HH ky 65 8.1.3 Re Caller eee cecccessenscenscssccsssersssncesssenssersesseonsseeesensons 66
8.3 Đánh gia dựa trên thời gian mô hình chạy . «cs«c<<c<sssesses 69
8.4 Đánh giá dựa trên thời gian chạy thực nghiệm trên hệ thong (Từ khoảng
Trang 7DANH MỤC HÌNH
Hình 4.1: Một mẫu tin thiếu sự tin cậy vào thời điểm đầu năm 2023 nói về việc nữ
sinh HUFLIT bị hiếp dâm và tự tử trong khi học quân sự - -«<<<s«++ 19
Hình 4.2 Dòng thời gian của các mô hình trong lĩnh vực xử lý ngôn ngữ tự nhiên
(Nguồn: 6b 00 20
Hình 4.3 Từ Neural Sinh Học đến ý tưởng Neural Nhân Tạo (Nguồn: €2 sr2w v2 J0 22
Hình 4.4 Kiến trúc Transformer so với Attention-Seq2Seq (Ngu6n [54]) 25
Hình 4.5 Tổng quan về quá trình pre-training và Fine-Tuning cho mô hình BERT Store OE 6ÄẾtt \ ÂÀ 27
Hình 4.6 5 chữ V trong Big Data (Nguồn: IBM) - 2-2-5252 cxccxezxsrserssee 30 Hình 4.7 Hệ sinh thái Hadoop (Nguồn IBM) - 2-2-5252 2+E££Ee£Ee£xerxerszsez 31 Hình 4.8 Apache Spark (Nguồn Apache Spark) c.cccssscsssesssssseesseessesstesseesseesseens 33 Hình 5.1 Hệ thống thu thập dữ liệu từ các trang báo -¿ ¿s+sec++ 38 Hình 5.2 Hệ thống thu thập dữ liệu từ người dùng 2-2 c5 5 s+zs2 +2 39 Hình 6.1 Sơ đồ mô hình BERT + ANN được áp dụng vào mô hình 43
Hình 6.2 Sơ đồ mô hình ALBERT + ANN được áp dụng vào mô hình 45
Hình 6.3 Sơ đồ mô hình RoBERTa + ANN được áp dụng vào mô hình 47
Hình 6.4 Sơ đồ mô hình XLM-Net + ANN được áp dụng vào mô hình 48
Hình 6.5 Sơ đồ mô hình DistiIBERT + ANN được áp dụng vào mô hình 50
Hình 6.6 Sơ đồ mô hình MobileBERT + ANN được áp dụng vào mô hình 52
Hình 7.1 Giao diện Portainer để xử lý các dịch vụ trong hệ thong "¬ỪD 55
Hình 7.2 Thiết kế hệ thống bậc cao cho hệ thông nhận diện sự tin cậy của tin tức56 Hình 7.3 Cơ chế đánh giá lại nguồn tin - 2-22 5¿22+2£+t£x+erxsrxerseeree 58 Hình 7.4 Thiết kế dữ liệu cho ứng dụng . 2:2 5¿22+¿2++2x++zx+rxezxesrss 60 Hình 7.5 Giao diện tiện ích mở rộng trong việc xác thực tin tức 63
Trang 8Hình 7.6 Giao diện tiện ích mở rộng trả về từ kết quả mô hình 63Hình 7.7 Giao diện tiện ích mở rộng cho việc đánh giá kết quả mô hình 64Hình 8.1 Biéu đồ phân bố các nhãn của bộ dit liệu gộp lại - - 67Hình 8.2 Đánh giá dựa trên thời gian chạy thực nghiệm trên hệ thống (Từ khoảnggiữa tháng 11-2023 đến giữa tháng 12-2023) :©2++2+++2v+v2rxrerxrerrrrrrkree 70
Trang 9DANH MỤC BANG
Bang 3.1 Bảng kết quả của các phương pháp trên tập dữ liệu LIAR [4] 16
Bang 6.1 Bảng các siêu tham số cài đặt cho mô hình BERTT 2-52 44 Bảng 6.2 Bảng các siêu tham số cai đặt cho mô hình ALBERTT 46
Bảng 6.3 Bảng các siêu tham số cài đặt cho mô hình Roberta 48
Bang 6.4 Bảng các siêu tham số cai đặt cho mô hình XLM-Net 49
Bảng 6.5 Bảng các siêu tham số cài đặt cho mô hình DistiIBERT 51
Bảng 6.6 Bang các siêu tham số cài đặt cho mô hình MobileBERT 33
Bang 6.7 Bảng các cài đặt môi trường cho việc huấn luyện mô hình 54
Bảng 7.1: Bảng thông tin người đùng - - c1 9 g rg 61 Bang 7.2 Thông tin Bang Tin Tức (NeWS) ung HH Hit 61 Bang 7.3 Bảng Đánh Giá (RatITBS) - - c5 SH HH ng gưệp 61 Bảng 7.4 Thông tin Bang Mô Hình (Mode]s) - 5 55+ * + sssssesseeese 62 Bảng 7.5 Bang Dữ liệu Tin Tức (News_Data) Ăn re, 62 Bảng 8.1 Kết quả thực nghiệm được từ việc gộp lại toàn bộ dữ liệu trong tháng 11 „27/201 e 68 Bang 8.2 Đánh giá các mô hình dựa trên thời gian chạy - - « «+<<+s+2 69
Trang 10DANH MỤC TU VIET TAT
STT | Từ viết tắt Ý nghĩa
1 BN Batch Normalization
2 XLM Cross-lingual Language Model Pretraining
3 CNN Convolutional Neural Network
4 RNN Recurrent Neural Network
5 RoBERTa from Transformers Approach Encoder Representations
6 ML Machine Learning
7 BC Binary Classification
8 ANN Artificial Neural Network
9 FCN Fully Convolutional Network
10 | GRU Gated Recurrent Unit
ll | ALBERT H2 al Encoder Representations from
12 | LSTM Long Short-Term Memory
I3 | RNN Recurrent Neural Network
14 | BERT Bidirectional Encoder Representations from Transformers
15 | Seq2Seq Sequence to Sequence
16 | MLM Masked Language Model
I7 | NSP Next Sentence Prediction
18 | DistiIBERT ane Brdirectional Encoder Representations from
19 | MobileBERT Rompact Pask “Agnostic Bidirectional Encoder Representations
20 | TP True Positive
21 | TN True Negative
22 =| FP False Positive
23 | FN False Negative
24 | GPU Graphics Processing Unit
25 | CPU Central Processing Unit
26 | RAM Random Access Memory
27 | BART Bidirectional AutoRegressive Transformer
Trang 1128 | GPT Generative Pretrained Model
29 | TS Text-to-Text Transfer Transformer
30 | MLOps Machine Learning Operations
31 | CUCD Continuous Integration and Continuous Delivery
Trang 12TÓM TAT KHÓA LUẬN
Trong thời đại số hiện đại, sự phô biến của Internet và mạng xã hội không chỉ mở ranhững cơ hội lớn về truy cập thông tin mà còn mang theo một loạt các thách thức về
sự tin cậy và minh bạch của thông tin Việc truyền tải thông tin trở nên nhanh chóng
và dé dàng, nhưng cũng mat đi sự kiểm soát và đánh giá chặt chẽ đối với nguồn gốc
và chất lượng của thông tin Với sự bùng né của các nên tảng trực tuyến, người dùng
không chỉ chịu sự ảnh hưởng của những nguồn thông tin chính thống mà còn phải đốimặt với một lượng lớn thông tin không kiểm soát được Đề tài khóa luận này hướng
tới việc nghiên cứu, phân tích, và xây dựng các mô hình máy học có khả năng phân
loại tin tức dựa trên sự tin cậy của nguồn thông tin Bai nghiên cứu này chủ yếu tậptrung vào việc sử dụng mô hình học máy dé đánh giá mức sự tin cậy của các bài báo,
từ đó cung cấp thông tin có giá trị và đáng tin cậy đối với người đọc Trong quá trình
nghiên cứu, các mô hình đã được lựa chọn và huấn luyện với đữ liệu từ các nguồn tinchính thống và không chính thống, bao gồm BERT, ALBERT, RoBERTa, XLM,DistiIBERT và MobileBERT Mỗi mô hình được đánh giá dựa trên các chỉ số đánhgiá phô biến như Precision, Recall và F1-score
Những kết quả thu được từ các mô hình này không chỉ thê hiện hiệu suất phân loạitin tức mà còn cung cấp thông tin về sự tin cậy của từng nguồn thông tin Phân tíchsâu hơn, ta nhận thấy XLM + ANN và RoBERTa + ANN là những mô hình đạt kếtquả tốt nhất với độ chính xác cao và F1-score ồn định qua thời gian
Ngoài việc xây dựng và đánh giá các mô hình, khóa luận còn tập trung vào việc xây
dựng hệ thống thu thập dir liệu tự động, quy trình đánh giá lại điểm số nguồn tin dé
cập nhật và cải thiện chất lượng dữ liệu Hơn nữa, việc phát triển tiện ích mở rộng
trình duyệt giúp người dùng tiếp cận và sử dụng các mô hình phân loại tin tức một
cách thuận tiện và hiệu quả hơn.
Trang 13CHƯƠNG 1 MỞ ĐẦU
1.1 Đặt vấn đề
Trong thời đại số hiện đại, sự phổ biến của Internet và mạng xã hội không chỉ mở ranhững cơ hội lớn về truy cập thông tin mà còn mang theo một loạt các thách thức về
sự tin cậy và minh bạch của thông tin Việc truyền tải thông tin trở nên nhanh chóng
va dé dàng, nhưng cũng mat di sự kiểm soát và đánh giá chặt chẽ đối với nguồn gốc
và chất lượng của thông tin Với sự bùng nỗ của các nền tảng trực tuyến, người dùngkhông chỉ chịu sự ảnh hưởng của những nguồn thông tin chính thống mà còn phải đốimặt với một lượng lớn thông tin không kiểm soát được Các trang web, blog cá nhân,
và mạng xã hội cho phép mọi người chia sẻ thông tin mà không cần qua bất kỳ kiểm
duyệt hay chứng nhận nào, dẫn đến sự đa dạng lớn về chất lượng thông tin Điều này
đã tạo nên một môi trường trong đó tin đồn, thông tin sai lệch, và tin tức giả mạo có
thể lây lan nhanh chóng và rộng lớn Các cá nhân và tô chức có thể đễ dàng tận dụngtính nhanh chóng và rộng lớn của việc chia sẻ thông tin trên mang dé lan truyền cácthông điệp không chính xác, gây hậu quả tiêu cực cho quốc gia và xã hội [1] Điều
này càng trở nên đe dọa khi những thông tin này thường được lan truyền nhanh hơn
và rộng lớn hơn so với những thông tin chính thống, do sự chú ý tập trung nhanh và
sự phô biến trên các nền tang trực tuyến Các thông tin không chính thống, tin đồn vàtin tức giả mạo mang theo nhiều tác hại nghiêm trọng đối với cả xã hội và cá nhân
Một trong những vấn đề lớn nhất là sự đe dọa đến quá trình hình thành ý thức côngdân và quyết định đối với cộng đồng Khi thông tin không chính thống được lantruyền mạnh mẽ, người tiêu dùng trở nên khó khăn trong việc đánh giá tính xác thực
và sự tin cậy của thông tin, dẫn đến sự nham lẫn và hoang mang Một tác hại quan
trọng khác là ảnh hưởng đến quyết định chính trị và xã hội Tin đồn và thông tinkhông chính thống có thê ảnh hưởng đến ý kiến cộng đồng và tạo nên những độngthái không chính xác, thậm chí làm thay đổi kết quả của quá trình quyết định Điều
nay có thé dẫn đến sự mắt lòng tin vào hệ thống chính trị và xã hội, làm suy giảm giá
trị của quyết định cộng đồng Các hậu quả cá nhân cũng là một khía cạnh đáng chú
Trang 14ý Người dùng có thé bị lừa đảo và mất cảm giác an toàn khi thông tin không chính
thống dẫn dắt họ Điều này có thể ảnh hưởng đến quyết định cá nhân, từ quyết định
mua sam cho đến lựa chọn về sức khỏe và an sinh xã hội Hơn nữa, sự lan truyền của
thông tin không chính thống còn có thé dẫn đến các hậu quả xã hội nghiêm trọng nhưtăng cường sự chia rẽ và căng thắng trong cộng đồng Thông tin không chính thống
thường được sử dụng đề kích động ý kiến và tạo ra những mối quan tâm không có cơ
Sở, tạo ra sự phân biệt và xung đột trong xã hội.
1.2 Ly do chọn đề tài
"Diéu doi trá được nói lại đủ nhiều thì nó sẽ trở thành sự thật"
(Dịch từ câu nói của Vladimir Lenin)
Truyền thông từ xưa tới nay luôn là bức tranh phong phú, thê hiện sự phát triển vàbiến động của xã hội Từ những cây bút truyền thống đầu tiên cho đến sự xuất hiệnmạnh mẽ của truyền hình và sau đó là internet, truyền thông đã đóng vai trò quantrọng trong việc kết nói, truyền đạt và chia sẻ thông tin Tuy nhiên, cùng với sự tiễn
bộ, xuất hiện một thách thức đầy thách thức: vấn nạn những tin nhảm, tin rác, và tin
giả được lan truyền rộng rãi Van dé này không chỉ là một hiểm họa ngắn hạn mà còn
là một thách thức lâu dài mà mọi thé hệ đều phải đối mặt Câu nói trên của Vladimir
Lenin về 'điều đối trá' như một 'sự thật' có thể gây ngỡ ngàng, nhất là khi chúng tanhìn thấy nó từ góc độ mỉa mai Trong một thế giới nơi thông tin đôi khi bị biến tình,câu nay như một lời nhận định hậu quả khi sự dối trá được lặp đi lặp lại, đưa đến mức
độ mà nó trở thành một phần không thể thiếu của thực tế, thậm chí khiến cho sự phân
biệt giữa sự thật và sự giả mạo trở nên mông lung Trong một xã hội ngay nay, nơi
mà thông tin lan truyền với tốc độ chóng mặt qua các nền tảng trực tuyến, nguy cơ
của tin giả trở nên ngày càng lớn Lan truyền thông tin không chính thống có thể tạonên sự nhằm lẫn và khủng hoảng tâm lý trong cộng đồng Sự mất niềm tin không chỉ
ảnh hưởng đến sức mạnh đoàn kết xã hội mà còn mở ra khả năng mất ôn định và lantruyền hiệu ứng tiêu cực qua các tang lớp xã hội.
Trang 15Trong thời đại số hóa hiện dai, sự tăng nhanh chóng của lượng thông tin và dir liệukhiến cho việc xử lý dữ liệu lớn ngày càng phổ biến nhiều hơn Với lượng thông tingia tăng đột ngột, tình trạng hỗn loạn và khó kiểm soát Xử lý dit liệu lớn ngày càngtrở nên quan trọng, đặc biệt là trong bối cảnh nguồn thông tin ngày càng da dạng và
phức tạp như hiện nay Quá trình thu thập và phân tích dữ liệu lớn đóng một vai trò
quan trọng trong việc đối mặt với van đề tin giả Nó mang lai cái nhìn tông thé về xu
hướng thông tin, nguồn gốc và cách tin đồn lan truyền Đối với nhóm nghiên cứu, sử
dụng công nghệ Big Data không chỉ giúp xây dựng mô hình máy học và phân loại
thông tin hiệu quả mà còn hỗ trợ trong công tác ngăn chặn và nhận diện tin giả một
cách chính xác.
Trong thời đại chuyên đôi số, sự bùng nô của dit liệu lớn là một điều có thé dễ dàngnhận ra Khi lượng thông tin tăng đột ngột với mức độ hỗn loạn khó mà biết trướcđược Xử lý dữ liệu lớn đóng vai trò quan trọng trong việc hiểu và giải quyết van détin giả nhất là trong bối cảnh các nguồn thông tin ngày càng đa dạng và có phần hỗnloạn như ngày nay Việc thu thập và phân tích dữ liệu lớn có thể cung cấp cái nhìntoàn diện về xu hướng thông tin, nguồn gốc, và sự lan truyền của tin đồn Nhómnghiên cứu có thể sử dụng công nghệ Big Data đề xây dựng các mô hình máy học và
phân loại thông tin một cách hiệu quả, từ đó giúp ngăn chặn và nhận diện tin giả.
Một xu hướng đang nổi lên gan đây là phương pháp Online Learning Phương pháp
Online Learning đóng vai trò quan trọng trong việc giải quyết bài toán nhận diện sựtin cậy của tin tức trên mạng xã hội, đặc biệt là trong bối cảnh ngày nay, khi thôngtin truyền tải qua các nền tảng trực tuyến ngày càng phức tạp và đa dạng Đối với bàitoán nhận diện sự tin cậy, sự thích hợp của phương pháp Online Learning xuất phát
từ khả năng linh hoạt và tự động hóa của nó Mô hình học trực tuyến có khả năng cậpnhật và điều chỉnh chính mình dựa trên đữ liệu mới, giúp nó duy trì độ chính xác vàhiệu suất trong thời gian thực Điều này rất quan trọng khi đối mặt với môi trườngtruyền thông thường xuyên thay đổi, với những thông tin mới xuất hiện liên tục Khanăng học tập liên tục của phương pháp này cho phép nó nắm bắt các xu hướng mới
và thậm chí là những chiên lược mới của người tạo ra tin đôn Nó không chỉ giúp
Trang 16nhận diện những thông tin không chính thống một cách nhanh chóng mà còn địnhhình lại mô hình dựa trên sự thay đổi của thế giới truyền thông Hơn nữa, sự tích hợpgiữa phương pháp Online Learning và dữ liệu lớn giúp tối ưu hóa quá trình học máy.Việc này không chỉ giúp mô hình trở nên mạnh mẽ hơn mà còn tạo điều kiện cho việcphân tích các biểu hiện đặc trưng của tin tức trên mạng xã hội một cach chi tiết và
toàn diện.
Nhận thức được sự nguy hiểm của tin giả sẽ gây ảnh hưởng đến xã hội và cộng
đồng cùng với sự hiểu biết về sức mạnh của phương pháp học trực tuyến và sự cần
thiết của việc xử lý dữ liệu lớn trong bài toán này Nhóm quyết định chọn đề tài này
dé có thể nghiên cứu về một hệ thống có thé góp phan nào trong việc giải quyết van
đê nhức nhôi nay.
1.3 Mục tiêu khóa luận
Trong phạm vi của nghiên cứu này, tập trung vào việc xây dựng một hệ thống nhậndiện sự tin cậy của tin tức, nhằm hỗ trợ người sử dụng trong quá trình xác minh thôngtin Mục tiêu chính là cung cấp một công cụ giúp tiết kiệm thời gian cho người đọc
và người tiêu dùng thông tin Đồng thời, hệ thong này cũng cho phép người dùng thé
hiện sự phản đối đối với kết quả của mô hình, nhằm tăng tính khách quan trong quátrình xây dựng và cải thiện bộ dit liệu đầu vào cho mô hình Qua việc cho phép ngườidùng tham gia vào quá trình đánh giá, cung cấp những ý kiến và đánh giá chỉ tiết về
sự tin cậy của tin tức, chúng em hy vọng rằng mô hình có thê học được những đặc
trưng mới va cải thiện kha năng nhận diện thông tin chính xác trên mang xã hội Mụctiêu cuối cùng của dự án là tạo ra một công cụ linh hoạt, hiệu quả và có tính tương
tác cao, góp phần nâng cao khả năng đánh giá và xác minh tin tức của người sử dụngtrong môi trường truyền thông ngày nay Các mục tiêu của nghiên cứu này bao gồm:
e Phat triển hệ thống thu thập dữ liệu: Trong quá trình phát triển, một trong
những ưu tiên hàng đầu là xây dựng một hệ thong sử dụng công nghệ dữ liệu
lớn đề thu thập thông tin từ Internet và người sử dụng Điều này sẽ bao gồm
Trang 17cả việc xử ly dit liệu từ nguồn không đồng nhất, đồng thời tận dụng sức mạnh
của dit liệu lớn dé cung cấp cơ sở dit liệu đa chiều và phong phú Qua đó, ta
có thể tạo ra một nguồn dữ liệu đủ lớn dé huấn luyện và cập nhật các mô hình
deep learning theo phương thức học trực tiếp
Xây dựng hệ thống đánh giá trọng số nguồn tin: Một thành phan quan trọngkhác là phát triển hệ thống đánh giá trọng số của nguôn tin Hệ thống này sẽkhông chỉ dựa trên nguồn tin chính thống mà còn xem xét độ truyền thông củatin tức từ các nguồn này Điều này sẽ giúp xây dung một hệ thống đánh giá tin
tức đa chiều, tích hợp cả các yếu tố về sự tin cậy và ảnh hưởng truyền thông
Phát triển hệ thống xử lý thông tin phân tán: Hệ thống sẽ có khả năng xử lýthông tin phân tán, giúp tôi ưu hóa quá trình huấn luyện mô hình theo phươngpháp phân tán Điều này là quan trọng dé dam bao sự linh hoạt và hiệu quả của
hệ thống, đặc biệt là khi phải đối mặt với số lượng người dùng lớn và sự đa
dạng của các nguôn tin tức.
Nghiên cứu và phân tích đặc trưng ảnh hưởng đến mô hình: Một phần quan
trong của khóa luận là nghiên cứu và phân tích các đặc trưng có thé ảnh hưởng
đến hiệu suất của mô hình nhận diện sự tin cậy của tin tức Điều này bao gồm
việc xem xét cách các yếu tô như nguồn tin, sự tin cậy, độ phổ biến ,của tintức có thê ảnh hưởng đến khả năng dự đoán của mô hình Điều này sẽ giúp
hiệu rõ hơn về tác động của các biên sô nay đôi với hiệu suât của hệ thông.
Xây dựng một tiện ích mở rộng trên trình duyệt: Viết một tiện ích mở rộng
giúp cho người dùng có thể dé dàng nhận biết sự tin cậy của tin tức từ mô
hình thông qua giao diện người dùng Ngoài ra tiện ích này sẽ cung cấp cơchế cho người dùng dé góp ý và phản hồi vào quá trình xử lý và đánh giá tin
tức, và có khả năng không đông ý với dự đoán của mô hình.
Trang 181.4 _ Đối tượng và phạm vi nghiên cứu
Đối tượng: Hệ thống nhận diện sự tin cậy của tin tức và các phương pháp học sâu để
giải quyét bài toán nhận diện sự tin cậy của tin tức.
Phạm vi: Khóa luận tập trung chủ yêu vào việc xây dựng hệ thông nhận diện sự tin
cậy của tin tức, cùng với việc nghiên cứu tính hiệu quả của các đặc trưng trong hiệu suât của mô hình.
e Vé giới hạn nghiên cứu phân tích đặc trưng: Khóa luận sẽ tập trung nghiên
cứu về sự tác động của các đặc trưng (Độ phô biến của tin tức, sự giật tít,
nguôn, tiêu dé, nội dung) đôi với hiệu suat của mô hình.
e Vé giới hạn nghiên cứu triển khai hệ thống: Khóa luận sẽ tập trung nghiên cứu
về cách khai triển hệ thống có khả năng xử lý đữ liệu lớn và thời gian thực từ
người dùng.
«Ắ Về giới hạn thời gian nghiên cứu: Khóa luận được thực hiện và nghiên cứu
trong khoảng thời gian từ 02/10/2023 đến ngày 21/12/2023 nên các kết quả
thực nghiệm được thực hiện giới hạn trong phạm vi thời gian nay.
1.5 Cac nội dung chính
Khóa luận này sẽ gồm 9 chương với các nội dung chính lần lượt như sau:
Chương 1 Mở dau: đặt ra các van dé, trình bày lý do thực hiện khóa luận này dé giảiquyết các vấn đề nhận diện sự tin cậy của tin tức Tiếp đến là thiết lập các mục tiêucần đạt được Cuối cùng, giới thiệu sơ lược nội dung của từng chương trong khóa
luận.
Chương 2 Tổng quan: giới thiệu về đề tài nhận diện sự tin cậy của tin tức trên mạng
xã hội Đặc biệt là tính ứng dụng thực tế của đề tài này trong việc hỗ trợ người dùng
phân tích sự tin cậy của tin tức.
Chương 3 Nghiên cứu liên quan: giới thiệu các công trình nghiên cứu trong và ngoài
nước liên quan dén bai toán nhận diện sự tin cậy của tin tức.
Trang 19Chương 4 Cơ sở lý thuyết: trình bày các kiến thức nền tảng mà chúng em áp dụng
dé xây dựng các phương pháp tiếp cận nhằm mục đích giải quyết các bài toán đã đặt
ra trong đề tài này
Chương 5 Triển khai hệ thống thu thập dữ liệu tự động : Trình bày quy trình xây
dựng hệ thống thu thập dữ liệu tin tức từ các trang báo có uy tín và những trang tin lá
cải, bảo nhảm hoặc từ các blog cá nhân đưa ra các quan điểm gây tranh cãi và chưađược kiểm chứng Đồng thời đưa ra các thống kê chỉ tiết và phân tích các đặc điểm
của dữ liệu, từ đó rút ra một vài góc nhìn thấu suốt về dit liệu đầu vào
Chương 6 Cài đặt thử nghiệm các mô hình: trình bày các bước thiết lập cùng cài đặtchỉ tiết cho các siêu tham số và thiết bị dùng để huấn luyện các mô hình học sâu.Ngoài ra trong phần này cũng sẽ giới thiệu thêm về các mô hình sẽ được sử dụng
trong đề tài
Chương 7: Triển khai hệ thong xử lý dữ liệu lớn và học trực tuyến tích hợp với các
mô hình học sâu: trình bày về các bước xây dựng hệ thống xử lý dữ liệu lớn từ các
dữ liệu streaming từ người dùng cũng như từ hệ thống thu thập dé liệu từ các nguồntrên các trang báo, cách thức xây dựng hệ thống áp dụng phương pháp học trực tuyến
cho các mô hình học sâu trong bài toán.
Chương 8 Đánh giá và kết quả: trình bày các kết quả mà chúng em đã thu được đồngthời thực hiện đánh giá, giải thích các kết qua đạt được đó và phân tích các yếu tố ảnhhưởng đến hiệu suất mô hình Đồng thời, đánh giá hiệu suất của hệ thống
Chương 9 Kết luận và hướng phát triển: tổng kết các thành quả đã dat được và déxuất các phương pháp trong tương lai dé cải thiện hiệu suất của mô hình
Trang 20CHƯƠNG 2 TONG QUAN
2.1 Gidi thiệu đề tài
Trong thời đại số hóa ngảy nay, mạng xã hội trở thành một bản đồ phức tạp của sự
tương tác xã hội và truyền thông Trong ngữ cảnh này, vẫn đề về sự tin cậy của tintức trên mạng xã hội trở nên ngày càng nổi bật và quan trọng Cùng với sự phố biến
của thông tin và sự đa dạng của nguồn tin, việc nhận diện sự tin cậy của tin tức trênmạng xã hội trở thành một thách thức lớn đối với cả người sử dụng thông thường và
các tô chức nghiên cứu.
Đặc biệt, sự xuất hiện ngay cảng nhiều của tin đồn, tin giả, và thông tin không chínhthống đã làm mờ đi ranh giới giữa sự thật và sự hiểu lầm Trong bối cảnh này, việcxây dựng một hệ thong nhận diện sự tin cậy của tin tức trên mạng xã hội trở thành
một ưu tiên hàng đầu, với sự kết hợp của công nghệ dữ liệu lớn và phương pháp học
trực tuyến (Online Learning) dé đối mặt với quy mô và tốc độ của thông tin trên
mạng Công nghệ dữ liệu lớn đóng vai trò quan trọng trong việc xử lý và phân tích
lượng lớn thông tin từ mang xã hội Việc này không chỉ giúp xác định xu hướng va
nguồn gốc của tin tức mà còn tạo ra cơ sở dữ liệu đa chiều, phản ánh chính xác vàday đủ nhất về nội dung trên mang Đồng thời, phương pháp học trực tuyên mang lai
tính linh hoạt và khả năng cập nhật liên tục, giúp mô hình có khả năng học từ dữ liệu
mới và điều chỉnh chính mình dựa trên sự thay đổi của thế giới truyền thông ngày
nay.
Mục tiêu hàng đầu của dự án là phát triển một hệ thống nhận diện sự tin cậy của tin
tức trên mạng xã hội, đặt trọng điểm vào việc tận dụng sức mạnh của dữ liệu lớn và
tính linh hoạt của học trực tuyến Đồng thời, chúng em cũng đặt nặng vào việc xây
dựng thực nghiệm và tiễn hành phân tích sâu rộng về các đặc trưng khác nhau Quaquá trình này, chúng em hướng đến việc hiểu rõ hơn về tác động của từng đặc trưng
đối với mô hình, từ đó cung cấp một cái nhìn tổng thể về sự ảnh hưởng của chúng
đến hiệu suất của mô hình nhận diện Hệ thống này không chỉ hỗ trợ người sử dụng
Trang 21trong quá trình xác minh thông tin mà còn tạo ra một cộng đồng tương tác, cho phépngười dùng phản đối kết quả của mô hình và đóng góp vào quá trình đào tạo, giúp
mô hình ngày càng hiệu quả và chính xác Điều này mở ra triển vọng mới trong việcxây dựng một hệ thống nhận diện tin cậy độc đáo, chủ động và có khả năng học tập
liên tục trong môi trường mạng xã hội ngày nay.
Nhiều vấn đề tương tự đã thu hút sự quan tâm của cộng đồng nghiên cứu, chăng hạnnhư những nghiên cứu về nhận diện tin giả hay tin thật, cũng như việc thực hiện kiểmtra sự thật (Fact-Checking) Tuy nhiên, bai toán cu thé về việc xác định một tin tức là
sự thật hay giả đặt ra những thách thức đặc biệt, bởi vì tính chủ quan trong đánh giá
này phụ thuộc vào quan điểm và góc nhìn của từng người đọc Một sự kiện hay thông
tin cụ thể có thể được báo cáo từ nhiều góc độ và quan điềm khác nhau Điều này làm
tăng độ khó khăn trong việc xác định tính chân thực của tin tức Từ những lý do trên,
nghiên cứu này được đặt tên là "Nhận diện sự tin cậy” Trong ngữ cảnh của bài toán
này, sự tin cậy được đặt vào những nguồn tin chính thống tại Việt Nam Quá trìnhnhận diện sự tin cậy ở đây liên quan đến VIỆC kiểm tra xem thông tin đầu vào có xuấthiện trên các nguồn tin nào, đồng thời khám phá và sử dụng các đặc trưng đặc biệt
của nó đề đưa vào mô hình đánh giá Điều này giúp xác định mức độ tin cậy của mỗithông tin dựa trên nguồn tin và các đặc trưng liên quan, đồng thời mang lại cái nhìn
toàn điện về tính chân thực của thông tin
Luông của bài toán:
Đâu vào: Thông tin của các tin tức Đâu ra: Kêt quả về sự tin cậy của mô hình
10
Trang 222.2 Tính ứng dụng của dé tài
Đề tài về này không chỉ là một dự án nghiên cứu về đơn thuần về lý thuyết và thựcnghiệm mà còn là một nỗ lực tích hợp lý thuyết và ứng dụng thực tiễn trong bối cảnh
xã hội ngay nay Công trình này không chỉ có ý nghĩa trong lĩnh vực nghiên cứu ma
còn mở ra nhiều triển vọng ứng dụng có ý nghĩa, có thé thay đôi cách chúng ta nắmbắt và đánh giá thông tin trên mạng xã hội
Một ứng dụng quan trọng của đề tài là giúp người sử dụng mạng xã hội có khả năng
xác minh tính chính xác của thông tin một cách nhanh chóng và thuận lợi Trong một
thế giới đầy với thông tin chóng mặt và đôi khi là những tin đồn, khả năng phân biệt
giữa sự thật và tin giả trở thành một kỹ năng quan trọng Hệ thống nhận diện sự tin
cậy, đặc biệt là khi kết hợp cả đữ liệu lớn và phương pháp học trực tuyến, sẽ là mộtcông cụ hữu ích dé người sử dung có thê đối mặt với thách thức này
Đồng thời, ứng dụng của đề tài cũng có sự hỗ trợ đặc biệt cho các tổ chức truyền
thông, nghiên cứu, và chính trị Các tổ chức truyền thông có thé sử dụng hệ thống đểkiểm tra và xác nhận thông tin trước khi đưa ra công bó, giúp tăng tính chính xác và
uy tín của bản tin Nghiên cứu và các tô chức chính trị cũng có thể tận dụng đề tài đểtheo dõi sự lan truyền của thông tin và đánh giá sự tin cậy của nguồn tin
Khả năng xây dựng thực nghiệm và phân tích các đặc trưng khác nhau trong đề tàiđồng thời giúp chúng ta hiểu rõ hơn về cách từng yếu tố ảnh hưởng đến hiệu suất của
mô hình Điều này không chỉ hỗ trợ người nghiên cứu mà còn mở ra khả năng tùychỉnh và cải thiện hệ thống theo thời gian Việc này giúp đề xuất những phương pháp
và chiến lược mới, làm giàu thêm kiến thức về mối liên quan giữa các đặc trưng và
sự tin cậy của thông tin.
Ngoài ra, khả năng tương tác của hệ thống với cộng đồng người dùng là một yếu tố
quan trọng Người dùng không chỉ là người tiêu thụ thông tin mà còn là những người
có thê đóng góp vào quá trình đào tạo của mô hình Sự chủ động và tích cực của cộngđồng này tạo ra một môi trường học tập liên tục và linh hoạt, giúp mô hình ngày càng
hoàn thiện va dang tin cậy hơn theo thời gian.
lãi
Trang 23Cuối cùng, đề tài này không chỉ đơn thuần là một dự án nghiên cứu mà còn là sự đóng
góp ý nghĩa cho xã hội trong việc xây dựng một môi trường trực tuyến an toàn, minh
bạch và đáng tin cậy Từ đó, chúng ta có thé đối mặt với những thách thức của thé
giới trực tuyến ngày nay với tỉnh thần tự tin và kiến thức rộng lớn
2.3 Thách thức
Bài toán nhận diện sự tin cậy của tin tức trên mạng xã hội, đặc biệt khi kết hợp các
công nghệ dữ liệu lớn và phương pháp học trực tuyến (Online Learning), đối mặt vớinhiều thách thức lớn Một trong những thách thức quan trọng nhất là tính đa dạng và
độ phức tạp của thông tin trên mạng.
Thách thức đầu tiên là sự đa dạng của nguồn tin Mạng xã hội là một nên tảng chongười dùng từ nhiều lĩnh vực, ý kiến, và văn hóa khác nhau, tạo ra một không gian
thông tin vô cùng đa dạng Việc phải xử lý và nhận diện sự tin cậy của thông tin từ
các nguồn có tính chất và hướng tiếp cận khác nhau đòi hỏi một hệ thống linh hoạt
và khả năng thích ứng cao.
Thách thức tiếp theo là sự độc lập và thay đôi nhanh chóng của thông tin Trong mộtmôi trường mạng xã hội day sự độc lập và tính chat tự do, thông tin có thé thay đôinhanh chóng và không có sự kiểm soát đồng nhất Điều này đặt ra một thách thứctrong việc duy trì một mô hình nhận diện có khả năng thích ứng với những biến động
không ngừng của thông tin mạng.
Thách thức thứ ba là tính không chắc chắn của nguồn tin Trên mạng xã hội, thôngtin có thể xuất phát từ nguồn đáng tin cậy như các tổ chức truyền thông lớn, nhưngcũng có thé bắt nguồn từ người dùng cá nhân không kiểm soát được Điều này tạo ramột bài toán phức tạp trong việc xác định và đánh giá sự tin cậy của từng nguồn thông
Trang 24dựng một mô hình nhận diện có khả năng phản ánh đúng nhất mức sự tin cậy theoquan điểm đa dạng này.
Thách thức về chi phí trong việc vận hanh toàn bộ hệ thống nhận diện sự tin cậy củatin tức trên mạng xã hội là một khía cạnh quan trọng cần xem xét Đề triển khai một
hệ thống hiệu quả, đòi hỏi đầu tư đáng kể không chỉ trong việc mua sắm và duy trì
các thiết bi phần cứng mà còn trong việc quản ly dit liệu và băng thông Trong giaiđoạn huấn luyện mô hình, yêu cầu sử dụng nhiều GPU là không thể tránh khỏi dé
đảm bảo tốc độ và hiệu suất cao Điều này đồng nghĩa với việc cần phải đầu tư một
lượng lớn tài nguyên tài chính để mua sắm và duy trì các thiết bị này Khi triển khai
hệ thống dé phục vụ đồng thời nhiều người dùng, sự xuất hiện của nhiều nhân bancho dịch vụ của mô hình để đảm bảo sự phản hồi nhanh chóng đặt ra thách thức vềchỉ phí băng thông và lưu trữ Việc truyền và lưu trữ đữ liệu lớn, đặc biệt là trong môitrường mạng xã hội với lượng thông tin đồ sộ, đòi hỏi một cơ sở hạ tầng mạng và hệthống lưu trữ mạnh mẽ và đồng thời là một chi phí đáng kẻ
13
Trang 25CHƯƠNG3 NGHIÊN CUU LIÊN QUAN
3.1 Tinh hình nghiên cứu trên thế giới
Tính đến thời điểm hiện tại, nghiên cứu về nhận diện sự tin cậy của tin tức trên mạng
xã hội đã chủ yếu tập trung vào việc sử dụng các phương pháp giám sát, trong khi
các phương pháp bán giám sát hoặc không giám sát ít được áp dụng Các mô hình
sau là những mô hình phân loại thường được sử dụng trong các bài toán:
Phương pháp học máy truyền thống: Các mô hình phân loại phổ biến như Máy Vector
Hỗ Trợ (SVM) hay Mô Hình Phân loại Naive Bayes (NBC) thường được sử dụng vàthường được coi là các mô hình cơ sở Đôi khi, các mô hình như cây quyết định nhưRandom Forest Classifier (RFC) và hồi quy Logistic (LR) va cũng được sử dụng
trong bài toán.
Phương pháp học sâu: Mô hình Mạng Nơ-ron Tái Phát (RNN) đặc biệt là Long
Short-Term Memory (LSTM) hay Gate Recurrent-Unit (GRU) đã chiếm vị trí quan trọng
Sự phổ biến của LSTM trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đồng nghĩa với
khả năng giải quyết van đề biến mat độ dốc, từ đó, mô hình có khả năng nắm bắt được
các phụ thuộc dai hạn trong ngôn ngữ Các nghiên cứu tiên tiễn đã chứng minh hiệusuất ưu việt của các mô hình dựa trên LSTM khi áp dụng cho các tập dữ liệu nhưLIAR và FEVER Ngoài ra, Mạng Nơ-ron tích chập (CNN) cũng là một lựa chọn phổ
biến, đặc biệt là trong việc xử lý các nhiệm vụ phân loại văn bản Các mô hình sử
dụng CNN, như mô hình dựa trên công trình của Kim (2014), đã đạt hiệu suất ấntượng Đặc biệt, việc kết hợp các biểu diễn văn bản từ LSTM hai chiều cùng với CNN
đã mang lại kết quả tốt Các cơ chế chú ý (Attention Mechanisms) thường được tíchhợp vào mô hình mạng nơ-ron dé cải thiện khả năng hiểu bài toán và từ đó cải thiện
hiệu suât.
Tiếp Cận Rhetorical: Lý thuyết Cấu Trúc Tu từ (RST), đôi khi kết hợp với Mô Hình
Không Gian Vector (VSM), cũng được áp dụng để nhận diện tin giả RST là một
khung phân tích cho tính nhất quán của một câu chuyện và thông qua định nghĩa vai
trò ngữ nghĩa của các đơn vị văn bản, nó có thê xác định ý chính và phân tích đặc
14
Trang 26tính của văn bản đầu vào Phương pháp này đưa ra kết quả bằng cách sử dụng VSM
dé chuyền đổi văn bản tin tức thành vector, sau đó so sánh chúng với trung tâm của
tin tức đúng và tin tức giả trong không gian RST nhiều chiều
Thu Thập Bằng Chứng: Phương pháp dựa trên Nhận Diện Văn Bản Trình Bày (RTE)
thường được sử dụng dé thu thập và sử dung bằng chứng RTE là nhiệm vụ nhận diện
mối quan hệ giữa các câu Bằng cách thu thập các câu ủng hộ hoặc phản đối từ nguồn
dữ liệu như bài báo, chúng ta có thể dự đoán xem thông tin đầu vào có đúng haykhông Phương pháp này yêu cầu có bằng chứng văn bản để kiểm tra sự đúng đắn,
do đó chỉ thích hợp khi tập dữ liệu bao gồm bằng chứng, như FEVER và Emergent
Bảng mô tả kết quả hiện tại của một sỐ nghiên cứu trên tập dữ liệu LIAR Các kết
quả này thể hiện hiệu suất của các mô hình, bao gồm cả mô hình sử dụng SVMs,
Trang 27Bhattacharjee | 2-class label NLP 0.921
[18] Shallow (CNN) 0.962
Bảng 3.1 Bang kết quả của các phương pháp trên tập dữ liệu LIAR [4]
Bảng này cho thấy sự đa dạng trong hiệu suất của các mô hình trên tập dữ liệu LIAR,với một số mô hình đạt độ chính xác khá cao Tuy nhiên, vẫn còn nhiều thách thức
và cơ hội nghiên cứu mà các nhóm nghiên cứu đang tập trung giải quyết
3.2 Tình hình nghiên cứu ở Việt Nam
Hiện nay, việc xác định sự chính xác của thông tin trên mạng và trên các trang tin tức
ở Việt Nam ngày càng trở nên phố biến và quan trọng hơn Các tổ chức và trường daihọc ở Việt Nam đang tích cực tham gia vào việc nghiên cứu vấn đề này Môi trườngtruyền thông xã hội và các trang tin tức đang đăng tải thông tin một cách không rõràng, gây hiện tượng thông tin thật và tin giả giao nhau Sự cần thiết của việc giải
quyết bài toán này ở Việt Nam đang ngày càng tăng lên
VLSP 2020 [2] tổ chức một cuộc thi về phát hiện tin giả, với mục tiêu đánh giá tính
đáng tin cậy của thông tin được chia sẻ trên mạng xã hội Việt Nam Cuộc thi này
cung cấp cơ hội cho các cá nhân quan tâm đến vấn dé này, dé góp phần nâng cao trithức và cải thiện môi trường trực tuyến vì mục tiêu xã hội tốt đẹp Trong cuộc thi,nhóm của Hieu Cao-Nguyen-Minh đã đoạt giải với điểm cao nhất trên tập dữ liệukiểm thử riêng tư, sử dụng phương pháp Weighted ensemble SVM + LightGBM và
đạt được điểm AUC là 0.9523 Nhóm tác giả đã tiến hành phân tích các đặc trưng
như nội dung, số lượt thích, lượt bình luận và thời gian dang bai viét dé dat duoc két
qua nay.
Gần đây, nhóm của Khoa Dang-Pham cũng đã cố gang cải thiện này giới thiệu mộtphương pháp kết hợp sử dụng mô hình ngôn ngữ được huấn luyện trước gọi làvELECTRA kết hợp với các đặc trưng được tao bằng tay dé nhận diện thông tin đáng
tin cậy trên các trang mạng xã hội tại Việt Nam Nghiên cứu này sử dụng hai phương
pháp chính, bao gồm: điều chỉnh mô hình bằng việc sử dụng dit liệu văn bản một
16
Trang 28cách độc lập và kết hợp thông tin siêu dir liệu bổ sung với văn bản dé tạo biểu diễn
đầu vào cho mô hình Kết quả của phương pháp này cho kết quả nhỉnh hơn so với cácphương pháp BERT tỉnh chỉnh khác và đạt được kết quả tốt nhất trên tập dữ liệuReINTEL được công bố bởi VLSP năm 2020 với thang đo AUC đạt 0.9575
17
Trang 29CHƯƠNG 4 CƠ SỞ LÝ THUYET
4.1 Cac góc độ đề nhận diện sự tin cậy của tin tức
Trong lĩnh vực nhận diện sự tin cậy của thông tin, chúng ta phải đối mặt với một loạt
các yêu tố phức tạp Tâm lý học của người đọc đóng vai trò quan trọng, đặc biệt quatác động của phương tiện truyền thông, nơi mà mối liên hệ giữa cách thông tin được
truyền tải và tác động đến quan điểm cũng như hành vi của độc giả được nghiên cứu.Tin tức không đáng tin cậy có thể tạo ra tác động tiêu cực, tích cực, hoặc thậm chíkhông tạo ra tác động gi, tùy thuộc vao cách mà thông tin được truyền tải [2] Gócnhìn về tư duy và nhận thức cũng là một khía cạnh quan trọng, tập trung vào cáchngười đọc tiếp nhận và xử lý thông tin Sự phụ thuộc vào phương tiện dé đánh giá sự
tin cậy của thông tin là một điểm quan trọng, và lý thuyết này giúp ta hiểu cách quá
trình này diễn ra [3] Trong phân tích ngôn ngữ và văn bản, lý thuyết về ngôn ngữkhông đáng tin cậy chú ý đến các đặc điểm ngôn ngữ trong tin tức không đáng tin.Việc sử dụng từ vựng mang tính cảm xúc mạnh mẽ, câu châm biếm, hoặc thông tinkhông xác thực đều là những dấu hiệu đặc trưng của thông tin này Hiểu biết kiếnthức và sự đồng thuận đóng vai trò quan trọng trong việc đánh giá sự tin cậy Ngườiđọc thường tin tưởng vào thông tin từ những nguồn mà họ coi là đáng tin cậy và cóquan điểm tương đồng Trong bối cảnh xã hội và cộng đồng, góc độ về ảnh hưởng xãhội nghiên cứu cách xã hội, cộng đồng và nhóm ảnh hưởng đến cách mà tin tức đượchiểu và đánh giá Ngữ cảnh đóng một vai trò quan trọng trong việc đánh giá sự tincậy [4] Tin tức được đặt trong ngữ cảnh rõ rang va đầy đủ thường có khả năng cao
hơn dé được xem là đáng tin cậy Việc kiêm tra thông tin từ nhiều nguồn cũng là một
cách đề đảm bảo sự chính xác và sự tin cậy của thông tin Mẫu tin ở hình 4.1 là một
ví dụ tiêu biểu về việc những tin túc giả mạo được lưu truyền trên mạng xã hội Tin
tức này sau đó được nhà VTV và các bên có liên quan lên tiếng là tin giả Tuy nhiên,trong thời điểm tin tức này được phát tán đã gây một sự hỗn loạn trong dân chúng
18
Trang 30UEH Confessions
= S4m- 23
#33306
11/01/2023 0:18:00
Minh xin nương nhờ bên day để tâm sự ạ.
Chao toàn thể các bạn sinh viên, chuyện là chiều hôm nay, thứ 3 ngày 10 thang 1 năm 2023 Một
đứa bạn mình bên HUF*** đi quản sự bị hi*p d*m, xong nhảy lầu.
Minh thực sự rất bức xúc cũng như bất lực, buồn tdi vì mình thiếu quyền lực để bảo vệ bạn bè,
không thể làm chủ cho bạn ấy Nếu mình bị yêu cầu xóa bảo viết hay sao đó thì các bạn cũng tự
hiểu là mình bí một thé lực nào đó yêu cầu rồi đó.
Nguyễn nhân do ban quản lý bên Trường quan sự quan khu * thé não lại để xảy ra thế này, xong
bền trường HUƑ”** A trường quần sự ém nhẹm vi danh tiếng và doanh thu trưởng nếu bi tai
tiếng.
Miột số đứa bạn khác của minh hiện tai vừa sơ vừa cảm phần va bất luc Vì sao? Vi chúng mình
thuộc tầng lớp sinh viên, chẳng dang là gì so với lợi ích của ho.
Cơm thì làm ăn cho có, ở thi nhiều drama, sợ sệt bị hi*p d*m, quay lén, đăng bên page trường thi
đôi khi cũng bị gây áp lực; xóa hỏ nên mình chỉ cả thể qua bên day để tâm sự cũng như nhắc nhở
các bạn di quan sự nhớ cẩn than, bởi một lũ cam thủ sẽ luôn để mắt chực chờ ăn các bạn, và sẽ
có một thế lực chân vùi, êm nhẹm sự việc sau khi xong Đã có nhiều vụ xảy ra trước đó rồi, không
phải lần đầu, vụ đầu tiền là 12 năm trước.
Một vụ khác là bên nhóm kia, duyệt văn nghệ cho buổi biểu diễn ngày 12/1, mọi người đang vui
về chơi với nhau Xong có nhiều bạn tự tan ra chơi, Bạn kia bị may anh dan quân kéo vào cởi áo
ra May là có thầy đi ngang qua nên chưa có sao Nói chứ cũng tổn thương tinh thần rồi.
Không biết các bạn thế nào, riết rồi minh thấy xã hội này không còn công bằng, chỉ có mạnh
thẳng yếu thua, lợi ich gidm dap lên tình người.
Xã hội này chẳng ai có thể bảo vẽ chúng †a ngoài chính chúng ta đầu Đừng tin một tổ chức nào
cả.
Một hệ thống thối nát, chỉ khí trong chăn mới biết chăn có ran.
Đây cũng là động lực cho bản thần cũng như một số ban để phát triển bản than, xây dựng đất
nước nhằm tiêu diệt bọn xâu bọ súc sinh may.
Do bức xúc quá với không thể dùng từ nào sạch sẽ hơn để diễn tả sự do ban trong tam hồn
những kẻ lãnh đạo cùng mệt bỏ phan tha hóa của tổ chức này Mong các bạn thông cảm.
Một lần nữa minh xin gửi đến các ban một lài nhắn nhủ tân day lòng:” ĐỪNG ĐẶT SỰ AN TOAN
cua BẢN THÂN VÀO TAY BAT CU AI, HAY DOAN KẾT BẢO VỆ NHAU KHÔI NHỮNG CON THU DU
NAY".
Ma bản chất là do chúng ta quá yếu đuổi nên mới bị ap bức, đừng tưởng áp bức không chỉ có ở
thời chiến ngày xưa, ma bay giờ cũng có nên khi sự việc xảy ra, hd hé lên mới bị dan ap.
Một lí do quan trong nữa là do SỰ IM LANG VÀ PHOT LO CUA NGƯỜI TỐT.
Minh bay giờ rối lắm, chưa biết phải lam gi để giúp đỡ, vu đắp cho ban ấy một cách hợp lý nữa.
Đây vừa là tổn thương tinh thần lan thể xác.
Hơn nhau ở việc chọn nền vấn mình, bon minh kha hối han khi vào học trường nay, để bị đi quan
oue Han Tử Ngõ, Linh Dan and 6,2K others 2.6K comments 1,4K shares
Hình 4.1: Một mau tin thiếu sự tin cậy vào thời điểm dau năm 2023 nói về việc nữ
sinh HUFLIT bi hiệp dâm và tự tử trong khi học quân sự 4.2 Bài toán nhận diện sự tin cậy của tin tức
Trong thời kỳ số hóa ngày nay, việc xác định sự tin cậy của tin tức trở nên quantrọng hơn bao giờ hết, đặc biệt là trong bối cảnh khoa học máy tính và các thuật toán
19
Trang 31trí tuệ nhân tạo, như học máy và học sâu, đang trở nên phô biên và có khả năng xử lý một loạt các tác vụ.
Trong quá khứ, các thuật toán hoc máy như Naive Bayes, Logistic Regression,
Decision Tree hay Support Vector Machine thường được sử dụng Tuy nhiên, với sự
gia tăng về lượng dữ liệu đa dạng và lớn mạnh, các mô hình học sâu đã dần dần chiếm
lĩnh sự chú ý của giới nghiên cứu.
The History of NLP "mm
IKu
—
Noam Sequence:to- publishes
Chomsky — ALPAC sequence seminal
publishes discredits Pretrained lemingk work Pretained seminalwork the promise word the encoder- “attention tanguage
“Syntactic of machine Late 1980s > 2000 embeddings decoder | isAlYou modgs(eg, 2019 > Today
1957 r Network Architectures 2013 ¡ng 2017 2018
© or -@ * TT ”@.
1950 > Mid 1980s 1985989 1997 Early2000s > 2018 209 2020 2021 2022 2023
Early Days & Rule-Based Recurrent Hidden “tong i RoBERTa, DeBERTa, GPTNeo Flanf5, LLaMa,
Jppr0: Networks Models Memory” sleet GPr-2 BLOOM, Claude
iRNNs) (HMMs) for (SIM) ChatGPT
mô hình ngôn ngữ lớn như BERT, BART, GPT, T5 nổi lên với khả năng xử lý ngôn
ngữ mạnh mẽ và có hiệu suất cao vượt trội trong nhiều tác vụ Trong bối cảnh hiện
đại, việc áp dụng học sâu vào bài toán nhận diện sự tin cậy của tin tức trở nên cực kỳ
phù hợp và tiềm năng Sự tiến bộ của học sâu cung cấp cho chúng ta cơ hội dé nghiêncứu và xây dựng các hệ thống nhận diện tin tức giả một cách hiệu quả, đồng thời nâng
cao khả năng xác định sự tin cậy của thông tin trên các nền tảng truyền thông và mạng
xã hội.
20
Trang 32Xu ly các đặc trưng trong lĩnh vực ngôn ngữ tự nhiên đóng một vai trò vô cùng quan
trọng Như đã được trình bày trong các nghiên cứu liên quan, có thể nhận thấy răng
quá trình xử lý các đặc trưng chịu ảnh hưởng lớn đến quá trình học và hiệu suất của
mô hình Vì vậy, việc nghiên cứu về việc xử lý hoặc trích xuất các đặc trưng là 1 điều
cân phải được coi trọng nhăm cải thiện hiệu suât mô hình hiệu quả hon.
4.3 Cac thuật toán hoc sâu cho bài toán
Trong ngữ cảnh của bài toán nhận diện sự tin cậy của tin tức, chúng ta có thể xem xét
nó như một bài toán phân loại nhị phân, với hai nhãn: 0 (Không tin cậy) va 1 (Tin
cậy) Đối với bài toán này, việc sử dụng các mô hình mã hóa (encoder models) có théđược coi là phù hợp nhất
Ly do chính là bài toán này yêu câu mã hóa rat nhiêu thông tin từ dữ liệu dau vào như
nội dung của tin tức, tiêu đê, sự phô biên của tin tức, và độ uy tín của nguôn tin Trong
khi đó, dit liệu đầu ra chỉ cần phan ánh kết quả dưới dạng nhãn nhị phân
Trong bài toán này, việc áp dụng mô hình học sâu như BERT trở nên ưu việt BERT
là một kiến trúc mô hình được xây dựng trên cơ sở của Transformer, tập trung vàoviệc học biểu diễn ngôn ngữ từ dir liệu với khả năng mã hóa thông tin phong phú vaphức tạp Đặc biệt, BERT tập trung vào thành phần mã hóa (encoder) của mô hình Transformer, chính điều này làm cho nó trở nên rất phù hợp và hiệu quả trong việc
xử ly các yêu câu phức tạp của bai toán nhận diện sự tin cậy cua tin tức.
4.3.1 Mạng Neural Nhân Tạo
4.3.1.1 Các khái niệm cơ bản
Mang Neural Nhân Tao (ANN) là một mô hình tính toán được xây dựng dựa trên
nguyên lý hoạt động của các nơ-ron trong não người Mục tiêu chính của ANN là giải
quyết các vấn đề phức tạp bằng cách mô phỏng khả năng học và phân loại dữ liệu
tương tự như não người.
21
Trang 33Cấu trúc cơ bản của ANN bao gồm các nút (hay còn gọi là nơ-ron), đây là các đơn vị
cơ bản của mạng neural Mỗi nút nhận đầu vào từ nút trước đó hoặc từ dữ liệu đầu
vào, thực hiện các phép tính và truyền kết quả tới nút kế tiếp Mạng neural thường
được chia thành các lớp, bao gồm lớp đầu vào nhận dữ liệu và truyền nó tới các lớptiếp theo, các lớp ân nằm giữa lớp đầu vào và lớp đầu ra, và lớp đầu ra đưa ra kết quả
dự đoán cuối cùng Sự kết nối giữa các nút trong mạng neural được thực hiện thôngqua các trọng số Mỗi kết nối có trọng số tương ứng với mức độ quan trọng của đầuvào đó đối với nút đích Các lớp ân chứa các nút thực hiện các phép tinh dé học va
trích xuất thông tin từ đữ liệu, trong khi lớp đầu ra đưa ra kết quả cuối cùng sau khithông qua các lớp an
4.3.1.2 Quá trình truyền tiến (Feedforwarding)
Quá trình Feedforwarding, hay còn gọi là Truyền Tiến, trong Mạng Neural Nhân Tạo
(ANN) diễn ra khi dữ liệu được truyền qua mạng từ lớp đầu vào đi qua các lớp ân và
cuối cùng đến lớp đầu ra mà không có sự tham gia của chu ky phản hồi Trong quátrình này, dữ liệu được truyền tiễn qua các nút từ lớp này sang lớp khác, trong đó mỗi
22
Trang 34nút thực hiện các phép tính dựa trên thông tin từ các nút trước đó và truyền kết quảtới các nút tiếp theo.
Quá trình này tiến hành theo chiều từ lớp đầu vào, trong đó dữ liệu ban đầu được đưa
vào, đi qua các lớp an, và sau đó đến lớp đầu ra dé tạo ra kết quả cuối cùng Mỗi lớp
trong quá trình Feedforwarding thực hiện các phép biến đổi dit liệu, tạo ra các biểudiễn trung gian dé dan dan trích xuất và biểu diễn thông tin theo cách phù hợp chobài toán cụ thể
Voi x là đầu vào của mang neural, W là ma trận trọng sô va b là véc-tơ độ lệch (bias)
của mỗi nút (hoặc neuron) trong mạng Công thức tính toán đầu ra của một nút tronglớp ân hoặc lớp đầu ra trong quá trình Feedforwarding có thé được biéu diễn như sau:
1 Tinh tổng trọng số đầu vào: z=Wx+b
2 Áp dụng hàm kích hoạt phi tuyến tính: a=f(z)
Trong đó:
e la tong trọng số đầu vào của mỗi nút.
e a là đầu ra của nút sau khi áp dụng hàm kích hoạt.
e ƒ là hàm kích hoạt phi tuyến tinh (ví dụ: hàm sigmoid, hàm tanh, hàm ReLU,
e Wx là phép nhân ma trận giữa ma trận trọng số W với vector đầu vào x.
e bla véc-tơ độ lệch (bias) giúp điều chỉnh và định hình đồng thời với trọng số
Điều này có thé biéu diễn một cách tổng quát cho mỗi nút trong mạng, từ lớp đầu vào
qua các lớp ấn và đến lớp dau ra trong quá trình Feedforwarding Kết quả của mỗi
nút sẽ được truyền tiếp như là đầu vào cho các nút trong lớp tiếp theo, tạo thành mộtchuỗi phép tính truyền tiến cho đến khi thu được kết quả đầu ra cuối cùng của mạng
4.3.1.3 Quá trình lan truyền ngược (Backpropagtion)
Lan truyền ngược (Backpropagation) là quá trình tính toán gradient của hàm mắt mát(loss function) theo các trọng số của mạng neural, bắt đầu từ lớp đầu ra và lan truyền
23
Trang 35ngược lại lớp đầu vào thông qua các lớp an Quá trình này có vai trò quan trọng trong
việc điêu chỉnh trọng sô đê mô hình có khả năng học từ dữ liệu.
Gia sử mạng neural có một ham mat mát J và các trọng sô là W và b của mỗi nút
trong mạng Quá trình lan truyên ngược bat dau từ việc tính gradient của hàm matmát theo đầu ra của lớp cuối cùng o theo quy tắc chuỗi đạo hàm:
trận trọng số W Tiếp theo, gradient này được lan truyền ngược qua các lớp an khác
cho đến khi đạt được các đạo hàm của ham mắt mát J theo các trọng số W và b của
mạng.
4.3.2 Cơ chế Tập trung và Kiến trúc Transformer
Ở cơ sở, ý tưởng chủ đạo của Transformer là Self-Attention, khả năng tập trung vàocác vị trí khác nhau trong dãy đầu vào đề tạo ra biểu diễn cho toàn bộ dãy Đề xử lýđầu vào có độ dài biến đổi, Transformer sử dụng ngăn xếp các lớp Self-Attention thay
vì sự phụ thuộc vào mạng RNN hoặc CNN Kiến trúc này mang lại nhiều ưu điểm[5] như Không giới hạn khái niệm về mối quan hệ thời gian hoặc không gian trong
dữ liệu, tạo điều kiện thuận lợi cho xử lý các đối tượng đa dạng Tuy nhiên, khi đầu
vào chứa các môi quan hệ như trong dữ liệu văn bản, việc thêm vào các lớp biểu diễn
24
Trang 36vị tri (Positional Encoding) là cần thiết Ngoài ra, Các lớp có thé tính toán đầu ra songsong thay vì tuần tự như RNN, giúp tăng tốc quá trình học Thông tin từ xa có thể ảnh
hưởng đến dau ra mà không cần phải đi qua nhiều bước RNN hoặc các lớp tích chập
Transformer có khả năng học các sự phụ thuộc dai hạn, một thách thức trong nhiềunhiệm vụ liên quan đến dãy thời gian
! I
HX |
i
| I
Hình 4.4 Kiến trúc Transformer so với Attention-Seq2Seq (Nguồn [54])
Có thể thấy trong hình trên, Transformer cũng bao gồm một Encoder và một Decoder.Khác với mô hình Seq2Seq, embedding biểu diễn chuỗi đầu vào và đầu ra sẽ được
cộng thêm với thông tin vi trí thông qua Positional Encoding trước khi được đưa vào
Encoder và Decoder dé xếp các module dựa trên Self-Attention một Tang hồi tiếptrong Seq2Seq cũng được thay bằng các Khối Transformer tương ứng Trong đó,Transformer Encoder là một ngăn xếp gồm nhiều lớp Encoder giống nhau, trong đómỗi lớp sẽ có các lớp con, bao gồm: Một tầng Tập trung Da đầu (Multi-HeadAttention): Đây là một đổi mới được giới thiệu trong [51], sử dụng nhiều Self-
25
Trang 37Attention dé học nhiều loại mối quan hệ giữa các từ Một Mạng truyền Xuôi theo VỊ
trí (Position-wise Feed-Forward Network): Bao gồm 2 lớp fully connected với hàm
kích hoạt ReLU ở giữa Các Kết nối tắt (Skip Connection) và lớp Chuan hóa theo
Tang (Layer Normalization): Tăng tốc quá trình học và ngăn chặn mat mát thông tintrong quá trình huấn luyện Transformer Decoder cũng là một ngăn xếp với nhiều lớpgiống nhau và có kiến trúc tương tự như Encoder Nhiệm vụ của nó là giải mã vector
của câu nguồn thành câu đích Trong kiến trúc này, một tang Multi-Head Attentionthêm nằm ở giữa dé tương tác với trạng thái của Encoder và học mối liên quan giữa
từng từ đang được dịch với từng từ ở câu nguồn.Đề dam bảo tính tự hồi quy (autoregressive), Transformer cần che đi (mask) thông tin từ tương lai khi thực hiện Self-
Attention trong quá trình giải mã Mỗi vị trí trong Decoder chỉ sử dụng thông tin từ
các vi trí trước đó, va quá trình nay được gọi là Masked Attention [54] Transformer
Decoder cũng là một ngăn xếp gồm nhiều lớp giống nhau và khá giống kiến trúc của
Encoder, thực hiện chức năng giải mã vector của câu nguồn thành câu đích Khối này
có thêm một tang Multi-Head Attention khác năm ở giữa dé nhận vào trạng thái củaEncoder và học mối liên quan giữ từ đang dịch với các từ ở câu nguồn Cụ thê hon,các câu truy vấn của riêng tầng này sẽ là các đầu ra của lớp Decoder trước đó, còncác cặp khóa và giá trị là từ các đầu ra của Transformer Encoder Còn trong Self-Attention của Decoder, các truy van, cặp khóa và giá trị đều từ đầu ra của lớp Decoder
4.2.3.6 Mô hình BERT
26
Trang 38BERT, viết tắt của Bidirectional Encoder Representation from Transformer, tương
truyền ý niệm về mô hình biểu diễn từ hai chiều sử dụng kỹ thuật Transformer Mụctiêu chính của BERT là huấn luyện trước các biểu diễn từ (pre-trained wordembeddings) Điểm đặc biệt của BERT năm ở khả năng cân bằng bối cảnh từ cả hai
hướng, cả từ phía trái và phải của từ.
Trong Transformer, cơ chế attention cho phép mô hình xử lý toàn bộ các từ trong câuvăn đồng thời mà không phụ thuộc vào hướng của câu Dù được gọi là huấn luyệnhai chiều (bidirectional), thực tế, Transformer có thê được mô tả là huấn luyện khôngchiều (non-directional) hơn Tính đặc biệt này của Transformer cho phép mô hình
học được bối cảnh của từ dựa trên sự tương tác của từ với toàn bộ ngữ cảnh xung
quanh, bao gồm cả từ bên trái và từ bên phải
BERT được tiền huấn luyện trên lượng lớn dữ liệu văn bản không có nhãn sử dụng
hai nhiệm vụ không giám sát là mô hình ngôn ngữ bí mat (MLM) va Dự đoán câu
Trang 39Mô hình ngôn ngữ bị mặt (MLM) là một phần quan trọng trong quá trình tiền huấn
luyện của BERT Nhiệm vụ chính của MLM là tạo ra một mô hình có khả năng dự
đoán từ ngữ trong một câu dựa trên ngữ cảnh của các từ khác trong cùng câu Quá
trình tiền huấn luyện MLM diễn ra như sau:
e Bước 1: Chọn Ngẫu Nhiên và Che Đi Các Từ: Một số từ trong mỗi câu được
chọn ngẫu nhiên để bị che đi Các từ này được thay thế bằng một token đặc
biệt như [MASKI.
e _ Bước 2: Dự Đoán Các Từ Bị Che Đi: Mô hình BERT sau đó được huấn luyện
dé dự đoán các từ bi che đi bằng cách sử dụng thông tin từ các từ còn lại trongcâu Điều này tạo ra một khả năng biểu diễn ngữ cảnh cho từng từ, giúp mô
hình hiéu được ngữ cảnh xung quanh môi từ trong câu.
e Bước 3: Tính Toán Hàm Mat Mat (Loss Function): Hàm mat mát được tinh
dựa trên sự chênh lệch giữa xác suất dự đoán của mô hình cho từ bị che đi vàxác suất thực tế của từ đó trong dữ liệu huấn luyện
e Bước 4: Tối Ưu Hóa Tham Số: Thông qua quá trình lan truyền ngược và tối
ưu hóa gradient, các trọng số của mô hình được điều chỉnh để cải thiện khả
năng dự đoán.
Nhiệm vụ Dự Đoán Câu Tiếp Theo (NSP) trong quá trình tiền huấn luyện của BERT
tập trung vào khả năng của mô hình dự đoán xem hai câu có liên tiếp nhau hay không
Quá trình này giúp BERT học được sự liên kết ngữ cảnh giữa các câu trong văn bản
và hiểu được cách thông tin mở rộng qua các đơn vị văn bản liên tiếp Chi tiết quá
trình NSP như sau:
e _ Bước 1 - Chọn Cặp Câu và Tạo Dữ Liệu Huấn Luyện: Cặp câu được chọn từ
dữ liệu huấn luyện, và một câu trong cặp trở thành câu "A" và câu còn lại trở
thành câu "B" Nửa lượng thời gian, câu "B" là câu ngay sau câu "A" trong
văn bản; nửa lượng còn lại, câu "B" được chon ngẫu nhiên từ văn bản khác.
28
Trang 40e Bước 2 - Dự Doan Liên Tiếp Nhau: Mô hình BERT được huấn luyện để dự
đoán xem câu "B" có liên tiếp ngay sau câu "A" hay không Điều này giúp mô
hình nắm bắt sự liên kết giữa các câu và học được cách thông tin trong văn
bản được tô chức theo thứ tự
e Bước 3 - Tính Toán Hàm Mất Mat (Loss Function): Hàm mất mát được tính
dựa trên sự chênh lệch giữa dự đoán của mô hình và trạng thái thực tế (liên
tiếp hoặc không liên tiếp)
e Bước 4: Tối Ưu Hóa Tham Số: Thông qua thuật toán tối ưu hóa gradient, các
tham số của mô hình được điều chỉnh dé tối ưu hóa kha năng dự đoán liên tiếp
của các cặp câu.
4.4 Công nghệ dữ liệu lớn
4.4.1 Giới thiệu về dữ liệu lớn
Công nghệ dtr liệu lớn (Big Data) là một lĩnh vực cực kỳ quan trong trong thế giới
hiện đại, nơi mà lượng thông tin được tạo ra và thu thập hàng ngày ngày càng gia
tăng một cách đáng ké Thuật ngữ "dữ liệu lớn" không chi đề cập đến khối lượng
lớn các dit liệu, mà còn bao gồm cả tính đa dạng, tốc độ sinh ra và khả năng xử lý
thông tin.
Dữ liệu lớn có nguồn gốc từ nhiều nguồn khác nhau như các nền tảng truyền thông
xã hội, thiết bị cảm biến, hệ thống thông tin y tế, giao thông, internet van vật (IoT),
và nhiều nguồn dif liệu khác Đây là những nguồn dữ liệu rất đa dạng về hình thức,
cau trúc, và độ lớn, đòi hỏi các phương pháp và công nghệ mới dé xử lý, lưu trữ và
phân tích.
29