1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện độ tin cậy của tin tức trên mạng xã hội Việt Nam áp dụng các công nghệ dữ liệu lớn và phương thức học trực tuyến

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận diện sự tin cậy của tin tức trên mạng xã hội Việt Nam bằng phương pháp học trực tuyến và các công nghệ dữ liệu lớn
Tác giả Chau Tan
Người hướng dẫn TS. Do Trong Hop, TS. Tran Van Thanh
Trường học Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học Dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 95
Dung lượng 51,82 MB

Nội dung

LỜI CÁM ƠN Kính gửi Thầy/Cô,Đề tài " Nhận diện sự tin cậy của tin tức trên mạng xã hội việt nam bằng phương pháp học trực tuyến và các công nghệ đữ liệu lớn" là nhiệm vụ quan trọng và ý

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

CHAU TAN - 20520926

KHOA LUAN TOT NGHIEP

NHAN DIEN SU TIN CAY CUA TIN TUC TREN MANG

XÃ HOI VIET NAM BANG PHƯƠNG PHAP HỌC TRUC

TUYEN VA CAC CONG NGHE DU LIEU LON

VIETNAMESE NEWS VERIFICATION ON SOCIAL MEDIA BY

USING ONLINE LEARNING AND BIG DATA TECHNOLOGY

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHÍ MINH, 2024

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LỜI CÁM ƠN Kính gửi Thầy/Cô,

Đề tài " Nhận diện sự tin cậy của tin tức trên mạng xã hội việt nam bằng phương

pháp học trực tuyến và các công nghệ đữ liệu lớn" là nhiệm vụ quan trọng và ý

nghĩa mà em đã chọn đề nghiên cứu và thực hiện khóa luận tốt nghiệp sau bốn

năm theo học chương trình cử nhân ngành Khoa Học Dữ Liệu tại trường Đại học Công nghệ Thông tin.

Em xin bày tỏ lòng biết ơn sâu sắc đến TS Đỗ Trọng Hợp và TS Trần Văn Thành, người đã là nguồn động viên và hướng dẫn em một cách tận tâm trong suốt quá trình nghiên cứu Những lời chỉ bảo và kiến thức sâu rộng của các thầy

đã giúp em vượt qua những thách thức, đồng thời làm cho khóa luận trở nên linh hoạt và đầy đủ.

Em cũng xin gửi lòng biết ơn chân thành đến các thay, cô thuộc Khoa Khoa

học và Kỹ thuật thông tin, những người đã chia sẻ những ý kiến quý báu và đưa

ra những đóng góp quan trọng dé nâng cao chất lượng của khóa luận.

Không thể không đề cập dén sự hỗ trợ và tạo điều kiện thuận lợi từ Khoa Khoa

học và Kỹ thuật thông tin, lãnh đạo và các anh chị sinh viên tại trường Đại học

Công nghệ Thông tin Điều này đã giúp em có một môi trường làm việc tích

cực và hiệu quả.

Cuối cùng, em muốn bay tỏ lòng biết ơn đặc biệt đến gia đình và bạn bè, những

người đã luôn bên em, động viên và chia sẻ niềm vui trong suốt thời gian học tập và nghiên cứu.

Chân thành cảm ơn và trân trọng,

Châu Tan

Trang 4

MỤC LỤC

9:1019)/6001600627.10000777 2

1.1 Đặt vấn đề cv nh ng 21.2 Lý do chọn để tài - se 2E2EEEEEkEE1EE1211112112112112111 11111 3

1.3 Mục tiêu khóa luận - << << E2 2111111122311 1111119953111 kg 1 ngư, 5

1.4 Đối tượng và phạm vi nghiên cứu -2- 2 s+++E++E£+£xerxzEzrerrserxees 7

CHUGNG 2 TONG QUAN -2 222 2222222121121 21211 cEkcrkee 9

2.1 Giới thiệu để tài HH HH ệu 92.2 Tính ứng dụng của đề tài 5+ e1 k EkEEkEE1211211211 1152111 1x 1xx, 11

2.3 Thach thingie eee 6 5¬ 12CHƯƠNG 3 NGHIÊN CUU LIEN QUAN -cc¿-:c-+c++ccxverrrrre 14

3.1 Tình hình nghiên cứu trên thế giới - 2 + 2+£+£+£+++E++z++xserxezzeee 14

3.2 Tình hình nghiên cứu ở Việt Nam - 5 + kg ng kg 16

CHƯƠNG 4 CO SỞ LÝ THUYẾT cc:cc2+cccvxvrerrrrrrrrrrrrrrrrrree 18

4.1 Cac góc độ dé nhận diện sự tin cậy của TIN ỨC ccccccsesesesrs 184.2 Bài toán nhận diện sự tin cậy của ti ỨC - cv vnreireerrrrrreeree 19 4.3 Các thuật toán học sâu cho bài toán . - << 55533 S+222 2 veessssesee 21

4.3.1 Mang Neural Nhân TạO - - s11 HH kg kg re, 21

4.3.2 Cơ chế Tập trung và Kiến trúc Transformer - +: 24

4.4 Công nghệ dữ liệu lỚI << + E311 3E ưy 29

Trang 5

4.4.1 — Giới thiệu về dữ liệu lớn -¿- 5c t+k+ESEEEESEEEEEESEEEEEkrEerrkrkerrrx 29

4.4.2 — HadoOD SH HH HT HH HH HH 3l

4.4.3 Spark — 33

CHƯƠNG 5 TRIÊN KHAI HE THONG THU THẬP DU LIEU TU ĐỘNG 36

5.1 Giới thiệu về hệ thống thu thập dit liệu tự động -++-x>++ 365.2 Nguôn dit liệu c5 St St EỀ 1 E1211211211171111111111 21111111111 e 365.3 Hệ thống thu thập dữ liệu từ các trang báo - 2-2 sz+sz+ce+rxerseee 375.4 Hệ thống thu thập di liệu từ người sử dụng mang xã hội 38

CHUONG 6 PHAN TÍCH ĐẶC TRƯNG VÀ CÀI ĐẶT THU NGHIỆM CAC

MÔ HÌNH 40

6.1 Phân tích một số đặc trưng - 2 + +k+EE+EE+EE£EE+EEEErkerkerkerxrrsrre 40

6.1.1 Tiêu ASAI tứ re 40

6.1.2 Nội dung tin tỨC - SĂ 2.1 ST HH HH tre 40

6.1.3 Tóm tắt nội dung tin tỨC 5-©+SE+EE+EEEEEEEEerEerkerkererree 406.1.4 Độ truyền thông của tin tỨC - + + s+E++E++E+Eerkerxerkerseree 416.1.5 _ Thể loại của tim tỨC c-+crktrrrkrtrtrirrrtrirrrriireries 41

6.1.6 Tính giật tít cỦa tin ỨC - - - + k1 ng ng rg 416.1.7 Uy tín của ngu6n tin tire c cecceccecsesssessessessssssessessessvessessessecsecssesseesecaes 41

6.2 Giới thiệu các mô hình sẽ được khai triển cho bài toán - -: 41

6.2.1 BERT ho 41 6.2.2 AIBERT oo ce eeeecceceeeeseeseeseesessecseceeesceeceseeceeseeaesaessesseseesseeeeseeeaeeaees 44 6.2.3 RoBERTa HH HH TH TH ng Hết 46 6.2.4 XLM-NNG( LH HH HH HH HH Hưng nh như 48 6.2.5 — DIstilBERIT Ă ẶẶ SH LH HH HH HH ren 50

Trang 6

6.2.6 MobileBERT Ăn HH HH ng ngư 52

6.3 Môi trường cai đặt các mô hình - - 5 + + xen erkt 53

CHUONG 7 TRIEN KHAI HE THONG XU LY DU LIEU LỚN VA HOC

TRUC TUYEN TÍCH HOP VOI CAC MO HÌNH HOC SÂU - +: 55

7.1 Tích hợp hệ thống thu thập đữ liệu tự động vào hệ thống xử ly dữ liệu lớn

55

7.2 Hệ thống Học trực tuyến (Online Learning) ccccceccscsessesssessessessessesseesee 567.3 Cơ chế đánh giá lại điểm số nguén tỉn -¿ 5¿©22©5++cx++zxcccsees 577.4 Thiết kế dữ liệu và giao điện cho ứng dụng - 2 2s s+zs+zs+zszsz 58

7.4.1 Thiết kế dữ liệu -cccccccriirrkirirrrirrrtrirrrrrrierries 58

7.4.2 Giao diện Ứng Ụng .- s1, 62CHƯƠNG 8 ĐÁNH GIÁ VÀ KET QUẢ: ccccccscccverrrrrrrerrrrre 65

8.1 Cac thang đo đánh giá -.- sàn HH nghệ 65

8.1.2 — Pr€CiSIOn ĂẶ Q0 HT HH HH ky 65 8.1.3 Re Caller eee cecccessenscenscssccsssersssncesssenssersesseonsseeesensons 66

8.3 Đánh gia dựa trên thời gian mô hình chạy . «cs«c<<c<sssesses 69

8.4 Đánh giá dựa trên thời gian chạy thực nghiệm trên hệ thong (Từ khoảng

Trang 7

DANH MỤC HÌNH

Hình 4.1: Một mẫu tin thiếu sự tin cậy vào thời điểm đầu năm 2023 nói về việc nữ

sinh HUFLIT bị hiếp dâm và tự tử trong khi học quân sự - -«<<<s«++ 19

Hình 4.2 Dòng thời gian của các mô hình trong lĩnh vực xử lý ngôn ngữ tự nhiên

(Nguồn: 6b 00 20

Hình 4.3 Từ Neural Sinh Học đến ý tưởng Neural Nhân Tạo (Nguồn: €2 sr2w v2 J0 22

Hình 4.4 Kiến trúc Transformer so với Attention-Seq2Seq (Ngu6n [54]) 25

Hình 4.5 Tổng quan về quá trình pre-training và Fine-Tuning cho mô hình BERT Store OE 6ÄẾtt \ ÂÀ 27

Hình 4.6 5 chữ V trong Big Data (Nguồn: IBM) - 2-2-5252 cxccxezxsrserssee 30 Hình 4.7 Hệ sinh thái Hadoop (Nguồn IBM) - 2-2-5252 2+E££Ee£Ee£xerxerszsez 31 Hình 4.8 Apache Spark (Nguồn Apache Spark) c.cccssscsssesssssseesseessesstesseesseesseens 33 Hình 5.1 Hệ thống thu thập dữ liệu từ các trang báo -¿ ¿s+sec++ 38 Hình 5.2 Hệ thống thu thập dữ liệu từ người dùng 2-2 c5 5 s+zs2 +2 39 Hình 6.1 Sơ đồ mô hình BERT + ANN được áp dụng vào mô hình 43

Hình 6.2 Sơ đồ mô hình ALBERT + ANN được áp dụng vào mô hình 45

Hình 6.3 Sơ đồ mô hình RoBERTa + ANN được áp dụng vào mô hình 47

Hình 6.4 Sơ đồ mô hình XLM-Net + ANN được áp dụng vào mô hình 48

Hình 6.5 Sơ đồ mô hình DistiIBERT + ANN được áp dụng vào mô hình 50

Hình 6.6 Sơ đồ mô hình MobileBERT + ANN được áp dụng vào mô hình 52

Hình 7.1 Giao diện Portainer để xử lý các dịch vụ trong hệ thong "¬ỪD 55

Hình 7.2 Thiết kế hệ thống bậc cao cho hệ thông nhận diện sự tin cậy của tin tức56 Hình 7.3 Cơ chế đánh giá lại nguồn tin - 2-22 5¿22+2£+t£x+erxsrxerseeree 58 Hình 7.4 Thiết kế dữ liệu cho ứng dụng . 2:2 5¿22+¿2++2x++zx+rxezxesrss 60 Hình 7.5 Giao diện tiện ích mở rộng trong việc xác thực tin tức 63

Trang 8

Hình 7.6 Giao diện tiện ích mở rộng trả về từ kết quả mô hình 63Hình 7.7 Giao diện tiện ích mở rộng cho việc đánh giá kết quả mô hình 64Hình 8.1 Biéu đồ phân bố các nhãn của bộ dit liệu gộp lại - - 67Hình 8.2 Đánh giá dựa trên thời gian chạy thực nghiệm trên hệ thống (Từ khoảnggiữa tháng 11-2023 đến giữa tháng 12-2023) :©2++2+++2v+v2rxrerxrerrrrrrkree 70

Trang 9

DANH MỤC BANG

Bang 3.1 Bảng kết quả của các phương pháp trên tập dữ liệu LIAR [4] 16

Bang 6.1 Bảng các siêu tham số cài đặt cho mô hình BERTT 2-52 44 Bảng 6.2 Bảng các siêu tham số cai đặt cho mô hình ALBERTT 46

Bảng 6.3 Bảng các siêu tham số cài đặt cho mô hình Roberta 48

Bang 6.4 Bảng các siêu tham số cai đặt cho mô hình XLM-Net 49

Bảng 6.5 Bảng các siêu tham số cài đặt cho mô hình DistiIBERT 51

Bảng 6.6 Bang các siêu tham số cài đặt cho mô hình MobileBERT 33

Bang 6.7 Bảng các cài đặt môi trường cho việc huấn luyện mô hình 54

Bảng 7.1: Bảng thông tin người đùng - - c1 9 g rg 61 Bang 7.2 Thông tin Bang Tin Tức (NeWS) ung HH Hit 61 Bang 7.3 Bảng Đánh Giá (RatITBS) - - c5 SH HH ng gưệp 61 Bảng 7.4 Thông tin Bang Mô Hình (Mode]s) - 5 55+ * + sssssesseeese 62 Bảng 7.5 Bang Dữ liệu Tin Tức (News_Data) Ăn re, 62 Bảng 8.1 Kết quả thực nghiệm được từ việc gộp lại toàn bộ dữ liệu trong tháng 11 „27/201 e 68 Bang 8.2 Đánh giá các mô hình dựa trên thời gian chạy - - « «+<<+s+2 69

Trang 10

DANH MỤC TU VIET TAT

STT | Từ viết tắt Ý nghĩa

1 BN Batch Normalization

2 XLM Cross-lingual Language Model Pretraining

3 CNN Convolutional Neural Network

4 RNN Recurrent Neural Network

5 RoBERTa from Transformers Approach Encoder Representations

6 ML Machine Learning

7 BC Binary Classification

8 ANN Artificial Neural Network

9 FCN Fully Convolutional Network

10 | GRU Gated Recurrent Unit

ll | ALBERT H2 al Encoder Representations from

12 | LSTM Long Short-Term Memory

I3 | RNN Recurrent Neural Network

14 | BERT Bidirectional Encoder Representations from Transformers

15 | Seq2Seq Sequence to Sequence

16 | MLM Masked Language Model

I7 | NSP Next Sentence Prediction

18 | DistiIBERT ane Brdirectional Encoder Representations from

19 | MobileBERT Rompact Pask “Agnostic Bidirectional Encoder Representations

20 | TP True Positive

21 | TN True Negative

22 =| FP False Positive

23 | FN False Negative

24 | GPU Graphics Processing Unit

25 | CPU Central Processing Unit

26 | RAM Random Access Memory

27 | BART Bidirectional AutoRegressive Transformer

Trang 11

28 | GPT Generative Pretrained Model

29 | TS Text-to-Text Transfer Transformer

30 | MLOps Machine Learning Operations

31 | CUCD Continuous Integration and Continuous Delivery

Trang 12

TÓM TAT KHÓA LUẬN

Trong thời đại số hiện đại, sự phô biến của Internet và mạng xã hội không chỉ mở ranhững cơ hội lớn về truy cập thông tin mà còn mang theo một loạt các thách thức về

sự tin cậy và minh bạch của thông tin Việc truyền tải thông tin trở nên nhanh chóng

và dé dàng, nhưng cũng mat đi sự kiểm soát và đánh giá chặt chẽ đối với nguồn gốc

và chất lượng của thông tin Với sự bùng né của các nên tảng trực tuyến, người dùng

không chỉ chịu sự ảnh hưởng của những nguồn thông tin chính thống mà còn phải đốimặt với một lượng lớn thông tin không kiểm soát được Đề tài khóa luận này hướng

tới việc nghiên cứu, phân tích, và xây dựng các mô hình máy học có khả năng phân

loại tin tức dựa trên sự tin cậy của nguồn thông tin Bai nghiên cứu này chủ yếu tậptrung vào việc sử dụng mô hình học máy dé đánh giá mức sự tin cậy của các bài báo,

từ đó cung cấp thông tin có giá trị và đáng tin cậy đối với người đọc Trong quá trình

nghiên cứu, các mô hình đã được lựa chọn và huấn luyện với đữ liệu từ các nguồn tinchính thống và không chính thống, bao gồm BERT, ALBERT, RoBERTa, XLM,DistiIBERT và MobileBERT Mỗi mô hình được đánh giá dựa trên các chỉ số đánhgiá phô biến như Precision, Recall và F1-score

Những kết quả thu được từ các mô hình này không chỉ thê hiện hiệu suất phân loạitin tức mà còn cung cấp thông tin về sự tin cậy của từng nguồn thông tin Phân tíchsâu hơn, ta nhận thấy XLM + ANN và RoBERTa + ANN là những mô hình đạt kếtquả tốt nhất với độ chính xác cao và F1-score ồn định qua thời gian

Ngoài việc xây dựng và đánh giá các mô hình, khóa luận còn tập trung vào việc xây

dựng hệ thống thu thập dir liệu tự động, quy trình đánh giá lại điểm số nguồn tin dé

cập nhật và cải thiện chất lượng dữ liệu Hơn nữa, việc phát triển tiện ích mở rộng

trình duyệt giúp người dùng tiếp cận và sử dụng các mô hình phân loại tin tức một

cách thuận tiện và hiệu quả hơn.

Trang 13

CHƯƠNG 1 MỞ ĐẦU

1.1 Đặt vấn đề

Trong thời đại số hiện đại, sự phổ biến của Internet và mạng xã hội không chỉ mở ranhững cơ hội lớn về truy cập thông tin mà còn mang theo một loạt các thách thức về

sự tin cậy và minh bạch của thông tin Việc truyền tải thông tin trở nên nhanh chóng

va dé dàng, nhưng cũng mat di sự kiểm soát và đánh giá chặt chẽ đối với nguồn gốc

và chất lượng của thông tin Với sự bùng nỗ của các nền tảng trực tuyến, người dùngkhông chỉ chịu sự ảnh hưởng của những nguồn thông tin chính thống mà còn phải đốimặt với một lượng lớn thông tin không kiểm soát được Các trang web, blog cá nhân,

và mạng xã hội cho phép mọi người chia sẻ thông tin mà không cần qua bất kỳ kiểm

duyệt hay chứng nhận nào, dẫn đến sự đa dạng lớn về chất lượng thông tin Điều này

đã tạo nên một môi trường trong đó tin đồn, thông tin sai lệch, và tin tức giả mạo có

thể lây lan nhanh chóng và rộng lớn Các cá nhân và tô chức có thể đễ dàng tận dụngtính nhanh chóng và rộng lớn của việc chia sẻ thông tin trên mang dé lan truyền cácthông điệp không chính xác, gây hậu quả tiêu cực cho quốc gia và xã hội [1] Điều

này càng trở nên đe dọa khi những thông tin này thường được lan truyền nhanh hơn

và rộng lớn hơn so với những thông tin chính thống, do sự chú ý tập trung nhanh và

sự phô biến trên các nền tang trực tuyến Các thông tin không chính thống, tin đồn vàtin tức giả mạo mang theo nhiều tác hại nghiêm trọng đối với cả xã hội và cá nhân

Một trong những vấn đề lớn nhất là sự đe dọa đến quá trình hình thành ý thức côngdân và quyết định đối với cộng đồng Khi thông tin không chính thống được lantruyền mạnh mẽ, người tiêu dùng trở nên khó khăn trong việc đánh giá tính xác thực

và sự tin cậy của thông tin, dẫn đến sự nham lẫn và hoang mang Một tác hại quan

trọng khác là ảnh hưởng đến quyết định chính trị và xã hội Tin đồn và thông tinkhông chính thống có thê ảnh hưởng đến ý kiến cộng đồng và tạo nên những độngthái không chính xác, thậm chí làm thay đổi kết quả của quá trình quyết định Điều

nay có thé dẫn đến sự mắt lòng tin vào hệ thống chính trị và xã hội, làm suy giảm giá

trị của quyết định cộng đồng Các hậu quả cá nhân cũng là một khía cạnh đáng chú

Trang 14

ý Người dùng có thé bị lừa đảo và mất cảm giác an toàn khi thông tin không chính

thống dẫn dắt họ Điều này có thể ảnh hưởng đến quyết định cá nhân, từ quyết định

mua sam cho đến lựa chọn về sức khỏe và an sinh xã hội Hơn nữa, sự lan truyền của

thông tin không chính thống còn có thé dẫn đến các hậu quả xã hội nghiêm trọng nhưtăng cường sự chia rẽ và căng thắng trong cộng đồng Thông tin không chính thống

thường được sử dụng đề kích động ý kiến và tạo ra những mối quan tâm không có cơ

Sở, tạo ra sự phân biệt và xung đột trong xã hội.

1.2 Ly do chọn đề tài

"Diéu doi trá được nói lại đủ nhiều thì nó sẽ trở thành sự thật"

(Dịch từ câu nói của Vladimir Lenin)

Truyền thông từ xưa tới nay luôn là bức tranh phong phú, thê hiện sự phát triển vàbiến động của xã hội Từ những cây bút truyền thống đầu tiên cho đến sự xuất hiệnmạnh mẽ của truyền hình và sau đó là internet, truyền thông đã đóng vai trò quantrọng trong việc kết nói, truyền đạt và chia sẻ thông tin Tuy nhiên, cùng với sự tiễn

bộ, xuất hiện một thách thức đầy thách thức: vấn nạn những tin nhảm, tin rác, và tin

giả được lan truyền rộng rãi Van dé này không chỉ là một hiểm họa ngắn hạn mà còn

là một thách thức lâu dài mà mọi thé hệ đều phải đối mặt Câu nói trên của Vladimir

Lenin về 'điều đối trá' như một 'sự thật' có thể gây ngỡ ngàng, nhất là khi chúng tanhìn thấy nó từ góc độ mỉa mai Trong một thế giới nơi thông tin đôi khi bị biến tình,câu nay như một lời nhận định hậu quả khi sự dối trá được lặp đi lặp lại, đưa đến mức

độ mà nó trở thành một phần không thể thiếu của thực tế, thậm chí khiến cho sự phân

biệt giữa sự thật và sự giả mạo trở nên mông lung Trong một xã hội ngay nay, nơi

mà thông tin lan truyền với tốc độ chóng mặt qua các nền tảng trực tuyến, nguy cơ

của tin giả trở nên ngày càng lớn Lan truyền thông tin không chính thống có thể tạonên sự nhằm lẫn và khủng hoảng tâm lý trong cộng đồng Sự mất niềm tin không chỉ

ảnh hưởng đến sức mạnh đoàn kết xã hội mà còn mở ra khả năng mất ôn định và lantruyền hiệu ứng tiêu cực qua các tang lớp xã hội.

Trang 15

Trong thời đại số hóa hiện dai, sự tăng nhanh chóng của lượng thông tin và dir liệukhiến cho việc xử lý dữ liệu lớn ngày càng phổ biến nhiều hơn Với lượng thông tingia tăng đột ngột, tình trạng hỗn loạn và khó kiểm soát Xử lý dit liệu lớn ngày càngtrở nên quan trọng, đặc biệt là trong bối cảnh nguồn thông tin ngày càng da dạng và

phức tạp như hiện nay Quá trình thu thập và phân tích dữ liệu lớn đóng một vai trò

quan trọng trong việc đối mặt với van đề tin giả Nó mang lai cái nhìn tông thé về xu

hướng thông tin, nguồn gốc và cách tin đồn lan truyền Đối với nhóm nghiên cứu, sử

dụng công nghệ Big Data không chỉ giúp xây dựng mô hình máy học và phân loại

thông tin hiệu quả mà còn hỗ trợ trong công tác ngăn chặn và nhận diện tin giả một

cách chính xác.

Trong thời đại chuyên đôi số, sự bùng nô của dit liệu lớn là một điều có thé dễ dàngnhận ra Khi lượng thông tin tăng đột ngột với mức độ hỗn loạn khó mà biết trướcđược Xử lý dữ liệu lớn đóng vai trò quan trọng trong việc hiểu và giải quyết van détin giả nhất là trong bối cảnh các nguồn thông tin ngày càng đa dạng và có phần hỗnloạn như ngày nay Việc thu thập và phân tích dữ liệu lớn có thể cung cấp cái nhìntoàn diện về xu hướng thông tin, nguồn gốc, và sự lan truyền của tin đồn Nhómnghiên cứu có thể sử dụng công nghệ Big Data đề xây dựng các mô hình máy học và

phân loại thông tin một cách hiệu quả, từ đó giúp ngăn chặn và nhận diện tin giả.

Một xu hướng đang nổi lên gan đây là phương pháp Online Learning Phương pháp

Online Learning đóng vai trò quan trọng trong việc giải quyết bài toán nhận diện sựtin cậy của tin tức trên mạng xã hội, đặc biệt là trong bối cảnh ngày nay, khi thôngtin truyền tải qua các nền tảng trực tuyến ngày càng phức tạp và đa dạng Đối với bàitoán nhận diện sự tin cậy, sự thích hợp của phương pháp Online Learning xuất phát

từ khả năng linh hoạt và tự động hóa của nó Mô hình học trực tuyến có khả năng cậpnhật và điều chỉnh chính mình dựa trên đữ liệu mới, giúp nó duy trì độ chính xác vàhiệu suất trong thời gian thực Điều này rất quan trọng khi đối mặt với môi trườngtruyền thông thường xuyên thay đổi, với những thông tin mới xuất hiện liên tục Khanăng học tập liên tục của phương pháp này cho phép nó nắm bắt các xu hướng mới

và thậm chí là những chiên lược mới của người tạo ra tin đôn Nó không chỉ giúp

Trang 16

nhận diện những thông tin không chính thống một cách nhanh chóng mà còn địnhhình lại mô hình dựa trên sự thay đổi của thế giới truyền thông Hơn nữa, sự tích hợpgiữa phương pháp Online Learning và dữ liệu lớn giúp tối ưu hóa quá trình học máy.Việc này không chỉ giúp mô hình trở nên mạnh mẽ hơn mà còn tạo điều kiện cho việcphân tích các biểu hiện đặc trưng của tin tức trên mạng xã hội một cach chi tiết và

toàn diện.

Nhận thức được sự nguy hiểm của tin giả sẽ gây ảnh hưởng đến xã hội và cộng

đồng cùng với sự hiểu biết về sức mạnh của phương pháp học trực tuyến và sự cần

thiết của việc xử lý dữ liệu lớn trong bài toán này Nhóm quyết định chọn đề tài này

dé có thể nghiên cứu về một hệ thống có thé góp phan nào trong việc giải quyết van

đê nhức nhôi nay.

1.3 Mục tiêu khóa luận

Trong phạm vi của nghiên cứu này, tập trung vào việc xây dựng một hệ thống nhậndiện sự tin cậy của tin tức, nhằm hỗ trợ người sử dụng trong quá trình xác minh thôngtin Mục tiêu chính là cung cấp một công cụ giúp tiết kiệm thời gian cho người đọc

và người tiêu dùng thông tin Đồng thời, hệ thong này cũng cho phép người dùng thé

hiện sự phản đối đối với kết quả của mô hình, nhằm tăng tính khách quan trong quátrình xây dựng và cải thiện bộ dit liệu đầu vào cho mô hình Qua việc cho phép ngườidùng tham gia vào quá trình đánh giá, cung cấp những ý kiến và đánh giá chỉ tiết về

sự tin cậy của tin tức, chúng em hy vọng rằng mô hình có thê học được những đặc

trưng mới va cải thiện kha năng nhận diện thông tin chính xác trên mang xã hội Mụctiêu cuối cùng của dự án là tạo ra một công cụ linh hoạt, hiệu quả và có tính tương

tác cao, góp phần nâng cao khả năng đánh giá và xác minh tin tức của người sử dụngtrong môi trường truyền thông ngày nay Các mục tiêu của nghiên cứu này bao gồm:

e Phat triển hệ thống thu thập dữ liệu: Trong quá trình phát triển, một trong

những ưu tiên hàng đầu là xây dựng một hệ thong sử dụng công nghệ dữ liệu

lớn đề thu thập thông tin từ Internet và người sử dụng Điều này sẽ bao gồm

Trang 17

cả việc xử ly dit liệu từ nguồn không đồng nhất, đồng thời tận dụng sức mạnh

của dit liệu lớn dé cung cấp cơ sở dit liệu đa chiều và phong phú Qua đó, ta

có thể tạo ra một nguồn dữ liệu đủ lớn dé huấn luyện và cập nhật các mô hình

deep learning theo phương thức học trực tiếp

Xây dựng hệ thống đánh giá trọng số nguồn tin: Một thành phan quan trọngkhác là phát triển hệ thống đánh giá trọng số của nguôn tin Hệ thống này sẽkhông chỉ dựa trên nguồn tin chính thống mà còn xem xét độ truyền thông củatin tức từ các nguồn này Điều này sẽ giúp xây dung một hệ thống đánh giá tin

tức đa chiều, tích hợp cả các yếu tố về sự tin cậy và ảnh hưởng truyền thông

Phát triển hệ thống xử lý thông tin phân tán: Hệ thống sẽ có khả năng xử lýthông tin phân tán, giúp tôi ưu hóa quá trình huấn luyện mô hình theo phươngpháp phân tán Điều này là quan trọng dé dam bao sự linh hoạt và hiệu quả của

hệ thống, đặc biệt là khi phải đối mặt với số lượng người dùng lớn và sự đa

dạng của các nguôn tin tức.

Nghiên cứu và phân tích đặc trưng ảnh hưởng đến mô hình: Một phần quan

trong của khóa luận là nghiên cứu và phân tích các đặc trưng có thé ảnh hưởng

đến hiệu suất của mô hình nhận diện sự tin cậy của tin tức Điều này bao gồm

việc xem xét cách các yếu tô như nguồn tin, sự tin cậy, độ phổ biến ,của tintức có thê ảnh hưởng đến khả năng dự đoán của mô hình Điều này sẽ giúp

hiệu rõ hơn về tác động của các biên sô nay đôi với hiệu suât của hệ thông.

Xây dựng một tiện ích mở rộng trên trình duyệt: Viết một tiện ích mở rộng

giúp cho người dùng có thể dé dàng nhận biết sự tin cậy của tin tức từ mô

hình thông qua giao diện người dùng Ngoài ra tiện ích này sẽ cung cấp cơchế cho người dùng dé góp ý và phản hồi vào quá trình xử lý và đánh giá tin

tức, và có khả năng không đông ý với dự đoán của mô hình.

Trang 18

1.4 _ Đối tượng và phạm vi nghiên cứu

Đối tượng: Hệ thống nhận diện sự tin cậy của tin tức và các phương pháp học sâu để

giải quyét bài toán nhận diện sự tin cậy của tin tức.

Phạm vi: Khóa luận tập trung chủ yêu vào việc xây dựng hệ thông nhận diện sự tin

cậy của tin tức, cùng với việc nghiên cứu tính hiệu quả của các đặc trưng trong hiệu suât của mô hình.

e Vé giới hạn nghiên cứu phân tích đặc trưng: Khóa luận sẽ tập trung nghiên

cứu về sự tác động của các đặc trưng (Độ phô biến của tin tức, sự giật tít,

nguôn, tiêu dé, nội dung) đôi với hiệu suat của mô hình.

e Vé giới hạn nghiên cứu triển khai hệ thống: Khóa luận sẽ tập trung nghiên cứu

về cách khai triển hệ thống có khả năng xử lý đữ liệu lớn và thời gian thực từ

người dùng.

«Ắ Về giới hạn thời gian nghiên cứu: Khóa luận được thực hiện và nghiên cứu

trong khoảng thời gian từ 02/10/2023 đến ngày 21/12/2023 nên các kết quả

thực nghiệm được thực hiện giới hạn trong phạm vi thời gian nay.

1.5 Cac nội dung chính

Khóa luận này sẽ gồm 9 chương với các nội dung chính lần lượt như sau:

Chương 1 Mở dau: đặt ra các van dé, trình bày lý do thực hiện khóa luận này dé giảiquyết các vấn đề nhận diện sự tin cậy của tin tức Tiếp đến là thiết lập các mục tiêucần đạt được Cuối cùng, giới thiệu sơ lược nội dung của từng chương trong khóa

luận.

Chương 2 Tổng quan: giới thiệu về đề tài nhận diện sự tin cậy của tin tức trên mạng

xã hội Đặc biệt là tính ứng dụng thực tế của đề tài này trong việc hỗ trợ người dùng

phân tích sự tin cậy của tin tức.

Chương 3 Nghiên cứu liên quan: giới thiệu các công trình nghiên cứu trong và ngoài

nước liên quan dén bai toán nhận diện sự tin cậy của tin tức.

Trang 19

Chương 4 Cơ sở lý thuyết: trình bày các kiến thức nền tảng mà chúng em áp dụng

dé xây dựng các phương pháp tiếp cận nhằm mục đích giải quyết các bài toán đã đặt

ra trong đề tài này

Chương 5 Triển khai hệ thống thu thập dữ liệu tự động : Trình bày quy trình xây

dựng hệ thống thu thập dữ liệu tin tức từ các trang báo có uy tín và những trang tin lá

cải, bảo nhảm hoặc từ các blog cá nhân đưa ra các quan điểm gây tranh cãi và chưađược kiểm chứng Đồng thời đưa ra các thống kê chỉ tiết và phân tích các đặc điểm

của dữ liệu, từ đó rút ra một vài góc nhìn thấu suốt về dit liệu đầu vào

Chương 6 Cài đặt thử nghiệm các mô hình: trình bày các bước thiết lập cùng cài đặtchỉ tiết cho các siêu tham số và thiết bị dùng để huấn luyện các mô hình học sâu.Ngoài ra trong phần này cũng sẽ giới thiệu thêm về các mô hình sẽ được sử dụng

trong đề tài

Chương 7: Triển khai hệ thong xử lý dữ liệu lớn và học trực tuyến tích hợp với các

mô hình học sâu: trình bày về các bước xây dựng hệ thống xử lý dữ liệu lớn từ các

dữ liệu streaming từ người dùng cũng như từ hệ thống thu thập dé liệu từ các nguồntrên các trang báo, cách thức xây dựng hệ thống áp dụng phương pháp học trực tuyến

cho các mô hình học sâu trong bài toán.

Chương 8 Đánh giá và kết quả: trình bày các kết quả mà chúng em đã thu được đồngthời thực hiện đánh giá, giải thích các kết qua đạt được đó và phân tích các yếu tố ảnhhưởng đến hiệu suất mô hình Đồng thời, đánh giá hiệu suất của hệ thống

Chương 9 Kết luận và hướng phát triển: tổng kết các thành quả đã dat được và déxuất các phương pháp trong tương lai dé cải thiện hiệu suất của mô hình

Trang 20

CHƯƠNG 2 TONG QUAN

2.1 Gidi thiệu đề tài

Trong thời đại số hóa ngảy nay, mạng xã hội trở thành một bản đồ phức tạp của sự

tương tác xã hội và truyền thông Trong ngữ cảnh này, vẫn đề về sự tin cậy của tintức trên mạng xã hội trở nên ngày càng nổi bật và quan trọng Cùng với sự phố biến

của thông tin và sự đa dạng của nguồn tin, việc nhận diện sự tin cậy của tin tức trênmạng xã hội trở thành một thách thức lớn đối với cả người sử dụng thông thường và

các tô chức nghiên cứu.

Đặc biệt, sự xuất hiện ngay cảng nhiều của tin đồn, tin giả, và thông tin không chínhthống đã làm mờ đi ranh giới giữa sự thật và sự hiểu lầm Trong bối cảnh này, việcxây dựng một hệ thong nhận diện sự tin cậy của tin tức trên mạng xã hội trở thành

một ưu tiên hàng đầu, với sự kết hợp của công nghệ dữ liệu lớn và phương pháp học

trực tuyến (Online Learning) dé đối mặt với quy mô và tốc độ của thông tin trên

mạng Công nghệ dữ liệu lớn đóng vai trò quan trọng trong việc xử lý và phân tích

lượng lớn thông tin từ mang xã hội Việc này không chỉ giúp xác định xu hướng va

nguồn gốc của tin tức mà còn tạo ra cơ sở dữ liệu đa chiều, phản ánh chính xác vàday đủ nhất về nội dung trên mang Đồng thời, phương pháp học trực tuyên mang lai

tính linh hoạt và khả năng cập nhật liên tục, giúp mô hình có khả năng học từ dữ liệu

mới và điều chỉnh chính mình dựa trên sự thay đổi của thế giới truyền thông ngày

nay.

Mục tiêu hàng đầu của dự án là phát triển một hệ thống nhận diện sự tin cậy của tin

tức trên mạng xã hội, đặt trọng điểm vào việc tận dụng sức mạnh của dữ liệu lớn và

tính linh hoạt của học trực tuyến Đồng thời, chúng em cũng đặt nặng vào việc xây

dựng thực nghiệm và tiễn hành phân tích sâu rộng về các đặc trưng khác nhau Quaquá trình này, chúng em hướng đến việc hiểu rõ hơn về tác động của từng đặc trưng

đối với mô hình, từ đó cung cấp một cái nhìn tổng thể về sự ảnh hưởng của chúng

đến hiệu suất của mô hình nhận diện Hệ thống này không chỉ hỗ trợ người sử dụng

Trang 21

trong quá trình xác minh thông tin mà còn tạo ra một cộng đồng tương tác, cho phépngười dùng phản đối kết quả của mô hình và đóng góp vào quá trình đào tạo, giúp

mô hình ngày càng hiệu quả và chính xác Điều này mở ra triển vọng mới trong việcxây dựng một hệ thống nhận diện tin cậy độc đáo, chủ động và có khả năng học tập

liên tục trong môi trường mạng xã hội ngày nay.

Nhiều vấn đề tương tự đã thu hút sự quan tâm của cộng đồng nghiên cứu, chăng hạnnhư những nghiên cứu về nhận diện tin giả hay tin thật, cũng như việc thực hiện kiểmtra sự thật (Fact-Checking) Tuy nhiên, bai toán cu thé về việc xác định một tin tức là

sự thật hay giả đặt ra những thách thức đặc biệt, bởi vì tính chủ quan trong đánh giá

này phụ thuộc vào quan điểm và góc nhìn của từng người đọc Một sự kiện hay thông

tin cụ thể có thể được báo cáo từ nhiều góc độ và quan điềm khác nhau Điều này làm

tăng độ khó khăn trong việc xác định tính chân thực của tin tức Từ những lý do trên,

nghiên cứu này được đặt tên là "Nhận diện sự tin cậy” Trong ngữ cảnh của bài toán

này, sự tin cậy được đặt vào những nguồn tin chính thống tại Việt Nam Quá trìnhnhận diện sự tin cậy ở đây liên quan đến VIỆC kiểm tra xem thông tin đầu vào có xuấthiện trên các nguồn tin nào, đồng thời khám phá và sử dụng các đặc trưng đặc biệt

của nó đề đưa vào mô hình đánh giá Điều này giúp xác định mức độ tin cậy của mỗithông tin dựa trên nguồn tin và các đặc trưng liên quan, đồng thời mang lại cái nhìn

toàn điện về tính chân thực của thông tin

Luông của bài toán:

Đâu vào: Thông tin của các tin tức Đâu ra: Kêt quả về sự tin cậy của mô hình

10

Trang 22

2.2 Tính ứng dụng của dé tài

Đề tài về này không chỉ là một dự án nghiên cứu về đơn thuần về lý thuyết và thựcnghiệm mà còn là một nỗ lực tích hợp lý thuyết và ứng dụng thực tiễn trong bối cảnh

xã hội ngay nay Công trình này không chỉ có ý nghĩa trong lĩnh vực nghiên cứu ma

còn mở ra nhiều triển vọng ứng dụng có ý nghĩa, có thé thay đôi cách chúng ta nắmbắt và đánh giá thông tin trên mạng xã hội

Một ứng dụng quan trọng của đề tài là giúp người sử dụng mạng xã hội có khả năng

xác minh tính chính xác của thông tin một cách nhanh chóng và thuận lợi Trong một

thế giới đầy với thông tin chóng mặt và đôi khi là những tin đồn, khả năng phân biệt

giữa sự thật và tin giả trở thành một kỹ năng quan trọng Hệ thống nhận diện sự tin

cậy, đặc biệt là khi kết hợp cả đữ liệu lớn và phương pháp học trực tuyến, sẽ là mộtcông cụ hữu ích dé người sử dung có thê đối mặt với thách thức này

Đồng thời, ứng dụng của đề tài cũng có sự hỗ trợ đặc biệt cho các tổ chức truyền

thông, nghiên cứu, và chính trị Các tổ chức truyền thông có thé sử dụng hệ thống đểkiểm tra và xác nhận thông tin trước khi đưa ra công bó, giúp tăng tính chính xác và

uy tín của bản tin Nghiên cứu và các tô chức chính trị cũng có thể tận dụng đề tài đểtheo dõi sự lan truyền của thông tin và đánh giá sự tin cậy của nguồn tin

Khả năng xây dựng thực nghiệm và phân tích các đặc trưng khác nhau trong đề tàiđồng thời giúp chúng ta hiểu rõ hơn về cách từng yếu tố ảnh hưởng đến hiệu suất của

mô hình Điều này không chỉ hỗ trợ người nghiên cứu mà còn mở ra khả năng tùychỉnh và cải thiện hệ thống theo thời gian Việc này giúp đề xuất những phương pháp

và chiến lược mới, làm giàu thêm kiến thức về mối liên quan giữa các đặc trưng và

sự tin cậy của thông tin.

Ngoài ra, khả năng tương tác của hệ thống với cộng đồng người dùng là một yếu tố

quan trọng Người dùng không chỉ là người tiêu thụ thông tin mà còn là những người

có thê đóng góp vào quá trình đào tạo của mô hình Sự chủ động và tích cực của cộngđồng này tạo ra một môi trường học tập liên tục và linh hoạt, giúp mô hình ngày càng

hoàn thiện va dang tin cậy hơn theo thời gian.

lãi

Trang 23

Cuối cùng, đề tài này không chỉ đơn thuần là một dự án nghiên cứu mà còn là sự đóng

góp ý nghĩa cho xã hội trong việc xây dựng một môi trường trực tuyến an toàn, minh

bạch và đáng tin cậy Từ đó, chúng ta có thé đối mặt với những thách thức của thé

giới trực tuyến ngày nay với tỉnh thần tự tin và kiến thức rộng lớn

2.3 Thách thức

Bài toán nhận diện sự tin cậy của tin tức trên mạng xã hội, đặc biệt khi kết hợp các

công nghệ dữ liệu lớn và phương pháp học trực tuyến (Online Learning), đối mặt vớinhiều thách thức lớn Một trong những thách thức quan trọng nhất là tính đa dạng và

độ phức tạp của thông tin trên mạng.

Thách thức đầu tiên là sự đa dạng của nguồn tin Mạng xã hội là một nên tảng chongười dùng từ nhiều lĩnh vực, ý kiến, và văn hóa khác nhau, tạo ra một không gian

thông tin vô cùng đa dạng Việc phải xử lý và nhận diện sự tin cậy của thông tin từ

các nguồn có tính chất và hướng tiếp cận khác nhau đòi hỏi một hệ thống linh hoạt

và khả năng thích ứng cao.

Thách thức tiếp theo là sự độc lập và thay đôi nhanh chóng của thông tin Trong mộtmôi trường mạng xã hội day sự độc lập và tính chat tự do, thông tin có thé thay đôinhanh chóng và không có sự kiểm soát đồng nhất Điều này đặt ra một thách thứctrong việc duy trì một mô hình nhận diện có khả năng thích ứng với những biến động

không ngừng của thông tin mạng.

Thách thức thứ ba là tính không chắc chắn của nguồn tin Trên mạng xã hội, thôngtin có thể xuất phát từ nguồn đáng tin cậy như các tổ chức truyền thông lớn, nhưngcũng có thé bắt nguồn từ người dùng cá nhân không kiểm soát được Điều này tạo ramột bài toán phức tạp trong việc xác định và đánh giá sự tin cậy của từng nguồn thông

Trang 24

dựng một mô hình nhận diện có khả năng phản ánh đúng nhất mức sự tin cậy theoquan điểm đa dạng này.

Thách thức về chi phí trong việc vận hanh toàn bộ hệ thống nhận diện sự tin cậy củatin tức trên mạng xã hội là một khía cạnh quan trọng cần xem xét Đề triển khai một

hệ thống hiệu quả, đòi hỏi đầu tư đáng kể không chỉ trong việc mua sắm và duy trì

các thiết bi phần cứng mà còn trong việc quản ly dit liệu và băng thông Trong giaiđoạn huấn luyện mô hình, yêu cầu sử dụng nhiều GPU là không thể tránh khỏi dé

đảm bảo tốc độ và hiệu suất cao Điều này đồng nghĩa với việc cần phải đầu tư một

lượng lớn tài nguyên tài chính để mua sắm và duy trì các thiết bị này Khi triển khai

hệ thống dé phục vụ đồng thời nhiều người dùng, sự xuất hiện của nhiều nhân bancho dịch vụ của mô hình để đảm bảo sự phản hồi nhanh chóng đặt ra thách thức vềchỉ phí băng thông và lưu trữ Việc truyền và lưu trữ đữ liệu lớn, đặc biệt là trong môitrường mạng xã hội với lượng thông tin đồ sộ, đòi hỏi một cơ sở hạ tầng mạng và hệthống lưu trữ mạnh mẽ và đồng thời là một chi phí đáng kẻ

13

Trang 25

CHƯƠNG3 NGHIÊN CUU LIÊN QUAN

3.1 Tinh hình nghiên cứu trên thế giới

Tính đến thời điểm hiện tại, nghiên cứu về nhận diện sự tin cậy của tin tức trên mạng

xã hội đã chủ yếu tập trung vào việc sử dụng các phương pháp giám sát, trong khi

các phương pháp bán giám sát hoặc không giám sát ít được áp dụng Các mô hình

sau là những mô hình phân loại thường được sử dụng trong các bài toán:

Phương pháp học máy truyền thống: Các mô hình phân loại phổ biến như Máy Vector

Hỗ Trợ (SVM) hay Mô Hình Phân loại Naive Bayes (NBC) thường được sử dụng vàthường được coi là các mô hình cơ sở Đôi khi, các mô hình như cây quyết định nhưRandom Forest Classifier (RFC) và hồi quy Logistic (LR) va cũng được sử dụng

trong bài toán.

Phương pháp học sâu: Mô hình Mạng Nơ-ron Tái Phát (RNN) đặc biệt là Long

Short-Term Memory (LSTM) hay Gate Recurrent-Unit (GRU) đã chiếm vị trí quan trọng

Sự phổ biến của LSTM trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đồng nghĩa với

khả năng giải quyết van đề biến mat độ dốc, từ đó, mô hình có khả năng nắm bắt được

các phụ thuộc dai hạn trong ngôn ngữ Các nghiên cứu tiên tiễn đã chứng minh hiệusuất ưu việt của các mô hình dựa trên LSTM khi áp dụng cho các tập dữ liệu nhưLIAR và FEVER Ngoài ra, Mạng Nơ-ron tích chập (CNN) cũng là một lựa chọn phổ

biến, đặc biệt là trong việc xử lý các nhiệm vụ phân loại văn bản Các mô hình sử

dụng CNN, như mô hình dựa trên công trình của Kim (2014), đã đạt hiệu suất ấntượng Đặc biệt, việc kết hợp các biểu diễn văn bản từ LSTM hai chiều cùng với CNN

đã mang lại kết quả tốt Các cơ chế chú ý (Attention Mechanisms) thường được tíchhợp vào mô hình mạng nơ-ron dé cải thiện khả năng hiểu bài toán và từ đó cải thiện

hiệu suât.

Tiếp Cận Rhetorical: Lý thuyết Cấu Trúc Tu từ (RST), đôi khi kết hợp với Mô Hình

Không Gian Vector (VSM), cũng được áp dụng để nhận diện tin giả RST là một

khung phân tích cho tính nhất quán của một câu chuyện và thông qua định nghĩa vai

trò ngữ nghĩa của các đơn vị văn bản, nó có thê xác định ý chính và phân tích đặc

14

Trang 26

tính của văn bản đầu vào Phương pháp này đưa ra kết quả bằng cách sử dụng VSM

dé chuyền đổi văn bản tin tức thành vector, sau đó so sánh chúng với trung tâm của

tin tức đúng và tin tức giả trong không gian RST nhiều chiều

Thu Thập Bằng Chứng: Phương pháp dựa trên Nhận Diện Văn Bản Trình Bày (RTE)

thường được sử dụng dé thu thập và sử dung bằng chứng RTE là nhiệm vụ nhận diện

mối quan hệ giữa các câu Bằng cách thu thập các câu ủng hộ hoặc phản đối từ nguồn

dữ liệu như bài báo, chúng ta có thể dự đoán xem thông tin đầu vào có đúng haykhông Phương pháp này yêu cầu có bằng chứng văn bản để kiểm tra sự đúng đắn,

do đó chỉ thích hợp khi tập dữ liệu bao gồm bằng chứng, như FEVER và Emergent

Bảng mô tả kết quả hiện tại của một sỐ nghiên cứu trên tập dữ liệu LIAR Các kết

quả này thể hiện hiệu suất của các mô hình, bao gồm cả mô hình sử dụng SVMs,

Trang 27

Bhattacharjee | 2-class label NLP 0.921

[18] Shallow (CNN) 0.962

Bảng 3.1 Bang kết quả của các phương pháp trên tập dữ liệu LIAR [4]

Bảng này cho thấy sự đa dạng trong hiệu suất của các mô hình trên tập dữ liệu LIAR,với một số mô hình đạt độ chính xác khá cao Tuy nhiên, vẫn còn nhiều thách thức

và cơ hội nghiên cứu mà các nhóm nghiên cứu đang tập trung giải quyết

3.2 Tình hình nghiên cứu ở Việt Nam

Hiện nay, việc xác định sự chính xác của thông tin trên mạng và trên các trang tin tức

ở Việt Nam ngày càng trở nên phố biến và quan trọng hơn Các tổ chức và trường daihọc ở Việt Nam đang tích cực tham gia vào việc nghiên cứu vấn đề này Môi trườngtruyền thông xã hội và các trang tin tức đang đăng tải thông tin một cách không rõràng, gây hiện tượng thông tin thật và tin giả giao nhau Sự cần thiết của việc giải

quyết bài toán này ở Việt Nam đang ngày càng tăng lên

VLSP 2020 [2] tổ chức một cuộc thi về phát hiện tin giả, với mục tiêu đánh giá tính

đáng tin cậy của thông tin được chia sẻ trên mạng xã hội Việt Nam Cuộc thi này

cung cấp cơ hội cho các cá nhân quan tâm đến vấn dé này, dé góp phần nâng cao trithức và cải thiện môi trường trực tuyến vì mục tiêu xã hội tốt đẹp Trong cuộc thi,nhóm của Hieu Cao-Nguyen-Minh đã đoạt giải với điểm cao nhất trên tập dữ liệukiểm thử riêng tư, sử dụng phương pháp Weighted ensemble SVM + LightGBM và

đạt được điểm AUC là 0.9523 Nhóm tác giả đã tiến hành phân tích các đặc trưng

như nội dung, số lượt thích, lượt bình luận và thời gian dang bai viét dé dat duoc két

qua nay.

Gần đây, nhóm của Khoa Dang-Pham cũng đã cố gang cải thiện này giới thiệu mộtphương pháp kết hợp sử dụng mô hình ngôn ngữ được huấn luyện trước gọi làvELECTRA kết hợp với các đặc trưng được tao bằng tay dé nhận diện thông tin đáng

tin cậy trên các trang mạng xã hội tại Việt Nam Nghiên cứu này sử dụng hai phương

pháp chính, bao gồm: điều chỉnh mô hình bằng việc sử dụng dit liệu văn bản một

16

Trang 28

cách độc lập và kết hợp thông tin siêu dir liệu bổ sung với văn bản dé tạo biểu diễn

đầu vào cho mô hình Kết quả của phương pháp này cho kết quả nhỉnh hơn so với cácphương pháp BERT tỉnh chỉnh khác và đạt được kết quả tốt nhất trên tập dữ liệuReINTEL được công bố bởi VLSP năm 2020 với thang đo AUC đạt 0.9575

17

Trang 29

CHƯƠNG 4 CƠ SỞ LÝ THUYET

4.1 Cac góc độ đề nhận diện sự tin cậy của tin tức

Trong lĩnh vực nhận diện sự tin cậy của thông tin, chúng ta phải đối mặt với một loạt

các yêu tố phức tạp Tâm lý học của người đọc đóng vai trò quan trọng, đặc biệt quatác động của phương tiện truyền thông, nơi mà mối liên hệ giữa cách thông tin được

truyền tải và tác động đến quan điểm cũng như hành vi của độc giả được nghiên cứu.Tin tức không đáng tin cậy có thể tạo ra tác động tiêu cực, tích cực, hoặc thậm chíkhông tạo ra tác động gi, tùy thuộc vao cách mà thông tin được truyền tải [2] Gócnhìn về tư duy và nhận thức cũng là một khía cạnh quan trọng, tập trung vào cáchngười đọc tiếp nhận và xử lý thông tin Sự phụ thuộc vào phương tiện dé đánh giá sự

tin cậy của thông tin là một điểm quan trọng, và lý thuyết này giúp ta hiểu cách quá

trình này diễn ra [3] Trong phân tích ngôn ngữ và văn bản, lý thuyết về ngôn ngữkhông đáng tin cậy chú ý đến các đặc điểm ngôn ngữ trong tin tức không đáng tin.Việc sử dụng từ vựng mang tính cảm xúc mạnh mẽ, câu châm biếm, hoặc thông tinkhông xác thực đều là những dấu hiệu đặc trưng của thông tin này Hiểu biết kiếnthức và sự đồng thuận đóng vai trò quan trọng trong việc đánh giá sự tin cậy Ngườiđọc thường tin tưởng vào thông tin từ những nguồn mà họ coi là đáng tin cậy và cóquan điểm tương đồng Trong bối cảnh xã hội và cộng đồng, góc độ về ảnh hưởng xãhội nghiên cứu cách xã hội, cộng đồng và nhóm ảnh hưởng đến cách mà tin tức đượchiểu và đánh giá Ngữ cảnh đóng một vai trò quan trọng trong việc đánh giá sự tincậy [4] Tin tức được đặt trong ngữ cảnh rõ rang va đầy đủ thường có khả năng cao

hơn dé được xem là đáng tin cậy Việc kiêm tra thông tin từ nhiều nguồn cũng là một

cách đề đảm bảo sự chính xác và sự tin cậy của thông tin Mẫu tin ở hình 4.1 là một

ví dụ tiêu biểu về việc những tin túc giả mạo được lưu truyền trên mạng xã hội Tin

tức này sau đó được nhà VTV và các bên có liên quan lên tiếng là tin giả Tuy nhiên,trong thời điểm tin tức này được phát tán đã gây một sự hỗn loạn trong dân chúng

18

Trang 30

UEH Confessions

= S4m- 23

#33306

11/01/2023 0:18:00

Minh xin nương nhờ bên day để tâm sự ạ.

Chao toàn thể các bạn sinh viên, chuyện là chiều hôm nay, thứ 3 ngày 10 thang 1 năm 2023 Một

đứa bạn mình bên HUF*** đi quản sự bị hi*p d*m, xong nhảy lầu.

Minh thực sự rất bức xúc cũng như bất lực, buồn tdi vì mình thiếu quyền lực để bảo vệ bạn bè,

không thể làm chủ cho bạn ấy Nếu mình bị yêu cầu xóa bảo viết hay sao đó thì các bạn cũng tự

hiểu là mình bí một thé lực nào đó yêu cầu rồi đó.

Nguyễn nhân do ban quản lý bên Trường quan sự quan khu * thé não lại để xảy ra thế này, xong

bền trường HUƑ”** A trường quần sự ém nhẹm vi danh tiếng và doanh thu trưởng nếu bi tai

tiếng.

Miột số đứa bạn khác của minh hiện tai vừa sơ vừa cảm phần va bất luc Vì sao? Vi chúng mình

thuộc tầng lớp sinh viên, chẳng dang là gì so với lợi ích của ho.

Cơm thì làm ăn cho có, ở thi nhiều drama, sợ sệt bị hi*p d*m, quay lén, đăng bên page trường thi

đôi khi cũng bị gây áp lực; xóa hỏ nên mình chỉ cả thể qua bên day để tâm sự cũng như nhắc nhở

các bạn di quan sự nhớ cẩn than, bởi một lũ cam thủ sẽ luôn để mắt chực chờ ăn các bạn, và sẽ

có một thế lực chân vùi, êm nhẹm sự việc sau khi xong Đã có nhiều vụ xảy ra trước đó rồi, không

phải lần đầu, vụ đầu tiền là 12 năm trước.

Một vụ khác là bên nhóm kia, duyệt văn nghệ cho buổi biểu diễn ngày 12/1, mọi người đang vui

về chơi với nhau Xong có nhiều bạn tự tan ra chơi, Bạn kia bị may anh dan quân kéo vào cởi áo

ra May là có thầy đi ngang qua nên chưa có sao Nói chứ cũng tổn thương tinh thần rồi.

Không biết các bạn thế nào, riết rồi minh thấy xã hội này không còn công bằng, chỉ có mạnh

thẳng yếu thua, lợi ich gidm dap lên tình người.

Xã hội này chẳng ai có thể bảo vẽ chúng †a ngoài chính chúng ta đầu Đừng tin một tổ chức nào

cả.

Một hệ thống thối nát, chỉ khí trong chăn mới biết chăn có ran.

Đây cũng là động lực cho bản thần cũng như một số ban để phát triển bản than, xây dựng đất

nước nhằm tiêu diệt bọn xâu bọ súc sinh may.

Do bức xúc quá với không thể dùng từ nào sạch sẽ hơn để diễn tả sự do ban trong tam hồn

những kẻ lãnh đạo cùng mệt bỏ phan tha hóa của tổ chức này Mong các bạn thông cảm.

Một lần nữa minh xin gửi đến các ban một lài nhắn nhủ tân day lòng:” ĐỪNG ĐẶT SỰ AN TOAN

cua BẢN THÂN VÀO TAY BAT CU AI, HAY DOAN KẾT BẢO VỆ NHAU KHÔI NHỮNG CON THU DU

NAY".

Ma bản chất là do chúng ta quá yếu đuổi nên mới bị ap bức, đừng tưởng áp bức không chỉ có ở

thời chiến ngày xưa, ma bay giờ cũng có nên khi sự việc xảy ra, hd hé lên mới bị dan ap.

Một lí do quan trong nữa là do SỰ IM LANG VÀ PHOT LO CUA NGƯỜI TỐT.

Minh bay giờ rối lắm, chưa biết phải lam gi để giúp đỡ, vu đắp cho ban ấy một cách hợp lý nữa.

Đây vừa là tổn thương tinh thần lan thể xác.

Hơn nhau ở việc chọn nền vấn mình, bon minh kha hối han khi vào học trường nay, để bị đi quan

oue Han Tử Ngõ, Linh Dan and 6,2K others 2.6K comments 1,4K shares

Hình 4.1: Một mau tin thiếu sự tin cậy vào thời điểm dau năm 2023 nói về việc nữ

sinh HUFLIT bi hiệp dâm và tự tử trong khi học quân sự 4.2 Bài toán nhận diện sự tin cậy của tin tức

Trong thời kỳ số hóa ngày nay, việc xác định sự tin cậy của tin tức trở nên quantrọng hơn bao giờ hết, đặc biệt là trong bối cảnh khoa học máy tính và các thuật toán

19

Trang 31

trí tuệ nhân tạo, như học máy và học sâu, đang trở nên phô biên và có khả năng xử lý một loạt các tác vụ.

Trong quá khứ, các thuật toán hoc máy như Naive Bayes, Logistic Regression,

Decision Tree hay Support Vector Machine thường được sử dụng Tuy nhiên, với sự

gia tăng về lượng dữ liệu đa dạng và lớn mạnh, các mô hình học sâu đã dần dần chiếm

lĩnh sự chú ý của giới nghiên cứu.

The History of NLP "mm

IKu

Google

Noam Sequence:to- publishes

Chomsky — ALPAC sequence seminal

publishes discredits Pretrained lemingk work Pretained seminalwork the promise word the encoder- “attention tanguage

“Syntactic of machine Late 1980s > 2000 embeddings decoder | isAlYou modgs(eg, 2019 > Today

1957 r Network Architectures 2013 ¡ng 2017 2018

© or -@ * TT ”@.

1950 > Mid 1980s 1985989 1997 Early2000s > 2018 209 2020 2021 2022 2023

Early Days & Rule-Based Recurrent Hidden “tong i RoBERTa, DeBERTa, GPTNeo Flanf5, LLaMa,

Jppr0: Networks Models Memory” sleet GPr-2 BLOOM, Claude

iRNNs) (HMMs) for (SIM) ChatGPT

mô hình ngôn ngữ lớn như BERT, BART, GPT, T5 nổi lên với khả năng xử lý ngôn

ngữ mạnh mẽ và có hiệu suất cao vượt trội trong nhiều tác vụ Trong bối cảnh hiện

đại, việc áp dụng học sâu vào bài toán nhận diện sự tin cậy của tin tức trở nên cực kỳ

phù hợp và tiềm năng Sự tiến bộ của học sâu cung cấp cho chúng ta cơ hội dé nghiêncứu và xây dựng các hệ thống nhận diện tin tức giả một cách hiệu quả, đồng thời nâng

cao khả năng xác định sự tin cậy của thông tin trên các nền tảng truyền thông và mạng

xã hội.

20

Trang 32

Xu ly các đặc trưng trong lĩnh vực ngôn ngữ tự nhiên đóng một vai trò vô cùng quan

trọng Như đã được trình bày trong các nghiên cứu liên quan, có thể nhận thấy răng

quá trình xử lý các đặc trưng chịu ảnh hưởng lớn đến quá trình học và hiệu suất của

mô hình Vì vậy, việc nghiên cứu về việc xử lý hoặc trích xuất các đặc trưng là 1 điều

cân phải được coi trọng nhăm cải thiện hiệu suât mô hình hiệu quả hon.

4.3 Cac thuật toán hoc sâu cho bài toán

Trong ngữ cảnh của bài toán nhận diện sự tin cậy của tin tức, chúng ta có thể xem xét

nó như một bài toán phân loại nhị phân, với hai nhãn: 0 (Không tin cậy) va 1 (Tin

cậy) Đối với bài toán này, việc sử dụng các mô hình mã hóa (encoder models) có théđược coi là phù hợp nhất

Ly do chính là bài toán này yêu câu mã hóa rat nhiêu thông tin từ dữ liệu dau vào như

nội dung của tin tức, tiêu đê, sự phô biên của tin tức, và độ uy tín của nguôn tin Trong

khi đó, dit liệu đầu ra chỉ cần phan ánh kết quả dưới dạng nhãn nhị phân

Trong bài toán này, việc áp dụng mô hình học sâu như BERT trở nên ưu việt BERT

là một kiến trúc mô hình được xây dựng trên cơ sở của Transformer, tập trung vàoviệc học biểu diễn ngôn ngữ từ dir liệu với khả năng mã hóa thông tin phong phú vaphức tạp Đặc biệt, BERT tập trung vào thành phần mã hóa (encoder) của mô hình Transformer, chính điều này làm cho nó trở nên rất phù hợp và hiệu quả trong việc

xử ly các yêu câu phức tạp của bai toán nhận diện sự tin cậy cua tin tức.

4.3.1 Mạng Neural Nhân Tạo

4.3.1.1 Các khái niệm cơ bản

Mang Neural Nhân Tao (ANN) là một mô hình tính toán được xây dựng dựa trên

nguyên lý hoạt động của các nơ-ron trong não người Mục tiêu chính của ANN là giải

quyết các vấn đề phức tạp bằng cách mô phỏng khả năng học và phân loại dữ liệu

tương tự như não người.

21

Trang 33

Cấu trúc cơ bản của ANN bao gồm các nút (hay còn gọi là nơ-ron), đây là các đơn vị

cơ bản của mạng neural Mỗi nút nhận đầu vào từ nút trước đó hoặc từ dữ liệu đầu

vào, thực hiện các phép tính và truyền kết quả tới nút kế tiếp Mạng neural thường

được chia thành các lớp, bao gồm lớp đầu vào nhận dữ liệu và truyền nó tới các lớptiếp theo, các lớp ân nằm giữa lớp đầu vào và lớp đầu ra, và lớp đầu ra đưa ra kết quả

dự đoán cuối cùng Sự kết nối giữa các nút trong mạng neural được thực hiện thôngqua các trọng số Mỗi kết nối có trọng số tương ứng với mức độ quan trọng của đầuvào đó đối với nút đích Các lớp ân chứa các nút thực hiện các phép tinh dé học va

trích xuất thông tin từ đữ liệu, trong khi lớp đầu ra đưa ra kết quả cuối cùng sau khithông qua các lớp an

4.3.1.2 Quá trình truyền tiến (Feedforwarding)

Quá trình Feedforwarding, hay còn gọi là Truyền Tiến, trong Mạng Neural Nhân Tạo

(ANN) diễn ra khi dữ liệu được truyền qua mạng từ lớp đầu vào đi qua các lớp ân và

cuối cùng đến lớp đầu ra mà không có sự tham gia của chu ky phản hồi Trong quátrình này, dữ liệu được truyền tiễn qua các nút từ lớp này sang lớp khác, trong đó mỗi

22

Trang 34

nút thực hiện các phép tính dựa trên thông tin từ các nút trước đó và truyền kết quảtới các nút tiếp theo.

Quá trình này tiến hành theo chiều từ lớp đầu vào, trong đó dữ liệu ban đầu được đưa

vào, đi qua các lớp an, và sau đó đến lớp đầu ra dé tạo ra kết quả cuối cùng Mỗi lớp

trong quá trình Feedforwarding thực hiện các phép biến đổi dit liệu, tạo ra các biểudiễn trung gian dé dan dan trích xuất và biểu diễn thông tin theo cách phù hợp chobài toán cụ thể

Voi x là đầu vào của mang neural, W là ma trận trọng sô va b là véc-tơ độ lệch (bias)

của mỗi nút (hoặc neuron) trong mạng Công thức tính toán đầu ra của một nút tronglớp ân hoặc lớp đầu ra trong quá trình Feedforwarding có thé được biéu diễn như sau:

1 Tinh tổng trọng số đầu vào: z=Wx+b

2 Áp dụng hàm kích hoạt phi tuyến tính: a=f(z)

Trong đó:

e la tong trọng số đầu vào của mỗi nút.

e a là đầu ra của nút sau khi áp dụng hàm kích hoạt.

e ƒ là hàm kích hoạt phi tuyến tinh (ví dụ: hàm sigmoid, hàm tanh, hàm ReLU,

e Wx là phép nhân ma trận giữa ma trận trọng số W với vector đầu vào x.

e bla véc-tơ độ lệch (bias) giúp điều chỉnh và định hình đồng thời với trọng số

Điều này có thé biéu diễn một cách tổng quát cho mỗi nút trong mạng, từ lớp đầu vào

qua các lớp ấn và đến lớp dau ra trong quá trình Feedforwarding Kết quả của mỗi

nút sẽ được truyền tiếp như là đầu vào cho các nút trong lớp tiếp theo, tạo thành mộtchuỗi phép tính truyền tiến cho đến khi thu được kết quả đầu ra cuối cùng của mạng

4.3.1.3 Quá trình lan truyền ngược (Backpropagtion)

Lan truyền ngược (Backpropagation) là quá trình tính toán gradient của hàm mắt mát(loss function) theo các trọng số của mạng neural, bắt đầu từ lớp đầu ra và lan truyền

23

Trang 35

ngược lại lớp đầu vào thông qua các lớp an Quá trình này có vai trò quan trọng trong

việc điêu chỉnh trọng sô đê mô hình có khả năng học từ dữ liệu.

Gia sử mạng neural có một ham mat mát J và các trọng sô là W và b của mỗi nút

trong mạng Quá trình lan truyên ngược bat dau từ việc tính gradient của hàm matmát theo đầu ra của lớp cuối cùng o theo quy tắc chuỗi đạo hàm:

trận trọng số W Tiếp theo, gradient này được lan truyền ngược qua các lớp an khác

cho đến khi đạt được các đạo hàm của ham mắt mát J theo các trọng số W và b của

mạng.

4.3.2 Cơ chế Tập trung và Kiến trúc Transformer

Ở cơ sở, ý tưởng chủ đạo của Transformer là Self-Attention, khả năng tập trung vàocác vị trí khác nhau trong dãy đầu vào đề tạo ra biểu diễn cho toàn bộ dãy Đề xử lýđầu vào có độ dài biến đổi, Transformer sử dụng ngăn xếp các lớp Self-Attention thay

vì sự phụ thuộc vào mạng RNN hoặc CNN Kiến trúc này mang lại nhiều ưu điểm[5] như Không giới hạn khái niệm về mối quan hệ thời gian hoặc không gian trong

dữ liệu, tạo điều kiện thuận lợi cho xử lý các đối tượng đa dạng Tuy nhiên, khi đầu

vào chứa các môi quan hệ như trong dữ liệu văn bản, việc thêm vào các lớp biểu diễn

24

Trang 36

vị tri (Positional Encoding) là cần thiết Ngoài ra, Các lớp có thé tính toán đầu ra songsong thay vì tuần tự như RNN, giúp tăng tốc quá trình học Thông tin từ xa có thể ảnh

hưởng đến dau ra mà không cần phải đi qua nhiều bước RNN hoặc các lớp tích chập

Transformer có khả năng học các sự phụ thuộc dai hạn, một thách thức trong nhiềunhiệm vụ liên quan đến dãy thời gian

! I

HX |

i

| I

Hình 4.4 Kiến trúc Transformer so với Attention-Seq2Seq (Nguồn [54])

Có thể thấy trong hình trên, Transformer cũng bao gồm một Encoder và một Decoder.Khác với mô hình Seq2Seq, embedding biểu diễn chuỗi đầu vào và đầu ra sẽ được

cộng thêm với thông tin vi trí thông qua Positional Encoding trước khi được đưa vào

Encoder và Decoder dé xếp các module dựa trên Self-Attention một Tang hồi tiếptrong Seq2Seq cũng được thay bằng các Khối Transformer tương ứng Trong đó,Transformer Encoder là một ngăn xếp gồm nhiều lớp Encoder giống nhau, trong đómỗi lớp sẽ có các lớp con, bao gồm: Một tầng Tập trung Da đầu (Multi-HeadAttention): Đây là một đổi mới được giới thiệu trong [51], sử dụng nhiều Self-

25

Trang 37

Attention dé học nhiều loại mối quan hệ giữa các từ Một Mạng truyền Xuôi theo VỊ

trí (Position-wise Feed-Forward Network): Bao gồm 2 lớp fully connected với hàm

kích hoạt ReLU ở giữa Các Kết nối tắt (Skip Connection) và lớp Chuan hóa theo

Tang (Layer Normalization): Tăng tốc quá trình học và ngăn chặn mat mát thông tintrong quá trình huấn luyện Transformer Decoder cũng là một ngăn xếp với nhiều lớpgiống nhau và có kiến trúc tương tự như Encoder Nhiệm vụ của nó là giải mã vector

của câu nguồn thành câu đích Trong kiến trúc này, một tang Multi-Head Attentionthêm nằm ở giữa dé tương tác với trạng thái của Encoder và học mối liên quan giữa

từng từ đang được dịch với từng từ ở câu nguồn.Đề dam bảo tính tự hồi quy (autoregressive), Transformer cần che đi (mask) thông tin từ tương lai khi thực hiện Self-

Attention trong quá trình giải mã Mỗi vị trí trong Decoder chỉ sử dụng thông tin từ

các vi trí trước đó, va quá trình nay được gọi là Masked Attention [54] Transformer

Decoder cũng là một ngăn xếp gồm nhiều lớp giống nhau và khá giống kiến trúc của

Encoder, thực hiện chức năng giải mã vector của câu nguồn thành câu đích Khối này

có thêm một tang Multi-Head Attention khác năm ở giữa dé nhận vào trạng thái củaEncoder và học mối liên quan giữ từ đang dịch với các từ ở câu nguồn Cụ thê hon,các câu truy vấn của riêng tầng này sẽ là các đầu ra của lớp Decoder trước đó, còncác cặp khóa và giá trị là từ các đầu ra của Transformer Encoder Còn trong Self-Attention của Decoder, các truy van, cặp khóa và giá trị đều từ đầu ra của lớp Decoder

4.2.3.6 Mô hình BERT

26

Trang 38

BERT, viết tắt của Bidirectional Encoder Representation from Transformer, tương

truyền ý niệm về mô hình biểu diễn từ hai chiều sử dụng kỹ thuật Transformer Mụctiêu chính của BERT là huấn luyện trước các biểu diễn từ (pre-trained wordembeddings) Điểm đặc biệt của BERT năm ở khả năng cân bằng bối cảnh từ cả hai

hướng, cả từ phía trái và phải của từ.

Trong Transformer, cơ chế attention cho phép mô hình xử lý toàn bộ các từ trong câuvăn đồng thời mà không phụ thuộc vào hướng của câu Dù được gọi là huấn luyệnhai chiều (bidirectional), thực tế, Transformer có thê được mô tả là huấn luyện khôngchiều (non-directional) hơn Tính đặc biệt này của Transformer cho phép mô hình

học được bối cảnh của từ dựa trên sự tương tác của từ với toàn bộ ngữ cảnh xung

quanh, bao gồm cả từ bên trái và từ bên phải

BERT được tiền huấn luyện trên lượng lớn dữ liệu văn bản không có nhãn sử dụng

hai nhiệm vụ không giám sát là mô hình ngôn ngữ bí mat (MLM) va Dự đoán câu

Trang 39

Mô hình ngôn ngữ bị mặt (MLM) là một phần quan trọng trong quá trình tiền huấn

luyện của BERT Nhiệm vụ chính của MLM là tạo ra một mô hình có khả năng dự

đoán từ ngữ trong một câu dựa trên ngữ cảnh của các từ khác trong cùng câu Quá

trình tiền huấn luyện MLM diễn ra như sau:

e Bước 1: Chọn Ngẫu Nhiên và Che Đi Các Từ: Một số từ trong mỗi câu được

chọn ngẫu nhiên để bị che đi Các từ này được thay thế bằng một token đặc

biệt như [MASKI.

e _ Bước 2: Dự Đoán Các Từ Bị Che Đi: Mô hình BERT sau đó được huấn luyện

dé dự đoán các từ bi che đi bằng cách sử dụng thông tin từ các từ còn lại trongcâu Điều này tạo ra một khả năng biểu diễn ngữ cảnh cho từng từ, giúp mô

hình hiéu được ngữ cảnh xung quanh môi từ trong câu.

e Bước 3: Tính Toán Hàm Mat Mat (Loss Function): Hàm mat mát được tinh

dựa trên sự chênh lệch giữa xác suất dự đoán của mô hình cho từ bị che đi vàxác suất thực tế của từ đó trong dữ liệu huấn luyện

e Bước 4: Tối Ưu Hóa Tham Số: Thông qua quá trình lan truyền ngược và tối

ưu hóa gradient, các trọng số của mô hình được điều chỉnh để cải thiện khả

năng dự đoán.

Nhiệm vụ Dự Đoán Câu Tiếp Theo (NSP) trong quá trình tiền huấn luyện của BERT

tập trung vào khả năng của mô hình dự đoán xem hai câu có liên tiếp nhau hay không

Quá trình này giúp BERT học được sự liên kết ngữ cảnh giữa các câu trong văn bản

và hiểu được cách thông tin mở rộng qua các đơn vị văn bản liên tiếp Chi tiết quá

trình NSP như sau:

e _ Bước 1 - Chọn Cặp Câu và Tạo Dữ Liệu Huấn Luyện: Cặp câu được chọn từ

dữ liệu huấn luyện, và một câu trong cặp trở thành câu "A" và câu còn lại trở

thành câu "B" Nửa lượng thời gian, câu "B" là câu ngay sau câu "A" trong

văn bản; nửa lượng còn lại, câu "B" được chon ngẫu nhiên từ văn bản khác.

28

Trang 40

e Bước 2 - Dự Doan Liên Tiếp Nhau: Mô hình BERT được huấn luyện để dự

đoán xem câu "B" có liên tiếp ngay sau câu "A" hay không Điều này giúp mô

hình nắm bắt sự liên kết giữa các câu và học được cách thông tin trong văn

bản được tô chức theo thứ tự

e Bước 3 - Tính Toán Hàm Mất Mat (Loss Function): Hàm mất mát được tính

dựa trên sự chênh lệch giữa dự đoán của mô hình và trạng thái thực tế (liên

tiếp hoặc không liên tiếp)

e Bước 4: Tối Ưu Hóa Tham Số: Thông qua thuật toán tối ưu hóa gradient, các

tham số của mô hình được điều chỉnh dé tối ưu hóa kha năng dự đoán liên tiếp

của các cặp câu.

4.4 Công nghệ dữ liệu lớn

4.4.1 Giới thiệu về dữ liệu lớn

Công nghệ dtr liệu lớn (Big Data) là một lĩnh vực cực kỳ quan trong trong thế giới

hiện đại, nơi mà lượng thông tin được tạo ra và thu thập hàng ngày ngày càng gia

tăng một cách đáng ké Thuật ngữ "dữ liệu lớn" không chi đề cập đến khối lượng

lớn các dit liệu, mà còn bao gồm cả tính đa dạng, tốc độ sinh ra và khả năng xử lý

thông tin.

Dữ liệu lớn có nguồn gốc từ nhiều nguồn khác nhau như các nền tảng truyền thông

xã hội, thiết bị cảm biến, hệ thống thông tin y tế, giao thông, internet van vật (IoT),

và nhiều nguồn dif liệu khác Đây là những nguồn dữ liệu rất đa dạng về hình thức,

cau trúc, và độ lớn, đòi hỏi các phương pháp và công nghệ mới dé xử lý, lưu trữ và

phân tích.

29

Ngày đăng: 02/10/2024, 02:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w