1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Sử dụng mạng học sâu để phát hiện tin giả trên mạng xã hội

88 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử dụng mạng học sâu để phát hiện tin giả trên mạng xã hội
Tác giả Cao Thế Hoang
Người hướng dẫn TS. Phạm Mạnh Linh
Trường học ĐẠI HỌC QUỐC GIA HÀ NỘI
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2024
Thành phố HÀ NỘI
Định dạng
Số trang 88
Dung lượng 27,82 MB

Nội dung

Các mô hình này sử dụng sự chú ý thưa sparse attention có độ phức tạp tuyến tính thay cho sự chú ý đầy đủ full attention trong mô hình Transformer gốc cho phép chúng xử lý được các văn b

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO THÊ HOÀNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI - 2024

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Cao Thế Hoang

Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính

Mã số: 8480101.01

LUẬN VĂN THAC SĨ KHOA HỌC MAY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Phạm Mạnh Linh

HÀ NỘI - 2024

Trang 3

Mục lục

`

vii

Chương! |Kiến thức nền tang 7

1.1 Bài toán phát hiện tin gia ở trên các mang xã hội 7

1.1.1 Pham vi cua luận văn trong việc phat hiện tin gia 8

1.1.2 Cácmôiquantâm| ee 8 1.1.3 Cac thudctinhcuatinttic] 2 0.2.2.2 02200 9

1.1.4 Các đặc điểm của tin giả 9

10 1.2_ Một sô mô hình hiện có để xử lý tin giả dựa trên văn bản 10

121 Môhinh lransfomer 11

1.2.2 Mo6hinh BERT) 0 2 0000 ee ee 14 1.2.3 Mô hinh RoBERHaA| 17

¬ 20 1.2.5 Mô hinh BIGBIRD| 23

¬ 27

Trang 4

Chương2 |LNLF-BERT: Một mô hình mới xử lý các đoạn van bản dài khi phân loại

3.3.4 ECHR-Ẩndanh| 59

3.3.5 WELFakel ẶẶ Q Q Q Q HQ HQ v2 61 3.3.6 CIDH| Q Q Q0 ee 63

3.3.7 ENC-I] Qua 64

¬ 66

Tài liệu tham khảo 69

il

Trang 5

Thuật ngữ

Từ viết tắt Từ đầy đủ Ý nghĩaARG An adaptive rationale guidance net- | Mạng hướng dẫn cơ sở lý luận thích

work ung

ARG-D ARG by distillation Mang ARG rut gon

BERT Bidirectional Encoder Representa- | Biểu diễn Bộ mã hóa Hai chiều từ

tions from Transformers Transformer BPE Byte-Pair Encoding Ma héa cap byte

CNN Convolutional Neural Network Mang no-ron tich chap

FND Fake New Detection Phat hién tin gia

GPT Generative Pre-training Transformer | May Transformer dao tao trước tao

sinh

GPU Graphics processing unit Bộ phận xử ly dé họa

LLM Large Language Model Mô hình ngôn ngữ lớn

LNLF-BERT | Look Near and Look Far BERT Mô hình BERT nhìn gan và nhìn xa

LSTM Long-short term memory Bộ nhớ ngắn-dài hạn

MLM Masked language model Mô hình ngôn ngữ được che dấu

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

NSP Next sentence prediction Du đoán câu tiếp theo OVC Orthogonal Vector Conjecture Giả thuyết Véc-tơ Trực giao

QA Question Answering Trả lời câu hỏi

RNN Recurrent Neural Network Mạng nơ-ron héi quy

RoBERTa Robustly Optimized BERT Pretrain- | Phương pháp đào tạo trước BERT

ing Approach được tối ưu hóa mạnh mé

seq2seq sequence to sequence Từ chuỗi tạo ra chuỗi (chuỗi đến

chuỗi)

iii

Trang 6

Từ viết tắt | Từ đầy đủ Ý nghĩa

SLM Small Language Model Mô hình ngôn ngữ nhỏ

TF-IDF Term frequency-Inverse document | Tần suất thuật ngữ — Tan suất nghịch

frequency dao tai liệu TPU Tensor Processing Unit Bộ phận xử ly tensor

iv

Trang 7

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, không sao chép các tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ trong tài liệu tham khảo.

Hà Nội, ngày thang năm

Học viên

Cao Thế Hoàng

Trang 8

Lời cảm ơn

Tôi xin gửi lời cảm ơn tới TS Phạm Mạnh Linh, người thầy đã tận tình chỉ bảo và hướng dẫn trong suốt quá trình tìm hiểu, nghiên cứu Với kiến thức và nhiều năm kinh nghiệm của mình, thầy đã đưa ra những góp ý tỉ mỉ, chỉ tiết hết sức quý báu để tôi có thể hoàn thành luận văn này.

Hà Nội, ngày thang năm

Học viên

Cao Thế Hoàng

vi

Trang 9

Tóm tắt

Tóm tat: Các mô hình Transformer từ khi xuất hiện đã thể hiện sự vượt trội với các

phương pháp trước trong các tác vụ xử lý ngôn ngữ tự nhiên Luận văn tập trung nghiên

cứu về các khía cạnh của loại mô hình học sâu này trong nhiệm vụ phân loại tin giả trêncác mạng xã hội Trong các thuộc tính cần để phân loại tin giả thì văn bản đóng một

vai trò vô cùng quan trọng bên cạnh các thông tin đa phương tiện như ảnh, video hay

thông tin đồ thị lan truyền tin tức, v.v Tuy nhiên các mô hình Transformer truyền thống

bị giới hạn ở 512 mã thông báo nên sẽ không phù hợp để xử lý các bài đăng nội dung dài Đã có nhiều nghiên cứu để mở rộng giới hạn số lượng mã thông báo của các mô

hình Transformer mà điển hình là Longformer và BIGBIRD Hai mô hình đã đạt được thành tựu đáng kể khi có thể xử lý lên tời 4096 mã thông báo Trong luận văn này, tácgiả đề xuất một mô hình Transformer mới có tên là LNLF-BERT cho phép xử lý các văn

bản dài bằng cách chia chúng thành các câu và áp dụng sự chú ý (attention) ở mức câu

và mức văn bản so le với nhau Tác giả đã thực nghiệm trên nhiều bộ dữ liệu và đạt kếtquả vượt trội cho thấy đây là một hướng nghiên cứu đầy hứa hẹn, có thể mở rộng trong

tương lai.

Từ khóa: Tin giả, Transformer, mạng xã hội, xử lý câu, học sâu, văn bản dài, sự chú ý

thưa, LNLF-BERT

Vii

Trang 10

Danh sách hình ve

Li Kiến trúc Transformerl - 12

1.2 Sự chú ý tích vô hướng có tỷ lệ và Sự chú ý nhiều đầu 131.3 Quy trình đào tạo trước và tinh chỉnh tổng thé cho BERT| 16

14_ Biểu diễn đầu vào của BERT] 16

1.5 So sánh mô hình tự chú ý day đủ và cau hình của các mẫu chú ý trong` 21 1.6 Thời gian chạy và bộ nhớ về tính năng tự chú ý hoàn toàn cũng như các cách triển khai tính năng tự chú ý khác nhau của Longformer1.7 Các khối xây dựng của cơ chế chú ý được sử dụng trong BIGBIRD|

2.1 Các bước xử lý van ban của mô hình LNLEF-BERT| 34

2.2_ Bước tạo mã thông bao cho LNLF-BERT] 35

2.3 _ Véc-tơ hóa ở mức từ cho LNLE-BERIH] 36

2.4 Véc-tơ hóa ở mức câu cho LNLE-BERI] 37

2.5 Hai kiểu tự chú ý trong mô hình LNLE-BERT| 38

3.1 Sơ đồ thực nghiệm mô hìnhLNLEF-BERT| 4I3.2 Hàm mất mát khi huấn luyện trước LNLF-BERT 573.3 Quá trình tinh chỉnh LNLF-BERT trên tập dữ liệu ECHR’ 583.4 Quá trình tinh chỉnh LNLF-BERT trên tập dữ liệu ECHR - Ẩndanh 60

Trang 11

Danh sách bảng

3.1 Các bộ dữ liệu liên quan đến tin giả (1) 44

3.2 Các bộ dữ liệu liên quan đến tin giả (2) 45

3.3 Số lượng dòng ở trong bộ dữ liệu WikiText-103 47

¬ La 48

35 Bộ dữ liệu WELFakel Ặ.ẶẶ Q QẶ Q Q Q K 50

3.6 Phân phối tin thật và tin giả trên tập dữ liệu WELFake

(Don vị: giây) trên tập kiểm thử của ECHR}

3.11 Kết qua Precision, Recall, F1 (Don vị: %) và thời gian chạy huấn luyện,

3.12 Kết quả mô hình LNLF-BERT với tỷ lệ huấn luyện/kiểm thử khác nhau

3.13 Kết quả đánh giá các mô hình khác nhau trên bộ dữ liệu WELFake với

tỷ lệ dữ liệu huan luyện/kiểm thử là 70/30

3.14 Thời gian chạy huấn luyện/kiểm thử (Don vị: giây) của các mô hình cơ

sở và mô hình dé xuất trên bộ dữ liệu WELFake với tỷ lệ dữ liệu huan

luyện/kiểm thử là 70/30| - 63

1X

Trang 12

3.15 Kết quả đánh giá và thời gian chạy huấn luyén/kiém thử (Don vị: giây)

trên bộ dữ liệu CIDIH| - 63

3.16 Kết quả trên tập dữ liệu FNC-1 65

3.17 Thời gian chạy huấn luyén/kiém thử (Đơn vị: giây) trên bộ dữ liệu CIDI| 66

Trang 13

Giới thiêu

Mạng truyền thông xã hội (hay còn được gọi là mạng xã hội) là một nền tang trực tuyến mà mọi người sử dụng để xây dựng các mối quan hệ xã hội với những người khác có

cùng sở thích cá nhân hoặc nghề nghiệp, hoạt động, hoàn cảnh hoặc kết nối trong cuộc

sống thực Ngày càng rõ ràng rằng mạng xã hội đã trở thành một phần của cuộc sống

con người Nền tảng mạng xã hội cho phép người dùng trò chuyện, chia sẻ thông tin vàtạo nội dung ở trên mạng Internet Mạng xã hội có nhiều hình thức khác nhau bao gồmblog, wiki, trang mạng xã hội, chia sẻ ảnh, tin nhắn tức thời, chia sẻ video, v.v Hàng tỷ

người trên thế giới sử dụng mạng xã hội để chia sẻ thông tin và tạo kết nối Ở cấp độ cá

nhân, mạng xã hội cho phép chúng ta giao tiếp với bạn bè và người thân, thu thập kiến

thức về những điều mới, phát triển sở thích của mình và giải trí Ở cấp độ chuyên môn,

chúng ta có thể sử dụng mạng xã hội để mở rộng kiến thức của mình trong một lĩnh vực

cụ thể và kết nối với các chuyên gia khác trong ngành Ở cấp độ doanh nghiệp, mang xã

hội cho phép công ty trò chuyện với khán giả, nhận phản hồi của khách hàng va nâng

cao thương hiệu [5Š].

Với sự tiến bộ của mạng xã hội, nhiều cá nhân và tổ chức đang tận dụng phươngtiện này để cải thiện hoạt động của họ Chúng ta có thể quảng cáo hoặc giao tiếp mộtcách hiệu quả hơn Mọi người không cần phải dựa vào các phương tiện truyền thôngtruyền thống (ví dụ: tivi) để nhận tin tức hàng ngày mà có thể lấy hầu hết từ một trang

mạng xã hội Chúng ta có thể theo dõi và lấy thông tin từ khắp nơi trên thé giới [55].

Một số mạng xã hội phổ biến nhất với hơn 100 triệu người dùng đã đăng ký baogồm Facebook (Messager), Twitter, WeChat, Instagram, Weibo, LinkedIn, v.v Tùy theocách hiểu, các nền tang phổ biến khác cũng có thé được coi là một mạng xã hội bao gồm

YouTube, QQ, Telegram, WhatsApp Viber, Reddit, Discord, TikTok, Microsoft Teams,

v.v Wikipedia cũng có thé coi là một mạng xã hội về hợp tác sáng tạo nội dung Mang xã

Trang 14

hội khác với các phương tiện truyền thông truyền thống (như báo chí, truyền hình, phátthanh) theo nhiều mặt gồm chất lượng, phạm vi tiếp cận, tần suất, khả năng sử dụng,mức độ liên quan và tính lâu dài Khác với các phương tiện truyền thống khi tin tức có

độ tin cậy cao, các tin tức ở trên mạng xã hội khi người dùng đọc hoặc chia sẻ thông tin có thể đúng hoặc sai.

Tin giả (fake news) là thông tin sai lệch (bao gồm thông tin xuyên tạc, lừa đảo)

hoặc gây hiểu nhầm Tin giả thường nhằm mục đích gây tổn hại đến một cá nhân hoặc

tổ chức, hoặc kiếm tiền thông qua doanh thu quảng cáo Tuy nhiên thuật ngữ này khôngcó định nghĩa cố định và được áp dụng rộng rãi cho bất kỳ loại thông tin sai lệch nàođược trình bày dưới dạng tin tức Theo một số định nghĩa, tin giả cũng bao gồm các bàiviết châm biếm bị hiểu sai là tin thật và các bài viết sử dụng tiêu đề giật gân hoặc dẫn dụngười dùng nhấp chuột (click bait) Sự phổ biến của tin giả đã gia tăng cùng với sự nổilên của mạng xã hội như Facebook, Tweet, v.v Một số yếu tố được cho là có liên quanđến sự lan truyền của tin giả như sự phân cực chính trị, thành kiến, lý luận có động cơ

và các thuật toán trên mạng xã hội [36].

Tin giả có thể làm giảm tác động của tin thật bằng cách cạnh tranh với nó Nócũng có khả năng làm suy yếu niềm tin vào việc đưa tin nghiêm túc trên các phươngtiện truyền thống Để chống lại tin giả, nhiều chiến lược hiện đang được tích cực nghiêncứu đối với nhiều loại tin giả khác nhau Còn đối với cá nhân, khả năng chủ động chống

lại những lời tường thuật sai sự thật và việc cẩn thận khi chia sẻ thông tin có thể làm giảm tỷ lệ phổ biến của thông tin sai lệch Tuy nhiên, điều này dé bị tốn thương trước tác động của thành kiến về nhận thức Ví dụ, ở trên mạng xã hội, các thành viên trong các nhóm thường quan điểm giống nhau, dẫn đến khi một thành viên chia sẻ một tin tức

thì các thành viên khác thường tiếp nhận rất nhanh và củng cô quan điểm của họ (hiệuứng buồng dội âm) Điều này khiến họ khó có thể tôn trọng quan điểm đối lập, làm tăngnguy cơ tin giả Nhiều người có xu hướng tin vào những tin tức giả phù hợp với quan

điểm của bản thân hơn là những tin tức that [48].

Thực ra, tin giả không phải là mới nhưng cuộc bầu cử tổng thống Mỹ năm 2016 đãđặt hiện tượng này vào chương trình nghị sự quốc tế Hiện tượng thao túng, thông tin sai

lệch, sai sự thật, tin đôn, thuyết âm mưu (bao gồm các hành động, hành vi gan liền với

các thuật ngữ này) đã tồn tại chừng nào con người từng giao tiếp Tuy nhiên, các côngnghệ truyền thông mới đã tạo ra những cách thức mới để sản xuất, phân phối và tiêu thụ

Trang 15

tin giả Điều này khiến cho việc phân biệt thông tin tin cậy trở nên khó khăn hơn Tintức giả thường được nghiên cứu theo bốn hướng: đặc điểm, sáng tạo, lan truyền và chồnglại Đặc điểm liên quan đến việc định nghĩa tin giả và các loại tin giả Sáng tạo liên quanđến việc sản xuất tin giả, thường được tạo ra với mục đích tài chính, chính trị hoặc xã

hội Sự lan truyền tin giả liên quan đến những cách khác nhau mà tin giả được phổ biến

và khuếch đại (thường thông qua mạng xã hội và công cụ tìm kiếm) Việc chống lại tingiả liên quan đến các cách tiếp cận nhằm phát hiện và chống lại tin giả ở các cấp độ khác

nhau, từ khía cạnh pháp lý, tài chính và kỹ thuật cho đến kiến thức của người dùng cũng

như các dịch vụ xác minh tin thật mới [9].

Trước đây, các biên tập viên và nhà xuất bản là những người kiểm soát thông tintrong thời đại truyền thông sử dụng báo in, tivi và phát thanh Còn trong thời đại mới,các nên tảng công nghệ và thuật toán lại đóng nhiệm vụ kiểm soát Các mạng xã hội, đặcbiệt là Facebook, đã trở thành một điểm truy cập tin tức quan trọng ở nhiều quốc gia:hơn một nửa số người dùng trực tuyến (54%) trên 36 quốc gia cho biết họ sử dụng mạng

xã hội làm nguồn tin tức mỗi tuần (0| Trong một nghiên cứu kiểm tra mức độ tiếp xúc

với thông tin sai lệch trong chiến dịch bầu cử Mỹ năm 2016, các nhà nghiên cứu phát

hiện ra rằng Facebook là nguồn chính dẫn đến việc tiếp xúc với tin tức giả Bì.

Sau khi xác định được sự lan truyền của tin giả, thông tin xuyên tạc và những hậu

quả rắc rối của chúng, nhiều nỗ lực chống lại tin giả đã được thực hiện ở nhiều quốc

gia khác nhau Vào tháng 1 năm 2018, Ủy ban châu Âu đã bổ nhiệm 38 chuyên gia vào Nhóm cấp cao mới về tin giả và thông tin sai lệch trực tuyến để tư vấn cho Ủy ban về cách

hiểu và giải quyết hiện tượng tin giả và thông tin sai lệch 3] Nhóm đưa ra lời khuyên

rõ ràng cho các giải pháp đơn giản để chống lại, chẳng hạn như kiểm duyệt quyền tự do

ngôn luận Vì thông tin sai lệch là một van đề nhiều mặt và đang ngày càng phát triển,báo cáo dé xuất tập trung ứng phó năm trụ cột: (1) tăng cường tính minh bach của hệsinh thái thông tin kỹ thuật số; (2) thúc đẩy kiến thức về truyền thông và thông tin để

chống lại thông tin sai lệch và giúp người dùng điều hướng môi trường truyền thông kỹ

thuật số; (3) phát triển các công cụ trao quyền cho người dùng và nhà báo để giải quyết

thông tin sai lệch và thúc đẩy sự tương tác tích cực với các công nghệ thông tin đang phát

triển nhanh chóng; (4) bảo vệ tính đa dạng và bền vững của hệ sinh thái truyền thông tintức; (5) thúc đẩy nghiên cứu liên tục về tác động của thông tin sai lệch để đánh giá cácbiện pháp được thực hiện bởi các chủ thể khác nhau và liên tục điều chỉnh các phản ứng

Trang 16

cần thiết [33].

Các mạng xã hội cũng đã triển khai các nỗ lực nhằm chống lại sự lan truyền tin giả.Facebook cô gắng giảm động lực tài chính để tạo ra các trang web tin tức giả mạo, gắn cờ

lưu hành tin tức giả mạo cho nguồn cấp tin tức bằng cách hợp tác với những người kiểm

tra thực tế chuyên nghiệp và đánh dấu các nguồn tin tức đáng tin cậy [9] Tuy nhiên, việc

phát hiện sớm tin giả đóng vai trò quyết định trong việc giảm thiểu tác hại của tin giả

trước khi nó được lan truyền Do đó, các thuật toán tự động phân loại tin giả đóng một

Vài tro quan trọng trong việc phát hiện tin giả.

Trước đây, việc xử lý văn bản thường sử dụng các kỹ thuật trích xuất các thuộc tínhmột cách thủ công như túi từ (bag of word) hay Tần suất thuật ngữ — Tần suất nghịch đảo

tài liệu (Term frequency-Inverse document frequency - TF-IDF) Tuy nhiên các phương

pháp này có khá nhiều nhược điểm khi phụ thuộc khá nhiều vào kinh nghiệm của chuyêngia Hiện nay, các phương pháp tiên tiến nhất đa phần đều sử dụng mạng nơ-ron (ví dụ:RNN/LSTM) để trích xuất tự động các thuộc tính Nổi bật trong số đó là các mô hình

Transformer đã đạt dược các thành tựu trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân

loại tin giả không phải là ngoại lệ Ưu điểm là thế nhưng các mô hình Transformer gặp khó khăn với các văn bản dài Các mô hình này thường chia nhỏ văn bản ra thành các

đoạn nhỏ hơn hoặc cắt bớt văn bản để xử lý Điều này khiến mô hình khó nắm bắt đượcthông tin của toàn bộ văn bản dẫn đến người phát tán thông tin giả có thể cài cắm các

thông tin sai lệch ở cuối hoặc xen ké trong các đoạn để qua mặt mô hình

Đã có nhiều nghiên cứu để giải quyết vấn đề văn bản dài nhằm giảm bớt độ phức

tạp của mô hình Transformer truyền thống (phụ thuộc bậc hai vào độ dài văn bản), điển

hình là các mô hình Longformer và BIGBIRD [34] Các mô hình này sử dụng sự

chú ý thưa (sparse attention) có độ phức tạp tuyến tính thay cho sự chú ý đầy đủ (full

attention) trong mô hình Transformer gốc cho phép chúng xử lý được các văn bản dài hơn (lên tới 4096 mã thông báo so với 512 mã của các mô hình Transformer cơ sở).

Trong quá trình tìm hiểu và nghiên cứu, tác giả thấy rằng kỹ thuật chú ý thưa ở hai

mô hình này có hai phần quan trọng: sự chú ý toàn cục và sự chú ý cục bộ Sự chú ý toàn

cục thì hoàn toàn dễ hiểu khi một số mã thông báo tham dự chú ý vào toàn bộ các mã

khác thì sự chú ý cục bộ lại chú ý đến các mã thông báo xung quanh (cửa sổ) Tác giả đặt ra một câu hỏi có thể thay thé sử dụng sự chú ý cục bộ là các mã thông báo xung quanh

thành các mã thông báo trong cùng câu được không Đi kèm với đó, nếu các mã thông

4

Trang 17

báo toàn cục giúp cho các mã thông báo ở xa nhau có thể liên kết được với nhau thì có

cần thiết các mã thông báo toàn cục phải tham dự chú ý vào các mã thông báo khác haykhông, hay chỉ cần các mã thông báo toàn cục tự chú ý với nhau là đủ

Với bài toán phân loại tin giả, đã có nhiều nghiên cứu sử dụng các kỹ thuật khác nhau dựa trên nội dung, hình ảnh, thông tin đồ thị lan truyền, v.v Tuy nhiên trong quá

trình nghiên cứu, tác giả nhận thấy với các bài đăng dài cần phân loại thì các kỹ thuậtcũ có nhiều hạn chế Do đó trong luận văn này, tác giả đề xuất một mô hình mới để xác

định tin giả có độ dài lớn ở trên các mạng xã hội Mô hình LNLF-BERT (Look Near and

Look Far - BERT) mới này áp dụng sự tự chú ý theo từng lớp giữa từng câu và giữa các

đại diện của câu, một dạng của sự tự chú ý thưa (độ phức tạp là bậc hai của độ dài câu

nhân với số câu) cho phép mô hình xử lý gần tới 3840 mã thông báo (gần bằng 4096 mã

thông báo của Longformer và BIGBIRD) Do đây là một mô hình hoàn toàn mới nên tác

giả đã thực hiện cả hai quá trình là huấn luyện trước mô hình và tinh chỉnh với từng bộdữ liệu cụ thể.

Trong phạm vi luận van này, bài toán phát hiện tin giả trên mạng xã hội được giới hạn lại ở việc phân loại các tin tức chỉ bao gồm văn bản Các thông tin như hình ảnh,

video, thông tin lan truyền của tin tức sẽ không nằm trong phạm vi xem xét và xử lý củaluận văn này Việc đơn giản hóa này giúp tác giả tập trung vào việc tối ưu hóa việc xử lý

văn bản hiện có trong phân loại tin giả.

Đóng góp chính của tác giả trong luận văn gồm các điểm sau:

° Khảo sát các nghiên cứu có liên quan, tim hiểu ưu nhược điểm của từng mô hình

khi xử lý tin giả

« Đề xuất và phát triển một mô hình mới LNLF-BERT để phân loại tin giả chỉ có

nội dung văn bản và có thể áp dụng cho các bài toán phân loại văn bản dài khác

* Chạy thực nghiệm va so sánh kết quả mô hình đề xuất với các mô hình cơ sở và

các mô hình tiên tiến nhất (state-of-the-art) trên các bộ dữ liệu

Tác giả đã thực hiện chạy thực nghiệm mô hình trên nhiều tập dữ liệu phân loại tingiả và đã đạt được các kết quả tốt Điều này cho thấy hiệu quả của mô hình được dé xuấttrong việc phân loại tin giả, góp phần bổ sung vào các kỹ thuật hiện có Từ đó góp phần

làm giảm các tác hại của việc lan truyền tin giả trên mạng xã hội Phân còn lại của luận

5

Trang 18

văn được cấu trúc như sau: Chương|I|trình bày các kiến thức nền tảng về bài toán phân

loại tin giả trên mạng xã hội và các phương pháp đã được áp dụng Ngoài ra chương này

cũng mô tả về mô hình Longformer và BIGBIRD Trong Chuong|2| luận văn sé nêu chi

tiết về mô hình mới được dé xuất và cách áp dụng vào bài toán phân loại tin giả trên

mạng xã hội Thực nghiệm và đánh giá cũng được mô tả trong chương này cho thấy ưu điểm của mô hình dé xuất Cuối cùng là kết luận và tài liệu tham khảo của luận văn.

Trang 19

Chương 1

Kiến thức nên tảng

Vấn đề tin giả đã xuất hiện từ rất lâu trong lịch sử của loài người Với sự phát triển của

các mạng xã hội, tình trạng lan truyền tin giả càng trở nên phổ biến Trong chương nay,

luận văn sẽ cung cấp về các khía cạnh của tin giả ở trên mạng xã hội và các hướng xử lý

hiện nay.

1.1 Bài toán phát hiện tin gia ở trên các mạng xã hội

Tin gia (fake news) là thông tin không đúng sự thật hoặc bia đặt, xuyên tac Tin gia

thường được tuyên truyền nhằm mục đích lừa đối người khác Ví dụ: tin giả có thể là

thông tin sai lệch về một sự kiện hoặc thông tin sai lệch về một sản phẩm Trong thời đạiInternet hiện nay, tin giả có thể lan truyền rất nhanh và rộng rãi, gây nhiều hiệu quả tiêu

cực.

Bài toán phát hiện tin giả ở trên các mạng xã hội là việc sử dụng các phương pháp

nhằm xác định một mẩu thông tin được chia sẻ ở trên mạng xã hội có phải là tin giả hay

không Bài toán này đặc biệt quan trọng trong thời đại số hóa hiện nay nên việc phát

hiện và ngăn chặn tin giả giúp bảo vệ người dùng khỏi những thông tin sai lệch và đảm

bảo tính xác thực của thông tin ở trên mạng Internet.

Trang 20

1.1.1 Pham vi của luận văn trong việc phát hiện tin gia

Trong luận văn này, tác giả không sử dụng các thông tin dữ liệu bổ sung liên quan đến

người dùng hoặc mạng xã hội để phân loại tin giả Thay vào đó, tác giả nghiên cứu pháttriển các kỹ thuật để phát hiện tin giả dựa trên văn bản (bao gồm cả tiêu dé, nội dung,v.v), bỏ qua các thông tin đa phương tiện như ảnh, video, v.v Về một mặt nào đó, bài

toán phân loại tin giả trong luận văn này là một lớp bài toán con của bài toán phân loại

văn bản Tuy nhiên, bài toán phân loại tin giả cũng có thêm một số đặc trưng riêng so

với các bài toán phân loại văn bản khác.

1.1.2 Các mối quan tâm

Khi giải quyết bài toán phát hiện tin giả trên các mạng xã hội, có một số mối quan tâm

chính:

* Độ chính xác: Việc xác định một tin tức là giả mạo hay không đòi hỏi độ chính

xác cao, vì việc phân loại sai có thể dẫn đến việc lan truyền thông tin sai lệch hoặc

hạn chế quyển tự do ngôn luận.

« Độ phức tap của ngôn ngữ: Tin giả thường được viết một cách tinh vi và sử dụng

ngôn ngữ phức tạp để tránh bị phát hiện Điều này đòi hỏi các phương pháp phântích ngôn ngữ tự nhiên (Nature Language Processing - NLP) tiên tiến

* Sự thay đổi liên tục của thông tin: Tin giả thường được tao ra và lan truyền rất

nhanh, đòi hỏi hệ thống phải có khả năng cập nhật và học hỏi từ dữ liệu mới một

cách liên tục.

* Vấn đề về quyền riêng tư: Khi thu thập và phân tích dữ liệu từ mạng xã hội, việc

bảo vệ quyền riêng tư của người dùng là một mối quan tâm quan trọng

¢ Tính da dạng của nền tảng: Mỗi nền tảng mạng xã hội có những đặc điểm riêng,

đòi hỏi các phương pháp phát hiện tin giả phải linh hoạt và có thể tùy chỉnh chotừng nền tảng

Trang 21

1.1.3 Cac thuộc tinh của tin tức

Nhiều nghiên cứu đã sử dụng phân loại dựa trên các thuộc tính để xác định rõ hơn các

tin bài sai sự thật Sau đây là một vài thuộc tính [42]:

« Các tính năng ngữ nghĩa: các tính năng ngữ nghĩa nắm bắt khía cạnh ngữ nghĩa

(ý nghĩa) của văn bản Các tính năng này được lấy từ một mẫu có ý nghĩa từ dữ

liệu.

* Các tinh năng từ vựng: các tính năng từ vựng chủ yếu được sử dụng trong véc-to

hóa TF-IDF để tóm tắt tổng số từ và tần suất từ đó Các tính năng từ vựng cũngbao gồm đại từ, động từ, dấu thăng (hash tag) và dấu chấm câu

* Các tính năng ở cấp độ câu: các tính năng bao gdm cách tiếp cận túi từ (bag of

word) và cách tiếp cận n-gram Đặc trưng cấp câu là đặc trưng ngôn ngữ được sử

dụng chủ yếu trong phân loại văn bản.

* Các tính năng tâm lý ngôn ngữ: các tính năng và số lượng từ dựa trên phần mềm

khai thác văn bản dựa trên từ điển.

1.1.4 Các đặc điểm của tin giả

Tin giả thường có những đặc điểm sau đây:

* Dong tít khả nghỉ: Tin giả thường sử dụng lời lẽ gây sốc, in hoa cả tít và đưa thêm

nhiều dau chấm cảm thán kiểu "!!!", "229"

¢ Dia chi trang web kỳ quac: Tin giả thường được đăng trên các trang web có địa

chỉ kỳ quặc, vô nghĩa Khi click vào trang này, bạn có thể gặp nhiều mẩu quảng

cáo hoặc bị dẫn dắt sang các trang web khác với nội dung không trong sáng (khiêu

dâm, game, bạo luc )

¢ Không ghi ro nguon góc: Các câu chuyện giật gân giả mạo thường không ghi rõ

nguồn gốc, trong trường hợp nếu có thì nên kiểm tra lại bằng các công cụ tìm kiếm(hoặc chắc chắn hơn là các trang báo chính thống)

Trang 22

» Dinh dạng kỳ quac: Trang tin vặt thường có định dạng kém chuyên nghiệp, màu

mè, sai nhiều lỗi chính tả và văn phong lủng củng

» Hình ảnh không tự nhiên: Các tin giả có hình ảnh hoặc video thường bị can thiệp

chỉnh sửa

Ngoài ra, tin giả thường có khả năng thu hút cảm xúc của chúng ta Một nghiên

cứu về các mạng trực tuyến cho thấy văn bản lan truyền mạnh mẽ hơn khi chứa mật độ

cao tính "đạo đức mang cảm xúc” 20] Các quyết định thường được thúc đẩy bởi những

cảm xúc sâu sắc có thể khó xác định Do đó để phòng chống tin giả, chúng ta cần kiểmtra nguồn gốc và cân nhắc kỹ trước khi chia sẻ

1.1.5 Cac hướng nghiên cứu xác định tin giả

Để xác định tin giả, có nhiều phương pháp đa dạng đã được đưa ra dựa trên nội dung, hình

ảnh, video, các trang chính thống, thông tin lan truyền, v.v Ví dụ, mô hình SAMPLE

được sử dụng để phân biệt tin giả và tin thật dựa trên nội dung và hình ảnh của bài

đăng (61) Mô hình này sử dung độ tương tự giữa nội dung van ban và hình ảnh để làm

căn cứ phân loại Một mô hình khác là GACL sử dụng đồ thị lan truyền để xác định tin

đồn (là một dang tin giả) ở trên mạng xã hội [54] Mô hình này sử dụng phương pháp

học tập đối nghịch tương phản ở trên đồ thị Tuy nhiên trong thực tế, không phải lúc nàocác bài đăng cũng có hình anh va để hạn chế được tác động của tin giả thì can phải pháthiện sớm tin giả trước khi được lan truyền Do đó, các hướng nghiên cứu để xác định tin

giả ở trên các mạng xã hội chỉ dựa trên nội dung văn bản là một hướng nghiên cứu quan

trọng Sau đây luận văn sẽ mô tả các cách tiếp cận để giải quyết bài toán phân loại tin

giả dựa trên nội dung văn bản.

10

Trang 23

thuật này thường yêu cầu việc trích xuất thủ công dựa trên kinh nghiệm của chuyên gia.

Do đó, sự ra đời của các mạng nơ-ron sâu đã cho phép các mô hình có thể tự động họccách trích xuất các tính năng này dựa trên dữ liệu huấn luyện Vì vậy, luận văn này chủyếu dé cập đến các mạng nơ-ron áp dụng cho bài toán xử lý tin giả

Phần này của luận văn sẽ dé cập đến các mang Transformer làm nên tảng để pháttriển mô hình dé xuất Mô hình BERT/RoBERTa cho thấy sức mạnh của việc tự chú ýday đủ (full self-attention), huấn luyện trước (pre-training) và tinh chỉnh (fine-tuning).Hai mô hình Longformer và BIGBIRD cung cấp các lý thuyết nền tảng của sự tự chú ýthưa (spare self-attention) cho thấy khả năng xấp xỉ của loại mô hình này với sự tự chú ýđầy đủ và giảm độ phức tạp khi áp dụng Transformer trên các văn bản dài Ngoài ra, tácgiả cũng cập nhật và mô tả thêm về các phương pháp mới xuất hiện gần đây sử dụng cácmô hình ngôn ngữ lớn (Large Language Model - LLM) để phân loại tin giả.

1.2.1 M6 hình Transfomer

Trước khi xuất hiện các mô hình Transformer thì mạng nơ-ron hồi quy (Recurrent

Neural Network RNN) va mang bộ nhớ ngắn dai hạn (long shortterm memory LSTM) thường được sử dung để xử ly van bản So với mang RNN, LSTM da cómột số cải tiền nhưng vẫn không giải quyết được triệt để van đề biến mat đạo hàm Honnữa do LSTM có cấu trúc phức tạp nên thời gian huấn luyện của nó chậm hơn RNN,cộng với việc bản thân kiến trúc mạng hồi quy khó có thể chạy song song nên khôngtận dụng được sức mạnh của các phần cứng hiện đại như GPU/TPU Không giống như

-LSTM, các mô hình Transformer không dựa trên kết nối hồi quy mà dựa trên các chú ý (attention) cho phép Transformer có thể tận dụng được khả năng tính toán song song để tăng tốc Hơn nữa, sự chú ý cho phép Transformer tránh được các vấn dé bùng

nổ/biến mat đạo hàm của các kiến trúc RNN/LSTM Sau đây luận văn sẽ trình bay sơ

qua về kiên trúc của Transformer.

Transformer tuân theo kiến trúc bộ mã hóa-bộ giải mã (encoder-decoder) O day,

bộ mã hóa ánh xạ chuỗi đầu vào của các biểu diễn ky hiệu (x1,x2, ,x„) thành một chuỗicác biểu diễn liên tục z = (zI,za ,z„) Cho z, bộ giải mã sau đó tạo ra một chuỗi đầu

ra (yI,y2, ,y„) gồm các ký hiệu, một phan tử tại một thời điểm Ở mỗi bước, mô hình

sẽ tự động hồi quy, sử dung các ký hiệu trước đó làm đầu vào bổ sung khi tạo ký hiệu

11

Trang 24

Add & Norm

Add & Norm

Nx | (Gaga Norm] Add & Norm Masked

Inputs Outputs

(shifted right)

Hình 1.1: Kiến trúc Transformer

tiếp theo Kiến trúc của Transformer được thể hiện ở trong Hình [I.1i5Ì) các lớp tự chú

ý (self-attention) và lớp truyền thẳng (feed-forward) được xếp chồng lên nhau, được kết

nối đầy đủ (full connection) cho cả bộ mã hóa và bộ giải mã, tương ứng với phần bên

trái và bên phải [5].

Bộ mã hóa (encoder): Bộ mã hóa bao gồm một chồng N=6 lớp giống hệt nhau.Mỗi lớp có hai lớp con Đầu tiên là cơ chế tự chú ý nhiều đầu và thứ hai là mạng truyền

tháng được kết nối đầy đủ Ngoài ra, có cả kết nối dư và lớp chuẩn hóa Kích thước đầu

ra là model = 512.

Bộ giải mã (decoder): Bộ giải mã cũng bao gồm một chồng gồm N = 6 lớp giống

hệt nhau Ngoài hai lớp con trong mỗi lớp bộ mã hóa, bộ giải mã còn chèn một lớp con

thứ ba, lớp này thực hiện sự chú ý nhiều đầu đối với đầu ra của ngăn xếp bộ mã hóa.Tương tự như bộ mã hóa, bộ giải mã sử dụng các kết nối dư xung quanh mỗi lớp con,sau đó là lớp chuẩn hóa Khác với bộ mã hóa, bộ giải mã có một số sự thay đổi trong lớptự chú ý để ngăn các vị trí tham gia vào các vị trí tiếp theo Việc che dấu này đảm bảo

12

Trang 25

các dự đoán cho vị trí ¡ chỉ có thể phụ thuộc vào các đầu ra đã biết ở các vị trí nhỏ hơn ¡.

Scaled Dot-Product Attention Multi-Head Attention

Scaled Dot-Product Ì

Attention 4

Hình 1.2: Su chú ý tích vô hướng có ty lệ va Sự chú ý nhiều đầu

Đầu tiên, chúng ta tập trung vào sự chú ý tích vô hướng có tỷ lệ như ở trong

Hình|1.2[(5]) Đầu vào bao gồm các truy vấn và khóa có kích thước đ¿, các giá trị có

kích thước d, Sau đó, tính toán tích vô hướng của truy van bằng tất cả các khóa, chiatừng khóa cho \/d; và áp dung hàm softmax (Công thức để thu được các trọng số

trên các giá trị Hàm softmax là một hàm với K > I và tính theo Công thức|[1 1|

ei

Ø(2)¡= cực (1.1)

1 ed

trong d6i=1, 2, , K va z= (z1;Za, ;ZK )

Hàm chú ý có thé được mô tả như ánh xạ một truy van và một tập hợp các cặpkhóa-giá trị tới đầu ra, trong đó truy vấn, khóa, giá trị và đầu ra đều là vectơ Đầu rađược tính dưới dạng tổng có trọng số của các giá trị, trong đó trọng số được gán cho mỗi

giá trị được tính bằng hàm tương thích của truy vấn với khóa tương ứng Thực tế, quátrình này có thể được song song hóa bằng cách tính toán đồng thời hàm chú ý trên một

tập hợp truy vấn (được đóng gói thành ma trận Q) Các khóa và giá trị cũng được đóng

gói cùng nhau thành ma trận K và V Ma trận đầu ra được tính toán theo Công thức [1.2}

Trang 26

ngẫu nhiên độc lập có trung bình bang 0 và phương sai | thì tích số chấm giữa chúng

q- ky ¡ đk¡ có trung bình bằng 0 và phương sai d;), đẩy hàm softmax vào các vùng có

đạo hàm cực nhỏ Do đó, để chống lại hiệu ứng này, chúng ta cần nhân tỷ lệ tích số nhân

1Vac

Thay vì thực hiện một chức năng chú ý duy nhất với các khóa, các giá trị và truy van

VỚI

theo chiều diodes, Transformer thực hiện chiếu tuyến tính các truy vấn, khóa và giá trị h

lần với các phép chiều tuyến tính đã học khác nhau cho các kích thước dy, dự và dy tươngứng Sau đó, trên mỗi phiên bản truy vấn, khóa và giá trị dự kiến này, Transformer thựchiện song song chức năng tự chú ý, mang lại giá trị đầu ra d, chiều Chúng được nối lại

với nhau và chiếu lại một lần nữa, dẫn đến các vi trí cuối cùng như trong Hình [L.2IÌ).

Sự chú ý nhiều đầu (Multi-head attention) cho phép mô hình chú ý vào thông tin từ cáckhông gian con biểu diễn khác nhau ở các vị trí khác nhau Với một đầu chú ý duy nhất

thì sẽ bị hạn chế điều này Sự chú ý nhiều đầu được tính theo Công thức [I.3|

MultiHead(Q.K,V) = Concat(headt, head», , head„)W 9 (1.3)

trong đó head; = Attention(QW,2, KW ,VW, ), các phép chiếu là các ma trận trọng

số we € Rémodet * 4k, wx c Real * 4k, wy E RémodeiX4v và WO c RhhXd„sae! Các tác giả

sử dụng h = 8, dy = dy = dinoaei/h = 64 Do kích thước mỗi đầu giảm đi, tổng chi phítính toán tương tự như chi phí tính toán của sự chú ý một đầu với day đủ chiéu

Qua mô tả ở trên, chúng ta có thể thấy Transformer không có phép lặp và không có phép tích chập (do đó Transformer xử lý các mã thông báo tương tự nhau, hoán vị các

mã thông báo không làm thay đổi kết quả tại các vị trí tương ứng) Do đó để đưa thôngtin về vị trí của các mã thông báo cho mô hình, chúng ta cần phải nhúng các mã hóavị trí (tương đối hoặc tuyệt đối) Sau đây luận văn sẽ tập trung đi sâu vào các mô hìnhTransformer làm nền tang lý thuyết cho mô hình dé xuất

Trang 27

chỉ dùng bộ giải mã Transformer và huấn luyện trước từ trái sang phải, các tác giả của

mô hình BERT [24] đã sử dụng phần mã hóa trong mô hình Transformers gốc [Š]| và áp

dụng phương pháp huấn luyện trước cả hai chiều, từ đấy cải thiện rõ rệt kết quả trong

các tác vụ riêng lẻ so với các phương pháp trước đó Mô hình BERT cũng là cơ sở cho mô hình RoBERTa nên trong luận văn này sẽ mô tả cơ bản về mô hình BERT này và các

phương pháp đào tạo trước đã được các tác giả áp dụng.

Không giống như các mô hình GPT sử dung mô hình ngôn ngữ một chiều từ tráisang phải, mô hình BERT sử dụng mô hình ngôn ngữ hai chiều để đào tạo trước BERTsử dụng các mô hình ngôn ngữ được che dấu (masked language model - MLM), lấy cảm

hứng từ nhiệm vụ Cloze [58Ì Mô hình ngôn ngữ nay được che giấu một số mã thông

báo từ đầu vào và mục tiêu là dự đoán mã thông báo ban đầu này chỉ dựa trên ngữ cảnhcủa nó Không giống như đào tạo trước mô hình ngôn ngữ từ trái sang phải, mục tiêu củaMLM cho phép biểu diễn kết hợp ngữ cảnh bên trái và bên phải, cho phép đào tạo mộtmô hình Transformers hai chiều sâu Ngoài nhiệm vụ MLM, các tác giả cũng sử dụngnhiệm vụ dự đoán câu tiếp theo (next sentence prediction - NSP) để đào tạo trước cáchbiểu diễn của các cặp văn bản Kết quả, BERT đã cải thiện kết quả cho 11 nhiệm vụ NLPtại thời điểm đó.

Điểm đặc biệt của BERT là kết quả huấn luyện trước sẽ được tinh chỉnh cho phù

hợp với từng bài toán như trong Hình |I.3[(24)) Phần bên trái và bên phải của hình lần

lượt tương ứng với bước huấn luyện và bước tinh chỉnh Ngoài các lớp đầu ra, các kiếntrúc tương tự được sử dụng trong cả quá trình huấn luyện trước và tinh chỉnh Các tham

số mô hình được huấn luyện trước được sử dụng để khởi tạo mô hình cho các tác vụ tiếp theo khác nhau Trong quá trình tinh chỉnh, tất cả các tham số đều được tinh chỉnh.

[CLS] là ký hiệu đặc biệt được thêm vào trước mỗi ví dụ đầu vào và [SEP] là mã thông

báo phân tách đặc biệt (ví dụ phân tach câu hoi/cau trả lời) 24].

Để làm cho BERT xử lý được nhiều tác vụ xuôi dòng khác nhau, các tác giả đã

biểu diễn đầu vào thể hiện rõ ràng cả một câu đơn và một cặp câu (Ví dụ: <Câu hỏi,

aN

Câu trả lời>) theo một chuỗi mã thông báo "Câu" ở đây có thể là một khoảng van banliền kề tùy ý, chứ không phải câu trong ngôn ngữ thực tế "Chuỗi" dé cập đến chuỗi mãthông báo đầu vào cho BERT, có thể là một hoặc hai câu được gói lại với nhau Đầu vào

của BERT được minh họa ở trong Hình [1.4{ (24) Phan nhúng đầu vào là tổng của phan

nhúng mã thông báo, phần nhúng phân đoạn và phần nhúng vị trí Mã thông báo (bao

15

Trang 28

Hình 1.3: Quy trình dao tạo trước và tinh chỉnh tổng thé cho BERT

gồm cả hai mã [CLS] dé đánh dau vị trí bắt đầu chuỗi va [SEP] để đánh dau chia cắt giữa

các câu) sử dụng WordPiece để chuyển thành phần nhúng mã thông báo Các câu đượcphân biệt theo hai cách: bằng mã thông báo đặc biệt [SEP] và phần nhúng phân đoạn đãđược học cho biết mỗi mã thông báo thuộc câu A hay câu B Cuối cùng, các phần nhúng

vị trí được thêm vào các mã thông báo [24].

Input [tas | [ my Ì dog [ is | cute | [SEP] If he lÍ xe | play |Í ##ing lÍ ==

Hình 1.4: Biểu diễn đầu vào của BERT

Nhiệm vụ đầu tiên trong huấn luyện trước cho BERT là nhiệm vụ dự đoán từ bị chedấu trong mô hình ngôn ngữ được che dấu Theo đó, trước khi truyền các mã thông báocho mô hình, 15% số mã sẽ được thay thế thành mã thông báo đặc biệt [MASK] Sauđó, mô hình sẽ chỉ dự đoán các từ bị che dấu thay cho toàn bộ đầu vào Tuy nhiên, bởi

vì mã thông báo [MASK] chỉ xuất hiện trong quá trình huấn luyện trước và không xuất

hiện trong quá trình tinh chỉnh, các tác giả đã thay đổi đi một chút quá trình thay thếcác mã thông báo bị che dấu Sau khi trình tạo dữ liệu huấn luyện chọn ngẫu nhiên 15%

vị trí mã thông báo để dự đoán, với mỗi mã thông báo được chọn thì 80% khả năng sẽ

được thay thé thành mã thông báo [MASK], 10% khả năng sẽ được thay thế thành mộtmã thông báo ngẫu nhiên và 10% khả năng sẽ giữ nguyên mã thông báo.

16

Trang 29

Nhiệm vụ thứ hai trong huấn luyện trước là dự đoán câu tiếp theo Cụ thể, khi chọn

câu A và câu B cho mỗi ví dụ huấn luyện trước, 50% khả năng câu B là câu tiếp theo

thực tế của câu A và 50% khả năng câu B là câu ngẫu nhiên từ kho dữ liệu Các tác giả

dé xuất nhiệm vụ này nhằm giúp mô hình xử lý các nhiệm vụ tinh chỉnh như Trả lờicâu hỏi (Question Answering - QA) và Suy luận ngôn ngữ tự nhiên (Nature Language

Inference - NLI).

Việc tinh chỉnh BERT khá đơn giản vì cơ chế tự chú ý (self-attention) trong

Trans-former cho phép BERT lập mô hình cho nhiều tác vụ tiếp theo bằng cách thay đổi mộtchút đầu vào và đầu ra Đối với mỗi tác vụ, các tác giả đã cắm đầu vào, đầu ra của từngtác vụ cụ thể vào BERT và tinh chỉnh tất cả các tham số từ đầu đến cuối Ở đầu vào, câu

A và câu B tương tự như các cặp câu trong diễn giải, các cặp giả thuyết-tiền đề trongphan dẫn chứng, các cặp câu hỏi-trả lời trong phan trả lời câu hỏi và cặp suy biến văn

bản-rỗng trong phân loại văn bản hoặc gắn thẻ cho chuỗi Ở đầu ra, các biểu diễn mã

thông báo được đưa vào lớp đầu ra cho các tác vụ mã thông báo (ví dụ: gắn thẻ cho chuỗi

hoặc trả lời câu hỏi) và biểu diễn của [CLS] (tại lớp cuối cùng) được đưa vào lớp đầu ra

để phân loại (ví dụ: phân loại văn bản).

So với việc đào tạo trước, việc tinh chỉnh ít tốn kém hơn nhiều Thông thường khiáp dụng các mô hình đã có vào tập dữ liệu cho tác vụ cụ thể, chúng ta chỉ cần chọn mộtmô hình đã được huấn luyện trước trên tập dữ liệu phù hợp với tập dữ liệu cần tinh chỉnh,

sau đó tỉnh chỉnh các tham số của mô hình trong một thời gian ngắn là đủ Tuy nhiên,

nếu như một mô hình có kiến trúc mới hoàn toàn thì chúng ta nên huấn luyện trước lại từ đầu trước khi tinh chỉnh vào từng tác vụ cụ thể.

Tuy có nhiều ưu điểm nhưng mô hình BERT vẫn có một số van dé: nhiệm vụ NSPlà không cần thiết (sẽ được giải thích ở mô hình RoBERTa) và giới han mã thông báo là512 ký tự Việc giới hạn mã thông báo này khiến việc áp dụng mô hình vào phân loại tin

giả có nội dung văn bản dài.

Trang 30

vượt trội so với các mô hình được xuất bản sau khi BERT ra đời đến thời điểm đó Các

tác giả đã sửa đổi rất đơn giản mô hình BERT bao gồm: (1) đào tạo mô hình lâu hơn, lôlớn hơn và nhiều dữ liệu hơn; (2) loại bỏ dự đoán câu tiếp theo; (3) đào tạo với các chuỗi

dài hơn; (4) thay đối linh hoạt mẫu mặt nạ được áp dụng Mô hình này cũng sử dụng tập

dữ liệu mới (CC News) và cho thấy rằng việc sử dụng nhiều dữ liệu hơn cho quá trình

đào tạo trước sẽ cải thiện hơn nữa hiệu suất của các tác vụ tiếp theo

Như đã đề cập trong phần trước, BERT dựa vào việc che dấu ngẫu nhiên và dự đoáncác mã thông báo để đào tạo trước Việc triển khai BERT ban đầu đã thực hiện tạo mặtna một lần trong quá trình tiền xử lý dif liệu, tạo ra một mặt nạ tĩnh duy nhất Để tránhsử dụng cùng một mặt nạ cho mỗi trường hợp huấn luyện trong mỗi epoch, dif liệu huấn

luyện trong RoBERTa được sao chép 10 lần để mỗi chuỗi được che dấu theo 10 cách

khác nhau trong 40 epoch (mặt nạ động) Do đó, mỗi chuỗi huấn luyện được nhìn thấyvới cùng một mặt nạ bốn lần trong quá trình huấn luyện Các tác giả đã so sánh chiếnlược mặt nạ động với mặt nạ tĩnh cho thấy kết quả tốt hơn khi áp dụng mặt nạ động, vàcàng trở nên quan trọng khi huấn luyện trước cho nhiều bước hơn hoặc với tập dữ liệu

lớn hơn.

Trong quá trình huấn luyện trước cho mô hình BERT ban đầu, mô hình quan sáthai phân đoạn tài liệu được nối, được lấy mẫu liên tục từ một tài liệu (với tỷ lệ 50%) hoặctừ các tài liệu riêng biệt Ngoài mục tiêu mô hình ngôn ngữ bị che dấu, mô hình BERTcòn được đào tạo để dự đoán xem các phân đoạn tài liệu được quan sát đến từ các tài liệu

giống nhau hay khác nhau thông qua việc dự đoán câu tiếp theo Việc dự đoán câu tiếp theo được đưa ra là một giả thuyết quan trọng trong việc huấn luyện mô hình BERT ban

đầu (các tác giả của bài báo gốc nhận thấy rằng việc loại bỏ dự đoán câu tiếp theo sẽảnh hưởng đến hiệu suất) Tuy nhiên, một số công trình sau đó đã đặt câu hỏi về sự cần

thiết của việc dự đoán câu tiếp theo này Ở trong bài báo RoBERTa này, các tác giả đã

so sánh một số hình thức đào tạo thay thế và đi đến kết luận rằng việc loại bỏ dự đoán

câu tiếp theo kết hợp với việc đóng gói các câu day đủ được lay mẫu liền kể từ một hoặcnhiễu tài liệu sao cho tổng độ dài là 512 sẽ cho kết quả tốt hơn (thực ra trong cách lấymẫu liền kể từ một tài liệu sẽ cho kết quả tốt nhất nhưng việc này sẽ khiến kích thước lôthay đổi làm phức tạp hóa các bước liên quan nên các tác giả chỉ dùng cách này để đốichiếu trong việc loại bỏ dự đoán câu tiếp theo)

Một số công việc trước RoBERTa như Dịch máy sử dụng mạng nơ-ron mở rộng

18

Trang 31

quy mô (Scaling Neural Machine Translation (39}) đã cho thay việc dao tạo trước với

kích thước lô rất lớn có thể cải thiện cả tốc độ tối ưu hóa và hiệu suất nhiệm vụ cuối khitốc độ học được tăng lên một cách phù hợp Một nghiên cứu khác cũng cho thấy BERT

cũng có thể phù hợp với kích thước lô lớn [60] Mô hình BERTpas; ban đầu được đào

tạo với 1 triệu bước cùng kích thước lô là 256 Điều này tương đương về chi phí tínhtoán, tích lũy độ dốc, để huấn luyện 125 nghìn bước cùng kích thước lô là 2 nghìn hoặccho 31 nghìn bước cùng kích thước lô là 8 nghìn Sau khi kiểm tra, các tác giả nhận thấyrằng việc đào tạo với kích thước lô lớn sẽ cải thiện sự phức tạp cho mục tiêu mô hình hóangôn ngữ được che dấu và độ chính xác của các tác vụ cuối Do đó, RoBERTa đã chọn

sử dụng kích thước lô là 8 nghìn Tuy nhiên, trong bai báo này thì các tác giả đã dừng lại

với kích thước lô là 8 nghìn chứ không đi sâu nghiên cứu với các kích thước lô lớn hơn

(có thể lên tới 32 nghìn [39}).

Mã hóa cặp byte (Byte-Pair Encoding - BPE) là sự kết hợp giữa biểu diễn cấp độký tự và cấp độ từ, cho phép xử lý các từ vựng phổ biến lớn trong ngữ liệu ngôn ngữ tự

nhiên Thay vì các từ đầy đủ, BPE dựa vào các đơn vị từ phụ, được trích xuất bằng cách

phân tích thống kê của kho dữ liệu huấn luyện Việc triển khai BERT ban đầu sử dụngBPE cấp ký tự có kích thước 30 nghìn, được học sau khi xử lý trước dữ liệu đầu vào bằngcác quy tắc mã thông báo heuristic Trong RoBERTa, các tác giả đào tạo BERT với từvựng BPE cấp byte lớn hơn chứa 50 nghìn đơn vị từ phụ mà không cần bat kỳ quá trìnhtiền xử lý hoặc mã thông báo bổ sung nào cho đầu vào Việc này yêu cầu bổ sung khoảng

15 triệu tham số cho mô hình 8ER7zasz và 20 triệu tham số cho mô hình BERT; Arce

Kết hợp những mô tả ở trên, RoBERTa cho thấy một cách tiếp cận BERT được tối

ưu hóa mạnh mẽ Cụ thể, RoBERTa được đào tạo với mặt nạ động, đóng gói câu đầy đủ

mà bỏ qua NSP, kích thước lô lớn và BPE cấp byte lớn hơn Ngoài ra, các tác giả cũng

điều tra hai yếu tố quan trọng khác là dữ liệu đào tạo trước và số lần huấn luyện di quadữ liệu Kết quả cho thấy mức tăng đáng kể về hiệu suất của tác vụ xuôi dòng khi sửdụng nhiều dữ liệu và số bước lớn hơn trong quá trình huấn luyện trước

Cũng như mô hình BERT, mô hình RoBERTa vẫn chưa giải quyết được vấn đề giớihạn 512 mã thông báo Điều này hạn chế khả năng của mô hình khi xử lý các văn bảndài (trong đó bao gồm cả việc phân loại tin giả/tin thật có nội dung dài)

19

Trang 32

1.2.4 Mo hình Longformer

Các mô hình Transformers cơ bản (như BERT và RoBERTa) không thé xử ly các chuỗi

dài do hoạt động tự chú ý của chúng tỷ lệ bậc hai với độ dài chuỗi Để giải quyết hạn chế

nay, Longformer với cơ chế chú ý có tỷ lệ tuyến tính theo độ dài chuỗi, giúp dé dàng xửlý tài liệu có hàng nghìn mã thông báo trở lên Cơ chế chú ý của Longformer là một cơchế thay thé tự động cho cơ chế tự chú ý tiêu chuẩn và kết hợp sự chú ý theo cửa sổ cục

bộ với sự chú ý toàn cục Longformer sau khi được đào tạo trước đã tỏ ra vượt trội so với

RoBERTa trong các tác vụ tài liệu dài và đặt ra các kết quả tiên tién mới trên WikiHopvà TriviaQA [23].

Cơ chế chú ý của Longformer là sự kết hợp giữa khả năng tự chú ý theo ngữ cảnh

cục bộ trong cửa số và sự chú ý toàn cục Trong khi sự chú ý cục bộ được sử dụng để xây dựng các biểu diễn theo ngữ cảnh thì sự chú ý toàn cục cho phép Longformer xây dựng

các biểu diễn chuỗi đầy đủ để dự đoán Bằng cách này, Longformer cho phép mô hình

xử lý chuỗi lên tới 32 nghìn ký tự trên GPU hiện đại Không giống như kiểu tự chú ý

hoàn toàn, kiểu chú ý của Longformer được chia tỷ lệ tuyến tính với chuỗi đầu vào, giúpnó hiệu quả với các chuỗi dài hơn.

Do tầm quan trọng của bối cảnh cục bộ, mẫu chú ý của Longformer sử dụng chú ýcủa cửa sổ có kích thước cố định xung quanh mỗi mã thông báo Việc sử dụng nhiều lớpxếp chồng lên nhau của sự chú ý có cửa sổ như vậy sẽ tạo ra một trường tiếp thu rộnglớn, trong đó các lớp trên cùng có quyền truy cập vào tất cả các vị trí đầu vào và có khảnăng xây dựng các biểu diễn kết hợp thông tin trên toàn bộ đầu vào, tương tự như mạngnơ-ron tích chập (Convolutional Neural Network - CNN) Với kích thước cửa sổ cô định

w, mỗi mã thông báo sẽ tương ứng với 3w mỗi bên như trong Hình [1-Sb((23}) Độ phức

tap của mẫu này là O(n x w), tỷ lệ tuyến tính với độ dài chuỗi đầu vào n Trong mô hình

Transformer có L lớp, kích thước trường tiếp nhận ở lớp trên cùng là L x w (giả sử w cố

định cho tất cả các lớp) Tùy thuộc vào mục đích, có thể sử dụng w khác nhau cho mỗi

lớp để cân bằng giữa hiệu năng và khả năng biểu diễn mô hình

Để tăng thêm trường tiếp nhận mà không tăng tính toán, cửa sổ trượt có thể được giãn ra Điều này tương tự như CNN giãn nở [1] trong đó cửa sổ có các khoảng trồng

có kích thước giãn nở d như trong Hình [I.5È(23}) Giả sử d và w có định cho tat cả các

lớp, trường tiếp nhận là L x w x đ, có thể đạt tới hàng chục nghìn mã thông báo ngay với

20

Trang 33

cả các giá trị nhỏ của d Các mô hình Transformer hiện tại thường sử dụng chế độ chú ýnhiều đầu, mỗi đầu chú ý sẽ tính điểm chú ý khác nhau Các tác giả nhận thấy rằng các

cài đặt có cầu hình giãn nở khác nhau trên mỗi đầu sẽ cải thiện hiệu suất bằng cách cho

phép một số đầu không có giãn nở tập trung vào ngữ cảnh cục bộ, trong khi những cài

đặt khác có giãn nở tập trung vào ngữ cảnh dài hơn.

Trong mô hình ngôn ngữ được che dấu (MLM), mô hình sử dụng ngữ cảnh cục bộđể dự đoán từ bị che dấu, trong khi tổng hợp cách trình bày của toàn bộ chuỗi thành mộtmã thông báo đặc biệt (như [CLS] với BERT) để phân loại Đối với trả lời câu hỏi (QA),câu hỏi và tài liệu được ghép nối, cho phép mô hình so sánh câu hỏi với tài liệu thông

qua việc tự chú ý Trong trường hợp của Longformer, sự chú ý theo cửa sổ và giãn nở không đủ linh hoạt để tìm hiểu các cách trình bày cụ thể về nhiệm vụ Theo đó, các tác

giả đã thêm "sự chú ý toàn cục" (global attention) vào một số vị trí đầu vào được chọntrước Điều quan trọng là hoạt động này có tính đối xứng, tức là một mã thông báo có sựchú ý chung sẽ tham dự đến tất cả các mã thông báo trong chuỗi và tất cả các mã thông

báo trong chuỗi đều tham dự vào nó Hình[I.5((23]) hiển thị một ví dụ về sự chú ý của

cửa s6 trượt với sự chú ý chung sẽ tại một số mã thông báo tai các vị trí tùy chỉnh Vi

dụ: để phân loại, sự chú ý chung được sử dụng cho mã thông báo [CLS] trong khi ở trả lời câu hỏi (Question Answering - QA), sự chú ý toàn cục được cung cấp cho tất cả các mã thông báo câu hỏi Vì số lượng các mã thông báo như vậy là nhỏ và không phụ thuộc

vào n nên độ phức tạp của sự chú ý tổng hợp cục bộ và toàn cục vẫn là O(n) Mặc dù việc chỉ định sự chú ý chung là nhiệm vụ cụ thể, nhưng đây là một cách dễ dàng để thêm

độ lệch quy nạp vào sự chú ý của mô hình.

(a) Sự chú ý đầy đủ n2 (b) Sự chú ý cửa sé trượt (c) Cửa sé trượt mở rộng (d) Cửa sé trượt + toàn cục

Hình 1.5: So sánh mô hình tự chú ý day đủ và câu hình của các mẫu chú ý trong

Long-former

Trong mô hình Transformer|5]], với các phép chiều tuyến tính Q, K, V thì sự chú ý

21

Trang 34

được tính như sau (đã được mô tả tại Muc}1.2.2):

được hiển thị trong Hình [1.6((23}), điều này dẫn đến mức sử dung bộ nhớ tăng tuyến tính so với mức tăng bậc hai của tự chú ý hoàn toàn Hình [1.6((23]) so sánh hiệu suất

của ba cách triển khai khác nhau của các tác giả: Longformer-loop là một cách triển khai PyTorch hiệu quả về bộ nhớ, hỗ trợ giãn nở nhưng chậm đến mức không thể sử

dụng được và chỉ được sử dụng để thử nghiệm; Longformer-chunk chỉ hỗ trợ trường hợpkhông giãn nở và được sử dụng cho cài đặt tiền huấn luyện/tinh chỉnh; Longformer-cudalà hạt nhân CUDA tùy chỉnh được tối ưu hóa cao với đầy đủ chức năng được triển khai

bằng TVM [53] Kết quả cho thấy mức sử dụng bộ nhớ của Longformer tỷ lệ tuyến tính

với độ dài chuỗi, không giống như cơ chế tự chú ý hoàn toàn khiến hết bộ nhớ đối vớicác chuỗi dài trên GPU hiện tại Các cách triển khai khác nhau sẽ có tốc độ khác nhau,trong đó Longformer-chunk có tốc độ nhanh nhất

seq len seq len

Hình 1.6: Thời gian chạy và bộ nhớ về tính năng tự chú ý hoàn toàn cũng như các cách

triển khai tính năng tự chú ý khác nhau của Longformer

22

Trang 35

Các tác giả đào tạo trước Longformer bằng mô hình ngôn ngữ được che dấu

(MLM) Để tiết kiệm, các tác giả tiếp tục đào tạo trước từ điểm phát hành của ROBERTa,

đồng thời chỉ thực hiện những thay đổi cần thiết tối thiểu để hỗ trợ cơ chế chú ý của former Mô hình kết quả có thể xử lý các chuỗi dài tới 4096 mã thông báo (dài hơn 8lần so với BERT) Lưu ý rằng mẫu chú ý của Longformer có thể được cắm vào bất kỳ

Long-mô hình Transformer cơ bản được huấn luyện trước mà không cần thay đổi kiến trúc Long-mô

hình Trong bài báo về Longformer [23] các tác giả cùng để xuất một kiến trúc bộ mã

hóa-giải mã Longformer (Longformer-Encoder-Decoder - LED) tương ứng với kiến trúc

Transformer ban đầu [5] Tuy nhiên, luận van nay tập trung đi sâu vào nghiên cứu các

mô hình học sâu cho bài toán phát hiện tin giả trên mạng xã hội (là một bài toán phân

loại) nên luận văn chỉ tập trung nghiên cứu các kiến trúc Transformer sử dụng bộ mãhóa Do đó, luận văn chỉ mô tả sơ lược về LED chứ không đi sâu vào phần này

Mô hình Longformer cho thấy khả năng khi áp dụng vào bài toán phân loại tin giảcó nội dung dài Tuy nhiên trong mô hình này thì các mã thông báo chú ý đến các mã

thông báo lân cận (có thể khác câu) Điều này có vẻ không phù hợp với trực giác rằng

các mã thông báo ở các câu khác nhau sẽ có độ liên quan thấp hơn so với các mã thôngbáo trong cùng một câu Điều này khiến tác giả mong muốn nghiên cứu một cách tự chúý khác trong đó ưu tiên sự tự chú ý ở các mã thông báo trong cùng một câu để kiểm tra

lại tính cần thiết của loại tự chú ý này Hơn nữa việc các mã thông báo toàn cục tham gia

chú ý với tất cả các mã thông báo khác cũng khiến tác giả đặt ra câu hỏi về việc có thểgiảm số lượng mã thông báo mà mã thông báo toàn cục cần phải chú ý đến không

1.2.5 Mô hình BIGBIRD

Trong phan này, luận văn sẽ mô tả thêm một kiến trúc mô hình khác là BIGBIRD [34],

một cơ chế chú ý thưa thớt giúp giảm từ sự phụ thuộc bậc hai thành sự phụ thuộc tuyến

tính Đặc biệt, các tác giả đã chứng minh được rằng BIGBIRD là một công cụ xấp xỉ

phổ quát của các hàm chuỗi và là Turing hoàn chỉnh, do đó bảo toàn các thuộc tính này

của mô hình chú ý đầy đủ (bậc hai) Ngoài ra, phân tích lý thuyết cho thấy một số lợi

ích đầy đủ của việc có mã thông báo toàn cục O(1) (chẳng hạn như [CLS]) tham gia vào

toàn bộ chuỗi như một phần của cơ chế chú ý thưa thớt (sparse attention) Tương tự như

Longformer, sự chú ý thưa thớt được đề xuất có thể xử lý các chuỗi có độ dài lên tới §lần so với những mô hình Transformer cơ bản trên cùng một phần cứng

23

Trang 36

Có một nghiên cứu đã chỉ ra rằng các máy Transformer đủ khả năng để nắm bắttất cả các ham từ chuỗi đến chuỗi (sequence to sequence - seq2seq) với một miền nhỏ

gọn (12) Trong khi đó, một nghiên cứu khác đã chỉ ra rang Transformer day đủ là

Turing hoàn thành (tức là có thể mô phỏng một máy Turing đầy đủ) (27) Các tác gia cua

BIGBIRD đã đặt ra hai câu hỏi: liệu có thé đạt được những lợi ích thực nghiệm của sơ

đồ tự chú ý hoàn toàn bậc hai bằng cách sử dung ít tích số bên trong hơn không? các cơ

chế chú ý thưa thớt này có bảo toàn được tính biểu đạt và tính linh hoạt của mạng banđầu không?

Hình [I.714Ì) thể hiện cấu trúc tự chú ý của BIGBIRD có ba phần chính: (a) một

tập hợp g mã thông báo toàn cục tham dự trên tất cả các phần của chuỗi, (b) tất cả cácmã thông báo tham gia vào một tập hợp các mã thông báo lân cận cục bộ, (c) tất cả cácmã thông báo tham gia vào một tập hợp r mã thông báo ngẫu nhiên Điều này dẫn đếncơ chế chú ý có hiệu suất cao mở rộng theo độ dài chuỗi nhiều hơn (8 lần)

CT

0

Y 4d Fb H El HN

= (Oo

m Hy CT)

E L] oo]

mm

(a) Random attention (b) Window attention (c) Global Attention (d) BIGBIRD

Hình 1.7: Các khối xây dựng của cơ chế chú ý được sử dụng trong BIGBIRD

Về cơ bản, mỗi lớp tự chú ý trong Transformer hoạt động trên chuỗi đầu vào X =

(xi,x2, ,x„) € R"X# có thể được mô tả thành đồ thị có hướng D với tập đỉnh là [n] = 1,

2, , n Tập hợp các cạnh có hướng đại diện cho tập hợp các phép nhân bên trong ma cơ

chế chú ý sé xem xét Đặt N(i) biểu thi tập lân cận của nút i trong D, khi đó véc-tơ đầura thứ i của cơ chế chú ý tổng quát được định nghĩa là:

H

ATTNp(X)i =xị¡+ 3` O(On(xi)Kn(Xyiy)” ) - Vi(Xwq) (1.5)

h=1

trong đó Q), Ky, : R# — R" lần lượt là các ham truy vấn và hàm khóa, Vị: Rẻ — Rm

là hàm giá trị, ø là hàm tính điểm (ví dụ: softmax hoặc hardmax) và H là số lượng đầu.

24

Trang 37

Xy i) tương ứng với ma trận được hình thành bang cách xếp chồng x;: j € N(i) chứ khôngphải tất cả các đầu vào Để đơn giản hóa, chúng ta xét ma trận kề A của đồ thị D mặc dùđồ thị cơ bản có thể thưa thớt (A € [0, 1]**" với A(i, 7) = 1 nếu truy vấn i tham dự khóa

j và bằng 0 nếu ngược lại) Ví dụ, khi A là ma trận toàn một (như trong BERT), nó dẫn

đến độ phức tạp bậc hai, vì tất cả các mã thông báo đều tham dự vào mọi mã thông báokhác Quan điểm coi sự chú ý như một đồ thị được kết nối đầy đủ cho phép khai thác lýthuyết đồ thị hiện có để giúp giảm bót độ phức tạp của nó Vấn đề giảm độ phức tạp bậchai của sự tự chú ý giờ đây có thể được coi là vấn đề phân tán đồ thị Người ta biết rằngcác đồ thị ngẫu nhiên là các đồ thị mở rộng và có thể xấp xỉ các đồ thị hoàn chỉnh trong

một số bồi cảnh khác nhau, bao gồm cả các thuộc tính phổ của chúng [15], 40] Các tác

giả tin rằng đồ thị ngẫu nhiên thưa thớt có cơ chế chú ý nên có hai mong muốn: độ dài

đường dẫn trung bình nhỏ giữa các nút và khái niệm về địa phương

Với cách xây dựng đồ thị ngẫu nhiên đơn giản nhất, trong đó mỗi cạnh được chọn

độc lập với xác suất cô định Trong một đồ thị ngẫu nhiên chỉ có O(n) cạnh, đường dingắn nhất giữa hai nút bất kỳ là logarit theo số lượng nút Kết quả là, một đồ thị ngẫu

nhiên như vậy gần đúng với đồ thị hoàn chỉnh về mặt phổ và giá trị riêng thứ hai của nó

(của ma trận kể) khá xa so với giá trị riêng thứ nhất Dac tính nay dẫn đến thời gian trộn

nhanh cho các bước đi ngẫu nhiên trong đồ thị, điều này gợi ý một cách không chính

thức rằng thông tin có thể truyền nhanh giữa bất kỳ cặp nút nào Do đó, các tác giả đãđề xuất mức độ chú ý thưa thớt trong đó mỗi truy vấn tham gia vào r số lượng khóa ngẫunhiên như trong Hình[I.7h((34]).

Quan điểm thứ hai cho việc tạo ra BIGBIRD là hầu hết các bối cảnh trong NLP

đều có dữ liệu hiển thị rất nhiều tham chiếu địa phương Trong hiện tượng này, rất nhiềuthông tin về một mã thông báo có thể được lấy từ các mã thông báo lân cận của nó Một

bài báo khác đã kết luận rằng các phép nhân lân cận bên trong là cực kỳ quan trọng 0l.

Theo thuật ngữ của lý thuyết đồ thị, hệ số phân cụm là thước đo tính cục bộ của kết nốivà cao khi biểu đồ chứa nhiều cụm hoặc gần cụm (các đồ thị con gần như được kết nốivới nhau hoàn toàn) Đồ thị ngẫu nhiên không có hệ số phân cụm cao, nhưng một loại

đồ thị ngẫu nhiên được gọi là đồ thị thế giới nhỏ thể hiện hệ số phân cụm cao [16] Một

mô hình cụ thể được giới thiệu bởi Watts va Strogatz đạt được sự cân bằng tốt giữa

đường đi ngắn nhất trung bình và khái niệm địa phương được hình thành như sau: xây

dựng một mạng vòng đều, một đồ thị có n nút, mỗi nút được kết nối với w cạnh, mỗi bên

25

Trang 38

Phần cuối cùng của BIGBIRD được lấy cảm hứng từ phân tích lý thuyết và rất quan trọng với hiệu suất thực nghiệm Cụ thể hơn, các tác giả sử dụng tầm quan trọng của "mã thông báo toàn cục": mã thông báo chú ý đến tất cả các mã thông báo trong chuỗi và tất

cả các mã thông báo chú ý đến - Hình [L.7(44)) Các mã thông báo toàn cục này có thể

được xác định theo hai cách:

* BIGBIRD-ITC: Trong việc xây dựng Transformer nội bộ (Internal Transformer

Construction - ITC), các tác giả biến một số mã thông báo hiện có thành "toàn cục",

tham gia vào toàn bộ chuỗi.

* BIGBIRD-ETC: Trong việc xây dựng Transformer mở rộng (Extended former Construction - ETC), các tác giả đưa vào các mã thông báo "toàn cục" bổ sung

Trans-như [CLS] Cụ thể, các tác giả thêm g mã thông báo toàn cục tham dự vào tất cả các mã

thông báo hiện có Điều này bổ sung thêm vị trí để lưu trữ ngữ cảnh.

Cơ chế chú ý cuối cùng cho BIGBIRD như ở trong Hình [I.7Hđ34]) có tất cả ba

thuộc tính sau: truy vấn liên quan đến r khóa ngẫu nhiên, mỗi truy vấn liên quan đến

w/2 mã thông báo ở bên trái vị trí của nó và w/2 mã thông báo ở bên phải vị trí của nó,

ø mã thông báo toàn cục (Mã thông báo toàn cục có thể từ mã thông báo hiện có hoặc mã thông báo được bổ sung thêm).

Trong khi máy Transformer hoàn chỉnh dựa trên cơ chế chú ý bậc hai là Turing hoàn

thành [27] thì các tác giả trong bài báo BIGBIRD đã chứng minh rằng có thể sử dụng bộ

mã hóa thưa thớt và bộ giải mã thưa thớt để mô phỏng bat kỳ máy Turing nào [34] Vàcác tác giả cũng chứng minh được rằng có một nhiệm vụ tự nhiên có thể được giải quyếtbằng cơ chế chú ý đầy đủ trong O(1) lớp Tuy nhiên, theo các giả định lý thuyết về độphức tạp tiêu chuẩn, vấn dé này yêu cầu Q(n) lớp cho bat kỳ lớp chú ý thưa thớt nào có

O(n) cạnh (không chỉ BIGBIRD) (Ở đây O ẩn các thừa số logarit) 4 Từ đó, chúng ta

có thể thấy rằng BIGBIRD có một cơ sở toán học khá vững chắc để làm nền tảng cho

hoạt động của mô hình Bên cạnh các kết quả tích cực thì không có bữa trưa nào miễn phí, việc chuyển từ sự chú ý bậc hai sang cơ chế chú ý thưa thớt sẽ phải trả giá.

Tương tự như Longformer 23] BIGBIRD cũng được huấn luyện trước bằng cách

sử dụng mô hình ngôn ngữ được che dấu MLM và khởi tạo tham số từ điểm phát hành

của RoBERTa (62) Kết quả trên tập Dev của các nhiệm vụ QA sử dụng các mô hình

26

Trang 39

kích thước chuẩn cho thấy cả BIGBIRD và Longformer đều hoạt động tốt hơn RoBERTa

có độ dài giới hạn, trong đó BIGBIRD-ETC có hoạt động tốt nhất [34] So sánh với

Longformer, ngoài việc BIGBIRD bổ sung các mã thông báo ngẫu nhiên, có hai điểm

khác biệt chính giữa Longformer và BIGBIRD-ETC: BIGBIRD-ETC sử dụng sự chú ý

toàn cục-cục bộ với mã hóa vị trí tương đối cho phép xử lý tốt hơn các đầu vào có cấu

trúc, hơn nữa BIGBIRD-ETC sử dụng mat mát CPC khi đào tạo các mã thông báo toàn

Cục.

Cả hai mô hình Longformer và BIGBIRD đã giải quyết được việc mô hình hóangôn ngữ cho các văn bản dài, giúp cho việc phân loại tin giả với độ dài nội dung lớn tốthơn Chúng đều có cùng một độ phức tạp và kiến trúc mô hình khá giống nhau Điều này

khiến cho thắc mắc của tác giả ở trong mô hình Longformer vẫn chưa được giải quyết

Do đó, tác giả đặt ra các câu hỏi sau: việc chú ý cục bộ có cần phải thực hiện cả bên tráivà bên phải của một mã thông báo với độ dài cố định không hay hoàn toàn có thể chỉthực hiện sự chú ý cục bộ với các mã thông báo trong cùng một câu (có vẻ hợp lý về mặttrực giác hơn khi các từ trong cùng một câu sẽ có liên kết cao hơn so với hai từ có vị trịgần nhau nhưng khác câu) Hơn nữa, việc các mã thông báo toàn cục tham gia vào chúý với tất cả các mã khác có cần thiết hay không Từ các câu hỏi trên thì trong luận văn

này, tác giả đề xuất một mô hình mới để giải quyết bài toán phân loại tin giả (và kể cả các bài toán phân loại văn bản khác).

1.2.6 Mô hình ngôn ngữ lớn LLM

Các mô hình Transformer kể trên là các mô hình ngôn ngữ nhỏ (Small Language Model- SLM) Gần đây, một số phương pháp sử dụng mô hình ngôn ngữ lớn (Large Language

Model - LLM) như GPT3.5 đã được áp dụng trong việc phân loại tin giả [6] [59] Điều

này cho thấy bên cạnh việc tối ưu hóa các mô hình ngôn ngữ nhỏ (là công việc chính ởtrong luận văn) thì việc áp dụng các mô hình ngôn ngữ lớn cũng rất đáng quan tâm

Trang 40

hợp lý để kết luận [6].

Dựa trên những phát hiện này, các tác giả đề xuất rằng các LLM hiện tại có thể

không thay thé được các SLM đã được tinh chỉnh trong việc phát hiện tin tức giả mạo,

nhưng có thé là một cô vấn tốt (good advisor) cho các SLM bằng cách cung cấp các

lý do đa chiều để hướng dẫn Để thực hiện điều này, các tác giả đã thiết kế một mạng

hướng dẫn cơ sở lý luận thích ứng (an adaptive rationale guidance network - ARG) cho

việc phát hiện tin giả, trong đó SLM chọn lọc thông tin sâu sắc trên việc phân tích thông

tin từ các lý do của LLM Ngoài ra, các tác giả cũng phát triển một phiên bản không cần lý do của ARG được rút gọn, được gọi là ARG-D (ARG by distillation), phục vụ các tình

huống nhạy cảm về chi phí mà không cần truy vấn LLM [6].

(a) Representation (b) News-Rationale Collaboration (c) Prediction

Feature Aggregator

News Item coment

fols

News-Rationale Interactor

LLM Judgment

' Commonsense: š

Predictor Rationale †

h † ARG Network ! Loss

4 ARG-D Network initialized from (d) Distillation for Rationale-Free Model initialized from

module in (a) module in (c)

News Item pa Pee

Hình 1.8: Kiến trúc tổng thể mang ARG và ARG-D

Hình|1.8[[6]) thể hiện kiến trúc tổng thể của mang ARG và phiên bản ARG-D [6].

28

Ngày đăng: 27/09/2024, 01:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w