Khóa luận tốt nghiệp Khoa học dữ liệu: ViSoBERT: Mô hình ngôn ngữ cho tác vụ xử lý dữ liệu truyền thông xã hội tiếng Việt

Trong bài báo này, chúng tôi giới thiệu mô hình ngôn ngữ đơn ngữđầu tiên cho văn bản mạng xã hội tiếng Việt, ViSoBERT, được huấn luyện trước trên một tập dữ liệu quy mô lớn gồm các văn b

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRƯỜNG ĐẠI HOC CONG NGHỆ THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN QUOC NAM - 20520644

PHAN CHAU THANG - 20520929

VISOBERT: MO HINH NGON NGU CHO TAC VU XU LY DU LIEU

TRUYEN THONG XA HOI TIENG VIET

VISOBERT: A PRE-TRAINED LANGUAGE MODEL FOR VIETNAMESE

SOCIAL MEDIA TEXT PROCESING

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUGNG DAN

NGUYEN VAN KIET NGUYEN DUC VU

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Đầu tiên, nhóm chúng em xin được gửi lời cảm ơn chân thành đến Trường Đại

Hoc Công Nghệ Thông Tin, Khoa Khoa Học và Kỹ Thuật Thông Tin và nhóm

nghiên cứu NLP@UIT đã tạo điều kiện cho chúng em được học tập, rèn luyện để

hoàn thành khoá luận này Chúng em xin gửi lời cảm ơn sâu sắc nhất tới thầy Nguyễn

Văn Kiệt và thầy Nguyễn Đức Vũ đã chỉ dạy tận tình, thúc đẩy và xây dựng cho chúng

em những kiến thức nền tảng, cũng như các kỹ năng cần thiết để chúng em được học

tập, nghiên cứu và đặc biệt là có thể hoàn thành được công trình nghiên cứu này.

Ngoài ra, chúng em cũng xin được gửi lời cám ơn đến gia đình, bạn bè và người

thân Những người là động lực và chỗ dựa vững chắc cho chúng em trong quá trình

hoàn thiện công trình nghiên cứu này.

Trong quá trình thực hiện nghiên cứu, chúng em còn có những sai sót do kỹ năng,

kiến thức chuyên môn còn đang được hoàn thiện Vì vậy, chúng em rất mong nhậnđược sự quan tâm, đánh giá và ý kiến của thầy cô để chúng em rút được kinh nghiệm,

học hỏi thêm để hoàn thiện hơn bản thân, đáp ứng kỳ vọng của quý thầy cô.

Một lần nữa, chúng em xin chân thành cảm ơn!

Thanh phó Hồ Chí Minh, 07/2024

Nhóm tác giả

Nguyễn Quốc NamPhan Châu Thắng

Trang 3

Mô hình ngôn ngữ cho dif liệu tiếng Việt

MHNN cho dữ liệu truyền thông xãhội

Các công trình nghiên cứu về Mạng Nơ-ron Tích chập Đồ thị

Mạng nơ-ron Tích chập Đồ thikéthop MHNN

Các công trình nghiên cứu về phương pháp cho tác vụ đữ liệu truyền

thông xAhOi 2 Ặ Q Q QQ Q QS Q

Một số phương pháp cho tác vụ dữ liệu truyền thông xã hội Việt Nam

Chương 3 ViSoBERT: mô hình ngôn ngữ cho tác vụ xử lý dữ liệu truyền

3.1

3.2

3.3

thông xa hội tiếng Việt

Dữ liệu huấn luyện cho mô hình ngôn ngữ ViSoBERT

Kiến trúc môhình

Tokenizer cho dữ liệu truyền thông xã hội Việt Nam

10 12

16

19

20 21 22 23

24 25

Trang 4

MỤC LỤC

Chương 4 ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình

ngôn ngữ cho Khai thác dữ liệu mạng xã hội tiếng Việt 31

4.2 Mô-đun Mang no-ron Tích chập Đồ thi(GCN) 33

4.3 Mô hình ViSoGCN - 000 eee ee eee 34 Chương 5 Thử nghiệm và kết qua 37 5.1 Cài đặtthửnghệm Ặ.ẶẶẶ 37 5.1.1 Các tác vụ đánh giá 37

5.1.2 Finetunng Ặ Q Q Q Q Q Q en 37 5.1.3 Cacméhinhcosé Ặ.Ặ.ẶẶẶẶS 38 5.2 Kết quả thử nghiệm ViSoBERT 38

5.3 Kết quả thử nghiệm ViSoGCN 41

5.4 Phân tích kết quả và thảo luận ViSoBERT 42

5.4.1 Ảnh hưởng của Masking Rate trên các mô hình ngôn ngữ 43

5.4.2 Ảnh hưởng của các yếu tô của dữ liệu truyền thông xã hội Việt Nam trên các mô hình ngôn ngữ 44

54.21 AnhhuéngctaEmoji 44

5.4.2.2 Ảnhhưởng của Teencode 46

5.4.2.3 Ảnh hưởng của Dấu câu 47

5.4.3 Trích xuất đặc trưng giữa các mô hình ngôn ngữ 48

5.5 Phân tích kết quả và thảo luận ViSoGCN 49

5.5.1 Ảnh hưởng của tham số lambda(A) 49

5.5.2 Thử nghiệm độc lập 02 mô-dun của mô hình đề xuất 50

5.5.3 So sánh với các nghiên cứu trước đó 51

5.5.3.1 Cac nghiên cứu trước đó trên bộ dữ liệu UIT-VSMEC 51 5.5.3.2 Các nghiên cứu trước đó trên bộ dữ liệu UITHSD 52 5.5.3.3 Các nghiên cứu trước đó trên bộ dữ liệu SA-VLSP2016 53 5.5.3.4 Các nghiên cứu trước đó trên bộ dữ liệu ViSpamRe-VIEWS 22 ẶÃ <4 54 5.5.3.5 Các nghiên cứu trước đó trên bộ dữ liệu ViIHOS 55

Trang 5

MỤC LỤC

Chương 6 Kết luận và Hướng pháp triển

Danh mục công trình của tác giả

Tài liệu tham khảo

Chương A Phụ lục mô hình ViSoBERT

A.1 Các kết quả tách từ của các MHNN trên các bình luận MXH thực tế

A.2 Các thông số thếtkếcủaTN

A.3 PLMs với các phương pháp tiền xử ly đữ liệu truyền thông xã hội

A.4 Trích xuất đặc trưng dựa trên MHNN cho BiLSTM và BiGRU

A.5 Cập nhật các spans mới cho tác vụ Hate Speech Span trong các kỹ

thuật tiền Xửlý ẶẶ.ẶẶ.o

A.6 Phân tách từ của các MHNN khi loại bỏ dau trong các bình luận trên

Chương B Phụ lục mô hình ViSoGCN

B.1 Ảnh hưởng của tham số lambda lên các MH kếthợp

57

58

74

75 75 75 75

76

78

79

81

Trang 6

DANH MUC CAC BANG

Thống kê và mô ta các tác vụ xử ly dữ liệu mạng xã hội tiếng Việt

Các bình luận mạng xã hội thực tế và phân tách từ với bộ tách từ của

hai mô hình ngôn ngữ, ViSoBERT và PhoBERT .

Thông tin chi tiết về các mô hình cơ sở và mô hình ngôn ngữ của

chúng tôi Thông số #Layers, #Heads, #Batch, #Params, #Vocab,

#MSL, và CSMT lần lượt chỉ ra số lượng hidden units, attention heads, kích thước batch, dữ liệu đào tạo theo miền, tổng số tham

số, kích thước từ vựng, độ dài chuỗi tối đa, và tokenzer riêng biệt

dành cho DLMXH

Hiệu suất trên các tác vụ của mạng xã hội tiếng Việt trên các mô hìnhngôn ngữ đơn ngữ và đa ngữ tiên tiến trước đây mà không sử dụng

các kỹ thuật tiền xử lý Avg biểu thị điểm MFI trung bình của mỗi

mô hình ngôn ngữ : biểu thị rằng kết quả cao nhất có ý nghĩa thống

20

kê với p < 0.01 so với kết quả tốt thứ hai, sử dụng kiểm định pair t-test 39

Hiệu suất trên các tác vụ của mạng xã hội tiếng Việt trên các mô hìnhkết hợp giữa mô hình ngôn ngữ và mô-đun mạng nơ-ron tích chập đồthị (GCN) Avg biểu thị điểm MEI trung bình của mỗi mô hình kết

Hiệu suất của các mô hình ngôn ngữ trên các tác vụ của mạng xã hội

tiếng Việt khi áp dụng hai kỹ thuật tiền xử lý emoji [#®], [®], và[ @] lần lượt biểu thị ViSoBERT của chúng tôi khi chuyển đổi emojithành văn bản, loại bỏ emoji và không áp dụng bất kỳ kỹ thuật tiền

xử lý nao A biểu thi sự tăng (†) và giảm (|) hiệu suất của các mô hình ngôn ngữ so với các mô hình khác mà không áp dụng bất kỳ kỹ

Hiệu suất của các mô hình trên thử nghiệm độc lập của các mô-đun

Avg biểu thị điểm MFI trung bình của các mô hình .

Trang 7

DANH MỤC CÁC BANG

5.6

5.8

5.9

Hiệu suất của các mô hình nghiên cứu trước đó trên bộ dữ liệu

UIT-Hiệu suất của các mô hình nghiên cứu trước đó trên bộ dữ liệu

Cài đặt siêu tham số cho quá trình training ViSOBERT

Hiệu suất của các MHNN trên các tác vụ của MXH TV khi áp dụng

các kỹ thuật tiền xử lý chuẩn hóa từ ngữ [#] và [ ® ] lần lượt biểu

thị với và không áp dụng kỹ thuật chuẩn hóa từ ngữ A biểu thị sự

tăng (†) và giảm (1) hiệu suất của các MHNN so với các kết quả của

chúng mà không chuẩn hóa teencode

Hiệu suất của các MHNN trên các tác vụ MXH TV khi loại bỏ dấutrong tat cả các tập dữ liệu [#], [@], [9], [>] và [® ] lần lượt biểuthị hiệu suất của các MH trước khi loại bỏ 100%, 75%, 50%, 25%

dấu trong mỗi bình luận và không loại bỏ dấu, tương ứng A biểu thị

sự tăng (†) và giảm (|) hiệu suất của các MHNN so với các kết quảcủa chúng mà không loại bỏ dấu

Hiệu suất của các MHNN làm đặc trưng đầu vào cho BiLSTM và

BiGRU trên các tác vụ MXHTV

Các bình luận MXH thực tế và phân tách từ của chúng với tokenizer

của ba MHNN, bao gồm PhoBERT, TwHIN-BERT và ViSoBERT,khi loại bỏ dấu trong các bình luận MXH

77

Trang 8

DANH MUC CAC HINH ANH VA BIEU D

Kiến trúc của mô hình ViSoBERT 29

mô hình dé xuất ViSoGCN 32Quá trình biểu diễn đầu vào của mô hình ngôn ngữ ViSOBERT 33

Sơ đồ của lớp GCN trong ViSoGCN trong mô hình ViSoGCN 33

Ảnh hưởng của tỷ lệ che (masking rate) lên mô hình ViSoBERT 43

Độ dài token trung bình theo các tác vụ của các PLM 75

Hate Speech DetecHion ẶẶẶ 78 Sentiment Analysis 2 2 Ặ Q Q Q Q Q Q Q c 78 Spam Reviews Detection 78 Hate Speech Spans Detection 78

Hiệu suất của các MHNN làm đặc trưng đầu vào cho BiLSTM và

BiGRU trên tập phát triển theo từng epoch trên các tác vụ MXH TV.

Các phiên bản large của PhoBERT và TwHIN-BERT được triển khai

cho các TN này Q Q Q Q Q Q Q2 78

Ảnh hưởng của tham số lambda trên MH PhoBERT-GCN 81 Ảnh hưởng của tham số lambda trên MH TwHIN-BERT-GCN 81 Ảnh hưởng của tham số lambda trên MH ViSoGCN 81

Ảnh hưởng của tham số lambda (A) lên hiệu suất của các MH kết hợp

Trang 9

DANH MỤC TU VIET TAT

Trang 10

TÓM TẮT KHÓA LUẬN

Tiếng Anh và tiếng Trung, được biết đến là các ngôn ngữ có nguồn tài nguyên phong phú, đã chứng kiến sự phát triển mạnh mẽ của các mô hình ngôn ngữ dựa trên kiến trúc transformer cho các tác vụ xử lý ngôn ngữ tự nhiên Mặc dù Việt Nam có khoảng 100 triệu người nói tiếng Việt, một số mô hình được huấn luyện trước, vi dụ như PhoBERT, ViBERT và vELECTRA, đã thực hiện tốt các tác vụ

NLP tiếng Việt tổng quát, bao gồm gán thẻ từ loại và nhận diện thực thể có tên.Tuy nhiên, các mô hình ngôn ngữ này vẫn còn hạn chế đối với các tác vụ mạng xãhội tiếng Việt Trong bài báo này, chúng tôi giới thiệu mô hình ngôn ngữ đơn ngữđầu tiên cho văn bản mạng xã hội tiếng Việt, ViSoBERT, được huấn luyện trước

trên một tập dữ liệu quy mô lớn gồm các văn bản mạng xã hội tiếng Việt đa dạng

và chất lượng cao, sử dụng kiến trúc XLM-R Hơn nữa, chúng tôi đã thử nghiệm

mô hình được huấn luyện trước của mình trên năm tác vu hạ nguồn ngôn ngữ tựnhiên quan trọng trên văn bản mạng xã hội tiếng Việt: Emotion Recognition, Hate

Speech Detection, Sentiment Analysis, Spam Reviews Detection, va Hate Speech

Spans Detection Các thí nghiệm của chúng tôi cho thấy ViSoBERT, với ít tham

số hơn nhiều, vượt qua các mô hình hang đầu trước đó trên nhiều tác vụ mạng xã

hội tiếng Việt Mô hình ViSoBERT của chúng tôi được công bố' chỉ cho mục đích

nghiên cứu Ngoài ra, khoá luận cũng trình bày một phương pháp mới dựa trên mô

hình ngôn ngữ (ViSoBERT) và phương pháp dựa trên đồ thị (GCN) Cụ thể, phương

pháp được đề xuất, ViSoGCN, kết hợp sức mạnh của các biểu diễn ngữ cảnh hóavới khả năng của Mạng Convolutional Đồ thị để nắm bắt nhiều phụ thuộc cú pháp

và ngữ nghĩa hơn nhằm giải quyết các hạn chế đó Chúng tôi đã tiến hành các thí

nghiệm rộng rãi trên các tập dữ liệu tiêu chuẩn Việt Nam khác nhau để xác minh

phương pháp của mình Kết quả quan sát cho thấy việc áp dụng GCN vào các môhình BERTology làm lớp cuối cùng cải thiện đáng kể hiệu suất Hơn nữa, các thínghiệm chứng minh rằng ViSoGCN vượt trội hơn 12 mô hình cơ bản mạnh mẽ, bao

gồm các mô hình BERTology, mô hình kết hợp BERTology và GCN, các mô hình

cơ bản khác và các phương pháp tiên tiến trên ba tập dữ liệu mạng xã hội tiêu chuẩn

‘https: //huggingface.co/uitnlp/visobert

10

Trang 11

DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ

Phương pháp ViSoGCN được dé xuất của chúng tôi cho thấy sự cải thiện đáng kể sovới các mô hình ngôn ngữ hóa tốt nhất, bao gồm cả đa ngôn ngữ và đơn ngữ, trên

năm tác vụ của mạng xã hội Việt Nam Ngoài ra, mô hình tích hợp ViSoGCN của

chúng tôi đạt được hiệu suất tốt nhất so với các mô hình BERTology tích hợp với

GCN khác Nghiên cứu này nhấn mạnh hiệu quả của việc kết hợp mô hình ngôn

ngữ với mạng nơ-ron đồ thị trong việc giải quyết các van dé dữ liệu không cân bằng

và nhiễu trong phân loại văn bản mạng xã hội tiếng Việt ViSoGCN đã chứng minhđược hiệu suất vượt trội so với các phương pháp hiện có và mở ra tiềm năng ứng

dụng rộng rãi trong các nghiên cứu và ứng dụng thực tế.

II

Trang 12

2 ^

MO DAU

Dat van de:

Dưới tác động mạnh mẽ của cuộc cách mạng công nghiệp 4.0, su tiến bộ củacông nghệ đã tạo ra các biến chuyển sâu sắc trong nhiều lĩnh vực của đời sống xã

hội Đặc biệt, sự phát triển của các nền tảng mạng xã hội đã trở thành trọng tâm của giao tiếp hiện đại, không chỉ tạo ra những phương thức tương tác mới mà còn thúc

đẩy nhu cầu về việc phân tích và xử lý thông tin một cách nhanh chóng và chính xác.Công nghệ học sâu, với sự đột phá từ kiến trúc transformer, đã cho thấy tiềm năng

to lớn trong việc cải thiện các tác vụ NLP Tuy nhiên, mặc dù có sự phát triển vượt

trội này, việc áp dụng các như BERT và các biến thể của nó vào dữ liệu mạng xã hội

tiếng Việt vẫn còn nhiều hạn chế.

Tiếng Việt, mặc dù là một trong những ngôn ngữ được sử dụng rộng rãi trên cáctrang mạng xã hội, vẫn chưa được khai thác hết tiềm năng trong lĩnh vực NLP Phầnlớn các nghiên cứu và mô hình hiện tại chủ yếu tập trung vào tiếng Anh, để lại một

khoảng trống lớn trong việc phát triển công nghệ xử lý ngôn ngữ cho tiếng Việt.

Điều này đặc biệt trở nên phức tạp khi xử lý dữ liệu từ mạng xã hội, nơi mà ngôn

ngữ thường xuyên chứa đựng các yếu tố không chuẩn như từ lóng, lỗi chính tả, và

cách sử dụng biểu tượng cảm xúc khác biệt Các mô hình NLP truyền thống, khiđược áp dụng trực tiếp vào dữ liệu này, thường không đạt được hiệu suất tối ưu do

không thể hiểu và xử lý chính xác những đặc thù ngôn ngữ đa dạng này.

Ngoài ra, một trong những thách thức trong các tác vụ xử lý dữ liệu truyền thông

xã hội là dữ liệu mất cân bằng và nhiễu Dữ liệu truyền thông xã hội thường bị mắt

cân bằng nhãn, với một số chủ đề hoặc cảm xúc có số lượng dif liệu lớn hơn han

so với những chủ dé khác, điều nay dẫn đến việc các mô hình có xu hướng thiên vị

về phía những lớp dữ liệu có sẵn nhiều hơn Bên cạnh đó, sự hiện diện của các yếu

tố nhiễu như từ viết tắt, ngôn ngữ không chuẩn, hoặc cách sử dụng ngữ pháp lệch

chuẩn cũng gây khó khăn cho việc phân tích và hiểu ngữ nghĩa chính xác của văn

bản.

Hon nữa, việc thiếu hụt các BDL chất lượng cao và đa dạng, đặc biệt là cho tiếng

Việt, cũng là một rào cản không nhỏ Các BDL phong phú và phản ánh chính xác

12

Trang 13

các hiện tượng xã hội sẽ là chìa khóa để phát triển các mô hình NLP mạnh mẽ hơn.

Do đó, cần phải có những nỗ lực trong việc thu thập và chế tạo dữ liệu chuyên biệt

cho tiếng Việt, đặc biệt là từ các nền tảng mạng xã hội, để đào tạo các mô hình hiệu quả hơn Trong bối cảnh số hóa ngày càng tăng và sự phụ thuộc vào mạng xã hội

như một phần không thể thiếu của giao tiếp hàng ngày, nhu cầu về một hệ thốngNLP hiệu quả cho tiếng Việt trở nên cấp bách Việc phát triển các mô hình ngônngữ đặc thù cho tiếng Việt không chỉ cải thiện chất lượng xử lý ngôn ngữ trên mạng

xã hội mà còn hỗ trợ đắc lực cho các ứng dụng liên quan đến an ninh mạng, phân

tích thị trường, và tương tác xã hội.

Nhận thấy được sự tổn tại các van đề trên, khoá luận nay đề xuất 01 mô hìnhngôn ngữ riêng biệt cho xử lý dif liệu truyền thông xã hội cho tiếng Việt và 01 môhình mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình ngôn ngữ cho Khai thác dữ

liệu mạng xã hội tiếng Việt.

Mục tiêu khoá luận:

Trong khoá luận này, chúng tôi tập trung nghiên cứu các phương pháp để xây

dựng các mô hình để giải quyết các van dé của dữ liệu truyền thông xã hội tiếng

Việt Cụ thể, chúng tôi đặt ra từng mục tiêu như sau:

» Thực hiện khảo sát về các mô hình ngôn ngữ dựa trên kiến trúc transformer

cho các tác vụ xữ lý đữ liệu truyền thông xã hội Khảo sát này được kỳ vọnggiúp cho người đọc có một cái nhìn tổng quát về tác vụ dif liệu truyền thông

xã hội tiếng Việt và các phương pháp của những nghiên cứu trước đó.

* Chúng tôi giới thiệu mô hình ViSoBERT, một mô hình ngôn ngữ dựa trên kiến

trúc của XLM-R, được tối ưu hóa đặc biệt cho việc xử lý văn bản mạng xã hộitiếng Việt ViSoBERT được phát triển nhằm mục đích cải thiện hiệu quả xử lý

dữ liệu phức tạp trên các nền tang mạng xã hội, và hiện đã được công bố rộng rãi để hỗ trợ cộng đồng nghiên cứu trong việc khai thác và phân tích mạng xã

hội tiếng Việt Thêm vào đó, để phân tích kỹ lưỡng hơn về cách thức hoạt động

và hiệu quả của mô hình, chúng tôi đã tiến hành nghiên cứu sâu về quy trìnhhuấn luyện của ViSoBERT Chúng tôi đặc biệt tập trung vào các yếu tố đặctrưng của mang xã hội như emoji, teencode va dấu câu Dựa trên những phân

13

Trang 14

tích này, chúng tôi đã triển khai các phương pháp trích xuất đặc trưng dựa trên

từng tác vụ cụ thể, nhằm tối ưu hóa khả năng của ViSoBERT trong việc xử lý

và hiểu biết sâu sắc về ngôn ngữ mạng xã hội tiếng Việt

« Chúng tôi phát triển ViSoGCN, một mô hình mới cho phân loại văn bản tiếng

Việt, kết hợp hiệu quả giữa ViSoBERT, một mô hình ngôn ngữ tiên tiến, và Mạng Nơ-ron Tích chập Đồ thị (GCN) Mục tiêu chính là tăng cường khả năng phân loại và khai thác thông tin từ dữ liệu mạng xã hội tiếng Việt Hơn nữa, chúng tôi tiền hành các thử nghiệm sử dung hai phương pháp chính: BERTol-

ogy và sự kết hợp của BERTology với GCN Nghiên cứu cũng bao gồm mộtphân tích toàn diện về hiệu quả của việc tích hợp GCN với các mô hình họcsâu đã huấn luyện trước

Kết quả nghiên cứu:

Khoá luận của chúng tôi phát triển và giới thiệu hai mô hình, ViSoBERT và

ViSoGCN, tập trung vào việc xử lý và phân loại văn bản mạng xã hội tiếng Việt

một cách hiệu quả ViSoBERT, mô hình ngôn ngữ được xây dựng trên kiến trúccủa XLM-R, được huấn luyện để tối ưu hoá quá trình xử lý văn bản mạng xã hội

tiếng Việt ViSoBERT đã chứng minh hiệu quả qua việc đạt được hiệu suất hàng

đầu trong nhiều tác vụ liên quan đến mạng xã hội tiếng Việt, từ đó củng cố vị thé là

một công cụ mạnh mẽ cho các ứng dụng NLP mô hình này hiện đã được công khai

để hỗ trợ cộng đồng nghiên cứu trong việc khai thác dữ liệu mạng xã hội tiếng Việt

Bên cạnh đó, ViSoGCN là sự kết hợp giữa ViSoBERT và các mô-đun Mạng

Nơ-ron Tích chập Đồ thi (GCN), tạo ra một mô hình tích hợp mới nhằm mục đích

nâng cao khả năng phân loại văn bản trên nền tảng mạng xã hội ViSoGCN được

huấn luyện thông qua hai phương pháp chính: BERTology và tích hợp BERTology với GCN, trên một loạt các BDL tiêu chuẩn mô hình này đã cho thấy hiệu quả vượt trội so với các nghiên cứu trước đây và các mô hình tiên tiến khác như ViSoBERT

trong việc xử lý các thách thức như dữ liệu nhiễu và mất cân bằng trong các BDL

mạng xã hội.

Qua các thử nghiệm, chúng tôi đã phân tích kỹ lưỡng cách thức huấn luyện của

ViSoGCN, đặc biệt xem xét các đặc điểm khác biệt của mạng xã hội như sử dụng

14

Trang 15

emoji, teencode và dấu câu Kết quả từ việc triển khai trích xuất đặc trưng dựa trên

tính năng cho từng tác vụ cụ thể đã khẳng định tiềm năng và hiệu quả của GCN khi

kết hợp với các mô hình ngôn ngữ đã được huấn luyện sẵn.

Tổng kết lại, kết quả nghiên cứu của chúng tôi không chỉ cung cấp hai mô hình

học sâu mạnh mẽ cho cộng đồng NLP mà còn mở ra hướng đi mới trong việc ápdụng công nghệ học sâu để giải quyết các vấn đề phức tạp trong xử lý và phân loại

dữ liệu mạng xã hội tiếng Việt Điều này góp phần quan trọng vào sự tiến bộ của

công nghệ thông tin và kỹ thuật trong kỷ nguyên số, đặc biệt trong lĩnh vực trí tuệ

nhân tạo và xử lý ngôn ngữ tự nhiên.

Cấu trúc khoá luận: khoá luận của chúng tôi gồm 04 chương với các nội dungchính như sau:

* Chương 1: Tổng quan

Chương này cung cấp cái nhìn tổng quan về khoá luận.

» Chương 2: Các công trình nghiên cứu liên quan

Chương này cung cấp những thông tin về các công trình nghiên cứu liên quan đến mô hình ngôn ngữ, xử lý dữ liệu truyền thông xã hội tiếng Việt và mạng

nơ-ron tích chập đồ thị

* Chương 3: ViSoBERT: Mô hình ngôn ngữ cho tác vụ xử lý dữ liệu truyền

thông xã hội tiếng Việt

Chương này giới thiệu ViSoBERT, một mô hình ngôn ngữ mới dựa trên kiếntrúc Transformer, được thiết kế để xử lý và phân tích dif liệu mạng xã hội tiếng

Việt Trinh bày chi tiết về quá trình phát triển mô hình, bao gồm thiết kế, huấn luyện và tối ưu hóa, cùng với phân tích các thách thức ngôn ngữ đặc thù như sự

không chuẩn của ngôn từ, sử dụng biểu tượng cảm xúc và các yếu tố phi văn

bản khác.

* Chương 4: ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình

ngôn ngữ cho Khai thác dữ liệu mạng xã hội tiếng Việt

Giới thiệu và phân tích chi tiết về ViSoGCN, một mô hình tiên tiến kết hợp giữa mạng nơ-ron tích chập đồ thị (GCN) và mô hình để tăng cường khả năng

15

Trang 16

xử lý dữ liệu phức tạp trên mạng xã hội tiếng Việt Chương này mô tả quy trình

xây dựng mô hình, từ thiết kế đến huấn luyện, cũng như phương pháp tiếp cận

đã sử dụng để tích hợp GCN vào mô hình ngôn ngữ, giúp cải thiện đáng kể

hiệu quả xử lý dữ liệu và khả năng phân tích ngữ nghĩa.

* Chương 5: Thử nghiệm và kết quả

Chương này trình bày cách khoá luận cài đặt thử nghiệm, kết quả thử nghiệm

chính của 02 mô hình ViSoBERT và ViSoGCN, cũng như các phân tích kết

quả và thảo luận của 02 mô hình.

* Chương 6: Kết luận và Hướng phát triển

Tổng kết các kết quả đạt được của khoá luận và định hướng phát triển của khoá

luận trong tương lai.

16

Trang 17

Chương 1 Tổng quan

Các mô hình ngôn ngữ dựa trên kiến trúc transformer [1] trên các bộ dif liệu quy

mô lớn đã tạo ra một sự thay đổi căn bản trong xử lý ngôn ngữ tự nhiên (NLP), định hình lại cách chúng ta phân tích, hiểu và tạo ra văn bản Đặc biệt, BERT [2] và các biến thể của nó [3, 4] đã đạt được hiệu suất hàng đầu trên một loạt các tác vụ NLP, bao gồm nhưng không giới hạn ở phân loại văn bản, phân tích cảm xúc, trả lời câu

hỏi và dịch máy Tiếng Anh đang tiến nhanh trong việc phát triển các mô hình ngônngữ trong các lĩnh vực cụ thể như y tế [5, 6], khoa học [7], pháp luật [S], xung đột

và bạo lực chính trị [9], và đặc biệt là mạng xã hội [10, 11, 12, 13].

Tiếng Việt là ngôn ngữ lớn thứ tám được sử dụng trên internet, với khoảng 85

triệu người dùng trên toàn thế giới Mặc dù có lượng lớn dữ liệu tiếng Việt có sẵn

trên Internet, sự tiến bộ của nghiên cứu NLP bằng tiếng Việt vẫn còn chậm Điều

này có thể được quy cho một sô yếu tố, chẳng hạn như tính phân tán của các bộ dữ

liệu có sẵn, tài liệu hạn chế và sự tham gia cộng đồng tối thiểu Hơn nữa, hầu hết các

mô hình hiện có cho tiếng Việt chủ yêu được huấn luyện trên các bộ dữ liệu quy mô

lớn được lấy từ văn bản chung [14, 15, 16] Mặc dù các nguồn này cung cấp phạm

vi ngôn ngữ rộng, chúng có thể không hoàn toàn đại diện cho các hiện tượng xã hội

học trong văn bản mạng xã hội tiếng Việt Văn bản mạng xã hội thường thể hiện

các mẫu ngôn ngữ khác nhau, sử dụng ngôn ngữ không chính thức, từ vựng không

chuẩn, thiếu dấu câu và emoji không phổ biến trong văn bản viết chính thức Nhữnghạn chế của việc sử dung các mô hình ngôn ngữ được huấn luyện trên bộ dữ liệuchung trở nên rõ ràng khi xử lý văn bản mạng xã hội tiếng Việt Các mô hình có thể

gap khó khăn trong việc hiểu và diễn giải chính xác ngôn ngữ không chính thức, sử

dụng emoji, teenghién cứuode và dấu câu trong các cuộc thảo luận trên mạng xã hội.

Điều này có thể dẫn đến hiệu suất không tối ưu trong các tác vụ mạng xã hội tiếngViệt, bao gồm Emotion Regconition, Hate Speech Detection, Sentiment Analysis,

Spam Reviews Detection và Hate Speech Spans Detection.

Chúng tôi giới thiệu ViSoBERT, một mô hình ngôn ngữ thiết kế đặc biệt cho văn

bản mạng xã hội tiếng Việt nhằm giải quyết những thách thức này ViSoBERT dựatrên kiến trúc transformer và được huấn luyện trên một bộ dữ liệu quy mô lớn gồm

‘https: //www.internetworldstats.com/stats3.htm

16

Trang 18

CHƯƠNG 1 TONG QUAN

các bài viết va bình luận tiếng Việt được trích xuất từ các mang xã hội nổi tiếng, bao

gồm Facebook, Tiktok’, va YouTube` mô hình của chúng tôi vượt trội hơn các môhình hiện có trên các tác vụ khác nhau, bao gồm nhận diện cảm xúc, phát hiện lời

nói căm thù, phân tích cảm xúc, phát hiện đánh giá spam và phát hiện đoạn văn chứa

lời nói căm thù, chứng minh hiệu quả của nó trong việc nắm bắt các đặc điểm độcđáo của văn bản mạng xã hội tiếng Việt

Ngoài ra, chúng tôi đã đề xuất một mô hình phân loại văn bản tiếng Việt mới,

ViSoGCN, bằng cách huấn luyện chung mô hình ngôn ngữ được huấn luyện trước

quy mô lớn ViSoBERT và các mô-đun Mạng Nơ-ron Tích chập Đồ thị (GCN) để

đánh giá phân loại văn bản mạng xã hội hoặc khai thác mạng xã hội bằng tiếng Việt.Các TN khác nhau đã được tiến hành với hai PP: BERTology và mô hình Tích hợpcủa nó (BERTology Tích hợp với GCN), bao gồm mô hình tiên tiến của Việt Nam,

ViSoBERT, trên năm bộ dữ liệu chuẩn tiếng Việt So với mô hình tiên tiến của Việt

Nam, ViSoBERT và các nghiên cứu trước đó đã thực hiện trên các bộ dữ liệu, mô

hình tích hợp của chúng tôi, ViSoGCN, đạt được hiệu suất tốt hơn đáng kể Một khảo sát về các mô hình quy mô lớn đơn lẻ và tích hợp đã được thực hiện để chứng minh hiệu quả của GCN trên các mô hình ngôn ngữ được huấn luyện trước quy mô

lớn Ngoài ra, mô hình tích hợp của chúng tôi, ViSoGCN, đã thành công trong việc

giải quyết vấn đề dữ liệu nhiễu và mất cân bằng của các bộ dữ liệu mạng xã hội

Cuối cùng, huấn luyện chung các mô-đun BERTology và GCN đã cải thiện đáng kể

hiệu suất trên các tác vụ phân loại văn bản trong lĩnh vực xã hội tiếng Việt

Các đóng góp chính của khoá luận được tổng hợp như sau:

« Chúng tôi đã giới thiệu ViSoBERT, mô hình ngôn ngữ đầu tiên dựa trên kiến

trúc của mô hình XLM-R [4] và quy trình huấn luyện trước cho việc xử lý văn bản mạng xã hội tiếng Việt ViSoBERT có sẵn công khai cho các mục đích

nghiên cứu trong khai thác mạng xã hội tiếng Việt ViSoBERT có thể là một

cơ sở mạnh mẽ cho các tác vụ xử lý văn bản mạng xã hội tiếng Việt và các ứng

Trang 19

CHƯƠNG 1 TONG QUAN

* ViSoBERT dat hiệu suất hàng đầu trên nhiều tác vu mang xã hội tiếng Việt,

minh họa tính hiệu quả của mô hình ngôn ngữ của chúng tôi trên văn bản mạng

xã hội tiếng Việt.

« Để hiểu sâu hơn về mô hình ngôn ngữ của chúng tôi, chúng tôi phân tích kết

quả thử nghiệm trên cách huấn luyện mô hình, xem xét các đặc điểm của mạng

xã hội, bao gồm emoji, teenghiên cứuode và dấu câu, và triển khai trích xuất

đặc trưng dựa trên tính năng cho các mô hình chuyên biệt theo tác vụ.

* Chúng tôi đã giới thiệu mô hình ViSoGCN bang cách tích hợp mô hình ngôn

ngữ ViSoBERT và mạng nơ-ron tích chập đồ thị GCN Mô hình ViSoGCN đạt

kết quả tốt nhất trên nhiều tác vụ mạng xã hội Việt Nam

18

Trang 20

Chương 2 Các công trình nghiên cứu liên quan

2.1 Công trình nghiên cứu về các tác vụ xử lý dữ liệu truyền thông xã hội

tiếng Việt

Trong những năm gan đây, với sự phát triển mạnh mẽ của mang xã hội va các nền tang trực tuyến, nhu cau xử lý và phân tích dữ liệu ngôn ngữ tự nhiên trên các văn

bản mạng xã hội tiếng Việt ngày càng trở nên quan trọng Nhiều bộ dữ liệu đã được

phát triển để hỗ trợ các nghiên cứu và ứng dụng trong lĩnh vực này Dưới đây là một

số bộ dữ liệu quan trọng và phổ biến:

UIT-VSMEC: bộ dữ liệu này, được đề xuất bởi Ho và các cộng sự [17], là bộ dữ

liệu đầu tiên dành cho việc nhận diện cảm xúc trên văn bản mạng xã hội tiếng Việt.

Với 6.927 câu được gán nhãn cảm xúc, bộ dữ liệu này cung cấp một cơ sở vững chắccho các nghiên cứu về cảm xúc trong ngữ cảnh tiếng Việt Để đảm bảo tính nhấtquán và chính xác cao, [17] đã xây dựng một hướng dẫn chú thích rất mạch lạc và

kỹ lưỡng Bộ dữ liệu này đã được công khai và sẵn có cho mục đích nghiên cứu.

SA-VLSP2016: Phân tích cảm xúc là một nhiệm vụ trong xử lý ngôn ngữ tự

nhiên (NLP) nhằm nhận diện hoặc trích xuất nội dung cảm xúc của một đơn vị vănbản Nhiệm vụ nay đã trở thành một chủ dé nghiên cứu sôi động từ đầu những năm

2000 Trong hai lần tổ chức gần đây của chuỗi hội thảo VLSP, nhiệm vụ chung về

Phân tích Cảm xúc (SA) cho tiếng Việt đã được tổ chức nhằm cung cấp một thước

đo đánh giá khách quan về hiệu suất của các công cụ phân tích cảm xúc, khuyếnkhích sự phát triển của các hệ thống phân tích cảm xúc tiếng Việt, cũng như cung

cấp các bộ dif liệu chuẩn cho nhiệm vụ này [18].

UIT-HSD: Được phát triển để tự động phát hiện ngôn từ thù ghét trên mạng xã hội, bộ dữ liệu UIT-HSD [19] chứa hơn 30.000 bình luận Mỗi bình luận trong bộ

dữ liệu có một trong ba nhãn: CLEAN, OFFENSIVE, hoặc HATE Việc phân loại

này giúp nhận diện và quản lý các ngôn từ tiêu cực trên các nền tang trực tuyến.

ViSpamReviews: Các bài đánh giá của khách hàng đóng một vai trò thiết yếu

trong mua sắm trực tuyến Dé đối phó với van đề đánh giá rác, Dinh và các cộng

sự [20] đã đề xuất bộ dữ liệu ViSpamReviews bộ dữ liệu này bao gồm hai tác vụ

chính: phân loại nhị phân để phát hiện xem một đánh giá có phải là rác hay không

19

Trang 21

2.2 MÔ HÌNH NGON NGU CHO DU LIEU TIENG VIET

va phân loại đa lớp để xác định loại đánh giá rác Việc này giúp ngăn chặn các đánh

giá sai sự thật và bảo vệ người tiêu dùng trên các nền tảng thương mại điện tử

VIHOS: Sự gia tăng ngôn ngữ thù địch và xúc phạm trên mạng xã hội tạo ra

nhiều thách thức cho các nhà quản lý và hệ thống phân loại tự động Để giải quyết

van dé này, Hoang và các cộng sự [21] đã trình bày bộ dif liệu ViHOS (VietnameseHate and Offensive Spans), kho ngữ liệu đầu tiên được gán nhãn bởi con người, chứa

26.000 khoảng trên 11.000 bình luận bộ dữ liệu này hỗ trợ việc nghiên cứu và phát

triển các hệ thống phát hiện và quản lý ngôn ngữ thù địch hiệu quả hơn.

Bảng 2.1 thống kế chi tiết theo từng bộ dữ liệu đã được giới thiệu ở trên.

Dataset Tran Dev Test Task Evaluation Metrics | Classes UIT-VSMEC 5,548 686 693 | Emotion Recognition (ER) 7

UIT-HSD 24,048 2,672 6,680 | Hate Speech Detection (HSD) 3

SA-VLSP2016 5,100 - 1,050 | Sentiment Analysis (SA) Acc, WF1, MFI (%) 3

ViSpamReviews | 14,306 1,590 3,974 | Spam Reviews Detection (SRD) 4

ViHOS 8,844 1,106 1,106 | Hate Speech Spans Detection (HSSD) 3

Bảng 2.1 Thống kê và mô tả các tác vụ xử ly dữ liệu mang xã hội tiếng Việt

2.2 Mô hình ngôn ngữ cho dữ liệu tiếng Việt

Mô hình ngôn ngữ dựa trên kiến trúc transformers [1] đã trở thành một yếu tố quantrọng trong các tác vụ NLP tiên tiến, bao gồm phân loại văn bản và tạo ngôn ngữ tựnhiên Kể từ đó, các mô hình ngôn ngữ dựa trên transformers liên quan đến nghiên

cứu của chúng tôi đã được xem xét, bao gồm các mô hình ngôn ngữ cho văn bản mạng xã hội tiếng Việt.

Một số mô hình ngôn ngữ đã được phát triển gần đây để xử lý văn bản tiếng Việt.Các mô hình này có sự khác biệt về kiến trúc, dữ liệu huấn luyện và các độ đo đánh

giá PhoBERT, được phát triển bởi Nguyen và Tuan Nguyen [15], là mô hình ngôn ngữ được huấn luyện trên dif liệu văn bản đầu tiên dành cho tiếng Việt Mô hình

này sử dụng cùng kiến trúc tương tự với BERT [2] và cùng kỹ thuật huấn luyện của

RoBERTa [3] để đảm bảo hiệu suất mạnh mẽ và đáng tin cậy PhoBERT được huấn

luyện trên bộ dữ liệu Wikipedia có dung lượng 20GB, mang lại hiệu suất hàng đầu

trên một loạt các tác vụ như gán thẻ từ loại (POS tagging), phân tích phụ thuộc, nhận

diện thực thể có tên (NER), và suy luận ngôn ngữ tự nhiên (NL]).

20

Trang 22

2.3 MHNN CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI

Tiếp nối thành công của PhoBERT, viBERT [14] và vELECTRA [14], cả hai đều

là các mô hình ngôn ngữ được huấn luyện trước đơn ngữ dựa trên kiến trúc BERT và

ELECTRA, đã được giới thiệu Chúng được huấn luyện trên các bộ dif liệu lớn, với viBERT sử dụng bộ dữ liệu huấn luyện 10GB và vELECTRA sử dụng bộ dữ liệu lớn

hơn với 60GB văn bản tiếng Việt viBERT4news' được công bố bởi NIpHUST, một

phiên bản tiếng Việt của BERT được huấn luyện trên hơn 20GB dữ liệu tin tức Đối

với tác vụ tóm tắt văn bản tiếng Việt, BARTpho [22] được giới thiệu như là mô hình

seq2seq đơn ngữ quy mô lớn đầu tiên được huấn luyện cho tiếng Việt, dựa trên bộ

mã tự động giảm nhiễu seq2seq BART Hơn nữa, ViTS [23] được thiết kế dựa trên

kiến trúc encoder-decoder được đề xuất bởi Vaswani và các cộng sự [1] và T5 được

dé xuất bởi Raffel và các cộng sự [24] Nhiều mô hình ngôn ngữ được thiết kế cho

mục đích chung, trong khi sự sẵn có của các mô hình cơ sở mạnh cho các ứng dụng

theo lĩnh vực cụ thể vẫn còn hạn chê Để khắc phục hạn chế đó, Minh và các cộng

sự [25] đã giới thiệu ViHealthBERT, mô hình ngôn ngữ theo lĩnh vực đầu tiên cho chăm sóc sức khỏe tiếng Việt.

2.3 MHNN cho dữ liệu truyền thông xã hội

Nhiều mô hình ngôn ngữ đã được giới thiệu cho mạng xã hội bao gồm cả đa ngôn ngữ và đơn ngữ BERTweet [10] được trình bày là MHNN quy mô lớn đầu tiên

công khai cho các tweet tiếng Anh BERTweet có cùng kiến trúc với BERT pase [2]

và được huấn luyện sử dụng quy trình huấn luyện của RoBERTa [3] Koto và cáccộng sự [26] đã đề xuất IndoBERTweet, mô hình ngôn ngữ được huấn luyện với quy

mô lớn đầu tiên cho mạng xã hội Twitter ngôn ngữ Indonesia IndoBERTweet được

huấn luyện bằng cách mở rộng BERT tiếng Indonesia được huấn luyện đơn ngữ với

một từ vựng đặc thù theo lĩnh vực ROBERTuito, được giới thiệu trong Pérez và các

cộng sự [12], là một mô hình transformer mạnh mẽ được huấn luyện trên 500 triệu

tweet tiếng Tây Ban Nha RoBERTuito xuất sắc trong nhiều ngữ cảnh ngôn ngữ

khác nhau, bao gồm các tình huống đa ngôn ngữ và chuyển mã, như tiếng Tây Ban

Nha và tiếng Anh TWilBert [27] được dé xuất như là một mô hình chuyên biệt hóa của kiến trúc BERT cho cả ngôn ngữ tiếng Tây Ban Nha và lĩnh vực Twitter để giải

‘https: //github.com/bino282/bert4news

21

Trang 23

2.4 CÁC CÔNG TRÌNH NGHIÊN CỨU VỀ MẠNG NO-RON TÍCH CHAP DO THỊ

quyết các tác vụ phân loại văn bản trên Twitter tiếng Tây Ban Nha

Bernice, được giới thiệu bởi DeLucia và các cộng sự [11], là bộ mã hóa được

huấn luyện cho đa ngôn ngữ đầu tiên được thiết kế riêng cho dữ liệu Twitter Mô hình này sử dụng một bộ tokenizer tùy chỉnh được huấn luyện hoàn toàn trên dữ liệu

Twitter và kết hợp một lượng dữ liệu Twitter lớn hơn (2.5 ty tweet) so với hầu hết các

mô hình kiểu BERT Zhang va các cộng sự [13] đã giới thiệu TvHIN-BERT, một

mô hình đa ngôn ngữ được huấn luyện trên 7 tỷ tweet Twitter bằng hơn 100 ngônngữ khác nhau Nó được thiết kế để xử lý hiệu quả văn bản ngắn, nhiễu, do người

dùng tạo ra Trước đó, Barbieri và các cộng sự [28] đã mở rộng việc huấn luyện của

điểm kiểm tra XLM-R [4] sử dụng một bộ dữ liệu gồm 198 triệu tweet đa ngôn ngữ.

Kết quả là, XLM-T được điều chỉnh cho lĩnh vực Twitter nhưng không được huấnluyện độc quyền trên dữ liệu từ trong lĩnh vực đó

2.4 Các công trình nghiên cứu về Mạng Nơ-ron Tích chập Đồ thị

Gần đây, sự quan tâm đến Mạng Nơ-ron Đồ thi (Graph Neural Networks - GNNs)

đã tăng lên [29] Các ví dụ tiêu biểu của GNNs được dé xuất hiện nay bao gồm

Mang Convolutional Đồ thị (Graph Convolutional Networks - GCN) và các biến thể của nó, là một trong những mô hình học sâu trên đồ thị nổi bật nhất [30] Kipf va

Welling [31] đã trình bày một thuật toán với GCN cho phân loại nút bán giám sát và

đạt được kết quả phân loại tiên tiến trên một số bộ dữ liệu mạng Kể từ đó, GCN đã

được sử dụng trong nhiều ứng dụng khác nhau, chẳng hạn như các nhiệm vụ dự đoán

(32, 33, 34, 35, 36], nhiệm vụ gợi ý [37, 38], và nhiệm vụ phân loại [39, 40, 41, 42] Đặc biệt trong lĩnh vực NLP, GCN đã thành công trong việc khám phá các nhiệm

vụ NLP như gán nhãn vai trò ngữ nghĩa [43, 44], dịch máy [45, 46], trích xuất thông

tin [47, 48], trích xuất quan hệ [49, 50, 51], và phân loại văn bản Trong bối cảnh

phân loại văn bản, một số mô hình GCN đã được đề xuất, chang hạn như: Mở rộng

khung GCN sang môi trường cảm ứng gọi là GraphSAGE, cho phép nhúng hiệu quả

cho các nút chưa thấy trong [52] Chen và các cộng sự [53] đã trình bày FastGCN,

một cải tiến nhanh chóng của mô hình GCN để học các nhúng đồ thị FastGCN đạt được tăng tốc đáng kể so với các phương pháp huấn luyện GCN truyền thống trong

khi duy trì hiệu suất tương tự hoặc thậm chí tốt hơn trên một số bộ dữ liệu chuẩn

22

Trang 24

một tập văn bản và giới thiệu mô hình được gọi là Mạng Convolutional Đồ thị Văn

ban (Text Graph Convolutional Networks - TextGCN) Mô hình nay sử dụng mạng

nơ-ron đồ thị để học đồng thời các nhúng từ và văn ban, va nó đã vượt trội hơn các

phương pháp tiên tiến hiện có trên nhiều bộ dữ liệu chuẩn

2.5 Mạng nơ-ron Tích chập Đồ thị kết hợp MHNN

Sau thành công của BERT, Mạng No-ron Đồ thị (Graph Neural Networks - GNNs)

và các biến thể của chúng, các nhà nghiên cứu đã đề xuất các mô hình mới bằng cách

kết hợp chúng lai Zhang và các cộng sự [58] đã đề xuất GRAPH-BERT Based BERT), dựa hoàn toàn vào cơ chế attention để học biểu diễn đồ thị mà không

(Graph-cần bat kỳ phép convolution hay aggregation nào Lu và các cộng sự [59] đã trình

bày mô hình VGCN-BERT, tích hợp kha năng của BERT với Mang Convolutional

Đồ thị Từ vựng (Vocabulary Graph Convolutional Network - VGCN) để nắm bắt

thông tin toàn cục về từ vựng ngôn ngữ Yang và Cui [60] đề xuất mô hình MạngNơ-ron Đồ thị Văn bản Nâng cao BERT (Bert-Enhanced text Graph Neural Network

- BEGNN), trong đó các đặc trưng văn bản được trích xuất bằng GNN, trong khicác đặc trưng ngữ nghĩa được trích xuất bằng BERT Lin và các cộng sự [61] đã

23

Trang 25

2.6 CÁC CÔNG TRÌNH NGHIÊN CỨU VỀ PHƯƠNG PHÁP CHO TÁC VỤ DỮ LIỆU

TRUYỀN THÔNG XÃ HỘI

giới thiệu Bert-GCN, kết hợp học transductive với việc huấn luyện trước mở rộng để

hoàn thành nhiệm vụ phân loại văn bản.

2.6 Các công trình nghiên cứu về phương pháp cho tác vụ dữ liệu truyền

thông xã hội

Trong phần này, chúng tôi đi sâu vào các nghiên cứu đáng chú ý về phân tích cảm

xúc và phân loại cảm xúc, mỗi nghiên cứu cung cấp những hiểu biết độc đáo và cácphương pháp sáng tạo để giải quyết các thách thức phức tạp trong việc hiểu và phânloại cảm xúc trong dif liệu văn bản mạng xã hội Ngoài ra, còn có nhiều công trìnhnghiên cứu về các khía cạnh khác của mạng xã hội [62, 63, 64]

Trong nghiên cứu của mình, Do và Choi [65] đã đề xuất một phương pháp xây

dựng tự động các từ điển cảm xúc phức tạp và đề xuất các đặc trưng nhằm nâng cao

hiệu quả của việc phân loại cảm xúc dựa trên máy học trong các văn bản Twitter

tiếng Hàn

Trong công trình của Ibrohim và Budi [66], một cuộc thăm dò toàn diện đã

được thực hiện về phân loại văn bản đa nhãn để phát hiện ngôn ngữ lăng mạ và

phát ngôn thù ghét trong Twitter tiếng Indonesia Họ sử dụng các bộ phân loại như

Support Vector Machine (SVM), Naive Bayes (NB), và Random Forest Decision

Tree (RFDT) kết hợp với các phương pháp chuyển đổi dữ liệu như Binary Relevance

(BR), Label Power-set (LP), và Classifier Chains (CC) Nghiên cứu cũng kết hợpcác kỹ thuật trích xuất đặc trưng, bao gồm tần suất thuật ngữ, chính tả, và đặc trưng

từ điển Kết quả thực nghiệm chỉ ra rằng bộ phân loại RFDT sử dụng LP là phương

pháp chuyển đổi đạt được độ chính xác cao nhất trong khi vẫn duy trì tốc độ tính

toán nhanh.

Trong phân tích cảm xúc, Zhou và các cộng sự [67] đã giới thiệu một phương pháp sáng tạo được gọi là mạng lưới cảm xúc (EmNet) Phương pháp này học cảm

xúc của câu và thích nghi động các từ điển cảm xúc để phù hợp với các sắc thái ngữ

cảnh cụ thể Những từ điển cảm xúc điều chỉnh động này tỏ ra rất hiệu quả trongviệc xử lý các từ có nhiều cảm xúc trong các ngữ cảnh khác nhau, cải thiện đáng kể

độ chính xác của việc phân loại Các tác giả đã xác nhận phương pháp của mình trên

hai kiến trúc phổ biến - LSTM và BERT, chứng minh sự vượt trội của nó trong việc

24

Trang 26

2.7 MỘT SỐ PHƯƠNG PHAP CHO TÁC VỤ DU LIEU TRUYEN THONG XÃ HỘI

VIỆT NAM

nhận diện cảm xúc trong Tweets Đáng chú ý, mô hình được đề xuất vượt trội so vớimột số phương pháp trước đó và thiết lập một tiêu chuẩn mới cho phân tích cảm xúc

trên Twitter.

Trong nghiên cứu của họ, Mustakim và các cộng su [68] đã trình bày một phương

pháp phân loại cảm xúc văn bản trong tiếng Tamil thành mười một loại khác nhau

Họ khám phá một loạt các mô hình máy học (Hồi quy Logistic, Cây Quyết định,

Naive Bayes Đa thức, Máy Vector Hỗ trợ), các mô hình học sâu (Mạng Nơ-ron Tích

chập, Mạng Bộ nhớ Dài Ngắn Hạn, Mạng Bộ nhớ Dài Ngắn Hạn Hai Chiều), và các

mô hình dựa trên transformer (Multilingual-BERT, XLM-R) Kết quả cho thấy mô

hình XLM-R vượt trội hơn tất cả các mô hình khác trong việc đạt hiệu suất tốt nhất

Hon nữa, trong bối cảnh diễn ngôn và ngữ cảnh dựa trên người nói, Zhang và cáccộng sự [69] đã giới thiệu Mạng Chú ý Đồ thị Kép (Dual Graph Attention Networks

- DualGATs) để đồng thời xem xét các khía cạnh bổ sung của cấu trúc diễn ngôn và

ngữ cảnh dựa trên người nói, nhằm đạt được nhận diện và phân loại cảm xúc (ERC)

chính xác hơn Họ đã thiết kế một module GAT nhận biết diễn ngôn (DisGAT) để

kết hợp thông tin cấu trúc bằng cách phân tích các phụ thuộc diễn ngôn giữa các

phát ngôn Kết quả thực nghiệm cho thấy DualGATs được đề xuất của họ vượt trội

so với các mô hình cơ sở tiên tiến trên phần lớn các bộ dữ liệu được sử dụng trong

nghiên cứu của họ.

2.7 Một số phương pháp cho tác vụ dữ liệu truyền thông xã hội Việt Nam

Gan đây, nhiều phương pháp tiên tiến đã xuất hiện trong lĩnh vực nghiên cứu mang

xã hội Trong nghiên cứu của Nguyen và các cộng sự [70], mô hình LSTM và

Dependency Tree-LSTM được giới thiệu và áp dung để phân tích bộ dữ liệu

UIT-VSFC Họ đã đề xuất một phương pháp kết hợp trạng thái ẩn cuối cùng của LSTM

với mô hình Dependency Tree-LSTM, sau đó sử dụng bộ phân loại SVM.

Trong khi đó, Nguyen và Van Nguyen [71] đã khám pha tác động của các kỹ

thuật tiền xử lý và phương pháp trích xuất key-clause của họ khi kết hợp với các mô

hình học máy để nhận diện cảm xúc trong văn bản mạng xã hội tiếng Việt nghiên cứu của họ đạt được Fl-score 64.40% trên bộ dữ liệu UIT-VSMEC đã được tiền

xử lý, sử dụng Hồi quy Logistic Đa thức với Bộ tao vector TF-IDF và trích xuất

25

Trang 27

2.7 MỘT SỐ PHƯƠNG PHAP CHO TÁC VỤ DU LIEU TRUYEN THONG XÃ HỘI

VIỆT NAM

key-clause.

Trong một hướng tiếp cận khác, Huynh và các cộng sự [72] đã dé xuất một bộ phân loại Tập hợp (Ensemble) đơn giản nhưng hiệu quả, kết hợp nhiều mô hình mạng nơ-ron khác nhau để nâng cao hiệu suất phân loại trên các bộ dữ liệu mạng xã

hội tiếng Việt Các thử nghiệm của họ đã xác định được các mô hình phù hợp cho

từng nhiệm vụ phân loại cụ thể và đề xuất một mô hình tập hợp bằng cách kết hợp

các mô hình có hiệu suất tốt nhất

Ngoài ra, trong công trình của Tran và các cộng sự [73], một kỹ thuật tiền xử lýhiệu quả đã được trình bày để làm sạch các bình luận thu thập từ mạng xã hội tiếng

Việt Họ cũng giới thiệu một mô hình phát hiện phát ngôn thù ghét (HSD) mới, kết

hợp mô hình PhoBERT đã được huấn luyện trước với mô hình Text-CNN cho cácnhiệm vụ ngôn ngữ tiếng Việt khác nhau Hơn nữa, họ đã áp dụng các kỹ thuật EDA

để giải quyết van đề dữ liệu không cân bằng, cuối cùng cải thiện hiệu suất của các

mô hình phân loại.

Trong một nghiên cứu khác, Doan và Luu [74] đã đề xuất một phương pháp kết

hợp từ điển cảm xúc với các mô hình phân loại để nâng cao độ chính xác của mô

hình Kết quả thực nghiệm của họ cho thấy việc tích hợp từ điển cảm xúc với các

mô hình phân loại đã cải thiện hiệu suất

26

Trang 28

Chương 3 ViSoBERT: mô hình ngôn ngữ cho tac vụ xử lý dữ

liệu truyền thông xã hội tiếng Việt

Trong phan này, chúng tôi giới thiệu chi tiết cách huấn luyện mô hình ViSoBERT,bao gồm các phần như: Dữ liệu huấn luyện, kiến trúc của mô hình, cách xây dựng

tokenizer đặc thù cho dữ liệu truyền thông xã hội Việt Nam.

3.1 Dữ liệu huấn luyện cho mô hình ngôn ngữ ViSoBERT

Chúng tôi đã thu thập dữ liệu van bản từ các mang xã hội công khai của Việt Nam

như Facebook’, Tiktok”„ và YouTube” Day là ba mang xã hội nổi tiếng nhất ở Việt Nam, với lần lượt 52.65, 49.86, và 63.00 triệu người dùng” vào đầu năm 2023.

Để thu thập dữ liệu hiệu quả từ các nền tảng này, chúng tôi đã sử dụng các công

cụ chuyên biệt do mỗi nền tảng cung cấp

1 Facebook: Chúng tôi thu thập các bình luận từ các trang đã xác thực của Việt

Nam thông qua bài đăng trên Facebook sử dụng Facebook Graph APP từ tháng

1 năm 2016 đến tháng 12 năm 2022

2 TikTok: Chúng tôi thu thập các bình luận từ các kênh đã xác thực của Việt

Nam thông qua TikTok sử dung TikTok Research API’ từ tháng 1 năm 2020

đến tháng 12 năm 2022

3 YouTube: Chúng tôi thu thập các bình luận từ các video của các kênh đã xác

thực tại Việt Nam trên YouTube sử dụng YouTube Data API’ từ tháng 1 nam

2016 đến tháng 12 năm 2022.

Tiền xử lý dữ liệu huấn luyện cho mô hình ViSoBERT Tiền xử lý dữ liệu rất

quan trọng đối với các mô hình tiêu thụ dữ liệu từ mạng xã hội, vốn rất nhiễu loạn và

có chứa các tài khoản người dùng (@username), hashtags, emoji, lỗi chính tả, liên

Trang 29

3.3 TOKENIZER CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI VIỆT NAM

kết, và các văn bản không chuẩn khác Chúng tôi thực hiện các bước sau để làm sạch

BDL: loại bỏ văn bản không chuẩn, loại bỏ các bình luận chứa liên kết, loại bỏ các

bình luận spam lặp đi lặp lại và vô nghĩa, loại bỏ các bình luận chỉ chứa tài khoản

người dùng (@username), và giữ lại emoji trong dữ liệu huấn luyện.

Kết quả là, dữ liệu tiền huấn luyện của chúng tôi sau khi thu thập và tiền xử lýchứa 1GB văn bản chưa nén Dữ liệu tiền huấn luyện của chúng tôi đã được công

bô và nhăm phục vụ cho các mục đích nghiên cứu.

12 self-attention layers, 12 attention heads, và sử dung masked language objective,

tận dung các siêu tham số thành công từ XLM-R [4] Hình 3.1 thé hiện chi tiết kiến

trúc mô hình ViSoBERT.

3.3 Tokenizer cho dữ liệu truyền thông xã hội Việt Nam

Theo hiểu biết của chúng tôi, ViSoBERT là mô hình ngôn ngữ đầu tiên với một bộ

tokenizer tùy chỉnh cho các văn bản mạng xã hội tiếng Việt Bernice [11] là mô

hình đa ngôn ngữ đầu tiên được huấn luyện từ đầu trên dữ liệu Twitter’ với một bộ

tokenizer tùy chỉnh; tuy nhiên, bộ tokenizer cua Bernice không xử lý hiệu quả van

bản mạng xã hội tiếng Việt Hơn nữa, các bộ tokenizer của các mô hình hiện có cho tiếng Việt cũng hoạt động kém hiệu quả trên văn bản mạng xã hội do dữ liệu huấn

luyện thuộc các lĩnh vực khác nhau Do đó, chúng tôi đã phát triển bộ tokenizer tùy

chỉnh đầu tiên cho văn bản mạng xã hội tiếng Việt

Nhờ khả năng xử lý văn bản chưa được tiền xử lý của SentencePiece [77] mà

‘https: //twitter.com/

28

Trang 30

Hình 3.1 Kiến trúc của mô hình ViSoBERT

không bị mat dữ liệu so với Byte-Pair Encoding [4], chúng tôi đã xây dựng một bộtokenizer tùy chỉnh trên văn bản mạng xã hội tiếng Việt bằng SentencePiece trên

toàn bộ BDL huấn luyện Một tokenzer của mô hình ngôn ngữ có khả năng bao phủ

dữ liệu tốt hơn khi can ứ từ con hơn để đại diện cho văn bản, và các từ con là đài

hơn [11] Hình A.1 (trong Phụ lục A.1) hiển thị độ dài token trung bình cho mỗi môhình và nhóm tác vụ được xem xét ViSoBERT đạt được các biểu diễn ngắn nhất

cho tất cả các tác vụ mạng xã hội tiếng Việt so với các mô hình ngôn ngữ khác

Emoji và teencode là quan trọng trong “ngôn ngữ” trên các nền tang mạng xã hội tiếng Việt Khả năng của bộ tokenizer tùy chỉnh của chúng tôi trong việc giải mã

emoji và teencode đảm bảo rằng ý nghĩa ngữ nghĩa và ý nghĩa ngữ cảnh của chúng

được nắm bắt chính xác và tích hợp vào biểu diễn ngôn ngữ, do đó nâng cao chấtlượng tổng thể và sự toàn diện của phân tích và hiểu văn bản.

Để đánh giá khả năng token hóa dif liệu văn bản mang xã hội tiếng Việt, chúngtôi đã tiến hành phân tích một số mẫu dữ liệu Bảng 3.1 hiển thị một số bình luậnmạng xã hội thực tế và cách chúng được token hóa với các bộ tokenizer của hai môhình ngôn ngữ được huấn luyện trước, ViSoBERT và PhoBERT, cơ sở mạnh nhất

29

Trang 31

Kết quả cho thấy bộ tokenizer tùy chỉnh của chúng tôi hoạt động tốt hơn so với các

bộ khác.

Bình luận và Tách từ

</s>

PhoBERT: <s>, "th@@", "ằ@@", "ng@@", "ngu", "này", "mày", "bi",

"đầ@ @", "n@ @", "độn", "a", <unk>, <unk>, <unk>, </s>

Bình luận: cảm ơn bácnhiêunhá ®®

ViSoBERT: <s>,"cảm", "ơn", "bác", "nhiều", "nh", "4", @, &, </s>

PhoBERT: <s>, "cảm", "ơn", "bá@ @", "c@@", "nh@@", "iE@O", "U@@",

"nha", <unk>, <unk>, </s>

Bình luận: d4y 14 vj du cko mot cau teencode

ViSoBERT: <s>, "d", "4", "y", "I", "4", "vj", "du", "cko", "mot", "cau", "teen",

"code", </s>

PhoBERT: <s>, "d @ @", "4 @ @", "y", "| @ @", "4", "y @ @", "J", "du", "c

k @ @","o","mo @ @", "t","cau", "te @ @","en @ @", "code", </s>

Bảng 3.1 Các bình luận mạng xã hội thực tế và phân tách từ với bộ tách từ của hai

mô hình ngôn ngữ, ViSoBERT và PhoBERT.

30

Trang 32

Chương 4 ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp

mô hình ngôn ngữ cho Khai thác dữ liệu mạng xã

hội tiếng Việt

Các mô hình ngôn ngữ như BERT đã cho thấy hiệu suất ấn tượng trong một loạt các tác vụ NLP, đặc biệt là trong các tác vụ yêu cầu hiểu sâu về ý nghĩa của ngôn

ngữ, chẳng hạn như phân loại văn bản, phân tích cảm xúc và nhận diện thực thể có

tên Lý do cho hiện tượng này là các mô hình ngôn ngữ có thể nắm bắt ý nghĩa ngữcảnh của các từ dựa trên các từ xung quanh, điều này rất quan trọng cho nhiều tác

vụ NLP Mặt khác, Mạng Nơ-ron Tích chập Đồ thị (GCN) là một loại mạng nơ-ron

đồ thị có thể xử lý dữ liệu có cấu trúc đồ thị, chang hạn như đồ thị phụ thuộc dựa

trên văn bản, thường được sử dung trong xử lý ngôn ngữ TV Ngoài ra, GCN phù

hợp hơn cho các tác vụ học bán giám sát nơi dữ liệu huấn luyện bị giới hạn và nhiễu.

Kết quả là, sự kết hợp giữa mô hình ngôn ngữ và GCN cho phép mô hình hóa tốt

hơn dữ liệu văn bản, nắm bắt các mối quan hệ phức tạp giữa các từ và câu trong một

tập hợp văn bản, dẫn đến hiệu suất được cải thiện hoặc đạt mức tiên tiến (SOTA)trên một loạt các tác vụ NLP Trong nghiên cứu này, chúng tôi đề xuất mô hình Tích

hợp ViSoGCN và đánh giá hiệu quả của nó trong xử lý MXH cho TV Kiến trúc

ViSoGCN bao gồm hai lớp, cụ thể là lớp ViSoBERT và lớp GCN Hình 4.1 trình

bày tổng quan về kiến trúc của PP đề xuất của chúng tôi.

4.1 Mô-đdun ViSoBERT

Các mô hình ngôn ngữ như BERT đã thể hiện hiệu suất ấn tượng trong nhiều tác vụ

xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là trong các tác vụ đòi hỏi hiểu sâu về ý

nghĩa của ngôn ngữ, chang hạn như phân loại văn bản, phân tích cảm xúc và nhận

dạng thực thể có tên Lý giải cho hiện tượng này là các mô hình có thể nắm bắt ý

nghĩa ngữ cảnh của các từ dựa trên các từ xung quanh, điều này rất quan trọng đối

với nhiều tác vụ NLP Mặt khác, Mạng tích chập đồ thị (GCN) là một loại mang

nơ-ron đồ thị có thể xử ly dif liệu có cấu trúc đồ thi, chang hạn như đồ thị phụ thuộc

dựa trên van bản, thường được sử dụng trong xử lý ngôn ngữ TV Ngoài ra, GCN

phù hợp hơn cho các tác vụ học bán giám sát, trong đó dữ liệu huấn luyện bị hạn chế

31

Trang 33

4.1 MÔ-ĐUN VISOBERT

Pretrained

ViSoBERT Graph Convolutional Networks

và nhiễu Do đó, sự kết hợp của mô hình ngôn ngữ và GCN cho phép mô hình hóa

Hình 4.1 mô hình đề xuất ViSoGCN

dữ liệu văn bản tốt hơn, nắm bắt các mối quan hệ phức tạp giữa các từ và câu trong

kho ngữ liệu văn bản, dẫn đến hiệu suất được cải thiện hoặc thể hiện hiệu suất caonhất (SOTA) trên nhiều tác vụ NLP Trong nghiên cứu này, chúng tôi dé xuất mô

hình tích hợp ViSoGCN và đánh giá hiệu quả của nó trong việc xử lý dữ liệu MXH

cho TV Kiến trúc ViSoGCN bao gồm hai lớp, cụ thể là lớp ViSoBERT và lớp GCN.

Hình 4.1 trình bày tổng quan về kiến trúc của PP dé xuất của chúng tôi

Trước hết, chúng tôi trình bày kiến trúc của ViSoBERT' ({78]) va cach mô hình

ViSoBERT hoạt động như là lớp đầu tiên trong PP được dé xuất của chúng tôi.ViSoBERT được lựa chọn vi nó được thiết kế đặc biệt cho các nhiệm vụ MXH TV,làm cho nó trở nên hiệu quả cao đối với các nhiệm vụ xử lý ngôn ngữ MXH TV

Kiến trúc ViSoBERT dựa trên XLM-R’, một mô hình nổi tiếng sử dụng mạng lưới

transformer để mã hóa văn bản đầu vào và tạo ra các biểu diễn chất lượng cao của

văn bản XLM-R, viết tắt của Cross-lingual Language Model-Robustly Optimized

BERT Approach, là một phiên bản cải tiến của BERT với khả năng xử lý đa ngôn

ngữ mạnh mẽ.

Mô hình XLM-R được thiết kế để học các biểu diễn ngữ cảnh của văn bản từ nhiều ngôn ngữ khác nhau, giúp nó trở thành một công cụ lý tưởng để xử lý văn bản trong các ngôn ngữ có tài nguyên hạn chế như TV ViSoBERT, dựa trên kiến trúc

này, đã được tinh chỉnh và tối ưu hóa thêm cho các nhiệm vụ cụ thể liên quan đến

ngữ cảnh MXH TV.

https: //huggingface.co/uitnlp/visobert

“https: / /huggingface.co/docs/transformers/en/model_ doc/xlm-roberta

32

Trang 34

4.2 MO-DUN MANG NƠ-RON TÍCH CHAP DO THI (GCN)

Input [CLS] Harry Maguire la một a tha gidi [SEP] Téi rat thích anh

Hình 4.2 Quá trình biểu diễn đầu vào của mô hình ngôn ngữ ViSoBERT

Đầu vào của các lớp này là văn bản được mã hóa thành các token, sau đó được

chuyển đổi thành các embedding sử dụng lớp embedding như minh họa trong Hình

4.2 Các embedding này sau đó được xử lý qua các khối transformer để tạo ra biểudiễn từ có ngữ cảnh Ngoài các lớp transformer, ViSoBERT còn bao gồm một lớptiền xử lý chịu trách nhiệm cho việc mã hóa token, phân đoạn câu và xử lý token

đặc biệt Trong nghiên cứu này, ViSoBERT chịu trách nhiệm xử lý văn bản đầu vào.

Nó nhận đầu vào là văn bản thô và áp dụng một chuỗi các lớp dựa trên transformer Điều này tạo ra một embedding có ngữ cảnh cho mỗi từ trong đầu vào Sau đó, các

embedding có ngữ cảnh này được đưa vào lớp GCN Đầu ra của lớp ViSoBERT đạidiện cho các embedding có ngữ cảnh cho mỗi từ trong đầu vào

Hình 4.3 Sơ đồ của lớp GCN trong ViSoGCN trong mô hình ViSoGCN

4.2 Mé-dun Mạng nơ-ron Tích chập Đồ thi (GCN)

Lớp thứ hai, lớp GCN, nhận đầu ra của mô-đun ViSoBERT, là một chuỗi các biểudiễn từ được ngữ cảnh hóa, làm đầu vào, và áp dụng các phép toán tích chập đồ thị

để tổng hợp thông tin từ các từ xung quanh trong một câu Cụ thể hơn, chúng tôi

33

Trang 35

4.3 MÔ HÌNH VISOGCN

tạo ra một đồ thị không đồng nhất bao gồm cả các nút tài liệu và các nút từ, theo mô

hình TextGCN' [57] Hình 4.3 trình bày sơ đồ tổng quan lớp GCN của mô hình tích

hợp của chúng tôi.

Để cung cấp một cái nhìn toàn diện hơn, lớp GCN trong PP của chúng tôi sử

dụng cây phân tích phụ thuộc của câu để tạo ra một biểu diễn đồ thị Trong đồ thịnày, các từ trong câu được biểu diễn dưới dạng các nút, và các mối quan hệ cú pháp

của chúng được nắm bắt dưới dạng các cạnh Trong mô hình ViSoGCN, đồ thị này

minh họa các mối quan hệ giữa các từ và câu trong một tài liệu văn bản nhất định

Để đi sâu hơn vào PP luận, chúng tôi thiết lập một đồ thị đa dạng bao gồm các

nút biểu diễn cả từ và toàn bộ tài liệu, lấy cảm hứng từ TextGCN [57] Để thiết lậpcác kết nối giữa các nút từ và tài liệu, chúng tôi sử dụng chỉ số tần suất từ ngữ-ngượctần suất tài liệu (TF-IDE), giúp xác định các liên kết giữa cặp từ ngữ-tài liệu Ngoài

ra, chúng tôi sử dụng thông tin tương hỗ điểm tích cực (PPMI) để thiết lập các kếtnối giữa các cặp từ ngữ Trọng số của một cạnh nối hai nút, được ký hiệu là i và j,

được định nghĩa như sau:

ViSoBERT chịu trách nhiệm thu nhận các biểu diễn tài liệu và xem chúng như các

biểu diễn đầu vào cho các nút tài liệu Các biểu diễn nút tài liệu này được biểu diễn

dưới dạng Xj € IR"“““, trong đó nage biểu thị số lượng các nút tài liệu, n0 „„„„ biểu

thị số lượng các nút từ (bao gồm cả huấn luyện và kiểm tra), và d biểu thị kích thướccủa các biểu diễn Do đó, ma trận ban đầu của các đặc trưng nút được hình thành

như sau:

‘https: //github.com/yao8839836/text gen

34

Trang 36

X= (4.2)

(Ndoct+Nword) Xd

Sau đó, X được đưa vào một loạt các lớp Mang No-ron Tích chập Đồ thi (GCN),

trong đó mỗi lớp tổng hợp thông tin từ các nút lân cận của mỗi nút để tinh chỉnh

biểu diễn của nó Cu thể hơn, ma trận đặc trưng đầu ra cho lớp GCN thứ i, ký hiệu

là LẺ), được tính toán như sau: nó bao gồm một hàm kích hoạt được ký hiệu là ƒ, sử

dụng ma trận kề đã được chuẩn hóa ký hiệu là 4, và bao gồm một ma trận trọng số

w e Rfri*4 cụ thể cho lớp đó Ma trận đặc trưng đầu vào ban đầu của mô hình được ký hiệu là 1° = x.

LẺ = s(AL Pw) (4.3)

Đầu ra của lớp GCN là một tập hợp các biểu diễn đã được cập nhật, biểu thị các

tương tác giữa các từ trong câu và được đưa qua một lớp kích hoạt softmax để thu

được các dự đoán cuối cùng, trong đó ø đại diện cho mô hình GCN:

Zocn = softmax(g(X, A)) (4.4)

Hon nữa, một bộ phân loại phụ trợ trên các biểu diễn BERT được thực hiện bằng

cách đưa trực tiếp các biểu diễn tài liệu (ký hiệu là X) vào một lớp dense với kích

hoạt softmax.

ZvisoBERT = softmax( WX) (4.5)

Dé kết hợp các biểu diễn đầu ra của các lớp ViSOBERT va GCN và dat được hiệu

suất phân loại tốt nhất, chúng tôi đề xuất sử dụng một siêu tham số \ để kiểm soát

sự đánh đổi giữa chúng trong phân loại cuối cùng Cụ thể, chúng tôi tính tổng có

trọng số của hai biểu diễn sử dụng phương trình sau:

Z = ÀZœcN + (1— À)ZvisoBERT (4.6)

trong đó Zgcn là biểu diễn đầu ra của lớp GCN và Zvisoperr là biểu diễn đầu ra

35

Trang 37

của lớp ViSoBERT Hàm softmax chuẩn hóa đầu ra và tạo ra xác suất lớp cho phân

loại văn bản Hơn nữa, các thử nghiệm toàn diện đã được thực hiện trên các BDL để xác định giá tri lambda tối ưu cho mô hình ViSoGCN trong Mục 5.5.1.

Data: Input features cls_feats, graph g, edge weights edge_weight, mixing factor

m, index idx

cls_logit — classi fier(cls_feats)

cls_pred — Softmaz(dim = 1)(cls_logit)

gcn_logit — GCN(g.ndata[’cls_feats’], g, g.edata[’edge_weight’])[idx |

gcn_pred — Softmazx(dim = 1)(gcn_logit)

pred (gcn_pred+ Ie-10) x \ + cls_pred x (1 — À)

Bằng cách kết hợp khả năng của các biểu diễn ngữ cảnh hóa của ViSoBERTvới khả năng của GCN trong việc nắm bắt các phụ thuộc cú pháp và ngữ nghĩa,

ViSoGCN có thể đạt được hiệu suất tốt hơn trong các tác vụ xử lý MXH, đặc biệt

là những tác vụ yêu cầu hiểu các mối quan hệ ngữ nghĩa giữa các từ Hơn nữa, mô hình ViSoGCN cũng có thể xử lý một phạm vi rộng hơn các đầu vào văn bản, bao

gồm các câu dài hơn và phức tạp hơn, nhờ khả năng nắm bắt ý nghĩa ngữ cảnh củacác từ và các phụ thuộc cú pháp và ngữ nghĩa giữa chúng Điều này làm cho nó trở

thành một công cụ cực kỳ hiệu quả cho các tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt

là phân loại văn bản và các tác vụ xử lý MXH.

36

Trang 38

Chương 5 Thử nghiệm và kết qua

5.1 Cai đặt thử nghiệm

Chúng tôi tích lũy gradient trong một bước để mô phỏng kích thước batch là 128.

Khi huấn luyện trước từ đầu, chúng tôi huấn luyện mô hình trong 1.2 triệu bước

trong 12 epoch Chúng tôi huấn luyện mô hình trong khoảng ba ngày trên 02 GPU

RTX4090 (24GB VRAM) Mỗi câu được token hóa và che động với xác suất bằng30% (được thử nghiệm chỉ tiết trong Mục 5.4.1 để tìm giá trị tối ưu) Chi tiết thêm

về siêu tham số và huấn luyện có thể được tìm thấy trong Bảng A.1 của Phụ lục A.2

5.1.1 Các tác vụ đánh giá

Để đánh giá ViSoBERT, chúng tôi đã sử dụng năm tập DLMXH TV có sẵn cho mục

đích nghiên cứu, như được tóm tắt trong Bảng 2.1 Các tác vụ bao gồm nhận diện

cảm xúc (UIT-VSMEC) [17], phát hiện lời nói căm thù (UIT-VIHSD) [19], phân tích cảm xúc (SA-VLSP2016) [18], phát hiện đánh giá spam (ViSpamReviews) [20], và

phát hiện đoạn văn chứa lời nói căm thù (UIT-VIHOS) [21].

5.1.2 Fine-tuning

Chúng tôi đã thực hiện tinh chỉnh thực nghiệm cho tất cả các mô hình ngôn ngữ bằng

cách sử dụng simpletransformers’ Quá trình tinh chỉnh của chúng tôi tuân theo các

quy trình chuẩn, hầu hết được nêu trong [2] Đối với tất cả các tác vụ đã đề cập ở trên, chúng tôi sử dụng kích thước batch là 40, độ dài token tối đa là 128, tốc độ học

là 2e-5, và tối ưu hóa AdamW [79] với epsilon là le-8 Chúng tôi đã thực hiện quá

trình huấn luyện 10 epoch và đánh giá các tác vụ bằng mô hình có hiệu suất tốt nhất

từ những epoch đó Hơn nữa, không áp dụng kỹ thuật tiền xử lý nào cho tất cả các

bộ dữ liệu để đánh giá khả năng xử lý văn bản chưa được tiền xử lý của mô hình

ngôn ngữ của chúng tôi.

‘https: //simpletransformers.ai/ (phién ban 0.63.11)

37

Trang 39

5.2 KET QUA THU NGHIỆM VISOBERT

» Mô hình ngôn ngữ đơn ngữ: viBERT [14] và VELECTRA [14] là các mô

hình ngôn ngữ cho TV dựa trên kiến trúc BERT va ELECTRA, tương ứng PhoBERT, dựa trên kiến trúc BERT và kĩ thuật huấn luyện của ROBERTa [15],

là mô hình ngôn ngữ đơn ngữ quy mô lớn đầu tiên cho TV; PhoBERT đạt đượchiệu suất hang đầu trong nhiều tác vụ NLP TV

¢ Mô hình ngôn ngữ đa ngôn ngữ: Nøoài ra, chúng tôi đã tích hợp hai mô

hình ngôn ngữ đa ngôn ngữ, mBERT [2] và XLM-R [4], được cho thấy có hiệu

suất cạnh tranh với các mô hình TV đơn ngữ XLM-R, một mô hình ngôn

ngữ đa ngôn ngữ được giới thiệu bởi Conneau và các cộng sự [4], đã được

huấn luyện trên 100 ngôn ngữ, trong đó có TV, sử dụng một bộ dữ liệu Clean CommonCrawl 2.5TB XLM-R mang lại những cải tiến đáng kể trong các tác

vụ khác nhau, vượt qua hiệu suất của các mô hình đa ngôn ngữ được phát hành

trước đó như mBERT [2] và XLM [80].

¢ Mô hình ngôn ngữ mang xã hội đa ngôn ngữ: Dé đảm bảo so sánh công

bằng với mô hình ngôn ngữ của chúng tôi, chúng tôi đã thực hiện thử nghiệmtrên nhiều mô hình ngôn ngữ mạng xã hội đa ngôn ngữ, bao gồm XLM-T [28],

TwHIN-BERT [13], va Bernice [11].

5.2 Kết qua thử nghiệm ViSoBERT

Bảng 5.2 hiển thị kết quả của ViSoBERT so với các kết qua cao nhất đã được báo cáo

trước đó trên các mô hình ngôn ngữ khác sử dụng cùng một thiết lập thực nghiệm

Rõ ràng là ViSoBERT của chúng tôi đạt được các kết quả hiệu suất mới hàng đầu

(SOTA) cho nhiều tác vụ mang xã hội tiếng Việt mà không cần bat kỳ kỹ thuật tiền

xử lý nào.

38

Trang 40

5.2 KET QUA THU NGHIỆM VISOBERT

Model #Layers #Heads #Steps #Batch Domain Data #Params #Vocab #MSL CSMT

viBERT [14] 12 12 - 16 Vietnamese News - 30K 256 No

vELECTRA [14] 12 3 - 16 NewsCorpus + OscarCorpus - 30K 256 No

PhoBERT ase [15] 12 12 540K 1024 ViWiki + ViNews 135M 64K 256 No

PhoBERT) arge [15] 24 16 108M 512 ViWiki + ViNews 370M 64K 256 No

mBERT [2] 12 12 1M 256 BookCorpus + EnWiki 110M 30K 512 No

XLM-Rgase [4] 12 12 1.5M 8192 CommonCrawl + Wiki 270M 250K 512 No

XLM-Rj arge [4] 24 16 1.5M 8192 CommonCrawl + Wiki 550M 250K 512 No

XLM-T [28] 12 12 - 8192 Multilingual Tweets - 250k 512 No

TWHIN-BERT ase [13] 12 12 500K 6K Multilingual Tweets 135M to278M 250K 128 No

TWHIN-BERTy arge [13] 24 16 500K 8K Multilingual Tweets 550M 250K 128 No

Bernice [11] 12 12 405K+ 8192 Multilingual Tweets 270M 250K 128 Yes

~ViSoBERT (Ours) | 12000 12 12M l2§ Vietnamesesocialmeda '9M —- ISK 512 Yes _

Bảng 5.1 Thông tin chỉ tiết về các mô hình cơ sở và mô hình ngôn ngữ của chúngtôi Thông số #Layers, #Heads, #Batch, #Params, #Vocab, #MSL, và CSMT lần lượt

chỉ ra số lượng hidden units, attention heads, kích thước batch, dữ liệu đào tạo theo

miền, tổng số tham số, kích thước từ vựng, độ dài chuỗi tối đa, và tokenzer riêngbiệt dành cho DLMXH.

Emotion Recognition Hate Speech Sentiment Analysis Spam Reviews Hate Speech Spans Model Avg Task Detection Task Task Detection Task Detection Task

Acc WF1 MFI | Acc WFI MEI | Acc WFI MFI | Acc WFI MFI | Acc WFI1 MFI viBERT 71.57 | 61.91 61.98 59.70 | 85.34 85.01 6207 | 74.85 74/73 74.73 | 89.93 89.79 76.80 | 90.42 90.45 84.55 vELECTRA 72.43 | 64.79 64.71 61.95 | 86.96 86.37 63.95 | 74.95 74.88 74.88 | 89.83 89.68 76.23 | 90.59 90.58 85.12

Bernice 72.49 | 64.21 6427 60.68 | 86.12 86.48 6432 | 74.57 74.90 74.90 | 90.22 90.21 76.89 | 90.48 90.06 85.67

-ViSoBERT 75.65 | 68.10 68.37 65.88' | 88.51 88.31 68.77 as T175 7175 | 90.99 90.92 79.06 | 91.62 91.57 86.80 —

Bảng 5.2 Hiệu suất trên các tác vụ của mang xã hội tiếng Việt trên các mô hìnhngôn ngữ đơn ngữ và đa ngữ tiên tiến trước đây ma không sử dụng các kỹ thuật tiền

xử lý Avg biểu thị điểm MF1 trung bình của mỗi mô hình ngôn ngữ : biểu thị rằng

kết quả cao nhất có ý nghĩa thống kê với p < 0.01 so với kết quả tốt thứ hai, sử dụng

kiểm định pair t-test.

Emotion Regconition: PhoBERT và TwHIN-BERT đạt được hiệu suất SOTA

trước đó trên các mô hình đơn ngữ và đa ngôn ngữ, tương ứng ViSoBERT đạt được

68.10%, 68.37%, và 65.88% lần lượt cho Acc, WF1, và MFI, cao hơn đáng kể so

với các mô hình PhoBERT và TwHIN-BERT này.

Hate Speech Detection: ViSoBERT đạt được những cải tiến đáng kể so với các

mô hình SOTA trước đó, PhoBERT và TwHIN-BERT, với các điểm số lần lượt là

88.51%, 88.31%, va 68.77% cho Acc, WFI, và MF1 Dang chú ý, những thành tựu

này đạt được mặc dù có sự thiên lệch trong bộ dữ liệu'.

'UIT-HSD bị mat cân đối lớn, bao gồm 19,886; 1,606; và 2,556 của các lớp CLEAN,

OFFEN-SIVE, và HATE.

39

Tiêu đề	ViSoBERT: Mô Hình Ngôn Ngữ Cho Tác Vụ Xử Lý Dữ Liệu Truyền Thông Xã Hội Tiếng Việt
Tác giả	Nguyễn Quốc Nam, Phan Châu Thắng
Người hướng dẫn	Giảng Viên Nguyễn Văn Kiệt, Giảng Viên Nguyễn Đức Vũ
Trường học	Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Cử Nhân Ngành Khoa Học Dữ Liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	82
Dung lượng	34,23 MB