Trong bài báo này, chúng tôi giới thiệu mô hình ngôn ngữ đơn ngữđầu tiên cho văn bản mạng xã hội tiếng Việt, ViSoBERT, được huấn luyện trước trên một tập dữ liệu quy mô lớn gồm các văn b
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRƯỜNG ĐẠI HOC CONG NGHỆ THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
NGUYEN QUOC NAM - 20520644
PHAN CHAU THANG - 20520929
VISOBERT: MO HINH NGON NGU CHO TAC VU XU LY DU LIEU
TRUYEN THONG XA HOI TIENG VIET
VISOBERT: A PRE-TRAINED LANGUAGE MODEL FOR VIETNAMESE
SOCIAL MEDIA TEXT PROCESING
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUGNG DAN
NGUYEN VAN KIET NGUYEN DUC VU
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Đầu tiên, nhóm chúng em xin được gửi lời cảm ơn chân thành đến Trường Đại
Hoc Công Nghệ Thông Tin, Khoa Khoa Học và Kỹ Thuật Thông Tin và nhóm
nghiên cứu NLP@UIT đã tạo điều kiện cho chúng em được học tập, rèn luyện để
hoàn thành khoá luận này Chúng em xin gửi lời cảm ơn sâu sắc nhất tới thầy Nguyễn
Văn Kiệt và thầy Nguyễn Đức Vũ đã chỉ dạy tận tình, thúc đẩy và xây dựng cho chúng
em những kiến thức nền tảng, cũng như các kỹ năng cần thiết để chúng em được học
tập, nghiên cứu và đặc biệt là có thể hoàn thành được công trình nghiên cứu này.
Ngoài ra, chúng em cũng xin được gửi lời cám ơn đến gia đình, bạn bè và người
thân Những người là động lực và chỗ dựa vững chắc cho chúng em trong quá trình
hoàn thiện công trình nghiên cứu này.
Trong quá trình thực hiện nghiên cứu, chúng em còn có những sai sót do kỹ năng,
kiến thức chuyên môn còn đang được hoàn thiện Vì vậy, chúng em rất mong nhậnđược sự quan tâm, đánh giá và ý kiến của thầy cô để chúng em rút được kinh nghiệm,
học hỏi thêm để hoàn thiện hơn bản thân, đáp ứng kỳ vọng của quý thầy cô.
Một lần nữa, chúng em xin chân thành cảm ơn!
Thanh phó Hồ Chí Minh, 07/2024
Nhóm tác giả
Nguyễn Quốc NamPhan Châu Thắng
Trang 3Mô hình ngôn ngữ cho dif liệu tiếng Việt
MHNN cho dữ liệu truyền thông xãhội
Các công trình nghiên cứu về Mạng Nơ-ron Tích chập Đồ thị
Mạng nơ-ron Tích chập Đồ thikéthop MHNN
Các công trình nghiên cứu về phương pháp cho tác vụ đữ liệu truyền
thông xAhOi 2 Ặ Q Q QQ Q QS Q
Một số phương pháp cho tác vụ dữ liệu truyền thông xã hội Việt Nam
Chương 3 ViSoBERT: mô hình ngôn ngữ cho tác vụ xử lý dữ liệu truyền
3.1
3.2
3.3
thông xa hội tiếng Việt
Dữ liệu huấn luyện cho mô hình ngôn ngữ ViSoBERT
Kiến trúc môhình
Tokenizer cho dữ liệu truyền thông xã hội Việt Nam
10 12
16
19
19
20 21 22 23
24 25
Trang 4MỤC LỤC
Chương 4 ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình
ngôn ngữ cho Khai thác dữ liệu mạng xã hội tiếng Việt 31
4.2 Mô-đun Mang no-ron Tích chập Đồ thi(GCN) 33
4.3 Mô hình ViSoGCN - 000 eee ee eee 34 Chương 5 Thử nghiệm và kết qua 37 5.1 Cài đặtthửnghệm Ặ.ẶẶẶ 37 5.1.1 Các tác vụ đánh giá 37
5.1.2 Finetunng Ặ Q Q Q Q Q Q en 37 5.1.3 Cacméhinhcosé Ặ.Ặ.ẶẶẶẶS 38 5.2 Kết quả thử nghiệm ViSoBERT 38
5.3 Kết quả thử nghiệm ViSoGCN 41
5.4 Phân tích kết quả và thảo luận ViSoBERT 42
5.4.1 Ảnh hưởng của Masking Rate trên các mô hình ngôn ngữ 43
5.4.2 Ảnh hưởng của các yếu tô của dữ liệu truyền thông xã hội Việt Nam trên các mô hình ngôn ngữ 44
54.21 AnhhuéngctaEmoji 44
5.4.2.2 Ảnhhưởng của Teencode 46
5.4.2.3 Ảnh hưởng của Dấu câu 47
5.4.3 Trích xuất đặc trưng giữa các mô hình ngôn ngữ 48
5.5 Phân tích kết quả và thảo luận ViSoGCN 49
5.5.1 Ảnh hưởng của tham số lambda(A) 49
5.5.2 Thử nghiệm độc lập 02 mô-dun của mô hình đề xuất 50
5.5.3 So sánh với các nghiên cứu trước đó 51
5.5.3.1 Cac nghiên cứu trước đó trên bộ dữ liệu UIT-VSMEC 51 5.5.3.2 Các nghiên cứu trước đó trên bộ dữ liệu UITHSD 52 5.5.3.3 Các nghiên cứu trước đó trên bộ dữ liệu SA-VLSP2016 53 5.5.3.4 Các nghiên cứu trước đó trên bộ dữ liệu ViSpamRe-VIEWS 22 ẶÃ <4 54 5.5.3.5 Các nghiên cứu trước đó trên bộ dữ liệu ViIHOS 55
Trang 5MỤC LỤC
Chương 6 Kết luận và Hướng pháp triển
Danh mục công trình của tác giả
Tài liệu tham khảo
Chương A Phụ lục mô hình ViSoBERT
A.1 Các kết quả tách từ của các MHNN trên các bình luận MXH thực tế
A.2 Các thông số thếtkếcủaTN
A.3 PLMs với các phương pháp tiền xử ly đữ liệu truyền thông xã hội
A.4 Trích xuất đặc trưng dựa trên MHNN cho BiLSTM và BiGRU
A.5 Cập nhật các spans mới cho tác vụ Hate Speech Span trong các kỹ
thuật tiền Xửlý ẶẶ.ẶẶ.o
A.6 Phân tách từ của các MHNN khi loại bỏ dau trong các bình luận trên
Chương B Phụ lục mô hình ViSoGCN
B.1 Ảnh hưởng của tham số lambda lên các MH kếthợp
57
58
74
75 75 75 75
76
78
79
81
Trang 6DANH MUC CAC BANG
Thống kê và mô ta các tác vụ xử ly dữ liệu mạng xã hội tiếng Việt
Các bình luận mạng xã hội thực tế và phân tách từ với bộ tách từ của
hai mô hình ngôn ngữ, ViSoBERT và PhoBERT .
Thông tin chi tiết về các mô hình cơ sở và mô hình ngôn ngữ của
chúng tôi Thông số #Layers, #Heads, #Batch, #Params, #Vocab,
#MSL, và CSMT lần lượt chỉ ra số lượng hidden units, attention heads, kích thước batch, dữ liệu đào tạo theo miền, tổng số tham
số, kích thước từ vựng, độ dài chuỗi tối đa, và tokenzer riêng biệt
dành cho DLMXH
Hiệu suất trên các tác vụ của mạng xã hội tiếng Việt trên các mô hìnhngôn ngữ đơn ngữ và đa ngữ tiên tiến trước đây mà không sử dụng
các kỹ thuật tiền xử lý Avg biểu thị điểm MFI trung bình của mỗi
mô hình ngôn ngữ : biểu thị rằng kết quả cao nhất có ý nghĩa thống
20
kê với p < 0.01 so với kết quả tốt thứ hai, sử dụng kiểm định pair t-test 39
Hiệu suất trên các tác vụ của mạng xã hội tiếng Việt trên các mô hìnhkết hợp giữa mô hình ngôn ngữ và mô-đun mạng nơ-ron tích chập đồthị (GCN) Avg biểu thị điểm MEI trung bình của mỗi mô hình kết
Hiệu suất của các mô hình ngôn ngữ trên các tác vụ của mạng xã hội
tiếng Việt khi áp dụng hai kỹ thuật tiền xử lý emoji [#®], [®], và[ @] lần lượt biểu thị ViSoBERT của chúng tôi khi chuyển đổi emojithành văn bản, loại bỏ emoji và không áp dụng bất kỳ kỹ thuật tiền
xử lý nao A biểu thi sự tăng (†) và giảm (|) hiệu suất của các mô hình ngôn ngữ so với các mô hình khác mà không áp dụng bất kỳ kỹ
Hiệu suất của các mô hình trên thử nghiệm độc lập của các mô-đun
Avg biểu thị điểm MFI trung bình của các mô hình .
Trang 7DANH MỤC CÁC BANG
5.6
5.8
5.9
Hiệu suất của các mô hình nghiên cứu trước đó trên bộ dữ liệu
UIT-Hiệu suất của các mô hình nghiên cứu trước đó trên bộ dữ liệu
Cài đặt siêu tham số cho quá trình training ViSOBERT
Hiệu suất của các MHNN trên các tác vụ của MXH TV khi áp dụng
các kỹ thuật tiền xử lý chuẩn hóa từ ngữ [#] và [ ® ] lần lượt biểu
thị với và không áp dụng kỹ thuật chuẩn hóa từ ngữ A biểu thị sự
tăng (†) và giảm (1) hiệu suất của các MHNN so với các kết quả của
chúng mà không chuẩn hóa teencode
Hiệu suất của các MHNN trên các tác vụ MXH TV khi loại bỏ dấutrong tat cả các tập dữ liệu [#], [@], [9], [>] và [® ] lần lượt biểuthị hiệu suất của các MH trước khi loại bỏ 100%, 75%, 50%, 25%
dấu trong mỗi bình luận và không loại bỏ dấu, tương ứng A biểu thị
sự tăng (†) và giảm (|) hiệu suất của các MHNN so với các kết quảcủa chúng mà không loại bỏ dấu
Hiệu suất của các MHNN làm đặc trưng đầu vào cho BiLSTM và
BiGRU trên các tác vụ MXHTV
Các bình luận MXH thực tế và phân tách từ của chúng với tokenizer
của ba MHNN, bao gồm PhoBERT, TwHIN-BERT và ViSoBERT,khi loại bỏ dấu trong các bình luận MXH
77
Trang 8DANH MUC CAC HINH ANH VA BIEU D
Kiến trúc của mô hình ViSoBERT 29
mô hình dé xuất ViSoGCN 32Quá trình biểu diễn đầu vào của mô hình ngôn ngữ ViSOBERT 33
Sơ đồ của lớp GCN trong ViSoGCN trong mô hình ViSoGCN 33
Ảnh hưởng của tỷ lệ che (masking rate) lên mô hình ViSoBERT 43
Độ dài token trung bình theo các tác vụ của các PLM 75
Hate Speech DetecHion ẶẶẶ 78 Sentiment Analysis 2 2 Ặ Q Q Q Q Q Q Q c 78 Spam Reviews Detection 78 Hate Speech Spans Detection 78
Hiệu suất của các MHNN làm đặc trưng đầu vào cho BiLSTM và
BiGRU trên tập phát triển theo từng epoch trên các tác vụ MXH TV.
Các phiên bản large của PhoBERT và TwHIN-BERT được triển khai
cho các TN này Q Q Q Q Q Q Q2 78
Ảnh hưởng của tham số lambda trên MH PhoBERT-GCN 81 Ảnh hưởng của tham số lambda trên MH TwHIN-BERT-GCN 81 Ảnh hưởng của tham số lambda trên MH ViSoGCN 81
Ảnh hưởng của tham số lambda (A) lên hiệu suất của các MH kết hợp
Trang 9DANH MỤC TU VIET TAT
Trang 10TÓM TẮT KHÓA LUẬN
Tiếng Anh và tiếng Trung, được biết đến là các ngôn ngữ có nguồn tài nguyên phong phú, đã chứng kiến sự phát triển mạnh mẽ của các mô hình ngôn ngữ dựa trên kiến trúc transformer cho các tác vụ xử lý ngôn ngữ tự nhiên Mặc dù Việt Nam có khoảng 100 triệu người nói tiếng Việt, một số mô hình được huấn luyện trước, vi dụ như PhoBERT, ViBERT và vELECTRA, đã thực hiện tốt các tác vụ
NLP tiếng Việt tổng quát, bao gồm gán thẻ từ loại và nhận diện thực thể có tên.Tuy nhiên, các mô hình ngôn ngữ này vẫn còn hạn chế đối với các tác vụ mạng xãhội tiếng Việt Trong bài báo này, chúng tôi giới thiệu mô hình ngôn ngữ đơn ngữđầu tiên cho văn bản mạng xã hội tiếng Việt, ViSoBERT, được huấn luyện trước
trên một tập dữ liệu quy mô lớn gồm các văn bản mạng xã hội tiếng Việt đa dạng
và chất lượng cao, sử dụng kiến trúc XLM-R Hơn nữa, chúng tôi đã thử nghiệm
mô hình được huấn luyện trước của mình trên năm tác vu hạ nguồn ngôn ngữ tựnhiên quan trọng trên văn bản mạng xã hội tiếng Việt: Emotion Recognition, Hate
Speech Detection, Sentiment Analysis, Spam Reviews Detection, va Hate Speech
Spans Detection Các thí nghiệm của chúng tôi cho thấy ViSoBERT, với ít tham
số hơn nhiều, vượt qua các mô hình hang đầu trước đó trên nhiều tác vụ mạng xã
hội tiếng Việt Mô hình ViSoBERT của chúng tôi được công bố' chỉ cho mục đích
nghiên cứu Ngoài ra, khoá luận cũng trình bày một phương pháp mới dựa trên mô
hình ngôn ngữ (ViSoBERT) và phương pháp dựa trên đồ thị (GCN) Cụ thể, phương
pháp được đề xuất, ViSoGCN, kết hợp sức mạnh của các biểu diễn ngữ cảnh hóavới khả năng của Mạng Convolutional Đồ thị để nắm bắt nhiều phụ thuộc cú pháp
và ngữ nghĩa hơn nhằm giải quyết các hạn chế đó Chúng tôi đã tiến hành các thí
nghiệm rộng rãi trên các tập dữ liệu tiêu chuẩn Việt Nam khác nhau để xác minh
phương pháp của mình Kết quả quan sát cho thấy việc áp dụng GCN vào các môhình BERTology làm lớp cuối cùng cải thiện đáng kể hiệu suất Hơn nữa, các thínghiệm chứng minh rằng ViSoGCN vượt trội hơn 12 mô hình cơ bản mạnh mẽ, bao
gồm các mô hình BERTology, mô hình kết hợp BERTology và GCN, các mô hình
cơ bản khác và các phương pháp tiên tiến trên ba tập dữ liệu mạng xã hội tiêu chuẩn
‘https: //huggingface.co/uitnlp/visobert
10
Trang 11DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
Phương pháp ViSoGCN được dé xuất của chúng tôi cho thấy sự cải thiện đáng kể sovới các mô hình ngôn ngữ hóa tốt nhất, bao gồm cả đa ngôn ngữ và đơn ngữ, trên
năm tác vụ của mạng xã hội Việt Nam Ngoài ra, mô hình tích hợp ViSoGCN của
chúng tôi đạt được hiệu suất tốt nhất so với các mô hình BERTology tích hợp với
GCN khác Nghiên cứu này nhấn mạnh hiệu quả của việc kết hợp mô hình ngôn
ngữ với mạng nơ-ron đồ thị trong việc giải quyết các van dé dữ liệu không cân bằng
và nhiễu trong phân loại văn bản mạng xã hội tiếng Việt ViSoGCN đã chứng minhđược hiệu suất vượt trội so với các phương pháp hiện có và mở ra tiềm năng ứng
dụng rộng rãi trong các nghiên cứu và ứng dụng thực tế.
II
Trang 122 ^
MO DAU
Dat van de:
Dưới tác động mạnh mẽ của cuộc cách mạng công nghiệp 4.0, su tiến bộ củacông nghệ đã tạo ra các biến chuyển sâu sắc trong nhiều lĩnh vực của đời sống xã
hội Đặc biệt, sự phát triển của các nền tảng mạng xã hội đã trở thành trọng tâm của giao tiếp hiện đại, không chỉ tạo ra những phương thức tương tác mới mà còn thúc
đẩy nhu cầu về việc phân tích và xử lý thông tin một cách nhanh chóng và chính xác.Công nghệ học sâu, với sự đột phá từ kiến trúc transformer, đã cho thấy tiềm năng
to lớn trong việc cải thiện các tác vụ NLP Tuy nhiên, mặc dù có sự phát triển vượt
trội này, việc áp dụng các như BERT và các biến thể của nó vào dữ liệu mạng xã hội
tiếng Việt vẫn còn nhiều hạn chế.
Tiếng Việt, mặc dù là một trong những ngôn ngữ được sử dụng rộng rãi trên cáctrang mạng xã hội, vẫn chưa được khai thác hết tiềm năng trong lĩnh vực NLP Phầnlớn các nghiên cứu và mô hình hiện tại chủ yếu tập trung vào tiếng Anh, để lại một
khoảng trống lớn trong việc phát triển công nghệ xử lý ngôn ngữ cho tiếng Việt.
Điều này đặc biệt trở nên phức tạp khi xử lý dữ liệu từ mạng xã hội, nơi mà ngôn
ngữ thường xuyên chứa đựng các yếu tố không chuẩn như từ lóng, lỗi chính tả, và
cách sử dụng biểu tượng cảm xúc khác biệt Các mô hình NLP truyền thống, khiđược áp dụng trực tiếp vào dữ liệu này, thường không đạt được hiệu suất tối ưu do
không thể hiểu và xử lý chính xác những đặc thù ngôn ngữ đa dạng này.
Ngoài ra, một trong những thách thức trong các tác vụ xử lý dữ liệu truyền thông
xã hội là dữ liệu mất cân bằng và nhiễu Dữ liệu truyền thông xã hội thường bị mắt
cân bằng nhãn, với một số chủ đề hoặc cảm xúc có số lượng dif liệu lớn hơn han
so với những chủ dé khác, điều nay dẫn đến việc các mô hình có xu hướng thiên vị
về phía những lớp dữ liệu có sẵn nhiều hơn Bên cạnh đó, sự hiện diện của các yếu
tố nhiễu như từ viết tắt, ngôn ngữ không chuẩn, hoặc cách sử dụng ngữ pháp lệch
chuẩn cũng gây khó khăn cho việc phân tích và hiểu ngữ nghĩa chính xác của văn
bản.
Hon nữa, việc thiếu hụt các BDL chất lượng cao và đa dạng, đặc biệt là cho tiếng
Việt, cũng là một rào cản không nhỏ Các BDL phong phú và phản ánh chính xác
12
Trang 13DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
các hiện tượng xã hội sẽ là chìa khóa để phát triển các mô hình NLP mạnh mẽ hơn.
Do đó, cần phải có những nỗ lực trong việc thu thập và chế tạo dữ liệu chuyên biệt
cho tiếng Việt, đặc biệt là từ các nền tảng mạng xã hội, để đào tạo các mô hình hiệu quả hơn Trong bối cảnh số hóa ngày càng tăng và sự phụ thuộc vào mạng xã hội
như một phần không thể thiếu của giao tiếp hàng ngày, nhu cầu về một hệ thốngNLP hiệu quả cho tiếng Việt trở nên cấp bách Việc phát triển các mô hình ngônngữ đặc thù cho tiếng Việt không chỉ cải thiện chất lượng xử lý ngôn ngữ trên mạng
xã hội mà còn hỗ trợ đắc lực cho các ứng dụng liên quan đến an ninh mạng, phân
tích thị trường, và tương tác xã hội.
Nhận thấy được sự tổn tại các van đề trên, khoá luận nay đề xuất 01 mô hìnhngôn ngữ riêng biệt cho xử lý dif liệu truyền thông xã hội cho tiếng Việt và 01 môhình mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình ngôn ngữ cho Khai thác dữ
liệu mạng xã hội tiếng Việt.
Mục tiêu khoá luận:
Trong khoá luận này, chúng tôi tập trung nghiên cứu các phương pháp để xây
dựng các mô hình để giải quyết các van dé của dữ liệu truyền thông xã hội tiếng
Việt Cụ thể, chúng tôi đặt ra từng mục tiêu như sau:
» Thực hiện khảo sát về các mô hình ngôn ngữ dựa trên kiến trúc transformer
cho các tác vụ xữ lý đữ liệu truyền thông xã hội Khảo sát này được kỳ vọnggiúp cho người đọc có một cái nhìn tổng quát về tác vụ dif liệu truyền thông
xã hội tiếng Việt và các phương pháp của những nghiên cứu trước đó.
* Chúng tôi giới thiệu mô hình ViSoBERT, một mô hình ngôn ngữ dựa trên kiến
trúc của XLM-R, được tối ưu hóa đặc biệt cho việc xử lý văn bản mạng xã hộitiếng Việt ViSoBERT được phát triển nhằm mục đích cải thiện hiệu quả xử lý
dữ liệu phức tạp trên các nền tang mạng xã hội, và hiện đã được công bố rộng rãi để hỗ trợ cộng đồng nghiên cứu trong việc khai thác và phân tích mạng xã
hội tiếng Việt Thêm vào đó, để phân tích kỹ lưỡng hơn về cách thức hoạt động
và hiệu quả của mô hình, chúng tôi đã tiến hành nghiên cứu sâu về quy trìnhhuấn luyện của ViSoBERT Chúng tôi đặc biệt tập trung vào các yếu tố đặctrưng của mang xã hội như emoji, teencode va dấu câu Dựa trên những phân
13
Trang 14DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
tích này, chúng tôi đã triển khai các phương pháp trích xuất đặc trưng dựa trên
từng tác vụ cụ thể, nhằm tối ưu hóa khả năng của ViSoBERT trong việc xử lý
và hiểu biết sâu sắc về ngôn ngữ mạng xã hội tiếng Việt
« Chúng tôi phát triển ViSoGCN, một mô hình mới cho phân loại văn bản tiếng
Việt, kết hợp hiệu quả giữa ViSoBERT, một mô hình ngôn ngữ tiên tiến, và Mạng Nơ-ron Tích chập Đồ thị (GCN) Mục tiêu chính là tăng cường khả năng phân loại và khai thác thông tin từ dữ liệu mạng xã hội tiếng Việt Hơn nữa, chúng tôi tiền hành các thử nghiệm sử dung hai phương pháp chính: BERTol-
ogy và sự kết hợp của BERTology với GCN Nghiên cứu cũng bao gồm mộtphân tích toàn diện về hiệu quả của việc tích hợp GCN với các mô hình họcsâu đã huấn luyện trước
Kết quả nghiên cứu:
Khoá luận của chúng tôi phát triển và giới thiệu hai mô hình, ViSoBERT và
ViSoGCN, tập trung vào việc xử lý và phân loại văn bản mạng xã hội tiếng Việt
một cách hiệu quả ViSoBERT, mô hình ngôn ngữ được xây dựng trên kiến trúccủa XLM-R, được huấn luyện để tối ưu hoá quá trình xử lý văn bản mạng xã hội
tiếng Việt ViSoBERT đã chứng minh hiệu quả qua việc đạt được hiệu suất hàng
đầu trong nhiều tác vụ liên quan đến mạng xã hội tiếng Việt, từ đó củng cố vị thé là
một công cụ mạnh mẽ cho các ứng dụng NLP mô hình này hiện đã được công khai
để hỗ trợ cộng đồng nghiên cứu trong việc khai thác dữ liệu mạng xã hội tiếng Việt
Bên cạnh đó, ViSoGCN là sự kết hợp giữa ViSoBERT và các mô-đun Mạng
Nơ-ron Tích chập Đồ thi (GCN), tạo ra một mô hình tích hợp mới nhằm mục đích
nâng cao khả năng phân loại văn bản trên nền tảng mạng xã hội ViSoGCN được
huấn luyện thông qua hai phương pháp chính: BERTology và tích hợp BERTology với GCN, trên một loạt các BDL tiêu chuẩn mô hình này đã cho thấy hiệu quả vượt trội so với các nghiên cứu trước đây và các mô hình tiên tiến khác như ViSoBERT
trong việc xử lý các thách thức như dữ liệu nhiễu và mất cân bằng trong các BDL
mạng xã hội.
Qua các thử nghiệm, chúng tôi đã phân tích kỹ lưỡng cách thức huấn luyện của
ViSoGCN, đặc biệt xem xét các đặc điểm khác biệt của mạng xã hội như sử dụng
14
Trang 15DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
emoji, teencode và dấu câu Kết quả từ việc triển khai trích xuất đặc trưng dựa trên
tính năng cho từng tác vụ cụ thể đã khẳng định tiềm năng và hiệu quả của GCN khi
kết hợp với các mô hình ngôn ngữ đã được huấn luyện sẵn.
Tổng kết lại, kết quả nghiên cứu của chúng tôi không chỉ cung cấp hai mô hình
học sâu mạnh mẽ cho cộng đồng NLP mà còn mở ra hướng đi mới trong việc ápdụng công nghệ học sâu để giải quyết các vấn đề phức tạp trong xử lý và phân loại
dữ liệu mạng xã hội tiếng Việt Điều này góp phần quan trọng vào sự tiến bộ của
công nghệ thông tin và kỹ thuật trong kỷ nguyên số, đặc biệt trong lĩnh vực trí tuệ
nhân tạo và xử lý ngôn ngữ tự nhiên.
Cấu trúc khoá luận: khoá luận của chúng tôi gồm 04 chương với các nội dungchính như sau:
* Chương 1: Tổng quan
Chương này cung cấp cái nhìn tổng quan về khoá luận.
» Chương 2: Các công trình nghiên cứu liên quan
Chương này cung cấp những thông tin về các công trình nghiên cứu liên quan đến mô hình ngôn ngữ, xử lý dữ liệu truyền thông xã hội tiếng Việt và mạng
nơ-ron tích chập đồ thị
* Chương 3: ViSoBERT: Mô hình ngôn ngữ cho tác vụ xử lý dữ liệu truyền
thông xã hội tiếng Việt
Chương này giới thiệu ViSoBERT, một mô hình ngôn ngữ mới dựa trên kiếntrúc Transformer, được thiết kế để xử lý và phân tích dif liệu mạng xã hội tiếng
Việt Trinh bày chi tiết về quá trình phát triển mô hình, bao gồm thiết kế, huấn luyện và tối ưu hóa, cùng với phân tích các thách thức ngôn ngữ đặc thù như sự
không chuẩn của ngôn từ, sử dụng biểu tượng cảm xúc và các yếu tố phi văn
bản khác.
* Chương 4: ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp mô hình
ngôn ngữ cho Khai thác dữ liệu mạng xã hội tiếng Việt
Giới thiệu và phân tích chi tiết về ViSoGCN, một mô hình tiên tiến kết hợp giữa mạng nơ-ron tích chập đồ thị (GCN) và mô hình để tăng cường khả năng
15
Trang 16DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
xử lý dữ liệu phức tạp trên mạng xã hội tiếng Việt Chương này mô tả quy trình
xây dựng mô hình, từ thiết kế đến huấn luyện, cũng như phương pháp tiếp cận
đã sử dụng để tích hợp GCN vào mô hình ngôn ngữ, giúp cải thiện đáng kể
hiệu quả xử lý dữ liệu và khả năng phân tích ngữ nghĩa.
* Chương 5: Thử nghiệm và kết quả
Chương này trình bày cách khoá luận cài đặt thử nghiệm, kết quả thử nghiệm
chính của 02 mô hình ViSoBERT và ViSoGCN, cũng như các phân tích kết
quả và thảo luận của 02 mô hình.
* Chương 6: Kết luận và Hướng phát triển
Tổng kết các kết quả đạt được của khoá luận và định hướng phát triển của khoá
luận trong tương lai.
16
Trang 17Chương 1 Tổng quan
Các mô hình ngôn ngữ dựa trên kiến trúc transformer [1] trên các bộ dif liệu quy
mô lớn đã tạo ra một sự thay đổi căn bản trong xử lý ngôn ngữ tự nhiên (NLP), định hình lại cách chúng ta phân tích, hiểu và tạo ra văn bản Đặc biệt, BERT [2] và các biến thể của nó [3, 4] đã đạt được hiệu suất hàng đầu trên một loạt các tác vụ NLP, bao gồm nhưng không giới hạn ở phân loại văn bản, phân tích cảm xúc, trả lời câu
hỏi và dịch máy Tiếng Anh đang tiến nhanh trong việc phát triển các mô hình ngônngữ trong các lĩnh vực cụ thể như y tế [5, 6], khoa học [7], pháp luật [S], xung đột
và bạo lực chính trị [9], và đặc biệt là mạng xã hội [10, 11, 12, 13].
Tiếng Việt là ngôn ngữ lớn thứ tám được sử dụng trên internet, với khoảng 85
triệu người dùng trên toàn thế giới Mặc dù có lượng lớn dữ liệu tiếng Việt có sẵn
trên Internet, sự tiến bộ của nghiên cứu NLP bằng tiếng Việt vẫn còn chậm Điều
này có thể được quy cho một sô yếu tố, chẳng hạn như tính phân tán của các bộ dữ
liệu có sẵn, tài liệu hạn chế và sự tham gia cộng đồng tối thiểu Hơn nữa, hầu hết các
mô hình hiện có cho tiếng Việt chủ yêu được huấn luyện trên các bộ dữ liệu quy mô
lớn được lấy từ văn bản chung [14, 15, 16] Mặc dù các nguồn này cung cấp phạm
vi ngôn ngữ rộng, chúng có thể không hoàn toàn đại diện cho các hiện tượng xã hội
học trong văn bản mạng xã hội tiếng Việt Văn bản mạng xã hội thường thể hiện
các mẫu ngôn ngữ khác nhau, sử dụng ngôn ngữ không chính thức, từ vựng không
chuẩn, thiếu dấu câu và emoji không phổ biến trong văn bản viết chính thức Nhữnghạn chế của việc sử dung các mô hình ngôn ngữ được huấn luyện trên bộ dữ liệuchung trở nên rõ ràng khi xử lý văn bản mạng xã hội tiếng Việt Các mô hình có thể
gap khó khăn trong việc hiểu và diễn giải chính xác ngôn ngữ không chính thức, sử
dụng emoji, teenghién cứuode và dấu câu trong các cuộc thảo luận trên mạng xã hội.
Điều này có thể dẫn đến hiệu suất không tối ưu trong các tác vụ mạng xã hội tiếngViệt, bao gồm Emotion Regconition, Hate Speech Detection, Sentiment Analysis,
Spam Reviews Detection và Hate Speech Spans Detection.
Chúng tôi giới thiệu ViSoBERT, một mô hình ngôn ngữ thiết kế đặc biệt cho văn
bản mạng xã hội tiếng Việt nhằm giải quyết những thách thức này ViSoBERT dựatrên kiến trúc transformer và được huấn luyện trên một bộ dữ liệu quy mô lớn gồm
‘https: //www.internetworldstats.com/stats3.htm
16
Trang 18CHƯƠNG 1 TONG QUAN
các bài viết va bình luận tiếng Việt được trích xuất từ các mang xã hội nổi tiếng, bao
gồm Facebook, Tiktok’, va YouTube` mô hình của chúng tôi vượt trội hơn các môhình hiện có trên các tác vụ khác nhau, bao gồm nhận diện cảm xúc, phát hiện lời
nói căm thù, phân tích cảm xúc, phát hiện đánh giá spam và phát hiện đoạn văn chứa
lời nói căm thù, chứng minh hiệu quả của nó trong việc nắm bắt các đặc điểm độcđáo của văn bản mạng xã hội tiếng Việt
Ngoài ra, chúng tôi đã đề xuất một mô hình phân loại văn bản tiếng Việt mới,
ViSoGCN, bằng cách huấn luyện chung mô hình ngôn ngữ được huấn luyện trước
quy mô lớn ViSoBERT và các mô-đun Mạng Nơ-ron Tích chập Đồ thị (GCN) để
đánh giá phân loại văn bản mạng xã hội hoặc khai thác mạng xã hội bằng tiếng Việt.Các TN khác nhau đã được tiến hành với hai PP: BERTology và mô hình Tích hợpcủa nó (BERTology Tích hợp với GCN), bao gồm mô hình tiên tiến của Việt Nam,
ViSoBERT, trên năm bộ dữ liệu chuẩn tiếng Việt So với mô hình tiên tiến của Việt
Nam, ViSoBERT và các nghiên cứu trước đó đã thực hiện trên các bộ dữ liệu, mô
hình tích hợp của chúng tôi, ViSoGCN, đạt được hiệu suất tốt hơn đáng kể Một khảo sát về các mô hình quy mô lớn đơn lẻ và tích hợp đã được thực hiện để chứng minh hiệu quả của GCN trên các mô hình ngôn ngữ được huấn luyện trước quy mô
lớn Ngoài ra, mô hình tích hợp của chúng tôi, ViSoGCN, đã thành công trong việc
giải quyết vấn đề dữ liệu nhiễu và mất cân bằng của các bộ dữ liệu mạng xã hội
Cuối cùng, huấn luyện chung các mô-đun BERTology và GCN đã cải thiện đáng kể
hiệu suất trên các tác vụ phân loại văn bản trong lĩnh vực xã hội tiếng Việt
Các đóng góp chính của khoá luận được tổng hợp như sau:
« Chúng tôi đã giới thiệu ViSoBERT, mô hình ngôn ngữ đầu tiên dựa trên kiến
trúc của mô hình XLM-R [4] và quy trình huấn luyện trước cho việc xử lý văn bản mạng xã hội tiếng Việt ViSoBERT có sẵn công khai cho các mục đích
nghiên cứu trong khai thác mạng xã hội tiếng Việt ViSoBERT có thể là một
cơ sở mạnh mẽ cho các tác vụ xử lý văn bản mạng xã hội tiếng Việt và các ứng
Trang 19CHƯƠNG 1 TONG QUAN
* ViSoBERT dat hiệu suất hàng đầu trên nhiều tác vu mang xã hội tiếng Việt,
minh họa tính hiệu quả của mô hình ngôn ngữ của chúng tôi trên văn bản mạng
xã hội tiếng Việt.
« Để hiểu sâu hơn về mô hình ngôn ngữ của chúng tôi, chúng tôi phân tích kết
quả thử nghiệm trên cách huấn luyện mô hình, xem xét các đặc điểm của mạng
xã hội, bao gồm emoji, teenghiên cứuode và dấu câu, và triển khai trích xuất
đặc trưng dựa trên tính năng cho các mô hình chuyên biệt theo tác vụ.
* Chúng tôi đã giới thiệu mô hình ViSoGCN bang cách tích hợp mô hình ngôn
ngữ ViSoBERT và mạng nơ-ron tích chập đồ thị GCN Mô hình ViSoGCN đạt
kết quả tốt nhất trên nhiều tác vụ mạng xã hội Việt Nam
18
Trang 20Chương 2 Các công trình nghiên cứu liên quan
2.1 Công trình nghiên cứu về các tác vụ xử lý dữ liệu truyền thông xã hội
tiếng Việt
Trong những năm gan đây, với sự phát triển mạnh mẽ của mang xã hội va các nền tang trực tuyến, nhu cau xử lý và phân tích dữ liệu ngôn ngữ tự nhiên trên các văn
bản mạng xã hội tiếng Việt ngày càng trở nên quan trọng Nhiều bộ dữ liệu đã được
phát triển để hỗ trợ các nghiên cứu và ứng dụng trong lĩnh vực này Dưới đây là một
số bộ dữ liệu quan trọng và phổ biến:
UIT-VSMEC: bộ dữ liệu này, được đề xuất bởi Ho và các cộng sự [17], là bộ dữ
liệu đầu tiên dành cho việc nhận diện cảm xúc trên văn bản mạng xã hội tiếng Việt.
Với 6.927 câu được gán nhãn cảm xúc, bộ dữ liệu này cung cấp một cơ sở vững chắccho các nghiên cứu về cảm xúc trong ngữ cảnh tiếng Việt Để đảm bảo tính nhấtquán và chính xác cao, [17] đã xây dựng một hướng dẫn chú thích rất mạch lạc và
kỹ lưỡng Bộ dữ liệu này đã được công khai và sẵn có cho mục đích nghiên cứu.
SA-VLSP2016: Phân tích cảm xúc là một nhiệm vụ trong xử lý ngôn ngữ tự
nhiên (NLP) nhằm nhận diện hoặc trích xuất nội dung cảm xúc của một đơn vị vănbản Nhiệm vụ nay đã trở thành một chủ dé nghiên cứu sôi động từ đầu những năm
2000 Trong hai lần tổ chức gần đây của chuỗi hội thảo VLSP, nhiệm vụ chung về
Phân tích Cảm xúc (SA) cho tiếng Việt đã được tổ chức nhằm cung cấp một thước
đo đánh giá khách quan về hiệu suất của các công cụ phân tích cảm xúc, khuyếnkhích sự phát triển của các hệ thống phân tích cảm xúc tiếng Việt, cũng như cung
cấp các bộ dif liệu chuẩn cho nhiệm vụ này [18].
UIT-HSD: Được phát triển để tự động phát hiện ngôn từ thù ghét trên mạng xã hội, bộ dữ liệu UIT-HSD [19] chứa hơn 30.000 bình luận Mỗi bình luận trong bộ
dữ liệu có một trong ba nhãn: CLEAN, OFFENSIVE, hoặc HATE Việc phân loại
này giúp nhận diện và quản lý các ngôn từ tiêu cực trên các nền tang trực tuyến.
ViSpamReviews: Các bài đánh giá của khách hàng đóng một vai trò thiết yếu
trong mua sắm trực tuyến Dé đối phó với van đề đánh giá rác, Dinh và các cộng
sự [20] đã đề xuất bộ dữ liệu ViSpamReviews bộ dữ liệu này bao gồm hai tác vụ
chính: phân loại nhị phân để phát hiện xem một đánh giá có phải là rác hay không
19
Trang 212.2 MÔ HÌNH NGON NGU CHO DU LIEU TIENG VIET
va phân loại đa lớp để xác định loại đánh giá rác Việc này giúp ngăn chặn các đánh
giá sai sự thật và bảo vệ người tiêu dùng trên các nền tảng thương mại điện tử
VIHOS: Sự gia tăng ngôn ngữ thù địch và xúc phạm trên mạng xã hội tạo ra
nhiều thách thức cho các nhà quản lý và hệ thống phân loại tự động Để giải quyết
van dé này, Hoang và các cộng sự [21] đã trình bày bộ dif liệu ViHOS (VietnameseHate and Offensive Spans), kho ngữ liệu đầu tiên được gán nhãn bởi con người, chứa
26.000 khoảng trên 11.000 bình luận bộ dữ liệu này hỗ trợ việc nghiên cứu và phát
triển các hệ thống phát hiện và quản lý ngôn ngữ thù địch hiệu quả hơn.
Bảng 2.1 thống kế chi tiết theo từng bộ dữ liệu đã được giới thiệu ở trên.
Dataset Tran Dev Test Task Evaluation Metrics | Classes UIT-VSMEC 5,548 686 693 | Emotion Recognition (ER) 7
UIT-HSD 24,048 2,672 6,680 | Hate Speech Detection (HSD) 3
SA-VLSP2016 5,100 - 1,050 | Sentiment Analysis (SA) Acc, WF1, MFI (%) 3
ViSpamReviews | 14,306 1,590 3,974 | Spam Reviews Detection (SRD) 4
ViHOS 8,844 1,106 1,106 | Hate Speech Spans Detection (HSSD) 3
Bảng 2.1 Thống kê và mô tả các tác vụ xử ly dữ liệu mang xã hội tiếng Việt
2.2 Mô hình ngôn ngữ cho dữ liệu tiếng Việt
Mô hình ngôn ngữ dựa trên kiến trúc transformers [1] đã trở thành một yếu tố quantrọng trong các tác vụ NLP tiên tiến, bao gồm phân loại văn bản và tạo ngôn ngữ tựnhiên Kể từ đó, các mô hình ngôn ngữ dựa trên transformers liên quan đến nghiên
cứu của chúng tôi đã được xem xét, bao gồm các mô hình ngôn ngữ cho văn bản mạng xã hội tiếng Việt.
Một số mô hình ngôn ngữ đã được phát triển gần đây để xử lý văn bản tiếng Việt.Các mô hình này có sự khác biệt về kiến trúc, dữ liệu huấn luyện và các độ đo đánh
giá PhoBERT, được phát triển bởi Nguyen và Tuan Nguyen [15], là mô hình ngôn ngữ được huấn luyện trên dif liệu văn bản đầu tiên dành cho tiếng Việt Mô hình
này sử dụng cùng kiến trúc tương tự với BERT [2] và cùng kỹ thuật huấn luyện của
RoBERTa [3] để đảm bảo hiệu suất mạnh mẽ và đáng tin cậy PhoBERT được huấn
luyện trên bộ dữ liệu Wikipedia có dung lượng 20GB, mang lại hiệu suất hàng đầu
trên một loạt các tác vụ như gán thẻ từ loại (POS tagging), phân tích phụ thuộc, nhận
diện thực thể có tên (NER), và suy luận ngôn ngữ tự nhiên (NL]).
20
Trang 222.3 MHNN CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI
Tiếp nối thành công của PhoBERT, viBERT [14] và vELECTRA [14], cả hai đều
là các mô hình ngôn ngữ được huấn luyện trước đơn ngữ dựa trên kiến trúc BERT và
ELECTRA, đã được giới thiệu Chúng được huấn luyện trên các bộ dif liệu lớn, với viBERT sử dụng bộ dữ liệu huấn luyện 10GB và vELECTRA sử dụng bộ dữ liệu lớn
hơn với 60GB văn bản tiếng Việt viBERT4news' được công bố bởi NIpHUST, một
phiên bản tiếng Việt của BERT được huấn luyện trên hơn 20GB dữ liệu tin tức Đối
với tác vụ tóm tắt văn bản tiếng Việt, BARTpho [22] được giới thiệu như là mô hình
seq2seq đơn ngữ quy mô lớn đầu tiên được huấn luyện cho tiếng Việt, dựa trên bộ
mã tự động giảm nhiễu seq2seq BART Hơn nữa, ViTS [23] được thiết kế dựa trên
kiến trúc encoder-decoder được đề xuất bởi Vaswani và các cộng sự [1] và T5 được
dé xuất bởi Raffel và các cộng sự [24] Nhiều mô hình ngôn ngữ được thiết kế cho
mục đích chung, trong khi sự sẵn có của các mô hình cơ sở mạnh cho các ứng dụng
theo lĩnh vực cụ thể vẫn còn hạn chê Để khắc phục hạn chế đó, Minh và các cộng
sự [25] đã giới thiệu ViHealthBERT, mô hình ngôn ngữ theo lĩnh vực đầu tiên cho chăm sóc sức khỏe tiếng Việt.
2.3 MHNN cho dữ liệu truyền thông xã hội
Nhiều mô hình ngôn ngữ đã được giới thiệu cho mạng xã hội bao gồm cả đa ngôn ngữ và đơn ngữ BERTweet [10] được trình bày là MHNN quy mô lớn đầu tiên
công khai cho các tweet tiếng Anh BERTweet có cùng kiến trúc với BERT pase [2]
và được huấn luyện sử dụng quy trình huấn luyện của RoBERTa [3] Koto và cáccộng sự [26] đã đề xuất IndoBERTweet, mô hình ngôn ngữ được huấn luyện với quy
mô lớn đầu tiên cho mạng xã hội Twitter ngôn ngữ Indonesia IndoBERTweet được
huấn luyện bằng cách mở rộng BERT tiếng Indonesia được huấn luyện đơn ngữ với
một từ vựng đặc thù theo lĩnh vực ROBERTuito, được giới thiệu trong Pérez và các
cộng sự [12], là một mô hình transformer mạnh mẽ được huấn luyện trên 500 triệu
tweet tiếng Tây Ban Nha RoBERTuito xuất sắc trong nhiều ngữ cảnh ngôn ngữ
khác nhau, bao gồm các tình huống đa ngôn ngữ và chuyển mã, như tiếng Tây Ban
Nha và tiếng Anh TWilBert [27] được dé xuất như là một mô hình chuyên biệt hóa của kiến trúc BERT cho cả ngôn ngữ tiếng Tây Ban Nha và lĩnh vực Twitter để giải
‘https: //github.com/bino282/bert4news
21
Trang 232.4 CÁC CÔNG TRÌNH NGHIÊN CỨU VỀ MẠNG NO-RON TÍCH CHAP DO THỊ
quyết các tác vụ phân loại văn bản trên Twitter tiếng Tây Ban Nha
Bernice, được giới thiệu bởi DeLucia và các cộng sự [11], là bộ mã hóa được
huấn luyện cho đa ngôn ngữ đầu tiên được thiết kế riêng cho dữ liệu Twitter Mô hình này sử dụng một bộ tokenizer tùy chỉnh được huấn luyện hoàn toàn trên dữ liệu
Twitter và kết hợp một lượng dữ liệu Twitter lớn hơn (2.5 ty tweet) so với hầu hết các
mô hình kiểu BERT Zhang va các cộng sự [13] đã giới thiệu TvHIN-BERT, một
mô hình đa ngôn ngữ được huấn luyện trên 7 tỷ tweet Twitter bằng hơn 100 ngônngữ khác nhau Nó được thiết kế để xử lý hiệu quả văn bản ngắn, nhiễu, do người
dùng tạo ra Trước đó, Barbieri và các cộng sự [28] đã mở rộng việc huấn luyện của
điểm kiểm tra XLM-R [4] sử dụng một bộ dữ liệu gồm 198 triệu tweet đa ngôn ngữ.
Kết quả là, XLM-T được điều chỉnh cho lĩnh vực Twitter nhưng không được huấnluyện độc quyền trên dữ liệu từ trong lĩnh vực đó
2.4 Các công trình nghiên cứu về Mạng Nơ-ron Tích chập Đồ thị
Gần đây, sự quan tâm đến Mạng Nơ-ron Đồ thi (Graph Neural Networks - GNNs)
đã tăng lên [29] Các ví dụ tiêu biểu của GNNs được dé xuất hiện nay bao gồm
Mang Convolutional Đồ thị (Graph Convolutional Networks - GCN) và các biến thể của nó, là một trong những mô hình học sâu trên đồ thị nổi bật nhất [30] Kipf va
Welling [31] đã trình bày một thuật toán với GCN cho phân loại nút bán giám sát và
đạt được kết quả phân loại tiên tiến trên một số bộ dữ liệu mạng Kể từ đó, GCN đã
được sử dụng trong nhiều ứng dụng khác nhau, chẳng hạn như các nhiệm vụ dự đoán
(32, 33, 34, 35, 36], nhiệm vụ gợi ý [37, 38], và nhiệm vụ phân loại [39, 40, 41, 42] Đặc biệt trong lĩnh vực NLP, GCN đã thành công trong việc khám phá các nhiệm
vụ NLP như gán nhãn vai trò ngữ nghĩa [43, 44], dịch máy [45, 46], trích xuất thông
tin [47, 48], trích xuất quan hệ [49, 50, 51], và phân loại văn bản Trong bối cảnh
phân loại văn bản, một số mô hình GCN đã được đề xuất, chang hạn như: Mở rộng
khung GCN sang môi trường cảm ứng gọi là GraphSAGE, cho phép nhúng hiệu quả
cho các nút chưa thấy trong [52] Chen và các cộng sự [53] đã trình bày FastGCN,
một cải tiến nhanh chóng của mô hình GCN để học các nhúng đồ thị FastGCN đạt được tăng tốc đáng kể so với các phương pháp huấn luyện GCN truyền thống trong
khi duy trì hiệu suất tương tự hoặc thậm chí tốt hơn trên một số bộ dữ liệu chuẩn
22
Trang 24một tập văn bản và giới thiệu mô hình được gọi là Mạng Convolutional Đồ thị Văn
ban (Text Graph Convolutional Networks - TextGCN) Mô hình nay sử dụng mạng
nơ-ron đồ thị để học đồng thời các nhúng từ và văn ban, va nó đã vượt trội hơn các
phương pháp tiên tiến hiện có trên nhiều bộ dữ liệu chuẩn
2.5 Mạng nơ-ron Tích chập Đồ thị kết hợp MHNN
Sau thành công của BERT, Mạng No-ron Đồ thị (Graph Neural Networks - GNNs)
và các biến thể của chúng, các nhà nghiên cứu đã đề xuất các mô hình mới bằng cách
kết hợp chúng lai Zhang và các cộng sự [58] đã đề xuất GRAPH-BERT Based BERT), dựa hoàn toàn vào cơ chế attention để học biểu diễn đồ thị mà không
(Graph-cần bat kỳ phép convolution hay aggregation nào Lu và các cộng sự [59] đã trình
bày mô hình VGCN-BERT, tích hợp kha năng của BERT với Mang Convolutional
Đồ thị Từ vựng (Vocabulary Graph Convolutional Network - VGCN) để nắm bắt
thông tin toàn cục về từ vựng ngôn ngữ Yang và Cui [60] đề xuất mô hình MạngNơ-ron Đồ thị Văn bản Nâng cao BERT (Bert-Enhanced text Graph Neural Network
- BEGNN), trong đó các đặc trưng văn bản được trích xuất bằng GNN, trong khicác đặc trưng ngữ nghĩa được trích xuất bằng BERT Lin và các cộng sự [61] đã
23
Trang 252.6 CÁC CÔNG TRÌNH NGHIÊN CỨU VỀ PHƯƠNG PHÁP CHO TÁC VỤ DỮ LIỆU
TRUYỀN THÔNG XÃ HỘI
giới thiệu Bert-GCN, kết hợp học transductive với việc huấn luyện trước mở rộng để
hoàn thành nhiệm vụ phân loại văn bản.
2.6 Các công trình nghiên cứu về phương pháp cho tác vụ dữ liệu truyền
thông xã hội
Trong phần này, chúng tôi đi sâu vào các nghiên cứu đáng chú ý về phân tích cảm
xúc và phân loại cảm xúc, mỗi nghiên cứu cung cấp những hiểu biết độc đáo và cácphương pháp sáng tạo để giải quyết các thách thức phức tạp trong việc hiểu và phânloại cảm xúc trong dif liệu văn bản mạng xã hội Ngoài ra, còn có nhiều công trìnhnghiên cứu về các khía cạnh khác của mạng xã hội [62, 63, 64]
Trong nghiên cứu của mình, Do và Choi [65] đã đề xuất một phương pháp xây
dựng tự động các từ điển cảm xúc phức tạp và đề xuất các đặc trưng nhằm nâng cao
hiệu quả của việc phân loại cảm xúc dựa trên máy học trong các văn bản Twitter
tiếng Hàn
Trong công trình của Ibrohim và Budi [66], một cuộc thăm dò toàn diện đã
được thực hiện về phân loại văn bản đa nhãn để phát hiện ngôn ngữ lăng mạ và
phát ngôn thù ghét trong Twitter tiếng Indonesia Họ sử dụng các bộ phân loại như
Support Vector Machine (SVM), Naive Bayes (NB), và Random Forest Decision
Tree (RFDT) kết hợp với các phương pháp chuyển đổi dữ liệu như Binary Relevance
(BR), Label Power-set (LP), và Classifier Chains (CC) Nghiên cứu cũng kết hợpcác kỹ thuật trích xuất đặc trưng, bao gồm tần suất thuật ngữ, chính tả, và đặc trưng
từ điển Kết quả thực nghiệm chỉ ra rằng bộ phân loại RFDT sử dụng LP là phương
pháp chuyển đổi đạt được độ chính xác cao nhất trong khi vẫn duy trì tốc độ tính
toán nhanh.
Trong phân tích cảm xúc, Zhou và các cộng sự [67] đã giới thiệu một phương pháp sáng tạo được gọi là mạng lưới cảm xúc (EmNet) Phương pháp này học cảm
xúc của câu và thích nghi động các từ điển cảm xúc để phù hợp với các sắc thái ngữ
cảnh cụ thể Những từ điển cảm xúc điều chỉnh động này tỏ ra rất hiệu quả trongviệc xử lý các từ có nhiều cảm xúc trong các ngữ cảnh khác nhau, cải thiện đáng kể
độ chính xác của việc phân loại Các tác giả đã xác nhận phương pháp của mình trên
hai kiến trúc phổ biến - LSTM và BERT, chứng minh sự vượt trội của nó trong việc
24
Trang 262.7 MỘT SỐ PHƯƠNG PHAP CHO TÁC VỤ DU LIEU TRUYEN THONG XÃ HỘI
VIỆT NAM
nhận diện cảm xúc trong Tweets Đáng chú ý, mô hình được đề xuất vượt trội so vớimột số phương pháp trước đó và thiết lập một tiêu chuẩn mới cho phân tích cảm xúc
trên Twitter.
Trong nghiên cứu của họ, Mustakim và các cộng su [68] đã trình bày một phương
pháp phân loại cảm xúc văn bản trong tiếng Tamil thành mười một loại khác nhau
Họ khám phá một loạt các mô hình máy học (Hồi quy Logistic, Cây Quyết định,
Naive Bayes Đa thức, Máy Vector Hỗ trợ), các mô hình học sâu (Mạng Nơ-ron Tích
chập, Mạng Bộ nhớ Dài Ngắn Hạn, Mạng Bộ nhớ Dài Ngắn Hạn Hai Chiều), và các
mô hình dựa trên transformer (Multilingual-BERT, XLM-R) Kết quả cho thấy mô
hình XLM-R vượt trội hơn tất cả các mô hình khác trong việc đạt hiệu suất tốt nhất
Hon nữa, trong bối cảnh diễn ngôn và ngữ cảnh dựa trên người nói, Zhang và cáccộng sự [69] đã giới thiệu Mạng Chú ý Đồ thị Kép (Dual Graph Attention Networks
- DualGATs) để đồng thời xem xét các khía cạnh bổ sung của cấu trúc diễn ngôn và
ngữ cảnh dựa trên người nói, nhằm đạt được nhận diện và phân loại cảm xúc (ERC)
chính xác hơn Họ đã thiết kế một module GAT nhận biết diễn ngôn (DisGAT) để
kết hợp thông tin cấu trúc bằng cách phân tích các phụ thuộc diễn ngôn giữa các
phát ngôn Kết quả thực nghiệm cho thấy DualGATs được đề xuất của họ vượt trội
so với các mô hình cơ sở tiên tiến trên phần lớn các bộ dữ liệu được sử dụng trong
nghiên cứu của họ.
2.7 Một số phương pháp cho tác vụ dữ liệu truyền thông xã hội Việt Nam
Gan đây, nhiều phương pháp tiên tiến đã xuất hiện trong lĩnh vực nghiên cứu mang
xã hội Trong nghiên cứu của Nguyen và các cộng sự [70], mô hình LSTM và
Dependency Tree-LSTM được giới thiệu và áp dung để phân tích bộ dữ liệu
UIT-VSFC Họ đã đề xuất một phương pháp kết hợp trạng thái ẩn cuối cùng của LSTM
với mô hình Dependency Tree-LSTM, sau đó sử dụng bộ phân loại SVM.
Trong khi đó, Nguyen và Van Nguyen [71] đã khám pha tác động của các kỹ
thuật tiền xử lý và phương pháp trích xuất key-clause của họ khi kết hợp với các mô
hình học máy để nhận diện cảm xúc trong văn bản mạng xã hội tiếng Việt nghiên cứu của họ đạt được Fl-score 64.40% trên bộ dữ liệu UIT-VSMEC đã được tiền
xử lý, sử dụng Hồi quy Logistic Đa thức với Bộ tao vector TF-IDF và trích xuất
25
Trang 272.7 MỘT SỐ PHƯƠNG PHAP CHO TÁC VỤ DU LIEU TRUYEN THONG XÃ HỘI
VIỆT NAM
key-clause.
Trong một hướng tiếp cận khác, Huynh và các cộng sự [72] đã dé xuất một bộ phân loại Tập hợp (Ensemble) đơn giản nhưng hiệu quả, kết hợp nhiều mô hình mạng nơ-ron khác nhau để nâng cao hiệu suất phân loại trên các bộ dữ liệu mạng xã
hội tiếng Việt Các thử nghiệm của họ đã xác định được các mô hình phù hợp cho
từng nhiệm vụ phân loại cụ thể và đề xuất một mô hình tập hợp bằng cách kết hợp
các mô hình có hiệu suất tốt nhất
Ngoài ra, trong công trình của Tran và các cộng sự [73], một kỹ thuật tiền xử lýhiệu quả đã được trình bày để làm sạch các bình luận thu thập từ mạng xã hội tiếng
Việt Họ cũng giới thiệu một mô hình phát hiện phát ngôn thù ghét (HSD) mới, kết
hợp mô hình PhoBERT đã được huấn luyện trước với mô hình Text-CNN cho cácnhiệm vụ ngôn ngữ tiếng Việt khác nhau Hơn nữa, họ đã áp dụng các kỹ thuật EDA
để giải quyết van đề dữ liệu không cân bằng, cuối cùng cải thiện hiệu suất của các
mô hình phân loại.
Trong một nghiên cứu khác, Doan và Luu [74] đã đề xuất một phương pháp kết
hợp từ điển cảm xúc với các mô hình phân loại để nâng cao độ chính xác của mô
hình Kết quả thực nghiệm của họ cho thấy việc tích hợp từ điển cảm xúc với các
mô hình phân loại đã cải thiện hiệu suất
26
Trang 28Chương 3 ViSoBERT: mô hình ngôn ngữ cho tac vụ xử lý dữ
liệu truyền thông xã hội tiếng Việt
Trong phan này, chúng tôi giới thiệu chi tiết cách huấn luyện mô hình ViSoBERT,bao gồm các phần như: Dữ liệu huấn luyện, kiến trúc của mô hình, cách xây dựng
tokenizer đặc thù cho dữ liệu truyền thông xã hội Việt Nam.
3.1 Dữ liệu huấn luyện cho mô hình ngôn ngữ ViSoBERT
Chúng tôi đã thu thập dữ liệu van bản từ các mang xã hội công khai của Việt Nam
như Facebook’, Tiktok”„ và YouTube” Day là ba mang xã hội nổi tiếng nhất ở Việt Nam, với lần lượt 52.65, 49.86, và 63.00 triệu người dùng” vào đầu năm 2023.
Để thu thập dữ liệu hiệu quả từ các nền tảng này, chúng tôi đã sử dụng các công
cụ chuyên biệt do mỗi nền tảng cung cấp
1 Facebook: Chúng tôi thu thập các bình luận từ các trang đã xác thực của Việt
Nam thông qua bài đăng trên Facebook sử dụng Facebook Graph APP từ tháng
1 năm 2016 đến tháng 12 năm 2022
2 TikTok: Chúng tôi thu thập các bình luận từ các kênh đã xác thực của Việt
Nam thông qua TikTok sử dung TikTok Research API’ từ tháng 1 năm 2020
đến tháng 12 năm 2022
3 YouTube: Chúng tôi thu thập các bình luận từ các video của các kênh đã xác
thực tại Việt Nam trên YouTube sử dụng YouTube Data API’ từ tháng 1 nam
2016 đến tháng 12 năm 2022.
Tiền xử lý dữ liệu huấn luyện cho mô hình ViSoBERT Tiền xử lý dữ liệu rất
quan trọng đối với các mô hình tiêu thụ dữ liệu từ mạng xã hội, vốn rất nhiễu loạn và
có chứa các tài khoản người dùng (@username), hashtags, emoji, lỗi chính tả, liên
Trang 293.3 TOKENIZER CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI VIỆT NAM
kết, và các văn bản không chuẩn khác Chúng tôi thực hiện các bước sau để làm sạch
BDL: loại bỏ văn bản không chuẩn, loại bỏ các bình luận chứa liên kết, loại bỏ các
bình luận spam lặp đi lặp lại và vô nghĩa, loại bỏ các bình luận chỉ chứa tài khoản
người dùng (@username), và giữ lại emoji trong dữ liệu huấn luyện.
Kết quả là, dữ liệu tiền huấn luyện của chúng tôi sau khi thu thập và tiền xử lýchứa 1GB văn bản chưa nén Dữ liệu tiền huấn luyện của chúng tôi đã được công
bô và nhăm phục vụ cho các mục đích nghiên cứu.
12 self-attention layers, 12 attention heads, và sử dung masked language objective,
tận dung các siêu tham số thành công từ XLM-R [4] Hình 3.1 thé hiện chi tiết kiến
trúc mô hình ViSoBERT.
3.3 Tokenizer cho dữ liệu truyền thông xã hội Việt Nam
Theo hiểu biết của chúng tôi, ViSoBERT là mô hình ngôn ngữ đầu tiên với một bộ
tokenizer tùy chỉnh cho các văn bản mạng xã hội tiếng Việt Bernice [11] là mô
hình đa ngôn ngữ đầu tiên được huấn luyện từ đầu trên dữ liệu Twitter’ với một bộ
tokenizer tùy chỉnh; tuy nhiên, bộ tokenizer cua Bernice không xử lý hiệu quả van
bản mạng xã hội tiếng Việt Hơn nữa, các bộ tokenizer của các mô hình hiện có cho tiếng Việt cũng hoạt động kém hiệu quả trên văn bản mạng xã hội do dữ liệu huấn
luyện thuộc các lĩnh vực khác nhau Do đó, chúng tôi đã phát triển bộ tokenizer tùy
chỉnh đầu tiên cho văn bản mạng xã hội tiếng Việt
Nhờ khả năng xử lý văn bản chưa được tiền xử lý của SentencePiece [77] mà
‘https: //twitter.com/
28
Trang 303.3 TOKENIZER CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI VIỆT NAM
Hình 3.1 Kiến trúc của mô hình ViSoBERT
không bị mat dữ liệu so với Byte-Pair Encoding [4], chúng tôi đã xây dựng một bộtokenizer tùy chỉnh trên văn bản mạng xã hội tiếng Việt bằng SentencePiece trên
toàn bộ BDL huấn luyện Một tokenzer của mô hình ngôn ngữ có khả năng bao phủ
dữ liệu tốt hơn khi can ứ từ con hơn để đại diện cho văn bản, và các từ con là đài
hơn [11] Hình A.1 (trong Phụ lục A.1) hiển thị độ dài token trung bình cho mỗi môhình và nhóm tác vụ được xem xét ViSoBERT đạt được các biểu diễn ngắn nhất
cho tất cả các tác vụ mạng xã hội tiếng Việt so với các mô hình ngôn ngữ khác
Emoji và teencode là quan trọng trong “ngôn ngữ” trên các nền tang mạng xã hội tiếng Việt Khả năng của bộ tokenizer tùy chỉnh của chúng tôi trong việc giải mã
emoji và teencode đảm bảo rằng ý nghĩa ngữ nghĩa và ý nghĩa ngữ cảnh của chúng
được nắm bắt chính xác và tích hợp vào biểu diễn ngôn ngữ, do đó nâng cao chấtlượng tổng thể và sự toàn diện của phân tích và hiểu văn bản.
Để đánh giá khả năng token hóa dif liệu văn bản mang xã hội tiếng Việt, chúngtôi đã tiến hành phân tích một số mẫu dữ liệu Bảng 3.1 hiển thị một số bình luậnmạng xã hội thực tế và cách chúng được token hóa với các bộ tokenizer của hai môhình ngôn ngữ được huấn luyện trước, ViSoBERT và PhoBERT, cơ sở mạnh nhất
29
Trang 313.3 TOKENIZER CHO DỮ LIỆU TRUYỀN THÔNG XÃ HỘI VIỆT NAM
Kết quả cho thấy bộ tokenizer tùy chỉnh của chúng tôi hoạt động tốt hơn so với các
bộ khác.
Bình luận và Tách từ
Bình luận: thằngngu này mày bị đầnđộn à ©@©
ViSoBERT: <s>, "thằng", "ngu", "này", "mày", "bị", "đần", "đ", "ộn", "a", @6@©,
</s>
PhoBERT: <s>, "th@@", "ằ@@", "ng@@", "ngu", "này", "mày", "bi",
"đầ@ @", "n@ @", "độn", "a", <unk>, <unk>, <unk>, </s>
Bình luận: cảm ơn bácnhiêunhá ®®
ViSoBERT: <s>,"cảm", "ơn", "bác", "nhiều", "nh", "4", @, &, </s>
PhoBERT: <s>, "cảm", "ơn", "bá@ @", "c@@", "nh@@", "iE@O", "U@@",
"nha", <unk>, <unk>, </s>
Bình luận: d4y 14 vj du cko mot cau teencode
ViSoBERT: <s>, "d", "4", "y", "I", "4", "vj", "du", "cko", "mot", "cau", "teen",
"code", </s>
PhoBERT: <s>, "d @ @", "4 @ @", "y", "| @ @", "4", "y @ @", "J", "du", "c
k @ @","o","mo @ @", "t","cau", "te @ @","en @ @", "code", </s>
Bảng 3.1 Các bình luận mạng xã hội thực tế và phân tách từ với bộ tách từ của hai
mô hình ngôn ngữ, ViSoBERT và PhoBERT.
30
Trang 32Chương 4 ViSoGCN: Mạng Nơ-ron Tích chập Đồ thị kết hợp
mô hình ngôn ngữ cho Khai thác dữ liệu mạng xã
hội tiếng Việt
Các mô hình ngôn ngữ như BERT đã cho thấy hiệu suất ấn tượng trong một loạt các tác vụ NLP, đặc biệt là trong các tác vụ yêu cầu hiểu sâu về ý nghĩa của ngôn
ngữ, chẳng hạn như phân loại văn bản, phân tích cảm xúc và nhận diện thực thể có
tên Lý do cho hiện tượng này là các mô hình ngôn ngữ có thể nắm bắt ý nghĩa ngữcảnh của các từ dựa trên các từ xung quanh, điều này rất quan trọng cho nhiều tác
vụ NLP Mặt khác, Mạng Nơ-ron Tích chập Đồ thị (GCN) là một loại mạng nơ-ron
đồ thị có thể xử lý dữ liệu có cấu trúc đồ thị, chang hạn như đồ thị phụ thuộc dựa
trên văn bản, thường được sử dung trong xử lý ngôn ngữ TV Ngoài ra, GCN phù
hợp hơn cho các tác vụ học bán giám sát nơi dữ liệu huấn luyện bị giới hạn và nhiễu.
Kết quả là, sự kết hợp giữa mô hình ngôn ngữ và GCN cho phép mô hình hóa tốt
hơn dữ liệu văn bản, nắm bắt các mối quan hệ phức tạp giữa các từ và câu trong một
tập hợp văn bản, dẫn đến hiệu suất được cải thiện hoặc đạt mức tiên tiến (SOTA)trên một loạt các tác vụ NLP Trong nghiên cứu này, chúng tôi đề xuất mô hình Tích
hợp ViSoGCN và đánh giá hiệu quả của nó trong xử lý MXH cho TV Kiến trúc
ViSoGCN bao gồm hai lớp, cụ thể là lớp ViSoBERT và lớp GCN Hình 4.1 trình
bày tổng quan về kiến trúc của PP đề xuất của chúng tôi.
4.1 Mô-đdun ViSoBERT
Các mô hình ngôn ngữ như BERT đã thể hiện hiệu suất ấn tượng trong nhiều tác vụ
xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là trong các tác vụ đòi hỏi hiểu sâu về ý
nghĩa của ngôn ngữ, chang hạn như phân loại văn bản, phân tích cảm xúc và nhận
dạng thực thể có tên Lý giải cho hiện tượng này là các mô hình có thể nắm bắt ý
nghĩa ngữ cảnh của các từ dựa trên các từ xung quanh, điều này rất quan trọng đối
với nhiều tác vụ NLP Mặt khác, Mạng tích chập đồ thị (GCN) là một loại mang
nơ-ron đồ thị có thể xử ly dif liệu có cấu trúc đồ thi, chang hạn như đồ thị phụ thuộc
dựa trên van bản, thường được sử dụng trong xử lý ngôn ngữ TV Ngoài ra, GCN
phù hợp hơn cho các tác vụ học bán giám sát, trong đó dữ liệu huấn luyện bị hạn chế
31
Trang 334.1 MÔ-ĐUN VISOBERT
Pretrained
ViSoBERT Graph Convolutional Networks
và nhiễu Do đó, sự kết hợp của mô hình ngôn ngữ và GCN cho phép mô hình hóa
Hình 4.1 mô hình đề xuất ViSoGCN
dữ liệu văn bản tốt hơn, nắm bắt các mối quan hệ phức tạp giữa các từ và câu trong
kho ngữ liệu văn bản, dẫn đến hiệu suất được cải thiện hoặc thể hiện hiệu suất caonhất (SOTA) trên nhiều tác vụ NLP Trong nghiên cứu này, chúng tôi dé xuất mô
hình tích hợp ViSoGCN và đánh giá hiệu quả của nó trong việc xử lý dữ liệu MXH
cho TV Kiến trúc ViSoGCN bao gồm hai lớp, cụ thể là lớp ViSoBERT và lớp GCN.
Hình 4.1 trình bày tổng quan về kiến trúc của PP dé xuất của chúng tôi
Trước hết, chúng tôi trình bày kiến trúc của ViSoBERT' ({78]) va cach mô hình
ViSoBERT hoạt động như là lớp đầu tiên trong PP được dé xuất của chúng tôi.ViSoBERT được lựa chọn vi nó được thiết kế đặc biệt cho các nhiệm vụ MXH TV,làm cho nó trở nên hiệu quả cao đối với các nhiệm vụ xử lý ngôn ngữ MXH TV
Kiến trúc ViSoBERT dựa trên XLM-R’, một mô hình nổi tiếng sử dụng mạng lưới
transformer để mã hóa văn bản đầu vào và tạo ra các biểu diễn chất lượng cao của
văn bản XLM-R, viết tắt của Cross-lingual Language Model-Robustly Optimized
BERT Approach, là một phiên bản cải tiến của BERT với khả năng xử lý đa ngôn
ngữ mạnh mẽ.
Mô hình XLM-R được thiết kế để học các biểu diễn ngữ cảnh của văn bản từ nhiều ngôn ngữ khác nhau, giúp nó trở thành một công cụ lý tưởng để xử lý văn bản trong các ngôn ngữ có tài nguyên hạn chế như TV ViSoBERT, dựa trên kiến trúc
này, đã được tinh chỉnh và tối ưu hóa thêm cho các nhiệm vụ cụ thể liên quan đến
ngữ cảnh MXH TV.
https: //huggingface.co/uitnlp/visobert
“https: / /huggingface.co/docs/transformers/en/model_ doc/xlm-roberta
32
Trang 344.2 MO-DUN MANG NƠ-RON TÍCH CHAP DO THI (GCN)
Input [CLS] Harry Maguire la một a tha gidi [SEP] Téi rat thích anh
Hình 4.2 Quá trình biểu diễn đầu vào của mô hình ngôn ngữ ViSoBERT
Đầu vào của các lớp này là văn bản được mã hóa thành các token, sau đó được
chuyển đổi thành các embedding sử dụng lớp embedding như minh họa trong Hình
4.2 Các embedding này sau đó được xử lý qua các khối transformer để tạo ra biểudiễn từ có ngữ cảnh Ngoài các lớp transformer, ViSoBERT còn bao gồm một lớptiền xử lý chịu trách nhiệm cho việc mã hóa token, phân đoạn câu và xử lý token
đặc biệt Trong nghiên cứu này, ViSoBERT chịu trách nhiệm xử lý văn bản đầu vào.
Nó nhận đầu vào là văn bản thô và áp dụng một chuỗi các lớp dựa trên transformer Điều này tạo ra một embedding có ngữ cảnh cho mỗi từ trong đầu vào Sau đó, các
embedding có ngữ cảnh này được đưa vào lớp GCN Đầu ra của lớp ViSoBERT đạidiện cho các embedding có ngữ cảnh cho mỗi từ trong đầu vào
Hình 4.3 Sơ đồ của lớp GCN trong ViSoGCN trong mô hình ViSoGCN
4.2 Mé-dun Mạng nơ-ron Tích chập Đồ thi (GCN)
Lớp thứ hai, lớp GCN, nhận đầu ra của mô-đun ViSoBERT, là một chuỗi các biểudiễn từ được ngữ cảnh hóa, làm đầu vào, và áp dụng các phép toán tích chập đồ thị
để tổng hợp thông tin từ các từ xung quanh trong một câu Cụ thể hơn, chúng tôi
33
Trang 354.3 MÔ HÌNH VISOGCN
tạo ra một đồ thị không đồng nhất bao gồm cả các nút tài liệu và các nút từ, theo mô
hình TextGCN' [57] Hình 4.3 trình bày sơ đồ tổng quan lớp GCN của mô hình tích
hợp của chúng tôi.
Để cung cấp một cái nhìn toàn diện hơn, lớp GCN trong PP của chúng tôi sử
dụng cây phân tích phụ thuộc của câu để tạo ra một biểu diễn đồ thị Trong đồ thịnày, các từ trong câu được biểu diễn dưới dạng các nút, và các mối quan hệ cú pháp
của chúng được nắm bắt dưới dạng các cạnh Trong mô hình ViSoGCN, đồ thị này
minh họa các mối quan hệ giữa các từ và câu trong một tài liệu văn bản nhất định
Để đi sâu hơn vào PP luận, chúng tôi thiết lập một đồ thị đa dạng bao gồm các
nút biểu diễn cả từ và toàn bộ tài liệu, lấy cảm hứng từ TextGCN [57] Để thiết lậpcác kết nối giữa các nút từ và tài liệu, chúng tôi sử dụng chỉ số tần suất từ ngữ-ngượctần suất tài liệu (TF-IDE), giúp xác định các liên kết giữa cặp từ ngữ-tài liệu Ngoài
ra, chúng tôi sử dụng thông tin tương hỗ điểm tích cực (PPMI) để thiết lập các kếtnối giữa các cặp từ ngữ Trọng số của một cạnh nối hai nút, được ký hiệu là i và j,
được định nghĩa như sau:
ViSoBERT chịu trách nhiệm thu nhận các biểu diễn tài liệu và xem chúng như các
biểu diễn đầu vào cho các nút tài liệu Các biểu diễn nút tài liệu này được biểu diễn
dưới dạng Xj € IR"“““, trong đó nage biểu thị số lượng các nút tài liệu, n0 „„„„ biểu
thị số lượng các nút từ (bao gồm cả huấn luyện và kiểm tra), và d biểu thị kích thướccủa các biểu diễn Do đó, ma trận ban đầu của các đặc trưng nút được hình thành
như sau:
‘https: //github.com/yao8839836/text gen
34
Trang 364.3 MÔ HÌNH VISOGCN
X= (4.2)
(Ndoct+Nword) Xd
Sau đó, X được đưa vào một loạt các lớp Mang No-ron Tích chập Đồ thi (GCN),
trong đó mỗi lớp tổng hợp thông tin từ các nút lân cận của mỗi nút để tinh chỉnh
biểu diễn của nó Cu thể hơn, ma trận đặc trưng đầu ra cho lớp GCN thứ i, ký hiệu
là LẺ), được tính toán như sau: nó bao gồm một hàm kích hoạt được ký hiệu là ƒ, sử
dụng ma trận kề đã được chuẩn hóa ký hiệu là 4, và bao gồm một ma trận trọng số
w e Rfri*4 cụ thể cho lớp đó Ma trận đặc trưng đầu vào ban đầu của mô hình được ký hiệu là 1° = x.
LẺ = s(AL Pw) (4.3)
Đầu ra của lớp GCN là một tập hợp các biểu diễn đã được cập nhật, biểu thị các
tương tác giữa các từ trong câu và được đưa qua một lớp kích hoạt softmax để thu
được các dự đoán cuối cùng, trong đó ø đại diện cho mô hình GCN:
Zocn = softmax(g(X, A)) (4.4)
Hon nữa, một bộ phân loại phụ trợ trên các biểu diễn BERT được thực hiện bằng
cách đưa trực tiếp các biểu diễn tài liệu (ký hiệu là X) vào một lớp dense với kích
hoạt softmax.
ZvisoBERT = softmax( WX) (4.5)
Dé kết hợp các biểu diễn đầu ra của các lớp ViSOBERT va GCN và dat được hiệu
suất phân loại tốt nhất, chúng tôi đề xuất sử dụng một siêu tham số \ để kiểm soát
sự đánh đổi giữa chúng trong phân loại cuối cùng Cụ thể, chúng tôi tính tổng có
trọng số của hai biểu diễn sử dụng phương trình sau:
Z = ÀZœcN + (1— À)ZvisoBERT (4.6)
trong đó Zgcn là biểu diễn đầu ra của lớp GCN và Zvisoperr là biểu diễn đầu ra
35
Trang 374.3 MÔ HÌNH VISOGCN
của lớp ViSoBERT Hàm softmax chuẩn hóa đầu ra và tạo ra xác suất lớp cho phân
loại văn bản Hơn nữa, các thử nghiệm toàn diện đã được thực hiện trên các BDL để xác định giá tri lambda tối ưu cho mô hình ViSoGCN trong Mục 5.5.1.
Data: Input features cls_feats, graph g, edge weights edge_weight, mixing factor
m, index idx
cls_logit — classi fier(cls_feats)
cls_pred — Softmaz(dim = 1)(cls_logit)
gcn_logit — GCN(g.ndata[’cls_feats’], g, g.edata[’edge_weight’])[idx |
gcn_pred — Softmazx(dim = 1)(gcn_logit)
pred (gcn_pred+ Ie-10) x \ + cls_pred x (1 — À)
Bằng cách kết hợp khả năng của các biểu diễn ngữ cảnh hóa của ViSoBERTvới khả năng của GCN trong việc nắm bắt các phụ thuộc cú pháp và ngữ nghĩa,
ViSoGCN có thể đạt được hiệu suất tốt hơn trong các tác vụ xử lý MXH, đặc biệt
là những tác vụ yêu cầu hiểu các mối quan hệ ngữ nghĩa giữa các từ Hơn nữa, mô hình ViSoGCN cũng có thể xử lý một phạm vi rộng hơn các đầu vào văn bản, bao
gồm các câu dài hơn và phức tạp hơn, nhờ khả năng nắm bắt ý nghĩa ngữ cảnh củacác từ và các phụ thuộc cú pháp và ngữ nghĩa giữa chúng Điều này làm cho nó trở
thành một công cụ cực kỳ hiệu quả cho các tác vụ xử lý ngôn ngữ tự nhiên, đặc biệt
là phân loại văn bản và các tác vụ xử lý MXH.
36
Trang 38Chương 5 Thử nghiệm và kết qua
5.1 Cai đặt thử nghiệm
Chúng tôi tích lũy gradient trong một bước để mô phỏng kích thước batch là 128.
Khi huấn luyện trước từ đầu, chúng tôi huấn luyện mô hình trong 1.2 triệu bước
trong 12 epoch Chúng tôi huấn luyện mô hình trong khoảng ba ngày trên 02 GPU
RTX4090 (24GB VRAM) Mỗi câu được token hóa và che động với xác suất bằng30% (được thử nghiệm chỉ tiết trong Mục 5.4.1 để tìm giá trị tối ưu) Chi tiết thêm
về siêu tham số và huấn luyện có thể được tìm thấy trong Bảng A.1 của Phụ lục A.2
5.1.1 Các tác vụ đánh giá
Để đánh giá ViSoBERT, chúng tôi đã sử dụng năm tập DLMXH TV có sẵn cho mục
đích nghiên cứu, như được tóm tắt trong Bảng 2.1 Các tác vụ bao gồm nhận diện
cảm xúc (UIT-VSMEC) [17], phát hiện lời nói căm thù (UIT-VIHSD) [19], phân tích cảm xúc (SA-VLSP2016) [18], phát hiện đánh giá spam (ViSpamReviews) [20], và
phát hiện đoạn văn chứa lời nói căm thù (UIT-VIHOS) [21].
5.1.2 Fine-tuning
Chúng tôi đã thực hiện tinh chỉnh thực nghiệm cho tất cả các mô hình ngôn ngữ bằng
cách sử dụng simpletransformers’ Quá trình tinh chỉnh của chúng tôi tuân theo các
quy trình chuẩn, hầu hết được nêu trong [2] Đối với tất cả các tác vụ đã đề cập ở trên, chúng tôi sử dụng kích thước batch là 40, độ dài token tối đa là 128, tốc độ học
là 2e-5, và tối ưu hóa AdamW [79] với epsilon là le-8 Chúng tôi đã thực hiện quá
trình huấn luyện 10 epoch và đánh giá các tác vụ bằng mô hình có hiệu suất tốt nhất
từ những epoch đó Hơn nữa, không áp dụng kỹ thuật tiền xử lý nào cho tất cả các
bộ dữ liệu để đánh giá khả năng xử lý văn bản chưa được tiền xử lý của mô hình
ngôn ngữ của chúng tôi.
‘https: //simpletransformers.ai/ (phién ban 0.63.11)
37
Trang 395.2 KET QUA THU NGHIỆM VISOBERT
» Mô hình ngôn ngữ đơn ngữ: viBERT [14] và VELECTRA [14] là các mô
hình ngôn ngữ cho TV dựa trên kiến trúc BERT va ELECTRA, tương ứng PhoBERT, dựa trên kiến trúc BERT và kĩ thuật huấn luyện của ROBERTa [15],
là mô hình ngôn ngữ đơn ngữ quy mô lớn đầu tiên cho TV; PhoBERT đạt đượchiệu suất hang đầu trong nhiều tác vụ NLP TV
¢ Mô hình ngôn ngữ đa ngôn ngữ: Nøoài ra, chúng tôi đã tích hợp hai mô
hình ngôn ngữ đa ngôn ngữ, mBERT [2] và XLM-R [4], được cho thấy có hiệu
suất cạnh tranh với các mô hình TV đơn ngữ XLM-R, một mô hình ngôn
ngữ đa ngôn ngữ được giới thiệu bởi Conneau và các cộng sự [4], đã được
huấn luyện trên 100 ngôn ngữ, trong đó có TV, sử dụng một bộ dữ liệu Clean CommonCrawl 2.5TB XLM-R mang lại những cải tiến đáng kể trong các tác
vụ khác nhau, vượt qua hiệu suất của các mô hình đa ngôn ngữ được phát hành
trước đó như mBERT [2] và XLM [80].
¢ Mô hình ngôn ngữ mang xã hội đa ngôn ngữ: Dé đảm bảo so sánh công
bằng với mô hình ngôn ngữ của chúng tôi, chúng tôi đã thực hiện thử nghiệmtrên nhiều mô hình ngôn ngữ mạng xã hội đa ngôn ngữ, bao gồm XLM-T [28],
TwHIN-BERT [13], va Bernice [11].
5.2 Kết qua thử nghiệm ViSoBERT
Bảng 5.2 hiển thị kết quả của ViSoBERT so với các kết qua cao nhất đã được báo cáo
trước đó trên các mô hình ngôn ngữ khác sử dụng cùng một thiết lập thực nghiệm
Rõ ràng là ViSoBERT của chúng tôi đạt được các kết quả hiệu suất mới hàng đầu
(SOTA) cho nhiều tác vụ mang xã hội tiếng Việt mà không cần bat kỳ kỹ thuật tiền
xử lý nào.
38
Trang 405.2 KET QUA THU NGHIỆM VISOBERT
Model #Layers #Heads #Steps #Batch Domain Data #Params #Vocab #MSL CSMT
viBERT [14] 12 12 - 16 Vietnamese News - 30K 256 No
vELECTRA [14] 12 3 - 16 NewsCorpus + OscarCorpus - 30K 256 No
PhoBERT ase [15] 12 12 540K 1024 ViWiki + ViNews 135M 64K 256 No
PhoBERT) arge [15] 24 16 108M 512 ViWiki + ViNews 370M 64K 256 No
mBERT [2] 12 12 1M 256 BookCorpus + EnWiki 110M 30K 512 No
XLM-Rgase [4] 12 12 1.5M 8192 CommonCrawl + Wiki 270M 250K 512 No
XLM-Rj arge [4] 24 16 1.5M 8192 CommonCrawl + Wiki 550M 250K 512 No
XLM-T [28] 12 12 - 8192 Multilingual Tweets - 250k 512 No
TWHIN-BERT ase [13] 12 12 500K 6K Multilingual Tweets 135M to278M 250K 128 No
TWHIN-BERTy arge [13] 24 16 500K 8K Multilingual Tweets 550M 250K 128 No
Bernice [11] 12 12 405K+ 8192 Multilingual Tweets 270M 250K 128 Yes
~ViSoBERT (Ours) | 12000 12 12M l2§ Vietnamesesocialmeda '9M —- ISK 512 Yes _
Bảng 5.1 Thông tin chỉ tiết về các mô hình cơ sở và mô hình ngôn ngữ của chúngtôi Thông số #Layers, #Heads, #Batch, #Params, #Vocab, #MSL, và CSMT lần lượt
chỉ ra số lượng hidden units, attention heads, kích thước batch, dữ liệu đào tạo theo
miền, tổng số tham số, kích thước từ vựng, độ dài chuỗi tối đa, và tokenzer riêngbiệt dành cho DLMXH.
Emotion Recognition Hate Speech Sentiment Analysis Spam Reviews Hate Speech Spans Model Avg Task Detection Task Task Detection Task Detection Task
Acc WF1 MFI | Acc WFI MEI | Acc WFI MFI | Acc WFI MFI | Acc WFI1 MFI viBERT 71.57 | 61.91 61.98 59.70 | 85.34 85.01 6207 | 74.85 74/73 74.73 | 89.93 89.79 76.80 | 90.42 90.45 84.55 vELECTRA 72.43 | 64.79 64.71 61.95 | 86.96 86.37 63.95 | 74.95 74.88 74.88 | 89.83 89.68 76.23 | 90.59 90.58 85.12
Bernice 72.49 | 64.21 6427 60.68 | 86.12 86.48 6432 | 74.57 74.90 74.90 | 90.22 90.21 76.89 | 90.48 90.06 85.67
-ViSoBERT 75.65 | 68.10 68.37 65.88' | 88.51 88.31 68.77 as T175 7175 | 90.99 90.92 79.06 | 91.62 91.57 86.80 —
Bảng 5.2 Hiệu suất trên các tác vụ của mang xã hội tiếng Việt trên các mô hìnhngôn ngữ đơn ngữ và đa ngữ tiên tiến trước đây ma không sử dụng các kỹ thuật tiền
xử lý Avg biểu thị điểm MF1 trung bình của mỗi mô hình ngôn ngữ : biểu thị rằng
kết quả cao nhất có ý nghĩa thống kê với p < 0.01 so với kết quả tốt thứ hai, sử dụng
kiểm định pair t-test.
Emotion Regconition: PhoBERT và TwHIN-BERT đạt được hiệu suất SOTA
trước đó trên các mô hình đơn ngữ và đa ngôn ngữ, tương ứng ViSoBERT đạt được
68.10%, 68.37%, và 65.88% lần lượt cho Acc, WF1, và MFI, cao hơn đáng kể so
với các mô hình PhoBERT và TwHIN-BERT này.
Hate Speech Detection: ViSoBERT đạt được những cải tiến đáng kể so với các
mô hình SOTA trước đó, PhoBERT và TwHIN-BERT, với các điểm số lần lượt là
88.51%, 88.31%, va 68.77% cho Acc, WFI, và MF1 Dang chú ý, những thành tựu
này đạt được mặc dù có sự thiên lệch trong bộ dữ liệu'.
'UIT-HSD bị mat cân đối lớn, bao gồm 19,886; 1,606; và 2,556 của các lớp CLEAN,
OFFEN-SIVE, và HATE.
39