Khóa luận tốt nghiệp Khoa học dữ liệu: Phân tích bình luận theo khía cạnh cảm xúc và chủ thể cho bình luận mạng xã hội trên tiếng Việt

Phân tích cảm xúc dựa trên khía cạnh ABSA đã được chú ý và có rất nhiều côngtrình nghiên cứu trên đề tài này được công bố nhưng rat ít đề tài dé ý tập trung vàoviệc trích xuất bộ tứ bao

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

Vg

TRAN HUYNH QUOC AN - 20520955

DANG THI THUY HONG - 20520523

KHOA LUAN TOT NGHIEP

PHAN TÍCH BÌNH LUẬN THEO KHÍA CANH CẢM XUC

VÀ CHỦ THE CHO BÌNH LUẬN MẠNG XÃ HỘI

TREN TIENG VIỆT.

NAMED ENTITY AND ASPECT-BASED SENTIMENT

ANALYSIS FOR VIETNAMESE SOCIAL MEDIA DATA.

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHI MINH, NAM 2024

Trang 2

LỜI CẢM ƠN

Khóa luận tốt nghiệp là cột mốc quan trọng, đánh dấu sự kết thúc hành trình

học tập tại trường đại học và mở ra một chặng đường mới đầy thử thách trong sự nghiệp của mỗi sinh viên Đối với em, quá trình thực hiện khóa luận này không chi là cơ hội dé áp dụng những kiến thức đã học vào thực tế

mà còn là dip dé em rèn luyện khả năng nghiên cứu, phân tích và giải quyết van đề.

Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy Đỗ Trọng Hợp, là một

có vẫn học tập cũng như là người thầy đã tận tình hỗ trợ em và các bạn từ lúc mới nhận lớp cho đến lúc thực hiện khóa luận tốt nghiệp này Thầy luôn

sẵn sàng đưa ra những lời khuyên, những hướng di giúp chúng em vượt qua

những khó khăn trong quá trình thực hiện khóa luận Bên cạnh đó, em xin

gửi lời cảm ơn chân thành và sâu sắc đến quý thầy cô giảng viên khoa Khoa học và Kỹ thuật Thông tin nói chung cũng như quý thầy cô trong trường nói riêng đã truyền đạt những kiến thức, kinh nghiệm quý báu và hỗ trợ đắc lực cho em trong thời gian đài học tập tại trường Và em cũng xin cảm ơn đến gia đình và bạn bè, những người đã luôn đồng hành cùng em trong suốt quá trình học tập và làm khóa luận tại trường Sự đồng hành của tất cả mọi người

là nguồn động lực to lớn giúp em tiếp tục tiến về phía trước.

Tuy em và bạn đã cô gang hết sức nhằm hoàn thiện khóa luận nảy một cách tốt nhất, chúng em cảm thấy bản thân mình vẫn còn nhiều hạn chế trong kiến thức lẫn kỹ năng Do đó việc khóa luận này tồn tại một số thiếu sót là

điều không thé tránh khỏi Em hy vọng rang em sẽ nhận được những ý kiến

đóng góp quý bau từ thầy/cô dé khóa luận này được chỉnh chu và hoàn thiện

nhất có thể.

Trang 3

Cuối cùng, em xin chúc quý thầy/cô luôn mạnh khỏe, hạnh phúc va gặt hái

nhiều thành công, và em mong những điều tốt đẹp nhất sẽ luôn sát cánh bên

moi người.

Trang 4

DANH MỤC TU VIET TẮTT - 22 2¿©+t2SE+EEE2EEE£EEEEEEESEEEEEEE2EEEEE2EErrkrrkrres 10

TÓM TAT KHÓA LUẬN - 2 2£+22+EE+EE£+EE+EEEEEEEEEEEEE2E12217121122121 2E rxe 1

"9052.0600 Ẽ 3

Đặt vấn đề z7 œxxf 3

Mục tiêu của khóa luận -EE E22 E322 1111113311111 51111 ce 5

Đối tượng và phạm Vi nghiên Cứu -¿- 2 2 2+E++E£+E££EE+E£EE£E£EE+EzErEerrerreree 5

Kết quả nghiên cứ :z¿¿ e . -c sex šv255X26c ce So HH HH 1111111111111 6

Hạn chế Án mam @z v 6

Cấu trúc của phần nội dung khóa luận 2 2 2£ £+££+E££E£+E£+E££EzEzzzzzez 7

CHƯƠNG I TONG QUAN DE TAL 5-52 52SSE‡ESE£EE‡EEEEEEEEEEEEEEEEEeEkrrrrkerxrei 8

1.1 _ Giới thiệu hệ thong o.cececccccccccccccsessessessesssssessessesscssessesussssssessssessessessecsesseeaes 8

1.2 GiGi thi@u V6 bai tOAN nmmaấảOỪỪỦ.E: 9

1.3 Tính ứng dung và đóng ØÓp .- - càng HH re, 10

1.4 Dong lực và thách thỨC - + 11x91 ng rry 12

CHƯƠNG II CÔNG TRÌNH LIEN QUAN 2-2-2 255£+£++£x+zxzzzsersez 13

2.1 _ Các nghiên cứu trên ngôn ngữ tiếng Anh - 2-2 + s2 s+szzxzxs+xez 13

2.2 _ Các nghiên cứu trên ngôn ngữ tiếng ViỆt -2- 2-52-5252 +EzEzrxrxez 17

2.3 Động lực nghiÊn CỨU - «+ 11k nh ng ng 20

Trang 5

CHUONG III XÂY DUNG BO DU LIEU - - ¿6 SE £EE‡EeEeEEeEeEerxerers 22

3.1 _ Sơ lược về bộ dữ liệu -¿- + ©5e+cE‡EEE 2 E21 2E1271 2112117121 re 22

3.2 Thu thập và tiền xử lý :- +5 St St 2S EE1211211211211211 1.1.1 xe 23

3.3 Cách gan nhãn và quy trình gán nhãn - - +55 + *+<**++sv++eexseexss 26

3.4 Đánh giá độ đồng thuận -¿- 22 +¿©2+22xt2EE2EEECEEEEEESrkrrrkrrrrrrrree 30

3.4.1 Cac độ đồng thuận được sử dụng - + +-c + sssseserseeeseee 30

3.4.2 Kết quả đánh giá độ đồng thuận -2-2¿©++c+++cx++zxezres 31

3.5 Tang cường bộ dữ liỆU - - 2c 2 3231321111111 1 1 1E ekrrkrrre 33

3.6 Phân tích bộ dữ liệu ¿- + +¿++£+EE+EEt2EEEEEEEECEEEEEEEEECEEEErkrrkrrrkervee 34

CHƯƠNG IV PHƯƠNG PHÁP TIẾP CAN -2-2¿-©5¿2cSz+cxevzxcersrreee 39

4.1 Phuong pháp Extract-Classify-ACOS cty 39

4.2 Mô hình cho phương pháp Extract-Classify-ACOS - -+2 41

CHƯƠNG V CAI ĐẶT THUC NGHIEM VA DANH GIA KET QUẢÁ 44

5.1 Cải đặt thực nghiỆm SG 11v rry 44 5.2 Độ đo đánh giá 2¿©2¿22E22EE2EE222122212231271E271.211211 21 re 45

5.3 Đánh giá kt quả -©2:+2t 2 2E12212211221221121121121 2111121 Eectxe 46

5.4 Pham na 49

CHƯƠNG VI THUC NGHIEM 0 cccsscsssessesssessesssessesssessessesssessessusssessecsuessesseesseeses 54

CHƯƠNG VII TONG KET VÀ ĐỊNH HƯỚNG TƯƠNG LAI - - 57

7.1 Tổng KẾt 2cc 2222k 22 2222212111211 re 57

7.2 Định hướng tương Ìa1 - c 1 13391 9 11 9 ng ng ng 57

TÀI LIEU THAM KHÁO - 5-52 St SE+E‡EEEE+EEEEEESEEEE+EEEEEESEEEEEEEEEEEEEEEEEESEEEkrkrrerree

Trang 6

Hình 5 Quy trình xây dựng bộ dữ liệu - - 5 1 SE E*ESeereeeererreree 23

Hình 6 Phân phối số lượng bình luận thu thập được từ các chương trình 24 Hình 7 Ví dụ về các cột nhãn trong quá trình gán nhãn 2-2 2 2 25+ 27

Hình 8 Một số ví dụ về bộ nhãn ACOS : 2¿225+vt2c2xvvrtrtrvrrrrrtrrrrrrree 29Hình 9 Quy trình gan nhãn và đánh giá độ đồng thuận - 2-5: 29Hình 10 Độ đồng thuận F1 Score và Kappa Score giữa 2 người gán nhãn qua các giai

Hình 14 Tỉ lệ các thuộc tinh của cột categorize và sentiMent -‹- 38

Hình 15 Kiến trúc phương pháp Extract-Classify-ACOS -2- 252552255: 40Hình 16 Số lượng nhãn dự đoán và nhãn thực TT 49

Hình 17 Dữ liệu trước khi dự đoán . - << SE 2211k ‡++2eEEkeeseeeeeesse 54 Hình 18 Dữ liệu sau khi được dự đoán oo cccecccccccesssceecesssseeeecessseeeeeessseeeeees 55

Hình 19 Kết qua dit liệu sau khi được chuyển đổi 2- 2 2+z+sz+sz+szzsz+z 55Hình 20 Kết quả được lưu trong file excel 2: 2©5++2x++£x++zx++zxrzrxzrxee 56

Trang 7

DANH MỤC BANG

Bảng 1 Tỷ lệ chủ thể, ý kiến ngầm và trực tiếp trong tập dữ liệu SemEval Restaurant

và tập dữ liệu Laptop Nguồn: Công trình của Cai và cộng sự [30] 16

Bang 2 Các ví dụ về mẫu dữ liệu trước và sau quá trình tiền xử lý 26

Bang 3 Một sô ví dụ vê sự khác nhau vê nhãn giữa người gan nhãn | và người gan

Bảng 4 Số lượng bình luận và số bộ ACOS trong bộ đữ liệu . - 36Bảng 5 Kết quả huấn luyện tác vụ ACOS trên mô hình BERT và các biến thể của mô

00185506 46

Bảng 6 Kết quả nghiên cứu của chúng tôi và kết quả một số nghiên cứu trước đó.48

Bang 7 Ma trận nhằm lẫn giữa nhãn dự đoán và nhãn thực tế thuộc tính Category 51 Bảng 8 Ma trận nhằm lẫn giữa nhãn dự đoán và nhãn thực tế thuộc tính Sentiment

Trang 8

DANH MỤC TU VIET TAT

STT | Từ viết tắt Ý nghĩa

1 ABSA Aspect-based sentiment analysis

2 AE Aspect Extraction

3 ABSC Aspect-Based Sentiment Classification

4 ABOE Aspect-Based Opinion Extraction

5 AOPE Aspect-Opinion Pair Extraction

6 ASPE Aspect-Sentiment Pair Extraction

7 ACSTE Aspect-Category-Sentiment Triple Extraction

8 AOSTE Aspect-Opinion-Sentiment Triple Extraction

9 ACOSQE pspect Category Opinion Sentiment Quadruple

10 ACD Aspect Category Detection

11 SPC Sentiment Polarity Classification

12 ACOS Aspect Category Opinion Sentiment

Trang 9

13 NER Named Entity Recognition

14 ViCTSD Vietnamese Clinical Text Sentiment Dataset

15 VSFC Vietnamese Students' Feedback Corpus

16 VIOCD Vietnamese Offensive Comment Detection Dataset

17 ViHSD Vietnamese Hate Speech Detection Dataset

23 XLM Cross-lingual Language Model - Robustly optimized

ROBERTA | BERT approach

24 ViBERT Vietnamese BERT

25 VELECTRA Vietnamese Efficiently Learning an Encoder that

Classifies Token Replacements Accurately

Trang 10

26 VisoBERT | Vietnamese Social Media BERT

27 NLP Natural Language Processing

28 ACC Accuracy

29 MLM Masked Language Modeling

30 NSP Next Sentence Prediction

Trang 11

TOM TAT KHÓA LUẬN

Trong thập kỷ qua, phân tích cảm xúc dựa trên khía cạnh (ABSA) đã phát triển nhanhchóng, cho thấy tiềm năng lớn trong nhiều lĩnh vực thực tiễn Tuy nhiên, các nghiêncứu hiện tại chủ yếu tập trung vao việc phân tích cam xúc từ các đoạn văn bản đơn

lẻ, mà ít chú ý đến việc khai thác ý kiến trong ngữ cảnh đối thoại Điều này đề lại mộtkhoảng trống lớn trong việc áp dụng ABSA vào các hội thoại thực tế, nơi mà thông

tin chi tiệt vê các khía cạnh, đôi tượng và cảm xúc có thê mang lại giá tri to lớn.

Trong các lĩnh vực như marketing, kinh tế, quản lý xã hội và giải tri, việc nắm bắtcác đối tượng, khía cạnh và cảm xúc được đề cập trong các bình luận của người dùng

là vô cùng quan trọng Nếu có thê tổng hợp và phân tích thông tin này một cách hiệuquả, các tổ chức và doanh nghiệp có thé hiểu rõ hơn về sự quan tâm của công chúng,

từ đó đưa ra các chiến lược và quyết định phù hợp Điều này không chỉ giúp nâng cao

hiệu quả quản lý mà còn tạo ra những trải nghiệm tốt hơn cho người dùng

Phân tích cảm xúc dựa trên khía cạnh (ABSA) đã được chú ý và có rất nhiều côngtrình nghiên cứu trên đề tài này được công bố nhưng rat ít đề tài dé ý tập trung vàoviệc trích xuất bộ tứ bao gồm bốn yếu tố cơ bản: đối tượng - khía cạnh - ý kiến - camxúc, đặc biệt là với các khía cạnh và ý kiến ngầm, các khía cạnh và ý kiến ngầm nàyrất quan trọng trong việc phân tích cảm xúc của bình luận Đây là một thách thức lớnnhưng cũng mở ra cơ hội dé cải thiện đáng ké các hệ thống phân tích cảm xúc hiệntại Việc phát triển một phương pháp toàn diện đề trích xuất thông tin cảm xúc từ hộithoại không chỉ là một bước tiến mới trong lĩnh vực ABSA mà còn có tính ứng dụng

cao trong nhiều lĩnh vực khác nhau

Trong đề tài này, chúng tôi tiễn hành thực hiện huấn luyện trên tác vụ phát hiện đối

tượng — khía cạnh — cam xúc — ý kiến trên bộ dữ liệu bao gồm các bình luận đượcchúng tôi tự thu thập từ các video giải trí trên nền tảng youtube Cùng với đó, chúngtôi thực nghiệm huấn luyện các mô hình transformer kết hợp áp dụng phương phápExtract-Classify-ACOS để trích xuất các nhãn cho bài toán Chúng tôi thu được kếtquả tốt nhất trên mô hình BERT-base-uncased với F1-score là 66,27%, precision là

Trang 12

75,09% và recall là 59,30% trong tập kiểm thử Bên cạnh đó, chúng tôi cũng tiếnhành phân tích lỗi nhằm cải thiện bộ đữ liệu sau này.

Trang 13

MO DAU

Dat van dé

Su phat triển mạnh mẽ của mạng xã hội đã tạo ra nhu cầu khai thác ý kiến của

người dùng trên nhiều lĩnh vực khác nhau Ví dụ, việc thu thập ý kiến về các sảnphẩm, khảo sát khách hàng về các vấn đề liên quan, hay phát hiện các cuộc công kích

cá nhân, các đối tượng và xu hướng được nhắc đến trong các cuộc trò chuyện trênmạng xã hội Các nhà quản lý hiện nay có xu hướng sử dụng các công cụ hệ thốnglắng nghe xã hội (social listening) dé nắm bắt ý kiến của người dùng Bên cạnh đó,khi tìm hiểu về van dé, bạo lực mạng, nhóm nhận thấy đây là van đề nóng hồi hiệnnay Đây là các hành vi như đăng tải thông tin xúc phạm, đe dọa, tan công trực tuyến,xâm phạm quyên riêng tư, và xúc phạm đến danh dự của người khác Các hành vinày không chỉ giới han ở việc gửi tin nhắn hoặc email đe doa mà còn có thé bao gồmviệc chia sẻ những bức ảnh hoặc video nhạy cảm mà không có sự đồng ý của ngườikhác, giả mạo danh tính dé bôi nhọ, hoặc lập các trang web, blog với mục đích phi

báng, làm nhục người khác Hơn nữa, những bình luận tiêu cực, lời nói ác ý trên các

diễn đàn công khai cũng là một phần của bạo lực mạng

Hiện nay, sự phát triển mạnh mẽ của mạng xã hội đã dẫn đến làn sóng bạo lực mạngtăng cao Những nền tảng như Facebook, Instagram, Twitter, TikTok đã trở thànhmôi trường lý tưởng để những kẻ bắt nạt ân danh thực hiện hành vi của mình màkhông sợ bị truy vết Đặc biệt, với số lượng trẻ dưới tuổi vị thành niên tiếp xúc sớm

với mạng xã hội ngày càng tăng cao, nguy cơ bị tác động bởi bạo lực mạng cũng tăng

theo Những trẻ em này, khi chưa có đủ khả năng dé tự bảo vệ mình hay nhận thứcđầy đủ về hậu quả của những hành động trên mạng, thường trở thành mục tiêu dễdàng của các kẻ bắt nạt Bạo lực mạng không chỉ gây ra những tác động tiêu cực vềmặt tâm lý cho nạn nhân, như lo âu, tram cảm, tự ti, mà còn có thé dẫn đến nhữnghậu quả nghiêm trọng hơn như tự tử Dưới đây là một ví dụ điển hình nhất cho van

đề này khi có rất nhiều hội nhóm xuất hiện trên mạng xã hội Facebook chi dé côngkích một em bé 2 tuổi

Trang 14

Online oe 41346

es) Thanh viên ẩn danh

giờ - IE

Xin chào mn hôm nay t cỏ lướt fb thi tinh cờ thay nhóm

này nên vào.T có một vài vấn dé ko hiểu và mong các b

giải thích giúp t

1.Pam là em bé 2+,còn chưa biết sử dụng mxh thì tại sao ¿

lại có antifan hay người ghen ghét nhỉ?

2.Không biết các b lập ra cái groups này đã đủ trưởng

thành chưa hay vẫn còn là học sinh mà còn di so đo với 1

em bé?

T cỏ doc emt thấy mn nói rằng do 1 số fan của bé gây

ết chưa war nên mn ghét,nghe có nực cười ko cơ chứ tổ 2 người

cãi nhau rồi di anti 1 đứa bé hay gì?

007 6 binh luận

viet/nam

feng tư - 2,3K thành viên - 6 bài

đọc - Mới tham gia

1Í thui hihi

Hình 1 Ví dụ về bao lực mạng xã hội

Hiểu rõ được van dé này, chúng tôi nhận thấy việc giải quyết bài toán phát hiện chủthé đối tượng và trích xuất ý kiến, cảm xúc khi nhac đến đối tượng là điều cần thiết.Nhóm tiến hành khảo sát các công trình nghiên cứu trên tiếng Việt, chúng tôi nhậnthấy, các đề tài nghiên cứu Phân tích cảm xúc dựa trên khía cạnh (ABSA) đã được

nghiên cứu rộng rãi, nhưng các nghiên cứu hiện tại không thé trích xuất hiệu qua

những yếu tổ mà chúng tôi mong muốn Bên cạnh đó, nhóm nhận thay ngoài những

ý kiến rõ ràng được thể hiện trong câu bình luận còn có những ý kiến ngầm ẩn ý đượcngười dùng thể hiện trong câu Các khía cạnh và ý kiến ngầm, tức là những yếu tốkhông được đề cập trực tiếp trong văn bản mà được suy ra từ ngữ cảnh hoặc từ cáchdiễn đạt gián tiếp của người dùng, lại càng ít được chú trọng trong các nghiên cứu

hiện tại.

Những hạn chế này đặt ra một thách thức lớn cho việc phát triển các hệ thống phântích cảm xúc tự động, vì việc không nhận diện được đầy đủ và chính xác các yếu tốngầm có thé dẫn đến những kết quả không chính xác hoặc không đầy đủ Chang hạn,trong một bài đánh giá về một nhà hàng, người dùng có thê không trực tiếp nói rằng

“dich vụ kém” mà thay vào đó là “chúng tôi phải chờ đợi rất lâu dé được phục vụ”

Trang 15

Nếu hệ thống phân tích không nhận diện được đây là một ý kiến tiêu cực về khía cạnhdịch vụ, kết quả phân tích sẽ thiếu sót.

Vì vậy, Khóa luận này tập trung vào việc nghiên cứu và phát triển một bộ dit liệu mớitrên tiếng việt và áp dụng các phương phương pháp mới dé trích xuất các tứ giác cảmxúc từ bình luận mạng xã hội, nhằm khắc phục những hạn chế hiện tại và nâng caotính hiệu quả của các ứng dụng ABSA Chúng tôi tin răng, với những đóng góp mới

mẻ và quan trọng, nghiên cứu này sẽ mở ra nhiều hướng đi mới cho cộng đồng nghiêncứu cũng như các ứng dụng thực tế trong nhiều lĩnh vực khác nhau

Mục tiêu của khóa luận

+ Xây dựng bộ dữ liệu bao gồm các bình luận tiếng Việt trên nền tảng mang xã

hội Youtube áp dụng cho bài toán ACOS.

+ Huấn luyện và thực nghiệm trên các mô hình học máy, học sâu, kết hợp áp

dụng các phương pháp dé trích xuất hiệu các nhãn và phân tích lỗi

+ Xây dựng mô hình dữ liệu lớn dé xử lý dữ liệu trực tuyến cho bài toán này

+ Trực quan hóa mô hình dữ liệu lớn dé tiện cho việc quản lý và xử lý dữ liệu

Đối tượng và phạm vi nghiên cứu

+ Đối tượng: Bài toán trích xuất đối tượng - khía cạnh - cảm xúc - ý kiến trên dữ

liệu bình luận mạng xã hội tiếng việt+ Phạm vi nghiên cứu: Nhóm tiễn hành xây dựng bộ dữ liệu bình luận mạng xã

hội tiếng việt và áp dụng phương pháp Extract-Classify-ACOS kết hợp các mô

hình transformer đê trích xuât các nhãn.

Trang 16

Kết quả nghiên cứu

+ Xây dựng bộ dit liệu mới bao gồm các bình luận tiếng Việt trên nền tảng mạng

xã hội Youtube Bên cạnh đó, tiễn hành phân tích và đánh giá bộ dữ liệu

Huấn luyện các mô hình transformer kết hợp thực nghiệm trên phương pháp

Extract-Classify-ACOS, phương pháp này mang lại tính hiệu quả cho mô hình

kỹ càng, tỉ mi và hiéu rõ về từng loại nhãn Hiện tai, chúng tôi chưa phát triển

được công cụ gán nhãn hiệu quả, và sự nhập nhăng về bộ nhãn đã kéo dài thời

gian gán nhãn hơn so với dự kiến.

Về phương pháp tiếp cận

Chúng tôi đã khảo sát trên mô hình transformer nhưng hiệu quả đạt được chưa

cao, kết quả thu được chưa đạt được độ chính xác cao Chúng tôi cũng chưathực hiện xử lý dữ liệu trực tuyến và chưa kết hợp các mô hình khác nhau déđạt kết quả tối ưu Hiện tại, Việt Nam chưa có nghiên cứu nào phát triển theohướng nay, dẫn đến những khó khăn về nguồn tài liệu tham khảo trên tiếng

Việt.

Trang 17

Câu trúc của phân nội dung khóa luận

Nội dung khóa luận bao gồm 6 chương và được trình bày qua từng chương theo cau

trúc sau:

- CHƯƠNG 1: TONG QUAN ĐÊ TÀI Giới thiệu tổng quan về nội dung nghiên

cứu, bao gồm: giới thiệu nghiên cứu, phát biểu bài toán, mục tiêu, và những

đóng góp chính của nghiên cứu.

- CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN Trình bày tông quan các bài

toán đọc hiểu tự động và các nghiên cứu liên quan đến bài toán được quan

tâm.

- CHƯƠNG 3: BO DU LIEU Trình bày về quy trình thu thập, xây dựng quy

trình và các quy tắc gán nhãn Kèm theo đó đưa ra một số phân tích trên bộ dữ

liệu

- CHƯƠNG 4: PHƯƠNG PHÁP NGHIÊN CỨU Trình bày về cách tiền xử lý,

hậu xử lý dữ liệu, các mô hình đọc hiểu tự động trên văn bản tiếng Việt

- CHƯƠNG 5: THỰC NGHIEM VÀ ĐÁNH GIÁ Chương này sẽ nói về cách

chúng tôi tiến hành thì nghiệm, quy trình thí nghiệm, phương pháp đánh giá

và phân tích một số lỗi trên bộ dữ liệu

- CHƯƠNG 6: KET LUẬN - HƯỚNG PHAT TRIÉN Phần cuối cùng sẽ tóm

tắt được những kết quả đã đạt được và của bài nghiên cứu, theo đó là nhữngphương hướng tiếp theo cho bài toán của chúng tôi

Trang 18

CHƯƠNG I TỎNG QUAN ĐÈ TÀI

1.1 Giới thiệu hệ thống

Nhóm tiến hành thu thập dữ liệu là bình luận tiếng Việt từ các video trên nền tang

mạng xã hội Youtube Các bình luận sau khi được thu thập sẽ được nhóm xử lý vàchọn lọc với nhiều tiêu chí Sau đó nhóm tiến hành xử lý dữ liệu, loại bỏ bớt những

bình luận spam, không liên quan và gán nhãn cho bộ dữ liệu - đây là công đoạn tốnthời gian và công sức nhiều nhất Song song với đó nhóm tiến hành tìm hiéu và thựcnghiệm 1 số mô hình, trên bộ dữ liệu này Cùng với đó nhóm cũng áp dụng phươngpháp Extract-Classify-ACOS với các mô hình đề tối ưu hóa kết quả trích xuất của các

mô hình Sau khi huấn luyện thực nghiệm nhóm tiến hành phân tích lỗi dựa trên kếtquả đánh giá và nhãn đầu ra của mô hình Dựa vào những kết quả phân tích nhómtiếp tục cải thiện thông số mô hình và các yêu tô khác dé tăng hiệu suất mô hình, cải

thiện nhãn đâu ra.

Trang 19

1.2 Giới thiệu về bài toán

Xác định bài toán: Quadruple ACOS Extraction

Trong khóa luận này, chúng tôi định nghĩa bốn yếu tố của nhiệm vụ trích xuất bộ tứACOS bao gồm: đối tượng (aspect), khía cạnh (category), ý kiến (opinion) và cảm

xúc (senitment) Trong đó:

+ Đối tượng (Aspect) chỉ một đối tượng được nhắc đến trong câu, thường là liên

quan đến tên riêng của con người hoặc các chủ thể đối tượng liên quan đến

chương trình, là một từ hoặc cụm từ trong văn bản.

+ Khia cạnh (Category) chỉ lĩnh vực liên quan đến đối tượng được đề cập đến

trong câu.

+ Ý kiến (Opinion) chi phát biểu chủ quan về một khía cạnh liên quan đến đối

tượng được đề cập đến trong câu

+ Cảm xúc (Sentiment) là cảm xúc của ý kiến về một khía cạnh liên quan đến

đối tượng được đề cập đến trong câu.

Nhiệm vụ trích xuất bộ tứ ACOS là nhiệm vụ trích xuất tập hợp các bộ tứ Đối tượng

- Khía cạnh - Ý kiến - Cảm xúc trong câu, một câu đánh giá thường chứa một hoặcnhiều bộ tứ Nhiệm vụ trích xuất bộ tứ ACOS không chỉ xác định bộ bốn yếu tố, màcòn kết hợp chúng thành một tập hợp các bộ bốn hợp lệ, đồng thời xem xét các khíacạnh/ý kiến ngầm, vì khía cạnh/ý kiến ngầm không được diễn đạt rõ ràng bằng từhoặc cụm từ Trong trường hợp trích xuất được khía cạnh ngầm chúng tôi đặt aspect

và opinion là NULL, sử dụng category để mô tả khía cạnh ngầm, và sử dụng

sentiment đê mô tả cảm xúc.

- Bai toán của chúng tôi gồm 4 nhiệm vụ chính:

- _ Nhận diện đối tượng (Aspect Detection)

- _ Nhận diện Danh mục khía cạnh (Category Detection).

- _ Trích xuất ý kiến (Opinion Extraction)

- Phan tích thái độ (Compliment Analysis).

Trang 20

Youtube Comment '

Do anh Thái rap quá đỉnh thôi , chứ bài hát | —Ì>

Đầu vào: Bình luận người dùng trên các video giải trí

Đầu ra:

+ Đối tượng: là các đối tượng nhắc đến trong bình luận: thường là tên

riêng hoặc liên quan đến những khía cạnh của chương trình

+ Các khía cạnh của bình luận dé cập, bao gồm: Appearance (Ngoại

hình) Characteristic (Tinh cách), Specialize (Chuyên môn),

Technical (Kỹ thuật hậu cần), Other (Khác).

+ Ý kiến: phát biểu chủ quan về một khía cạnh liên quan đến đối tượng

được đê cập đên trong câu

+ Thái độ của khía cạnh: Positive (tích cực), Negative (tiêu cực) va

Nó không chỉ giúp nhận diện các khía cạnh và cảm xúc mà còn phân loại chúng

theo các danh mục cụ thể và liên kết ý kiến với cảm xúc

Trong một số lĩnh vực liên quan đến thương mại điện tử, dịch vụ khách hàng,truyền thông quảng cáo hay quản lý khách sạn, nhà hàng Việc phân tích tríchxuất bộ tứ ACOS sẽ giúp hiểu rõ hơn về cảm xúc của khách hàng đối với từngasản phẩm hoặc dịch vụ trên từng khía cạnh cụ thé

10

Trang 21

+ Giúp phân tích các cuộc hội thoại và phản hồi từ khách hàng từ đó xác

định các vấn đề cụ thê và cải thiện chất lượng hỗ trợ Giúp các công tyhoặc doanh nghiệp cải thiện từ đây có tế tạo ra các chiến lược giúp cảithiện sản phẩm dựa trên phản hồi một cách cụ thể hơn Điều này giúpnâng cao sự hài lòng và trung thành của khách hàng, tối ưu hóa trảinghiệm đề đáp ứng tốt hơn nhu cầu và mong đợi của khách hàng

+ Bên cạnh đó, giúp các doanh nghiệp theo dõi và quản lý thương hiệu:

ACOS có thé được sử dụng dé theo dõi cảm xúc của khách hàng về

thương hiệu dựa trên những tâm tư của khách hàng bộc lộ qua bình luận

trên các nền tảng truyền thông mang xã hội, từ đó giúp quản lý danhtiếng thương hiệu hiệu quả hơn

+ Bằng cách phân tích chỉ tiết các phản hồi, ACOS giúp xác định và khắc

phục các van đề cụ thé trong dịch vụ khách hàng, giảm thiểu các lỗi và

sai sot.

+ Xác định các vấn dé cu thé: Nhờ vào ACOS, các nhà quản lý có thé

nhanh chóng phát hiện và giải quyết các van dé cụ thé mà khách hang

phản ánh, từ đó nâng cao sự hài lòng của khách hàng.

=> Như vậy, bài toán ACOS không chỉ giúp các doanh nghiệp và tô chức hiểu rõ hơn

về cảm nhận của khách hàng và người dùng mà còn cung cấp các thông tin chỉ tiết và

cụ thé dé cải thiện chất lượng sản phẩm, dịch vụ và chiến lược kinh doanh Điều này,

bên cạnh giúp hỗ trợ lợi ích kinh tế mà còn góp phần nâng cao trải nghiệm và sự hài

lòng của khách hàng.

11

Trang 22

1.4 Động lực và thách thức

Nghiên cứu về nhiệm vụ Trích Xuất Bốn Thành Phần Đối tượng-Khía Cạnh-Ý

Kiến-Cảm Xúc (ACOS) trong tiếng Anh đã được thực hiện và có nhiều công trình

đa dạng có thể tham khảo và áp dụng Nhu cầu và sự quan tâm đối với việc trích xuất

thông tin từ các đánh giá, phản hồi của người dùng đã thúc đây nhiều nhà nghiên cứu

phát triển các phương pháp và mô hình khác nhau Điều này tạo ra một kho tài liệu

phong phú, cung cấp nền tảng vững chắc cho việc nghiên cứu và phát trién thêm tronglĩnh vực này Bên cạnh đó, sự phong phú va đa dạng của dữ liệu tiếng Anh cũng mở

ra nhiều cơ hội để kiểm thử và cải thiện các mô hình trích xuất thông tin, đặc biệt làtrong việc hiéu và phân tích các khía cạnh khác nhau của ngôn ngữ tự nhiên

Mặt khác, tuy bài toán trích xuất bộ tứ ACOS trên bộ dữ liệu tiếng Việt quá nhiềunhãn thách thức quá trình gán nhãn và đánh giá, bộ dữ liệu đa nhãn khiến quá trìnhthực nghiệm gặp khá nhiều khó khăn và nhãn đầu ra chưa đạt được độ chính xác cao

trong quá trình Bên cạnh đó, bộ dữ liệu được nhóm thu thập từ các đánh giá mang

xu hướng là ngôn ngữ mạng xã hội, ngôn ngữ này đang dần phong phú và đa dạng

hơn, đa số đều không đúng cau trúc ngữ pháp của tiếng Việt, chứa nhiều teencode, từngữ chuyên nghĩa và biểu tượng cảm xúc Cùng với đó, ngôn ngữ trong câu khôngthống nhất, có nhiều loại ngôn ngữ được viết đan xen nhau Theo xu hướng hiện nay,giới trẻ thường hay sử dụng những từ ngữ bị biến đổi đi ít nhiều so với ngôn ngữ

chuan Với sự biến đối này khiến cho đội ngũ gan nhãn gặp nhiều khó khăn trong

việc đọc và phân tích nội dung hay ân ý của các phản hồi và tiêu tốn rất nhiều thờigian cho trong việc xử lý những điểm dữ liệu này

12

Trang 23

CHUONG II CONG TRINH LIEN QUAN

2.1 Các nghiên cứu trên ngôn ngữ tiếng Anh

về nghiên cứu: Phân tích cảm xúc dựa trên khía cạnh (ABSA) là một bài toán nhận

được khá nhiều sự chú ý, nhiệm vụ quan trọng nhằm trích xuất đối tượng là đối tượng

hoặc khía cạnh (gọi chung là khía cạnh) và trích xuất ý kiến mô tả khía cạnh

đó Trong thập kỷ qua, nhiệm vụ ABSA đã thu hút sự chú ý rộng rãi từ cả giới học

thuật và công nghiệp, từ việc trích xuất từng yêu tố đơn lẻ đến việc trích xuất nhiềuyếu tô Hình 3 minh họa tám nhiệm vụ ABSA tiêu biểu, bao gồm AE, ABSC, ABOE,

AOPE, ASPE, ACSTE, AOSTE, ACOSQE, v.v

Binh luận (R): Chúc mirng 2T nha, cũng may là không phải

Rider võ địch.

-—= —==—=—=—=~=

31-CI-01-SỊ: 2T-OTHER-Chiie mirng-Positive

' 343-Ca-02-S+: Rider-S PECIAIZE-NULL-Negative

*#

Task Input Output

Aspect Extraction (42) R fa1,a2}

Aspect-Based Sentiment Classification R,aj sự

(455C) Ra) y

Aspect-Based Opinion Extraction (450) Nai fo;

Aspect-Opinion Pair Extraction (4 OPE) ) R {a;-0;}

Aspect-Sentiment Pair Extraction (4SPE) R {aj-81,47-53

Aspect-Category-Sentiment Triple Extraction R {@)-C)-Sj,

(ACSTE) đ2-C2-S3Ÿ

1 Triple Extraction R fa¡-01-Sj}

Aspect-Category-Opinion-Sentiment R {@j-C]-07-S},

Quadruple Extraction (4COSQE) 13-C3-07-53}

Hình 4 Một số tác vu ABSA tiêu biéu

Có nhiều nghiên cứu thực hiện trên các tác vụ ABSA khác nhau và được phân loạidựa trên các yêu tố được trích xuất như: trích xuất đồng thời khía cạnh-ý kiến (Wang

13

Trang 24

và cộng sự., 2016a [1], 2017 [2]; Yu và cộng sự., 2018 [3]; Li và cộng sự., 2018 [4];

Dai và Song, 2019 [5]), trích xuất cặp khía cạnh-ý kiến (Chen và cộng sự., 2020 [6];Zhao và cộng sự., 2020 [7]; Gao va cộng sự., 2021 [8]), trích xuất cặp khía cạnh-cảm

xúc (He và cộng sự., 2019 [9]; Li và cộng sự., 2019 [10]), trích xuất cặp danh mục

khía cạnh -cảm xúc (Hu và cộng sự., 2019 [9]; Cai và cộng sự., 2020 [11]), trích xuất

bộ ba khía canh-y kiến-cảm xúc (Peng và cộng su., 2020 [12]; Wu và cộng sự., 2020

[13][13]; Xu và cộng su., 2020 [14]; Mao và cộng sự., 2021 [15]; Yan và cộng sự.,

2021 [16]), trích xuất bộ ba khía cạnh-danh mục khía cạnh - cảm xúc (Wan va cộngsự., 2020 [17]), và trích xuất bộ bốn khía cạnh-danh mục khía cạnh -y kiến-cảm xúc

(Cai và cộng sự., 2021 [18]; Zhang và cộng sự., 2021a [19]; Bao và cộng sự., 2022 [20]: Mao và cộng sự., 2022 [21]; Xiong va cộng sự., 2023 [22]).

Cùng sự phát triển nhanh chóng của của các nền tảng mua sắm trực tuyến hiện nay,phân tích cảm xúc đã thu hút sự quan tâm của các cộng đồng học thuật và doanhnghiệp Bang cách phân tích các câu đánh giá của khách hàng, giúp quản lý thương

hiệu tốt hơn, giúp nâng cao chất lượng sản phâm từ đó đáp ứng nhu cầu của ngườitiêu dùng và nâng cao sự công nhận của họ Nói chung, cảm xúc được chia thành cảm

xúc rõ ràng và ngầm đối với các câu Gần đây, phân tích cảm xúc ngầm đã thu hút sựchú ý lớn từ cộng đồng học thuật Không giống như phân tích cảm xúc rõ ràng, tháchthức lớn nhất của phân tích cảm xúc ngầm là không có các từ thể hiện cảm xúc cố

định để dùng cho việc huấn luyện trích xuất cảm xúc Do đó, các phương pháp phân

tích cảm xúc dựa trên các từ ngữ cảm xúc không còn phù hợp cho phân tích cảm xúc

ngầm trong câu nữa Nếu một câu chứa các từ ngữ biểu lộ cảm xúc, thì đó là câu cócảm xúc rõ ràng Ngược lại, đó là câu có cảm xúc ngầm Chúng tôi nhận thấy việctrích xuất các cảm xúc ngầm trong câu sẽ giúp cải thiện độ chính xác và hiệu quả khithực hiện bài toán phân tích cảm xúc Tuy vậy, hầu hết các công trình hiện tại chỉtrích xuất các khía cạnh và ý kiến rõ ràng nhưng hoàn toàn bỏ qua những yếu tổ ngầmkhông xuất hiện trong văn bản Trên thực tế, các đánh giá sản phẩm chứa một lượnglớn các khía cạnh và ý kiến ngầm Một số nghiên cứu hiện này cũng đã đề xuất các

phương pháp đê phát hiện các cảm xúc rõ rang và cảm xúc ngâm trong câu Chang

14

Trang 25

hạn như, Li và cộng sự [26] đã đề xuất một đơn vị hồi quy cảm xúc hai chiều để xử

ly thông tin ngữ cảnh cho cảm xúc trong cuộc hội thoại Zhao và cộng sự [25] đã tích hợp thông tin cảm xúc a priori vào mô hình ngôn ngữ của họ Mô hình của họ đạt

được hiệu suất tốt trên một vài bộ đữ liệu Do đó, phân tích cảm xúc rõ rang và ngầm

có các ứng dụng thiết yếu trong đời sống thực Một số ít công trình nghiên cứu kháccũng đã xem xét trích xuất các khía cạnh ngầm (Cai và cộng sự., 2020 [11]; Wan và

cộng sự., 2020 [I7]; Zhang và cộng sự., 2021b,a [19] [23]: Mao và cộng sự., 2022

[21]), các ý kiến ngầm (Setiowati và cộng sự., 2022 [24]), hoặc cả hai (Cai và cộng

su., 2021 [18]; Xiong và cộng sự., 2023 [22]) Đặc biệt, nghiên cứu của Cai và cộng

sự (2021) [18] lần đầu tiên cố gắng trích xuất đồng thời các khía cạnh và ý kiếnngầm, vì các đánh giá văn bản thực tế thường chứa một lượng lớn các khía cạnh và ý

kiên ngâm.

Wei và cộng sự [27] đã sử dụng cơ chế chú ý trực giao dé tích hợp từ điển cảm xúcbên ngoài vào cơ chế chú ý Phương pháp của họ chú ý trực giao đến các cảm xúckhác nhau của câu Hiệu suất của phương pháp này tốt hơn so với các mô hình kháctrong tập dữ liệu SMP2019 Liao và cộng sự [28] đã trích xuất các đặc trưng ở mức

từ, câu, và văn bản trong văn bản Họ đã đề xuất một mạng nơ-ron tích chập dựa trêncây phụ thuộc cú pháp đề xử lý các nhiệm vụ phân loại cảm xúc ngầm dựa trên thực

tế Kauter và cộng sự [29] đã chú ý đến cả các biểu hiện rõ ràng và ngầm trong câu

va sử dụng biểu diễn chi tiết dé thé hiện cảm xúc của một chủ dé cụ thé Li và cộng

sự [26] đã giới thiệu kiến thức ngoại vi lớn dé nghién cuu cam xuc ngam dua trénkhía cạnh Dựa trên các biểu diễn văn ban tập trung vào sự kiện, Zhou va cộng sự[25] đã suy luận các cực cảm xúc của các câu cảm xúc ngầm Li và cộng sự đã ápdụng thông tin rõ ràng và ngầm đề thu thập thông tin ngữ cảnh rõ ràng và ngầm

15

Trang 26

Bảng 1 Tỷ lệ chủ thé, ý kiến ngầm và trực tiếp trong tập dữ liệu SemEval

Khia cạnh rõ rang va Y kién ngam 12,38% | 27,55%

Khia canh ngamva Y kién ngam 14,83% | 8,24%

Bảng 1 tóm tắt tỷ lệ phan trăm của các khía cạnh và ý kiến ngầm trong tập dữ liệuSemEval Restaurant và tập dit liệu Laptop mới của chúng tôi Ta có thé thay rằng gần

44% các câu đánh giá chứa các khía cạnh hoặc ý kiến ngầm trong lĩnh vực Laptop,

và tỷ lệ phần trăm của các câu chứa cả khía cạnh và ý kiến ngầm cũng vượt quá 8%.Các tỷ lệ phần trăm tương tự cũng được quan sát thấy trong lĩnh vực Nhà hàng [30]

¢ _ Về dữ liệu: Các bộ dữ liệu tiêu chuẩn hiện tại cho tác vụ này chủ yếu là các bộ

dữ liệu tiếng anh Chang hạn như hai bộ dữ liệu Restaurant-ACOS và

Laptop-ACOS Trong đó, bộ dữ liệu Restaurant-ACOS được phát triển dựa trên bộ dữ

liệu Restaurant của cuộc thi SemEval 2016 (Pontiki và cộng sự., 2016 [31])

và bộ mở rộng của bộ dữ liệu này (Fan va cộng sự., 2019 [32]; Xu và cộng su.,

2020 [14]); bộ dữ liệu Laptop-ACOS là bộ dữ liệu về Laptop mới được thu

thập từ nên tang Amazon vào năm 2017 và 2018, gồm 10 loại laptop với nhiều

nhãn hiệu như ASUS, acer, Samsung, Lenovo, MBP, MSI Nó chứa 4,076 bình luận, lớn hơn bộ dir liệu SemEval Laptop Tuy nhiên, Cai và cộng sự [18]

nhận thấy với các nghiên cứu hiện tại chủ yếu được thực hiện và đánh giá trênhai bộ dữ từ các lĩnh vực Restaurant và Laptop, việc huấn luyện các mô hình

học sâu với hàng triệu tham sô trên các bộ dữ liệu quy mô nhỏ như vậy có

16

Trang 27

nguy cơ dẫn đến hiện tượng over-fitting Bên cạnh đó, theo thống kê của tác

giả (Cai và cộng sự, 2021 [18]), khoảng 40% các câu đánh giá chứa các khía

cạnh hoặc ý kiến ngầm Những khía cạnh hoặc ý kiến ngầm như vậy xuất hiệnthường xuyên trong các đánh giá sản phẩm và rất quan trọng cho ABSA, tuy

nhiên, thường bị bỏ qua trong cả nghiên cứu và ứng dụng Vi vậy, Cai và cộng

sự [18] đã đề xuất một bộ dữ liệu ACOS mới bao gồm năm lĩnh vực: Book(Sách), Clothing (Quần áo), Hotel (Khách sạn), Restaurant (Nhà hàng) vàLaptop (Máy tính) Bộ dữ liệu chứa gần 20.000 câu đánh giá, lớn gấp bốn đến

năm lần so với các bộ dữ liệu ABSA của SemEval trước đây Ngoài ra, nó

được chú thích với gần 30.000 bộ tứ ACOS, hỗ trợ nhiệm vụ trích xuất bộ bốnKhia cạnh-Danh muc-Y kién-Cam xúc (ACOS), nhăm trích xuất tat cả các bộbốn khía cạnh-danh muc-y kiến-cảm xúc với cả các khía cạnh va ý kiến rõrang và ngầm trong một đánh giá Ngoài ra, có thé ké đến bộ dữ liệu Multi-

Element Multi-Domain dataset (MEMD) [49] của Cai và cộng sự, bộ dữ liệu

gồm bốn yếu tố trên năm lĩnh vực với gần 20.000 câu bình luận và 30.000 bộbốn ACOS với các khía cạnh và ý kiến trực tiếp cũng như ẩn ý Đây là bộ dữliệu chất lượng và đa dạng trên ngôn ngữ tiếng Anh phục vụ cho bài toán

ACOS.

2.2 Các nghiên cứu trên ngôn ngữ tiếng Việt

Khi khảo sát trên ngôn ngữ tiêng việt, những năm gân đây, có một sô bộ dữ liệu chuân

nghiên cứu về ABSA (Aspect-Based Sentiment Analysis) cho ngôn ngữ tiếng Việtđược công bố, chăng hạn (Nguyen và cộng sự [33], Thuy và cộng sự [34], Nguyen

và cộng sự [35], Thuy và cộng sự [36]) Nghiên cứu của Nguyen và cộng sự [33] là nghiên cứu đâu tiên công bô các bộ dữ liệu chuân cho cộng đông nghiên cứu về van

đề ABSA, có cùng định dạng với nhiệm vụ chia sẻ SemEval 2016 [37] Các bộ dữ

liệu của họ được gan nhãn ở mức độ câu và được chia thành các tập huân luyện — tập

kiểm thử - tập kiểm tra cho lĩnh vực khách sạn và nhà hàng Các bộ dữ liệu này rất

17

Trang 28

thách thức do sự khác biệt giữa tập huấn luyện và tập kiểm thử liên quan đến số lượng

mẫu và độ dài của các đánh giá Sau đó, Thuy và cộng sự [34] cũng trình bày một bộ

dữ liệu được gán nhãn thủ công ở mức độ câu cho nhiệm vụ ACD với 6.472 câu

(3.796 câu bằng tiếng Việt và 2.676 câu bằng tiếng Anh) cho lĩnh vực nhà hàng Tiếptheo, Thuy và cộng sự [36] tiếp tục gán nhãn nhiệm vụ SPC cho bộ dữ liệu này vàkết hợp với bộ dữ liệu tiếng Anh được dịch [37] cho bộ dit liệu cuối cùng Tương tự,

Nguyen và cộng sự [35] cũng trình bày một bộ dữ liệu ở mức độ tài liệu cho ABSA

với hai nhiệm vu: ACD va SPC cho các đánh giá nha hàng So với các bộ dữ liệu khác, bộ dữ liệu của họ được gán nhãn với 7 danh mục khía cạnh và 5 cực cảm xúc.

Bên cạnh đó, cũng có bộ dữ liệu VLSP 2016, 2018 - bộ dữ liệu về nhận diện đối

tượng (NER), phân loại văn ban, va phân tích tình cảm hay bộ dữ liệu UIT-VSFC

(Vietnamese Students' Feedback Corpus) [38] - chứa phan hồi của sinh viên về cáckhóa học, sử dụng cho phân tích tình cảm và phân loại văn bản Ngoài ra, có một số

bộ dữ liệu phục vụ cho tác vụ đặc trưng như UIT-ViOCD (Vietnamese Offensive

Comment Detection Dataset) [39] là bộ dữ liệu được xây dựng dé phuc vu cho baitoán phát hiện các bình luận tan công, xúc phạm trên các nền tảng trực tuyến tiếng

Việt Bộ dữ liệu này bao gồm các bình luận từ mạng xã hội và diễn đàn trực tuyến,

được gắn nhãn thủ công đề phân loại giữa bình luận tấn công (offensive) và bình luậnkhông tan công (non-offensive) Hoặc là bộ dữ liệu UIT-ViHSD (Vietnamese HateSpeech Detection Dataset) [40] được xây dựng dé phát hiện các phát ngôn thù ghét(hate speech) trong các bình luận tiếng Việt Bộ dữ liệu này chứa các bình luận đượcthu thập từ các nền tảng mạng xã hội và được gan nhãn thành các loại phát ngôn thù

ghét (hate speech) và không phải phát ngôn thù ghét (non-hate speech).

Mặc dù đã có nhiều bộ dữ liệu tiếng Việt được phát triển để phục vụ cho bài toán

ABSA (Phân tích Cảm xúc Dựa trên Khia cạnh), nhưng với sự phát triển không ngừngcủa ngôn ngữ trên mạng xã hội hiện nay, chúng tôi nhận thấy răng có rất nhiều bìnhluận chứa đựng an ý và các cách truyền đạt ý kiến một cách gián tiếp Điều này đặt

ra thách thức lớn cho các bộ dữ liệu hiện tại, vì chúng đôi khi chưa thể trích xuất hiệuquả các nhãn ngầm liên quan đến những an ý này Những bình luận này là bình luận

18

Trang 29

trên mạng xã hội nên thường sử dụng ngôn từ phong phú, lối diễn đạt gián tiếp và cáchình thức biéu đạt cảm xúc phức tạp, khiến việc phân tích gặp một số khó khăn khôngthể tránh khỏi Các bộ dữ liệu hiện có, mặc dù rất hữu ích, nhưng thường được thiết

kế dựa trên các ngữ cảnh truyền thống hơn và có thể không bao quát hết được các sắcthái ngôn ngữ mới mẻ và đa dang mới xuất hiện gần đây trên các nền tảng mạng xãhội Điều này có thể khiến cho các mô hình phân tích không đạt được độ chính xác

và hiệu quả cao như mong muốn khi gặp phải các bình luận chứa đựng nhiều lớpnghĩa và ân ý tinh tế Dé cải thiện kết quả trích xuất va đáp ứng tốt hơn nhu cầu phântích trong môi trường ngôn ngữ trực tuyến phức tạp, cần thiết phải phát triển thêmcác bộ dữ liệu mới, được cập nhật và tinh chỉnh phù hợp với sự thay đổi liên tục của

ngôn ngữ trên mạng xã hội.

=> Xem xét ở các góc độ trên, chúng tôi quyết định xây dựng bộ dữ liệu mới phục vụ

cho tác vụ trích xuất Bộ Tứ ACOS, trong đó bộ tứ bao gồm Aspect (đối tượng) Category (khía cạnh) - Opinion (ý kiến) - Sentiment (cảm xúc) Khia cạnh biểu thiđối tượng hoặc các thuật ngữ khía cạnh mà ý kiến đã được bày tỏ; Danh mục khíacạnh đại diện cho danh mục được định trước của các khía cạnh liên quan; Ý kiến biểuthị các từ hoặc cụm từ ý kiến đối với các khía cạnh; Cảm xúc biểu thị các cực cảmxúc đối với các khía cạnh Mỗi thuật ngữ khía cạnh có thé thuộc về các danh mụckhác nhau Trong một câu, danh mục khía cạnh thường được biểu đạt ngầm Ý kiếnđại diện cho các nhãn cảm xúc Những cảm xúc này có thê là cảm xúc rõ ràng có thể

-dễ dàng nhận biết hoặc là cảm xúc ngầm cần phải xem xét Cảm xúc đề cập đến cáccực cảm xúc của bộ ba thuật ngữ khía cạnh, danh mục khía cạnh và ý kiến Bên cạnh

đó, chúng tôi cũng tiến hành thực nghiệm bộ dữ liệu trên nhiều mô hình khác nhau

dé đánh giá độ chất lượng và hiệu quả của bộ dt liệu trên tác vụ trích xuất nhãn ngầmtrong bình luận Chúng tôi hy vọng nghiên cứu này sẽ một phần nhỏ vào tài nguyêncủa nghiên cứu xử lý ngôn ngữ tự nhiên ở Việt Nam Tạo tiền đề cho các công trìnhsau này, thúc đây sự phát triển của các nghiên cứu trên tác vụ ABSA cũng như tác vụ

trích xuât hiệu quả các nhãn ngâm trên ngôn ngữ mạng xã hội.

19

Trang 30

2.3 Động lực nghiên cứu

Nghiên cứu về nhiệm vụ trích xuất bốn thành han Đối tượng-Phân loai-Y

kién-Cảm xúc (ACOS) trong tiếng Anh đã được thực hiện và có nhiều công trình đa

dạng có thé tham khảo và áp dung Chang hạn như công trình nghiên cứu trích xuất

bốn thành phan trên bộ dữ liệu Laptop-ACOS và Restaurant-ACOS áp dụng

phương pháp Extract-Classify-ACOS của Cai và công sự [48]đã đạt được kết quả

như sau 0.3854 trên Precision, 0.5296 trên Recall, 0.4461 trên F1-Score cho bộ dữ

liệu Restaurant-ACOS và 0.4556 trên Precison, 0.2948 trên Recall và 0.3580 trên

F1-Score cho bộ dữ liệu Laptop-ACOS Bên cạnh đó, công trình của L1 và cộng sự

[52] áp dụng phương pháp Phát hiện và trích xuất bộ tứ ACOS với thông tin khoảng

cách từ ngữ cho bài toán ACOS và đạt được kết quả như sau 39.77 trên Precision,

54.53 trên Recall, 45.99 trên Fl-Score cho bộ dữ liệu Restaurant-ACOS và 44.93

trên Precision, 32.78 trên Recall, 37.91 trên Fl-Score cho bộ Laptop-ACOS Ngoài

ra, cũng có một số công trình đáng chú ý khác mà chúng tôi có thé tham khảo [50],

[51].

Nhu cầu và sự quan tâm đối với việc trích xuất thông tin từ các đánh giá, phản hồi

của người dùng đã thúc đây nhiều nhà nghiên cứu phát trién các phương pháp va

mô hình khác nhau Điều này tạo ra một kho tài liệu phong phú, cung cấp nền tảngvững chắc cho việc nghiên cứu và phát triển thêm trong lĩnh vực này Bên cạnh đó,

sự phong phú và đa dang của dữ liệu tiếng Anh cũng mở ra nhiều cơ hội để kiểm

thử và cải thiện các mô hình trích xuất thông tin, đặc biệt là trong việc hiểu và phân

tích các khía cạnh khác nhau của ngôn ngữ tự nhiên.

Mặt khác, tuy bài toán trích xuất bộ tứ ACOS trên bộ dữ liệu tiếng Việt quá nhiềunhãn thách thức quá trình gán nhãn và đánh giá, bộ dữ liệu đa nhãn khiến quá trìnhthực nghiệm gặp nhiều khó khăn và không đạt được kết quả cao Bên cạnh đó, bộ dữ

liệu của chúng tôi được thu thập từ các đánh giá mang xu hướng là ngôn ngữ mạng

xã hội, ngôn ngữ này dang dần phong phú và đa dang hơn, đa số đều không đúng cautrúc ngữ pháp của tiếng Việt, chứa nhiều teencode, từ ngữ chuyên nghĩa và biểu tượng

20

Trang 31

cảm xúc Cùng với đó, ngôn ngữ trong câu không thống nhất, có nhiều loại ngôn ngữđược viết đan xen nhau Theo xu hướng hiện nay, giới trẻ thường hay sử dụng những

từ ngữ bị biến đổi đi ít nhiều so với ngôn ngữ chuẩn Với sự biến đối này khiến chođội ngũ gan nhãn gặp nhiều khó khăn trong việc đọc hiểu nội dung của các phản hồi

và tiêu tôn rât nhiêu thời gian cho việc xử lý dữ liệu.

21

Trang 32

CHƯƠNG III XÂY DỰNG BỘ DỮ LIỆU

3.1 Sơ lược về bộ dữ liệu

Ở môn học đồ án, chúng tôi đã xây dựng một bộ dữ liệu nhằm phục vụ cho tác vụNER và ABSA Tuy nhiên, dần dần chúng tôi nhận thấy bộ dữ liệu và hướng đi cũmắc phải khuyết điểm là thiếu đi sự liên kết chặt chẽ giữa tác vụ NER và ABSA Khi

ay, chúng tôi đã thảo luận và chúng tôi quyết định áp dụng phương pháp ACOS dégiải quyết cho bài toán này Chúng tôi đã xây dựng lại bộ dữ liệu mới dựa trên bộ dữliệu cũ này nhăm phục vụ cho tác vụ ACOS Trong bộ dữ liệu được xây dựng lại này,chúng tôi sẽ tiến hành trích xuất các bộ bốn ACOS từ câu bình luận có n từ r = [Wy,

.„ M„] có câu trúc như sau:

SAcos = “ZZãZ?”" «1 Ôi

Trong đó, a; — Cj — 0y — S; là viết tắt của bộ bốn aspect category opinion

-sentiment, a; là đối tượng được trích xuất, c;e C là bộ phân loại khía cạnh (bao gồm

APPEARANCE, CHARACTERISTIC, SPECIALIZED, TECHNICAL, OTHER),

Ox đại diện cho ý kiến được trích xuất và s,€ {Tích cực, Trung tính, Tiêu cực} thểhiện cho cảm xúc của bộ ACOS Tác vụ trích xuất bộ tứ ACOS không chỉ xác định 4yếu tô trên mà còn kết hợp thành 1 bộ tứ, đồng thời xem xét đến aspect, opinion tiềm

ân Khi aspect, opinion ân không được biéu thị rõ ràng bằng từ hoặc cụm từ, trong

trường hợp aspect ân, chúng ta xem aspect là NULL và sử dung category dé mô tả

opinion của mục tiêu, va trong trường hợp opinion an, chung ta dat opinion 1a NULL

và sử dung sentiment dé mô tả định hướng ngữ nghĩa

Chúng tôi tiến hành thu thập các bình luận trên các video từ các chương trình giải trí

khá nỗi tiếng hiện nay như Rap Việt, 2 ngày 1 đêm, Ca sĩ mặt na, 7 nụ cười xuân,

Sau khi thu thập dữ liệu xong, chúng tôi sẽ tiến hành xử lý dữ liệu và loại bỏ các điểm

dữ liệu không thích hợp Sau đó chúng tôi gán nhãn dữ liệu và đánh giá độ đồng thuậnchéo với nhau, quá trình này tốn tương đối nhiều thời gian do độ đồng thuận của

22

Trang 33

chúng tôi tương đối thấp và phải đánh giá lại nhiều lần Sau khi độ đồng thuận đạtmức chấp nhận được mức chấp nhận được, chúng tôi mới tiến hành gán nhãn chínhthức và phân tích dit liệu Sau khi hoàn thiện công đoạn gán nhãn, nhóm tiến hànhthống kê số lượng các điểm dữ liệu và nhận thấy bộ dữ liệu hiện tại đang mất cânbằng trên các trường dữ liệu của nhãn Category nên chúng tôi tiễn hành tăng cường

dữ liệu bằng một vài biện pháp khác nhau Tổng quan quy trình xây dựng bộ dit liệu

trên được chúng tôi thể hiện lại qua hình 4

3.2 Thu thập và tiền xử lý

Có rất nhiều công cụ có thé sử dụng để thu thập dữ liệu, thông thường người ta có thể

dùng các thư viện python như beautifulsoup, selenium hoặc sử dụng các request API

23

Trang 34

từ google dé thu thập dữ liệu Đối với chúng tôi thi sử dụng công cụ app script củagoogle sheet dé thu thập dit liệu, công cụ này giúp cho chúng tôi dé quan sát trực tiếpcác mau dữ liệu sau khi thu thập xong, điều này sẽ giúp chúng tôi có thé phát hiện

được những bình luận spam hoặc không mang tính đóng góp Dữ liệu chúng tôi thu

thập được có cấu trúc bao gồm 6 cột là: số thứ tự, bình luận của người dùng, thời gianngười dùng bình luận vào video, số lượt yêu thích bình luận, số lượt comment phảnhồi bình luận đó Sau đó chúng tôi tiễn hành chon lấy những bình luận trực tiếp dưới

video thay và loại bỏ các bình luận phản hồi lại bình luận khác Nguyên nhân là vì

hầu hết các bình luận phản hồi lại người dùng đều tập trung vào việc đáp lại bình luận

chính thay vì mang tính đóng góp xây dựng cho video.

Hình 6 Phân phối số lượng bình luận thu thập được từ các chương trình

Kết quả ban đầu là thu được 10341 bình luận từ nhiều video khác nhau Sau khi thuthập bộ dữ liệu, chúng tôi sử dụng một số kỹ thuật để tiền xử lý dữ liệu nhằm thu

24

Trang 35

được bộ dit liệu sạch và hoàn thiện nhất Các phương pháp tiền xử lý dữ liệu này bao

gôm một sô bước như sau:

e Loại bỏ các hashtag, tagname, đường link: Do một số bình luận chứa các

hashtag và đường link Trong khi hashtag thường là những chuỗi ký tự viếttắt cho chương trình, còn đường link lại thường có tác dụng là dẫn tới trangweb khác Do đó những phần tử này thường không mang lại nhiễu trong quátrình mô hình huấn luyện bộ dữ liệu nên chúng tôi tiễn hành loại bỏ chúng

e Loại bỏ các biểu tượng cảm xúc: Bên cạnh việc một sé người khi bình luận

thêm các biểu tượng cảm xúc vào nhằm tăng khả năng diễn đạt cảm xúc của

người dùng Những người còn lại thường thêm vào những biểu tượng cảm xúcmột cách ngẫu nhiên Điều này khiến cho gây khó khăn trong việc phân loại

cảm xúc và gây nhiễu trong quá trình phân tích từ ngữ Do đó, chúng tôi loại

bỏ chúng khỏi các bình luận.

e Loại bỏ các kiều chữ tượng hình: Các chữ tượng hình ở đây thường là các bình

luận thuộc các ngôn ngữ của các quốc gia khác như Trung Quốc, Hàn Quốc,

Thái Lan, Campuchia Những từ ngữ này thường không đóng góp vao việc phân tích ngữ nghĩa cho câu, vì vậy chúng tôi loại bỏ chúng khỏi dữ liệu.

e Chuẩn hóa dữ liệu bang vnCoreNLP: Chúng tôi sử dụng vnCoreNLP đề chuẩn

hóa dữ liệu, bao gồm việc tách từ, chuẩn hóa các từ viết tắt, từ địa phương Ví

dụ như “hóa” và “hoá” đều cùng là 1 từ nhưng cách trình bày khác nhau sẽkhiến cho mô hình hiểu đây là 2 từ riêng biệt Vì vậy, sau khi áp dụng phươngpháp chuẩn hóa sẽ được đưa về dạng chuẩn là “hóa”

e Tach các dau câu như dấu chấm (.), dau phây (,) ra khỏi từ ngữ dé các từ và

dau câu được xử lý riêng biệt Điều này giúp cải thiện độ chính xác của cácbước xử lý tiếp theo

@ Xóa bỏ các ký tự trùng lặp liền kề: Loại bỏ các ký tự trùng lặp liền kề để giảm

thiểu sự lặp lại không cần thiết và làm cho dữ liệu trở nên gon gang hon Ví

dụ như từ: “tuyệtttttttt” sẽ được chuẩn hóa thành “tuyệt”

25

Trang 36

e Loại bỏ các câu quá ngắn hoặc quá dai: sau khi đi qua các bước tiền xử lý trên

thì chúng tôi kiểm tra và loại bỏ các bình luận có độ dài dưới 3 chữ vì chúnghầu hết là những bình luận vô nghĩa hoặc chứa phần lớn các biểu tượng cảmxúc, hashtag hoặc chữ tượng hình đã bị lược bỏ Đồng thời, chúng tôi cũng

loại bỏ các bình luận quá dài do chúng thường mang tính lan man, gây khó khăn cho quá trình gán nhãn, hoặc là các bình luận văn mâu mang tính spam.

Sau khi tiễn hành các bước tiền xử lý này, chúng tôi thu được bộ dữ liệu sạch với

9789 điểm dữ liệu Bảng 2 mô tả dữ liệu trước và sau khi tiền xử lý Dữ liệu sau khi

trải qua bước tiền xử lý được sử dụng cho phần gán nhãn và các bước tiếp theo

Chung kết mà âm thanh thì rè, đèn thì tối | chung kết mà âm thanh thì rè , đèn thì tối

acos thì môi dòng dau tiên sẽ là bình luận và bộ acos đâu tiên, môi dòng sau đó sẽ

26

Trang 37

tương ứng với một bộ ACOS Các bộ ACOS này được phân tách thành 6 cột, bao gôm:

Hình 7 Ví dụ về các cột nhãn trong quá trình gan nhãn

Trong đó, begin aspect và end aspect được chúng tôi gán nhãn bằng số nguyên nhỏnhất là 0 đến lớn nhất là độ dài của câu được tính bằng từ 2 cột này đại diện cho vị

trí bắt đầu và vị trí kết thúc của cụm từ đại diện cho đối tượng và khía cạnh được đề

cập trong câu Tuy nhiên, trong một số trường hợp, khi mà bình luận người dùngthường không đề cập trực tiếp đến aspect, chúng tôi coi như các aspect đó bị ân đi và

gán nhãn cả begin aspect và end aspect là (- 1,-1) Cột begin aspect và end aspect này

định nghĩa đối tượng và khía cạnh được đề cập đến trong bình luận, trong đó đối

27

Tiêu đề	Phân Tích Bình Luận Theo Khía Cạnh Cảm Xúc Và Chủ Thể Cho Bình Luận Mạng Xã Hội Trên Tiếng Việt
Tác giả	Tran Huynh Quoc An, Dang Thi Thuy Hong
Người hướng dẫn	TS. Do Trong Hop, TS. Tran Van Thanh
Trường học	Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	75
Dung lượng	76,85 MB