Phân tích cảm xúc dựa trên khía cạnh ABSA đã được chú ý và có rất nhiều côngtrình nghiên cứu trên đề tài này được công bố nhưng rat ít đề tài dé ý tập trung vàoviệc trích xuất bộ tứ bao
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
Vg
TRAN HUYNH QUOC AN - 20520955
DANG THI THUY HONG - 20520523
KHOA LUAN TOT NGHIEP
PHAN TÍCH BÌNH LUẬN THEO KHÍA CANH CẢM XUC
VÀ CHỦ THE CHO BÌNH LUẬN MẠNG XÃ HỘI
TREN TIENG VIỆT.
NAMED ENTITY AND ASPECT-BASED SENTIMENT
ANALYSIS FOR VIETNAMESE SOCIAL MEDIA DATA.
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHI MINH, NAM 2024
Trang 2LỜI CẢM ƠN
Khóa luận tốt nghiệp là cột mốc quan trọng, đánh dấu sự kết thúc hành trình
học tập tại trường đại học và mở ra một chặng đường mới đầy thử thách trong sự nghiệp của mỗi sinh viên Đối với em, quá trình thực hiện khóa luận này không chi là cơ hội dé áp dụng những kiến thức đã học vào thực tế
mà còn là dip dé em rèn luyện khả năng nghiên cứu, phân tích và giải quyết van đề.
Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy Đỗ Trọng Hợp, là một
có vẫn học tập cũng như là người thầy đã tận tình hỗ trợ em và các bạn từ lúc mới nhận lớp cho đến lúc thực hiện khóa luận tốt nghiệp này Thầy luôn
sẵn sàng đưa ra những lời khuyên, những hướng di giúp chúng em vượt qua
những khó khăn trong quá trình thực hiện khóa luận Bên cạnh đó, em xin
gửi lời cảm ơn chân thành và sâu sắc đến quý thầy cô giảng viên khoa Khoa học và Kỹ thuật Thông tin nói chung cũng như quý thầy cô trong trường nói riêng đã truyền đạt những kiến thức, kinh nghiệm quý báu và hỗ trợ đắc lực cho em trong thời gian đài học tập tại trường Và em cũng xin cảm ơn đến gia đình và bạn bè, những người đã luôn đồng hành cùng em trong suốt quá trình học tập và làm khóa luận tại trường Sự đồng hành của tất cả mọi người
là nguồn động lực to lớn giúp em tiếp tục tiến về phía trước.
Tuy em và bạn đã cô gang hết sức nhằm hoàn thiện khóa luận nảy một cách tốt nhất, chúng em cảm thấy bản thân mình vẫn còn nhiều hạn chế trong kiến thức lẫn kỹ năng Do đó việc khóa luận này tồn tại một số thiếu sót là
điều không thé tránh khỏi Em hy vọng rang em sẽ nhận được những ý kiến
đóng góp quý bau từ thầy/cô dé khóa luận này được chỉnh chu và hoàn thiện
nhất có thể.
Trang 3Cuối cùng, em xin chúc quý thầy/cô luôn mạnh khỏe, hạnh phúc va gặt hái
nhiều thành công, và em mong những điều tốt đẹp nhất sẽ luôn sát cánh bên
moi người.
Trang 4DANH MỤC TU VIET TẮTT - 22 2¿©+t2SE+EEE2EEE£EEEEEEESEEEEEEE2EEEEE2EErrkrrkrres 10
TÓM TAT KHÓA LUẬN - 2 2£+22+EE+EE£+EE+EEEEEEEEEEEEE2E12217121122121 2E rxe 1
"9052.0600 Ẽ 3
Đặt vấn đề z7 œxxf 3
Mục tiêu của khóa luận -EE E22 E322 1111113311111 51111 ce 5
Đối tượng và phạm Vi nghiên Cứu -¿- 2 2 2+E++E£+E££EE+E£EE£E£EE+EzErEerrerreree 5
Kết quả nghiên cứ :z¿¿ e . -c sex šv255X26c ce So HH HH 1111111111111 6
Hạn chế Án mam @z v 6
Cấu trúc của phần nội dung khóa luận 2 2 2£ £+££+E££E£+E£+E££EzEzzzzzez 7
CHƯƠNG I TONG QUAN DE TAL 5-52 52SSE‡ESE£EE‡EEEEEEEEEEEEEEEEEeEkrrrrkerxrei 8
1.1 _ Giới thiệu hệ thong o.cececccccccccccccsessessessesssssessessesscssessesussssssessssessessessecsesseeaes 8
1.2 GiGi thi@u V6 bai tOAN nmmaấảOỪỪỦ.E: 9
1.3 Tính ứng dung và đóng ØÓp .- - càng HH re, 10
1.4 Dong lực và thách thỨC - + 11x91 ng rry 12
CHƯƠNG II CÔNG TRÌNH LIEN QUAN 2-2-2 255£+£++£x+zxzzzsersez 13
2.1 _ Các nghiên cứu trên ngôn ngữ tiếng Anh - 2-2 + s2 s+szzxzxs+xez 13
2.2 _ Các nghiên cứu trên ngôn ngữ tiếng ViỆt -2- 2-52-5252 +EzEzrxrxez 17
2.3 Động lực nghiÊn CỨU - «+ 11k nh ng ng 20
Trang 5CHUONG III XÂY DUNG BO DU LIEU - - ¿6 SE £EE‡EeEeEEeEeEerxerers 22
3.1 _ Sơ lược về bộ dữ liệu -¿- + ©5e+cE‡EEE 2 E21 2E1271 2112117121 re 22
3.2 Thu thập và tiền xử lý :- +5 St St 2S EE1211211211211211 1.1.1 xe 23
3.3 Cách gan nhãn và quy trình gán nhãn - - +55 + *+<**++sv++eexseexss 26
3.4 Đánh giá độ đồng thuận -¿- 22 +¿©2+22xt2EE2EEECEEEEEESrkrrrkrrrrrrrree 30
3.4.1 Cac độ đồng thuận được sử dụng - + +-c + sssseserseeeseee 30
3.4.2 Kết quả đánh giá độ đồng thuận -2-2¿©++c+++cx++zxezres 31
3.5 Tang cường bộ dữ liỆU - - 2c 2 3231321111111 1 1 1E ekrrkrrre 33
3.6 Phân tích bộ dữ liệu ¿- + +¿++£+EE+EEt2EEEEEEEECEEEEEEEEECEEEErkrrkrrrkervee 34
CHƯƠNG IV PHƯƠNG PHÁP TIẾP CAN -2-2¿-©5¿2cSz+cxevzxcersrreee 39
4.1 Phuong pháp Extract-Classify-ACOS cty 39
4.2 Mô hình cho phương pháp Extract-Classify-ACOS - -+2 41
CHƯƠNG V CAI ĐẶT THUC NGHIEM VA DANH GIA KET QUẢÁ 44
5.1 Cải đặt thực nghiỆm SG 11v rry 44 5.2 Độ đo đánh giá 2¿©2¿22E22EE2EE222122212231271E271.211211 21 re 45
5.3 Đánh giá kt quả -©2:+2t 2 2E12212211221221121121121 2111121 Eectxe 46
5.4 Pham na 49
CHƯƠNG VI THUC NGHIEM 0 cccsscsssessesssessesssessesssessessesssessessusssessecsuessesseesseeses 54
CHƯƠNG VII TONG KET VÀ ĐỊNH HƯỚNG TƯƠNG LAI - - 57
7.1 Tổng KẾt 2cc 2222k 22 2222212111211 re 57
7.2 Định hướng tương Ìa1 - c 1 13391 9 11 9 ng ng ng 57
TÀI LIEU THAM KHÁO - 5-52 St SE+E‡EEEE+EEEEEESEEEE+EEEEEESEEEEEEEEEEEEEEEEEESEEEkrkrrerree
Trang 6Hình 5 Quy trình xây dựng bộ dữ liệu - - 5 1 SE E*ESeereeeererreree 23
Hình 6 Phân phối số lượng bình luận thu thập được từ các chương trình 24 Hình 7 Ví dụ về các cột nhãn trong quá trình gán nhãn 2-2 2 2 25+ 27
Hình 8 Một số ví dụ về bộ nhãn ACOS : 2¿225+vt2c2xvvrtrtrvrrrrrtrrrrrrree 29Hình 9 Quy trình gan nhãn và đánh giá độ đồng thuận - 2-5: 29Hình 10 Độ đồng thuận F1 Score và Kappa Score giữa 2 người gán nhãn qua các giai
Hình 14 Tỉ lệ các thuộc tinh của cột categorize và sentiMent -‹- 38
Hình 15 Kiến trúc phương pháp Extract-Classify-ACOS -2- 252552255: 40Hình 16 Số lượng nhãn dự đoán và nhãn thực TT 49
Hình 17 Dữ liệu trước khi dự đoán . - << SE 2211k ‡++2eEEkeeseeeeeesse 54 Hình 18 Dữ liệu sau khi được dự đoán oo cccecccccccesssceecesssseeeecessseeeeeessseeeeees 55
Hình 19 Kết qua dit liệu sau khi được chuyển đổi 2- 2 2+z+sz+sz+szzsz+z 55Hình 20 Kết quả được lưu trong file excel 2: 2©5++2x++£x++zx++zxrzrxzrxee 56
Trang 7DANH MỤC BANG
Bảng 1 Tỷ lệ chủ thể, ý kiến ngầm và trực tiếp trong tập dữ liệu SemEval Restaurant
và tập dữ liệu Laptop Nguồn: Công trình của Cai và cộng sự [30] 16
Bang 2 Các ví dụ về mẫu dữ liệu trước và sau quá trình tiền xử lý 26
Bang 3 Một sô ví dụ vê sự khác nhau vê nhãn giữa người gan nhãn | và người gan
Bảng 4 Số lượng bình luận và số bộ ACOS trong bộ đữ liệu . - 36Bảng 5 Kết quả huấn luyện tác vụ ACOS trên mô hình BERT và các biến thể của mô
00185506 46
Bảng 6 Kết quả nghiên cứu của chúng tôi và kết quả một số nghiên cứu trước đó.48
Bang 7 Ma trận nhằm lẫn giữa nhãn dự đoán và nhãn thực tế thuộc tính Category 51 Bảng 8 Ma trận nhằm lẫn giữa nhãn dự đoán và nhãn thực tế thuộc tính Sentiment
Trang 8DANH MỤC TU VIET TAT
STT | Từ viết tắt Ý nghĩa
1 ABSA Aspect-based sentiment analysis
2 AE Aspect Extraction
3 ABSC Aspect-Based Sentiment Classification
4 ABOE Aspect-Based Opinion Extraction
5 AOPE Aspect-Opinion Pair Extraction
6 ASPE Aspect-Sentiment Pair Extraction
7 ACSTE Aspect-Category-Sentiment Triple Extraction
8 AOSTE Aspect-Opinion-Sentiment Triple Extraction
9 ACOSQE pspect Category Opinion Sentiment Quadruple
10 ACD Aspect Category Detection
11 SPC Sentiment Polarity Classification
12 ACOS Aspect Category Opinion Sentiment
Trang 913 NER Named Entity Recognition
14 ViCTSD Vietnamese Clinical Text Sentiment Dataset
15 VSFC Vietnamese Students' Feedback Corpus
16 VIOCD Vietnamese Offensive Comment Detection Dataset
17 ViHSD Vietnamese Hate Speech Detection Dataset
23 XLM Cross-lingual Language Model - Robustly optimized
ROBERTA | BERT approach
24 ViBERT Vietnamese BERT
25 VELECTRA Vietnamese Efficiently Learning an Encoder that
Classifies Token Replacements Accurately
Trang 1026 VisoBERT | Vietnamese Social Media BERT
27 NLP Natural Language Processing
28 ACC Accuracy
29 MLM Masked Language Modeling
30 NSP Next Sentence Prediction
Trang 11TOM TAT KHÓA LUẬN
Trong thập kỷ qua, phân tích cảm xúc dựa trên khía cạnh (ABSA) đã phát triển nhanhchóng, cho thấy tiềm năng lớn trong nhiều lĩnh vực thực tiễn Tuy nhiên, các nghiêncứu hiện tại chủ yếu tập trung vao việc phân tích cam xúc từ các đoạn văn bản đơn
lẻ, mà ít chú ý đến việc khai thác ý kiến trong ngữ cảnh đối thoại Điều này đề lại mộtkhoảng trống lớn trong việc áp dụng ABSA vào các hội thoại thực tế, nơi mà thông
tin chi tiệt vê các khía cạnh, đôi tượng và cảm xúc có thê mang lại giá tri to lớn.
Trong các lĩnh vực như marketing, kinh tế, quản lý xã hội và giải tri, việc nắm bắtcác đối tượng, khía cạnh và cảm xúc được đề cập trong các bình luận của người dùng
là vô cùng quan trọng Nếu có thê tổng hợp và phân tích thông tin này một cách hiệuquả, các tổ chức và doanh nghiệp có thé hiểu rõ hơn về sự quan tâm của công chúng,
từ đó đưa ra các chiến lược và quyết định phù hợp Điều này không chỉ giúp nâng cao
hiệu quả quản lý mà còn tạo ra những trải nghiệm tốt hơn cho người dùng
Phân tích cảm xúc dựa trên khía cạnh (ABSA) đã được chú ý và có rất nhiều côngtrình nghiên cứu trên đề tài này được công bố nhưng rat ít đề tài dé ý tập trung vàoviệc trích xuất bộ tứ bao gồm bốn yếu tố cơ bản: đối tượng - khía cạnh - ý kiến - camxúc, đặc biệt là với các khía cạnh và ý kiến ngầm, các khía cạnh và ý kiến ngầm nàyrất quan trọng trong việc phân tích cảm xúc của bình luận Đây là một thách thức lớnnhưng cũng mở ra cơ hội dé cải thiện đáng ké các hệ thống phân tích cảm xúc hiệntại Việc phát triển một phương pháp toàn diện đề trích xuất thông tin cảm xúc từ hộithoại không chỉ là một bước tiến mới trong lĩnh vực ABSA mà còn có tính ứng dụng
cao trong nhiều lĩnh vực khác nhau
Trong đề tài này, chúng tôi tiễn hành thực hiện huấn luyện trên tác vụ phát hiện đối
tượng — khía cạnh — cam xúc — ý kiến trên bộ dữ liệu bao gồm các bình luận đượcchúng tôi tự thu thập từ các video giải trí trên nền tảng youtube Cùng với đó, chúngtôi thực nghiệm huấn luyện các mô hình transformer kết hợp áp dụng phương phápExtract-Classify-ACOS để trích xuất các nhãn cho bài toán Chúng tôi thu được kếtquả tốt nhất trên mô hình BERT-base-uncased với F1-score là 66,27%, precision là
Trang 1275,09% và recall là 59,30% trong tập kiểm thử Bên cạnh đó, chúng tôi cũng tiếnhành phân tích lỗi nhằm cải thiện bộ đữ liệu sau này.
Trang 13MO DAU
Dat van dé
Su phat triển mạnh mẽ của mạng xã hội đã tạo ra nhu cầu khai thác ý kiến của
người dùng trên nhiều lĩnh vực khác nhau Ví dụ, việc thu thập ý kiến về các sảnphẩm, khảo sát khách hàng về các vấn đề liên quan, hay phát hiện các cuộc công kích
cá nhân, các đối tượng và xu hướng được nhắc đến trong các cuộc trò chuyện trênmạng xã hội Các nhà quản lý hiện nay có xu hướng sử dụng các công cụ hệ thốnglắng nghe xã hội (social listening) dé nắm bắt ý kiến của người dùng Bên cạnh đó,khi tìm hiểu về van dé, bạo lực mạng, nhóm nhận thấy đây là van đề nóng hồi hiệnnay Đây là các hành vi như đăng tải thông tin xúc phạm, đe dọa, tan công trực tuyến,xâm phạm quyên riêng tư, và xúc phạm đến danh dự của người khác Các hành vinày không chỉ giới han ở việc gửi tin nhắn hoặc email đe doa mà còn có thé bao gồmviệc chia sẻ những bức ảnh hoặc video nhạy cảm mà không có sự đồng ý của ngườikhác, giả mạo danh tính dé bôi nhọ, hoặc lập các trang web, blog với mục đích phi
báng, làm nhục người khác Hơn nữa, những bình luận tiêu cực, lời nói ác ý trên các
diễn đàn công khai cũng là một phần của bạo lực mạng
Hiện nay, sự phát triển mạnh mẽ của mạng xã hội đã dẫn đến làn sóng bạo lực mạngtăng cao Những nền tảng như Facebook, Instagram, Twitter, TikTok đã trở thànhmôi trường lý tưởng để những kẻ bắt nạt ân danh thực hiện hành vi của mình màkhông sợ bị truy vết Đặc biệt, với số lượng trẻ dưới tuổi vị thành niên tiếp xúc sớm
với mạng xã hội ngày càng tăng cao, nguy cơ bị tác động bởi bạo lực mạng cũng tăng
theo Những trẻ em này, khi chưa có đủ khả năng dé tự bảo vệ mình hay nhận thứcđầy đủ về hậu quả của những hành động trên mạng, thường trở thành mục tiêu dễdàng của các kẻ bắt nạt Bạo lực mạng không chỉ gây ra những tác động tiêu cực vềmặt tâm lý cho nạn nhân, như lo âu, tram cảm, tự ti, mà còn có thé dẫn đến nhữnghậu quả nghiêm trọng hơn như tự tử Dưới đây là một ví dụ điển hình nhất cho van
đề này khi có rất nhiều hội nhóm xuất hiện trên mạng xã hội Facebook chi dé côngkích một em bé 2 tuổi
Trang 14Online oe 41346
es) Thanh viên ẩn danh
giờ - IE
Xin chào mn hôm nay t cỏ lướt fb thi tinh cờ thay nhóm
này nên vào.T có một vài vấn dé ko hiểu và mong các b
giải thích giúp t
1.Pam là em bé 2+,còn chưa biết sử dụng mxh thì tại sao ¿
lại có antifan hay người ghen ghét nhỉ?
2.Không biết các b lập ra cái groups này đã đủ trưởng
thành chưa hay vẫn còn là học sinh mà còn di so đo với 1
em bé?
T cỏ doc emt thấy mn nói rằng do 1 số fan của bé gây
ết chưa war nên mn ghét,nghe có nực cười ko cơ chứ tổ 2 người
cãi nhau rồi di anti 1 đứa bé hay gì?
007 6 binh luận
viet/nam
feng tư - 2,3K thành viên - 6 bài
đọc - Mới tham gia
1Í thui hihi
Hình 1 Ví dụ về bao lực mạng xã hội
Hiểu rõ được van dé này, chúng tôi nhận thấy việc giải quyết bài toán phát hiện chủthé đối tượng và trích xuất ý kiến, cảm xúc khi nhac đến đối tượng là điều cần thiết.Nhóm tiến hành khảo sát các công trình nghiên cứu trên tiếng Việt, chúng tôi nhậnthấy, các đề tài nghiên cứu Phân tích cảm xúc dựa trên khía cạnh (ABSA) đã được
nghiên cứu rộng rãi, nhưng các nghiên cứu hiện tại không thé trích xuất hiệu qua
những yếu tổ mà chúng tôi mong muốn Bên cạnh đó, nhóm nhận thay ngoài những
ý kiến rõ ràng được thể hiện trong câu bình luận còn có những ý kiến ngầm ẩn ý đượcngười dùng thể hiện trong câu Các khía cạnh và ý kiến ngầm, tức là những yếu tốkhông được đề cập trực tiếp trong văn bản mà được suy ra từ ngữ cảnh hoặc từ cáchdiễn đạt gián tiếp của người dùng, lại càng ít được chú trọng trong các nghiên cứu
hiện tại.
Những hạn chế này đặt ra một thách thức lớn cho việc phát triển các hệ thống phântích cảm xúc tự động, vì việc không nhận diện được đầy đủ và chính xác các yếu tốngầm có thé dẫn đến những kết quả không chính xác hoặc không đầy đủ Chang hạn,trong một bài đánh giá về một nhà hàng, người dùng có thê không trực tiếp nói rằng
“dich vụ kém” mà thay vào đó là “chúng tôi phải chờ đợi rất lâu dé được phục vụ”
Trang 15Nếu hệ thống phân tích không nhận diện được đây là một ý kiến tiêu cực về khía cạnhdịch vụ, kết quả phân tích sẽ thiếu sót.
Vì vậy, Khóa luận này tập trung vào việc nghiên cứu và phát triển một bộ dit liệu mớitrên tiếng việt và áp dụng các phương phương pháp mới dé trích xuất các tứ giác cảmxúc từ bình luận mạng xã hội, nhằm khắc phục những hạn chế hiện tại và nâng caotính hiệu quả của các ứng dụng ABSA Chúng tôi tin răng, với những đóng góp mới
mẻ và quan trọng, nghiên cứu này sẽ mở ra nhiều hướng đi mới cho cộng đồng nghiêncứu cũng như các ứng dụng thực tế trong nhiều lĩnh vực khác nhau
Mục tiêu của khóa luận
+ Xây dựng bộ dữ liệu bao gồm các bình luận tiếng Việt trên nền tảng mang xã
hội Youtube áp dụng cho bài toán ACOS.
+ Huấn luyện và thực nghiệm trên các mô hình học máy, học sâu, kết hợp áp
dụng các phương pháp dé trích xuất hiệu các nhãn và phân tích lỗi
+ Xây dựng mô hình dữ liệu lớn dé xử lý dữ liệu trực tuyến cho bài toán này
+ Trực quan hóa mô hình dữ liệu lớn dé tiện cho việc quản lý và xử lý dữ liệu
Đối tượng và phạm vi nghiên cứu
+ Đối tượng: Bài toán trích xuất đối tượng - khía cạnh - cảm xúc - ý kiến trên dữ
liệu bình luận mạng xã hội tiếng việt+ Phạm vi nghiên cứu: Nhóm tiễn hành xây dựng bộ dữ liệu bình luận mạng xã
hội tiếng việt và áp dụng phương pháp Extract-Classify-ACOS kết hợp các mô
hình transformer đê trích xuât các nhãn.
Trang 16Kết quả nghiên cứu
+ Xây dựng bộ dit liệu mới bao gồm các bình luận tiếng Việt trên nền tảng mạng
xã hội Youtube Bên cạnh đó, tiễn hành phân tích và đánh giá bộ dữ liệu
Huấn luyện các mô hình transformer kết hợp thực nghiệm trên phương pháp
Extract-Classify-ACOS, phương pháp này mang lại tính hiệu quả cho mô hình
kỹ càng, tỉ mi và hiéu rõ về từng loại nhãn Hiện tai, chúng tôi chưa phát triển
được công cụ gán nhãn hiệu quả, và sự nhập nhăng về bộ nhãn đã kéo dài thời
gian gán nhãn hơn so với dự kiến.
Về phương pháp tiếp cận
Chúng tôi đã khảo sát trên mô hình transformer nhưng hiệu quả đạt được chưa
cao, kết quả thu được chưa đạt được độ chính xác cao Chúng tôi cũng chưathực hiện xử lý dữ liệu trực tuyến và chưa kết hợp các mô hình khác nhau déđạt kết quả tối ưu Hiện tại, Việt Nam chưa có nghiên cứu nào phát triển theohướng nay, dẫn đến những khó khăn về nguồn tài liệu tham khảo trên tiếng
Việt.
Trang 17Câu trúc của phân nội dung khóa luận
Nội dung khóa luận bao gồm 6 chương và được trình bày qua từng chương theo cau
trúc sau:
- CHƯƠNG 1: TONG QUAN ĐÊ TÀI Giới thiệu tổng quan về nội dung nghiên
cứu, bao gồm: giới thiệu nghiên cứu, phát biểu bài toán, mục tiêu, và những
đóng góp chính của nghiên cứu.
- CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN Trình bày tông quan các bài
toán đọc hiểu tự động và các nghiên cứu liên quan đến bài toán được quan
tâm.
- CHƯƠNG 3: BO DU LIEU Trình bày về quy trình thu thập, xây dựng quy
trình và các quy tắc gán nhãn Kèm theo đó đưa ra một số phân tích trên bộ dữ
liệu
- CHƯƠNG 4: PHƯƠNG PHÁP NGHIÊN CỨU Trình bày về cách tiền xử lý,
hậu xử lý dữ liệu, các mô hình đọc hiểu tự động trên văn bản tiếng Việt
- CHƯƠNG 5: THỰC NGHIEM VÀ ĐÁNH GIÁ Chương này sẽ nói về cách
chúng tôi tiến hành thì nghiệm, quy trình thí nghiệm, phương pháp đánh giá
và phân tích một số lỗi trên bộ dữ liệu
- CHƯƠNG 6: KET LUẬN - HƯỚNG PHAT TRIÉN Phần cuối cùng sẽ tóm
tắt được những kết quả đã đạt được và của bài nghiên cứu, theo đó là nhữngphương hướng tiếp theo cho bài toán của chúng tôi
Trang 18CHƯƠNG I TỎNG QUAN ĐÈ TÀI
1.1 Giới thiệu hệ thống
Nhóm tiến hành thu thập dữ liệu là bình luận tiếng Việt từ các video trên nền tang
mạng xã hội Youtube Các bình luận sau khi được thu thập sẽ được nhóm xử lý vàchọn lọc với nhiều tiêu chí Sau đó nhóm tiến hành xử lý dữ liệu, loại bỏ bớt những
bình luận spam, không liên quan và gán nhãn cho bộ dữ liệu - đây là công đoạn tốnthời gian và công sức nhiều nhất Song song với đó nhóm tiến hành tìm hiéu và thựcnghiệm 1 số mô hình, trên bộ dữ liệu này Cùng với đó nhóm cũng áp dụng phươngpháp Extract-Classify-ACOS với các mô hình đề tối ưu hóa kết quả trích xuất của các
mô hình Sau khi huấn luyện thực nghiệm nhóm tiến hành phân tích lỗi dựa trên kếtquả đánh giá và nhãn đầu ra của mô hình Dựa vào những kết quả phân tích nhómtiếp tục cải thiện thông số mô hình và các yêu tô khác dé tăng hiệu suất mô hình, cải
thiện nhãn đâu ra.
Trang 191.2 Giới thiệu về bài toán
Xác định bài toán: Quadruple ACOS Extraction
Trong khóa luận này, chúng tôi định nghĩa bốn yếu tố của nhiệm vụ trích xuất bộ tứACOS bao gồm: đối tượng (aspect), khía cạnh (category), ý kiến (opinion) và cảm
xúc (senitment) Trong đó:
+ Đối tượng (Aspect) chỉ một đối tượng được nhắc đến trong câu, thường là liên
quan đến tên riêng của con người hoặc các chủ thể đối tượng liên quan đến
chương trình, là một từ hoặc cụm từ trong văn bản.
+ Khia cạnh (Category) chỉ lĩnh vực liên quan đến đối tượng được đề cập đến
trong câu.
+ Ý kiến (Opinion) chi phát biểu chủ quan về một khía cạnh liên quan đến đối
tượng được đề cập đến trong câu
+ Cảm xúc (Sentiment) là cảm xúc của ý kiến về một khía cạnh liên quan đến
đối tượng được đề cập đến trong câu.
Nhiệm vụ trích xuất bộ tứ ACOS là nhiệm vụ trích xuất tập hợp các bộ tứ Đối tượng
- Khía cạnh - Ý kiến - Cảm xúc trong câu, một câu đánh giá thường chứa một hoặcnhiều bộ tứ Nhiệm vụ trích xuất bộ tứ ACOS không chỉ xác định bộ bốn yếu tố, màcòn kết hợp chúng thành một tập hợp các bộ bốn hợp lệ, đồng thời xem xét các khíacạnh/ý kiến ngầm, vì khía cạnh/ý kiến ngầm không được diễn đạt rõ ràng bằng từhoặc cụm từ Trong trường hợp trích xuất được khía cạnh ngầm chúng tôi đặt aspect
và opinion là NULL, sử dụng category để mô tả khía cạnh ngầm, và sử dụng
sentiment đê mô tả cảm xúc.
- Bai toán của chúng tôi gồm 4 nhiệm vụ chính:
- _ Nhận diện đối tượng (Aspect Detection)
- _ Nhận diện Danh mục khía cạnh (Category Detection).
- _ Trích xuất ý kiến (Opinion Extraction)
- Phan tích thái độ (Compliment Analysis).
Trang 20Youtube Comment '
Do anh Thái rap quá đỉnh thôi , chứ bài hát | —Ì>
Đầu vào: Bình luận người dùng trên các video giải trí
Đầu ra:
+ Đối tượng: là các đối tượng nhắc đến trong bình luận: thường là tên
riêng hoặc liên quan đến những khía cạnh của chương trình
+ Các khía cạnh của bình luận dé cập, bao gồm: Appearance (Ngoại
hình) Characteristic (Tinh cách), Specialize (Chuyên môn),
Technical (Kỹ thuật hậu cần), Other (Khác).
+ Ý kiến: phát biểu chủ quan về một khía cạnh liên quan đến đối tượng
được đê cập đên trong câu
+ Thái độ của khía cạnh: Positive (tích cực), Negative (tiêu cực) va
Nó không chỉ giúp nhận diện các khía cạnh và cảm xúc mà còn phân loại chúng
theo các danh mục cụ thể và liên kết ý kiến với cảm xúc
Trong một số lĩnh vực liên quan đến thương mại điện tử, dịch vụ khách hàng,truyền thông quảng cáo hay quản lý khách sạn, nhà hàng Việc phân tích tríchxuất bộ tứ ACOS sẽ giúp hiểu rõ hơn về cảm xúc của khách hàng đối với từngasản phẩm hoặc dịch vụ trên từng khía cạnh cụ thé
10
Trang 21+ Giúp phân tích các cuộc hội thoại và phản hồi từ khách hàng từ đó xác
định các vấn đề cụ thê và cải thiện chất lượng hỗ trợ Giúp các công tyhoặc doanh nghiệp cải thiện từ đây có tế tạo ra các chiến lược giúp cảithiện sản phẩm dựa trên phản hồi một cách cụ thể hơn Điều này giúpnâng cao sự hài lòng và trung thành của khách hàng, tối ưu hóa trảinghiệm đề đáp ứng tốt hơn nhu cầu và mong đợi của khách hàng
+ Bên cạnh đó, giúp các doanh nghiệp theo dõi và quản lý thương hiệu:
ACOS có thé được sử dụng dé theo dõi cảm xúc của khách hàng về
thương hiệu dựa trên những tâm tư của khách hàng bộc lộ qua bình luận
trên các nền tảng truyền thông mang xã hội, từ đó giúp quản lý danhtiếng thương hiệu hiệu quả hơn
+ Bằng cách phân tích chỉ tiết các phản hồi, ACOS giúp xác định và khắc
phục các van đề cụ thé trong dịch vụ khách hàng, giảm thiểu các lỗi và
sai sot.
+ Xác định các vấn dé cu thé: Nhờ vào ACOS, các nhà quản lý có thé
nhanh chóng phát hiện và giải quyết các van dé cụ thé mà khách hang
phản ánh, từ đó nâng cao sự hài lòng của khách hàng.
=> Như vậy, bài toán ACOS không chỉ giúp các doanh nghiệp và tô chức hiểu rõ hơn
về cảm nhận của khách hàng và người dùng mà còn cung cấp các thông tin chỉ tiết và
cụ thé dé cải thiện chất lượng sản phẩm, dịch vụ và chiến lược kinh doanh Điều này,
bên cạnh giúp hỗ trợ lợi ích kinh tế mà còn góp phần nâng cao trải nghiệm và sự hài
lòng của khách hàng.
11
Trang 221.4 Động lực và thách thức
Nghiên cứu về nhiệm vụ Trích Xuất Bốn Thành Phần Đối tượng-Khía Cạnh-Ý
Kiến-Cảm Xúc (ACOS) trong tiếng Anh đã được thực hiện và có nhiều công trình
đa dạng có thể tham khảo và áp dụng Nhu cầu và sự quan tâm đối với việc trích xuất
thông tin từ các đánh giá, phản hồi của người dùng đã thúc đây nhiều nhà nghiên cứu
phát triển các phương pháp và mô hình khác nhau Điều này tạo ra một kho tài liệu
phong phú, cung cấp nền tảng vững chắc cho việc nghiên cứu và phát trién thêm tronglĩnh vực này Bên cạnh đó, sự phong phú va đa dạng của dữ liệu tiếng Anh cũng mở
ra nhiều cơ hội để kiểm thử và cải thiện các mô hình trích xuất thông tin, đặc biệt làtrong việc hiéu và phân tích các khía cạnh khác nhau của ngôn ngữ tự nhiên
Mặt khác, tuy bài toán trích xuất bộ tứ ACOS trên bộ dữ liệu tiếng Việt quá nhiềunhãn thách thức quá trình gán nhãn và đánh giá, bộ dữ liệu đa nhãn khiến quá trìnhthực nghiệm gặp khá nhiều khó khăn và nhãn đầu ra chưa đạt được độ chính xác cao
trong quá trình Bên cạnh đó, bộ dữ liệu được nhóm thu thập từ các đánh giá mang
xu hướng là ngôn ngữ mạng xã hội, ngôn ngữ này đang dần phong phú và đa dạng
hơn, đa số đều không đúng cau trúc ngữ pháp của tiếng Việt, chứa nhiều teencode, từngữ chuyên nghĩa và biểu tượng cảm xúc Cùng với đó, ngôn ngữ trong câu khôngthống nhất, có nhiều loại ngôn ngữ được viết đan xen nhau Theo xu hướng hiện nay,giới trẻ thường hay sử dụng những từ ngữ bị biến đổi đi ít nhiều so với ngôn ngữ
chuan Với sự biến đối này khiến cho đội ngũ gan nhãn gặp nhiều khó khăn trong
việc đọc và phân tích nội dung hay ân ý của các phản hồi và tiêu tốn rất nhiều thờigian cho trong việc xử lý những điểm dữ liệu này
12
Trang 23CHUONG II CONG TRINH LIEN QUAN
2.1 Các nghiên cứu trên ngôn ngữ tiếng Anh
về nghiên cứu: Phân tích cảm xúc dựa trên khía cạnh (ABSA) là một bài toán nhận
được khá nhiều sự chú ý, nhiệm vụ quan trọng nhằm trích xuất đối tượng là đối tượng
hoặc khía cạnh (gọi chung là khía cạnh) và trích xuất ý kiến mô tả khía cạnh
đó Trong thập kỷ qua, nhiệm vụ ABSA đã thu hút sự chú ý rộng rãi từ cả giới học
thuật và công nghiệp, từ việc trích xuất từng yêu tố đơn lẻ đến việc trích xuất nhiềuyếu tô Hình 3 minh họa tám nhiệm vụ ABSA tiêu biểu, bao gồm AE, ABSC, ABOE,
AOPE, ASPE, ACSTE, AOSTE, ACOSQE, v.v
Binh luận (R): Chúc mirng 2T nha, cũng may là không phải
Rider võ địch.
-—= —==—=—=—=~=
31-CI-01-SỊ: 2T-OTHER-Chiie mirng-Positive
' 343-Ca-02-S+: Rider-S PECIAIZE-NULL-Negative
*#
Task Input Output
Aspect Extraction (42) R fa1,a2}
Aspect-Based Sentiment Classification R,aj sự
(455C) Ra) y
Aspect-Based Opinion Extraction (450) Nai fo;
Aspect-Opinion Pair Extraction (4 OPE) ) R {a;-0;}
Aspect-Sentiment Pair Extraction (4SPE) R {aj-81,47-53
Aspect-Category-Sentiment Triple Extraction R {@)-C)-Sj,
(ACSTE) đ2-C2-S3Ÿ
1 Triple Extraction R fa¡-01-Sj}
Aspect-Category-Opinion-Sentiment R {@j-C]-07-S},
Quadruple Extraction (4COSQE) 13-C3-07-53}
Hình 4 Một số tác vu ABSA tiêu biéu
Có nhiều nghiên cứu thực hiện trên các tác vụ ABSA khác nhau và được phân loạidựa trên các yêu tố được trích xuất như: trích xuất đồng thời khía cạnh-ý kiến (Wang
13
Trang 24và cộng sự., 2016a [1], 2017 [2]; Yu và cộng sự., 2018 [3]; Li và cộng sự., 2018 [4];
Dai và Song, 2019 [5]), trích xuất cặp khía cạnh-ý kiến (Chen và cộng sự., 2020 [6];Zhao và cộng sự., 2020 [7]; Gao va cộng sự., 2021 [8]), trích xuất cặp khía cạnh-cảm
xúc (He và cộng sự., 2019 [9]; Li và cộng sự., 2019 [10]), trích xuất cặp danh mục
khía cạnh -cảm xúc (Hu và cộng sự., 2019 [9]; Cai và cộng sự., 2020 [11]), trích xuất
bộ ba khía canh-y kiến-cảm xúc (Peng và cộng su., 2020 [12]; Wu và cộng sự., 2020
[13][13]; Xu và cộng su., 2020 [14]; Mao và cộng sự., 2021 [15]; Yan và cộng sự.,
2021 [16]), trích xuất bộ ba khía cạnh-danh mục khía cạnh - cảm xúc (Wan va cộngsự., 2020 [17]), và trích xuất bộ bốn khía cạnh-danh mục khía cạnh -y kiến-cảm xúc
(Cai và cộng sự., 2021 [18]; Zhang và cộng sự., 2021a [19]; Bao và cộng sự., 2022 [20]: Mao và cộng sự., 2022 [21]; Xiong va cộng sự., 2023 [22]).
Cùng sự phát triển nhanh chóng của của các nền tảng mua sắm trực tuyến hiện nay,phân tích cảm xúc đã thu hút sự quan tâm của các cộng đồng học thuật và doanhnghiệp Bang cách phân tích các câu đánh giá của khách hàng, giúp quản lý thương
hiệu tốt hơn, giúp nâng cao chất lượng sản phâm từ đó đáp ứng nhu cầu của ngườitiêu dùng và nâng cao sự công nhận của họ Nói chung, cảm xúc được chia thành cảm
xúc rõ ràng và ngầm đối với các câu Gần đây, phân tích cảm xúc ngầm đã thu hút sựchú ý lớn từ cộng đồng học thuật Không giống như phân tích cảm xúc rõ ràng, tháchthức lớn nhất của phân tích cảm xúc ngầm là không có các từ thể hiện cảm xúc cố
định để dùng cho việc huấn luyện trích xuất cảm xúc Do đó, các phương pháp phân
tích cảm xúc dựa trên các từ ngữ cảm xúc không còn phù hợp cho phân tích cảm xúc
ngầm trong câu nữa Nếu một câu chứa các từ ngữ biểu lộ cảm xúc, thì đó là câu cócảm xúc rõ ràng Ngược lại, đó là câu có cảm xúc ngầm Chúng tôi nhận thấy việctrích xuất các cảm xúc ngầm trong câu sẽ giúp cải thiện độ chính xác và hiệu quả khithực hiện bài toán phân tích cảm xúc Tuy vậy, hầu hết các công trình hiện tại chỉtrích xuất các khía cạnh và ý kiến rõ ràng nhưng hoàn toàn bỏ qua những yếu tổ ngầmkhông xuất hiện trong văn bản Trên thực tế, các đánh giá sản phẩm chứa một lượnglớn các khía cạnh và ý kiến ngầm Một số nghiên cứu hiện này cũng đã đề xuất các
phương pháp đê phát hiện các cảm xúc rõ rang và cảm xúc ngâm trong câu Chang
14
Trang 25hạn như, Li và cộng sự [26] đã đề xuất một đơn vị hồi quy cảm xúc hai chiều để xử
ly thông tin ngữ cảnh cho cảm xúc trong cuộc hội thoại Zhao và cộng sự [25] đã tích hợp thông tin cảm xúc a priori vào mô hình ngôn ngữ của họ Mô hình của họ đạt
được hiệu suất tốt trên một vài bộ đữ liệu Do đó, phân tích cảm xúc rõ rang và ngầm
có các ứng dụng thiết yếu trong đời sống thực Một số ít công trình nghiên cứu kháccũng đã xem xét trích xuất các khía cạnh ngầm (Cai và cộng sự., 2020 [11]; Wan và
cộng sự., 2020 [I7]; Zhang và cộng sự., 2021b,a [19] [23]: Mao và cộng sự., 2022
[21]), các ý kiến ngầm (Setiowati và cộng sự., 2022 [24]), hoặc cả hai (Cai và cộng
su., 2021 [18]; Xiong và cộng sự., 2023 [22]) Đặc biệt, nghiên cứu của Cai và cộng
sự (2021) [18] lần đầu tiên cố gắng trích xuất đồng thời các khía cạnh và ý kiếnngầm, vì các đánh giá văn bản thực tế thường chứa một lượng lớn các khía cạnh và ý
kiên ngâm.
Wei và cộng sự [27] đã sử dụng cơ chế chú ý trực giao dé tích hợp từ điển cảm xúcbên ngoài vào cơ chế chú ý Phương pháp của họ chú ý trực giao đến các cảm xúckhác nhau của câu Hiệu suất của phương pháp này tốt hơn so với các mô hình kháctrong tập dữ liệu SMP2019 Liao và cộng sự [28] đã trích xuất các đặc trưng ở mức
từ, câu, và văn bản trong văn bản Họ đã đề xuất một mạng nơ-ron tích chập dựa trêncây phụ thuộc cú pháp đề xử lý các nhiệm vụ phân loại cảm xúc ngầm dựa trên thực
tế Kauter và cộng sự [29] đã chú ý đến cả các biểu hiện rõ ràng và ngầm trong câu
va sử dụng biểu diễn chi tiết dé thé hiện cảm xúc của một chủ dé cụ thé Li và cộng
sự [26] đã giới thiệu kiến thức ngoại vi lớn dé nghién cuu cam xuc ngam dua trénkhía cạnh Dựa trên các biểu diễn văn ban tập trung vào sự kiện, Zhou va cộng sự[25] đã suy luận các cực cảm xúc của các câu cảm xúc ngầm Li và cộng sự đã ápdụng thông tin rõ ràng và ngầm đề thu thập thông tin ngữ cảnh rõ ràng và ngầm
15
Trang 26Bảng 1 Tỷ lệ chủ thé, ý kiến ngầm và trực tiếp trong tập dữ liệu SemEval
Khia cạnh rõ rang va Y kién ngam 12,38% | 27,55%
Khia canh ngamva Y kién ngam 14,83% | 8,24%
Bảng 1 tóm tắt tỷ lệ phan trăm của các khía cạnh và ý kiến ngầm trong tập dữ liệuSemEval Restaurant và tập dit liệu Laptop mới của chúng tôi Ta có thé thay rằng gần
44% các câu đánh giá chứa các khía cạnh hoặc ý kiến ngầm trong lĩnh vực Laptop,
và tỷ lệ phần trăm của các câu chứa cả khía cạnh và ý kiến ngầm cũng vượt quá 8%.Các tỷ lệ phần trăm tương tự cũng được quan sát thấy trong lĩnh vực Nhà hàng [30]
¢ _ Về dữ liệu: Các bộ dữ liệu tiêu chuẩn hiện tại cho tác vụ này chủ yếu là các bộ
dữ liệu tiếng anh Chang hạn như hai bộ dữ liệu Restaurant-ACOS và
Laptop-ACOS Trong đó, bộ dữ liệu Restaurant-ACOS được phát triển dựa trên bộ dữ
liệu Restaurant của cuộc thi SemEval 2016 (Pontiki và cộng sự., 2016 [31])
và bộ mở rộng của bộ dữ liệu này (Fan va cộng sự., 2019 [32]; Xu và cộng su.,
2020 [14]); bộ dữ liệu Laptop-ACOS là bộ dữ liệu về Laptop mới được thu
thập từ nên tang Amazon vào năm 2017 và 2018, gồm 10 loại laptop với nhiều
nhãn hiệu như ASUS, acer, Samsung, Lenovo, MBP, MSI Nó chứa 4,076 bình luận, lớn hơn bộ dir liệu SemEval Laptop Tuy nhiên, Cai và cộng sự [18]
nhận thấy với các nghiên cứu hiện tại chủ yếu được thực hiện và đánh giá trênhai bộ dữ từ các lĩnh vực Restaurant và Laptop, việc huấn luyện các mô hình
học sâu với hàng triệu tham sô trên các bộ dữ liệu quy mô nhỏ như vậy có
16
Trang 27nguy cơ dẫn đến hiện tượng over-fitting Bên cạnh đó, theo thống kê của tác
giả (Cai và cộng sự, 2021 [18]), khoảng 40% các câu đánh giá chứa các khía
cạnh hoặc ý kiến ngầm Những khía cạnh hoặc ý kiến ngầm như vậy xuất hiệnthường xuyên trong các đánh giá sản phẩm và rất quan trọng cho ABSA, tuy
nhiên, thường bị bỏ qua trong cả nghiên cứu và ứng dụng Vi vậy, Cai và cộng
sự [18] đã đề xuất một bộ dữ liệu ACOS mới bao gồm năm lĩnh vực: Book(Sách), Clothing (Quần áo), Hotel (Khách sạn), Restaurant (Nhà hàng) vàLaptop (Máy tính) Bộ dữ liệu chứa gần 20.000 câu đánh giá, lớn gấp bốn đến
năm lần so với các bộ dữ liệu ABSA của SemEval trước đây Ngoài ra, nó
được chú thích với gần 30.000 bộ tứ ACOS, hỗ trợ nhiệm vụ trích xuất bộ bốnKhia cạnh-Danh muc-Y kién-Cam xúc (ACOS), nhăm trích xuất tat cả các bộbốn khía cạnh-danh muc-y kiến-cảm xúc với cả các khía cạnh va ý kiến rõrang và ngầm trong một đánh giá Ngoài ra, có thé ké đến bộ dữ liệu Multi-
Element Multi-Domain dataset (MEMD) [49] của Cai và cộng sự, bộ dữ liệu
gồm bốn yếu tố trên năm lĩnh vực với gần 20.000 câu bình luận và 30.000 bộbốn ACOS với các khía cạnh và ý kiến trực tiếp cũng như ẩn ý Đây là bộ dữliệu chất lượng và đa dạng trên ngôn ngữ tiếng Anh phục vụ cho bài toán
ACOS.
2.2 Các nghiên cứu trên ngôn ngữ tiếng Việt
Khi khảo sát trên ngôn ngữ tiêng việt, những năm gân đây, có một sô bộ dữ liệu chuân
nghiên cứu về ABSA (Aspect-Based Sentiment Analysis) cho ngôn ngữ tiếng Việtđược công bố, chăng hạn (Nguyen và cộng sự [33], Thuy và cộng sự [34], Nguyen
và cộng sự [35], Thuy và cộng sự [36]) Nghiên cứu của Nguyen và cộng sự [33] là nghiên cứu đâu tiên công bô các bộ dữ liệu chuân cho cộng đông nghiên cứu về van
đề ABSA, có cùng định dạng với nhiệm vụ chia sẻ SemEval 2016 [37] Các bộ dữ
liệu của họ được gan nhãn ở mức độ câu và được chia thành các tập huân luyện — tập
kiểm thử - tập kiểm tra cho lĩnh vực khách sạn và nhà hàng Các bộ dữ liệu này rất
17
Trang 28thách thức do sự khác biệt giữa tập huấn luyện và tập kiểm thử liên quan đến số lượng
mẫu và độ dài của các đánh giá Sau đó, Thuy và cộng sự [34] cũng trình bày một bộ
dữ liệu được gán nhãn thủ công ở mức độ câu cho nhiệm vụ ACD với 6.472 câu
(3.796 câu bằng tiếng Việt và 2.676 câu bằng tiếng Anh) cho lĩnh vực nhà hàng Tiếptheo, Thuy và cộng sự [36] tiếp tục gán nhãn nhiệm vụ SPC cho bộ dữ liệu này vàkết hợp với bộ dữ liệu tiếng Anh được dịch [37] cho bộ dit liệu cuối cùng Tương tự,
Nguyen và cộng sự [35] cũng trình bày một bộ dữ liệu ở mức độ tài liệu cho ABSA
với hai nhiệm vu: ACD va SPC cho các đánh giá nha hàng So với các bộ dữ liệu khác, bộ dữ liệu của họ được gán nhãn với 7 danh mục khía cạnh và 5 cực cảm xúc.
Bên cạnh đó, cũng có bộ dữ liệu VLSP 2016, 2018 - bộ dữ liệu về nhận diện đối
tượng (NER), phân loại văn ban, va phân tích tình cảm hay bộ dữ liệu UIT-VSFC
(Vietnamese Students' Feedback Corpus) [38] - chứa phan hồi của sinh viên về cáckhóa học, sử dụng cho phân tích tình cảm và phân loại văn bản Ngoài ra, có một số
bộ dữ liệu phục vụ cho tác vụ đặc trưng như UIT-ViOCD (Vietnamese Offensive
Comment Detection Dataset) [39] là bộ dữ liệu được xây dựng dé phuc vu cho baitoán phát hiện các bình luận tan công, xúc phạm trên các nền tảng trực tuyến tiếng
Việt Bộ dữ liệu này bao gồm các bình luận từ mạng xã hội và diễn đàn trực tuyến,
được gắn nhãn thủ công đề phân loại giữa bình luận tấn công (offensive) và bình luậnkhông tan công (non-offensive) Hoặc là bộ dữ liệu UIT-ViHSD (Vietnamese HateSpeech Detection Dataset) [40] được xây dựng dé phát hiện các phát ngôn thù ghét(hate speech) trong các bình luận tiếng Việt Bộ dữ liệu này chứa các bình luận đượcthu thập từ các nền tảng mạng xã hội và được gan nhãn thành các loại phát ngôn thù
ghét (hate speech) và không phải phát ngôn thù ghét (non-hate speech).
Mặc dù đã có nhiều bộ dữ liệu tiếng Việt được phát triển để phục vụ cho bài toán
ABSA (Phân tích Cảm xúc Dựa trên Khia cạnh), nhưng với sự phát triển không ngừngcủa ngôn ngữ trên mạng xã hội hiện nay, chúng tôi nhận thấy răng có rất nhiều bìnhluận chứa đựng an ý và các cách truyền đạt ý kiến một cách gián tiếp Điều này đặt
ra thách thức lớn cho các bộ dữ liệu hiện tại, vì chúng đôi khi chưa thể trích xuất hiệuquả các nhãn ngầm liên quan đến những an ý này Những bình luận này là bình luận
18
Trang 29trên mạng xã hội nên thường sử dụng ngôn từ phong phú, lối diễn đạt gián tiếp và cáchình thức biéu đạt cảm xúc phức tạp, khiến việc phân tích gặp một số khó khăn khôngthể tránh khỏi Các bộ dữ liệu hiện có, mặc dù rất hữu ích, nhưng thường được thiết
kế dựa trên các ngữ cảnh truyền thống hơn và có thể không bao quát hết được các sắcthái ngôn ngữ mới mẻ và đa dang mới xuất hiện gần đây trên các nền tảng mạng xãhội Điều này có thể khiến cho các mô hình phân tích không đạt được độ chính xác
và hiệu quả cao như mong muốn khi gặp phải các bình luận chứa đựng nhiều lớpnghĩa và ân ý tinh tế Dé cải thiện kết quả trích xuất va đáp ứng tốt hơn nhu cầu phântích trong môi trường ngôn ngữ trực tuyến phức tạp, cần thiết phải phát triển thêmcác bộ dữ liệu mới, được cập nhật và tinh chỉnh phù hợp với sự thay đổi liên tục của
ngôn ngữ trên mạng xã hội.
=> Xem xét ở các góc độ trên, chúng tôi quyết định xây dựng bộ dữ liệu mới phục vụ
cho tác vụ trích xuất Bộ Tứ ACOS, trong đó bộ tứ bao gồm Aspect (đối tượng) Category (khía cạnh) - Opinion (ý kiến) - Sentiment (cảm xúc) Khia cạnh biểu thiđối tượng hoặc các thuật ngữ khía cạnh mà ý kiến đã được bày tỏ; Danh mục khíacạnh đại diện cho danh mục được định trước của các khía cạnh liên quan; Ý kiến biểuthị các từ hoặc cụm từ ý kiến đối với các khía cạnh; Cảm xúc biểu thị các cực cảmxúc đối với các khía cạnh Mỗi thuật ngữ khía cạnh có thé thuộc về các danh mụckhác nhau Trong một câu, danh mục khía cạnh thường được biểu đạt ngầm Ý kiếnđại diện cho các nhãn cảm xúc Những cảm xúc này có thê là cảm xúc rõ ràng có thể
-dễ dàng nhận biết hoặc là cảm xúc ngầm cần phải xem xét Cảm xúc đề cập đến cáccực cảm xúc của bộ ba thuật ngữ khía cạnh, danh mục khía cạnh và ý kiến Bên cạnh
đó, chúng tôi cũng tiến hành thực nghiệm bộ dữ liệu trên nhiều mô hình khác nhau
dé đánh giá độ chất lượng và hiệu quả của bộ dt liệu trên tác vụ trích xuất nhãn ngầmtrong bình luận Chúng tôi hy vọng nghiên cứu này sẽ một phần nhỏ vào tài nguyêncủa nghiên cứu xử lý ngôn ngữ tự nhiên ở Việt Nam Tạo tiền đề cho các công trìnhsau này, thúc đây sự phát triển của các nghiên cứu trên tác vụ ABSA cũng như tác vụ
trích xuât hiệu quả các nhãn ngâm trên ngôn ngữ mạng xã hội.
19
Trang 302.3 Động lực nghiên cứu
Nghiên cứu về nhiệm vụ trích xuất bốn thành han Đối tượng-Phân loai-Y
kién-Cảm xúc (ACOS) trong tiếng Anh đã được thực hiện và có nhiều công trình đa
dạng có thé tham khảo và áp dung Chang hạn như công trình nghiên cứu trích xuất
bốn thành phan trên bộ dữ liệu Laptop-ACOS và Restaurant-ACOS áp dụng
phương pháp Extract-Classify-ACOS của Cai và công sự [48]đã đạt được kết quả
như sau 0.3854 trên Precision, 0.5296 trên Recall, 0.4461 trên F1-Score cho bộ dữ
liệu Restaurant-ACOS và 0.4556 trên Precison, 0.2948 trên Recall và 0.3580 trên
F1-Score cho bộ dữ liệu Laptop-ACOS Bên cạnh đó, công trình của L1 và cộng sự
[52] áp dụng phương pháp Phát hiện và trích xuất bộ tứ ACOS với thông tin khoảng
cách từ ngữ cho bài toán ACOS và đạt được kết quả như sau 39.77 trên Precision,
54.53 trên Recall, 45.99 trên Fl-Score cho bộ dữ liệu Restaurant-ACOS và 44.93
trên Precision, 32.78 trên Recall, 37.91 trên Fl-Score cho bộ Laptop-ACOS Ngoài
ra, cũng có một số công trình đáng chú ý khác mà chúng tôi có thé tham khảo [50],
[51].
Nhu cầu và sự quan tâm đối với việc trích xuất thông tin từ các đánh giá, phản hồi
của người dùng đã thúc đây nhiều nhà nghiên cứu phát trién các phương pháp va
mô hình khác nhau Điều này tạo ra một kho tài liệu phong phú, cung cấp nền tảngvững chắc cho việc nghiên cứu và phát triển thêm trong lĩnh vực này Bên cạnh đó,
sự phong phú và đa dang của dữ liệu tiếng Anh cũng mở ra nhiều cơ hội để kiểm
thử và cải thiện các mô hình trích xuất thông tin, đặc biệt là trong việc hiểu và phân
tích các khía cạnh khác nhau của ngôn ngữ tự nhiên.
Mặt khác, tuy bài toán trích xuất bộ tứ ACOS trên bộ dữ liệu tiếng Việt quá nhiềunhãn thách thức quá trình gán nhãn và đánh giá, bộ dữ liệu đa nhãn khiến quá trìnhthực nghiệm gặp nhiều khó khăn và không đạt được kết quả cao Bên cạnh đó, bộ dữ
liệu của chúng tôi được thu thập từ các đánh giá mang xu hướng là ngôn ngữ mạng
xã hội, ngôn ngữ này dang dần phong phú và đa dang hơn, đa số đều không đúng cautrúc ngữ pháp của tiếng Việt, chứa nhiều teencode, từ ngữ chuyên nghĩa và biểu tượng
20
Trang 31cảm xúc Cùng với đó, ngôn ngữ trong câu không thống nhất, có nhiều loại ngôn ngữđược viết đan xen nhau Theo xu hướng hiện nay, giới trẻ thường hay sử dụng những
từ ngữ bị biến đổi đi ít nhiều so với ngôn ngữ chuẩn Với sự biến đối này khiến chođội ngũ gan nhãn gặp nhiều khó khăn trong việc đọc hiểu nội dung của các phản hồi
và tiêu tôn rât nhiêu thời gian cho việc xử lý dữ liệu.
21
Trang 32CHƯƠNG III XÂY DỰNG BỘ DỮ LIỆU
3.1 Sơ lược về bộ dữ liệu
Ở môn học đồ án, chúng tôi đã xây dựng một bộ dữ liệu nhằm phục vụ cho tác vụNER và ABSA Tuy nhiên, dần dần chúng tôi nhận thấy bộ dữ liệu và hướng đi cũmắc phải khuyết điểm là thiếu đi sự liên kết chặt chẽ giữa tác vụ NER và ABSA Khi
ay, chúng tôi đã thảo luận và chúng tôi quyết định áp dụng phương pháp ACOS dégiải quyết cho bài toán này Chúng tôi đã xây dựng lại bộ dữ liệu mới dựa trên bộ dữliệu cũ này nhăm phục vụ cho tác vụ ACOS Trong bộ dữ liệu được xây dựng lại này,chúng tôi sẽ tiến hành trích xuất các bộ bốn ACOS từ câu bình luận có n từ r = [Wy,
.„ M„] có câu trúc như sau:
SAcos = “ZZãZ?”" «1 Ôi
Trong đó, a; — Cj — 0y — S; là viết tắt của bộ bốn aspect category opinion
-sentiment, a; là đối tượng được trích xuất, c;e C là bộ phân loại khía cạnh (bao gồm
APPEARANCE, CHARACTERISTIC, SPECIALIZED, TECHNICAL, OTHER),
Ox đại diện cho ý kiến được trích xuất và s,€ {Tích cực, Trung tính, Tiêu cực} thểhiện cho cảm xúc của bộ ACOS Tác vụ trích xuất bộ tứ ACOS không chỉ xác định 4yếu tô trên mà còn kết hợp thành 1 bộ tứ, đồng thời xem xét đến aspect, opinion tiềm
ân Khi aspect, opinion ân không được biéu thị rõ ràng bằng từ hoặc cụm từ, trong
trường hợp aspect ân, chúng ta xem aspect là NULL và sử dung category dé mô tả
opinion của mục tiêu, va trong trường hợp opinion an, chung ta dat opinion 1a NULL
và sử dung sentiment dé mô tả định hướng ngữ nghĩa
Chúng tôi tiến hành thu thập các bình luận trên các video từ các chương trình giải trí
khá nỗi tiếng hiện nay như Rap Việt, 2 ngày 1 đêm, Ca sĩ mặt na, 7 nụ cười xuân,
Sau khi thu thập dữ liệu xong, chúng tôi sẽ tiến hành xử lý dữ liệu và loại bỏ các điểm
dữ liệu không thích hợp Sau đó chúng tôi gán nhãn dữ liệu và đánh giá độ đồng thuậnchéo với nhau, quá trình này tốn tương đối nhiều thời gian do độ đồng thuận của
22
Trang 33chúng tôi tương đối thấp và phải đánh giá lại nhiều lần Sau khi độ đồng thuận đạtmức chấp nhận được mức chấp nhận được, chúng tôi mới tiến hành gán nhãn chínhthức và phân tích dit liệu Sau khi hoàn thiện công đoạn gán nhãn, nhóm tiến hànhthống kê số lượng các điểm dữ liệu và nhận thấy bộ dữ liệu hiện tại đang mất cânbằng trên các trường dữ liệu của nhãn Category nên chúng tôi tiễn hành tăng cường
dữ liệu bằng một vài biện pháp khác nhau Tổng quan quy trình xây dựng bộ dit liệu
trên được chúng tôi thể hiện lại qua hình 4
3.2 Thu thập và tiền xử lý
Có rất nhiều công cụ có thé sử dụng để thu thập dữ liệu, thông thường người ta có thể
dùng các thư viện python như beautifulsoup, selenium hoặc sử dụng các request API
23
Trang 34từ google dé thu thập dữ liệu Đối với chúng tôi thi sử dụng công cụ app script củagoogle sheet dé thu thập dit liệu, công cụ này giúp cho chúng tôi dé quan sát trực tiếpcác mau dữ liệu sau khi thu thập xong, điều này sẽ giúp chúng tôi có thé phát hiện
được những bình luận spam hoặc không mang tính đóng góp Dữ liệu chúng tôi thu
thập được có cấu trúc bao gồm 6 cột là: số thứ tự, bình luận của người dùng, thời gianngười dùng bình luận vào video, số lượt yêu thích bình luận, số lượt comment phảnhồi bình luận đó Sau đó chúng tôi tiễn hành chon lấy những bình luận trực tiếp dưới
video thay và loại bỏ các bình luận phản hồi lại bình luận khác Nguyên nhân là vì
hầu hết các bình luận phản hồi lại người dùng đều tập trung vào việc đáp lại bình luận
chính thay vì mang tính đóng góp xây dựng cho video.
Hình 6 Phân phối số lượng bình luận thu thập được từ các chương trình
Kết quả ban đầu là thu được 10341 bình luận từ nhiều video khác nhau Sau khi thuthập bộ dữ liệu, chúng tôi sử dụng một số kỹ thuật để tiền xử lý dữ liệu nhằm thu
24
Trang 35được bộ dit liệu sạch và hoàn thiện nhất Các phương pháp tiền xử lý dữ liệu này bao
gôm một sô bước như sau:
e Loại bỏ các hashtag, tagname, đường link: Do một số bình luận chứa các
hashtag và đường link Trong khi hashtag thường là những chuỗi ký tự viếttắt cho chương trình, còn đường link lại thường có tác dụng là dẫn tới trangweb khác Do đó những phần tử này thường không mang lại nhiễu trong quátrình mô hình huấn luyện bộ dữ liệu nên chúng tôi tiễn hành loại bỏ chúng
e Loại bỏ các biểu tượng cảm xúc: Bên cạnh việc một sé người khi bình luận
thêm các biểu tượng cảm xúc vào nhằm tăng khả năng diễn đạt cảm xúc của
người dùng Những người còn lại thường thêm vào những biểu tượng cảm xúcmột cách ngẫu nhiên Điều này khiến cho gây khó khăn trong việc phân loại
cảm xúc và gây nhiễu trong quá trình phân tích từ ngữ Do đó, chúng tôi loại
bỏ chúng khỏi các bình luận.
e Loại bỏ các kiều chữ tượng hình: Các chữ tượng hình ở đây thường là các bình
luận thuộc các ngôn ngữ của các quốc gia khác như Trung Quốc, Hàn Quốc,
Thái Lan, Campuchia Những từ ngữ này thường không đóng góp vao việc phân tích ngữ nghĩa cho câu, vì vậy chúng tôi loại bỏ chúng khỏi dữ liệu.
e Chuẩn hóa dữ liệu bang vnCoreNLP: Chúng tôi sử dụng vnCoreNLP đề chuẩn
hóa dữ liệu, bao gồm việc tách từ, chuẩn hóa các từ viết tắt, từ địa phương Ví
dụ như “hóa” và “hoá” đều cùng là 1 từ nhưng cách trình bày khác nhau sẽkhiến cho mô hình hiểu đây là 2 từ riêng biệt Vì vậy, sau khi áp dụng phươngpháp chuẩn hóa sẽ được đưa về dạng chuẩn là “hóa”
e Tach các dau câu như dấu chấm (.), dau phây (,) ra khỏi từ ngữ dé các từ và
dau câu được xử lý riêng biệt Điều này giúp cải thiện độ chính xác của cácbước xử lý tiếp theo
@ Xóa bỏ các ký tự trùng lặp liền kề: Loại bỏ các ký tự trùng lặp liền kề để giảm
thiểu sự lặp lại không cần thiết và làm cho dữ liệu trở nên gon gang hon Ví
dụ như từ: “tuyệtttttttt” sẽ được chuẩn hóa thành “tuyệt”
25
Trang 36e Loại bỏ các câu quá ngắn hoặc quá dai: sau khi đi qua các bước tiền xử lý trên
thì chúng tôi kiểm tra và loại bỏ các bình luận có độ dài dưới 3 chữ vì chúnghầu hết là những bình luận vô nghĩa hoặc chứa phần lớn các biểu tượng cảmxúc, hashtag hoặc chữ tượng hình đã bị lược bỏ Đồng thời, chúng tôi cũng
loại bỏ các bình luận quá dài do chúng thường mang tính lan man, gây khó khăn cho quá trình gán nhãn, hoặc là các bình luận văn mâu mang tính spam.
Sau khi tiễn hành các bước tiền xử lý này, chúng tôi thu được bộ dữ liệu sạch với
9789 điểm dữ liệu Bảng 2 mô tả dữ liệu trước và sau khi tiền xử lý Dữ liệu sau khi
trải qua bước tiền xử lý được sử dụng cho phần gán nhãn và các bước tiếp theo
Chung kết mà âm thanh thì rè, đèn thì tối | chung kết mà âm thanh thì rè , đèn thì tối
acos thì môi dòng dau tiên sẽ là bình luận và bộ acos đâu tiên, môi dòng sau đó sẽ
26
Trang 37tương ứng với một bộ ACOS Các bộ ACOS này được phân tách thành 6 cột, bao gôm:
Hình 7 Ví dụ về các cột nhãn trong quá trình gan nhãn
Trong đó, begin aspect và end aspect được chúng tôi gán nhãn bằng số nguyên nhỏnhất là 0 đến lớn nhất là độ dài của câu được tính bằng từ 2 cột này đại diện cho vị
trí bắt đầu và vị trí kết thúc của cụm từ đại diện cho đối tượng và khía cạnh được đề
cập trong câu Tuy nhiên, trong một số trường hợp, khi mà bình luận người dùngthường không đề cập trực tiếp đến aspect, chúng tôi coi như các aspect đó bị ân đi và
gán nhãn cả begin aspect và end aspect là (- 1,-1) Cột begin aspect và end aspect này
định nghĩa đối tượng và khía cạnh được đề cập đến trong bình luận, trong đó đối
27