Tuy nhiên, các bộ dữ liệu đa thể thức hiện có cho nhiệm vụ Phân Tích Cảm Xúc Dựa trên Khía Cạnh Aspect Category Sentiment Analysis thường chỉ tập trung vào gán nhãn văn bản, bỏ qua thông
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
⁄ZZ
NGUYÊN HOÀNG QUÝ - 20521815
NGUYEN TRUONG MINH VĂN - 20522146
KHOA LUAN TOT NGHIEP
NGHIEN CUU MO HINH PHAN TICH CAM XUC DUA
TREN KHÍA CANH DA THE THUC CHO TIENG VIET
Multimodal Aspect Category Sentiment Analysis For Vietnamese
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN ThS NGUYEN VAN KIET
TP HO CHÍ MINH, tháng 7 năm 2024
Trang 2LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cảm ơn thầy Nguyễn Văn Kiệt — người đã hỗtrợ, đồng hành và hướng dẫn nhóm trong suốt quá trình thực hiện khóa luận Nhờ sự
tận tâm, nhiệt huyết, những góp ý vô cùng quý giá của thầy đã hỗ trợ chúng em rất
nhiều khi thực hiện khóa luận tốt nghiệp
Bên cạnh đó, chúng em xin cảm ơn quý thầy cô Trường Đại học Công nghệ Thôngtin nói chung và các thầy cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng Lờidạy dỗ ân cần, những kiến thức thầy cô truyền cho chúng em từ những ngày đầu
bước chân vào giảng đường đại học đã là hành trang vô giá giúp chúng em hoàn
thiện khóa luận tốt nghiệp cũng như đương đầu với những thử thách trong tương lai
Cuôi cùng, chúng em xin gửi loi cảm ơn đên gia đình, bạn bè đã luôn đông hành,
khuyến khích, chia sẻ những niềm vui, nỗi buồn trong suốt quá trình học tập
Một lần nữa chúng em xin chân thành cảm ơn!
Nhóm tác giả Nguyễn Hoàng Quý Nguyễn Trương Minh Văn
Trang 3Chương 1 TONG QUAN 2-52 SE 2E EEE12E1221211211211211211 2121.211 cxe 2
1.1 Vai trò của bài toán nhận diện cảm xúc dựa trên khía cạnh 2
1.2 Bài toán nhận diện cảm xúc dựa trên khía cạnh da thể thức - 3
1.3 Những thách thức của đề tài - ¿5252 +St+E2EE 2 232121212 rrrrrrei 5
1.4 Mục tiêu của dé tài cv re 6
1.5 Đóng góp của dé tài ¿5+ St E2 2E1211211211211211211 211211111 1e crrrei 6
1.6 Cấu trúc khóa luận -+-+2+++tttEExttttEktrrtttrtrrttttrrrrtriirrrrirrr 7
Chương 2 CÁC CÔNG TRÌNH NGHIÊN CUU LIÊN QUAN 9
2.1 Các bộ dữ liệu phân tích cảm xúc da thé thức - 2 s2 s+5ss2s+e: 9
2.2 Các phương pháp phân tích cảm xúc da thể thức :-s- ¿5+ 11
2.3 Phan tích cam xúc da thé thức cho Tiếng Việt -5¿ ©2555 552 12
Chương 3 BỘ DU LIỆU ¿- 2 2EESE+EESEEEEESEEEEEEEEEEEEEEEEkrrkrrerreee 14
3.1 Dinh nghia bal non 6 ốc e- 14
3.2 Thu thập dữ liệu - Ăn SH ng HH HH 14
3.3 Quá trình gan nhãn - - c2 191121119111 911 9111911 ng kg re 15
3.3.1 Dinh nghĩa các khía cạnh c + + xxx rsirerrrerrerreree 15
3.3.2 Gán nhãn dữ liỆU - G6 th ni, 16 3.4 Đánh giá bộ dữ liệu - - 5c SG 3S S91 91 1 9 1111 1x vn HH nh 18
3.4.1 Cac độ đo đánh giá - c 1v TH TT TH ng ngư 18
3.4.2 Kết quả đánh gid ccceccccccccccsssssssesssesssessssssscssecssscssecssecsseessecseseseesseeens 19
3.5 Phân tích bộ dữ liỆu - - - G1 ng HH HH 21
BSL I`Ề.“ GOBHRH 21 3.5.2 Dac trưng bộ dữ liệu - - 6 kg ng ni, 22
Trang 43.5.3 Các thống kê về bộ dit liệu - 2 +5 ++E£+E+EtEzErrrrsrreres 24
Chương 4 FINE-GRAINED CROSS-MODAL FUSION FRAMEWORK 26
sa sa a 26
4.1.1 S€lÍ-Atfention ch HH TH ng HH ng 26
4.1.2 Multi-modal Atfen(tiOn - c1 kg ng ng, 27
4.1.3 Cross-modal Atf€nfIO - o «ch ng key 29
4.1.4 Object Relation Module - - 5 + 5+ + SE krkesererkee 30
4.1.5 Mô hình XLM-RoBERTia - tiệt 32 4.1.6 Mạng R€sÌNe( LG LH HH HH HH ng kg cư, 33
4.2 Tổng quan kiến trúc ÍramewWOrk - 2 2 £+£+£E+£E£+E+rxrxzzrxrsee 34
4.2.1 Image PTOC€SSINE Gv rry 36
4.2.1.1 Aspect Category Def€CfIOn -cSSc si sksseerreeree 36
4.2.1.2 Visual Features EXfraCfION Ăn se 37
4.2.2 Auxiliary S€n(€ICG SG ng kg ry 38
4.2.3 Image-guided Aff€ntIOT - - 5 + + SE v vn ng tr ey 38 4.2.4 Geometric Rol-aware Aff€T(IOH c5 cv key 39 4.2.5 Sentiment Deft€CfIOI 5 S5 s01 vn rry 40
Chương 5 CAI ĐẶT, KET QUA VÀ DANH GIA - 5552555552 42
“00 ith CO SO 42
5.1.1 M6 hình dựa trên van ban oo ccc ccccccssscceesscceesseceesseceesseeeesseeeesses 42 5.1.2 M6 hình dựa trên văn bản và hình ảnh -. «5555 +<<<<<<+ 43 5.2 DO do damh Gia nh hố h6 .4 44
5.3 Tiền xử lí dữ liệu -+c+krrtErtrtrtrirrrtiirrririrrirerirree 45
5.4 Thiết kế thử nghiệm :- 2° k+SE+SE+EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrree 46
Trang 55.5 Kết quả đạt được -:- c- St EEEE1211111211211211111 1.1.1 47
5.6 Sur ảnh hưởng của số lượng anh o eeccecscsssesssesssesssesssecssecssecssecssecsssssecssecsses 49
5.7 Su ảnh hưởng của lượng đữ liệu huấn 050 49
5.8 Su ảnh hưởng mô hình trích xuất đặc trưng văn bản -: 50
5.9 Thử nghiệm cắt D0 ccccccsssesssesssesssesssecssssssessuccsscssscssecsuesssecsuecsscsssessecesecsses 51
5.10 _ Phân tích lỗi - +2 ©+S++2++EE+EESEEEEESESEEEEetksrterrrrerrsree 52
5.10.1 So sánh kết quả dự đoán giữa các mô hình : 52
5.10.2 Cac trường hợp lỗi của FCME -2- 2©2+2c+2c++zzzzrzrrses 54
5.10.3 Các trường hợp lỗi của nhãn Neutral - 2-5 2 s+s+ss5s+s+ss 56
5.11 _ Trực quan hóa thông tin biểu diễn văn bản và hình ảnh - 58Chương 6 KÉT LUẬN VÀ HƯỚNG PHÁT TRIỀN 2-22 5252 62
6.I Kếtluận /Z GR A @ ì) / 62
6.2 Hạn chế và hướng phát triỂn - 2-2 2+2 ++£++£+E++x++xzrzrezxee 62
TÀI LIEU THAM KHẢO -2+£22522ES++‡SEEEtEEEEkrtttrkkrrrtrkkrrrrrtrrerrrkeg 64
PHU LUC 55H ‹+£1đDđỒ 74
1 Mô tả chương trình đ€ImO - - 6 6 E111 1E vn ng ng 74
2 Kết quả của chương trình demo -2- 22 5¿©+2+2E++£E++EE++Ex+zrxrzrxrzreee 74
2.1 Giao diện chung của chương trÌnH - xxx vsevseeeersersrseeske 74
2.2 Giao diện kết qua dự đoán của chương trình 2-2 2 z+sz+sz+szzsz 75
Trang 6DANH MỤC HÌNH
Hình 1.1: Ví dụ về phân tích cảm xúc dựa trên khía cạnh đa thé thức 4
Hình 3.1: Quá trình gan nhãn ba giai Goan c5 S2 S2 E+vvxeereerserees 16 Hình 3.2: Giao diện Label Stud1o c5 2< 1332213122 E£EEEkEseekkeerxeecee 17 Hình 3.3: Giao diện x-anylabelIng - - + + 1+ 3E + EEEEESeeserreererrrerreee 18 Hình 3.4: Điểm số Cohen’s Kappa trong giai đoạn huấn luyện . 20
Hình 3.5: Điểm số IoU trong giai đoạn huấn luyện 2-2 2 2+sz+sz+sz2s++‡ 20 Hình 3.6: Word cloud của bộ dữ liệu VIMACSA - 77 ẶSS Sccc S222 ee 21 Hình 3.7: Thống kê các lỗi phô biến trên 100 mẫu ngẫu nhiên của bộ dữ liệu .22
Hình 3.8: Tỷ lệ hình ảnh có liên quan/không liên quan trong bộ dữ liệu VIMACSA ¬ Ea 23
Hình 3.9: Phân phối các khía cạnh trên 3 tập dữ liệu 2 2 25+: 25 Hình 4.1: Kiến trúc Self-Attention (trái) và Multi-Head Self- Attention (phải) 27
Hình 4.2: Kiến trúc Multi-modal Attention -¿-s-¿+sz++++x++x+zrxerxezrserxez 29 Hình 4.3: Kiến trúc Cross-modal Attention - 2 s¿©£+++x++x++zxezxzxszrxeee 30 Hình 4.4: Kiến trúc Object Relation -. 2-2 2 £+E£+EE+EE+EE+EEEEEEEEEErrerrerreee 32 Hình 4.5: Kiến trúc 1 khối residual -. -++2©+++ttE+xetrtrkkerttrkrrrerrkrrrrrrkeg 34 Hình 4.6: Tổng quan kiến trúc FCME framewOrk -2- 2 2 s+s2+£2+£z+£z2£z2x++š 35 Hình 5.1: Các bước tiền xử lí đữ liệu -. -¿ +: +2 +t+E+E+ESEEEEEEEE+ESEEEeEeEErErtrerrrrrrrsre 46 Hình 5.2: So sánh kết quả giữa FCME với các mô hình khác trên từng khía cạnh .48 Hình 5.3: Sự ảnh hưởng của số lượng anh lên FCMF framework - 49
Hình 5.4: Sự ảnh hưởng của lượng dữ liệu huấn luyện lên FCME framework 50
Hình 5.5: Grad-Cam cho nhiệm vụ nhận diện khía cạnh trong mỗi hình ảnh 60
Hình 5.6: Mức độ quan trọng của từng từ có liên quan tới khía cạnh 60
Hình 5.7: Mức độ quan trọng của từng từ với các Rol (trái) và trực quan trọng số
chú ý giữa Rol-3 với các Rol khác (phải) - - - ¿+ + + + E*+skEsekseesekesesee 61 Hình PL.0.1: Logo công cụ SfrearmÌIf - - << s xxx 9E vn ke 74 Hình PL.0.2: Giao diện chung của chương trÌnh .- - 5 cxssseseeseesree 75
Hình PL.0.3: Giao diện kết qua của chương trình -2 ¿+2cx2z+z+sse2 75
Trang 7DANH MỤC BANG
Bảng 2.1: Những bộ dữ liệu hiện có về phân tích cảm xúc đa thé thức 10Bang 3.1: Một số lỗi thường xuất hiện trong bộ dit liệu ViMACSA - 23Bảng 3.2: Thống kê tổng quan của bộ dữ liệu ViMACSA -: 5:-55+¿ 24Bang 3.3: Số lượng các khía cạnh mỗi thé thức 2 2 2 2 2+££+££+£z+£zzszez 24Bang 5.1: Kết quả thử nghiệm các mô hình trên bộ dit liệu ViMACSA 48
Bang 5.2: Kết quả các mô hình trích xuất đặc trưng - 2 2 2+sz+sz+sz+s++‡ 51
Bang 5.3: Kết quả các thử nghiệm cắt bỏ -2- 2-52 225£2S£+£2E+EzEzrrrerreee 52Bảng 5.4: So sánh kết quả dự đoán của các mô hình -. -¿- ¿2s++sz+5s+¿ 33
Bảng 5.5: Các trường hợp lỗi của FCMF framework - : 2-5+©5+2s+2x+csse2 54 Bảng 5.6: Các trường hợp lỗi của nhãn Neutral ¿2+ +525++5++5+>x+5+2 57
Trang 8DANH MỤC TU VIET TAT
STT Từ viết tắt Ý nghĩa
1 ACSA Aspect Category Sentiment Analysis
2 BERT Bidirectional Encoder Representations from
Transformers
3 FCMF Fine-grained Cross-Modal Fusion
4 RoBERTa Robustly optimized BERT approach
5 Rol Region of Interest
6 SOTA State-Of-The-Art
7 ViMACSA Vietnamese Multimodal Aspect Category
Sentiment Analysis
Trang 9TOM TAT KHÓA LUẬN
Sự xuất hiện của dit liệu đa thé thức trên nền tảng mạng xã hội đã mang đếnnhững cơ hội mới để nắm bắt rõ hơn về cảm xúc, trải nghiệm của người dùng đốiVỚI các sản phẩm và dịch vụ Tuy nhiên, các bộ dữ liệu đa thể thức hiện có cho
nhiệm vụ Phân Tích Cảm Xúc Dựa trên Khía Cạnh (Aspect Category Sentiment
Analysis) thường chỉ tập trung vào gán nhãn văn bản, bỏ qua thông tin chỉ tiết quýgiá có thé được thu thập từ hình ảnh Do đó, chúng không thé khai thác đầy đủ sự
phong phú và tiềm năng mà dữ liệu đa thể thức mang lại.
Nhận thấy tầm quan trọng mà bài toán này mang lại, chúng tôi giới thiệu một
bộ dữ liệu đa thể thức tiếng Việt mới là VIMACSA, bao gồm 4,876 cặp văn hình ảnh với tổng cộng 14,618 nhãn chỉ tiết cho cả văn bản và hình ảnh trong lĩnhvực khách sạn Bộ dữ liệu này cung cấp các thông tin chi tiết và toàn diện về khíacạnh và cảm xúc của người dùng thông qua sự kết hợp giữa hình ảnh và văn bản.Điều này cho phép khai thác tối đa lượng thông tin từ cả hai thể thức, góp phần cải
ban-thiện tính chính xác của các mô hình phân tích cảm xúc.
Bên cạnh đó, chúng tôi đã nghiên cứu và dé xuất một framework mới với tên
Fine-Grained Cross-Modal Fusion (FCMEF), có khả năng học được cả tương tac
nội thé thức và liên thé thức, sau đó hợp nhất các tương tác này dé có được một biểudiễn đa thể thức thống nhất Kết quả thử nghiệm cho thấy rằng framework của
chúng tôi vượt qua các mô hình SOTA khác trên bộ dữ liệu VIMACSA, đạt được
điểm F1 cao nhất là 79.73% Điều này chứng minh được sự vượt trội của FCMFtrong việc xử lí dữ liệu đa thể thức
Chúng tôi cũng khám phá những đặc điểm và thách thức trong phân tích cảmxúc đa thê thức tiếng Việt, bao gồm việc viết sai chính tả, viết tắt và sự phức tạp củangôn ngữ tiếng Việt Các thách thức này đòi hỏi các phương pháp tiếp cận đặc biệt
đê cải thiện độ chính xác.
Trang 10Chương 1 TONG QUAN
1.1 Vai trò của bài toán nhận diện cảm xúc dựa trên khía cạnh
Trong bối cảnh năng động của ngành dịch vụ nói chung và nhà hàng kháchsạn nói riêng, việc quan tâm đến cảm xúc, trải nghiệm của người dùng là thiết yếuđối với các doanh nghiệp Một trong các phương pháp hiệu quả là phân tích cảmxúc của người dùng thông qua các bình luận do người dùng để lại sau đó tiến hànhcác thay đôi phù hợp Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân tích cảm xúc là
một bài toán thu hút được nhiêu sự chú ý của các nhà nghiên cứu trên thê giới.
Nhận diện cảm xúc dựa trên khía cạnh (AspectBased Sentiment Analysis ABSA) là một nhánh đặc thù và quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phân tích cảm xúc ABSA không chỉ dừng lại ở việc phân loại cảm xúc
-tổng quát mà còn ổi sâu vào từng khía cạnh cụ thé của dịch vụ hoặc sản phẩm,
mang lại cái nhìn rõ ràng và chỉ tiết hơn về cảm xúc của người dùng Điều này tạo
nên sự khác biệt của ABSA khi so sánh với các phương pháp trước đó.
ABSA đóng vai trò quan trọng trong việc giúp các nhà cung cấp dịch vụ nămbắt và hiểu rõ hơn về phản hồi chi tiết từ khách hàng Khi phân tích cảm xúc dựa
trên khía cạnh, hệ thống xác định chính xác những yêu tố nào của sản pham hoặc
dịch vụ đang được khách hàng đánh giá cao hoặc không hài lòng Ví dụ, trong một nhà hàng, khách hàng yêu thích thức ăn nhưng lại không hài lòng với dịch vụ.
ABSA sẽ phân tích các bình luận và xác định rằng cảm xúc tích cực chủ yếu liênquan đến chất lượng thức ăn, trong khi cảm xúc tiêu cực liên quan đến dịch vụ Nhờvậy, người quản lý có thé tập trung cải thiện dịch vụ mà không cần thay đổi quánhiều về thực đơn, từ đó giảm chỉ phí và nâng cao sự hài lòng của khách hàng
Ngoài ra, ABSA có nhiều lợi ích khi phân tích và dự đoán xu hướng thị
trường Bằng cách theo dõi và phân tích cảm xúc của khách hàng theo thời gian,doanh nghiệp có thé thấy các xu hướng mới nổi và thay đối trong sở thích của
Trang 11khách hàng Từ đó các doanh nghiệp có thể đáp ứng nhanh chóng với những thayđối, từ đó duy tri và nâng cao vị thế cạnh tranh.
Trong lĩnh vực nghiên cứu và phát triển, ABSA cung cấp một công cụ mạnh
mẽ dé khám phá cách mà con người biểu đạt cảm xúc và ý kiến qua ngôn ngữ Nógiúp các nhà nghiên cứu hiểu sâu hơn về mối quan hệ giữa cảm xúc với ngôn từ, từ
đó phát triển các mô hình ngôn ngữ và hệ thống có khả năng tương tác và nhạy bén
hơn với con người Các ứng dụng của ABSA trong lĩnh vực này rất đa dạng, từ hệthong phân tích dư luận xã hội, đến phát triển các trợ lý ảo có khả năng tương tác
với người dùng.
Một ứng dụng thực tiễn khác của ABSA là trong việc quản lý danh tiếng vàthương hiệu Các doanh nghiệp có thé sử dụng ABSA để theo dõi và phân tích cảmxúc của công chúng về thương hiệu của mình trên các mạng xã hội và diễn dan.Điều này giúp họ nhận biết sớm các van đề tiềm ẩn và giải quyết chúng để ngănchặn những ảnh hưởng tiêu cực đến danh tiếng của mình
Tóm lại, nhận diện cảm xúc dựa trên khía cạnh (ABSA) đóng vai trò vô cùng
quan trọng, từ kinh doanh, nghiên cứu thị trường, phát triển công nghệ, đến quản lýthương hiệu Với khả năng phân tích cảm xúc chỉ tiết và cụ thé, ABSA giúp chúng
ta hiểu rõ hơn về cảm xúc và suy nghĩ của người dùng, dựa vào đó hỗ trợ đưa ra cácquyết định tốt hon Với sự phát triển liên tục của dit liệu và công nghệ, ABSA sẽvẫn là một công cụ quan trọng, mang lại giá trị to lớn cho các doanh nghiệp và tô
chức.
1.2 Bài toán nhận diện cảm xúc dựa trên khía cạnh da thể thức
Sự phát triển của các dữ liệu đa thể thức đã dẫn đến các hướng nghiên cứu
mới cho nhiều nhiệm vụ khác nhau, bao gồm cả ABSA Phân tích cảm xúc dựa trên
khía cạnh đa thé thức (Multimodal Aspect-Based Sentiment Analysis - MABSA)tích hợp các dữ liệu liên quan ngoài văn ban dé xác định cảm xúc dựa trên khíacạnh trong một văn bản cụ thể [1, 2, 3] Cách tiếp cận này khác biệt so với phân tích
Trang 12cảm xúc truyền thống là nó kết hợp các thé thức bổ sung dé năm bắt thông tin mà cóthê không được đề cập rõ ràng trong văn bản.
Nhận diện cảm xúc dựa trên khía cạnh đa thể thức (MABSA) là một bước tiến
quan trọng và đầy hứa hẹn trong lĩnh vực nhận diện cảm xúc dựa trên khía cạnh
(ABSA) Trong khi ABSA truyền thống chủ yếu tập trung vào phân tích văn bản để
xác định cảm xúc liên quan đến khía cạnh cụ thé, Multimodal ABSA mở rộng phạm
vi bằng cách kết hợp nhiều nguồn dit liệu khác nhau như âm thanh, hình ảnh, video
và văn bản Sự kết hợp này mang lại cái nhìn toàn diện hơn về cảm xúc của ngườidùng, từ đó cải thiện hệ thống phân tích cảm xúc
“Thực sự rất ng ý luôn, mọi thứ đều đẹp và các anh chị ở đây làm việc rất thân thiện nhiệt tình.”
Aspect Loc | Room | Food Fac Pub Ser
Sentiment 0 Pos 0 Pos Pos Pos
Hình 1.1: Ví dụ về phân tích cảm xúc dựa trên khía cạnh đa thể thức
L
Ngày nay trên mạng xã hội và các trang web đánh giá đều cho phép ngườidùng đăng tải hình ảnh, đây là một trong những tiền đề thích hợp để phát triển
multimodal ABSA Với ví dụ trong Hình 1.1, một người dùng sau khi trải nghiệm
tại khách sạn đề lại một bình luận như: “Thực sự rất ưng ý luôn, mọi thứ đều đẹp vàcác anh chị ở đây làm việc rất thân thiện nhiệt tình” Với cụm “các anh chị ở đâylàm việc rất thân thiện nhiệt tình”, ta dé dàng nhận biết khía cạnh được đề cập liên
quan đên nhân viên và cảm xúc ở đây là tích cực Tuy nhiên với cụm “Thực sự rât
Trang 13ưng ý luôn”, ta có thé thấy cụm này biểu đạt cảm xúc tích cực nhưng lại không đềcập rõ khía cạnh nào Đây là một trong những bình luận thường thấy trên mạng xãhội Điều này đôi khi gây khó khăn cho các bài toán ABSA thông thường.
Dé giải quyết thách thức này, chúng tôi giới thiệu nhiệm vụ Phân Tích CảmXúc Dựa trên Khia Cạnh Da Thể Thức (Multimodal Aspect Category Sentiment Analysis - MACSA), tận dụng cả văn bản và hình ảnh dé xác định cảm xúc của một
khía cạnh nhất định Ví dụ, nếu người dùng cung cấp ảnh của phòng khách sạn,chúng tôi có thể suy ra rằng “Thực sự rất ưng ý luôn” có ám chỉ đến căn phòng.Thông tin bổ sung như vậy có thé nâng cao đáng kể hiệu suất của các nhiệm vu
ABSA.
1.3 Những thách thức của đề tài
Phân tích cảm xúc dựa trên khía cạnh đa thể thức (MACSA) đem đến nhiều
lợi ích to lớn nhưng cũng di kèm với những thách thức.
Thứ nhất, việc xử ly kết hợp đa dạng nhiều thê thức Mỗi loại thé thức có đặcđiểm và cấu trúc riêng, yêu cầu các kỹ thuật xử lý phức tạp Bên cạnh đó việc kếthợp các đặc trưng thu được từ những thé thức cũng không dễ dàng Dé giải quyết
van dé này cần sử dụng các thuật toán phức tạp giúp kết hợp đặc trưng của từng thé
thức Ví dụ, hình ảnh cho biết thông tin về cảnh quan xung quanh trong khi văn bảncho biết về suy nghĩ, cảm nhận của người viết Dé kết hợp các nguồn thông tin nàyhiệu quả cần phải có các kỹ thuật tiên tiến giúp xử lí dit liệu phi cau trúc
Thứ hai, MABSA yêu cầu tài nguyên tính toán lớn Xử lý và phân tích đồngthời nhiều thé thức đòi hỏi bộ nhớ, CPU và GPU mạnh mẽ, làm tăng chi phí và yêucầu về công nghệ Việc xử lý lượng lớn dữ liệu dẫn đến thời gian xử lí lâu hơn, làmtăng độ trễ của hệ thống Điều này vô cùng quan trọng trong những ứng dụng thờigian thực, nơi mà tốc độ và hiệu quả của việc phân tích cảm xúc có thể ảnh hưởng
lớn đên trải nghiệm của người dùng.
Trang 14Cuối cùng, đề đào tạo các mô hình MABSA cần có các bộ đữ liệu đa thể thứclớn và chất lượng cao Tuy nhiên, quá trình thu thập và gán nhãn các bộ dit liệu này
yêu câu nhiêu công sức Ở Việt Nam hiện nay vẫn chưa có bộ dữ liệu Tiêng Việt
cho bải toán nhận diện cảm xúc dựa trên khía cạnh đa thê thức mà chỉ xoay quanh các bai toán trên văn bản thông thường.
1.4 Mục tiêu của đề tài
'Trong nghiên cứu này, chúng tôi có những mục tiêu như sau:
Xây dựng bộ dữ liệu cho bài toán phân tích cảm xúc dựa trên khía cạnh đa
thê thức trên tiếng Việt
Nghiên cứu, thử nghiệm các công trình trước đó trên bộ dữ liệu đã xây dựng.
Đề xuất một công trình mới do nhóm tìm hiểu và phát trién
Xây dựng ứng dụng minh họa phân tích cảm xúc dựa trên khía cạnh đa thể
thức.
1.5 Đóng góp của đề tài
Những đóng góp chính của chúng tôi trong đề tài này bao gồm:
Xây dựng bộ dữ liệu VIMACSA được gan nhãn chi tiết trên cả hình ảnh vàvăn bản cho bai toán phân tích cảm xúc dựa trên khía cạnh đa thé thức dànhcho Tiếng Việt Chúng tôi hi vọng đây sẽ là một bộ dữ liệu chuẩn dùng déđánh giá cho các công trình nghiên cứu khác trong tương lai về lĩnh vực này.Thử nghiệm các mô hình tiên tiến cho bài toán đa thể thức đã được công bố
trên thé giới
Đề xuất framework mới có tên Fine-Grained Cross-Modal Fusion (FCMF)
với khả năng học được những tương tác giữa hình ảnh và văn bản thông qua
cơ chế Attention
Tiến hành đánh giá FCMF framework với các mô hình tiên tiễn khác trên bộ
dữ liệu ViMACSA Kết qua thử nghiệm cho thấy framework của chúng tôi
Trang 15vượt qua các mô hình tiên tiên khác và thê hiện được tiêm năng của nó trong
việc làm mô hình cơ sở trong nghiên cứu tương lai sử dụng bộ dữ liệu này.
1.6 Cấu trúc khóa luận
Khóa luận này gồm 6 chương với các nội dung chính sau:
> Chương 2: Các công trình nghiên cứu liên quan
Trong chương 2, chúng tôi sẽ nghiên cứu và trình bày các bộ dữ liệu và các phương pháp liên quan tới bai toán trong và ngoai nước.
> Chương 3: Bộ dữ liệu
Trong chương 3, chúng tôi sẽ định nghĩa bai toán nhận diện cảm xúc dựa trên khía
cạnh Sau đó sẽ trình bày quá trình xây dựng bộ dữ liệu bao gồm: thu nhập, gán
nhãn, đánh giá, phân tích.
> Chương 4: Fine-grained Cross-Modal Fusion Framework
Trong chương 4, chúng tôi sẽ trình bày cơ sở lí thuyết của các module trong
framework của chúng tôi đề xuất Sau đó, chúng tôi trình bày chỉ tiết các module
trong framework: Image Processing, Auxilliary Sentence, Image-guided Attention, Geometric Roi-aware Attettion va Sentiment Detection.
> Chương 5: Cai đặt, kết quả và đánh giá
Trong chương 5, chúng tôi sẽ tóm tắt các mô hình SOTA trước đây để so sánh vớiframework chúng tôi đề xuất Tiếp theo, chúng tôi trình bày về độ đo đánh giá,bước tiền xử lí đữ liệu, và tham số cài đặt của các mô hình Cuối cùng, chúng tôinhận xét kết quả đạt được và phân tích các lỗi gặp phải
> Chương 6: Kết luận và hướng phát triển
Trang 16Trong chương cuối, chúng tôi trình bày những kết quả thu được, đồng thời rút ranhững hạn chế và đề xuất các hướng phát triển trong tương lai trong khóa luận tốt
nghiệp này.
Trang 17Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Các phương pháp tiếp cận đa thé thức đã nhận được sự quan tâm rộng rãi từ các nhà
nghiên cứu trên toàn thế giới [4, 5, 6, 7, 8, 9], bao gồm cả lĩnh vực phân tích cảm
xúc đa thể thức Phân tích cảm xúc đa thể thức (Multimodal Sentiment Analysis MSA) nhằm hiểu rõ cảm xúc được truyền tải thông qua sự kết hợp của nhiều théthức như giọng nói, hình ảnh và văn bản Các nhà nghiên cứu đã phát triển nhiều bộ
-dữ liệu đa thể thức dé hỗ trợ nghiên cứu nhiệm vụ MSA (Phan 2.1) Các phươngpháp tiên tiến đã xuất hiện để giải quyết nhiệm vụ MSA, ví dụ như những mô hình
dựa trên LSTM va BERT, cho phép phân tích sâu các tương tác phức tạp giữa các
thé thức (Phan 2.2) Hơn nữa, chúng tôi đánh giá toàn diện các bộ dữ liệu vaphương pháp hiện có về bài toán đa thê thức trên tiếng Việt (Phần 2.3)
2.1 Các bộ dữ liệu phân tích cảm xúc đa thể thức
Nhờ sự phát triển nhanh của công nghệ, người dùng có thể biểu đạt cảm xúcthông qua thé thức âm thanh và hình anh Phân tích cảm xúc đa thé thức tận dụng
những khả năng mới này, mang lại một sự mở rộng mạnh mẽ của phân tích cảm xúc
truyền thống dựa trên văn ban Lĩnh vực nay đã nhanh chóng phát triển mạnh mẽ,
thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trên toàn thế giới [3] Hiện nay
có rất nhiều bộ dữ liệu chất lượng cao để hỗ trợ nghiên cứu này, như được trình bàytrong Bảng 2.1 Hầu hết các bộ dữ liệu này tập trung vào phân tích cảm xúc trênvideo, bao gồm [10, 11, 12, 13, 14, 15, 16]
Tuy nhiên, có tương đối ít các bộ dữ liệu phân tích cảm xúc đa thể thức tập
trung vào dữ liệu văn bản-hình ảnh Năm 2019, Cai và các cộng sự [17] đã tạo ra
một bộ dữ liệu đa thé thức dé phân loại các bình luận châm biến Năm 2021, Zhou
và các cộng sự [18] đã tạo ra một bộ dit liệu đa thé thức với 38,532 mẫu trên 7 miền
và 57 khía cạnh Năm 2022, Ramamoorthy và các cộng sự [19] đã tạo ra một bộ dữ
Trang 18liệu dựa trên meme đa thể thức với 10,000 mẫu cho ba nhiệm vụ: Phân tích cảm
xúc, Phân loại biêu cảm, và Cường độ cảm xúc.
Các bộ dữ liệu trên đêu được gán nhãn cho phân tính cảm xúc ở câp độ câu Đôi với các bộ dữ liệu tập trung vào nhiệm vụ phân tích cảm xúc ở câp độ khía
cạnh, Xu và các cộng sự [20] đã tạo ra một bộ dữ liệu đa thé thức chứa 5,528 mẫu
trên miền điện thoại, được gán nhãn trên 6 khía cạnh (screen, photographing effect,
appearance and feeling, performance configuration, battery life, and price
performance ratio) Năm 2019, Yu và các cộng sự [21] đã tao ra hai bộ dữ liệu, Twitter-15 và Twitter-17, được gan nhãn cảm xúc trên mỗi khía cạnh.
Bảng 2.1: Những bộ dữ liệu hiện có về phân tích cảm xúc đa thê thức
Dataset Year Source | Modality | Language Labels | #Aspects | #Samples
MVSA-Multiple | 2016 Twitter V+T English Neg, - 19,600
[22] Neu,
Pos
B-T4SA [23] 2017 | Twitter V+T English [-3,3] - 470,586
CMU-MOSEI 2018 | Youtube | A+V+T English [-3,3] - 23,453
Multi-ZOL [20] | 2019 ZOL V+T Chinese [1,10] 6 5,228
MELD [14] 2019 The A+V+T English Emotion 7 13,000
Friends
10
Trang 19CH-SIMS [15] 2020 Movie, A+V+T Chinese [-1,1] - 2,281
Memotion 2 2022 | Facebook, V+T English Neg, 20 10,000 [19] Reddit, Neu,
etc Pos,
Emotion
2.2 Cac phương pháp phân tích cảm xúc da thé thức
Các nghiên cứu trước đây về phân tích cảm xúc dựa trên khía cạnh chủ yếu tập
trung vào phân tích cảm xúc trong dữ liệu văn bản, bao gồm [24 25, 26, 27, 28].Tuy nhiên, đối với dit liệu đa thé thức, mục tiêu là xác định mối quan hệ giữa khíacạnh-cảm xúc và kết hợp các thé thức hiệu quả [2, 1, 29, 30, 31, 32]
Các kỹ thuật kết hợp (fusion) hiện tại được phân loại thành ba loại chính: kếthợp sớm (early fusion), kết hợp trung gian (intermediate fusion) và kết hợp muộn(late fusion) [33] Đối với early fusion, đặc trưng của các thé thức được nối với
nhau dé tạo thành một biéu diễn đặc trưng chung Ngược lai, late fusion sử dụng các
mô hình độc lập cho mỗi thé thức, sau đó tổng hợp chúng dé tạo ra đầu ra cuối
cùng Tuy nhiên, những kỹ thuật này không nắm bắt được tương tác giữa các thé
thức.
Dé giải quyết van dé này, kỹ thuật intermediate fusion được sử dụng dé phân
tích tương tác phức tạp giữa các thể thức Ví dụ, vào năm 2019, Xu và các cộng sự
[20] tạo ra mô hình MIMN sử dụng mạng lưới nhớ tương tác (interactive memory
11
Trang 20networks) để học tương tác nội và liên thé thức Cùng năm đó, Yu và các cộng sự[34] tạo ra mô hình ESAFN, kết hợp cơ chế công (gating), và các tương tac bilinear(bilinear interaction) dé nam bat sự linh hoạt cua nội va liên thé thức cho nhiệm vuphan tich cam xuc da thé thức ở cấp độ khía cạnh Năm 2020, Xu và các cộng sự[35] tạo ra mô hình AHRM, sử dung progressive attention module dé nam bắt sự
tương tác hình ảnh-văn bản.
Ngoài ra, các mô hình dựa trên BERT cũng có nhiều tiến triển, bao gồmTomBERT [21] sửa đổi kiến trúc BERT [36] để có được sự tương tác giữa khíacạnh-hình ảnh Năm 2021, Khan và các cộng sự [37] công bố mô hình EF-
CapTrBERT, sử dung Object Dectection Transformer dé tạo ra chú thích hình ảnh
và sau đó xây dựng một câu phụ trợ cho nhiệm vụ phân tích cảm xúc đa thể thứcdựa trên khía cạnh Nam 2022, Yu và các cộng sự [38] đề xuất mạng ITM (Image-Target Matching) dé có được biéu dién hình ảnh dựa trên sự liên quan giữa hình ảnh
và khía cạnh, từ đó tăng cường phân tích cảm xúc đa thể thức thông qua sự kết hợp
dựa trên mô hình Transformer Năm 2024, Yang và các cộng sự [39] công bố mô hình MGAM, sử dụng câu phụ trợ và sử dụng đồ thị không đồng nhất
(heterogeneous graph) dé học tương tác liên thể thức
2.3 Phân tích cảm xúc da thé thức cho Tiếng Việt
Ở Việt Nam hiện nay các bộ dữ liệu đa thé thức còn khá hạn chế Hiện tại, các
bộ dữ liệu đa thê thức tiếng Việt chủ yếu tập trung vào nhiệm vụ trả lời câu hỏi trênhình ảnh, bao gồm các bộ dữ liệu như ViVQA [40], ViCLEVR [41], OpenViVQA
[42], va EVJVQA [43] Trong lĩnh vực phân tích cảm xúc, chỉ tập trung vào dữ liệu
dựa trên văn bản [44, 45, 46, 47, 48] Hiện tại, chưa có bộ dữ liệu đa thể thức cho
phân tích cảm xúc bằng tiếng Việt.
Tóm lại, các bộ dit liệu hiện tại còn hạn chế do bỏ qua việc gán nhãn chi tiếttrong hình ảnh, dẫn đến việc căn chỉnh thông tin giữa các thể thức gặp nhiều khókhăn Hơn nữa, các bộ dữ liệu trước đây việc chỉ sử dụng duy nhất một hình ảnh,điều này là không đủ trong các bài toán thực tế Vì vậy, trong khóa luận này, chúng
12
Trang 21tôi đê xuât một bộ dữ liệu chuân cùng với một mô hình mới đê giải quyêt những
hạn chế này Chúng tôi sẽ trình bày chỉ tiết trong các phần tiếp theo
13
Trang 22Chương 3 BỘ DỮ LIỆU
Trong phần này, chúng tôi định nghĩa nhiệm vụ phân tích cảm xúc dựa trên khíacạnh đa thể thức và giới thiệu một bộ dữ liệu chuẩn mới cho nhiệm vụ phân tíchcảm xúc dựa trên khía cạnh đa thé thức tiếng Việt, được đặt tên là VIMACSA Mộtđặc điểm phân biệt của bộ dữ liệu VIMACSA nam ở việc gan nhãn chỉ tiết trên cảhình ảnh và văn bản Cụ thể là, chúng tôi sẽ gán nhãn các đối tượng (Region ofInterest - Rol) trong ảnh, giúp tăng cường yếu tố hình ảnh trong bộ dữ liệu Quá
trình xây dựng bộ dữ liệu gồm ba giai đoạn: Thu Thập Dữ Liệu (Phần 3.2), Gán
nhãn Dữ Liệu (Phần 3.3), và Đánh giá Dữ Liệu (Phần 3.4)
3.1 Định nghĩa bài toán
Dựa trên các nghiên cứu trước đó về phân tích cảm xúc dựa trên khía cạnh(ACSA) và phân tích cảm xúc dựa trên khía cạnh đa thể thức (MACSA), MACSA
được định nghĩa như sau Với một cặp văn bản-hình ảnh, có một đoạn văn bản S
chứa m từ S = {W¡,Ws, ,Wm } và các hình ảnh đi kèm I = {l,l¿, , lu} Danh
sách các khía cạnh sử dụng trong bài toán được định nghĩa trước là A =
{A!, A?, ,A"} Trong đó m, n, k lần lượt là số từ trong đoạn văn bản, số lượnghình ảnh và số aspect được định nghĩa trước
Với đầu vào là một cặp văn bản-hình ảnh (S,/) và một trong các khía cạnh A”,
mục tiêu là xác định nhãn cảm xúc của khía cạnh đó (S,/, A") > Y, trong đó Y gôm (“irrelevant”, “positive”, “neutral” và “negative”) O đây, nhãn “irrelevant”
cho biết khía cạnh 4” không được đề cập đến trong cả hình ảnh và văn bản
3.2 Thu thập dữ liệu
Nhằm mục tiêu xây dựng một bộ dữ liệu đáng tin cậy bao gồm cả hình ảnh vàvăn bản, chúng tôi đã thu thập các đánh giá đa thé thức do người dùng tạo ra từTraveloka! - một trang web du lịch tiếng Việt có cung cấp dịch vụ đặt phòng khách
1 https://www.traveloka.com/vi-vn
14
Trang 23sạn Bộ đữ liệu dùng để gán nhãn bao gồm 8,000 mẫu, mỗi mẫu bao gồm một đánhgiá kèm theo tối đa 7 hình ảnh.
Tiếp theo, chúng tôi gán nhãn các đối tượng trong mỗi hình ảnh bằng cách sử
dụng phần mềm phát hiện đối tượng là x-anylabeling? Điều này giúp chúng tôi tự
động phát hiện các đối tượng (Region of Interesting - Rols) Sau khi loại bỏ cácmẫu dữ liệu gây nhằm lẫn và mâu thuẫn thông qua quá trình gán nhãn, chúng tôi thuđược một bộ dữ liệu gồm 4,876 cặp văn bản-hình ảnh bao gồm các Rols Bộ dữ liệu
này là nguồn tài nguyên đáng tin cậy cho bài toán phân tích cảm xúc da thé thức trên tiếng Việt.
3.3 Quá trình gán nhãn
3.3.1 Dinh nghĩa các khía cạnh
Sau khi tham khảo các nghiên cứu về phân tích cảm xúc dựa trên khía cạnh trước
đó ở trong và ngoài nước [39, 49, 50], chúng tôi quyết định sử dụng các khía cạnhđược đề cập đến ở nghiên cứu [39]: Location, Food, Room, Facilities, Service và
Public area Những khía cạnh này đánh giá một cách toàn diện các mối quan tâmcủa người dùng đến khách sạn và có thể được áp dụng độc lập cho dữ liệu văn bản
hoặc hình ảnh Định nghĩa về các khía cạnh được mô tả như sau:
e Room: Dé cập đến phòng khách sạn bao gồm các nhận xét về: kích thước,
thiết kế, đồ nội thất, phòng tắm, cách âm, bảo mật,
e Location: Đề cap đến vi trí khách sạn và các dia điểm xung quanh
e Food: Đề cap dén an sang, thức ăn, đồ uống, buffe,
e Facilities: Những cơ sở vat chat được khách san cung cấp phục vụ cho nhu
cầu, sở thích cá nhân của khách hàng như: hồ bơi, phòng gym, nhà hang,
internet, spa, club, tiện ích cho trẻ em
e Service: Những nhận xét chung về thái độ, dịch vụ, chất lượng phục vụ của
nhân viên, dọn phòng, những van dé liên quan dén nhận, trả phòng.
2 https://github.com/CVHub520/X-AnyLabeling
15
Trang 24e© Public area: Đề cập đến view, không gian chung có sẵn giành cho khách:
sảnh, hành lang, sân vườn, khuôn viên.
3.3.2 Gan nhãn dữ liệu
Quá trình xây dựng bộ dữ liệu ViMACSA bao gồm ba giai đoạn gán nhãn: gán
nhãn văn bản, gán nhãn hình ảnh, và gán nhãn cặp văn bản-hình ảnh Hình 3.1 mô
tả từng bước gán nhãn chỉ tiết cho bộ dữ liệu ViMACSA
ia > @) Annotate text label
= es S k h ee esc
biên rat tiện Anh chi nhân viên thân thiện lãm.
“The hotel is beautiful and clean, located right next to the street, so it
-is very convenient to walk to the beach The staff are very friendly.” ® Annotate Rol and image label
Loc Ser Aspect Room
bed 1
@) Annotate text - in nage pair
Aspect
Hình 3.1: Quá trình gan nhãn ba giai đoạn.
Trong giai đoạn thứ nhất, chúng tôi thực hiện việc gan nhãn văn bản Giai đoạn
này tiễn hành gán nhãn cảm xúc trên 6 khía cạnh được xác định trước cho thé thức
văn ban Khia cạnh-cảm xúc được phân loại như sau: 0 là “irrelevant”, 1 là
“negative”, 2 là “neutral”, va 3 là “positive” Chúng tôi sử dung Label Studio? (
xem Hình 3.2), một công cu gan nhãn trên web với giao diện thân thiện với người dùng.
3 https://labelstud.io/
16
Trang 25Hình 3.2: Giao diện Label Studio.
Trong giai đoạn 2, chúng tôi thực hiện việc gan nhãn hình ảnh Giai đoạn nay tiễnhành phát hiện các đối tượng (Rols) trong một hình ảnh, sau đó gán nhãn các khíacạnh cụ thé cho mỗi hình ảnh hoặc Rol Cụ thé là, chúng tôi sử dụng mô hìnhYoloV§ trong phần mềm x-anylabeling (xem Hình 3.3), dé tự động phát hiện các
Rols trong mỗi hình ảnh Khi các Rols được phát hiện, chúng tôi loại bỏ các Rols
không liên quan hoặc không chính xác và hợp nhất (merge) các Rols tương tự nhau
Sau đó, chúng tôi gan nhãn khía cạnh cho từng hình ảnh và các Rols còn lại Ví dụ,
nếu hình ảnh là một căn phòng va Rol là một chiếc giường, thì cả hình anh và Rol
sẽ được gán nhãn khía cạnh là “Room” Quá trình gán nhãn cảm xúc cho hình ảnh
và Rols có thé gặp nhiều khó khăn do sự mơ hồ trong việc xác định cảm xúc truyềnđạt ở hình ảnh liên quan tới khách sạn [39] Đề tránh thông tin sai lệch giữa những
người gán nhãn, chúng tôi không gán nhãn cảm xúc cho các hình ảnh và Rols.
4 https://github.com/ultralytics/ultralytics
17
Trang 26HH
IKIRIIS
Hình 3.3: Giao diện x-anylabeling.
Trong giai đoạn cuối cùng của quá trình gán nhãn, chúng tôi gán nhãn cảm xúc
cho cặp văn bản-hình ảnh trên các khía cạnh đã gán ở giai đoạn 2 Nếu một khía
cạnh đã có nhãn cảm xúc từ giai đoạn đầu tiên, thì nó không thay đổi Tuy nhiên,đối với các khía cạnh mới xuất hiện trong giai đoạn 2, chúng tôi gán nhãn cảm xúccho nó dựa trên thê thức văn bản
Hướng dẫn gán nhãn (annotation guideline) được chúng tôi liên tục cập nhật
trong suốt quá trình gan nhãn dé dam bảo tính nhất quán và bao phủ tất cả các tìnhhuống mà người gan nhãn có thé gặp phải Cuối cùng, chúng tôi thu được bộ dit liệuViMACSA với su gan nhãn chi tiết trên cả văn ban và hình anh Bộ dữ liệu này có
giá trị đối với các nhà nghiên cứu về bài toán phân tích cảm xúc da thé thức trên
tiếng Việt
3.4 Đánh giá bộ dữ liệu
3.4.1 Các độ đo đánh giá
Cohen’s Kappa:
Với một cặp annotator cùng gan nhãn cho một dữ liệu d, Công thức (1) được sử
dụng dé tính độ đo Cohen’s Kappa
18
Trang 27_ Pr(A) — Pr(e)
1— Pre) (1)
Trong do:
e Pr(A) là giá trị đồng thuận giữa các nhãn được tinh bang tong trường hop
đồng thuận giữa các người gán nhãn chia cho tông số mẫu dữ liệu
e Pr(e) là giả định xác suất của độ đồng thuận được tính bang tổng số xác suất
mà hai người gán nhãn cùng đồng thuận trên từng nhãn
IoU (Intersection over Union):
IoU là một cách dé đánh giá mức độ tương đồng giữa hai khu vực được phân đoạn
bằng cách tính tỉ lệ giữa diện tích phần giao nhau của chúng và tổng diện tích của
phan cùng được phân đoạn Cách tính IoU được biéu diễn ở Công thức (2)
Đề đảm bảo chất lượng, tính nhất quán của quá trình gán nhãn và độ tin cậy của
bộ đữ liệu ViMACSA, chúng tôi thực hiện đánh giá trên nhiều giai đoạn Chúng tôi
sử dụng Cohen’s Kappa [51] và Intersection over Union (IoU) [52] dé ước tính độđồng thuận giữa những người gan nhãn Cụ thé là, chúng tôi sử dụng độ đo Cohen’sKappa cho các nhiệm vụ gán nhãn liên quan đến khía cạnh-cảm xúc (Phần 3.3), và
chúng tôi sử dụng độ đo IoU cho nhiệm vụ xác định vi trí các Rols.
Quá trình gán nhãn của chúng tôi được thực hiện trên 2 giai đoạn chính: giai đoạn
huân luyện và giai đoạn gan nhãn Giai đoạn huân luyện bao gôm 5 vòng, moi vòng
19
Trang 28gán 100 mẫu Dựa theo McHugh [53], giai đoạn huấn luyện được hoàn thành khimức độ đồng thuận giữa các người gán nhãn đạt trên 0.80 Biểu đồ Hình 3.4 và
Hình 3.5 cho biết mức độ đồng thuận giữa hai người gan nhãn luôn lớn hơn 0.8
trong năm vòng.
Phase 1 Phase 2 Phase 3 Phase 4 Phase 5
mm Text =a img mm Text-img
Trang 29Sau khi kết thúc giai đoạn huấn luyện, chúng tôi chuyên sang giai đoạn gán nhãn,nơi mà các người gán nhãn của chúng tôi gán nhãn cho phần dữ liệu còn lại Trongnhững trường hợp mẫu dữ liệu khó, chúng tôi xác định nhãn dựa trên sự đồng thuận
không có ranh giới từ có định (từ ghép, từ láy, ) Quá trình này đảm bảo nhận diện
từ chính xác và giúp hiéu sâu hơn về văn bản
Các từ phổ biến nhất trong WordCloud liên quan đến các khía cạnh về khách sạnđược đề cập trong các bài đánh giá của người dùng Một số danh từ đáng chú ý bao
33 66.
gồm “khách sạn”, “phòng”, “lễ tân”, “nhân viên” Ngoài ra, trạng từ “rất” được sử
dụng thường xuyên Cũng có một số tính từ như “thân thiện”, chủ yêu dùng dé miêu
tả nhân viên, và “tuyệt vời” thường được sử dung dé thê hiện cảm xúc tích cực.
é ~nhiet_tinh
(a) WordCloud without text tokenized (b) WordCloud with text tokenized.
Hình 3.6: Word cloud của bộ dữ liệu VIMACSA.
21
Trang 303.5.2 Dac trưng bộ dữ liệu
Bộ dữ liệu ViMACSA được thu thập trên mạng truyền thông xã hội Do đó, nó cócác đặc điểm riêng về dit liệu mang xã hội ở Tiếng Việt Các ký tự đặc biệt, lỗi
chính tả, từ vô nghĩa, và các từ viết tắt là những đặc điểm thường xuyên xuất hiện
e Dấu câu hoặc từ có phát âm tương tự bị viết sai: hồ trợ (hỗ trợ), siu (siêu),
e Kéo dài từ: đẹppppp (đẹp), ngonnnm (ngon),
e Viết tắt có thé gây mơ hồ do có nhiều nghĩa: ks/ksan (khách sạn), ko/kh
(không),
Từ viết tắt
0 2 4 6 8 10 12 14 16 18 20
m lỗi chính tả/từ vô nghĩa sm Ky tự đặcbiệt Từ viết tắt
Hình 3.7: Thống kê các lỗi phổ biến trên 100 mẫu ngẫu nhiên của bộ dữ liệu
22
Trang 31Bang 3.1: Một số lỗi thường xuất hiện trong bộ dit liệu VIMACSA.
deppppp > dep ksan khách sạn :D
siu siêu gd > gia đình =))
ngonnn ngon mn > moi người Emoji: Ÿ ,®, «&.,
Hình 3.8 minh hoa tỷ lệ hình ảnh có liên quan và không liên quan trong bộ dữ liệu
ViMACSA Tỷ lệ hình ảnh không liên quan tương đối cao, lên tới 38% Điều nàycho thay người sử dụng nền tang mạng xã hội thường chia sẻ nhiều hình ảnh không
liên quan đên trải nghiệm của họ.
m Irrelevant
= Relevant
Hình 3.8: Ty lệ hình ảnh có liên quan/không liên quan trong bộ dữ liệu VIMACSA.
23
Trang 323.5.3 Các thống kê về bộ dữ liệu
Thống kê chỉ tiết về bộ dữ liệu VIMACSA được mô tả trong Bang 3.2 Bộ dit liệu
này bao gồm 4,876 cặp văn bản-hình ảnh bao gồm các Rols Qua quá trình phân
tích, chúng tôi phát hiện ra rang các khía cạnh và nhãn cảm xúc trong bộ dit liệu
không cân băng, với phân lớn các nhãn cảm xúc là tích cực.
Bảng 3.2: Thống kê tổng quan của bộ dữ liệu VIMACSA
Average Avg aspect/
Set | Review Pos | Neu | Neg | #Images | #Rols
length review
Train | 2,876 42.42 3.01 6,421 | 1,402 | 830 | 5,428 8,656 Dev | 1,000 39.36 2.98 2,230 | 463 | 291 1,789 2,880
Test | 1,000 42.17 2.98 2,178 | 485 | 318 1,841 3,097
Bang 3.3 cho biết tổng số lượng khía cạnh cho thé thức văn bản và cặp văn
bản-hình ảnh Bộ dữ liệu VIMACSA được gán nhãn trên cả văn bản-bản-hình ảnh chứa
nhiều hơn 36,51% khía cạnh so với thé thức văn ban, cho thấy tiềm năng của nótrong việc giải quyết van đề khía cạnh ân (implicit aspect) trong các bình luận củangười dùng Điều này chỉ ra rằng dữ liệu đa thể thức chứa nhiều thông tin, và việc
phân tích nó đòi hỏi phải xem xét toàn diện thông tin từ cả hai thể thức.
Bảng 3.3: Số lượng các khía cạnh mỗi thể thức
Modality Số lượng khía cạnh
Text-only 10,708
Text-Image 14,618
Hinh 3.9 cho biét phan bố của 6 khía cạnh trên 3 tập con trong bộ dữ liệu Vì khóa
luận của chúng tôi tập trung vào lĩnh vực khách sạn, các khía cạnh như Room và
24
Trang 33Service được dé cập nhiêu nhât trong các đánh giá của người dùng, trong khi khía
200
100
The number of samples
700 600
500
400
300 200 100
The number of samples
Trang 34Chương 4 FINE-GRAINED CROSS-MODAL FUSION
FRAMEWORK
Ở chương nay, chúng tôi trình bay co sở lí thuyết về các kỹ thuật liên quan, sau đó
trình bày trình tiết về Fine-grained Cross-modal Fusion Framework được chúng tôi
trong ảnh) bằng cách cho phép mỗi thành phần tương tác lẫn nhau và đo lường mức
độ quan trọng của sự tương tác đó, thông qua việc tính toán trọng số chú ý
(attention weights).
Quá trình nay tao ra một ma trận chú ý (attention matrix), giúp mô hình tập trung
vào các thành phần quan trọng trong khi lược bỏ những thành phần không cần thiết
Ma trận chú ý được tính theo Công thức (3).
, QKT
Attention(Q, K,V) = softmax V (3)
v4,
Trong đó:
e Q,KvàV lần lượt là vector truy vấn, vector khóa, va vector giá tri.
e dự là sô chiêu cua vector query hoặc key.
Các mô hình dựa trên Transformer thường sử dụng nhiêu lớp self-attention dé
biểu diễn các mức độ khác nhau của ngữ cảnh và mức độ trừu tượng của dữ liệu[55, 36, 56] Sự két hop giữa self-attention với các kỹ thuật như Normalization và
26
Trang 35lớp Feedforward đã tạo nên những mô hình mạnh mẽ, có thé học được các biéu diễnsâu và đa chiều của dữ liệu.
Self-attention còn có thể được mở rộng thành Multi-Head Attention (Công thức
(4)), trong đó việc tính toán được thực hiện trên nhiều ma trận Q,K, V độc lập, sau
đó tổng hợp lại dé có được biểu diễn cuối cùng Điều này cho phép mô hình biết
những góc độ khác nhau của dữ liệu và nâng cao khả năng biéu diễn tổng thé Kiến
trúc của Self-attention và Multi-Head Attention được minh họa ở Hình 4.1.
MultiHead(Q, K, V) = concat(head,, head, , head, )W® (4)
với head, = Attention(QW/°,KW#,VWƑ)
Trong đó:
e W là ma trận dùng dé ánh xa dữ liệu sang không gian chiều thấp hơn
Scaled Dot-Product Attention Multi-Head Attention
27
Trang 36Cơ chế này nối các vector đặc trưng từ các thé thức khác nhau thành một dạngthống nhất (Công thức (5)), sau đó áp dụng cơ chế Self-Attention để xử lý (Công
e X¡,X; là vector đặc trưng của 2 loại thê thức
e Q,KvaV 1an lượt là vector truy vấn, vector khóa, và vector giá tri
e d, là sô chiêu cua vector query hoặc key.
Nhờ vậy, Multi-modal Attention cho phép mô hình học được mối quan hệ nội tại
trong từng thé thức và giữa các thê thức với nhau Giúp nâng cao khả năng hiểu biếtcủa mô hình trên từng thể thức Tổng quan kiến trúc 1 khối Multi-modal Attention
được minh họa ở Hình 4.2
Tương tự như Self-Attention, Multi-modal Attention cũng có thé được mở rộng
thành Multi-Head Multi-modal Attention Sự mở rộng này cho phép mô hình học
được nhiều sự tương tác phức tạp hơn giữa các thé thức với nhau, cải thiện khảnăng khai thác thông tin và nâng cao hiệu suất mô hình
28
Trang 37Cross-modal Attention (chú ý liên thé thức) [57] là một co chế mạnh mẽ trong
việc xử lí dữ liệu đa thê thức, giúp mô hình chú ý vào những phần quan trọng từnhiều thé thức khác nhau (vi dụ: hình ảnh, văn bản)
Mỗi thê thức (ví dụ: văn bản, hình ảnh) được biểu diễn bằng một vector đặc trưngriêng biệt Ví dụ, văn bản được biểu diễn dưới dạng vector word embeddings hoặccác vector ngữ cảnh từ mô hình Transformer, trong khi hình anh được biểu diễn
dưới dạng các vector từ mang CNN Khác với Self-attention, trọng số chú ý đượctính toán cho cặp thể thức (Công thức (8)) Trọng số này cho biết mức độ quan
trọng của một thé thức đối với thé thức khác
Trang 38e K (Key): Vector đặc trưng của thé thức được chú ý.
e V (Value): Vector đặc trưng của thé thức được chú ý, chứa thông tin chi
tiết của thể thức
e dự: là số chiều của vector key hoặc value
Cũng tương tự như Self-attention, Cross-modal Attention còn có thé được mởrộng thành Multi-Head Cross-modal Attention Tổng quan kiến trúc 1 khối Cross-
modal Attention được mô tả ở hình Hình 4.3.
Cross-modal Attention N
‡ Query | Key | | | Value | |
Thẻ thức văn bản Thể thức hình ảnh
Hình 4.3: Kiến trúc Cross-modal Attention
4.1.4 Object Relation Module
Object Relation Module [58], là một giải pháp dé xử lý tập hợp các đối tượngtrong hình ảnh Module này mô hình hóa sự tương tác giữa các đối tượng bằng cáchtích hợp thông tin về đặc trưng hình ảnh và vị trí hình học của chúng
Một thách thức lớn trong việc mô hình hóa sự tương tác giữa các đối tượng là sự
đa dạng về kích thước, vị trí và đặc trưng đối tượng trong hình ảnh Đề xử lí tháchthức này, Object Relation Module đã sử dụng cơ chế chú ý từ lĩnh vực xử lý ngôn
30
Trang 39ngữ tự nhiên (NLP) Cơ chế này thiết lập sự phụ thuộc giữa các đối tượng mà khôngcần những giả định quá nhiều về vị trí hay đặc trưng của chúng Điểm đặc biệt củamodule này là việc mở rộng cơ chế chú ý bằng cách thêm trọng số hình học mới,
giúp mô hình hóa môi quan hệ không gian giữa các đôi tượng.
Về bản chất, module này hoạt động thông qua việc tính toán sự tương tác giữa các
đối tượng, biểu diễn bằng một trọng số dựa trên cả đặc trưng hình ảnh và vi trí Quá
trình tính toán bao gôm các bước sau:
Đầu tiên, đối với 2 vùng bao (bounding box) m và n, một vector dịch chuyền
A(m,n) được tính toán dựa trên các vi trí hình học của chúng (x, y,w,h) (tọa độ
tâm, chiều rộng, chiều cao), được thé hiện ở Công thức (9)
|X = Xn |m = Yn Wn hạ
A(m,n) = | log——————,Ìlog———————,Ìog——, log — 9(m,n) ( G7 a, Oy 8s (9)
Tiếp theo, Công thức (10) tính toán trọng số chú ý hình học w",
we” = ReLU(Emb(A)MW,) (10)
Trong đó Emb(A) là hàm mã hóa đặc trưng vi trí hình hoc bang cách sử dung
Positional Encoding [54], các ham sin va cos được tính toán cho mỗi giá trị của
A(m,n) W là ma trận trọng số học Sau đó, áp dụng cơ chế Self-attention dé đolường mức độ quan trọng về đặc trưng hình ảnh của một đối tượng so với N đối
tượng khác, được trình bày ở Công thức (11) và (12).
lân lượt là vector truy vân, vector khóa, va vector giá tri Cuôi cùng, trong so chú ý
hình học w?" được tích hợp vào cơ chế chú ý ở Công thức (13) và (14)
Trang 40Attention(Q,K,V) = wTM"V (14)
Object Relation có thé được nâng cấp thành Multi-Head Object Relation (Côngthức (15)), giúp mô hình biểu diễn được nhiều sự tương tác đối tượng khác nhau.Kiến trúc của Multi-Head Object Relation được minh họa ở Hình 4.4
MultiHead(Q, K, V) = concat(head,, head;, , head,)W9 (15)
với head; = Attention(Q;, K;,V;)
Nhead
Hình 4.4: Kiến trúc Object Relation
4.1.5 Mô hình XLM-RoBERTa
RoBERTa (Robustly Optimized BERT Approach) [56] là một mô hình đa ngôn
ngữ được phát triển dựa trên BERT (Bidirectional Encoder Representations from
Transformers) [36], nhằm tối ưu hoa BERT Được giới thiệu bởi Facebook AI vào
năm 2019, RoBER Ta đã nhanh chóng trở thành một trong những mô hình ngôn ngữ mạnh mẽ nhat, nhờ vào các cải tiên trong dữ liệu và quá trình huân luyện.
BERT ban đầu được thiết kế với hai nhiệm vụ chính: Masked Language Model
(MLM) và Next Sentence Prediction (NSP) Tuy nhiên, trong bài báo của
RoBERTa, các tác giả đã thử nghiệm loại bỏ nhiệm vụ NSP và nhận thấy rằng kết
32