1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu mô hình phân tích cảm xúc dựa trên khía cạnh đa thể thức cho tiếng Việt

83 6 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 83,55 MB

Nội dung

Tuy nhiên, các bộ dữ liệu đa thể thức hiện có cho nhiệm vụ Phân Tích Cảm Xúc Dựa trên Khía Cạnh Aspect Category Sentiment Analysis thường chỉ tập trung vào gán nhãn văn bản, bỏ qua thông

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

⁄ZZ

NGUYÊN HOÀNG QUÝ - 20521815

NGUYEN TRUONG MINH VĂN - 20522146

KHOA LUAN TOT NGHIEP

NGHIEN CUU MO HINH PHAN TICH CAM XUC DUA

TREN KHÍA CANH DA THE THUC CHO TIENG VIET

Multimodal Aspect Category Sentiment Analysis For Vietnamese

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN ThS NGUYEN VAN KIET

TP HO CHÍ MINH, tháng 7 năm 2024

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin chân thành cảm ơn thầy Nguyễn Văn Kiệt — người đã hỗtrợ, đồng hành và hướng dẫn nhóm trong suốt quá trình thực hiện khóa luận Nhờ sự

tận tâm, nhiệt huyết, những góp ý vô cùng quý giá của thầy đã hỗ trợ chúng em rất

nhiều khi thực hiện khóa luận tốt nghiệp

Bên cạnh đó, chúng em xin cảm ơn quý thầy cô Trường Đại học Công nghệ Thôngtin nói chung và các thầy cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng Lờidạy dỗ ân cần, những kiến thức thầy cô truyền cho chúng em từ những ngày đầu

bước chân vào giảng đường đại học đã là hành trang vô giá giúp chúng em hoàn

thiện khóa luận tốt nghiệp cũng như đương đầu với những thử thách trong tương lai

Cuôi cùng, chúng em xin gửi loi cảm ơn đên gia đình, bạn bè đã luôn đông hành,

khuyến khích, chia sẻ những niềm vui, nỗi buồn trong suốt quá trình học tập

Một lần nữa chúng em xin chân thành cảm ơn!

Nhóm tác giả Nguyễn Hoàng Quý Nguyễn Trương Minh Văn

Trang 3

Chương 1 TONG QUAN 2-52 SE 2E EEE12E1221211211211211211 2121.211 cxe 2

1.1 Vai trò của bài toán nhận diện cảm xúc dựa trên khía cạnh 2

1.2 Bài toán nhận diện cảm xúc dựa trên khía cạnh da thể thức - 3

1.3 Những thách thức của đề tài - ¿5252 +St+E2EE 2 232121212 rrrrrrei 5

1.4 Mục tiêu của dé tài cv re 6

1.5 Đóng góp của dé tài ¿5+ St E2 2E1211211211211211211 211211111 1e crrrei 6

1.6 Cấu trúc khóa luận -+-+2+++tttEExttttEktrrtttrtrrttttrrrrtriirrrrirrr 7

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CUU LIÊN QUAN 9

2.1 Các bộ dữ liệu phân tích cảm xúc da thé thức - 2 s2 s+5ss2s+e: 9

2.2 Các phương pháp phân tích cảm xúc da thể thức :-s- ¿5+ 11

2.3 Phan tích cam xúc da thé thức cho Tiếng Việt -5¿ ©2555 552 12

Chương 3 BỘ DU LIỆU ¿- 2 2EESE+EESEEEEESEEEEEEEEEEEEEEEEkrrkrrerreee 14

3.1 Dinh nghia bal non 6 ốc e- 14

3.2 Thu thập dữ liệu - Ăn SH ng HH HH 14

3.3 Quá trình gan nhãn - - c2 191121119111 911 9111911 ng kg re 15

3.3.1 Dinh nghĩa các khía cạnh c + + xxx rsirerrrerrerreree 15

3.3.2 Gán nhãn dữ liỆU - G6 th ni, 16 3.4 Đánh giá bộ dữ liệu - - 5c SG 3S S91 91 1 9 1111 1x vn HH nh 18

3.4.1 Cac độ đo đánh giá - c 1v TH TT TH ng ngư 18

3.4.2 Kết quả đánh gid ccceccccccccccsssssssesssesssessssssscssecssscssecssecsseessecseseseesseeens 19

3.5 Phân tích bộ dữ liỆu - - - G1 ng HH HH 21

BSL I`Ề.“ GOBHRH 21 3.5.2 Dac trưng bộ dữ liệu - - 6 kg ng ni, 22

Trang 4

3.5.3 Các thống kê về bộ dit liệu - 2 +5 ++E£+E+EtEzErrrrsrreres 24

Chương 4 FINE-GRAINED CROSS-MODAL FUSION FRAMEWORK 26

sa sa a 26

4.1.1 S€lÍ-Atfention ch HH TH ng HH ng 26

4.1.2 Multi-modal Atfen(tiOn - c1 kg ng ng, 27

4.1.3 Cross-modal Atf€nfIO - o «ch ng key 29

4.1.4 Object Relation Module - - 5 + 5+ + SE krkesererkee 30

4.1.5 Mô hình XLM-RoBERTia - tiệt 32 4.1.6 Mạng R€sÌNe( LG LH HH HH HH ng kg cư, 33

4.2 Tổng quan kiến trúc ÍramewWOrk - 2 2 £+£+£E+£E£+E+rxrxzzrxrsee 34

4.2.1 Image PTOC€SSINE Gv rry 36

4.2.1.1 Aspect Category Def€CfIOn -cSSc si sksseerreeree 36

4.2.1.2 Visual Features EXfraCfION Ăn se 37

4.2.2 Auxiliary S€n(€ICG SG ng kg ry 38

4.2.3 Image-guided Aff€ntIOT - - 5 + + SE v vn ng tr ey 38 4.2.4 Geometric Rol-aware Aff€T(IOH c5 cv key 39 4.2.5 Sentiment Deft€CfIOI 5 S5 s01 vn rry 40

Chương 5 CAI ĐẶT, KET QUA VÀ DANH GIA - 5552555552 42

“00 ith CO SO 42

5.1.1 M6 hình dựa trên van ban oo ccc ccccccssscceesscceesseceesseceesseeeesseeeesses 42 5.1.2 M6 hình dựa trên văn bản và hình ảnh -. «5555 +<<<<<<+ 43 5.2 DO do damh Gia nh hố h6 .4 44

5.3 Tiền xử lí dữ liệu -+c+krrtErtrtrtrirrrtiirrririrrirerirree 45

5.4 Thiết kế thử nghiệm :- 2° k+SE+SE+EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrree 46

Trang 5

5.5 Kết quả đạt được -:- c- St EEEE1211111211211211111 1.1.1 47

5.6 Sur ảnh hưởng của số lượng anh o eeccecscsssesssesssesssesssecssecssecssecssecsssssecssecsses 49

5.7 Su ảnh hưởng của lượng đữ liệu huấn 050 49

5.8 Su ảnh hưởng mô hình trích xuất đặc trưng văn bản -: 50

5.9 Thử nghiệm cắt D0 ccccccsssesssesssesssesssecssssssessuccsscssscssecsuesssecsuecsscsssessecesecsses 51

5.10 _ Phân tích lỗi - +2 ©+S++2++EE+EESEEEEESESEEEEetksrterrrrerrsree 52

5.10.1 So sánh kết quả dự đoán giữa các mô hình : 52

5.10.2 Cac trường hợp lỗi của FCME -2- 2©2+2c+2c++zzzzrzrrses 54

5.10.3 Các trường hợp lỗi của nhãn Neutral - 2-5 2 s+s+ss5s+s+ss 56

5.11 _ Trực quan hóa thông tin biểu diễn văn bản và hình ảnh - 58Chương 6 KÉT LUẬN VÀ HƯỚNG PHÁT TRIỀN 2-22 5252 62

6.I Kếtluận /Z GR A @ ì) / 62

6.2 Hạn chế và hướng phát triỂn - 2-2 2+2 ++£++£+E++x++xzrzrezxee 62

TÀI LIEU THAM KHẢO -2+£22522ES++‡SEEEtEEEEkrtttrkkrrrtrkkrrrrrtrrerrrkeg 64

PHU LUC 55H ‹+£1đDđỒ 74

1 Mô tả chương trình đ€ImO - - 6 6 E111 1E vn ng ng 74

2 Kết quả của chương trình demo -2- 22 5¿©+2+2E++£E++EE++Ex+zrxrzrxrzreee 74

2.1 Giao diện chung của chương trÌnH - xxx vsevseeeersersrseeske 74

2.2 Giao diện kết qua dự đoán của chương trình 2-2 2 z+sz+sz+szzsz 75

Trang 6

DANH MỤC HÌNH

Hình 1.1: Ví dụ về phân tích cảm xúc dựa trên khía cạnh đa thé thức 4

Hình 3.1: Quá trình gan nhãn ba giai Goan c5 S2 S2 E+vvxeereerserees 16 Hình 3.2: Giao diện Label Stud1o c5 2< 1332213122 E£EEEkEseekkeerxeecee 17 Hình 3.3: Giao diện x-anylabelIng - - + + 1+ 3E + EEEEESeeserreererrrerreee 18 Hình 3.4: Điểm số Cohen’s Kappa trong giai đoạn huấn luyện . 20

Hình 3.5: Điểm số IoU trong giai đoạn huấn luyện 2-2 2 2+sz+sz+sz2s++‡ 20 Hình 3.6: Word cloud của bộ dữ liệu VIMACSA - 77 ẶSS Sccc S222 ee 21 Hình 3.7: Thống kê các lỗi phô biến trên 100 mẫu ngẫu nhiên của bộ dữ liệu .22

Hình 3.8: Tỷ lệ hình ảnh có liên quan/không liên quan trong bộ dữ liệu VIMACSA ¬ Ea 23

Hình 3.9: Phân phối các khía cạnh trên 3 tập dữ liệu 2 2 25+: 25 Hình 4.1: Kiến trúc Self-Attention (trái) và Multi-Head Self- Attention (phải) 27

Hình 4.2: Kiến trúc Multi-modal Attention -¿-s-¿+sz++++x++x+zrxerxezrserxez 29 Hình 4.3: Kiến trúc Cross-modal Attention - 2 s¿©£+++x++x++zxezxzxszrxeee 30 Hình 4.4: Kiến trúc Object Relation -. 2-2 2 £+E£+EE+EE+EE+EEEEEEEEEErrerrerreee 32 Hình 4.5: Kiến trúc 1 khối residual -. -++2©+++ttE+xetrtrkkerttrkrrrerrkrrrrrrkeg 34 Hình 4.6: Tổng quan kiến trúc FCME framewOrk -2- 2 2 s+s2+£2+£z+£z2£z2x++š 35 Hình 5.1: Các bước tiền xử lí đữ liệu -. -¿ +: +2 +t+E+E+ESEEEEEEEE+ESEEEeEeEErErtrerrrrrrrsre 46 Hình 5.2: So sánh kết quả giữa FCME với các mô hình khác trên từng khía cạnh .48 Hình 5.3: Sự ảnh hưởng của số lượng anh lên FCMF framework - 49

Hình 5.4: Sự ảnh hưởng của lượng dữ liệu huấn luyện lên FCME framework 50

Hình 5.5: Grad-Cam cho nhiệm vụ nhận diện khía cạnh trong mỗi hình ảnh 60

Hình 5.6: Mức độ quan trọng của từng từ có liên quan tới khía cạnh 60

Hình 5.7: Mức độ quan trọng của từng từ với các Rol (trái) và trực quan trọng số

chú ý giữa Rol-3 với các Rol khác (phải) - - - ¿+ + + + E*+skEsekseesekesesee 61 Hình PL.0.1: Logo công cụ SfrearmÌIf - - << s xxx 9E vn ke 74 Hình PL.0.2: Giao diện chung của chương trÌnh .- - 5 cxssseseeseesree 75

Hình PL.0.3: Giao diện kết qua của chương trình -2 ¿+2cx2z+z+sse2 75

Trang 7

DANH MỤC BANG

Bảng 2.1: Những bộ dữ liệu hiện có về phân tích cảm xúc đa thé thức 10Bang 3.1: Một số lỗi thường xuất hiện trong bộ dit liệu ViMACSA - 23Bảng 3.2: Thống kê tổng quan của bộ dữ liệu ViMACSA -: 5:-55+¿ 24Bang 3.3: Số lượng các khía cạnh mỗi thé thức 2 2 2 2 2+££+££+£z+£zzszez 24Bang 5.1: Kết quả thử nghiệm các mô hình trên bộ dit liệu ViMACSA 48

Bang 5.2: Kết quả các mô hình trích xuất đặc trưng - 2 2 2+sz+sz+sz+s++‡ 51

Bang 5.3: Kết quả các thử nghiệm cắt bỏ -2- 2-52 225£2S£+£2E+EzEzrrrerreee 52Bảng 5.4: So sánh kết quả dự đoán của các mô hình -. -¿- ¿2s++sz+5s+¿ 33

Bảng 5.5: Các trường hợp lỗi của FCMF framework - : 2-5+©5+2s+2x+csse2 54 Bảng 5.6: Các trường hợp lỗi của nhãn Neutral ¿2+ +525++5++5+>x+5+2 57

Trang 8

DANH MỤC TU VIET TAT

STT Từ viết tắt Ý nghĩa

1 ACSA Aspect Category Sentiment Analysis

2 BERT Bidirectional Encoder Representations from

Transformers

3 FCMF Fine-grained Cross-Modal Fusion

4 RoBERTa Robustly optimized BERT approach

5 Rol Region of Interest

6 SOTA State-Of-The-Art

7 ViMACSA Vietnamese Multimodal Aspect Category

Sentiment Analysis

Trang 9

TOM TAT KHÓA LUẬN

Sự xuất hiện của dit liệu đa thé thức trên nền tảng mạng xã hội đã mang đếnnhững cơ hội mới để nắm bắt rõ hơn về cảm xúc, trải nghiệm của người dùng đốiVỚI các sản phẩm và dịch vụ Tuy nhiên, các bộ dữ liệu đa thể thức hiện có cho

nhiệm vụ Phân Tích Cảm Xúc Dựa trên Khía Cạnh (Aspect Category Sentiment

Analysis) thường chỉ tập trung vào gán nhãn văn bản, bỏ qua thông tin chỉ tiết quýgiá có thé được thu thập từ hình ảnh Do đó, chúng không thé khai thác đầy đủ sự

phong phú và tiềm năng mà dữ liệu đa thể thức mang lại.

Nhận thấy tầm quan trọng mà bài toán này mang lại, chúng tôi giới thiệu một

bộ dữ liệu đa thể thức tiếng Việt mới là VIMACSA, bao gồm 4,876 cặp văn hình ảnh với tổng cộng 14,618 nhãn chỉ tiết cho cả văn bản và hình ảnh trong lĩnhvực khách sạn Bộ dữ liệu này cung cấp các thông tin chi tiết và toàn diện về khíacạnh và cảm xúc của người dùng thông qua sự kết hợp giữa hình ảnh và văn bản.Điều này cho phép khai thác tối đa lượng thông tin từ cả hai thể thức, góp phần cải

ban-thiện tính chính xác của các mô hình phân tích cảm xúc.

Bên cạnh đó, chúng tôi đã nghiên cứu và dé xuất một framework mới với tên

Fine-Grained Cross-Modal Fusion (FCMEF), có khả năng học được cả tương tac

nội thé thức và liên thé thức, sau đó hợp nhất các tương tác này dé có được một biểudiễn đa thể thức thống nhất Kết quả thử nghiệm cho thấy rằng framework của

chúng tôi vượt qua các mô hình SOTA khác trên bộ dữ liệu VIMACSA, đạt được

điểm F1 cao nhất là 79.73% Điều này chứng minh được sự vượt trội của FCMFtrong việc xử lí dữ liệu đa thể thức

Chúng tôi cũng khám phá những đặc điểm và thách thức trong phân tích cảmxúc đa thê thức tiếng Việt, bao gồm việc viết sai chính tả, viết tắt và sự phức tạp củangôn ngữ tiếng Việt Các thách thức này đòi hỏi các phương pháp tiếp cận đặc biệt

đê cải thiện độ chính xác.

Trang 10

Chương 1 TONG QUAN

1.1 Vai trò của bài toán nhận diện cảm xúc dựa trên khía cạnh

Trong bối cảnh năng động của ngành dịch vụ nói chung và nhà hàng kháchsạn nói riêng, việc quan tâm đến cảm xúc, trải nghiệm của người dùng là thiết yếuđối với các doanh nghiệp Một trong các phương pháp hiệu quả là phân tích cảmxúc của người dùng thông qua các bình luận do người dùng để lại sau đó tiến hànhcác thay đôi phù hợp Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân tích cảm xúc là

một bài toán thu hút được nhiêu sự chú ý của các nhà nghiên cứu trên thê giới.

Nhận diện cảm xúc dựa trên khía cạnh (AspectBased Sentiment Analysis ABSA) là một nhánh đặc thù và quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phân tích cảm xúc ABSA không chỉ dừng lại ở việc phân loại cảm xúc

-tổng quát mà còn ổi sâu vào từng khía cạnh cụ thé của dịch vụ hoặc sản phẩm,

mang lại cái nhìn rõ ràng và chỉ tiết hơn về cảm xúc của người dùng Điều này tạo

nên sự khác biệt của ABSA khi so sánh với các phương pháp trước đó.

ABSA đóng vai trò quan trọng trong việc giúp các nhà cung cấp dịch vụ nămbắt và hiểu rõ hơn về phản hồi chi tiết từ khách hàng Khi phân tích cảm xúc dựa

trên khía cạnh, hệ thống xác định chính xác những yêu tố nào của sản pham hoặc

dịch vụ đang được khách hàng đánh giá cao hoặc không hài lòng Ví dụ, trong một nhà hàng, khách hàng yêu thích thức ăn nhưng lại không hài lòng với dịch vụ.

ABSA sẽ phân tích các bình luận và xác định rằng cảm xúc tích cực chủ yếu liênquan đến chất lượng thức ăn, trong khi cảm xúc tiêu cực liên quan đến dịch vụ Nhờvậy, người quản lý có thé tập trung cải thiện dịch vụ mà không cần thay đổi quánhiều về thực đơn, từ đó giảm chỉ phí và nâng cao sự hài lòng của khách hàng

Ngoài ra, ABSA có nhiều lợi ích khi phân tích và dự đoán xu hướng thị

trường Bằng cách theo dõi và phân tích cảm xúc của khách hàng theo thời gian,doanh nghiệp có thé thấy các xu hướng mới nổi và thay đối trong sở thích của

Trang 11

khách hàng Từ đó các doanh nghiệp có thể đáp ứng nhanh chóng với những thayđối, từ đó duy tri và nâng cao vị thế cạnh tranh.

Trong lĩnh vực nghiên cứu và phát triển, ABSA cung cấp một công cụ mạnh

mẽ dé khám phá cách mà con người biểu đạt cảm xúc và ý kiến qua ngôn ngữ Nógiúp các nhà nghiên cứu hiểu sâu hơn về mối quan hệ giữa cảm xúc với ngôn từ, từ

đó phát triển các mô hình ngôn ngữ và hệ thống có khả năng tương tác và nhạy bén

hơn với con người Các ứng dụng của ABSA trong lĩnh vực này rất đa dạng, từ hệthong phân tích dư luận xã hội, đến phát triển các trợ lý ảo có khả năng tương tác

với người dùng.

Một ứng dụng thực tiễn khác của ABSA là trong việc quản lý danh tiếng vàthương hiệu Các doanh nghiệp có thé sử dụng ABSA để theo dõi và phân tích cảmxúc của công chúng về thương hiệu của mình trên các mạng xã hội và diễn dan.Điều này giúp họ nhận biết sớm các van đề tiềm ẩn và giải quyết chúng để ngănchặn những ảnh hưởng tiêu cực đến danh tiếng của mình

Tóm lại, nhận diện cảm xúc dựa trên khía cạnh (ABSA) đóng vai trò vô cùng

quan trọng, từ kinh doanh, nghiên cứu thị trường, phát triển công nghệ, đến quản lýthương hiệu Với khả năng phân tích cảm xúc chỉ tiết và cụ thé, ABSA giúp chúng

ta hiểu rõ hơn về cảm xúc và suy nghĩ của người dùng, dựa vào đó hỗ trợ đưa ra cácquyết định tốt hon Với sự phát triển liên tục của dit liệu và công nghệ, ABSA sẽvẫn là một công cụ quan trọng, mang lại giá trị to lớn cho các doanh nghiệp và tô

chức.

1.2 Bài toán nhận diện cảm xúc dựa trên khía cạnh da thể thức

Sự phát triển của các dữ liệu đa thể thức đã dẫn đến các hướng nghiên cứu

mới cho nhiều nhiệm vụ khác nhau, bao gồm cả ABSA Phân tích cảm xúc dựa trên

khía cạnh đa thé thức (Multimodal Aspect-Based Sentiment Analysis - MABSA)tích hợp các dữ liệu liên quan ngoài văn ban dé xác định cảm xúc dựa trên khíacạnh trong một văn bản cụ thể [1, 2, 3] Cách tiếp cận này khác biệt so với phân tích

Trang 12

cảm xúc truyền thống là nó kết hợp các thé thức bổ sung dé năm bắt thông tin mà cóthê không được đề cập rõ ràng trong văn bản.

Nhận diện cảm xúc dựa trên khía cạnh đa thể thức (MABSA) là một bước tiến

quan trọng và đầy hứa hẹn trong lĩnh vực nhận diện cảm xúc dựa trên khía cạnh

(ABSA) Trong khi ABSA truyền thống chủ yếu tập trung vào phân tích văn bản để

xác định cảm xúc liên quan đến khía cạnh cụ thé, Multimodal ABSA mở rộng phạm

vi bằng cách kết hợp nhiều nguồn dit liệu khác nhau như âm thanh, hình ảnh, video

và văn bản Sự kết hợp này mang lại cái nhìn toàn diện hơn về cảm xúc của ngườidùng, từ đó cải thiện hệ thống phân tích cảm xúc

“Thực sự rất ng ý luôn, mọi thứ đều đẹp và các anh chị ở đây làm việc rất thân thiện nhiệt tình.”

Aspect Loc | Room | Food Fac Pub Ser

Sentiment 0 Pos 0 Pos Pos Pos

Hình 1.1: Ví dụ về phân tích cảm xúc dựa trên khía cạnh đa thể thức

L

Ngày nay trên mạng xã hội và các trang web đánh giá đều cho phép ngườidùng đăng tải hình ảnh, đây là một trong những tiền đề thích hợp để phát triển

multimodal ABSA Với ví dụ trong Hình 1.1, một người dùng sau khi trải nghiệm

tại khách sạn đề lại một bình luận như: “Thực sự rất ưng ý luôn, mọi thứ đều đẹp vàcác anh chị ở đây làm việc rất thân thiện nhiệt tình” Với cụm “các anh chị ở đâylàm việc rất thân thiện nhiệt tình”, ta dé dàng nhận biết khía cạnh được đề cập liên

quan đên nhân viên và cảm xúc ở đây là tích cực Tuy nhiên với cụm “Thực sự rât

Trang 13

ưng ý luôn”, ta có thé thấy cụm này biểu đạt cảm xúc tích cực nhưng lại không đềcập rõ khía cạnh nào Đây là một trong những bình luận thường thấy trên mạng xãhội Điều này đôi khi gây khó khăn cho các bài toán ABSA thông thường.

Dé giải quyết thách thức này, chúng tôi giới thiệu nhiệm vụ Phân Tích CảmXúc Dựa trên Khia Cạnh Da Thể Thức (Multimodal Aspect Category Sentiment Analysis - MACSA), tận dụng cả văn bản và hình ảnh dé xác định cảm xúc của một

khía cạnh nhất định Ví dụ, nếu người dùng cung cấp ảnh của phòng khách sạn,chúng tôi có thể suy ra rằng “Thực sự rất ưng ý luôn” có ám chỉ đến căn phòng.Thông tin bổ sung như vậy có thé nâng cao đáng kể hiệu suất của các nhiệm vu

ABSA.

1.3 Những thách thức của đề tài

Phân tích cảm xúc dựa trên khía cạnh đa thể thức (MACSA) đem đến nhiều

lợi ích to lớn nhưng cũng di kèm với những thách thức.

Thứ nhất, việc xử ly kết hợp đa dạng nhiều thê thức Mỗi loại thé thức có đặcđiểm và cấu trúc riêng, yêu cầu các kỹ thuật xử lý phức tạp Bên cạnh đó việc kếthợp các đặc trưng thu được từ những thé thức cũng không dễ dàng Dé giải quyết

van dé này cần sử dụng các thuật toán phức tạp giúp kết hợp đặc trưng của từng thé

thức Ví dụ, hình ảnh cho biết thông tin về cảnh quan xung quanh trong khi văn bảncho biết về suy nghĩ, cảm nhận của người viết Dé kết hợp các nguồn thông tin nàyhiệu quả cần phải có các kỹ thuật tiên tiến giúp xử lí dit liệu phi cau trúc

Thứ hai, MABSA yêu cầu tài nguyên tính toán lớn Xử lý và phân tích đồngthời nhiều thé thức đòi hỏi bộ nhớ, CPU và GPU mạnh mẽ, làm tăng chi phí và yêucầu về công nghệ Việc xử lý lượng lớn dữ liệu dẫn đến thời gian xử lí lâu hơn, làmtăng độ trễ của hệ thống Điều này vô cùng quan trọng trong những ứng dụng thờigian thực, nơi mà tốc độ và hiệu quả của việc phân tích cảm xúc có thể ảnh hưởng

lớn đên trải nghiệm của người dùng.

Trang 14

Cuối cùng, đề đào tạo các mô hình MABSA cần có các bộ đữ liệu đa thể thứclớn và chất lượng cao Tuy nhiên, quá trình thu thập và gán nhãn các bộ dit liệu này

yêu câu nhiêu công sức Ở Việt Nam hiện nay vẫn chưa có bộ dữ liệu Tiêng Việt

cho bải toán nhận diện cảm xúc dựa trên khía cạnh đa thê thức mà chỉ xoay quanh các bai toán trên văn bản thông thường.

1.4 Mục tiêu của đề tài

'Trong nghiên cứu này, chúng tôi có những mục tiêu như sau:

Xây dựng bộ dữ liệu cho bài toán phân tích cảm xúc dựa trên khía cạnh đa

thê thức trên tiếng Việt

Nghiên cứu, thử nghiệm các công trình trước đó trên bộ dữ liệu đã xây dựng.

Đề xuất một công trình mới do nhóm tìm hiểu và phát trién

Xây dựng ứng dụng minh họa phân tích cảm xúc dựa trên khía cạnh đa thể

thức.

1.5 Đóng góp của đề tài

Những đóng góp chính của chúng tôi trong đề tài này bao gồm:

Xây dựng bộ dữ liệu VIMACSA được gan nhãn chi tiết trên cả hình ảnh vàvăn bản cho bai toán phân tích cảm xúc dựa trên khía cạnh đa thé thức dànhcho Tiếng Việt Chúng tôi hi vọng đây sẽ là một bộ dữ liệu chuẩn dùng déđánh giá cho các công trình nghiên cứu khác trong tương lai về lĩnh vực này.Thử nghiệm các mô hình tiên tiến cho bài toán đa thể thức đã được công bố

trên thé giới

Đề xuất framework mới có tên Fine-Grained Cross-Modal Fusion (FCMF)

với khả năng học được những tương tác giữa hình ảnh và văn bản thông qua

cơ chế Attention

Tiến hành đánh giá FCMF framework với các mô hình tiên tiễn khác trên bộ

dữ liệu ViMACSA Kết qua thử nghiệm cho thấy framework của chúng tôi

Trang 15

vượt qua các mô hình tiên tiên khác và thê hiện được tiêm năng của nó trong

việc làm mô hình cơ sở trong nghiên cứu tương lai sử dụng bộ dữ liệu này.

1.6 Cấu trúc khóa luận

Khóa luận này gồm 6 chương với các nội dung chính sau:

> Chương 2: Các công trình nghiên cứu liên quan

Trong chương 2, chúng tôi sẽ nghiên cứu và trình bày các bộ dữ liệu và các phương pháp liên quan tới bai toán trong và ngoai nước.

> Chương 3: Bộ dữ liệu

Trong chương 3, chúng tôi sẽ định nghĩa bai toán nhận diện cảm xúc dựa trên khía

cạnh Sau đó sẽ trình bày quá trình xây dựng bộ dữ liệu bao gồm: thu nhập, gán

nhãn, đánh giá, phân tích.

> Chương 4: Fine-grained Cross-Modal Fusion Framework

Trong chương 4, chúng tôi sẽ trình bày cơ sở lí thuyết của các module trong

framework của chúng tôi đề xuất Sau đó, chúng tôi trình bày chỉ tiết các module

trong framework: Image Processing, Auxilliary Sentence, Image-guided Attention, Geometric Roi-aware Attettion va Sentiment Detection.

> Chương 5: Cai đặt, kết quả và đánh giá

Trong chương 5, chúng tôi sẽ tóm tắt các mô hình SOTA trước đây để so sánh vớiframework chúng tôi đề xuất Tiếp theo, chúng tôi trình bày về độ đo đánh giá,bước tiền xử lí đữ liệu, và tham số cài đặt của các mô hình Cuối cùng, chúng tôinhận xét kết quả đạt được và phân tích các lỗi gặp phải

> Chương 6: Kết luận và hướng phát triển

Trang 16

Trong chương cuối, chúng tôi trình bày những kết quả thu được, đồng thời rút ranhững hạn chế và đề xuất các hướng phát triển trong tương lai trong khóa luận tốt

nghiệp này.

Trang 17

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Các phương pháp tiếp cận đa thé thức đã nhận được sự quan tâm rộng rãi từ các nhà

nghiên cứu trên toàn thế giới [4, 5, 6, 7, 8, 9], bao gồm cả lĩnh vực phân tích cảm

xúc đa thể thức Phân tích cảm xúc đa thể thức (Multimodal Sentiment Analysis MSA) nhằm hiểu rõ cảm xúc được truyền tải thông qua sự kết hợp của nhiều théthức như giọng nói, hình ảnh và văn bản Các nhà nghiên cứu đã phát triển nhiều bộ

-dữ liệu đa thể thức dé hỗ trợ nghiên cứu nhiệm vụ MSA (Phan 2.1) Các phươngpháp tiên tiến đã xuất hiện để giải quyết nhiệm vụ MSA, ví dụ như những mô hình

dựa trên LSTM va BERT, cho phép phân tích sâu các tương tác phức tạp giữa các

thé thức (Phan 2.2) Hơn nữa, chúng tôi đánh giá toàn diện các bộ dữ liệu vaphương pháp hiện có về bài toán đa thê thức trên tiếng Việt (Phần 2.3)

2.1 Các bộ dữ liệu phân tích cảm xúc đa thể thức

Nhờ sự phát triển nhanh của công nghệ, người dùng có thể biểu đạt cảm xúcthông qua thé thức âm thanh và hình anh Phân tích cảm xúc đa thé thức tận dụng

những khả năng mới này, mang lại một sự mở rộng mạnh mẽ của phân tích cảm xúc

truyền thống dựa trên văn ban Lĩnh vực nay đã nhanh chóng phát triển mạnh mẽ,

thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trên toàn thế giới [3] Hiện nay

có rất nhiều bộ dữ liệu chất lượng cao để hỗ trợ nghiên cứu này, như được trình bàytrong Bảng 2.1 Hầu hết các bộ dữ liệu này tập trung vào phân tích cảm xúc trênvideo, bao gồm [10, 11, 12, 13, 14, 15, 16]

Tuy nhiên, có tương đối ít các bộ dữ liệu phân tích cảm xúc đa thể thức tập

trung vào dữ liệu văn bản-hình ảnh Năm 2019, Cai và các cộng sự [17] đã tạo ra

một bộ dữ liệu đa thé thức dé phân loại các bình luận châm biến Năm 2021, Zhou

và các cộng sự [18] đã tạo ra một bộ dit liệu đa thé thức với 38,532 mẫu trên 7 miền

và 57 khía cạnh Năm 2022, Ramamoorthy và các cộng sự [19] đã tạo ra một bộ dữ

Trang 18

liệu dựa trên meme đa thể thức với 10,000 mẫu cho ba nhiệm vụ: Phân tích cảm

xúc, Phân loại biêu cảm, và Cường độ cảm xúc.

Các bộ dữ liệu trên đêu được gán nhãn cho phân tính cảm xúc ở câp độ câu Đôi với các bộ dữ liệu tập trung vào nhiệm vụ phân tích cảm xúc ở câp độ khía

cạnh, Xu và các cộng sự [20] đã tạo ra một bộ dữ liệu đa thé thức chứa 5,528 mẫu

trên miền điện thoại, được gán nhãn trên 6 khía cạnh (screen, photographing effect,

appearance and feeling, performance configuration, battery life, and price

performance ratio) Năm 2019, Yu và các cộng sự [21] đã tao ra hai bộ dữ liệu, Twitter-15 và Twitter-17, được gan nhãn cảm xúc trên mỗi khía cạnh.

Bảng 2.1: Những bộ dữ liệu hiện có về phân tích cảm xúc đa thê thức

Dataset Year Source | Modality | Language Labels | #Aspects | #Samples

MVSA-Multiple | 2016 Twitter V+T English Neg, - 19,600

[22] Neu,

Pos

B-T4SA [23] 2017 | Twitter V+T English [-3,3] - 470,586

CMU-MOSEI 2018 | Youtube | A+V+T English [-3,3] - 23,453

Multi-ZOL [20] | 2019 ZOL V+T Chinese [1,10] 6 5,228

MELD [14] 2019 The A+V+T English Emotion 7 13,000

Friends

10

Trang 19

CH-SIMS [15] 2020 Movie, A+V+T Chinese [-1,1] - 2,281

Memotion 2 2022 | Facebook, V+T English Neg, 20 10,000 [19] Reddit, Neu,

etc Pos,

Emotion

2.2 Cac phương pháp phân tích cảm xúc da thé thức

Các nghiên cứu trước đây về phân tích cảm xúc dựa trên khía cạnh chủ yếu tập

trung vào phân tích cảm xúc trong dữ liệu văn bản, bao gồm [24 25, 26, 27, 28].Tuy nhiên, đối với dit liệu đa thé thức, mục tiêu là xác định mối quan hệ giữa khíacạnh-cảm xúc và kết hợp các thé thức hiệu quả [2, 1, 29, 30, 31, 32]

Các kỹ thuật kết hợp (fusion) hiện tại được phân loại thành ba loại chính: kếthợp sớm (early fusion), kết hợp trung gian (intermediate fusion) và kết hợp muộn(late fusion) [33] Đối với early fusion, đặc trưng của các thé thức được nối với

nhau dé tạo thành một biéu diễn đặc trưng chung Ngược lai, late fusion sử dụng các

mô hình độc lập cho mỗi thé thức, sau đó tổng hợp chúng dé tạo ra đầu ra cuối

cùng Tuy nhiên, những kỹ thuật này không nắm bắt được tương tác giữa các thé

thức.

Dé giải quyết van dé này, kỹ thuật intermediate fusion được sử dụng dé phân

tích tương tác phức tạp giữa các thể thức Ví dụ, vào năm 2019, Xu và các cộng sự

[20] tạo ra mô hình MIMN sử dụng mạng lưới nhớ tương tác (interactive memory

11

Trang 20

networks) để học tương tác nội và liên thé thức Cùng năm đó, Yu và các cộng sự[34] tạo ra mô hình ESAFN, kết hợp cơ chế công (gating), và các tương tac bilinear(bilinear interaction) dé nam bat sự linh hoạt cua nội va liên thé thức cho nhiệm vuphan tich cam xuc da thé thức ở cấp độ khía cạnh Năm 2020, Xu và các cộng sự[35] tạo ra mô hình AHRM, sử dung progressive attention module dé nam bắt sự

tương tác hình ảnh-văn bản.

Ngoài ra, các mô hình dựa trên BERT cũng có nhiều tiến triển, bao gồmTomBERT [21] sửa đổi kiến trúc BERT [36] để có được sự tương tác giữa khíacạnh-hình ảnh Năm 2021, Khan và các cộng sự [37] công bố mô hình EF-

CapTrBERT, sử dung Object Dectection Transformer dé tạo ra chú thích hình ảnh

và sau đó xây dựng một câu phụ trợ cho nhiệm vụ phân tích cảm xúc đa thể thứcdựa trên khía cạnh Nam 2022, Yu và các cộng sự [38] đề xuất mạng ITM (Image-Target Matching) dé có được biéu dién hình ảnh dựa trên sự liên quan giữa hình ảnh

và khía cạnh, từ đó tăng cường phân tích cảm xúc đa thể thức thông qua sự kết hợp

dựa trên mô hình Transformer Năm 2024, Yang và các cộng sự [39] công bố mô hình MGAM, sử dụng câu phụ trợ và sử dụng đồ thị không đồng nhất

(heterogeneous graph) dé học tương tác liên thể thức

2.3 Phân tích cảm xúc da thé thức cho Tiếng Việt

Ở Việt Nam hiện nay các bộ dữ liệu đa thé thức còn khá hạn chế Hiện tại, các

bộ dữ liệu đa thê thức tiếng Việt chủ yếu tập trung vào nhiệm vụ trả lời câu hỏi trênhình ảnh, bao gồm các bộ dữ liệu như ViVQA [40], ViCLEVR [41], OpenViVQA

[42], va EVJVQA [43] Trong lĩnh vực phân tích cảm xúc, chỉ tập trung vào dữ liệu

dựa trên văn bản [44, 45, 46, 47, 48] Hiện tại, chưa có bộ dữ liệu đa thể thức cho

phân tích cảm xúc bằng tiếng Việt.

Tóm lại, các bộ dit liệu hiện tại còn hạn chế do bỏ qua việc gán nhãn chi tiếttrong hình ảnh, dẫn đến việc căn chỉnh thông tin giữa các thể thức gặp nhiều khókhăn Hơn nữa, các bộ dữ liệu trước đây việc chỉ sử dụng duy nhất một hình ảnh,điều này là không đủ trong các bài toán thực tế Vì vậy, trong khóa luận này, chúng

12

Trang 21

tôi đê xuât một bộ dữ liệu chuân cùng với một mô hình mới đê giải quyêt những

hạn chế này Chúng tôi sẽ trình bày chỉ tiết trong các phần tiếp theo

13

Trang 22

Chương 3 BỘ DỮ LIỆU

Trong phần này, chúng tôi định nghĩa nhiệm vụ phân tích cảm xúc dựa trên khíacạnh đa thể thức và giới thiệu một bộ dữ liệu chuẩn mới cho nhiệm vụ phân tíchcảm xúc dựa trên khía cạnh đa thé thức tiếng Việt, được đặt tên là VIMACSA Mộtđặc điểm phân biệt của bộ dữ liệu VIMACSA nam ở việc gan nhãn chỉ tiết trên cảhình ảnh và văn bản Cụ thể là, chúng tôi sẽ gán nhãn các đối tượng (Region ofInterest - Rol) trong ảnh, giúp tăng cường yếu tố hình ảnh trong bộ dữ liệu Quá

trình xây dựng bộ dữ liệu gồm ba giai đoạn: Thu Thập Dữ Liệu (Phần 3.2), Gán

nhãn Dữ Liệu (Phần 3.3), và Đánh giá Dữ Liệu (Phần 3.4)

3.1 Định nghĩa bài toán

Dựa trên các nghiên cứu trước đó về phân tích cảm xúc dựa trên khía cạnh(ACSA) và phân tích cảm xúc dựa trên khía cạnh đa thể thức (MACSA), MACSA

được định nghĩa như sau Với một cặp văn bản-hình ảnh, có một đoạn văn bản S

chứa m từ S = {W¡,Ws, ,Wm } và các hình ảnh đi kèm I = {l,l¿, , lu} Danh

sách các khía cạnh sử dụng trong bài toán được định nghĩa trước là A =

{A!, A?, ,A"} Trong đó m, n, k lần lượt là số từ trong đoạn văn bản, số lượnghình ảnh và số aspect được định nghĩa trước

Với đầu vào là một cặp văn bản-hình ảnh (S,/) và một trong các khía cạnh A”,

mục tiêu là xác định nhãn cảm xúc của khía cạnh đó (S,/, A") > Y, trong đó Y gôm (“irrelevant”, “positive”, “neutral” và “negative”) O đây, nhãn “irrelevant”

cho biết khía cạnh 4” không được đề cập đến trong cả hình ảnh và văn bản

3.2 Thu thập dữ liệu

Nhằm mục tiêu xây dựng một bộ dữ liệu đáng tin cậy bao gồm cả hình ảnh vàvăn bản, chúng tôi đã thu thập các đánh giá đa thé thức do người dùng tạo ra từTraveloka! - một trang web du lịch tiếng Việt có cung cấp dịch vụ đặt phòng khách

1 https://www.traveloka.com/vi-vn

14

Trang 23

sạn Bộ đữ liệu dùng để gán nhãn bao gồm 8,000 mẫu, mỗi mẫu bao gồm một đánhgiá kèm theo tối đa 7 hình ảnh.

Tiếp theo, chúng tôi gán nhãn các đối tượng trong mỗi hình ảnh bằng cách sử

dụng phần mềm phát hiện đối tượng là x-anylabeling? Điều này giúp chúng tôi tự

động phát hiện các đối tượng (Region of Interesting - Rols) Sau khi loại bỏ cácmẫu dữ liệu gây nhằm lẫn và mâu thuẫn thông qua quá trình gán nhãn, chúng tôi thuđược một bộ dữ liệu gồm 4,876 cặp văn bản-hình ảnh bao gồm các Rols Bộ dữ liệu

này là nguồn tài nguyên đáng tin cậy cho bài toán phân tích cảm xúc da thé thức trên tiếng Việt.

3.3 Quá trình gán nhãn

3.3.1 Dinh nghĩa các khía cạnh

Sau khi tham khảo các nghiên cứu về phân tích cảm xúc dựa trên khía cạnh trước

đó ở trong và ngoài nước [39, 49, 50], chúng tôi quyết định sử dụng các khía cạnhđược đề cập đến ở nghiên cứu [39]: Location, Food, Room, Facilities, Service và

Public area Những khía cạnh này đánh giá một cách toàn diện các mối quan tâmcủa người dùng đến khách sạn và có thể được áp dụng độc lập cho dữ liệu văn bản

hoặc hình ảnh Định nghĩa về các khía cạnh được mô tả như sau:

e Room: Dé cập đến phòng khách sạn bao gồm các nhận xét về: kích thước,

thiết kế, đồ nội thất, phòng tắm, cách âm, bảo mật,

e Location: Đề cap đến vi trí khách sạn và các dia điểm xung quanh

e Food: Đề cap dén an sang, thức ăn, đồ uống, buffe,

e Facilities: Những cơ sở vat chat được khách san cung cấp phục vụ cho nhu

cầu, sở thích cá nhân của khách hàng như: hồ bơi, phòng gym, nhà hang,

internet, spa, club, tiện ích cho trẻ em

e Service: Những nhận xét chung về thái độ, dịch vụ, chất lượng phục vụ của

nhân viên, dọn phòng, những van dé liên quan dén nhận, trả phòng.

2 https://github.com/CVHub520/X-AnyLabeling

15

Trang 24

e© Public area: Đề cập đến view, không gian chung có sẵn giành cho khách:

sảnh, hành lang, sân vườn, khuôn viên.

3.3.2 Gan nhãn dữ liệu

Quá trình xây dựng bộ dữ liệu ViMACSA bao gồm ba giai đoạn gán nhãn: gán

nhãn văn bản, gán nhãn hình ảnh, và gán nhãn cặp văn bản-hình ảnh Hình 3.1 mô

tả từng bước gán nhãn chỉ tiết cho bộ dữ liệu ViMACSA

ia > @) Annotate text label

= es S k h ee esc

biên rat tiện Anh chi nhân viên thân thiện lãm.

“The hotel is beautiful and clean, located right next to the street, so it

-is very convenient to walk to the beach The staff are very friendly.” ® Annotate Rol and image label

Loc Ser Aspect Room

bed 1

@) Annotate text - in nage pair

Aspect

Hình 3.1: Quá trình gan nhãn ba giai đoạn.

Trong giai đoạn thứ nhất, chúng tôi thực hiện việc gan nhãn văn bản Giai đoạn

này tiễn hành gán nhãn cảm xúc trên 6 khía cạnh được xác định trước cho thé thức

văn ban Khia cạnh-cảm xúc được phân loại như sau: 0 là “irrelevant”, 1 là

“negative”, 2 là “neutral”, va 3 là “positive” Chúng tôi sử dung Label Studio? (

xem Hình 3.2), một công cu gan nhãn trên web với giao diện thân thiện với người dùng.

3 https://labelstud.io/

16

Trang 25

Hình 3.2: Giao diện Label Studio.

Trong giai đoạn 2, chúng tôi thực hiện việc gan nhãn hình ảnh Giai đoạn nay tiễnhành phát hiện các đối tượng (Rols) trong một hình ảnh, sau đó gán nhãn các khíacạnh cụ thé cho mỗi hình ảnh hoặc Rol Cụ thé là, chúng tôi sử dụng mô hìnhYoloV§ trong phần mềm x-anylabeling (xem Hình 3.3), dé tự động phát hiện các

Rols trong mỗi hình ảnh Khi các Rols được phát hiện, chúng tôi loại bỏ các Rols

không liên quan hoặc không chính xác và hợp nhất (merge) các Rols tương tự nhau

Sau đó, chúng tôi gan nhãn khía cạnh cho từng hình ảnh và các Rols còn lại Ví dụ,

nếu hình ảnh là một căn phòng va Rol là một chiếc giường, thì cả hình anh và Rol

sẽ được gán nhãn khía cạnh là “Room” Quá trình gán nhãn cảm xúc cho hình ảnh

và Rols có thé gặp nhiều khó khăn do sự mơ hồ trong việc xác định cảm xúc truyềnđạt ở hình ảnh liên quan tới khách sạn [39] Đề tránh thông tin sai lệch giữa những

người gán nhãn, chúng tôi không gán nhãn cảm xúc cho các hình ảnh và Rols.

4 https://github.com/ultralytics/ultralytics

17

Trang 26

HH

IKIRIIS

Hình 3.3: Giao diện x-anylabeling.

Trong giai đoạn cuối cùng của quá trình gán nhãn, chúng tôi gán nhãn cảm xúc

cho cặp văn bản-hình ảnh trên các khía cạnh đã gán ở giai đoạn 2 Nếu một khía

cạnh đã có nhãn cảm xúc từ giai đoạn đầu tiên, thì nó không thay đổi Tuy nhiên,đối với các khía cạnh mới xuất hiện trong giai đoạn 2, chúng tôi gán nhãn cảm xúccho nó dựa trên thê thức văn bản

Hướng dẫn gán nhãn (annotation guideline) được chúng tôi liên tục cập nhật

trong suốt quá trình gan nhãn dé dam bảo tính nhất quán và bao phủ tất cả các tìnhhuống mà người gan nhãn có thé gặp phải Cuối cùng, chúng tôi thu được bộ dit liệuViMACSA với su gan nhãn chi tiết trên cả văn ban và hình anh Bộ dữ liệu này có

giá trị đối với các nhà nghiên cứu về bài toán phân tích cảm xúc da thé thức trên

tiếng Việt

3.4 Đánh giá bộ dữ liệu

3.4.1 Các độ đo đánh giá

Cohen’s Kappa:

Với một cặp annotator cùng gan nhãn cho một dữ liệu d, Công thức (1) được sử

dụng dé tính độ đo Cohen’s Kappa

18

Trang 27

_ Pr(A) — Pr(e)

1— Pre) (1)

Trong do:

e Pr(A) là giá trị đồng thuận giữa các nhãn được tinh bang tong trường hop

đồng thuận giữa các người gán nhãn chia cho tông số mẫu dữ liệu

e Pr(e) là giả định xác suất của độ đồng thuận được tính bang tổng số xác suất

mà hai người gán nhãn cùng đồng thuận trên từng nhãn

IoU (Intersection over Union):

IoU là một cách dé đánh giá mức độ tương đồng giữa hai khu vực được phân đoạn

bằng cách tính tỉ lệ giữa diện tích phần giao nhau của chúng và tổng diện tích của

phan cùng được phân đoạn Cách tính IoU được biéu diễn ở Công thức (2)

Đề đảm bảo chất lượng, tính nhất quán của quá trình gán nhãn và độ tin cậy của

bộ đữ liệu ViMACSA, chúng tôi thực hiện đánh giá trên nhiều giai đoạn Chúng tôi

sử dụng Cohen’s Kappa [51] và Intersection over Union (IoU) [52] dé ước tính độđồng thuận giữa những người gan nhãn Cụ thé là, chúng tôi sử dụng độ đo Cohen’sKappa cho các nhiệm vụ gán nhãn liên quan đến khía cạnh-cảm xúc (Phần 3.3), và

chúng tôi sử dụng độ đo IoU cho nhiệm vụ xác định vi trí các Rols.

Quá trình gán nhãn của chúng tôi được thực hiện trên 2 giai đoạn chính: giai đoạn

huân luyện và giai đoạn gan nhãn Giai đoạn huân luyện bao gôm 5 vòng, moi vòng

19

Trang 28

gán 100 mẫu Dựa theo McHugh [53], giai đoạn huấn luyện được hoàn thành khimức độ đồng thuận giữa các người gán nhãn đạt trên 0.80 Biểu đồ Hình 3.4 và

Hình 3.5 cho biết mức độ đồng thuận giữa hai người gan nhãn luôn lớn hơn 0.8

trong năm vòng.

Phase 1 Phase 2 Phase 3 Phase 4 Phase 5

mm Text =a img mm Text-img

Trang 29

Sau khi kết thúc giai đoạn huấn luyện, chúng tôi chuyên sang giai đoạn gán nhãn,nơi mà các người gán nhãn của chúng tôi gán nhãn cho phần dữ liệu còn lại Trongnhững trường hợp mẫu dữ liệu khó, chúng tôi xác định nhãn dựa trên sự đồng thuận

không có ranh giới từ có định (từ ghép, từ láy, ) Quá trình này đảm bảo nhận diện

từ chính xác và giúp hiéu sâu hơn về văn bản

Các từ phổ biến nhất trong WordCloud liên quan đến các khía cạnh về khách sạnđược đề cập trong các bài đánh giá của người dùng Một số danh từ đáng chú ý bao

33 66.

gồm “khách sạn”, “phòng”, “lễ tân”, “nhân viên” Ngoài ra, trạng từ “rất” được sử

dụng thường xuyên Cũng có một số tính từ như “thân thiện”, chủ yêu dùng dé miêu

tả nhân viên, và “tuyệt vời” thường được sử dung dé thê hiện cảm xúc tích cực.

é ~nhiet_tinh

(a) WordCloud without text tokenized (b) WordCloud with text tokenized.

Hình 3.6: Word cloud của bộ dữ liệu VIMACSA.

21

Trang 30

3.5.2 Dac trưng bộ dữ liệu

Bộ dữ liệu ViMACSA được thu thập trên mạng truyền thông xã hội Do đó, nó cócác đặc điểm riêng về dit liệu mang xã hội ở Tiếng Việt Các ký tự đặc biệt, lỗi

chính tả, từ vô nghĩa, và các từ viết tắt là những đặc điểm thường xuyên xuất hiện

e Dấu câu hoặc từ có phát âm tương tự bị viết sai: hồ trợ (hỗ trợ), siu (siêu),

e Kéo dài từ: đẹppppp (đẹp), ngonnnm (ngon),

e Viết tắt có thé gây mơ hồ do có nhiều nghĩa: ks/ksan (khách sạn), ko/kh

(không),

Từ viết tắt

0 2 4 6 8 10 12 14 16 18 20

m lỗi chính tả/từ vô nghĩa sm Ky tự đặcbiệt Từ viết tắt

Hình 3.7: Thống kê các lỗi phổ biến trên 100 mẫu ngẫu nhiên của bộ dữ liệu

22

Trang 31

Bang 3.1: Một số lỗi thường xuất hiện trong bộ dit liệu VIMACSA.

deppppp > dep ksan khách sạn :D

siu siêu gd > gia đình =))

ngonnn ngon mn > moi người Emoji: Ÿ ,®, «&.,

Hình 3.8 minh hoa tỷ lệ hình ảnh có liên quan và không liên quan trong bộ dữ liệu

ViMACSA Tỷ lệ hình ảnh không liên quan tương đối cao, lên tới 38% Điều nàycho thay người sử dụng nền tang mạng xã hội thường chia sẻ nhiều hình ảnh không

liên quan đên trải nghiệm của họ.

m Irrelevant

= Relevant

Hình 3.8: Ty lệ hình ảnh có liên quan/không liên quan trong bộ dữ liệu VIMACSA.

23

Trang 32

3.5.3 Các thống kê về bộ dữ liệu

Thống kê chỉ tiết về bộ dữ liệu VIMACSA được mô tả trong Bang 3.2 Bộ dit liệu

này bao gồm 4,876 cặp văn bản-hình ảnh bao gồm các Rols Qua quá trình phân

tích, chúng tôi phát hiện ra rang các khía cạnh và nhãn cảm xúc trong bộ dit liệu

không cân băng, với phân lớn các nhãn cảm xúc là tích cực.

Bảng 3.2: Thống kê tổng quan của bộ dữ liệu VIMACSA

Average Avg aspect/

Set | Review Pos | Neu | Neg | #Images | #Rols

length review

Train | 2,876 42.42 3.01 6,421 | 1,402 | 830 | 5,428 8,656 Dev | 1,000 39.36 2.98 2,230 | 463 | 291 1,789 2,880

Test | 1,000 42.17 2.98 2,178 | 485 | 318 1,841 3,097

Bang 3.3 cho biết tổng số lượng khía cạnh cho thé thức văn bản và cặp văn

bản-hình ảnh Bộ dữ liệu VIMACSA được gán nhãn trên cả văn bản-bản-hình ảnh chứa

nhiều hơn 36,51% khía cạnh so với thé thức văn ban, cho thấy tiềm năng của nótrong việc giải quyết van đề khía cạnh ân (implicit aspect) trong các bình luận củangười dùng Điều này chỉ ra rằng dữ liệu đa thể thức chứa nhiều thông tin, và việc

phân tích nó đòi hỏi phải xem xét toàn diện thông tin từ cả hai thể thức.

Bảng 3.3: Số lượng các khía cạnh mỗi thể thức

Modality Số lượng khía cạnh

Text-only 10,708

Text-Image 14,618

Hinh 3.9 cho biét phan bố của 6 khía cạnh trên 3 tập con trong bộ dữ liệu Vì khóa

luận của chúng tôi tập trung vào lĩnh vực khách sạn, các khía cạnh như Room và

24

Trang 33

Service được dé cập nhiêu nhât trong các đánh giá của người dùng, trong khi khía

200

100

The number of samples

700 600

500

400

300 200 100

The number of samples

Trang 34

Chương 4 FINE-GRAINED CROSS-MODAL FUSION

FRAMEWORK

Ở chương nay, chúng tôi trình bay co sở lí thuyết về các kỹ thuật liên quan, sau đó

trình bày trình tiết về Fine-grained Cross-modal Fusion Framework được chúng tôi

trong ảnh) bằng cách cho phép mỗi thành phần tương tác lẫn nhau và đo lường mức

độ quan trọng của sự tương tác đó, thông qua việc tính toán trọng số chú ý

(attention weights).

Quá trình nay tao ra một ma trận chú ý (attention matrix), giúp mô hình tập trung

vào các thành phần quan trọng trong khi lược bỏ những thành phần không cần thiết

Ma trận chú ý được tính theo Công thức (3).

, QKT

Attention(Q, K,V) = softmax V (3)

v4,

Trong đó:

e Q,KvàV lần lượt là vector truy vấn, vector khóa, va vector giá tri.

e dự là sô chiêu cua vector query hoặc key.

Các mô hình dựa trên Transformer thường sử dụng nhiêu lớp self-attention dé

biểu diễn các mức độ khác nhau của ngữ cảnh và mức độ trừu tượng của dữ liệu[55, 36, 56] Sự két hop giữa self-attention với các kỹ thuật như Normalization và

26

Trang 35

lớp Feedforward đã tạo nên những mô hình mạnh mẽ, có thé học được các biéu diễnsâu và đa chiều của dữ liệu.

Self-attention còn có thể được mở rộng thành Multi-Head Attention (Công thức

(4)), trong đó việc tính toán được thực hiện trên nhiều ma trận Q,K, V độc lập, sau

đó tổng hợp lại dé có được biểu diễn cuối cùng Điều này cho phép mô hình biết

những góc độ khác nhau của dữ liệu và nâng cao khả năng biéu diễn tổng thé Kiến

trúc của Self-attention và Multi-Head Attention được minh họa ở Hình 4.1.

MultiHead(Q, K, V) = concat(head,, head, , head, )W® (4)

với head, = Attention(QW/°,KW#,VWƑ)

Trong đó:

e W là ma trận dùng dé ánh xa dữ liệu sang không gian chiều thấp hơn

Scaled Dot-Product Attention Multi-Head Attention

27

Trang 36

Cơ chế này nối các vector đặc trưng từ các thé thức khác nhau thành một dạngthống nhất (Công thức (5)), sau đó áp dụng cơ chế Self-Attention để xử lý (Công

e X¡,X; là vector đặc trưng của 2 loại thê thức

e Q,KvaV 1an lượt là vector truy vấn, vector khóa, và vector giá tri

e d, là sô chiêu cua vector query hoặc key.

Nhờ vậy, Multi-modal Attention cho phép mô hình học được mối quan hệ nội tại

trong từng thé thức và giữa các thê thức với nhau Giúp nâng cao khả năng hiểu biếtcủa mô hình trên từng thể thức Tổng quan kiến trúc 1 khối Multi-modal Attention

được minh họa ở Hình 4.2

Tương tự như Self-Attention, Multi-modal Attention cũng có thé được mở rộng

thành Multi-Head Multi-modal Attention Sự mở rộng này cho phép mô hình học

được nhiều sự tương tác phức tạp hơn giữa các thé thức với nhau, cải thiện khảnăng khai thác thông tin và nâng cao hiệu suất mô hình

28

Trang 37

Cross-modal Attention (chú ý liên thé thức) [57] là một co chế mạnh mẽ trong

việc xử lí dữ liệu đa thê thức, giúp mô hình chú ý vào những phần quan trọng từnhiều thé thức khác nhau (vi dụ: hình ảnh, văn bản)

Mỗi thê thức (ví dụ: văn bản, hình ảnh) được biểu diễn bằng một vector đặc trưngriêng biệt Ví dụ, văn bản được biểu diễn dưới dạng vector word embeddings hoặccác vector ngữ cảnh từ mô hình Transformer, trong khi hình anh được biểu diễn

dưới dạng các vector từ mang CNN Khác với Self-attention, trọng số chú ý đượctính toán cho cặp thể thức (Công thức (8)) Trọng số này cho biết mức độ quan

trọng của một thé thức đối với thé thức khác

Trang 38

e K (Key): Vector đặc trưng của thé thức được chú ý.

e V (Value): Vector đặc trưng của thé thức được chú ý, chứa thông tin chi

tiết của thể thức

e dự: là số chiều của vector key hoặc value

Cũng tương tự như Self-attention, Cross-modal Attention còn có thé được mởrộng thành Multi-Head Cross-modal Attention Tổng quan kiến trúc 1 khối Cross-

modal Attention được mô tả ở hình Hình 4.3.

Cross-modal Attention N

‡ Query | Key | | | Value | |

Thẻ thức văn bản Thể thức hình ảnh

Hình 4.3: Kiến trúc Cross-modal Attention

4.1.4 Object Relation Module

Object Relation Module [58], là một giải pháp dé xử lý tập hợp các đối tượngtrong hình ảnh Module này mô hình hóa sự tương tác giữa các đối tượng bằng cáchtích hợp thông tin về đặc trưng hình ảnh và vị trí hình học của chúng

Một thách thức lớn trong việc mô hình hóa sự tương tác giữa các đối tượng là sự

đa dạng về kích thước, vị trí và đặc trưng đối tượng trong hình ảnh Đề xử lí tháchthức này, Object Relation Module đã sử dụng cơ chế chú ý từ lĩnh vực xử lý ngôn

30

Trang 39

ngữ tự nhiên (NLP) Cơ chế này thiết lập sự phụ thuộc giữa các đối tượng mà khôngcần những giả định quá nhiều về vị trí hay đặc trưng của chúng Điểm đặc biệt củamodule này là việc mở rộng cơ chế chú ý bằng cách thêm trọng số hình học mới,

giúp mô hình hóa môi quan hệ không gian giữa các đôi tượng.

Về bản chất, module này hoạt động thông qua việc tính toán sự tương tác giữa các

đối tượng, biểu diễn bằng một trọng số dựa trên cả đặc trưng hình ảnh và vi trí Quá

trình tính toán bao gôm các bước sau:

Đầu tiên, đối với 2 vùng bao (bounding box) m và n, một vector dịch chuyền

A(m,n) được tính toán dựa trên các vi trí hình học của chúng (x, y,w,h) (tọa độ

tâm, chiều rộng, chiều cao), được thé hiện ở Công thức (9)

|X = Xn |m = Yn Wn hạ

A(m,n) = | log——————,Ìlog———————,Ìog——, log — 9(m,n) ( G7 a, Oy 8s (9)

Tiếp theo, Công thức (10) tính toán trọng số chú ý hình học w",

we” = ReLU(Emb(A)MW,) (10)

Trong đó Emb(A) là hàm mã hóa đặc trưng vi trí hình hoc bang cách sử dung

Positional Encoding [54], các ham sin va cos được tính toán cho mỗi giá trị của

A(m,n) W là ma trận trọng số học Sau đó, áp dụng cơ chế Self-attention dé đolường mức độ quan trọng về đặc trưng hình ảnh của một đối tượng so với N đối

tượng khác, được trình bày ở Công thức (11) và (12).

lân lượt là vector truy vân, vector khóa, va vector giá tri Cuôi cùng, trong so chú ý

hình học w?" được tích hợp vào cơ chế chú ý ở Công thức (13) và (14)

Trang 40

Attention(Q,K,V) = wTM"V (14)

Object Relation có thé được nâng cấp thành Multi-Head Object Relation (Côngthức (15)), giúp mô hình biểu diễn được nhiều sự tương tác đối tượng khác nhau.Kiến trúc của Multi-Head Object Relation được minh họa ở Hình 4.4

MultiHead(Q, K, V) = concat(head,, head;, , head,)W9 (15)

với head; = Attention(Q;, K;,V;)

Nhead

Hình 4.4: Kiến trúc Object Relation

4.1.5 Mô hình XLM-RoBERTa

RoBERTa (Robustly Optimized BERT Approach) [56] là một mô hình đa ngôn

ngữ được phát triển dựa trên BERT (Bidirectional Encoder Representations from

Transformers) [36], nhằm tối ưu hoa BERT Được giới thiệu bởi Facebook AI vào

năm 2019, RoBER Ta đã nhanh chóng trở thành một trong những mô hình ngôn ngữ mạnh mẽ nhat, nhờ vào các cải tiên trong dữ liệu và quá trình huân luyện.

BERT ban đầu được thiết kế với hai nhiệm vụ chính: Masked Language Model

(MLM) và Next Sentence Prediction (NSP) Tuy nhiên, trong bài báo của

RoBERTa, các tác giả đã thử nghiệm loại bỏ nhiệm vụ NSP và nhận thấy rằng kết

32

Ngày đăng: 08/12/2024, 15:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN