Mục tiêu của khóa luận Trong nghiên cứu này, sinh viên tiên hành tìm hiệu, cai đặt mô hình Trích xuât bộ ba khía cạnh cảm xúc đê giải quyét bài toán ASTE với các mục tiêu dé ra sau: e Mụ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
CHAU PHAM QUOC HUNG - 20521360
KHOA LUAN TOT NGHIEP
IMPROVING ASPECT SENTIMENT TRIPLETS EXTRACTION FOR
CUSTOMERS' REVIEWS
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN PGS.TS NGUYEN LUU THUY NGAN
ThS DANG VAN THIN
TP HO CHÍ MINH, 2023
Trang 2DANH SACH HOI DONG BAO VE KHOA LUAN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
36/QD-DHCNTT ngày 15/01/2024 của Hiệu trưởng Trường Đại hoc Công nghệ Thông tin.
1 TS Luong Ngọc Hoàng — Chủ tịch.
2 ThS Nguyễn Bích Vân — Thư ký.
3 TS Nguyễn Trọng Chỉnh — Ủy viên
Trang 3LOI CAM ON
Đầu tiên, em xin gửi lời cảm on chân thành đến ThS Dang Van Thìn đã cùngđồng hành, luôn bên cạnh hỗ trợ và cho em những lời khuyên trong suốt quá trìnhthực hiện luận văn Đồng thời, em cũng cảm ơn cô Nguyễn Lưu Thùy Ngân vì sự
tận tình hướng dẫn, định hướng cùng những phản biện nhằm giúp em đạt được kết
quả tốt nhất cho khóa luận Chính cô và thầy là những người đã hướng dẫn tận tình,cung cấp cho em những kiến thức, kỹ năng cần thiết dé thực hiện các nghiên cứutrong đề tài này
Bên cạnh đó, em cũng cảm ơn Trường Đại học Công nghệ Thông tin, ĐHQG
TP Hồ Chí Minh, nơi không những mang lại cho em những kiến thức vô cùng hữuích, mà còn cho em được có cơ hội gặp gỡ và học tập những người tiền nhân, nhữngngười thầy cô vô cùng tuyệt vời trong suốt những tháng năm đại học
Và cuối cùng, lời cảm ơn trân trọng nhất em xin gửi cho gia đình Cảm ơn ba
mẹ đã luôn ở bên con, cho con sức mạnh, là điểm tựa vững chắc cũng như động lực
dé vượt qua mọi khó khăn về tinh thần lẫn thé chat, là nền tảng dé con có thé cố gắng, vươn xa hơn nữa trong cuộc song.
Trong quá trình thực hiện khóa luận, em có thé mắc những thiếu sót và hạn chế
ngoài ý muốn Em kính mong nhận được sự phản hồi và góp ý quý báu đến từ quý
Thay, Cô Một lan nữa, em xin chân thành cảm on!
TP Hồ Chí Minh, tháng 01, năm 2024
Sinh viên Châu Phạm Quốc Hưng
Trang 4LOT CAM ƠN - 5c tt Tnhh Hư Hàn Hàn Hưng hệ iv
"020022277 -:, v
DANH SÁCH HÌNH 5522 ÉE v2 2E TH TH Hàng HH gg hưệu viii DANH SÁCH BẢNG -. 5:5 t2 2E t2 t2 HH ng ng gưe xi DANH SÁCH CAC TU VIET TAT 0 cscessssssssseessseessnecesnnecssneessueessneeesnnessuneessnneesineessneeesnneessneesen xii
TOM TAT KHOA LUAN oiescecccscssssssssssssesssssucsucssesscsscsscsussussssesscssssussusessessesussusausassesecsecsucsusaneaseeseeses xiii
j6 1
1.1 Tổng quan - - 5G SE 2ESE9E219E121EE121511215112121111111 11111111 111111111111 1.11011101010111 0x0 1
1.2 LÌ.19.:8).ÉtùùDùDọỌọỒồỒỖồỖỒẳíắđầđỒỖỒỎỒỖỒOŨO 3
1.3 Mục tiêu của khóa luận - - - - E2 111191 v1 TT TH ngà 4
1.4 Pham vi và đối tượng nghiên €ứu ¿2521952 +E+EE2E‡EEEE2EEEE E121 2E212121211121 2 1xx 4
1.4.1 Pham vi nghiên CỨu - Ă SH TH nu HH nh 4
1.4.2 Đối tượng nghiên cứu :-S+22©22+EEx‡E2E2EEEEEEEEEEEEEEEEkErErrrkrrkerrerrree 5 1.5 Kết quả của khóa luận -+-5:©ScSt‡2EEE2E22EEE1E21211212171211121 11111121111 5 1.6 Cấu trúc khóa luận - 2: 2 222cc 2E EEE121511215112121271212111121111211112110121121 1 Eee 8
BOI CANH VA CÁC CÔNG TRÌNH LIÊN QUAN 5c St E2 1E 218711181 111111 11t 10
2.1 Bai toán Phân tích cảm xúc theo khía cạnh - - S323 1E versrrkrerreerrrree 10
2.1.1 "7 8Š 10 2.1.2 Các thành phần cảm XÚC - - 2-55 SSSE2EE2E2EE2EE112112321212117171211 12x crrcee 14 2.1.3 Bài toán trích xuất bộ ba khía cạnh cảm xúc (ASTTE) - 5 2+s+c+cs+czzzxerrxee 17
2.1.3.1 Tình hình nghiên cứu trên thế giới -2- 2-5255 x2S++Etzxerxerxererrerxrrxereee 18 2.1.3.2 Tình hình nghiên cứu tromg ƯỚC - - <5 11911 11 E31 9v vn rên 19 2.2 Mô hình ngôn ngữ được huấn luyện sẵn - 5-52-5252 2x‡2EESEEEerxerkrkrrerrerrres 21
2.2.1 Các mô hình đa ngôn ngữ được huấn luyện sẵn -2+©5++5++czcxerxerxees 22
2.2.1.1 mBERÍT, G1 21t nh nh TH re 22 2.2.1.2 b$0 0 g5 23
2.2.1.3 I3 9Đ)V/l”rraaiii - 25
2.2.1.4 XLM-Align 2 22L 2222.221221 Ea 25
2.2.2 Các mô hình ngôn ngữ được huấn luyện sẵn cho tiếng Việt -5 - 27
2.2.2.1 Mi; 90A4): 2u 3.0 27
Trang 53.1.3 Áp dung tách từ cho mô hình PhoBE.RT 2-2-5 ©tSE+EE‡E£ESEESEEeEEEErrerxersrex 47 3.2 _ Kiến trúc mô hình Trích xuất bộ ba khía cạnh cảm XÚC - 2-5 2+5S+££+E2zEczxererrs 48
3.2.1 _ Tổng quan mô hình: 5-5252 2S2x‡E2EE2E2EE2EEEEEEEE2EEEEE1E21111E2.1.1 11c crrrei 48 3.2.2 M6 hình hóa bài toán Trích xuất bộ ba khía cạnh cảm xúc -. - 55+: 49
3.2.3 Quá trình tạo ra các SD4I - 11122119 SH TH TH ngư 50
3.2.4 Hàm mắt mát phân biệt các span tương tự - + 52s +£E+E£E£E£Eerxrxerrrererxee 51 3.2.5 Kiến trúc trích xuất bộ ba theo hai chiều - 22-555 52+ +E£E£EczEzxerzrerrrree 52
3.2.5.1 Chiều khía cạnh sang quan điểm (aspecf-to-opinion) - ccccccceereeeeees 52 3.2.5.2 Chiều quan điểm sang khía cạnh (opinion-fo-aspecf£) -.-. ccccscseeeece 54 3.2.6 Chiến lược trích xuất bộ ba cuối cùng - 52s S2 ESEEE2E212121E1 E11 re 55 3.3 Hướng tiếp cận Cross-domain transfer learning - 5 s22 +x+zxezxexezxerxerxerscrs 57 THU NGHIEM VA KET QUA 001 7 59
4.1 Thống kê dữ HOU cccccccsecccssessesseseesessessessssscsessssusssesssssucssssessssussecseeseatsaeseesesusacseseeenees 59
4.1.1 Số lượng câu 5-2C St E1 EEEE21E1121121021011111 1111.111.1111 cre 59 4.1.2 — Số lượng bộ ba 2 Sc +22 2n E2 21 E21E211121121211121111 111111111 crre 60 4.1.3 Số lượng nhãn 2-S2- 52s E2 E2E2E1121121211121111 11111111 Excrre 60 4.1.4 Độ dài các khía cạnh và từ so sánh - ng HH kh 62
4.1.5 Độ dài các khía cạnh và từ so sánh sau khi tách từ
4.2 Cac phương pháp đánh giá Án HH TH HH HH
4.3 Các thông số cài đặt thứ nghiệm ¿©22©2++xeEEEESEtSEEeEEerxerxrrkrsrrsrrerrerrrrrre 72 4.4 Kết qua và phân tích ©5252 +c+‡ExeEEEE2Ex2EEEEEEEEEEECEEEEEEEEEEEEEELEEErerkerrrrro 74
4.4.1 Danh giá mô hình trích xuất bộ ba -.:-2- 2-5522 2E2zerxerxrrkrsrerrerrerkervres 74
4.4.1.1 Đánh giá mô hình từ miền nguồn sang miền nguồn 2-5: 74 4.4.1.2 Đánh giá mô hình từ miền nguồn sang miễn đích -2- 25555555: 77
Trang 64.4.1.3 Đánh giá mơ hình khi huấn luyện trên bộ dữ liệu tổng hợp từ hai miền 79
4.4.2 Đánh giá trên từng nhãn so sánÌ: G25 + vn TH HH nh nghe 86
4.4.3 Đánh giá chỉ tiết hệ thống 5G- 5S CS E1 12107111211 21171011 2111111111111 re 90
4.4.4 Khảo sát anh hưởng của chất lượng dữ liệu -¿- 2-5s5xecx2esrerxerxerxeee 93
CHU ONG TRINH MINH HOA 00818 - 5 95
5.1 Cong nghệ sử dung ccceecceeneeeseneeeeeeceeaeecseecseaeeeseaeeseeecseaeeseaeecseaeesseaeeseueeeseaeeesee 95
5.1.1 Django oo Ư-:ƯOO 95
5.1.2 ;)))) 0 e 96
5.1.3 Font ẬW€SOI nọ 96 5.2 Quy trình cài đặt - - - -c TT HH Họ và 97
5.3 Giao diện chương trÌnh - «+ s1 HH HH Hệ 99
KET LUẬN VÀ HƯỚNG PHAT TRIIỂN - 2-5552 1 EE E1 121571271211 2111 7111111111111 1E 1E xe 101
Cs CE 101 6.2 Ham h@o.c.ccecccecccccccccsccscssscscescsvsuescsucscsvesesvcscscsscscsucstevsscsvsscsssussesusssssscacsacsssucstsesseeveseseseeass 102
SN nan aĩỪỘĩỪỘỪDỒ 103
IV 08812080279 /8.47 01 3ã 105
Trang 7DANH SÁCH HÌNH
HÌNH 2.1: Ví dụ về bốn thành phan cảm xúc chính trong ABSA - 12HÌNH 2.2: Mối quan hệ giữa các thành phần cảm xúc, các bài toán ABSA đơn lẻ
và các bài toán ABSA phức hợp - - <1 111v ng ng cư 17
HÌNH 2.3: Số lượng nghiên cứu xuất bản của lĩnh vực ABSA thuộc tiếng Việt .20
HÌNH 2.4: Phân phối 31 bài báo được lựa chọn theo phạm vi bài toán con ABSA
Ma A.AẦdẢdL.L: 21
HÌNH 2.5: Tổng quan quá trình pre-training va fine-tuning trong BERT 23
HÌNH 2.6: Kích thước dữ liệu các ngôn ngữ giữa 2 mô hình mBERT và XLM-R.24
HÌNH 2.7: Tổng quan về mô hình XLM-Align - ¿5-5 2+s+s++s+£+£sz£ccs2 27
HINH 2.8: Kiến trúc mô hình viBlERT -. -:-©5+v22+++£x+vzxxtsrxtrrrxrsrrrsrrer 28
HÌNH 3.1: Quá trình trích xuất bộ ba của mô hình SBN - - ¿2+5 <2 49
HÌNH 4.1: Số lượng các nhãn so sánh trong bộ dữ liệu VLSP - 61HÌNH 4.2: Số lượng các nhãn so sánh trong bộ dữ liệu Ele-COQE phiên bản một
Trang 8HINH 4.11: Phân bố số lượng từ các khía cạnh sau khi áp dụng tách từ thuộc bộ dữ
liệu Ele-COQE phiên bản TmỘI - .- - (5 6 111010181393 1139111 8111 kg 67
HÌNH 4.12: Phân bố số lượng từ các khía cạnh sau khi áp dụng tách từ thuộc bộ dữ
liệu Ele-COQE phiên bản haI 111222221111 11131 5111115821111 1 111 ty 68
HINH 4.13: Phân bé số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ
Ait LGU 1) ẽốố/7 6“ " " 69
HÌNH 4.14: Phân bố số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ
dữ liệu Ele-COQE phiên bản MOt . ¿c5 3332 EE*+EEEvssesseerrrres 69
HÌNH 4.15: Phân bố số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ
dữ liệu Ele-COQE phiên bản haI 5 5 <5 222133322 E+*2EEE+SEEExreererreererre 70
HÌNH 4.16: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình
huấn luyện trên bộ tông hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so
[410318 1 a ẽ -aÃl 81
HINH 4.17: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình
huấn luyện trên bộ tong hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so
[400908001017 8 82
HÌNH 4.18: F1-score của mô hình huấn luyện trên bộ dữ liệu VLSP va mô hình
huấn luyện trên bộ tông hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so
[409011185 0225257 aaIa 82
Trang 9HINH 4.19: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình
huấn luyện trên bộ tổng hợp khi đánh giá trên bộ đích Ele-COQE với chiến lược so
[310909010181 e 84
HÌNH 4.20: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình
huấn luyện trên bộ tổng hợp khi đánh giá trên bộ đích Ele-COQE với chiến lược so
[4009801080101 -35 lAẶằ ma 84
HINH 4.21: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình
huấn luyện trên bộ tổng hợp khi đánh giá trên bộ đích Ele-COQE với chiến lược so
khớp nhị phan - c2 11119111910 1911 9111 vn nh HH Hy 85
HÌNH 4.22: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn
luyện trên bộ VLSP và dự đoán cho bộ VLSP - .- 5 5-5 2S s++ssersrseeresree 86
HINH 4.23: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn
luyện trên bộ Ele-COQE và dự đoán cho bộ Ele-COQE . -. «++++++<+ 87
HINH 4.24: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn
luyện trên bộ dữ liệu tổng hop và dự đoán cho bộ VLSP -<<<s+++s+ 88
HÌNH 5.1: Tổng quan cau trúc của một ứng dụng Django : : 98HINH 5.2: Giao diện của chương trình minh họa - 555 +++<*kec+ssseex 99HÌNH 5.3: Giao diện của chương trình minh họa với khung hộp nhập câu đầu vao
HÌNH 5.4: Kết quả trả về từ chương trình - - 2 52 +x+£££++Ee£+zEererxererxee 100
Trang 10DANH SACH BANG
BANG 2.1: Các bài toán trong Phân tích cảm xúc theo khía cạnh với đầu vào, đầu
ra và ví dụ minh họa CC CC EEEE%%%%%%%111118111111113135533553 5 3 v.v net 16
BANG 3.1: Các trường hop prompt .cccccccssessesessessessesessessesssessessssessessssesseeseeess 37BANG 3.2: Một số phan hồi từ các prompt thu được khi sử dung GPT-3.5 API 39BANG 3.3: Các trường hợp gan nhãn so sánh mới - - 2 2+s+s+£z£z£szx2 +2 45BANG 3.4: Các ban dich khác nhau của một câu từ ba công cụ dich 46
BANG 4.1: Thống kê số lượng các câu trong từng bộ dữ liệu - 59BANG 4.2: Số lượng bộ ba trong từng bộ dit liệu . - 2-25 s+sz+xczxccs+i 60
BANG 4.3: Thông tin các mô hình đa ngôn ngữ huấn luyện sẵn 72 BANG 4.4: Thông tin các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt 73
BANG 4.5: Kết quả mô hình trích xuất bộ ba từ miền nguồn sang miền nguồn .76BANG 4.6: Kết quả mô hình trích xuất bộ ba từ miền nguồn sang miền dich 78BẢNG 4.7: Kết quả mô hình trích xuất bộ ba khi được huấn luyện trên dữ liệu kếthợp từ hai miỄN 5-5 S211 5E 1211151511212111111211111111111 111011101 1xe 80BANG 4.8: Kết qua Micro Fl-score va Macro F1-score của các mô hình khi thực
hiện trích xuất các nhãn so sánh ¿22+ S+E+E+E+ESEEEEEE+EEESEEEEEEEEEErErErErerrrrrres 89BANG 4.9: Ví dụ về kết quả đúng và kết quả ma mô hình dự đoán 90BANG 4.10: Ví dụ về câu gây nhập nhằng cho mô hình 2-5-5552 9]
BANG 4.11: Kết quả đánh giá trên bộ VLSP khi huấn luyện mô hình trên các bộ
811184: 16:10 94
Trang 11SA NLP ABSA
AT AC
OT
SP ATE ACD
OTE
ASC
AOPE
ATSA E2E-ABSA ACSA
ACSD ASQP
PLM MLM NSP
DWA XLCO
HTTP BPE
DANH SÁCH CÁC TU VIET TAT
Sentiment Analysis
Natural Language Processing
Aspect Based Sentiment Analysis
Aspect Term
Aspect Category Opinion Term
Sentiment Polarity Aspect Term Extraction Aspect Category Detection
Opinion Term Extraction
Aspect Sentiment Classification Aspect-Opinion Pair Extraction Aspect-Term Sentiment Analysis
End-to-End ABSA
Aspect Category Sentiment Analysis Aspect-Category-Sentiment Detection Aspect Sentiment Quad Prediction
Pre-trained Language Model
Masked Language Modeling Next Sentence Prediction
Denoising Word Alignment Cross-Lingual Contrast
Hypertext Transfer Protocol Byte-Pair Encoding
xii
Trang 12TOM TAT KHOA LUAN
Phân tích cam xúc (SA) là một bai toán trong lĩnh vực Xử ly Ngôn ngữ Tu
nhiên — Natural Language Processing (NLP) Với đầu vào là dữ liệu văn bản, đầu ra
là một trong các cảm xúc: tích cực, tiêu cực, hay trung lập Phân tích cảm xúc thường
được dùng dé giúp doanh nghiệp có cái nhìn khách quan về dich vụ và sản pham của
mình dựa trên các phản hồi của khách hàng.
Tuy nhiên, hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuất
phát từ nhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọngtâm nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chi tiết hơn, điểnhình là Phân tích cảm xúc trên cấp độ khía cạnh (ABSA) Trong đề tài này, sinh viêntập trung nghiên cứu bài toán Trich xuất bộ ba khía cạnh xảm xúc (ASTE), là bài
toán con của Phân tích cảm xúc theo khía cạnh.
Mục tiêu chính của khóa luận này là nghiên cứu và cải đặt các mô hình trích
xuất bộ ba khía cạnh trên tiếng Việt dựa trên sức mạnh của các mô hình ngôn ngữ
phô biến Hơn nữa, sinh viên cũng tiễn hành tiền xử lý và xây dựng một bộ dữ liệu
có miền thuộc sản phâm công nghệ điện tử dé đánh giá độ hiệu qua của mô hìnhđược cai đặt băng cách sử dụng phương pháp Học chuyển tiếp đa miền (Cross-domain transfer learning) Mặc dù bài toán Trích xuất bộ ba khía cạnh cảm xúc tuy
đã có nhiều đóng góp từ cộng đồng nghiên cứu quốc tế với các bộ dữ liệu chuẩn cho
tiếng Anh nhưng đối với tiếng Việt thì có thé nói vẫn chưa có công bố khoa học với
bộ dữ liệu chuẩn nào Vì vậy, sinh viên hy vọng khóa luận này có thể đóng góp mộtphần nào đó vào sự phát triển của NLP nói chung và mở ra một hướng nghiên cứu
mới thuộc lĩnh vực Phân tích cảm xúc theo khía cạnh ở Việt Nam.
Trang 13MỞ ĐẦU 1
Chương 1.
MO DAU
1.1 Tong quan
Trong những năm gan đây, với sự phủ sóng và phát triển vượt bậc của Internet,
mang xã hội cũng như các trang mang là những nơi phổ biến và tiện lợi để khách hàng chia sẻ những trải nghiệm, đánh giá, nhận xét và phản hồi của mình về san
phẩm cũng như các loại hình dịch vụ của các doanh nghiệp, tô chức Điều này tạođiều kiện tham khảo, đánh giá và phản hồi của khách hàng khi đưa ra các quyết định
về dịch vụ, sản phẩm của các doanh nghiệp, tô chức Tiếng nói của khách hàng có
tam ảnh hưởng mạnh mẽ đối với sự sống còn của một doanh nghiệp Những bình
luận, phản hồi của họ sẽ thê hiện trực tiếp quan điểm cảm xúc đối với các sản phẩm,
dịch vụ mà doanh nghiệp, tô chức cung cấp — Tích cực, liêu cực hoặc Trung lập
Tuy nhiên, doanh nghiệp không thé sang loc thủ công hàng nghìn đánh giá hoặc
cuộc hội thoại của khách hàng do sẽ rất tốn kém về mặt thời gian, nguồn lực và chưachắc đảm bảo tính khách quan — đặc biệt nếu thông tin cần được phân tích ở cấp độchỉ tiết Do đó các doanh nghiệp cần triển khai một hệ thống phân tích cảm xúc tựđộng từ các thông tin phản hồi của khách hàng và đưa ra kết quả khách quan nhất có
thé Việc này cho phép doanh nghiệp tự động phân tích chi tiết dữ liệu mà không qua
tốn kém Dựa vào các kết quả phân tích từ hệ thống, các doanh nghiệp hoặc tô chức
có thé đưa ra các quyết định đúng dan dé cải tiến và nâng cao hiệu qua sản phẩm,dịch vụ Vì vậy, bài toán Phân tích cảm xúc không những nhận được nhiều sự quan
Trang 14MỞ ĐẦU 2
tâm của các nhà nghiên cứu trong lĩnh vực Xử lý ngôn ngữ tự nhiên mà còn được
chú ý bởi các công ty, doanh nghiệp, tô chức
Phân tích cảm xúc truyền thống chủ yếu chỉ thực hiện dự đoán ở cấp độ câuhoặc cả văn bản, xác định cảm xúc chung đối với toàn bộ câu hoặc văn bản Đề đưa
ra dự đoán, phân tích cảm xúc truyền thống cho rằng chỉ có một cảm xúc duy nhấtđược thé hiện cho một chủ dé duy nhất trong toàn bộ câu hoặc văn bản Tuy nhiên,điều này có thể không thiết thực trong thực tế Vì lý do này, việc xác định các quanđiểm và cảm xúc ở cấp độ khía cạnh chi tiết hơn đã nhận được ngày cảng nhiều sự
chú ý trong thập ky qua, bài toán được đặt ra gọi là Phân tích cảm xúc theo khía cạnh
(ABSA) Trong ABSA, mục tiêu liên quan mà cảm xúc được thể hiện sẽ chuyên từ toàn bộ câu hoặc văn ban sang một thực thé hoặc một khía cạnh nhất định của thực
thể Ví dụ, trong các bình luận trên các trang thương mại điện từ, một khía cạnh có
thể là một sản phẩm, hoặc thuộc tính của sản phẩm đó như giá tiền, chất lượng, kích
cỡ Do đó, ABSA là quá trình trích xuất quan điểm, cảm xúc ở cấp độ khía cạnh,
cung cap thông tin cảm xúc chi tiệt hữu ich cho các tác vụ về sau.
Đặc biệt, bài toán Phân tích cảm xúc theo khía cạnh được phát huy tối đa trongcác lĩnh vực chi tiết như nhà hàng, khách sạn, đánh giá sản pham, hay trong khóaluận này, là các đánh giá, nhận xét về điện thoại, các sản phâm điện tử, công nghệ
Thay vì chỉ quan tâm đến chất lượng tông quan, khách hàng còn dé ý cụ thé đến từng
chỉ tiết của sản pham nhu chat lượng, gia thành, kích cỡ, dé đưa ra quyết định lựa
chọn.
Vì vậy, là một trong những bài toán con quan trọng, Trích xuất bộ ba khía cạnh(ASTE) - bài toán chính trong đề tai này có thé được phát biéu như sau:
Trang 15MỞ ĐẦU 3
e Đâu vào: Một câu bình luận, đánh giá của người dùng.
e Đâu ra: Bộ ba khía cạnh bao gôm từ xác định khía cạnh, từ xác định cảm
xúc và nhãn cảm xúc tương ứng.
Ví dụ:
e Đâu vào: Món mì này ngon quá, nhưng phục vụ lai quá tệ.
e Đầura: {(Món mì, ngon quá, Tích cực); (phục vụ, quá tệ, Tiêu cực)}
1.2 Thách thức
Hầu hết các bộ đữ liệu cho bài toán Phân tích cảm xúc theo khía cạnh hiện nayđều là tiếng Anh và bắt nguồn từ các cuộc thi trong hội nghị SemEval [1]-[3] với cáctiền xử ly cụ thé cho từng bai toán con Tuy nhiên, kích thước đữ liệu tương đối nhỏ(chỉ gồm hàng trăm câu) sẽ gây khó khăn cho việc so sánh, đánh giá các mô hình
khác nhau một cách khách quan, đặc biệt là các mô hình dùng mô hình ngôn ngữ
huân luyện san có hàng triệu tham sô.
Ngoài ra, Trích xuất bộ ba khía cạnh là một bài toán khá mới gần đây (được đề
xuất bởi Peng và công sự năm 2019) [7] nên sự phong phú của đữ liệu cho bài toánnày còn hạn chế Đặc biệt là đối với tiếng Việt thì các bộ đữ liệu chuẩn cho bài toán
này hiện nay van chưa được công bô phục vụ cho nghiên cứu.
Hơn nữa, Phân tích cảm xúc theo khía cạnh cung cấp nhiều bài toán con khác
nhau [4]-[7] với các cấp độ đầy thách thức Muốn thực hiện bài toán Trích xuất bộ
ba khía cạnh cảm xúc sao cho hiệu quả thì phải đảm bảo chất lượng các bài toán con
ở cấp độ thấp hơn như trích xuất bộ hai thành phần cảm xúc (AOPE [6][8]), chi tiết
Trang 16MỞ ĐẦU 4
hơn nữa thì sẽ là các bài toán trích xuất từng thành phần cảm xúc (ATE [9], OTE
[10], ASC [11]).
1.3 Mục tiêu của khóa luận
Trong nghiên cứu này, sinh viên tiên hành tìm hiệu, cai đặt mô hình Trích xuât
bộ ba khía cạnh cảm xúc đê giải quyét bài toán ASTE với các mục tiêu dé ra sau:
e Mục tiêu 1: Thu thập và xây dựng bộ dữ liệu tiếng Việt cho bài toán Trích
xuất bộ ba khía cạnh cảm xúc
© Mục tiêu 2: Nghiên cứu và thử nghiệm các phương pháp trích xuất bộ ba
khía cạnh dựa trên các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt
e Mục tiêu 3: Xây dựng và tiền xử lý một bộ dữ liệu thuộc miền khác dé thử
nghiệm phương pháp Cross-domain transfer learning trên mô hình được cai
đặt.
e Mục tiêu 4: So sánh và phân tích độ hiệu quả của các mô hình ngôn ngữ
huấn luyện sẵn được sử dụng trong mô hình Trích xuất bộ ba khía cạnh cảmxúc rồi đưa ra phân tích, nhận xét chi tiết
e Mục tiêu 5: Xây dựng chương trình trên nền tang web dé minh họa mô hình
Trích xuất bộ ba khía cạnh cảm xúc trong thực tế.
1.4 Pham vi và đôi tượng nghiên cứu
1.4.1 Phạm vi nghiên cứu
Phạm vi nghiên cứu trong đề tài này là những bình luận của người dùng về các
sản phẩm điện tử thuộc bộ đữ liệu chuẩn tiếng Việt được công bồ tại Hội nghị VLSP
Trang 17MỞ ĐẦU 5
2023 task 3! và bộ dữ liệu tiếng Trung Ele-COQE [12] sau khi được dịch sang tiếngViệt và thực hiện tiền xử lý Đối với nguyên cứu này, sinh viên thực hiện trên bàitoán con là Trích xuất bộ ba khía cạnh (Aspect Sentiment Triplet Extraction - ASTE)
1.4.2 Đối tượng nghiên cứu
Đầu tiên, một trong những đối tượng quan trọng trong nghiên cứu này là các bình luận, đánh giá của người dùng về các sản phẩm điện thoại.
Đối tượng nghiên cứu thứ hai của sinh viên là tìm hiểu và cài đặt mô hình trích
xuất bộ ba khía cạnh dựa trên 4 mô hình ngôn ngữ được huấn luyện sẵn cho tiếng
Việt gồm: PhoBERT-v1 [13], PhoBERT-v2 [13], viBERT [14], viBert4news? va 4
mô hình đa ngôn ngữ được huấn luyện sẵn gồm: XLM-R [15], XLM-Align [16],
InfoXLM [17], mBert.
Đối tượng nghiên cứu thứ ba là thu thập và tiền xử ly một bộ dit liệu miền khác
dé thử nghiệm phương pháp Cross-domain transfer learning
Cuối cùng, đối tượng nghiên cứu còn lại là đánh giá kết quả của các mô hìnhđược cai đặt rồi đưa ra nhận xét cụ thé Mô hình tốt nhất sẽ được dùng trong chươngtrình minh họa bai toán trích xuất bộ ba khía cạnh
1.5 Kêt qua của khóa luận
Sau khi tìm hiểu và nghiên cứu, sinh viên đã cài đặt thành công mô hình Trích
xuât bộ ba khía cạnh cảm xúc dựa trên các mô hình ngôn ngữ huân luyện san bao
gồm các mô hình đa ngôn ngữ XLM-R, XLM-Align, InfoXLM, mBERT và các mô
1 https://vlsp.org.vn/vlsp2023/eval/comon
? https:/huggingface.co/NIpHUST/vibert4news-base-cased
3 https://github.com/google-research/bert/blob/master/multilingual.md
Trang 18tiêu đã được đê ra ở phân Mục tiêu của khóa luận.
© Mục tiêu 1: Thu thdp và xây dựng bộ dữ liệu tiếng Việt cho bài toán Trích
xuất bộ ba khía cạnh cảm xúc
o Dé có thé đáp ứng được bộ dit liệu phù hợp cho bài toán Trích xuất
bộ ba khía cạnh cảm xúc, sinh viên thực hiện thu thập và sử dụng bộ
dữ liệu của cuộc thi VLSP 2023, cụ thé là dir liệu shared task thứ 3.Sinh viên tiến hành xây dựng và tiền xử lý dé thu được một bộ dữ liệu
phù hợp
e Muc tiêu 2: Nghiên cứu và thử nghiệm các phương pháp trích xuất bộ ba
khia cạnh dựa trên các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt
o Sau khi có được bộ dữ liệu chuẩn, sinh viên tiễn hành cài đặt mô hình
Trích xuất bộ ba và sử dụng các mô hình ngôn ngữ huấn luyện sẵn để
mã hóa các câu đầu vào Độ hiệu quả mà mô hình được cai đặt mang
lại sẽ tùy thuộc vào mô hình ngôn ngữ huấn luyện sẵn được dùng
e Muc tiêu 3: Xây đựng va tiền xử ly một bộ đữ liệu thuộc miễn khác dé thử
nghiệm phương pháp Cross-domain transfer learning trên mô hình được cải
dat.
o Để hoàn thành mục tiêu này, sinh viên cũng thu thập một bộ dữ liệu
cho bài toán Trích xuất bộ năm thành phần so sánh gồm các đánh giá,
Trang 19MỞ ĐẦU 7
nhận xét của khách hàng về miền sản phẩm công nghệ, điện tử Bộ
dữ liệu này là Ele-COQE có ngôn ngữ gốc là tiếng Trung Quốc đượcdịch sang tiếng Việt, thực hiện tiền xử lý giống như bộ VLSP Sau đó,
sinh viên thực hiện phương pháp học chuyền tiếp đa miền theo các
cách tiếp cận sau: Huan luyện mô hình trên miền nguồn và dự đoán
trên miền nguồn, huấn luyện mô hình trên miền nguồn và dự đoán
trên miền đích, huấn luyện mô hình trên hai miền và dự đoán trên cả
miền nguôn, miên dich.
e Mục tiêu 4: So sánh và phân tích độ hiệu quả của các mô hình ngôn ngữ
huấn luyện sẵn được sử dụng trong mô hình Trích xuất bộ ba khía cạnh cảm
xúc roi dua ra phân tích, nhận xét chỉ tiết.
©_ Với mục tiêu này, sinh viên đánh giá độ hiệu quả các mô hình dựa
trên các độ đo đề xuất Các kết quả được ghi nhận theo các chiến lượchọc chuyền tiếp đa miền Nhìn chung, PhoBERT-v2 là mô hình ngônngữ tốt nhất còn mBERT và viBert4news là 2 mô hình kém hiệu quảnhất trên hầu hết các trường hợp
Sinh viên cũng đánh giá độ hiệu quả của mô hình khi thực hiện trích
xuất các nhãn so sánh như bài toán phân loại đa lớp Kết quả là các
độ đo Micro Fl-score va Macro F1-score của mô hình có seed đạt kếtquả cao nhất Sinh viên nhận thấy rằng, mô hình dùng PhoBERT-v2vẫn là mô hình tốt nhất, các nhãn ít xuất hiện có số lượng dự đoánchính xác rất ít hoặc thậm chí là không có dự đoán chính xác nào bởi
mô hình Việc huấn luyện mô hình trên bộ dữ liệu kết hợp cũng phần
Trang 20MỞ ĐẦU 8
nào giải quyết được van dé này, các nhãn ít xuất hiện khi nay có xácsuất dự đoán đúng được cải thiện hơn
e Mục tiêu 5: Xây dựng chương trình trên nên tảng web dé minh họa mô hình
Trích xuất bộ ba khía cạnh cảm xúc trong thực té
o Sử dung mô hình dat két qua cao nhất, sinh viên tạo ra một trang web
đơn giản cho người dùng có thể nhập câu cần trích xuất các bộ bathành phần vào Sau khi nhận câu đầu vào, hệ thống sau một hồi xử
lý sẽ trả về các bộ ba có trong câu Chương trình này sẽ minh họa việc
áp dụng hệ thống Phân tích cảm xúc theo khía cạnh trong thực tẾ, hay
cụ thê hơn là hệ thống Trích xuất bộ ba khía cạnh
1.6 Cấu trúc khóa luận
Khóa luận chia thành 6 chương với cau trúc được trình bày như sau:
e_ Chương 1: Mở đầu Trình bày lý do chọn nghiên cứu, đối tượng và phạm
vi nghiên cứu, mục tiêu cũng như kết quả đạt được
e Chương 2: Bối cảnh, các công trình liên quan Tổng quan, trình bày cơ
sở lý thuyết cũng như các công trình liên quan đến đề tài Sau đó, nêu ranhững vấn đề còn tồn đọng và hướng giải quyết được đề cập trong nghiên
cứu của sinh viên.
e Chương 3: Phương pháp Trình bày quá trình thu thập và tiền xử lý dữ
liệu, kiến trúc mô hình được sử dụng thực nghiệm trong nghiên cứu
e_ Chương 4: Thử nghiệm và kết quả Phân tích, thống kê số liệu về các bộ
dữ liệu sử dụng trong nghiên cứu Trình bày cách cài đặt và nhận xét kết quảgiữa các thử nghiệm và đánh giá hệ thống
Trang 21MỞ ĐẦU 9
Chương 5: Chương trình minh họa Mô ta các công nghệ sử dụng va qua
trình cài đặt mô hình Trích xuất bộ ba khía cạnh cảm xúc để xây dựng chương trình minh họa trong thực tế cho người dùng.
Chương 6: Kết luận và hướng phát triển Tổng kết các kết quả quan trọng
đã đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và hướng
phát triển trong tương lai.
Trang 22BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 10
Chương 2.
BOI CANH VÀ CAC CONG TRÌNH LIÊN
QUAN
Dé tài nghiên cứu cua sinh viên liên quan đên các lĩnh vực sau:
e Phân tích cảm xúc theo khía cạnh: Cụ thê ở nghiên cứu nay là bài toán con
Trích xuất bộ ba khía cạnh (ASTE) trên dit liệu chứa các đánh giá của khách
hàng về những sản phâm điện tử, công nghệ.
e Các mô hình ngôn ngữ được huân luyện san.
Trong chương này, sinh viên tiến hành trình bày cơ sở lý thuyết cũng như công
trình liên quan đến dé tài Sau đó, nêu ra những van dé còn tồn đọng và hướng giảiquyết được đề cập trong nghiên cứu của sinh viên
2.1 Bài toán Phân tích cảm xúc theo khía cạnh
2.1.1 Tổng quan
Việc khám phá và thông hiểu quan điểm từ các nội dung trực tuyến do người
dùng tạo là rất quan trọng đối với vô số các ứng dụng thực tiễn Ví dụ, năm bắt được
suy nghĩ của khách hàng từ các bài đánh giá trên nền tảng Thương mại điện tử giúpcác doanh nghiệp cải thiện sản phẩm hoặc dịch vụ và thực hiện các chiến dịch tiếpthị khách hàng tốt hơn Tuy vậy, với lượng lớn nội dung dạng văn bản được tạo rabởi người dùng hằng ngày, việc xử lý thông tin theo cách thủ công sẽ rất tốn kém về
mặt thời gian, nhân lực và chi phi Vì vậy, thiết kế một hệ thống phân tích tự động
Trang 23BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN ll
các cảm xúc, quan di¢m cua người dùng, khách hàng từ các văn ban phi cau trúc của
họ là điêu cân thiệt Nhu câu này dân đên sự ra đời của lĩnh vực Phân tích cảm xúc
và Khai thác quan điểm (Sentiment Analysis and Opinion Mining) [18]
Hon nhiéu thập ky qua, Phân tích cảm xúc là một bai toán nôi bat được đông
đảo cộng đồng các nhà nghiên cứu thuộc lĩnh vực NLP cả trong lẫn ngoài nước quan
tâm Nhiệm vụ chính của bài toán là phân tích và đánh giá bình luận/ý kiến của người
dùng thành các loại cảm xúc khác nhau: tích cực, tiêu cực hay trung lập Bên cạnh
đó, không chỉ là một van đề nồi bật nhận được nhiều quan tâm trong lĩnh vực NLP,
bài toán Phân tích cảm xúc còn được ứng dụng rộng rãi bởi các doanh nghiệp, cơ
quan, tô chức trong các ngành công nghiệp — dịch vụ như một công cụ có thé phân
tích, nhận biết thái độ của khách hàng về sản phâm và dịch vụ mà họ cung cấp một
cách tự động.
Các nghiên cứu về phân tích cảm xúc truyền thống chủ yếu thực hiện dự đoán
ở cấp độ câu hoặc cả tài liệu, xác định cảm xúc cho toàn bộ câu hoặc tài liệu[19][20][21] Dé đưa ra dự đoán, Phân tích cảm xúc truyền thống cho rằng một cảmxúc duy nhất được thé hiện cho một chủ đề duy nhất trong văn bản nhất định Việc
đó có thé làm mắt đi hoặc làm thay đôi các thông tin cốt lõi trong câu hoặc trong vănbản Vì vậy, xét về tính thực tiễn, Phân tích cảm xúc truyền thống có thể khó mà áp
dụng trong thực tế được Trong hoàn cảnh này, bài toán xác định các quan điểm và
cảm xúc ở cấp độ khía cạnh chỉ tiết hơn được gọi là Phân tích cảm xúc theo khía
cạnh, đã nhận được sự chú ý ngày càng tăng trong thập kỷ qua [22][23].
Trang 24BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 12
Nói chung, mục tiêu nghiên cứu chính của ABSA liên quan đên việc xác định
các thành phân cảm xúc ở các câp độ khía cạnh khác nhau, cụ thê là: từ chỉ khía
cạnh, danh mục khía cạnh, từ chỉ quan điêm và loại cảm xúc [4].
e Vi dụ: “Món mi này ngon qua.”
Trong câu ở ví dụ trên, các thành phần cảm xúc tương ứng với từ chỉ khía cạnh,danh mục khía cạnh, từ chỉ quan điểm và loại cảm xúc lần lượt là “Món mì”, “Food”,
“ngon quá” và “Tích cực”, trong đó “Món mi” và “ngon quá” được thể hiện rõ ràng
trong câu, còn “Food” và “Tích cực” là các nhãn thuộc danh mục hoặc lớp được xác định trước.
Món mi này ngon qua
Aspect term Món mi
Aspect Category Food
Opinion term ngon qua
HÌNH 2.1: Ví dụ về bốn thành phần cảm xúc chính trong ABSA
Những nghiên cứu ban đầu của Phân tích cảm xúc theo khía cạnh bắt đầu bằng
việc xác định từng thành phần cảm xúc riêng biệt Ví dụ, nhiệm vụ trích xuất từ chỉkhía cạnh [9] với mục đích là trích xuất tất cả các từ hoặc cụm từ chỉ khía cạnh được
đề cập trong văn ban đã cho; trong khi bai toán xác định loại cảm xúc [11] dự đoán
sự loại cảm xúc cho một khía cạnh cụ thể trong một câu Những bài toán Phân tích
Trang 25BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 13
cảm xúc theo khía cạnh chỉ xác định hoặc trích xuất đơn lẻ từng loại thành phần cảm
xúc được gọi là những bai toán ABSA don (Single ABSA) [24].
Tuy nhiên, việc trích xuất đơn lẻ một thành phần cảm xúc duy nhất vẫn chưathỏa mãn nhu cầu thấu hiểu quan điểm ở cấp độ khía cạnh chỉ tiết hơn, điều này đòihỏi không chỉ việc trích xuất nhiều thành phần cảm xúc mà còn phải tìm ra mối quan
hệ tương ứng và sự phụ thuộc giữa chúng Đề đạt được mục tiêu này, các bải toán Phân tích cảm xúc theo khía cạnh mới [4]-[7] và những bộ dữ liệu chuẩn tương ứng
đã được giới thiệu trong những năm gần đây dé thúc đây nghiên cứu về trích xuấtnhiều thành phần cảm xúc có liên quan với nhau Những bài toán này được gọi là
bài toán ABSA phức hợp (Compound ABSA) [24|, trái ngược với các bài toán
ABSA đơn chỉ liên quan đến một thành phần cảm xúc duy nhất Ví dụ: bài toán trích
xuất bộ đôi khía cạnh — cảm xúc [6][8] thực hiện trích xuất từ chỉ khía cạnh và từchỉ quan điểm liên quan của nó ở dang ghép, tức là trích xuất cặp (Món mì, ngonquá) từ câu ở ví dụ trên Từ đó cung cấp sự hiéu biết rõ ràng hơn về khía cạnh được
đề cập và cảm xúc được thé hiện tương ứng với khía cạnh đó Sau sự xuất hiện của
số công trình tiên phong, nhiều phương pháp khác nhau đã được đề xuất dé giải
quyết các bài toán ABSA phức hợp nhăm cho phép khai thác quan điểm ở những cấp
độ khía cạnh trong các tình huống khác nhau
Bên cạnh việc thiết kế các mô hình cụ thê cho các bài toán Phân tích cảm xúc
theo khía cạnh khác nhau, sự ra đời của các mô hình ngôn ngữ huấn luyện sẵn (PLM)như BERT [25] và RoBERTa [26] đã mang lại những cải tiến đáng kế cho một loạtcác bài toán ABSA trong những năm gần đây Với PLM làm nền tảng, khả năng kháiquát hóa và độ hiệu quả của các mô hình ABSA đã được cải thiện dang kể
Trang 26BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 14
2.1.2 Cac thành phần cảm xúc
Theo Liu [18], bài toán phân tích cảm xúc bao gồm hai thành phan chính: mụctiêu và cảm xúc Đối với ABSA, mục tiêu có thé được mô ta băng danh mục khía
cạnh c hoặc từ chỉ khía cạnh a, trong khi cảm xúc liên quan đến biéu hiện quan điểm,
tình cảm chỉ tiết — từ chỉ quan điểm o và định hướng tình cảm chung — loại cảm xúc
p Bốn thành phan cảm xúc này tạo nên các hướng nghiên cứu chính trong ABSA:
e Danh mục khía cạnh c xác định một khía cạnh duy nhất của một thực thé
và cho là khía cạnh đó thuộc một trong nhiều danh mục của tập C được định
nghĩa sẵn cho từng lĩnh vực cụ thể được quan tâm Ví dụ: “Food” và
“Service” có thé là các danh mục khía cạnh cho miền nha hàng
e Từ chỉ khía cạnh a là mục tiêu của cảm xúc được thé hiện rõ rang trong
câu hoặc văn bản, ví dụ: “Món mì” trong câu “Món mì này ngon quá” là từ
chỉ khía cạnh Khi khía cạnh được thé hiện một cách không rõ ràng (ví dụ:
“Nó được định giá quá cao!”), ta có thé biểu diễn từ chỉ khía cạnh trong ngữ
cạnh đặc biệt nay là “null”.
e Từ chỉ quan điểm o là cách diễn dat quan điểm dé bày tỏ cảm xúc đối với
mục tiêu liên quan Ví dụ: “ngon” là từ chỉ quan điểm trong ví dụ đang được
sử dụng “Món mì này ngon quá”.
e Loại cảm xúc p xác định định hướng cảm xúc đối với một danh mục khía
cạnh hoặc một từ chỉ khía cạnh nhất định, thường là tich cực, tiêu cực hoặc
trung lập.
Với bốn thành phần cảm xúc chính được định nghĩa như trên, Phân tích cảmxúc theo khía cạnh có thé được định nghĩa dựa trên các thành phần cảm xúc như sau:
Trang 27BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 15
Phân tích cảm xúc theo khía cạnh là quá trình xác định các thành phần cảm xúc đượcquan tâm trong câu hoặc văn bản, dù là một thành phần cảm xúc đơn lẻ hoặc nhiềuthành phần có quan hệ lẫn nhau
Do đó, Phân tích cảm xúc theo khía cạnh có thê chia nhỏ thành các bài toán conkhác nhau tùy theo các thành phần cảm xúc xét đến Tùy thuộc vào đầu ra mong
muốn là một thành phần cảm xúc đơn lẻ hay nhiều thành phần có quan hệ với nhau, chúng ta có thể phân loại các bài toán ABSA thành các bài toán ABSA đơn lẻ hoặc
các bài toán ABSA phức hợp, ví dụ: trích xuất từ chỉ khía cạnh là bài toán ABSAđơn lẻ với mục đích trích xuất tất cả các từ hoặc cụm từ chỉ khía cạnh của một câucho trước, trong khi nhiệm vụ trích xuất bộ đôi khía cạnh - cảm xúc là một bài toánABSA phức hợp vi nó trích xuất tất cả các cặp (a,ø) Từ quan điểm này, các bàitoán khác nhau của ABSA với mục đích trích xuất các thành phần cảm xúc liên quanđược thé hiện trong BANG 2.1 và mối quan hệ giữa chúng được thé hiện trong HÌNH
2.2.
Trang 28BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN l6
Bài toán Đầu vào | Ví dụ đầu vào* Đầu ra Ví dụ đầu ra
Aspect Term Extraction S câu {o} {Món mì, phục vu}
Aspect Category Detection S câu {c} {Food, phục vu}
Aspect Opinion Co- ˆ ¬- , 22+
Extraction Ss cdu {a}, {o} {Món mi, phục vu}, {ngon quá, quá tệ}
Target-oriented Opinion S, ay câu, Món mi 01 ngon qua
Words Extraction S, Az cdu, phuc vu 02 qua té
Aspect Sentiment S,Q4 câu, ngon qua Dị Tích cực
Classification S, Az cdu, qua té Pa Tiêu cực
Aspect-Opinion Pair “ › VN , ⁄+Â
Extraction Ss cau {(a,0)} (Món mi, ngon qua), (phục vu, qua tệ)
End-to-End ABSA S câu {(a, p)} (Món mi, Tích cực), (phục vu, Tiêu cực)
Aspect Category S câu {(c, p)} (Food, Tích cực), (Service, Tiêu cực)
Sentiment Analysis : , “ , ‘
Aspect Sentiment Triplet (Món mi, ngon quá, Tích cực)
Extraction s a! ((4,P,9)} (phục vu, quá tệ, Tiêu cực)
Aspect-Category- ˆ (Food, Món mì, Tích cực)
Sentiment Detection s {64 p)} (Service, phục vu, Tiêu cực)
Aspect Sentiment Quad s câu {(c,a,p,0)} (Food, Món mi, Tích cực, ngon quá)
Prediction (Service, phục vu, Tiêu cực, quá tệ)
* câu được sử dụng ở đây đê minh họa cho các bài toán trích xuât các thành phân
cảm xúc trong bảng trên là “Món mì này ngon qua, nhưng phục vu lại qua tỷ”
BANG 2.1: Các bai toán trong Phân tích cảm xúc theo khía cạnh với đầu vao, đầu
ra và ví dụ minh họa.
Trang 29BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 17
ACSD
HÌNH 2.2: Mối quan hệ giữa các thành phần cảm xúc, các bài toán ABSA đơn lẻ
và các bài toán ABSA phức hợp.
2.1.3 Bai toán trích xuất bộ ba khía cạnh cảm xúc (ASTE)
Trong đề tài này, sinh viên thực nghiệm trên một trong những bài toán con nồibật của ABSA - Trích xuất bộ ba khía cạnh cảm xúc [7] Với nhiệm vụ nhận diện ba
thành phần cảm xúc có trong câu là: từ chỉ khía cạnh, từ chỉ quan điểm và loại cảm
xúc Các thành phần này sẽ lần lượt trả lời cho ba câu hỏi tương ứng là: khía cạnh
được xác định là gi (What), tại sao khía cạnh đó lại có cảm xúc như vay (Why) và
cuối cùng là vì sao lại là cảm xúc đó (How) Ví dụ: Các bộ ba được trích xuất trongcâu tiếng Anh: “Waiters are very friendly and the pasta is simply average” có thé là(Waiters, friendly, positive) va (pasta, average, neutral) hoặc trong câu tiếng Việtsau: “Budi diễn tuy hay nhưng giá vé lại quá đắt” thì các bộ ba được trích xuất cóthé là (Buổi diễn, hay, tích cực) và (giá vé, quá dat, tiêu cực) Trích xuất bộ ba khíacạnh đã thu hút rất nhiều sự chú ý trong những năm gần đây Một loạt các phương
pháp với các mô hình khác nhau đã được đề xuất cho bài toán này
Trang 30BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 18
2.1.3.1 Tình hình nghiên cứu trên thế giới
Peng và cộng sự [7] giới thiệu bài toán ASTE đầu tiên và đề xuất phương pháp
dạng quy trình hai giai đoạn (two-stage pipeline) để trích xuất các bộ ba đồng thời
cũng xây dựng bộ dữ liệu chuẩn ASTE-Data-V2 cho bài toán này Trong mô hình
đó, đầu tiên, hai mô hình gán nhãn sẽ thực hiện trích xuất các khía cạnh với loại cảmxúc tương ứng và sau cùng là các từ chỉ quan điểm Vào giai đoạn thứ hai, một môhình phân lớp được sử dụng để tìm các cặp khía cạnh — quan điểm hợp lệ từ các khíacạnh và cảm xúc đã được dự đoán và cuối cùng ghép lại thành bộ ba Đề khai tháctốt hơn mối quan hệ của nhiều thành phần cảm xúc, nhiều phương pháp liền mạch
đã được đề xuất Zhang và cộng sự [27] trình bay một mô hình đa tác vụ bao gồmtrích xuất từ chỉ khía cạnh, từ chi quan điểm và phân tích cú pháp phụ thuộc theo
cảm xúc Sau đó, các quy tắc heuristic được áp dụng dé tạo ra bộ ba khía cạnh từ dự
đoán của các tác vụ trên Một hướng tiềm năng khác là thiết kế các hệ thống gán
nhãn liền mạch để trích xuất bộ ba trong một lượt [28][30]: mô hình JET do Xu và
cộng sự đề xuất [28] sử dụng hệ thống gan nhãn theo vị trí (position-aware tagging
scheme) như một cải tiến của hệ thong gan nhãn liền mạch trước đó của bài toán
E2E-ABSA [29] Tương tự, Wu và cộng sự [30] cải tiến hệ thống gán nhãn theo dạng
lưới (Grid Tagging Scheme - GTS) cho bài toán AOPE dé dự đoán loại cảm xúc Vì
các phương pháp trên cần dựa vào sự tương tác giữa các cặp khía cạnh nên có thểhoạt động không tốt khi các từ chỉ khía cạnh hoặc từ chỉ quan điểm là cả cụm thay
vì một từ đơn lẻ Nhận ra vẫn đề này, Xu và cộng sự [31] đề xuất một mô hình xét
đên các span đê làm rõ quan hệ giữa các khía cạnh với nhau.
Các phương pháp như Đọc hiểu tự động (MRC) [32][33] và Chuỗi sang chuỗi
(Seq2Seq) [34]-[37] cũng đã được áp dụng để giải quyết bài toán ASTE Mao và
Trang 31BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 19
cộng sự [33] mô hình hóa bài toán gốc thành hai bài toán MRC băng cách thiết kếcác truy vấn cụ thé: mô hình MRC đầu tiên được sử dụng dé trích xuất các từ chikhía cạnh, mô hình MRC thứ hai trích xuất các từ chỉ quan điểm tương ứng và loạicảm xúc Chen và cộng sự [32] tiếp cận vẫn đề theo cách tương tự khi họ sử dụng
một mô hình MRC hai chiều (bidirectional MRC framework): một chiều sẽ du đoán
từ chỉ khía cạnh sau đó đến từ chỉ quan điểm, chiều còn lại sẽ dự đoán từ chỉ quanđiểm trước sau đó là từ chỉ khía cạnh Phương pháp Seq2Seq cung cấp một giải pháp
tinh tế dé đưa ra dự đoán bộ ba khía cạnh trong một lượt Zhang và cộng sự [35] giải
quyết bài toán theo hướng phát sinh văn bản (text generation) và đề xuất hai mô hìnhdạng chú thích (annotation) cùng dang trích xuất (extracting) dé dự đoán bộ ba khíacạnh Yan và cộng sự [34], Hsu và cộng sự [38] lấy câu làm đầu vào và coi các vị trícon trỏ là mục tiêu Sau đó, để dự đoán từ chỉ khía cạnh (hoặc từ chỉ quan điểm),mục tiêu sẽ trở thành dự đoán vị trí bắt đầu và vị trí kết thúc của từ đang xét Fei và
cộng sự [37] trình bày một phương pháp giải mã không tự hồi quy
(non-autoregressive decoding) (NAG ASTE), mô hình hóa bài toán ASTE như một bài
toán trích xuất tập hợp bộ ba không có thứ tự
2.1.3.2 Tình hình nghiên cứu trong nước
Còn ở Việt Nam, hầu hết các bài toán ABSA đều thực hiện trích xuất các bộ đôithành phần cảm xúc hoặc đơn thành phần cảm xúc Theo Thìn và cộng sự [39], tính
đến hết năm 2022, chỉ có 31 bài viết về lĩnh vực nghiên cứu ABSA thuộc tiếng Việt,
trong đó có 7 bài được đăng trên tạp chí và 24 bài được đăng trong các hội nghị, hội
thảo.
Trang 32BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 20
12
1
2015 2016 2017 2018 2019 2020 2021 2022
YearsNumber of manuscripts = h n oo = c=] im - aay a ~ —a MS
HÌNH 2.3: Số lượng nghiên cứu xuất bản của lĩnh vực ABSA thuộc tiếng Việt
Như trong HÌNH 2.4, có thê thấy răng hầu hết các nghiên cứu trước đây đều
tập trung vao bài toán con Phát hiện danh mục khía cạnh (ACD) và bai toán Phan
tích cảm xúc danh mục khía cạnh (ACSA) hay còn gọi là Trích xuất bộ đôi khía cạnh
— loại cảm xúc (E2E - ABSA) như được đề cập ở trên Lý do chính là hầu hết các tập
dir liệu công khai chi được xây dựng cho hai tác vụ trên Hơn nữa, kích thước của
các bộ dữ liệu này rất lớn; khuyến khích việc nghiên cứu trên các bộ dữ liệu tiếng
Việt sẵn có do việc xây dựng dữ liệu riêng cho từng bài toán con trong ABSA thường
rat ton kém hoặc không khả thi do từng bài toán con đều yêu cầu chú thích (annotate)
ở mức chỉ tiết Vi vậy, bài toán ASTE vẫn chưa được quan tâm hay phổ biến ở Việt
Nam và chưa có bộ dữ liệu tiếng Việt nào cho bài toán này.
Trang 33BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 21
Number of manuscripts
Span Detection Eel]
Aspect Term Sentiment Analysis
Aspect Term Extraction [J
Aspect Sentiment Classification [J
HINH 2.4: Phan phối 31 bài báo được lựa chọn theo phạm vi bài toán con ABSA
2.2 Mô hình ngôn ngữ được huấn luyện sẵn
Các mô hình ABSA truyền thống thường sử dụng các phương pháp nhúng từđược huấn luyện sẵn (pre-trained word embeddings), ví dụ như Word2Vec [40] và
GloVe [41], chung với kiến trúc mạng thần kinh nhân tạo được thiết kế riêng cho
từng bài toán Dù đạt được hiệu quả cao hơn so với các mô hình dựa trên đặc trưng
(feature-based models) đời dau, sự cải tiễn của các mô hình đó dan dan dat đến điểm
nghẽn Một lý do là các phương pháp nhúng từ không phụ thuộc vào ngữ cảnh không
đủ dé nắm bắt được quan hệ phức tạp giữa các thành phần cảm xúc trong câu Ngoài
ra, kích thước của các bộ dữ liệu ABSA hiện tại không phù hợp cho việc huấn luyệnkiến trúc mạng phức tạp Trong những năm gần đây, các mô hình ngôn ngữ đượchuấn luyện sẵn (PLM) như BERT [25] và RoBERTa [26] đã mang lại những cải tiễnđáng ké cho một loạt tác vụ trong NLP Đương nhiên, chúng cũng được giới thiệu
Trang 34BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 22
để cải thiện hơn nữa hiệu suất của ABSA Không chỉ riêng tiếng Anh mà các môhình ngôn ngữ hiện nay đã phát triển hơn với sự xuất hiện của các mô hình đa ngônngữ như mBERT*, XLM-R [15] hoặc các mô hình ngôn ngữ dành riêng cho tiếng
Việt là viBERT [14], PhoBERT [13].
2.2.1 Cac mô hình đa ngôn ngữ được huấn luyện sẵn
không giám sát la: Masked language modeling (MLM) và Next sentence prediction
(NSP):
e MLM: Do BERT là mô hình hai chiều (bidirectional) nên mỗi từ sẽ gián
tiếp “tự nhìn thay chính nó” va mô hình có thé dự đoán ra từ mục tiêu mộtcach tầm thường trong bối cảnh một kiến trúc có nhiều lớp Dé mã hóa ngữcảnh hai chiều khi biểu diễn mỗi token, BERT ngẫu nhiên che đi một sốtoken và sử dụng các token lấy từ ngữ cảnh hai chiều để dự đoán các token
bị che 15% tổng số WordPiece token sẽ bị che đi trong mỗi chuỗi
e NSP: Các bài toán cụ thé quan trọng như Trả lời câu hỏi (Question
Answering) và Suy luận ngôn ngữ tự nhiên (Natural Language Inference)
déu dựa trên việc hiêu môi quan hệ giữa hai câu, điêu này không được mô
* https://github.com/google-research/bert/blob/master/multilingual.md
Trang 35BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 23
hình ngôn ngữ nắm bat trực tiếp Đề huấn luyện một mô hình hiểu được cácmối quan hệ trong câu, BERT sẽ dự đoán liệu hai câu có nằm kề nhau không
Cụ thể, khi chọn câu A và B cho mỗi ví dụ huấn luyện trước, 50% B là câuthực tế theo sau A (có nhãn là JsNext) và 50% là câu ngẫu nhiên từ kho ngữ
liệu (có nhãn là NotNext).
(se Mask LM on LM N /ấmu ER / SQuAD StarUEnd sa
JG) = Ln |) Lr: ) = 8 Le Ji) ee Gad T sep) IL.) so L1 }
BERT 2 oe xi: + BERT
Eien Le |[s=a|[=: Ì Z4 [ssslLs | L5 ][sas][s: ] ia
| ¬ Tt | rokN i) cis |[ mà} | wan || sen |[ m+ } [tm |
| |
Masked Sentence A + Masked Sentence B Question + Paragraph
Ảo Unlabeled Sentence A and B Pair > Question Answer Pair
e RoBERTa bỏ di bài toán NSP do nhóm tác giả nhận thấy rang hàm mất mát
của NSP phan nao đó làm tôn hại đến các tác vụ về sau (downstream task)
e RoBERTa sử dụng mã hóa Byte-Pair (BPE) [44] Thay vì các từ day đủ,
BPE sử dụng các thành phần con của từ (subwords units) được trích xuất
Trang 36BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 24
bằng cách thực hiện phân tích thống kê trên kho đữ liệu huấn luyện Radford
và cộng sự áp dụng BPE bang cách sử dung “byte” thay vi ký tự Unicodelàm thành phan con của từ [45] Một bộ từ điển thành phan con của từ biểudiễn theo byte (50K thành phan) vẫn có thể giúp mô hình mã hóa bat kỳ vănbản đầu vào nào mà không gặp phải token “không xác định” (“unknown”
token).
XLM [46] cũng dựa trên BERT nhưng áp dụng các phương pháp cải tiến choviệc huấn luyện trước các mô hình đa ngôn ngữ Kê từ đó, có nhiều phiên bản họctrước của XLM; phiên bản lớn nhất được huấn luyện trước trên 100 ngôn ngữ lấy từ
EES'E4 ES ay ee MENS 09 E/68.5 aye b= 93g r28¢EN42 a4 87 DSES ERE ES ESSER RANKED ES METRE SE 4 9 8
FERS AF SRS LR PHA LS AACR SASHES SESE SA SST ERE 56 ri 9 SRT ZL 2274 GH Hs GST RESCH SERSASS GPSS PRR PRE Es Aas
|" CommonCrawl # Wikipedia]
HINH 2.6: Kích thước dữ liệu các ngôn ngữ giữa 2 mô hình mBERT và XLM-R
Trang 37BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 25
2.2.1.3 InfoXLM
Các mô hình đa ngôn ngữ huấn luyện sẵn tốt nhất thường được xây dựng dựa
trên multilingual masked language modeling (MMLM) [15][25] va translation
language modeling (TLM) [46]:
e MMLM tối đa hoa thông tin quan hệ giữa các token bị che di (masked
tokens) và ngữ cảnh trong cùng một ngôn ngữ.
e TLM tối da hóa thông tin lẫn nhau giữa masked tokens và ngữ cảnh trong
đa ngôn ngữ, điều này ngầm đối chiếu các biéu diễn được mã hóa giữa các
ngôn ngữ khác nhau.
InfoXLM là một mô hình đa ngôn ngữ được huấn luyện sẵn trên cùng bộ dit
liệu với XLM-R Mô hình này sử dụng cả ba tác vụ gồm: MMLM, TLM và
cross-lingual contrast (XLCO) [17] với XLCO là một tác vụ huấn luyện trước (pre-training
task) được đề xuất bởi nhóm tác giả của InfoXLM dựa trên học đối lập (Contrastive
Learning).
Trong XLCO, mô hình học cách phân biệt ban dich của câu đầu vào với một
tập hợp các câu gây nhiễu Trong khi TLM tối đa hóa thông tin liên quan lẫn nhau
về chuỗi các token, XLCO tối đa hóa thông tin lẫn nhau ở cấp độ chuỗi giữa các cặp
câu được dịch.
2.2.1.4 XLM-Align
Trong các mô hình đa ngôn ngữ (cross-lingual language models), một số tác vụhuấn luyện trước (pre-training task) đã được đề xuất cho việc tận dụng ngữ liệu songsong (parallel corpora) dé học cách biéu diễn đa ngôn ngữ ở cấp độ câu tốt hơn [46]
Vi dụ: tác vụ translation language modeling thực hiện masked language modeling
Trang 38BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 26
trên các câu được dịch song song trong bộ ngữ liệu, ngầm nâng cao khả năng chuyềngiao giữa các ngôn ngữ Tuy nhiên, hầu hết các tác vụ huấn luyện trước đều học cáchđối chiếu từ (word alignment) ở cấp độ câu hoặc ngầm khuyến khích việc đối chiếuchéo ngôn ngữ (cross-lingual alignment), do đó tác vụ đối chiếu một cách rõ ràngchỉ tiết vẫn chưa được khám phá đầy đủ
Trong mô hình XLM-Align, nhóm tác giả giới thiệu một tác vụ đa ngôn ngữ
mới được huấn luyện trước gọi là denoising word alignment (DWA) Thay vì dựa
vào các công cụ căn chỉnh sử dụng riêng được đào tạo trên ngữ liệu song song
[48][49][50], XLM-Align tự gan nhãn các đối chiếu từ của mình Trong quá trìnhhuấn luyện sẵn (pre-training), mô hình luân phiên tự gán nhãn các đối chiếu từ và
thực hiện tác vụ DWA theo cách tối đa hóa kỳ vọng Cụ thê, trước tiên mô hình sẽ
tự gán nhãn các đối chiếu từ trong một cặp câu được dịch Sau đó, mô hình sử dụngtác vụ MLM để che đi ngẫu nhiên các token trong cặp câu song song, đây là đầu vàochứa nhiễu (perturbed) cho tác vụ DWA Đối với mỗi token bị che, mô hình sẽ họcmột mạng con trỏ (pointer network) để dự đoán sự gán nhãn đối chiếu trong ngôn
ngữ khác Quy trình gồm hai bước như trên sẽ được lặp lại đề nâng cao hiệu quả đối
chiêu song song cho huân luyện săn tác vụ đa ngôn ngữ.
Trang 39BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 27
Self-Labeled Word Alignments (PointerNetwork ~ '
| XLM-Align Encoder | | XLM-Align Encoder
Ree lHỚU., Hello world {# [M] [M] world
Translation Pair Noisy Translation Pair (Random Masks)
(a) Word alignment self-labeling (b) Denoising word alignment
HINH 2.7: Tổng quan về mô hình XLM-Align.
XLM-Align được huấn luyện sẵn với ba tác vụ gồm: MLM, TLM và DWA vừa
được mô ta ở trên Bộ ngữ liệu XLM-Align sử dụng bao gồm Wikipedia và CCNet
[47].
2.2.2 Các mô hình ngôn ngữ được huấn luyện sẵn cho
tiếng Việt
2.2.2.1 viBERT và viBert4news
viBERT là mô hình ngôn ngữ huấn luyện sẵn dành riêng cho tiếng Việt được
cải tiễn của mBERT với kiến trúc gồm 5 lớp (layer) như sau:
e Lớp dau vao với nhiệm vụ là mã hóa (encode) một chuôi các tokens là chuôi
con của câu đâu vào.
Trang 40BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 28
e Lớp BERT.
e Lớp RNN hai chiều với các đơn vị LSTM hoặc GRU.
e Lớp attention [51].
e Lớp tuyến tinh (linear)
Dữ liệu dùng dé huấn luyện viBERT là 10GB ngữ liệu từ các nguồn báo onlineViệt Nam Nguồn ngữ liệu này cũng được nhóm tác giả tiền xử lý như sau:
e Xóa các tin trùng lặp.
e Chỉ sử dụng các chữ cái hợp lệ của tiếng Việt
¢ Loại bỏ những câu quá ngắn (dưới 4 từ)
> vnexpress.net, dantri.com.vn, baomoi.com, zingnews.vn, vitalk.vn, etc.