Khóa luận tốt nghiệp Khoa học máy tính: Cải tiến phương pháp trích xuất bộ ba khía cạnh trong phân tích ý kiến bình luận của khách hàng

Mục tiêu của khóa luận Trong nghiên cứu này, sinh viên tiên hành tìm hiệu, cai đặt mô hình Trích xuât bộ ba khía cạnh cảm xúc đê giải quyét bài toán ASTE với các mục tiêu dé ra sau: e Mụ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

CHAU PHAM QUOC HUNG - 20521360

KHOA LUAN TOT NGHIEP

IMPROVING ASPECT SENTIMENT TRIPLETS EXTRACTION FOR

CUSTOMERS' REVIEWS

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN PGS.TS NGUYEN LUU THUY NGAN

ThS DANG VAN THIN

TP HO CHÍ MINH, 2023

Trang 2

DANH SACH HOI DONG BAO VE KHOA LUAN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

36/QD-DHCNTT ngày 15/01/2024 của Hiệu trưởng Trường Đại hoc Công nghệ Thông tin.

1 TS Luong Ngọc Hoàng — Chủ tịch.

2 ThS Nguyễn Bích Vân — Thư ký.

3 TS Nguyễn Trọng Chỉnh — Ủy viên

Trang 3

LOI CAM ON

Đầu tiên, em xin gửi lời cảm on chân thành đến ThS Dang Van Thìn đã cùngđồng hành, luôn bên cạnh hỗ trợ và cho em những lời khuyên trong suốt quá trìnhthực hiện luận văn Đồng thời, em cũng cảm ơn cô Nguyễn Lưu Thùy Ngân vì sự

tận tình hướng dẫn, định hướng cùng những phản biện nhằm giúp em đạt được kết

quả tốt nhất cho khóa luận Chính cô và thầy là những người đã hướng dẫn tận tình,cung cấp cho em những kiến thức, kỹ năng cần thiết dé thực hiện các nghiên cứutrong đề tài này

Bên cạnh đó, em cũng cảm ơn Trường Đại học Công nghệ Thông tin, ĐHQG

TP Hồ Chí Minh, nơi không những mang lại cho em những kiến thức vô cùng hữuích, mà còn cho em được có cơ hội gặp gỡ và học tập những người tiền nhân, nhữngngười thầy cô vô cùng tuyệt vời trong suốt những tháng năm đại học

Và cuối cùng, lời cảm ơn trân trọng nhất em xin gửi cho gia đình Cảm ơn ba

mẹ đã luôn ở bên con, cho con sức mạnh, là điểm tựa vững chắc cũng như động lực

dé vượt qua mọi khó khăn về tinh thần lẫn thé chat, là nền tảng dé con có thé cố gắng, vươn xa hơn nữa trong cuộc song.

Trong quá trình thực hiện khóa luận, em có thé mắc những thiếu sót và hạn chế

ngoài ý muốn Em kính mong nhận được sự phản hồi và góp ý quý báu đến từ quý

Thay, Cô Một lan nữa, em xin chân thành cảm on!

TP Hồ Chí Minh, tháng 01, năm 2024

Sinh viên Châu Phạm Quốc Hưng

Trang 4

LOT CAM ƠN - 5c tt Tnhh Hư Hàn Hàn Hưng hệ iv

"020022277 -:, v

DANH SÁCH HÌNH 5522 ÉE v2 2E TH TH Hàng HH gg hưệu viii DANH SÁCH BẢNG -. 5:5 t2 2E t2 t2 HH ng ng gưe xi DANH SÁCH CAC TU VIET TAT 0 cscessssssssseessseessnecesnnecssneessueessneeesnnessuneessnneesineessneeesnneessneesen xii

TOM TAT KHOA LUAN oiescecccscssssssssssssesssssucsucssesscsscsscsussussssesscssssussusessessesussusausassesecsecsucsusaneaseeseeses xiii

j6 1

1.1 Tổng quan - - 5G SE 2ESE9E219E121EE121511215112121111111 11111111 111111111111 1.11011101010111 0x0 1

1.2 LÌ.19.:8).ÉtùùDùDọỌọỒồỒỖồỖỒẳíắđầđỒỖỒỎỒỖỒOŨO 3

1.3 Mục tiêu của khóa luận - - - - E2 111191 v1 TT TH ngà 4

1.4 Pham vi và đối tượng nghiên €ứu ¿2521952 +E+EE2E‡EEEE2EEEE E121 2E212121211121 2 1xx 4

1.4.1 Pham vi nghiên CỨu - Ă SH TH nu HH nh 4

1.4.2 Đối tượng nghiên cứu :-S+22©22+EEx‡E2E2EEEEEEEEEEEEEEEEkErErrrkrrkerrerrree 5 1.5 Kết quả của khóa luận -+-5:©ScSt‡2EEE2E22EEE1E21211212171211121 11111121111 5 1.6 Cấu trúc khóa luận - 2: 2 222cc 2E EEE121511215112121271212111121111211112110121121 1 Eee 8

BOI CANH VA CÁC CÔNG TRÌNH LIÊN QUAN 5c St E2 1E 218711181 111111 11t 10

2.1 Bai toán Phân tích cảm xúc theo khía cạnh - - S323 1E versrrkrerreerrrree 10

2.1.1 "7 8Š 10 2.1.2 Các thành phần cảm XÚC - - 2-55 SSSE2EE2E2EE2EE112112321212117171211 12x crrcee 14 2.1.3 Bài toán trích xuất bộ ba khía cạnh cảm xúc (ASTTE) - 5 2+s+c+cs+czzzxerrxee 17

2.1.3.1 Tình hình nghiên cứu trên thế giới -2- 2-5255 x2S++Etzxerxerxererrerxrrxereee 18 2.1.3.2 Tình hình nghiên cứu tromg ƯỚC - - <5 11911 11 E31 9v vn rên 19 2.2 Mô hình ngôn ngữ được huấn luyện sẵn - 5-52-5252 2x‡2EESEEEerxerkrkrrerrerrres 21

2.2.1 Các mô hình đa ngôn ngữ được huấn luyện sẵn -2+©5++5++czcxerxerxees 22

2.2.1.1 mBERÍT, G1 21t nh nh TH re 22 2.2.1.2 b$0 0 g5 23

2.2.1.3 I3 9Đ)V/l”rraaiii - 25

2.2.1.4 XLM-Align 2 22L 2222.221221 Ea 25

2.2.2 Các mô hình ngôn ngữ được huấn luyện sẵn cho tiếng Việt -5 - 27

2.2.2.1 Mi; 90A4): 2u 3.0 27

Trang 5

3.1.3 Áp dung tách từ cho mô hình PhoBE.RT 2-2-5 ©tSE+EE‡E£ESEESEEeEEEErrerxersrex 47 3.2 _ Kiến trúc mô hình Trích xuất bộ ba khía cạnh cảm XÚC - 2-5 2+5S+££+E2zEczxererrs 48

3.2.1 _ Tổng quan mô hình: 5-5252 2S2x‡E2EE2E2EE2EEEEEEEE2EEEEE1E21111E2.1.1 11c crrrei 48 3.2.2 M6 hình hóa bài toán Trích xuất bộ ba khía cạnh cảm xúc -. - 55+: 49

3.2.3 Quá trình tạo ra các SD4I - 11122119 SH TH TH ngư 50

3.2.4 Hàm mắt mát phân biệt các span tương tự - + 52s +£E+E£E£E£Eerxrxerrrererxee 51 3.2.5 Kiến trúc trích xuất bộ ba theo hai chiều - 22-555 52+ +E£E£EczEzxerzrerrrree 52

3.2.5.1 Chiều khía cạnh sang quan điểm (aspecf-to-opinion) - ccccccceereeeeees 52 3.2.5.2 Chiều quan điểm sang khía cạnh (opinion-fo-aspecf£) -.-. ccccscseeeece 54 3.2.6 Chiến lược trích xuất bộ ba cuối cùng - 52s S2 ESEEE2E212121E1 E11 re 55 3.3 Hướng tiếp cận Cross-domain transfer learning - 5 s22 +x+zxezxexezxerxerxerscrs 57 THU NGHIEM VA KET QUA 001 7 59

4.1 Thống kê dữ HOU cccccccsecccssessesseseesessessessssscsessssusssesssssucssssessssussecseeseatsaeseesesusacseseeenees 59

4.1.1 Số lượng câu 5-2C St E1 EEEE21E1121121021011111 1111.111.1111 cre 59 4.1.2 — Số lượng bộ ba 2 Sc +22 2n E2 21 E21E211121121211121111 111111111 crre 60 4.1.3 Số lượng nhãn 2-S2- 52s E2 E2E2E1121121211121111 11111111 Excrre 60 4.1.4 Độ dài các khía cạnh và từ so sánh - ng HH kh 62

4.1.5 Độ dài các khía cạnh và từ so sánh sau khi tách từ

4.2 Cac phương pháp đánh giá Án HH TH HH HH

4.3 Các thông số cài đặt thứ nghiệm ¿©22©2++xeEEEESEtSEEeEEerxerxrrkrsrrsrrerrerrrrrre 72 4.4 Kết qua và phân tích ©5252 +c+‡ExeEEEE2Ex2EEEEEEEEEEECEEEEEEEEEEEEEELEEErerkerrrrro 74

4.4.1 Danh giá mô hình trích xuất bộ ba -.:-2- 2-5522 2E2zerxerxrrkrsrerrerrerkervres 74

4.4.1.1 Đánh giá mô hình từ miền nguồn sang miền nguồn 2-5: 74 4.4.1.2 Đánh giá mô hình từ miền nguồn sang miễn đích -2- 25555555: 77

Trang 6

4.4.1.3 Đánh giá mơ hình khi huấn luyện trên bộ dữ liệu tổng hợp từ hai miền 79

4.4.2 Đánh giá trên từng nhãn so sánÌ: G25 + vn TH HH nh nghe 86

4.4.3 Đánh giá chỉ tiết hệ thống 5G- 5S CS E1 12107111211 21171011 2111111111111 re 90

4.4.4 Khảo sát anh hưởng của chất lượng dữ liệu -¿- 2-5s5xecx2esrerxerxerxeee 93

CHU ONG TRINH MINH HOA 00818 - 5 95

5.1 Cong nghệ sử dung ccceecceeneeeseneeeeeeceeaeecseecseaeeeseaeeseeecseaeeseaeecseaeesseaeeseueeeseaeeesee 95

5.1.1 Django oo Ư-:ƯOO 95

5.1.2 ;)))) 0 e 96

5.1.3 Font ẬW€SOI nọ 96 5.2 Quy trình cài đặt - - - -c TT HH Họ và 97

5.3 Giao diện chương trÌnh - «+ s1 HH HH Hệ 99

KET LUẬN VÀ HƯỚNG PHAT TRIIỂN - 2-5552 1 EE E1 121571271211 2111 7111111111111 1E 1E xe 101

Cs CE 101 6.2 Ham h@o.c.ccecccecccccccccsccscssscscescsvsuescsucscsvesesvcscscsscscsucstevsscsvsscsssussesusssssscacsacsssucstsesseeveseseseeass 102

SN nan aĩỪỘĩỪỘỪDỒ 103

IV 08812080279 /8.47 01 3ã 105

Trang 7

DANH SÁCH HÌNH

HÌNH 2.1: Ví dụ về bốn thành phan cảm xúc chính trong ABSA - 12HÌNH 2.2: Mối quan hệ giữa các thành phần cảm xúc, các bài toán ABSA đơn lẻ

và các bài toán ABSA phức hợp - - <1 111v ng ng cư 17

HÌNH 2.3: Số lượng nghiên cứu xuất bản của lĩnh vực ABSA thuộc tiếng Việt .20

HÌNH 2.4: Phân phối 31 bài báo được lựa chọn theo phạm vi bài toán con ABSA

Ma A.AẦdẢdL.L: 21

HÌNH 2.5: Tổng quan quá trình pre-training va fine-tuning trong BERT 23

HÌNH 2.6: Kích thước dữ liệu các ngôn ngữ giữa 2 mô hình mBERT và XLM-R.24

HÌNH 2.7: Tổng quan về mô hình XLM-Align - ¿5-5 2+s+s++s+£+£sz£ccs2 27

HINH 2.8: Kiến trúc mô hình viBlERT -. -:-©5+v22+++£x+vzxxtsrxtrrrxrsrrrsrrer 28

HÌNH 3.1: Quá trình trích xuất bộ ba của mô hình SBN - - ¿2+5 <2 49

HÌNH 4.1: Số lượng các nhãn so sánh trong bộ dữ liệu VLSP - 61HÌNH 4.2: Số lượng các nhãn so sánh trong bộ dữ liệu Ele-COQE phiên bản một

Trang 8

HINH 4.11: Phân bố số lượng từ các khía cạnh sau khi áp dụng tách từ thuộc bộ dữ

liệu Ele-COQE phiên bản TmỘI - .- - (5 6 111010181393 1139111 8111 kg 67

HÌNH 4.12: Phân bố số lượng từ các khía cạnh sau khi áp dụng tách từ thuộc bộ dữ

liệu Ele-COQE phiên bản haI 111222221111 11131 5111115821111 1 111 ty 68

HINH 4.13: Phân bé số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ

Ait LGU 1) ẽốố/7 6“ " " 69

HÌNH 4.14: Phân bố số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ

dữ liệu Ele-COQE phiên bản MOt . ¿c5 3332 EE*+EEEvssesseerrrres 69

HÌNH 4.15: Phân bố số lượng từ các từ so sánh sau khi áp dụng tách từ thuộc bộ

dữ liệu Ele-COQE phiên bản haI 5 5 <5 222133322 E+*2EEE+SEEExreererreererre 70

HÌNH 4.16: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình

huấn luyện trên bộ tông hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so

[410318 1 a ẽ -aÃl 81

HINH 4.17: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình

huấn luyện trên bộ tong hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so

[400908001017 8 82

HÌNH 4.18: F1-score của mô hình huấn luyện trên bộ dữ liệu VLSP va mô hình

huấn luyện trên bộ tông hợp khi đánh giá trên bộ nguồn VLSP với chiến lược so

[409011185 0225257 aaIa 82

Trang 9

huấn luyện trên bộ tổng hợp khi đánh giá trên bộ đích Ele-COQE với chiến lược so

[310909010181 e 84

HÌNH 4.20: Fl-score của mô hình huấn luyện trên bộ dữ liệu VLSP và mô hình

[4009801080101 -35 lAẶằ ma 84

khớp nhị phan - c2 11119111910 1911 9111 vn nh HH Hy 85

HÌNH 4.22: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn

luyện trên bộ VLSP và dự đoán cho bộ VLSP - .- 5 5-5 2S s++ssersrseeresree 86

HINH 4.23: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn

luyện trên bộ Ele-COQE và dự đoán cho bộ Ele-COQE . -. «++++++<+ 87

HINH 4.24: Heatmap F1-score của các nhãn trích xuất bởi các mô hình khi huấn

luyện trên bộ dữ liệu tổng hop và dự đoán cho bộ VLSP -<<<s+++s+ 88

HÌNH 5.1: Tổng quan cau trúc của một ứng dụng Django : : 98HINH 5.2: Giao diện của chương trình minh họa - 555 +++<*kec+ssseex 99HÌNH 5.3: Giao diện của chương trình minh họa với khung hộp nhập câu đầu vao

HÌNH 5.4: Kết quả trả về từ chương trình - - 2 52 +x+£££++Ee£+zEererxererxee 100

Trang 10

DANH SACH BANG

BANG 2.1: Các bài toán trong Phân tích cảm xúc theo khía cạnh với đầu vào, đầu

ra và ví dụ minh họa CC CC EEEE%%%%%%%111118111111113135533553 5 3 v.v net 16

BANG 3.1: Các trường hop prompt .cccccccssessesessessessesessessesssessessssessessssesseeseeess 37BANG 3.2: Một số phan hồi từ các prompt thu được khi sử dung GPT-3.5 API 39BANG 3.3: Các trường hợp gan nhãn so sánh mới - - 2 2+s+s+£z£z£szx2 +2 45BANG 3.4: Các ban dich khác nhau của một câu từ ba công cụ dich 46

BANG 4.1: Thống kê số lượng các câu trong từng bộ dữ liệu - 59BANG 4.2: Số lượng bộ ba trong từng bộ dit liệu . - 2-25 s+sz+xczxccs+i 60

BANG 4.3: Thông tin các mô hình đa ngôn ngữ huấn luyện sẵn 72 BANG 4.4: Thông tin các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt 73

BANG 4.5: Kết quả mô hình trích xuất bộ ba từ miền nguồn sang miền nguồn .76BANG 4.6: Kết quả mô hình trích xuất bộ ba từ miền nguồn sang miền dich 78BẢNG 4.7: Kết quả mô hình trích xuất bộ ba khi được huấn luyện trên dữ liệu kếthợp từ hai miỄN 5-5 S211 5E 1211151511212111111211111111111 111011101 1xe 80BANG 4.8: Kết qua Micro Fl-score va Macro F1-score của các mô hình khi thực

hiện trích xuất các nhãn so sánh ¿22+ S+E+E+E+ESEEEEEE+EEESEEEEEEEEEErErErErerrrrrres 89BANG 4.9: Ví dụ về kết quả đúng và kết quả ma mô hình dự đoán 90BANG 4.10: Ví dụ về câu gây nhập nhằng cho mô hình 2-5-5552 9]

BANG 4.11: Kết quả đánh giá trên bộ VLSP khi huấn luyện mô hình trên các bộ

811184: 16:10 94

Trang 11

SA NLP ABSA

AT AC

OT

SP ATE ACD

OTE

ASC

AOPE

ATSA E2E-ABSA ACSA

ACSD ASQP

PLM MLM NSP

DWA XLCO

HTTP BPE

DANH SÁCH CÁC TU VIET TAT

Sentiment Analysis

Natural Language Processing

Aspect Based Sentiment Analysis

Aspect Term

Aspect Category Opinion Term

Sentiment Polarity Aspect Term Extraction Aspect Category Detection

Opinion Term Extraction

Aspect Sentiment Classification Aspect-Opinion Pair Extraction Aspect-Term Sentiment Analysis

End-to-End ABSA

Aspect Category Sentiment Analysis Aspect-Category-Sentiment Detection Aspect Sentiment Quad Prediction

Pre-trained Language Model

Masked Language Modeling Next Sentence Prediction

Denoising Word Alignment Cross-Lingual Contrast

Hypertext Transfer Protocol Byte-Pair Encoding

xii

Trang 12

TOM TAT KHOA LUAN

Phân tích cam xúc (SA) là một bai toán trong lĩnh vực Xử ly Ngôn ngữ Tu

nhiên — Natural Language Processing (NLP) Với đầu vào là dữ liệu văn bản, đầu ra

là một trong các cảm xúc: tích cực, tiêu cực, hay trung lập Phân tích cảm xúc thường

được dùng dé giúp doanh nghiệp có cái nhìn khách quan về dich vụ và sản pham của

mình dựa trên các phản hồi của khách hàng.

Tuy nhiên, hiện nay, với sự phát triển của khoa học, công nghệ, đồng thời xuất

phát từ nhu cầu thực tế, các hệ thống phân tích cảm xúc ngày càng tốt hơn, trọngtâm nghiên cứu ngày càng được tập trung cải thiện ở các mức độ chi tiết hơn, điểnhình là Phân tích cảm xúc trên cấp độ khía cạnh (ABSA) Trong đề tài này, sinh viêntập trung nghiên cứu bài toán Trich xuất bộ ba khía cạnh xảm xúc (ASTE), là bài

toán con của Phân tích cảm xúc theo khía cạnh.

Mục tiêu chính của khóa luận này là nghiên cứu và cải đặt các mô hình trích

xuất bộ ba khía cạnh trên tiếng Việt dựa trên sức mạnh của các mô hình ngôn ngữ

phô biến Hơn nữa, sinh viên cũng tiễn hành tiền xử lý và xây dựng một bộ dữ liệu

có miền thuộc sản phâm công nghệ điện tử dé đánh giá độ hiệu qua của mô hìnhđược cai đặt băng cách sử dụng phương pháp Học chuyển tiếp đa miền (Cross-domain transfer learning) Mặc dù bài toán Trích xuất bộ ba khía cạnh cảm xúc tuy

đã có nhiều đóng góp từ cộng đồng nghiên cứu quốc tế với các bộ dữ liệu chuẩn cho

tiếng Anh nhưng đối với tiếng Việt thì có thé nói vẫn chưa có công bố khoa học với

bộ dữ liệu chuẩn nào Vì vậy, sinh viên hy vọng khóa luận này có thể đóng góp mộtphần nào đó vào sự phát triển của NLP nói chung và mở ra một hướng nghiên cứu

mới thuộc lĩnh vực Phân tích cảm xúc theo khía cạnh ở Việt Nam.

Trang 13

MỞ ĐẦU 1

Chương 1.

MO DAU

1.1 Tong quan

Trong những năm gan đây, với sự phủ sóng và phát triển vượt bậc của Internet,

mang xã hội cũng như các trang mang là những nơi phổ biến và tiện lợi để khách hàng chia sẻ những trải nghiệm, đánh giá, nhận xét và phản hồi của mình về san

phẩm cũng như các loại hình dịch vụ của các doanh nghiệp, tô chức Điều này tạođiều kiện tham khảo, đánh giá và phản hồi của khách hàng khi đưa ra các quyết định

về dịch vụ, sản phẩm của các doanh nghiệp, tô chức Tiếng nói của khách hàng có

tam ảnh hưởng mạnh mẽ đối với sự sống còn của một doanh nghiệp Những bình

luận, phản hồi của họ sẽ thê hiện trực tiếp quan điểm cảm xúc đối với các sản phẩm,

dịch vụ mà doanh nghiệp, tô chức cung cấp — Tích cực, liêu cực hoặc Trung lập

Tuy nhiên, doanh nghiệp không thé sang loc thủ công hàng nghìn đánh giá hoặc

cuộc hội thoại của khách hàng do sẽ rất tốn kém về mặt thời gian, nguồn lực và chưachắc đảm bảo tính khách quan — đặc biệt nếu thông tin cần được phân tích ở cấp độchỉ tiết Do đó các doanh nghiệp cần triển khai một hệ thống phân tích cảm xúc tựđộng từ các thông tin phản hồi của khách hàng và đưa ra kết quả khách quan nhất có

thé Việc này cho phép doanh nghiệp tự động phân tích chi tiết dữ liệu mà không qua

tốn kém Dựa vào các kết quả phân tích từ hệ thống, các doanh nghiệp hoặc tô chức

có thé đưa ra các quyết định đúng dan dé cải tiến và nâng cao hiệu qua sản phẩm,dịch vụ Vì vậy, bài toán Phân tích cảm xúc không những nhận được nhiều sự quan

Trang 14

MỞ ĐẦU 2

tâm của các nhà nghiên cứu trong lĩnh vực Xử lý ngôn ngữ tự nhiên mà còn được

chú ý bởi các công ty, doanh nghiệp, tô chức

Phân tích cảm xúc truyền thống chủ yếu chỉ thực hiện dự đoán ở cấp độ câuhoặc cả văn bản, xác định cảm xúc chung đối với toàn bộ câu hoặc văn bản Đề đưa

ra dự đoán, phân tích cảm xúc truyền thống cho rằng chỉ có một cảm xúc duy nhấtđược thé hiện cho một chủ dé duy nhất trong toàn bộ câu hoặc văn bản Tuy nhiên,điều này có thể không thiết thực trong thực tế Vì lý do này, việc xác định các quanđiểm và cảm xúc ở cấp độ khía cạnh chi tiết hơn đã nhận được ngày cảng nhiều sự

chú ý trong thập ky qua, bài toán được đặt ra gọi là Phân tích cảm xúc theo khía cạnh

(ABSA) Trong ABSA, mục tiêu liên quan mà cảm xúc được thể hiện sẽ chuyên từ toàn bộ câu hoặc văn ban sang một thực thé hoặc một khía cạnh nhất định của thực

thể Ví dụ, trong các bình luận trên các trang thương mại điện từ, một khía cạnh có

thể là một sản phẩm, hoặc thuộc tính của sản phẩm đó như giá tiền, chất lượng, kích

cỡ Do đó, ABSA là quá trình trích xuất quan điểm, cảm xúc ở cấp độ khía cạnh,

cung cap thông tin cảm xúc chi tiệt hữu ich cho các tác vụ về sau.

Đặc biệt, bài toán Phân tích cảm xúc theo khía cạnh được phát huy tối đa trongcác lĩnh vực chi tiết như nhà hàng, khách sạn, đánh giá sản pham, hay trong khóaluận này, là các đánh giá, nhận xét về điện thoại, các sản phâm điện tử, công nghệ

Thay vì chỉ quan tâm đến chất lượng tông quan, khách hàng còn dé ý cụ thé đến từng

chỉ tiết của sản pham nhu chat lượng, gia thành, kích cỡ, dé đưa ra quyết định lựa

chọn.

Vì vậy, là một trong những bài toán con quan trọng, Trích xuất bộ ba khía cạnh(ASTE) - bài toán chính trong đề tai này có thé được phát biéu như sau:

Trang 15

MỞ ĐẦU 3

e Đâu vào: Một câu bình luận, đánh giá của người dùng.

e Đâu ra: Bộ ba khía cạnh bao gôm từ xác định khía cạnh, từ xác định cảm

xúc và nhãn cảm xúc tương ứng.

Ví dụ:

e Đâu vào: Món mì này ngon quá, nhưng phục vụ lai quá tệ.

e Đầura: {(Món mì, ngon quá, Tích cực); (phục vụ, quá tệ, Tiêu cực)}

1.2 Thách thức

Hầu hết các bộ đữ liệu cho bài toán Phân tích cảm xúc theo khía cạnh hiện nayđều là tiếng Anh và bắt nguồn từ các cuộc thi trong hội nghị SemEval [1]-[3] với cáctiền xử ly cụ thé cho từng bai toán con Tuy nhiên, kích thước đữ liệu tương đối nhỏ(chỉ gồm hàng trăm câu) sẽ gây khó khăn cho việc so sánh, đánh giá các mô hình

khác nhau một cách khách quan, đặc biệt là các mô hình dùng mô hình ngôn ngữ

huân luyện san có hàng triệu tham sô.

Ngoài ra, Trích xuất bộ ba khía cạnh là một bài toán khá mới gần đây (được đề

xuất bởi Peng và công sự năm 2019) [7] nên sự phong phú của đữ liệu cho bài toánnày còn hạn chế Đặc biệt là đối với tiếng Việt thì các bộ đữ liệu chuẩn cho bài toán

này hiện nay van chưa được công bô phục vụ cho nghiên cứu.

Hơn nữa, Phân tích cảm xúc theo khía cạnh cung cấp nhiều bài toán con khác

nhau [4]-[7] với các cấp độ đầy thách thức Muốn thực hiện bài toán Trích xuất bộ

ba khía cạnh cảm xúc sao cho hiệu quả thì phải đảm bảo chất lượng các bài toán con

ở cấp độ thấp hơn như trích xuất bộ hai thành phần cảm xúc (AOPE [6][8]), chi tiết

Trang 16

MỞ ĐẦU 4

hơn nữa thì sẽ là các bài toán trích xuất từng thành phần cảm xúc (ATE [9], OTE

[10], ASC [11]).

1.3 Mục tiêu của khóa luận

Trong nghiên cứu này, sinh viên tiên hành tìm hiệu, cai đặt mô hình Trích xuât

bộ ba khía cạnh cảm xúc đê giải quyét bài toán ASTE với các mục tiêu dé ra sau:

e Mục tiêu 1: Thu thập và xây dựng bộ dữ liệu tiếng Việt cho bài toán Trích

xuất bộ ba khía cạnh cảm xúc

khía cạnh dựa trên các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt

e Mục tiêu 3: Xây dựng và tiền xử lý một bộ dữ liệu thuộc miền khác dé thử

nghiệm phương pháp Cross-domain transfer learning trên mô hình được cai

đặt.

e Mục tiêu 4: So sánh và phân tích độ hiệu quả của các mô hình ngôn ngữ

huấn luyện sẵn được sử dụng trong mô hình Trích xuất bộ ba khía cạnh cảmxúc rồi đưa ra phân tích, nhận xét chi tiết

e Mục tiêu 5: Xây dựng chương trình trên nền tang web dé minh họa mô hình

Trích xuất bộ ba khía cạnh cảm xúc trong thực tế.

1.4 Pham vi và đôi tượng nghiên cứu

1.4.1 Phạm vi nghiên cứu

Phạm vi nghiên cứu trong đề tài này là những bình luận của người dùng về các

sản phẩm điện tử thuộc bộ đữ liệu chuẩn tiếng Việt được công bồ tại Hội nghị VLSP

Trang 17

MỞ ĐẦU 5

2023 task 3! và bộ dữ liệu tiếng Trung Ele-COQE [12] sau khi được dịch sang tiếngViệt và thực hiện tiền xử lý Đối với nguyên cứu này, sinh viên thực hiện trên bàitoán con là Trích xuất bộ ba khía cạnh (Aspect Sentiment Triplet Extraction - ASTE)

1.4.2 Đối tượng nghiên cứu

Đầu tiên, một trong những đối tượng quan trọng trong nghiên cứu này là các bình luận, đánh giá của người dùng về các sản phẩm điện thoại.

Đối tượng nghiên cứu thứ hai của sinh viên là tìm hiểu và cài đặt mô hình trích

xuất bộ ba khía cạnh dựa trên 4 mô hình ngôn ngữ được huấn luyện sẵn cho tiếng

Việt gồm: PhoBERT-v1 [13], PhoBERT-v2 [13], viBERT [14], viBert4news? va 4

mô hình đa ngôn ngữ được huấn luyện sẵn gồm: XLM-R [15], XLM-Align [16],

InfoXLM [17], mBert.

Đối tượng nghiên cứu thứ ba là thu thập và tiền xử ly một bộ dit liệu miền khác

dé thử nghiệm phương pháp Cross-domain transfer learning

Cuối cùng, đối tượng nghiên cứu còn lại là đánh giá kết quả của các mô hìnhđược cai đặt rồi đưa ra nhận xét cụ thé Mô hình tốt nhất sẽ được dùng trong chươngtrình minh họa bai toán trích xuất bộ ba khía cạnh

1.5 Kêt qua của khóa luận

Sau khi tìm hiểu và nghiên cứu, sinh viên đã cài đặt thành công mô hình Trích

xuât bộ ba khía cạnh cảm xúc dựa trên các mô hình ngôn ngữ huân luyện san bao

gồm các mô hình đa ngôn ngữ XLM-R, XLM-Align, InfoXLM, mBERT và các mô

1 https://vlsp.org.vn/vlsp2023/eval/comon

? https:/huggingface.co/NIpHUST/vibert4news-base-cased

3 https://github.com/google-research/bert/blob/master/multilingual.md

Trang 18

tiêu đã được đê ra ở phân Mục tiêu của khóa luận.

xuất bộ ba khía cạnh cảm xúc

o Dé có thé đáp ứng được bộ dit liệu phù hợp cho bài toán Trích xuất

bộ ba khía cạnh cảm xúc, sinh viên thực hiện thu thập và sử dụng bộ

dữ liệu của cuộc thi VLSP 2023, cụ thé là dir liệu shared task thứ 3.Sinh viên tiến hành xây dựng và tiền xử lý dé thu được một bộ dữ liệu

phù hợp

e Muc tiêu 2: Nghiên cứu và thử nghiệm các phương pháp trích xuất bộ ba

khia cạnh dựa trên các mô hình ngôn ngữ huấn luyện sẵn cho tiếng Việt

o Sau khi có được bộ dữ liệu chuẩn, sinh viên tiễn hành cài đặt mô hình

Trích xuất bộ ba và sử dụng các mô hình ngôn ngữ huấn luyện sẵn để

mã hóa các câu đầu vào Độ hiệu quả mà mô hình được cai đặt mang

lại sẽ tùy thuộc vào mô hình ngôn ngữ huấn luyện sẵn được dùng

e Muc tiêu 3: Xây đựng va tiền xử ly một bộ đữ liệu thuộc miễn khác dé thử

nghiệm phương pháp Cross-domain transfer learning trên mô hình được cải

dat.

o Để hoàn thành mục tiêu này, sinh viên cũng thu thập một bộ dữ liệu

cho bài toán Trích xuất bộ năm thành phần so sánh gồm các đánh giá,

Trang 19

MỞ ĐẦU 7

nhận xét của khách hàng về miền sản phẩm công nghệ, điện tử Bộ

dữ liệu này là Ele-COQE có ngôn ngữ gốc là tiếng Trung Quốc đượcdịch sang tiếng Việt, thực hiện tiền xử lý giống như bộ VLSP Sau đó,

sinh viên thực hiện phương pháp học chuyền tiếp đa miền theo các

cách tiếp cận sau: Huan luyện mô hình trên miền nguồn và dự đoán

trên miền nguồn, huấn luyện mô hình trên miền nguồn và dự đoán

trên miền đích, huấn luyện mô hình trên hai miền và dự đoán trên cả

miền nguôn, miên dich.

e Mục tiêu 4: So sánh và phân tích độ hiệu quả của các mô hình ngôn ngữ

huấn luyện sẵn được sử dụng trong mô hình Trích xuất bộ ba khía cạnh cảm

xúc roi dua ra phân tích, nhận xét chỉ tiết.

©_ Với mục tiêu này, sinh viên đánh giá độ hiệu quả các mô hình dựa

trên các độ đo đề xuất Các kết quả được ghi nhận theo các chiến lượchọc chuyền tiếp đa miền Nhìn chung, PhoBERT-v2 là mô hình ngônngữ tốt nhất còn mBERT và viBert4news là 2 mô hình kém hiệu quảnhất trên hầu hết các trường hợp

Sinh viên cũng đánh giá độ hiệu quả của mô hình khi thực hiện trích

xuất các nhãn so sánh như bài toán phân loại đa lớp Kết quả là các

độ đo Micro Fl-score va Macro F1-score của mô hình có seed đạt kếtquả cao nhất Sinh viên nhận thấy rằng, mô hình dùng PhoBERT-v2vẫn là mô hình tốt nhất, các nhãn ít xuất hiện có số lượng dự đoánchính xác rất ít hoặc thậm chí là không có dự đoán chính xác nào bởi

mô hình Việc huấn luyện mô hình trên bộ dữ liệu kết hợp cũng phần

Trang 20

MỞ ĐẦU 8

nào giải quyết được van dé này, các nhãn ít xuất hiện khi nay có xácsuất dự đoán đúng được cải thiện hơn

e Mục tiêu 5: Xây dựng chương trình trên nên tảng web dé minh họa mô hình

Trích xuất bộ ba khía cạnh cảm xúc trong thực té

o Sử dung mô hình dat két qua cao nhất, sinh viên tạo ra một trang web

đơn giản cho người dùng có thể nhập câu cần trích xuất các bộ bathành phần vào Sau khi nhận câu đầu vào, hệ thống sau một hồi xử

lý sẽ trả về các bộ ba có trong câu Chương trình này sẽ minh họa việc

áp dụng hệ thống Phân tích cảm xúc theo khía cạnh trong thực tẾ, hay

cụ thê hơn là hệ thống Trích xuất bộ ba khía cạnh

1.6 Cấu trúc khóa luận

Khóa luận chia thành 6 chương với cau trúc được trình bày như sau:

e_ Chương 1: Mở đầu Trình bày lý do chọn nghiên cứu, đối tượng và phạm

vi nghiên cứu, mục tiêu cũng như kết quả đạt được

e Chương 2: Bối cảnh, các công trình liên quan Tổng quan, trình bày cơ

sở lý thuyết cũng như các công trình liên quan đến đề tài Sau đó, nêu ranhững vấn đề còn tồn đọng và hướng giải quyết được đề cập trong nghiên

cứu của sinh viên.

e Chương 3: Phương pháp Trình bày quá trình thu thập và tiền xử lý dữ

liệu, kiến trúc mô hình được sử dụng thực nghiệm trong nghiên cứu

e_ Chương 4: Thử nghiệm và kết quả Phân tích, thống kê số liệu về các bộ

dữ liệu sử dụng trong nghiên cứu Trình bày cách cài đặt và nhận xét kết quảgiữa các thử nghiệm và đánh giá hệ thống

Trang 21

MỞ ĐẦU 9

Chương 5: Chương trình minh họa Mô ta các công nghệ sử dụng va qua

trình cài đặt mô hình Trích xuất bộ ba khía cạnh cảm xúc để xây dựng chương trình minh họa trong thực tế cho người dùng.

Chương 6: Kết luận và hướng phát triển Tổng kết các kết quả quan trọng

đã đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và hướng

phát triển trong tương lai.

Trang 22

BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN 10

Chương 2.

BOI CANH VÀ CAC CONG TRÌNH LIÊN

QUAN

Dé tài nghiên cứu cua sinh viên liên quan đên các lĩnh vực sau:

e Phân tích cảm xúc theo khía cạnh: Cụ thê ở nghiên cứu nay là bài toán con

Trích xuất bộ ba khía cạnh (ASTE) trên dit liệu chứa các đánh giá của khách

hàng về những sản phâm điện tử, công nghệ.

e Các mô hình ngôn ngữ được huân luyện san.

Trong chương này, sinh viên tiến hành trình bày cơ sở lý thuyết cũng như công

trình liên quan đến dé tài Sau đó, nêu ra những van dé còn tồn đọng và hướng giảiquyết được đề cập trong nghiên cứu của sinh viên

2.1 Bài toán Phân tích cảm xúc theo khía cạnh

2.1.1 Tổng quan

Việc khám phá và thông hiểu quan điểm từ các nội dung trực tuyến do người

dùng tạo là rất quan trọng đối với vô số các ứng dụng thực tiễn Ví dụ, năm bắt được

suy nghĩ của khách hàng từ các bài đánh giá trên nền tảng Thương mại điện tử giúpcác doanh nghiệp cải thiện sản phẩm hoặc dịch vụ và thực hiện các chiến dịch tiếpthị khách hàng tốt hơn Tuy vậy, với lượng lớn nội dung dạng văn bản được tạo rabởi người dùng hằng ngày, việc xử lý thông tin theo cách thủ công sẽ rất tốn kém về

mặt thời gian, nhân lực và chi phi Vì vậy, thiết kế một hệ thống phân tích tự động

Trang 23

BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN ll

các cảm xúc, quan di¢m cua người dùng, khách hàng từ các văn ban phi cau trúc của

họ là điêu cân thiệt Nhu câu này dân đên sự ra đời của lĩnh vực Phân tích cảm xúc

và Khai thác quan điểm (Sentiment Analysis and Opinion Mining) [18]

Hon nhiéu thập ky qua, Phân tích cảm xúc là một bai toán nôi bat được đông

đảo cộng đồng các nhà nghiên cứu thuộc lĩnh vực NLP cả trong lẫn ngoài nước quan

tâm Nhiệm vụ chính của bài toán là phân tích và đánh giá bình luận/ý kiến của người

dùng thành các loại cảm xúc khác nhau: tích cực, tiêu cực hay trung lập Bên cạnh

đó, không chỉ là một van đề nồi bật nhận được nhiều quan tâm trong lĩnh vực NLP,

bài toán Phân tích cảm xúc còn được ứng dụng rộng rãi bởi các doanh nghiệp, cơ

quan, tô chức trong các ngành công nghiệp — dịch vụ như một công cụ có thé phân

tích, nhận biết thái độ của khách hàng về sản phâm và dịch vụ mà họ cung cấp một

cách tự động.

Các nghiên cứu về phân tích cảm xúc truyền thống chủ yếu thực hiện dự đoán

ở cấp độ câu hoặc cả tài liệu, xác định cảm xúc cho toàn bộ câu hoặc tài liệu[19][20][21] Dé đưa ra dự đoán, Phân tích cảm xúc truyền thống cho rằng một cảmxúc duy nhất được thé hiện cho một chủ đề duy nhất trong văn bản nhất định Việc

đó có thé làm mắt đi hoặc làm thay đôi các thông tin cốt lõi trong câu hoặc trong vănbản Vì vậy, xét về tính thực tiễn, Phân tích cảm xúc truyền thống có thể khó mà áp

dụng trong thực tế được Trong hoàn cảnh này, bài toán xác định các quan điểm và

cảm xúc ở cấp độ khía cạnh chỉ tiết hơn được gọi là Phân tích cảm xúc theo khía

cạnh, đã nhận được sự chú ý ngày càng tăng trong thập kỷ qua [22][23].

Trang 24

Nói chung, mục tiêu nghiên cứu chính của ABSA liên quan đên việc xác định

các thành phân cảm xúc ở các câp độ khía cạnh khác nhau, cụ thê là: từ chỉ khía

cạnh, danh mục khía cạnh, từ chỉ quan điêm và loại cảm xúc [4].

e Vi dụ: “Món mi này ngon qua.”

Trong câu ở ví dụ trên, các thành phần cảm xúc tương ứng với từ chỉ khía cạnh,danh mục khía cạnh, từ chỉ quan điểm và loại cảm xúc lần lượt là “Món mì”, “Food”,

“ngon quá” và “Tích cực”, trong đó “Món mi” và “ngon quá” được thể hiện rõ ràng

trong câu, còn “Food” và “Tích cực” là các nhãn thuộc danh mục hoặc lớp được xác định trước.

Món mi này ngon qua

Aspect term Món mi

Aspect Category Food

Opinion term ngon qua

HÌNH 2.1: Ví dụ về bốn thành phần cảm xúc chính trong ABSA

Những nghiên cứu ban đầu của Phân tích cảm xúc theo khía cạnh bắt đầu bằng

việc xác định từng thành phần cảm xúc riêng biệt Ví dụ, nhiệm vụ trích xuất từ chỉkhía cạnh [9] với mục đích là trích xuất tất cả các từ hoặc cụm từ chỉ khía cạnh được

đề cập trong văn ban đã cho; trong khi bai toán xác định loại cảm xúc [11] dự đoán

sự loại cảm xúc cho một khía cạnh cụ thể trong một câu Những bài toán Phân tích

Trang 25

cảm xúc theo khía cạnh chỉ xác định hoặc trích xuất đơn lẻ từng loại thành phần cảm

xúc được gọi là những bai toán ABSA don (Single ABSA) [24].

Tuy nhiên, việc trích xuất đơn lẻ một thành phần cảm xúc duy nhất vẫn chưathỏa mãn nhu cầu thấu hiểu quan điểm ở cấp độ khía cạnh chỉ tiết hơn, điều này đòihỏi không chỉ việc trích xuất nhiều thành phần cảm xúc mà còn phải tìm ra mối quan

hệ tương ứng và sự phụ thuộc giữa chúng Đề đạt được mục tiêu này, các bải toán Phân tích cảm xúc theo khía cạnh mới [4]-[7] và những bộ dữ liệu chuẩn tương ứng

đã được giới thiệu trong những năm gần đây dé thúc đây nghiên cứu về trích xuấtnhiều thành phần cảm xúc có liên quan với nhau Những bài toán này được gọi là

bài toán ABSA phức hợp (Compound ABSA) [24|, trái ngược với các bài toán

ABSA đơn chỉ liên quan đến một thành phần cảm xúc duy nhất Ví dụ: bài toán trích

xuất bộ đôi khía cạnh — cảm xúc [6][8] thực hiện trích xuất từ chỉ khía cạnh và từchỉ quan điểm liên quan của nó ở dang ghép, tức là trích xuất cặp (Món mì, ngonquá) từ câu ở ví dụ trên Từ đó cung cấp sự hiéu biết rõ ràng hơn về khía cạnh được

đề cập và cảm xúc được thé hiện tương ứng với khía cạnh đó Sau sự xuất hiện của

số công trình tiên phong, nhiều phương pháp khác nhau đã được đề xuất dé giải

quyết các bài toán ABSA phức hợp nhăm cho phép khai thác quan điểm ở những cấp

độ khía cạnh trong các tình huống khác nhau

Bên cạnh việc thiết kế các mô hình cụ thê cho các bài toán Phân tích cảm xúc

theo khía cạnh khác nhau, sự ra đời của các mô hình ngôn ngữ huấn luyện sẵn (PLM)như BERT [25] và RoBERTa [26] đã mang lại những cải tiến đáng kế cho một loạtcác bài toán ABSA trong những năm gần đây Với PLM làm nền tảng, khả năng kháiquát hóa và độ hiệu quả của các mô hình ABSA đã được cải thiện dang kể

Trang 26

2.1.2 Cac thành phần cảm xúc

Theo Liu [18], bài toán phân tích cảm xúc bao gồm hai thành phan chính: mụctiêu và cảm xúc Đối với ABSA, mục tiêu có thé được mô ta băng danh mục khía

cạnh c hoặc từ chỉ khía cạnh a, trong khi cảm xúc liên quan đến biéu hiện quan điểm,

tình cảm chỉ tiết — từ chỉ quan điểm o và định hướng tình cảm chung — loại cảm xúc

p Bốn thành phan cảm xúc này tạo nên các hướng nghiên cứu chính trong ABSA:

e Danh mục khía cạnh c xác định một khía cạnh duy nhất của một thực thé

và cho là khía cạnh đó thuộc một trong nhiều danh mục của tập C được định

nghĩa sẵn cho từng lĩnh vực cụ thể được quan tâm Ví dụ: “Food” và

“Service” có thé là các danh mục khía cạnh cho miền nha hàng

e Từ chỉ khía cạnh a là mục tiêu của cảm xúc được thé hiện rõ rang trong

câu hoặc văn bản, ví dụ: “Món mì” trong câu “Món mì này ngon quá” là từ

chỉ khía cạnh Khi khía cạnh được thé hiện một cách không rõ ràng (ví dụ:

“Nó được định giá quá cao!”), ta có thé biểu diễn từ chỉ khía cạnh trong ngữ

cạnh đặc biệt nay là “null”.

e Từ chỉ quan điểm o là cách diễn dat quan điểm dé bày tỏ cảm xúc đối với

mục tiêu liên quan Ví dụ: “ngon” là từ chỉ quan điểm trong ví dụ đang được

sử dụng “Món mì này ngon quá”.

e Loại cảm xúc p xác định định hướng cảm xúc đối với một danh mục khía

cạnh hoặc một từ chỉ khía cạnh nhất định, thường là tich cực, tiêu cực hoặc

trung lập.

Với bốn thành phần cảm xúc chính được định nghĩa như trên, Phân tích cảmxúc theo khía cạnh có thé được định nghĩa dựa trên các thành phần cảm xúc như sau:

Trang 27

Phân tích cảm xúc theo khía cạnh là quá trình xác định các thành phần cảm xúc đượcquan tâm trong câu hoặc văn bản, dù là một thành phần cảm xúc đơn lẻ hoặc nhiềuthành phần có quan hệ lẫn nhau

Do đó, Phân tích cảm xúc theo khía cạnh có thê chia nhỏ thành các bài toán conkhác nhau tùy theo các thành phần cảm xúc xét đến Tùy thuộc vào đầu ra mong

muốn là một thành phần cảm xúc đơn lẻ hay nhiều thành phần có quan hệ với nhau, chúng ta có thể phân loại các bài toán ABSA thành các bài toán ABSA đơn lẻ hoặc

các bài toán ABSA phức hợp, ví dụ: trích xuất từ chỉ khía cạnh là bài toán ABSAđơn lẻ với mục đích trích xuất tất cả các từ hoặc cụm từ chỉ khía cạnh của một câucho trước, trong khi nhiệm vụ trích xuất bộ đôi khía cạnh - cảm xúc là một bài toánABSA phức hợp vi nó trích xuất tất cả các cặp (a,ø) Từ quan điểm này, các bàitoán khác nhau của ABSA với mục đích trích xuất các thành phần cảm xúc liên quanđược thé hiện trong BANG 2.1 và mối quan hệ giữa chúng được thé hiện trong HÌNH

2.2.

Trang 28

BOI CẢNH VA CÁC CÔNG TRÌNH LIÊN QUAN l6

Bài toán Đầu vào | Ví dụ đầu vào* Đầu ra Ví dụ đầu ra

Aspect Term Extraction S câu {o} {Món mì, phục vu}

Aspect Category Detection S câu {c} {Food, phục vu}

Aspect Opinion Co- ˆ ¬- , 22+

Extraction Ss cdu {a}, {o} {Món mi, phục vu}, {ngon quá, quá tệ}

Target-oriented Opinion S, ay câu, Món mi 01 ngon qua

Words Extraction S, Az cdu, phuc vu 02 qua té

Aspect Sentiment S,Q4 câu, ngon qua Dị Tích cực

Classification S, Az cdu, qua té Pa Tiêu cực

Aspect-Opinion Pair “ › VN , ⁄+Â

Extraction Ss cau {(a,0)} (Món mi, ngon qua), (phục vu, qua tệ)

End-to-End ABSA S câu {(a, p)} (Món mi, Tích cực), (phục vu, Tiêu cực)

Aspect Category S câu {(c, p)} (Food, Tích cực), (Service, Tiêu cực)

Sentiment Analysis : , “ , ‘

Aspect Sentiment Triplet (Món mi, ngon quá, Tích cực)

Extraction s a! ((4,P,9)} (phục vu, quá tệ, Tiêu cực)

Aspect-Category- ˆ (Food, Món mì, Tích cực)

Sentiment Detection s {64 p)} (Service, phục vu, Tiêu cực)

Aspect Sentiment Quad s câu {(c,a,p,0)} (Food, Món mi, Tích cực, ngon quá)

Prediction (Service, phục vu, Tiêu cực, quá tệ)

* câu được sử dụng ở đây đê minh họa cho các bài toán trích xuât các thành phân

cảm xúc trong bảng trên là “Món mì này ngon qua, nhưng phục vu lại qua tỷ”

BANG 2.1: Các bai toán trong Phân tích cảm xúc theo khía cạnh với đầu vao, đầu

ra và ví dụ minh họa.

Trang 29

ACSD

HÌNH 2.2: Mối quan hệ giữa các thành phần cảm xúc, các bài toán ABSA đơn lẻ

và các bài toán ABSA phức hợp.

2.1.3 Bai toán trích xuất bộ ba khía cạnh cảm xúc (ASTE)

Trong đề tài này, sinh viên thực nghiệm trên một trong những bài toán con nồibật của ABSA - Trích xuất bộ ba khía cạnh cảm xúc [7] Với nhiệm vụ nhận diện ba

thành phần cảm xúc có trong câu là: từ chỉ khía cạnh, từ chỉ quan điểm và loại cảm

xúc Các thành phần này sẽ lần lượt trả lời cho ba câu hỏi tương ứng là: khía cạnh

được xác định là gi (What), tại sao khía cạnh đó lại có cảm xúc như vay (Why) và

cuối cùng là vì sao lại là cảm xúc đó (How) Ví dụ: Các bộ ba được trích xuất trongcâu tiếng Anh: “Waiters are very friendly and the pasta is simply average” có thé là(Waiters, friendly, positive) va (pasta, average, neutral) hoặc trong câu tiếng Việtsau: “Budi diễn tuy hay nhưng giá vé lại quá đắt” thì các bộ ba được trích xuất cóthé là (Buổi diễn, hay, tích cực) và (giá vé, quá dat, tiêu cực) Trích xuất bộ ba khíacạnh đã thu hút rất nhiều sự chú ý trong những năm gần đây Một loạt các phương

pháp với các mô hình khác nhau đã được đề xuất cho bài toán này

Trang 30

2.1.3.1 Tình hình nghiên cứu trên thế giới

Peng và cộng sự [7] giới thiệu bài toán ASTE đầu tiên và đề xuất phương pháp

dạng quy trình hai giai đoạn (two-stage pipeline) để trích xuất các bộ ba đồng thời

cũng xây dựng bộ dữ liệu chuẩn ASTE-Data-V2 cho bài toán này Trong mô hình

đó, đầu tiên, hai mô hình gán nhãn sẽ thực hiện trích xuất các khía cạnh với loại cảmxúc tương ứng và sau cùng là các từ chỉ quan điểm Vào giai đoạn thứ hai, một môhình phân lớp được sử dụng để tìm các cặp khía cạnh — quan điểm hợp lệ từ các khíacạnh và cảm xúc đã được dự đoán và cuối cùng ghép lại thành bộ ba Đề khai tháctốt hơn mối quan hệ của nhiều thành phần cảm xúc, nhiều phương pháp liền mạch

đã được đề xuất Zhang và cộng sự [27] trình bay một mô hình đa tác vụ bao gồmtrích xuất từ chỉ khía cạnh, từ chi quan điểm và phân tích cú pháp phụ thuộc theo

cảm xúc Sau đó, các quy tắc heuristic được áp dụng dé tạo ra bộ ba khía cạnh từ dự

đoán của các tác vụ trên Một hướng tiềm năng khác là thiết kế các hệ thống gán

nhãn liền mạch để trích xuất bộ ba trong một lượt [28][30]: mô hình JET do Xu và

cộng sự đề xuất [28] sử dụng hệ thống gan nhãn theo vị trí (position-aware tagging

scheme) như một cải tiến của hệ thong gan nhãn liền mạch trước đó của bài toán

E2E-ABSA [29] Tương tự, Wu và cộng sự [30] cải tiến hệ thống gán nhãn theo dạng

lưới (Grid Tagging Scheme - GTS) cho bài toán AOPE dé dự đoán loại cảm xúc Vì

các phương pháp trên cần dựa vào sự tương tác giữa các cặp khía cạnh nên có thểhoạt động không tốt khi các từ chỉ khía cạnh hoặc từ chỉ quan điểm là cả cụm thay

vì một từ đơn lẻ Nhận ra vẫn đề này, Xu và cộng sự [31] đề xuất một mô hình xét

đên các span đê làm rõ quan hệ giữa các khía cạnh với nhau.

Các phương pháp như Đọc hiểu tự động (MRC) [32][33] và Chuỗi sang chuỗi

(Seq2Seq) [34]-[37] cũng đã được áp dụng để giải quyết bài toán ASTE Mao và

Trang 31

cộng sự [33] mô hình hóa bài toán gốc thành hai bài toán MRC băng cách thiết kếcác truy vấn cụ thé: mô hình MRC đầu tiên được sử dụng dé trích xuất các từ chikhía cạnh, mô hình MRC thứ hai trích xuất các từ chỉ quan điểm tương ứng và loạicảm xúc Chen và cộng sự [32] tiếp cận vẫn đề theo cách tương tự khi họ sử dụng

một mô hình MRC hai chiều (bidirectional MRC framework): một chiều sẽ du đoán

từ chỉ khía cạnh sau đó đến từ chỉ quan điểm, chiều còn lại sẽ dự đoán từ chỉ quanđiểm trước sau đó là từ chỉ khía cạnh Phương pháp Seq2Seq cung cấp một giải pháp

tinh tế dé đưa ra dự đoán bộ ba khía cạnh trong một lượt Zhang và cộng sự [35] giải

quyết bài toán theo hướng phát sinh văn bản (text generation) và đề xuất hai mô hìnhdạng chú thích (annotation) cùng dang trích xuất (extracting) dé dự đoán bộ ba khíacạnh Yan và cộng sự [34], Hsu và cộng sự [38] lấy câu làm đầu vào và coi các vị trícon trỏ là mục tiêu Sau đó, để dự đoán từ chỉ khía cạnh (hoặc từ chỉ quan điểm),mục tiêu sẽ trở thành dự đoán vị trí bắt đầu và vị trí kết thúc của từ đang xét Fei và

cộng sự [37] trình bày một phương pháp giải mã không tự hồi quy

(non-autoregressive decoding) (NAG ASTE), mô hình hóa bài toán ASTE như một bài

toán trích xuất tập hợp bộ ba không có thứ tự

2.1.3.2 Tình hình nghiên cứu trong nước

Còn ở Việt Nam, hầu hết các bài toán ABSA đều thực hiện trích xuất các bộ đôithành phần cảm xúc hoặc đơn thành phần cảm xúc Theo Thìn và cộng sự [39], tính

đến hết năm 2022, chỉ có 31 bài viết về lĩnh vực nghiên cứu ABSA thuộc tiếng Việt,

trong đó có 7 bài được đăng trên tạp chí và 24 bài được đăng trong các hội nghị, hội

thảo.

Trang 32

12

1

2015 2016 2017 2018 2019 2020 2021 2022

YearsNumber of manuscripts = h n oo = c=] im - aay a ~ —a MS

HÌNH 2.3: Số lượng nghiên cứu xuất bản của lĩnh vực ABSA thuộc tiếng Việt

Như trong HÌNH 2.4, có thê thấy răng hầu hết các nghiên cứu trước đây đều

tập trung vao bài toán con Phát hiện danh mục khía cạnh (ACD) và bai toán Phan

tích cảm xúc danh mục khía cạnh (ACSA) hay còn gọi là Trích xuất bộ đôi khía cạnh

— loại cảm xúc (E2E - ABSA) như được đề cập ở trên Lý do chính là hầu hết các tập

dir liệu công khai chi được xây dựng cho hai tác vụ trên Hơn nữa, kích thước của

các bộ dữ liệu này rất lớn; khuyến khích việc nghiên cứu trên các bộ dữ liệu tiếng

Việt sẵn có do việc xây dựng dữ liệu riêng cho từng bài toán con trong ABSA thường

rat ton kém hoặc không khả thi do từng bài toán con đều yêu cầu chú thích (annotate)

ở mức chỉ tiết Vi vậy, bài toán ASTE vẫn chưa được quan tâm hay phổ biến ở Việt

Nam và chưa có bộ dữ liệu tiếng Việt nào cho bài toán này.

Trang 33

Number of manuscripts

Span Detection Eel]

Aspect Term Sentiment Analysis

Aspect Term Extraction [J

Aspect Sentiment Classification [J

HINH 2.4: Phan phối 31 bài báo được lựa chọn theo phạm vi bài toán con ABSA

2.2 Mô hình ngôn ngữ được huấn luyện sẵn

Các mô hình ABSA truyền thống thường sử dụng các phương pháp nhúng từđược huấn luyện sẵn (pre-trained word embeddings), ví dụ như Word2Vec [40] và

GloVe [41], chung với kiến trúc mạng thần kinh nhân tạo được thiết kế riêng cho

từng bài toán Dù đạt được hiệu quả cao hơn so với các mô hình dựa trên đặc trưng

(feature-based models) đời dau, sự cải tiễn của các mô hình đó dan dan dat đến điểm

nghẽn Một lý do là các phương pháp nhúng từ không phụ thuộc vào ngữ cảnh không

đủ dé nắm bắt được quan hệ phức tạp giữa các thành phần cảm xúc trong câu Ngoài

ra, kích thước của các bộ dữ liệu ABSA hiện tại không phù hợp cho việc huấn luyệnkiến trúc mạng phức tạp Trong những năm gần đây, các mô hình ngôn ngữ đượchuấn luyện sẵn (PLM) như BERT [25] và RoBERTa [26] đã mang lại những cải tiễnđáng ké cho một loạt tác vụ trong NLP Đương nhiên, chúng cũng được giới thiệu

Trang 34

để cải thiện hơn nữa hiệu suất của ABSA Không chỉ riêng tiếng Anh mà các môhình ngôn ngữ hiện nay đã phát triển hơn với sự xuất hiện của các mô hình đa ngônngữ như mBERT*, XLM-R [15] hoặc các mô hình ngôn ngữ dành riêng cho tiếng

Việt là viBERT [14], PhoBERT [13].

2.2.1 Cac mô hình đa ngôn ngữ được huấn luyện sẵn

không giám sát la: Masked language modeling (MLM) và Next sentence prediction

(NSP):

e MLM: Do BERT là mô hình hai chiều (bidirectional) nên mỗi từ sẽ gián

tiếp “tự nhìn thay chính nó” va mô hình có thé dự đoán ra từ mục tiêu mộtcach tầm thường trong bối cảnh một kiến trúc có nhiều lớp Dé mã hóa ngữcảnh hai chiều khi biểu diễn mỗi token, BERT ngẫu nhiên che đi một sốtoken và sử dụng các token lấy từ ngữ cảnh hai chiều để dự đoán các token

bị che 15% tổng số WordPiece token sẽ bị che đi trong mỗi chuỗi

e NSP: Các bài toán cụ thé quan trọng như Trả lời câu hỏi (Question

Answering) và Suy luận ngôn ngữ tự nhiên (Natural Language Inference)

déu dựa trên việc hiêu môi quan hệ giữa hai câu, điêu này không được mô

* https://github.com/google-research/bert/blob/master/multilingual.md

Trang 35

hình ngôn ngữ nắm bat trực tiếp Đề huấn luyện một mô hình hiểu được cácmối quan hệ trong câu, BERT sẽ dự đoán liệu hai câu có nằm kề nhau không

Cụ thể, khi chọn câu A và B cho mỗi ví dụ huấn luyện trước, 50% B là câuthực tế theo sau A (có nhãn là JsNext) và 50% là câu ngẫu nhiên từ kho ngữ

liệu (có nhãn là NotNext).

(se Mask LM on LM N /ấmu ER / SQuAD StarUEnd sa

JG) = Ln |) Lr: ) = 8 Le Ji) ee Gad T sep) IL.) so L1 }

BERT 2 oe xi: + BERT

Eien Le |[s=a|[=: Ì Z4 [ssslLs | L5 ][sas][s: ] ia

| ¬ Tt | rokN i) cis |[ mà} | wan || sen |[ m+ } [tm |

| |

Masked Sentence A + Masked Sentence B Question + Paragraph

Ảo Unlabeled Sentence A and B Pair > Question Answer Pair

e RoBERTa bỏ di bài toán NSP do nhóm tác giả nhận thấy rang hàm mất mát

của NSP phan nao đó làm tôn hại đến các tác vụ về sau (downstream task)

e RoBERTa sử dụng mã hóa Byte-Pair (BPE) [44] Thay vì các từ day đủ,

BPE sử dụng các thành phần con của từ (subwords units) được trích xuất

Trang 36

bằng cách thực hiện phân tích thống kê trên kho đữ liệu huấn luyện Radford

và cộng sự áp dụng BPE bang cách sử dung “byte” thay vi ký tự Unicodelàm thành phan con của từ [45] Một bộ từ điển thành phan con của từ biểudiễn theo byte (50K thành phan) vẫn có thể giúp mô hình mã hóa bat kỳ vănbản đầu vào nào mà không gặp phải token “không xác định” (“unknown”

token).

XLM [46] cũng dựa trên BERT nhưng áp dụng các phương pháp cải tiến choviệc huấn luyện trước các mô hình đa ngôn ngữ Kê từ đó, có nhiều phiên bản họctrước của XLM; phiên bản lớn nhất được huấn luyện trước trên 100 ngôn ngữ lấy từ

EES'E4 ES ay ee MENS 09 E/68.5 aye b= 93g r28¢EN42 a4 87 DSES ERE ES ESSER RANKED ES METRE SE 4 9 8

FERS AF SRS LR PHA LS AACR SASHES SESE SA SST ERE 56 ri 9 SRT ZL 2274 GH Hs GST RESCH SERSASS GPSS PRR PRE Es Aas

|" CommonCrawl # Wikipedia]

HINH 2.6: Kích thước dữ liệu các ngôn ngữ giữa 2 mô hình mBERT và XLM-R

Trang 37

2.2.1.3 InfoXLM

Các mô hình đa ngôn ngữ huấn luyện sẵn tốt nhất thường được xây dựng dựa

trên multilingual masked language modeling (MMLM) [15][25] va translation

language modeling (TLM) [46]:

e MMLM tối đa hoa thông tin quan hệ giữa các token bị che di (masked

tokens) và ngữ cảnh trong cùng một ngôn ngữ.

e TLM tối da hóa thông tin lẫn nhau giữa masked tokens và ngữ cảnh trong

đa ngôn ngữ, điều này ngầm đối chiếu các biéu diễn được mã hóa giữa các

ngôn ngữ khác nhau.

InfoXLM là một mô hình đa ngôn ngữ được huấn luyện sẵn trên cùng bộ dit

liệu với XLM-R Mô hình này sử dụng cả ba tác vụ gồm: MMLM, TLM và

cross-lingual contrast (XLCO) [17] với XLCO là một tác vụ huấn luyện trước (pre-training

task) được đề xuất bởi nhóm tác giả của InfoXLM dựa trên học đối lập (Contrastive

Learning).

Trong XLCO, mô hình học cách phân biệt ban dich của câu đầu vào với một

tập hợp các câu gây nhiễu Trong khi TLM tối đa hóa thông tin liên quan lẫn nhau

về chuỗi các token, XLCO tối đa hóa thông tin lẫn nhau ở cấp độ chuỗi giữa các cặp

câu được dịch.

2.2.1.4 XLM-Align

Trong các mô hình đa ngôn ngữ (cross-lingual language models), một số tác vụhuấn luyện trước (pre-training task) đã được đề xuất cho việc tận dụng ngữ liệu songsong (parallel corpora) dé học cách biéu diễn đa ngôn ngữ ở cấp độ câu tốt hơn [46]

Vi dụ: tác vụ translation language modeling thực hiện masked language modeling

Trang 38

trên các câu được dịch song song trong bộ ngữ liệu, ngầm nâng cao khả năng chuyềngiao giữa các ngôn ngữ Tuy nhiên, hầu hết các tác vụ huấn luyện trước đều học cáchđối chiếu từ (word alignment) ở cấp độ câu hoặc ngầm khuyến khích việc đối chiếuchéo ngôn ngữ (cross-lingual alignment), do đó tác vụ đối chiếu một cách rõ ràngchỉ tiết vẫn chưa được khám phá đầy đủ

Trong mô hình XLM-Align, nhóm tác giả giới thiệu một tác vụ đa ngôn ngữ

mới được huấn luyện trước gọi là denoising word alignment (DWA) Thay vì dựa

vào các công cụ căn chỉnh sử dụng riêng được đào tạo trên ngữ liệu song song

[48][49][50], XLM-Align tự gan nhãn các đối chiếu từ của mình Trong quá trìnhhuấn luyện sẵn (pre-training), mô hình luân phiên tự gán nhãn các đối chiếu từ và

thực hiện tác vụ DWA theo cách tối đa hóa kỳ vọng Cụ thê, trước tiên mô hình sẽ

tự gán nhãn các đối chiếu từ trong một cặp câu được dịch Sau đó, mô hình sử dụngtác vụ MLM để che đi ngẫu nhiên các token trong cặp câu song song, đây là đầu vàochứa nhiễu (perturbed) cho tác vụ DWA Đối với mỗi token bị che, mô hình sẽ họcmột mạng con trỏ (pointer network) để dự đoán sự gán nhãn đối chiếu trong ngôn

ngữ khác Quy trình gồm hai bước như trên sẽ được lặp lại đề nâng cao hiệu quả đối

chiêu song song cho huân luyện săn tác vụ đa ngôn ngữ.

Trang 39

Self-Labeled Word Alignments (PointerNetwork ~ '

| XLM-Align Encoder | | XLM-Align Encoder

Ree lHỚU., Hello world {# [M] [M] world

Translation Pair Noisy Translation Pair (Random Masks)

(a) Word alignment self-labeling (b) Denoising word alignment

HINH 2.7: Tổng quan về mô hình XLM-Align.

XLM-Align được huấn luyện sẵn với ba tác vụ gồm: MLM, TLM và DWA vừa

được mô ta ở trên Bộ ngữ liệu XLM-Align sử dụng bao gồm Wikipedia và CCNet

[47].

2.2.2 Các mô hình ngôn ngữ được huấn luyện sẵn cho

tiếng Việt

2.2.2.1 viBERT và viBert4news

viBERT là mô hình ngôn ngữ huấn luyện sẵn dành riêng cho tiếng Việt được

cải tiễn của mBERT với kiến trúc gồm 5 lớp (layer) như sau:

e Lớp dau vao với nhiệm vụ là mã hóa (encode) một chuôi các tokens là chuôi

con của câu đâu vào.

Trang 40

e Lớp BERT.

e Lớp RNN hai chiều với các đơn vị LSTM hoặc GRU.

e Lớp attention [51].

e Lớp tuyến tinh (linear)

Dữ liệu dùng dé huấn luyện viBERT là 10GB ngữ liệu từ các nguồn báo onlineViệt Nam Nguồn ngữ liệu này cũng được nhóm tác giả tiền xử lý như sau:

e Xóa các tin trùng lặp.

e Chỉ sử dụng các chữ cái hợp lệ của tiếng Việt

¢ Loại bỏ những câu quá ngắn (dưới 4 từ)

> vnexpress.net, dantri.com.vn, baomoi.com, zingnews.vn, vitalk.vn, etc.

Tiêu đề	Cải tiến phương pháp trích xuất bộ ba khía cạnh trong phân tích ý kiến bình luận của khách hàng
Tác giả	Chau Pham Quoc Hung
Người hướng dẫn	PGS.TS. Nguyen Luu Thuy Ngan, ThS. Dang Van Thìn
Trường học	Trường Đại học Công nghệ Thông tin, ĐHQG TP. Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	124
Dung lượng	61,77 MB