Khóa luận tốt nghiệp Công nghệ thông tin: Xây dựng bộ dữ liệu và các phương pháp cho bài toán phân tích cảm xúc tiếng Việt dựa trên các khía cạnh mục tiêu

Nguyễn Văn Kiệt Thời gian thực hiện: Từ ngày 24/2/2022 đến ngày 9/7/2022 Sinh viên thực hiện: Huỳnh Phan Minh Quang — 18520140 Lê Thị Hồng Oanh — 18521225 Nội dung đề tài:Mô ta chỉ tiết

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

HUYNH PHAN MINH QUANG - 18520140

LE THI HONG OANH - 18521225

KHOA LUAN TOT NGHIEP

XAY DUNG BO DU LIEU VA CAC PHUONG PHAP

CHO BAI TOAN PHAN TICH CAM XUC TIENG VIET

BUILDING DATASET AND METHOD FOR VIETNAMESE

TARGETED ASPECT - BASED SENTIMENT ANALYSIS

CU NHAN NGANH CONG NGHE THONG TIN

TP HO CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

HUYNH PHAN MINH QUANG - 18520140

LE THI HONG OANH - 18521225

KHOA LUAN TOT NGHIEP

XAY DUNG BO DU LIEU VA CAC PHUONG PHAP

CHO BÀI TOÁN PHAN TICH CAM XUC TIENG VIỆT

DUA TREN CAC KHIA CANH MUC TIEU

BUILDING DATASET AND METHOD FOR VIETNAMESE

TARGETED ASPECT - BASED SENTIMENT ANALYSIS

CU NHAN NGANH CONG NGHE THONG TIN

TP HO CHI MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

ĐẠI HOC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TÊN ĐÈ TÀI: XÂY DỰNG BỘ DỮ LIỆU VÀ CÁC PHƯƠNG PHÁP CHO BÀI

TOÁN PHAN TÍCH CAM XÚC TIENG VIỆT DỰA TREN CÁC KHÍA CẠNH

MỤC TIEU

TÊN ĐÈ TÀI (Tiếng Anh): BUILDING DATASET AND METHOD FOR

VIETNAMESE TARGETED ASPECT BASED SENTIMENT ANALYSIS

Cán bộ hướng dẫn: TS Nguyễn Lưu Thùy Ngân

ThS Nguyễn Văn Kiệt

Thời gian thực hiện: Từ ngày 24/2/2022 đến ngày 9/7/2022

Sinh viên thực hiện:

Huỳnh Phan Minh Quang — 18520140

Lê Thị Hồng Oanh — 18521225

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của dé tai)

e Mục tiêu, phạm vi và đối tượng của đề tài:

Xây dựng bộ dữ liệu cho bài toán phân tích cảm xúc dựa trên các khía cạnh mục

tiêu nhằm trích xuất thông tin về cảm xúc liên quan đến các thực thể được đề cập

đên trong các đánh giá và phản hôi băng tiêng Việt đôi với các sản phâm và dịch

Trang 5

vụ trên mạng Internet (DS @UIT-Tabsa) Các đánh giá và phản hồi thuộc các miền

nhà hàng, khách sạn và điện thoại.

Nghiên cứu các mô hình, kỹ thuật có liên quan đến bài toán trên sau đó thử nghiệm

trên bộ dữ liệu đã xây dựng được.

Phương pháp thực hiện:

Gán

nhãn

target

Hình 1 Quy trình nghiên cứu

Hình 1 cho thấy quy trình nghiên cứu bài toán phân tích cảm xúc của chúng tôi.Quy trình trên gồm hai giai đoạn chính: nghiên cứu phương pháp và xây dựng bộ

dữ liệu mới (DS @UIT-Tabsa), thực nghiệm bộ dữ liệu đã xây dựng được trên các

mô hình máy học và đánh giá kết quả

1 Xây dựng bộ dữ liệu DS@UIT-Tabsa

Chúng tôi lên kế hoạch tao ra một bộ dit liệu bao gồm khoảng 6000 điểm dữliệu Bộ dữ liệu của chúng tôi ước được kế thừa một phần từ bộ dữ liệu VABSA-

2018 và UIT-ViSD4SA.

e Bộ dữ liệu VLSP 2018 - Aspect Based Sentiment Analysis (VABSA-2018)

Dữ liệu thuộc bộ VABSA-2018 đã được tác gia xử ly gan nhãn cho bai toán

Aspect-based sentiment analysis.

Chúng tôi sẽ tiến hành trích 4000 mẫu dữ liệu thuộc bộ dé liệu trên Cácđiểm dữ liệu được trích ra thuộc 2 miền là Nhà hang (Restaurant) và Khách

Trang 6

sạn (Hotel), mỗi miền bao gồm khoảng 2000 diém dữ liệu Sau đó tiễn hànhgán target cho dữ liệu đã lấy được.

Các khía cạnh (aspects) được quan tâm trong mỗi miền bao gồm:

Các nhãn khía cạnh được tạo thành từ các cặp thuộc tính-thực thé

THUC THE THUOC TINH

Bộ dữ liệu UIT-ViSD4SA (Thanh, K N T et al., 2021)

Bộ dữ liệu nay được tác giả Kim và các cộng sự xây dựng cho bài toán Span

Detection for Aspect-Based Sentiment Analysis in Vietnamese trên mién ditliệu là đánh giá của người dùng về điện thoại di động

Trang 7

Chúng tôi sẽ tiễn hành trích 2000 mẫu dữ liệu thuộc bộ dữ liệu trên Các

điêm dữ liệu được trích ra thuộc miên điện thoại.

Các khía cạnh được quan tâm bao gồm:

Các điểm dữ liệu sau khi được lựa chọn sé được xử lý gán nhãn target Công

việc này sẽ được thực hiện đông thời bởi nhiêu người dựa trên hướng dân (guideline) của chúng tôi Dữ liệu sau khi được gán nhãn sẽ được tính toán chỉ

số đồng thuận theo công thức Kappa, những dữ liệu có chỉ số Kappa dưới 0.7

sẽ được xem xét và thông nhât lại một lân nữa.

(nhân viên, SERVICE

#GENERAL, positive)

Trang 8

được xử lý và đánh dấu theo đúng cấu trúc đã đặt ra.

2 Nghiên cứu phương pháp giải quyết bài toán và thực nghiệm các mô hình

trên bộ dữ liệu DS@UIT-Tabsa

2.1 Bài toán

Phân tích cảm xúc dựa trên các khía cạnh mục tiêu cho tiếng Việt Dựa theo

các nghiên cứu trước đây, bài toán này có thể được chia thành hai tác vụ con

Đầu tiên là xác định các khía cạnh cho đối tượng mục tiêu Tiếp theo là thực

hiện bài toán phân lớp để xác định cảm xúc từng khía cạnh đã được xác định.Đầu vào: một đoạn văn bản S với các đối tượng (target) đã được xác định, tập

các khía cạnh A và tập các nhãn cảm xúc P đã được định san

Đầu ra: xác định các bộ ý kiến (¢, a, p) có trong đoạn văn bản với / là đối tượng

đã được xác định trong S, p là nhãn thé hiện cảm xúc đối với khía cạnh a củađối tượng í

Ví dụ:

Trang 9

dân Giá một

bánh hơi cao so

với quê mình.

To cao như mình, phải ăn

tầm 55k mới no.

(QUALITY, GENERAL, PRICE, )

(Positive,

Neutral, Negative)

(Mon an, QUALITY,

Positive)

(Chỗ ngồi, GENERAL,

Neutral) (banh, PRICE, Negative)

Bang 2 Vi dụ về dau vào và đâu ra cho bài toán

2.2 Pipeline

Do thực hiện trên bô dữ liệu open-domain và các nhãn khía cạnh không có sự

tương đồng giữa các domain nên chúng tôi sẽ chia bài toán thành các subtask

và thực hiện theo pipeline như sau:

Hình 2 Pipline xử lí bài toán

2.3 Phương pháp tiếp cận

Đôi với bài toán này, chúng tôi sẽ tìm hiệu và cai đặt lại các mô hình baseline , CG-BERT và QACG-BERT (Wu et al., 2020) trên bộ dữ liệu DS @ UIT-Tabsa.

2.3.1 Baseline

Trang 10

Gồm hai mô hình: Logistic Regression và LSTM Chúng tôi sử dụng hàm

softmax đề phân lớp và chọn ra cảm xúc phù hợp cho từng khía cạnh của đốitượng (target) Mỗi mô hình sẽ sử dụng những phương pháp biéu diễn khác

nhau.

Logistic Regression (Saeidi et al., 2016)

Mask target entity n-gram: với mỗi đôi tượng, chúng tôi sẽ sử dung một

biểu diễn n-gram trên câu và thay (mask) đối tượng đó băng một token

đặc biệt.

Left-right n-gram: chúng tôi sẽ biéu diễn ngữ cảnh bên trái và bên phải

của đối tượng dưới dạng n-gram, sau đó nối chúng lại dé thu được một

vector duy nhất mang đặc trưng

Trang 11

Đây là các mô hình SOTA cho kết quả vượt trội CG-BERT được xây dựng

dựa trên mô mô hình Transformer sử dung softmax-attention dé nhận biếtngữ cảnh QACG-BERT là sự kết hợp giữa CG-BERT và Quasi-attentionnhằm giúp cho mô hình có được khả năng nhận biết ngữ cảnh tốt hơn Từ đó

đưa ra những dự đoán có tính chính xác cao.

2.4 Phương pháp đánh giá

Tương tự như đa sô các nghiên cứu về bài toán phân tích cảm xúc dựa trên

khía cạnh, chúng tôi sử dụng độ đo F1 và độ chính xác (accuracy) đề đánh giá

Trang 12

các mô hình Đồng thời, chúng tôi cũng thử sử dụng thêm độ đo AUC (Saeidi

et al., 2016).

Kết qua mong đợi ở đề tai

Đầu tiên và quan trọng nhất, chúng tôi mong muốn tạo ra được một bộ dữ liệu tiếngViệt gồm 6000 điểm dit liệu cho bài toán phân tích cảm xúc dựa trên các khía cạnhmục tiêu (DS @UIT-Tabsa) Chúng tôi cũng nhắm đến việc tận dụng được tối đahai bộ dữ liệu một cách hiệu quả nhất

Tiếp theo, chúng tôi hướng đến việc hiểu, cài đặt và trình bày lại một số phươngpháp (từ baseline cho đến SOTA) nổi bật trong giải quyết bài toán đã nêu trên bộ

dữ liệu vừa xây dựng được Đối với hướng tiếp cận theo các phương pháp baseline,chúng tôi đặt mục tiêu đạt được ó0% cho cả chỉ số F1 và độ chính xác Con số nàyđối với các phương pháp SOTA là 65% đến 70%

Cuối cùng là chỉ ra được các đặc điểm của bộ dữ liệu DS @UIT-Tabsa thông qua

việc phân tích hiệu suất của các mô hình đã thử nghiệm, từ đó năm được những hạn

chế đề có kế hoạch điều chỉnh phù hợp.

Tài liệu tham khảo

1 Saeidi, M., Bouchard, G., Liakata, M., & Riedel, S (2016) SentiHood:

Targeted Aspect Based Sentiment Analysis Dataset for Urban Neighbourhoods Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 1546-1556.

2 Wu, Z., & Ong, D (2020) Context-Guided BERT for Targeted

Aspect-Based Sentiment Analysis.

3 Orbach, M., Toledo-Ronen, O., Spector, A., Aharonov, R., Katz, Y., &

Slonim, N (2021) YASO: A Targeted Sentiment Analysis Evaluation

Dataset for Open-Domain Reviews Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 9154-9173.

Trang 13

4 Liu, Bing (2020) Sentiment Analysis: mining opinions, sentiments, and

emotions (2"TM edition), chapter 5-6.

5 Thanh, K.N T., Khai, S H., Huynh, P P., Luc, L P., Nguyen, D.-V., &

Van, K N (2021) Span Detection for Vietnamese Aspect-Based Sentiment Analysis Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation, 322-332.

Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh

viên tham gia)

e Mô tả tóm tat kê hoạch làm việc

Bảng 3 Timline sơ bộ công việc dự kiến

e Phan công công việc

Trang 14

Công việc Minh Quang | Hồng Oanh

Khảo sát đề tài, tìm hiểu các kiến thức có liên x x

quan từ các sách, bài báo khoa hoc.

Tìm hiểu cách sử dụng công cụ gán nhãn cho dữ x x

liệu.

Xử lí gán nhãn cho dữ liệu x x

Triển khai các mô hình thực nghiệm x x

Đánh giá, phân tích kết qua x x

Chỉnh sửa lai bộ dữ liệu X X

Viết báo cáo và báo cáo X x

Bang 4 Phân công công việc cho từng thành viên

Xác nhận của CBHD

(Ký tên và ghi rõ họ tên)

Nguyễn Lưu Thùy Ngân

Nguyễn Văn Kiệt

TP HCM, ngày 25 thắng 2 nắm 2022

Sinh viên

(Ký tên và ghi rõ họ tên)

Huỳnh Phan Minh Quang

Lê Thị Hồng Oanh

Trang 15

LOI CAM ON

Đầu tiên, chúng tôi xin gửi lời cam on chân thành đến Trường Dai học Công nghệ thông

tin — Đại học Quốc gia TP.HCM và Khoa Khoa học và Kỹ thuật Thông tin đã tạo điều

kiện cho phép chúng tôi thực hiện đề tài nghiên cứu này

Nhóm xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới ThS Nguyễn Văn Kiệt - giảng

viên hướng dẫn trực tiếp đã tận tinh chi bảo và tin tưởng nhóm chúng tôi trong suốt quá

trình thực hiện khóa luận Chân thành cảm ơn các Thầy Cô, các thành viên và các bạntrong nhóm nghiên cứu về Xử lí ngôn ngữ tự nhiên với những góp ý và giúp đỡ nhóm

trong thời gian qua.

Trong thời gian một học kỳ thực hiện khóa luận, chúng tôi đã vận dụng những kiến thứcnền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những kiến thứcmới Từ đó phát huy tối đa những gi đã tiếp thu được với mục đích hoàn thành khóa luậnmột cách tốt nhất Tuy nhiên, trong quá trình thực hiện không tránh khỏi những thiếusót Chính vì vậy, chúng tôi rất mong nhận được những sự nhận xét và góp ý từ phíaThay Cô về những thiếu sót và hướng phát triển cho đề tài nghiên cứu này Đó sẽ là cơ

sở giúp chúng tôi có thê tiếp tục thực hiện nghiên cứu trong tương lai

Nhóm tác giả xin chân thành cảm ơn.

Trang 16

MỤC LỤC

TOM TAT KHÓA LUẬN 252252 9SE+EE£EE£EESEEEEEEEEEEEEEEEEE21121111211 11 T1 cxeE I

CHUONG 1 MO ĐẢU -222©222222222EE2221222122212221 221127122111 crreg 2

1.4 Đối tượng và phạm vi nghiên cứu :- 2 +2+22+t2zxt2zx+zrxesrxeerxeerxee 6

LAD Đối tượng -©5-Scc E2 2112 1221211211211111111121111111 2112111 eye 6

I ÄNš am a 7

1.5 Cấu trúc khóa luận -c-cc- 5c EEEE9E1811 1 E151111111111111E1111 111111 xe, 7CHUONG 2 TONG QUAN 22-222 22t22E22EEESEEeEErErkerkrerrrrrrerrrrrvee 9

2.1 Công trình nghiên cứu liên quann 5 + E9 £ + E#vESsEseEeskeseeserske 9

2.1.1 Công trình nghiên cứu trên thé giới - 5£ £+£+E£+££+££+£z+£++rxerxered 9

2.1.2 Công trình nghiên cứu trong TƯỚC - -.- + + + + ++vEss+seeeseeseeses 13

2.2 Những van đề còn tỒn tại -:- 52-52 SE2E2211211211211211711111 71111 xe 13Care Sẽ 5> ÝƯc CỔ đẲ.- 14

CHUONG 3 XÂY DỰNG BỘ DU LIỆU - 22 ©25c22+c2cxcerxesrxeerseees 15

3.1 Mô tả chung về bộ đữ liệu - 22-22 ©2++22+22EEt2EE+SEE+2EEESEEEerkrerkrerrrrrrree l53.2 Thống kê về dit liệu 2 2 ©E+SE+EE£EE£EESEE211211221211271117171 71111 c0 15

3.2.1 Đặc điểm của dữ liệu ¿-©+¿©2z+EEt2EEEEEESEEE211271211271211 212 re 153.2.2 Một vài số liệu thống kê khác - + 2© £+£+E£+E++EE+rEerxerkerrerrerree 19

3.3 Quy trình xây dựng bộ dữ liệu -2+2+©5+22++Ex++ExeExrzrxerxrerxerxrerxeee 21

3.3.1 Thu thập và xem xét dữ lIỆU - 5 +21 +21 E +3 EE*EESeEEkererrrersrerrre 21

3.3.2 Xây dựng hướng dan gan nhãn 2- ¿2 + ++2++E+E++E+zEerxerxzxerxerxrrs 22

3.4 Phương pháp đánh giá độ đồng thuận 2 2S + E+£Ee£EerErEerreces 27

3.5 Quá trình gắn nhãn - - - s1 19v nh tư 29 3.6 Phân tích bộ dữ liệu -+- +¿+2£+EE++EE£EE2EEEEEEEEE21E22171E221 21.111 33 3.7 ca n6 A5111 39

Trang 17

CHUONG 4 CO SỞ LÍ THUYET THỰC NGHIỆM -cc-::-+z¿ 4I

4.1 Bài toán phân lỚP - - S- E1 3S 1111 TH HH HH ky 41

4.2 Mô hình phân lớp truyền thống 2 2 2 £+£+E++EE+EE+EEtEEeEErErrrrrerree 414.3 Biểu diễn từ (Word Embedding) - 2 ©++2++2++2zx2zxerxeerxesrxeersrees 42

AA BERT L2 L2 v2 TH 12212112111 44 4.5 RoBERTa và PhOBERT ssscsssesssesssessssesssesssesssesssecssecssecssesssesssesssesssessseeeases 45 4.6 MG hinh lién hop n.ääẽêẢ 46

AT K@tuainecccccccccscscsesssesssesssesssecsssessesssssssssssvessuesssscssecssecssscssecssecsseessessseessssseeesvess 50 CHUONG 5 CÀI ĐẶT, THUC NGHIEM VA ĐÁNH GIÁ - 51

hit ái 0 0n nà 51

5.2 Phương pháp đánh 91a - - c1 111911 9 11H 1t ng Hư ng nà riệt 52

5.3 Kết quả thực nghiệm và đánh giá - + 5£ £+2£++E+EE£EE£EEeEEerkerkerrerrecee 54

5.4 Phân tíchlỗi đz⁄Z⁄„s#t À 58

5.4.1 Ma trận nhằm lẫn - - + kề +9 SE EEEE111111111111111.11 111 cxe, 58

5.4.2 Lỗi theo từng khía cạnh ¿+ 5: 2+s£S++x+E£t+EeEErkeEerkererkrrerxrrererree 61

5.5 Đánh giá với bộ dữ liệu con của UIT-VOE 2 55c cScxsssssseresereeresee 68

5.6 Kt 1dr ẨẤ / sđẤ> VY “5ˆ 70

CHƯƠNG 6 TONG KET -2+-©c<SEE2EEEEEEEEEEECEErerkrrrkrree 72

6.1 Kết luận chung - 2-52-5252 SEEEE‡EEEEEEEEEEE21121121121121171 11717111 c0 72SÂN: o1 .ÔÒ 736.3 Hướng phat triỀn - 2-2 E+SE+SE£EEEEEEEEE2E1211211211211212171 111.1 c0 73TÀI LIEU THAM KHAO 2© 22SS£SE‡EEEEEEEEE2EEEEEE211271 7112712112121 74

PHU LỤC -2222¿+++222222111112111221121111112 12222020111 C12212 81

Trang 18

Các tác vụ trong bài toán TABSA LH HH kh 5

Ví dụ phân biệt giữa TSA, ABSA và TABSA Ăn HH 5 Minh họa mô hình CG-BERT và QACG-BERT [5] - -c +5 13

Thống kê đặc điểm trên 100 điểm dữ liệu ngẫu nhiên ở mỗi miễn 16Phân bố độ dài các bình luận theo từng miền 2: 52 5252252252 19Phân bố số lượng câu trong mỗi bình luận . - 5:52 52+52+sz25£2 20Thống kê số lượng khía cạnh mang cảm xúc trên từng đối tượng 35Thống kê nhãn cảm xúc trên mỗi miền dữ liệu . -:z 5+ 38Thống kê số lượng cặp đối tượng - khía cạnh có và không có cảm xúc 39

Minh họa mô hình Logistic regression với hàm kích hoạt softmax 42 Minh họa mô hình BERT [I2] - - - 6 5 +62 £++E£+v+eEEeeEsereeeseerreesse 4

Mô hình Logistic Regression kết hợp PhoBERT Embedding - 46Các tác vụ giải quyết bài toán TABSA ¿- 2-2 s+++£E+EEerEerkerxerrerree 41Tổng quan hướng xây dựng mô hình cho bài toán TABSA - - 47

Mô hình BERT-palr-QA - cv HH HH gu ng tr ưy 48

Mô hình BERT-palr-ÌNLÍ - - G5 12319112111 11911911191 1 ng ngư, 49

Bộ mã hóa (encoder) của Transformer - 5 + << + *+++*ssvvesssseeeerss 50

Ma trận nhằm lẫn trên miền Di Động - 2 2 2 SE+£E+£xzxzzezse2 58

Ma trận nhằm lẫn trên miền Nhà Hàng 2-2 52 +£sz+£x+zxzzcxeei 59

Ma trận nhằm lẫn trên miền Khách Sạn 2- + s+E+E++E+EeEEzEeEEzEzzszxsz 60Thống kê số lượng cặp đối tượng - khía cạnh có và không có cảm xúc trên top

4 khía cạnh được nhắc đến nhiều nhất 2-2 + + EEE£EE+E£EE+E£EEEeEeEEeEerxzxererxee 68

Trang 19

DANH MỤC BANG

Bang 2.1: Một số điểm dit liệu thuộc bộ Sentihood [I] - 5 52 s22: 11 Bang 2.2: Ví du về tạo câu Đổ tr vecceccecessessessesseessessessessessessessessesssssuesssssessessessesseeseeaees 12 Bang 3.1: Cac đặc trưng thường xuất hiện trong dữ liệu -2- 552 5225225: 17 Bang 3.2: Nguồn gốc trích xuất dữ liệu thô + 22 2+E£+E+2£E+EEeEEerEerkerrerreee 21

Bang 3.3: Bộ khía cạnh cua mién Di 9090:2777 22

Bang 3.4: Bảng thực thé - thuộc tính của miền Nhà Hàng . ¿52 5+: 23 Bảng 3.5: Bảng thực thể - thuộc tính của miền Khách Sạn -2- - 2 =szs+zszs2 25 Bang 3.6: Bang phân công gan nhãn 5 + +1 E91 2991 2111911 ng ng rưếc 30 Bảng 3.7: Bảng thống kê số đối tượng đã được đánh dấu trên bộ UIT-VOF 33

Bang 3.8: Tần suất của các khía cạnh mang cảm xúc trên miền Di Động 35

Bảng 3.9: Tân suât xuât hiện của các khía cạnh mang cảm xúc trên miên Nhà Hàng .36 Bảng 3.10: Tân suât xuât hiện của các khía cạnh mang cảm xúc trên miên Khách Sạn "MÔ CỔ Tỉ ằnẽẽ Cố (ốc 36 Bảng 5.1: Kết quả thực nghiệm trên miền Di Động -2¿ 2 52552 xz2z++cse2 54 Bảng 5.2: Kết quả thực nghiệm trên miền Nhà Hàng - + ¿2 5+5: 55 Bảng 5.3: Kết quả thực nghiệm trên miền Khách san o cscscssssesssessseesseesseessessseeeseees 56 Bảng 5.4: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Di Động . - 61

Bảng 5.5: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Nha Hàng - 62

Bảng 5.6: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Khách Sạn . - 63

Bảng 5.7: Một số dự đoán lỗi của mô hình BERT-pair-QA trên các miền dữ liéu .64

Bảng 5.8: Kết quả thực nghiệm trên top 4 khía cạnh xuất hiện nhiều nhắt 69

Trang 20

DANH MỤC TU VIET TAT

ABSA Aspect-Based Sentiment Analysis

BERT Bidirectional Encoder Representation from Transformer

CG-BERT Context-Guided BERT

LSTM Long-Short Term Memory

NLP Natural Language Processing

QACG-BERT Quasi-Attention Context-Guided BERT

RoBERTa Robustly Optimized BERT Pretraining Approach

SOTA State Of The Art

TABSA Targeted Aspect-Based Sentiment Analysis

TSA Targeted Sentiment Analysis

VLSP Vietnamese Language and Speech Processing

Trang 21

TOM TAT KHÓA LUẬN

Trên cơ sở của bài toán phân tích cảm xúc và các nghiên cứu có liên quan trong lĩnh vực

NLP, nghiên cứu của Marzieh Saeidi và các cộng sự [1] đã công bố một bộ đữ liệu tiếngAnh mang tên Sentihood và đề xuất thêm bài toán Targeted — Aspect Based SentimentAnalysis (TABSA) cùng với một số phương pháp trên bộ dit liệu này Có thé gọi bài

toán TABSA với cái tên Phân tích cảm xúc dựa trên khía cạnh mục tiêu hoặc Phân tích

cảm xúc của đối tượng dựa trên khia cạnh Từ bài toán và bộ đữ liệu nay, đã có nhiềucông trình nghiên cứu về cải tiến các phương pháp cho tác vụ TABSA với kết quả ngàycảng được cải thiện Tuy nhiên trong lĩnh vực NLP tại Việt Nam, những nghiên cứu về

đề tài này vân còn rât hạn chê.

Trong nghiên cứu lần này, nhóm chúng tôi tiễn hành xây dựng một bộ dữ liệu tiếng Việt

cho bài toán TABSA dựa trên 6.000 đánh giá thực tế của khách hàng trên 3 miền: di

động, nhà hàng và khách sạn Đây là một bộ dữ liệu sát với thực tế cả về hình thức vàchủ đề nên mang tính nghiên cứu lẫn ứng dụng cao Sau khi hoàn thành, chúng tôi tiếptục tiến hành phân tích và đánh giá bộ dữ liệu thông qua các phương pháp đã được công

bố và đạt được độ chính xác cao nhất 60,09% - khả quan so với mức độ phức tạp của nó.

Từ những kết quả đó, chúng tôi tìm và chỉ ra những ưu điểm và hạn chế của bộ dit liệu

dé làm cơ sở cải tiên cho những nghiên cứu tiép theo.

Trang 22

CHƯƠNG 1 MỞ ĐẦU

1.1 Đặt vấn đề

Trong thời dai phát triển của công nghệ thông tin và Internet, các website ra đờinhư là một giải pháp quảng bá và tiếp thị từ xa của các doanh nghiệp đến với kháchhàng Chi với vài từ khóa đơn giản về sản phẩm hay dịch vụ mà chúng ta quan tâm,

sẽ có hàng triệu kết quả tìm kiếm được hiển thị dé người dùng có thể tham khảo valựa chọn Không chỉ dừng lại ở đó, các trang web còn đóng vai trò cung cấp thôngtin theo chiều ngược lại từ khách hàng đến với doanh nghiệp Đó không gì khácchính là những phản hồi và bình luận của khách hàng nhằm bày tỏ thái độ và đánhgiá của bản thân đối với sản phẩm và dịch vụ mà họ đã sử dụng Thông qua đó,không chỉ doanh nghiệp có thé tiếp nhận thông tin dé cải thiện chất lượng cho sảnphẩm và dịch vụ của mình mà nó còn là nguồn thông tin tham khảo cho nhữngkhách hàng khác có ý định sử dụng những sản phẩm và dịch vụ này Chính vì điềunày, việc có thê thấu hiểu hành vi khách hàng thông qua ý kiến tích cực hay tiêucực về sản phẩm và dịch vụ được trải nghiệm là một trong những van dé quan trọngcho sự phát trién bền vững của doanh nghiệp

Việc phân tích cảm xúc trong văn bản, cụ thé là các phản hồi và bình luận đượcứng dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp,

thương hiệu, chất lượng sản phẩm; quản trị quan hệ khách hàng; phân tích nam bat

xu hướng thị trường; tham khảo chất lượng sản pham trước khi quyết định thanh

toán.

Tuy nhiên trong bối cảnh công nghệ số, vấn đề được đặt ra là số lượng phản hồicủa người dùng là một con số không lồ và không ngừng tăng lên theo thời gian,

chưa kể đến việc danh mục các sản phẩm và dịch vụ lại vô cùng đa dạng Một ví

dụ cụ thé có thé kế đến trang thương mại điện tử Amazon Tại đây mỗi ngày có

Trang 23

khoảng 1,6 triệu kiện hàng được gửi đi, với tỉ lệ phản hồi của người dùng đạt

khoảng 2% thi đã có đến 32.000 phản hồi cần được xem xét! Công việc này nếu

được tiến hành thủ công bởi con người thì sẽ tiêu tốn một lượng công lao độngkhông hề nhỏ Chính vì thế, một hệ thống có khả năng tự động nhận diện chính xác

cảm xúc trên bình luận là vô cùng cân thiệt đê tăng hiệu suat và giảm thiêu chi phí.

Nắm bắt nhu cầu thực tế đó, nhiều bài toán về phân loại cảm xúc đã được đặt ra cóthé ké đến như: Phân loại cảm xúc cho văn bản, phân loại cảm xúc cho văn bản dựatrên khía cạnh cụ thé và phân loại cảm xúc cho đối tượng cụ thể trong văn bản dựa

trên từng khía cạnh Song song với đó là các bộ dữ liệu thực nghiệm và các phương

pháp, mô hình từ học máy cơ bản cho đến học sâu để giải các bài toán trên đã đượccông bố với kết quả ngày càng được cải tiến Tuy nhiên, hầu hết những nghiên cứunổi bật trong SỐ ay đều được thực hiện trên tiếng Anh, đặc biệt đối với bài toán

Phân tích cảm xúc cua doi tượng dựa trên khía cạnh Do đó, chúng tôi quyết định

lựa chọn bài toán này đề thực hiện các nghiên cứu về dữ liệu va hiệu quả của cácphương pháp giải quyết đối với tiếng Việt Đây có thê được xem là một trong nhữngnghiên cứu đầu tiên về bài toán TABSA trên tiếng Việt

1.2 Giới thiệu bài toán

Bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh được đề cập lần đầutiên bởi Marzieh Saeidi và các cộng sự [1] Day là bài toán được phát triển lên từ

ba bài toán Phân tích cảm xúc cho văn bản, Phân tích cảm xúc dựa trên khía cạnh

và Phân tích cảm xúc của doi tượng.

e Đôi với bài toán Phán tích cảm xúc cho văn ban, dt liệu đầu vào là một đoạn

van ban trơn, dau ra chỉ đơn giản là nhãn cảm xúc chung cho toàn bộ nội dung

! Số liệu từ trang Market.us, 2020 Chưa tính đến việc nhiều đơn đặt hàng được vận chuyển cùng nhau hoặc được

giao bởi người bán không thông qua sàn giao dich Mỗi đơn cũng có thé có nhiều hon 1 sản phẩm.

Trang 24

của văn ban đó Nhãn cảm xúc có thé là {Tích cực; Tiêu cực} hoặc {Tích cực;Trung tính; Tiêu cực} hay chỉ tiết hơn có thé là thang đo mức độ cảm xúcchăng hạn như {-3; -2; -1; 0; 1; 2; 3}.

® O bài toán Phân tích cảm xúc dựa trên khía cạnh (Aspect based Sentiment

Analysyis - ABSA), với đầu vào là một đoạn văn ban, bài toán có thé được chiathành hai tác vụ chính bao gồm nhận diện tập khía cạnh mà văn bản đề cập vàphân loại cảm xúc cho từng khía cạnh đã nhận diện được Việc này nhằm trích

xuất được thông tin về cảm xúc một cách cụ thể hơn cho từng khía cạnh được

đề cập đến trong văn bản thay vì chỉ một cảm xúc chung cho toàn bộ văn bản.

e Ở bài toán Phân tích cảm xúc của đối tượng (Targeted Sentiment Analysis

-TSA), đầu vào là một đoạn văn ban cùng với một đối tượng cụ thể trong vănbản đó Đầu ra của bài toán là cảm xúc cho đối tượng được nhắm đến, nhãn

cảm xúc có thê tương tự các bài toán trên.

Với bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh, nó là sự kết hợp

giữa Phân tích cảm xúc dựa trên khía cạnh và Phân tích cam xúc cua đối tượng và

có thê được chia thành hai tác vụ (Hình 1.1) Thứ nhất là xác định xem từng khíacạnh cụ thể của đối tượng có mang cảm xúc hay không Thứ hai là phân loại cảm

xúc cho các cặp đối tượng — khía cạnh đã được xác định là có mang cảm xúc ở

phần trước Thông qua hai tác vụ này có thê đưa ra được thông tin cảm xúc cho các

khía cạnh của từng đối tượng cụ thé được nhắm đến trong văn bản

Trang 25

Tập khía cạnh = {Chất lượng thức ăn, Giá thức ăn, Vệ sinh, Dịch vụ}

Văn bản: * ngon, BAG dở nhưng giá rẻ hon may quán khác Quán cũng do quá làm tôi thất vọng thật sự.”

Cơm Tích cực == ^ *

Quán Tiêu cực Cơm Chất lượng thức ăn Tích cực

(a) Dau ra của bài toán TSA AS Chat lượng thức ăn Tiêu cực

` Giá thức ăn Tích cực

Quán Vệ sinh "Tiêu cực

Kinh Các cặp đối tượng - khía cạnh còn lại Không

Chất lượng thức ăn Trung tính (c) Dau ra của bài toán TABSA

Giá thức ăn Tích cực ca

Vệ sinh "Tiêu cực (b) Dau ra của bài toán ABSA

Hình 1.2: Ví dụ phân biệt giữa TSA, ABSA và TABSA.

Thông qua Hình 1.2 có thé thay rang bài toán Phân tích cảm xúc của đối tượng dựa

trên khia cạnh mang lại thông tin về cảm xúc một cách chỉ tiết và cụ thê nhất trong

số các bài toán ké trên Nó rất phù hợp dé áp dụng vào phân tích cảm xúc cho cácphản hồi về sản phẩm và dịch vụ khi một phản hồi có thé nhắc đến nhiều đối tượng

Trang 26

và ta cân biệt chính xác khía cạnh nao của đôi tượng đang được nhac đên với một

thái độ như thế nảo

1.3 Mục tiêu và đóng góp

1.3.1 Mục tiêu

Trong nghiên cứu này, chúng tôi đặt ra 3 mục tiêu chính cần thực hiện và hoàn

thành như sau:

- Thứ nhất: nghiên cứu va hoàn thành việc xây dựng bộ dữ liệu cho bai toán

phân tích cảm xúc của đối tượng dựa trên khía cạnh (TABSA)

¢ Thứ hai: thực nghiệm các mô hình SOTA trên bộ dữ liệu đã xây dựng, so sánh

và phân tích hiệu quả giữa các mô hình.

» Thứ ba: phân tích và chỉ ra những khó khăn và thách thức còn tồn tại ở bộ dit

liệu đôi với bài toán TABSA nói riêng lẫn tác vụ phân tích cảm xúc nói chung.

1.3.2 Đóng góp

Đóng góp chính của chúng tôi thông qua nghiên cứu này là một bộ dữ liệu tiếng

Việt miền mở được xây dựng từ 6.000 bình luận cho bài toán phân tích cảm xúc

của đối tượng dựa trên khía cạnh (TABSA)

Hon thé nữa, những kinh nghiệm được rút ra từ quá trình xây dựng dữ liệu cũngnhư đánh giá và phân tích kết quả trong nghiên cứu của chúng tôi có thé được sửdụng làm tư liệu tham khảo dé nâng cao hiệu suất và chất lượng của những nghiêncứu có liên quan trong thời gian tiếp theo

1.4 Đối tượng và phạm vỉ nghiên cứu

1.4.1 Đối tượng

Đôi tượng chính trong nghiên cứu của chúng tôi là các câu bình luận và phản hôi

của người dùng tại Việt Nam Những bình luận và phản hồi này được thu thập từ

Trang 27

nguồn dữ liệu thực tế trên các trang mạng về các thiết bị di động, nhà hàng và khách

sạn Đây là nguồn dữ liệu chứa đựng thông tin về thái độ và cảm xúc của nhữngkhách hang đã sử dụng sản phẩm và dich vụ Đó cũng chính là phan thông tin được

ca những nhà quản lí lẫn những người có ý định sử dụng sản phẩm va dich vụ quantâm đến vì nó phản ánh một cách khách quan và đa chiều về chất lượng của sảnphẩm và dịch vụ

1.4.2 Phạm vi

1.5.

Đối voi dữ liệu, chúng tôi tập trung vào nghiên cứu và xây dựng đối với đữ liệu

thuộc 3 lĩnh vực là điện thoại thông minh (Di Động), Nhà Hàng và Khách Sạn.

Phạm vi thông tin được quan tâm là thái độ hay cảm xúc của người dùng đối với

từng khía cạnh của các đối tượng cụ thé được dé cap dén trong cac điểm dữ liệu.

Đối với các phương pháp và mô hình dùng đề đánh giá bộ đữ liệu, chúng tôi nghiên

cứu và sử dụng những phương pháp và mô hình SOTA cho bài toán TABSA đã

được công bồ trên các tạp chí khoa học uy tín về lĩnh vực Xử lí ngôn ngữ tự nhiên

Câu trúc khóa luận

Phân còn lai của khóa luận này gôm 5 chương với các nội dung chính như sau:

o Chương 2: Tông quan

Trong chương nay, chúng tôi giới thiệu vê các hướng nghiên cứu đã có của các tác gia trong và ngoai nước liên quan đên đê tài; nêu những van dé còn tôn tại; chỉ ra những vân đê mà đê tải cân tập trung, nghiên cứu giải quyết.

o Chương 3: Xây dựng bộ dit liệu

Chương nay trình bày quá trình thu thập dir liệu, tiền xử lý va gan nhãn ditliệu Bên cạnh đó là các số liệu thống kê và nhận xét chỉ tiết về bộ đữ liệu do

chúng tôi thực hiện.

Trang 28

o_ Chương 4: Cơ sở lí thuyết thực nghiệm

Chúng tôi trình bày tóm lược ngắn gọn lại một số phương pháp và kỹ thuật từhọc máy đến học sâu có trong các mô hình sẽ được sử dụng để thực nghiệm

và đánh giá bộ dữ liệu.

o Chương 5: Cai đặt, thực nghiệm và đánh giá

Chương này trình bày các vấn đề liên quan đến việc cài đặt mô hình phân lớp

trên bộ dữ liệu của chúng tôi cho bài toán Phân tích cam xúc của đối tượngdựa trên khía cạnh Kết quả thực nghiệm cũng sẽ được đánh giá và phân tíchchỉ tiết tại đây

o Chương 6: Tong kết

Cuối cùng, chúng tôi tông kết những kết qua đã dat được thông qua đề tainghiên cứu này Chúng tôi cũng chỉ ra những hạn chế còn tổn tại và đề xuấtmột số hướng phát triển tiếp tục trong tương lai

Cuối mỗi chương, chúng tôi thêm vào phần kết luận nhăm tóm tắt lại những ý chính

cho từng vân đê.

Trang 29

CHƯƠNG 2 TÔNG QUAN

Phân tích cảm xúc nói chung và bài toán Phân tích cảm xúc của đối tượng dựa trên khía

cạnh nỗi riêng là một nhánh trong lĩnh vực Xử ly ngôn ngữ tự nhiên Tính ứng dụng thực

tế của bài toán này là rất cao, đặc biệt trong bối cảnh bùng né của Internet và cuộc cáchmang công nghiệp 4.0 Và dé có thé áp dụng vào thực tế, có rất nhiều công trình nghiêncứu khoa học có liên quan đến van đề này đã được thực hiện và công bó Sau đây, chúngtôi sẽ trình bày những công trình cốt lõi và nổi bật có liên quan đến bài toán này đồng

thời đưa ra nhận xét vê những vân đê còn tôn tai, đặt biệt đôi với ngôn ngữ tiêng Việt.

2.1 Công trình nghiên cứu liên quan

Xuất phát điểm là công trình nghiên cứu của MarzIeh Saeidi và các cộng sự [1] đã

phát biểu và đặt nền tảng cho việc ứng dụng các phương pháp học máy và học sâu

truyền thống vào bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh Từ

đó, thông qua những tiến bộ trong lĩnh vực xử lí ngôn ngữ tự nhiên, đã có nhiều kỹthuật cùng các phương pháp mới được áp dụng vào việc giải quyết bài toán này vớikết quả ngày càng được cải thiện

Sau day là một sô công trình nghiên cứu nôi bật, có liên quan đên các nhiệm vụ từ

xây dựng di liệu đến giải quyết bài toán

2.1.1 Công trình nghiên cứu trên thế giới

® Nghiên cứu cua Matan Orbach và các cộng sự [2]

Nghiên cứu nay tập trung vào quá trình thu thập, xây dựng và phân tích bộ dữ

liệu miền mở cho bài toán Phân tích cảm xúc đối tượng (TS4) mang tên YASO.Bên cạnh đó là các đánh giá về hiệu suất của 5 phương pháp SOTA trong việcgiải quyết bài toán này với kết quả độ đo F1 cao nhất cho toàn tác vụ đạt 55,3%

Cac tác giả cũng chi ra một hạn chê của bộ dir liệu và bài toán này là việc các

Trang 30

khía cạnh đã loại bỏ Điều này làm cho tính ứng dụng của chúng bị giảm đi vìtrong thực tế, cùng một đối tượng nhưng với những khía cạnh khác nhau thì có

thê sẽ có những cảm xúc khác nhau được mô tả.

Trong số những nội dung trên, chúng tôi tập trung nghiên cứu và học hỏi về kế

hoạch đã được các tác giả xây dựng cho quá trình gán nhãn dữ liệu Nhận thấy

bộ dữ liệu mà chúng tôi thực hiện có cách xây dựng khá tương đồng với bộ dữ

liệu YASO, điển hình là tác vụ đánh dấu các đối tượng mang cảm xúc, chúng

tôi quyết định tìm hiểu nghiên cứu này và dựa vào đó phát triển nên quy trình

gan nhãn hoàn chỉnh cho nghiên cứu của chúng tôi.

e Nghiên cứu cua Marzieh Saeidi và các cộng sự [1]

Day là nghiên cứu đã đê xuât và đặt nên móng cho các nghiên cứu sau này trong việc giải quyết bài toán Phân tích cảm xúc cua doi tượng dựa trên khía cạnh

(TABSA).

Trong công trình này, các tác giả đã nêu lên những hạn chế còn tồn tại trong haibài toán Phân tích cam xúc doi tượng (TSA) và Phân tích cảm xúc dựa trên khíacạnh (ABSA) trong việc trích xuất thông tin về cảm xúc một cách cụ thể nhất

Từ đó đề xuất bài toán TABSA dé giải quyết van đề nói trên

Tiếp theo, nghiên cứu đề xuất bộ dữ liệu dùng dé đánh giá mang tên Sentihood

— được thu thập từ những dé liệu có liên quan đến các vùng lân cận thành phố London trên nền tảng hỏi đáp của Yahoo!?, sau đó được xử lí va gan nhãn cho

bài toán mới.

? Yahoo! Hỏi đáp là nền tảng hỏi đáp trực tuyến phổ biến đã chính thức ngừng hoạt động từ 04/05/2021.

10

Trang 31

Bang 2.1: Một số điểm dữ liệu thuộc bộ Sentihood [1].

Bình luận Nhãn

The cheap parts of London are (Edmonton, price, Positive)

Edmonton and Tottenham and they (Tottenham, price, Positive)

are all poor, crime ridden and crowded (Edmonton, safety, Negative)

with immigrants (Tottenham, safety, Negative)

Hampstead area, more expensive but

P P (Hampstead, price, Negative)

bett lit f livi th i

a DCHOT quality oF living Wan in (Hampstead, live, Positive)

Tufnell Park

Cuối cùng, các tác giả cung cấp các phương pháp cho việc giải quyết bài toánbao gồm sử dụng hồi quy logistic và mô hình học sâu truyền thống LSTM vớikết quả cao nhất ở tác vụ nhận diện khía cạnh mang cảm xúc là 68,7% cho độ

đo F1 va tác vụ phân loại cam xúc là 87,5% cho độ chính xác.

e Nghiên cứu của Yukun Ma và các cộng sự [3]

Trong công trình này, các tác giả đã nghiên cứu đề xuất mô hình SenticLSTM

kết hợp với attention ở cấp độ đối tượng và cấp độ câu nhằm giải quyết bài toán

TABSA.

Kết quả đánh giá trên bộ dữ liệu Sentihood cho thấy sự cải thiện rõ rệt so với các mô hình đã được đề xuất trước đó với độ đo FI là 76,44% cho tác vụ nhận

diện khía cạnh và độ chính xác 76,47% cho tác vụ phân loại cảm xúc.

Ngoài ra, nghiên cứu cũng đề xuất sử dụng chỉ số đánh giá độ chính xác chặtchẽ (strict accuracy) nhằm đánh giá toàn diện hiệu suất của mô hình trên cả bàitoán Con số này cao nhất là 67,34% trong nghiên cứu này

e Nghiên cứu của Chisun và các cộng sự [4]

Trong nghiên cứu này, các tác giả sử dụng kết hợp mô hình pretrained (mô hình

11

Trang 32

đã được huấn luyện trước) — BERT với phương pháp tao câu phụ bao gồm câuhỏi (QA) hoặc câu bồ trợ (NLI) ở đầu vào dé tăng kha năng phân loại cho mô

Kết qua đánh gia của phương pháp này trên bộ dit liệu Sentihood đạt được SOTA

với độ đo FI là 87,9% cho tác vụ nhận diện khía cạnh và độ chính xác 93,6%

cho tác vụ phân loại cảm xúc Độ chính xác chặt chẽ cao nhất cũng đạt mức

79,8% cho thay hiệu quả vượt trội mà phương pháp nay mang lại

e Nghiên cứu của Zhengxuan Wu và các cộng sự [5]

Đây có thể được xem là công trình mang lại kết quả cao nhất trong việc giảiquyết bài toán TABSA tính đến thời điểm chúng tôi thực hiện nghiên cứu này.Kết quả cao nhất mà công trình này đạt được là 80,9% cho độ chính xác chặtchẽ, 89,7% cho độ đo F1 đối với tác vụ nhận diện khía cạnh và 93,8% cho độ

chính xác của tác vụ phân loại cảm xúc.

Dé đạt được kết quả trên, các tác giả đã đề xuất sử dụng mang tự nhận thức ngữ

cảnh (context-aware self attention network) [6] dé tinh chỉnh mô hình BERT

(CG-BERT) Ở các mạng tự chú ý (self-attention) thông thường như BERT, trọng số chú ý được tính toán bằng cách sử dụng các ma trận truy vấn và khóa

mà không xem xét đến ngữ cảnh Mô hình CG-BERT sửa đổi ma trận truy vẫn

và khóa bằng cách sử dụng ngữ cảnh, và sau đó tính toán trọng số chú ý như mô

12

Trang 33

tả trong hình (b) Mô hình QACG-BERT tính toán trọng số chú ý băng cách kếthợp như ở (c) với trọng số bán chú ý được tính toán bằng cách sử dụng một cặp

ma trận truy vân và ma trận khóa riêng biệt.

(a) BERT (b) CG-BERT Q

Hinh 2.1: Minh hoa mé hinh CG-BERT va QACG-BERT [5]

2.1.2 Công trình nghiên cứu trong nước

Cho đến thời điểm hiện tại, vẫn chưa có nghiên cứu nào có liên quan đến bai toán

Phân tích cảm xúc cho doi tượng dựa trên khía cạnh trên tiếng Việt hoặc được

công bố tại Việt Nam.

2.2 Những vấn đề còn tồn tại

Sau khi tìm hiéu và xem xét những nghiên cứu có liên quan dén bài toán, bên cạnh

những tiên bộ vé mặt kỹ thuật, chúng tôi nhận thay van còn tôn tại một sô vân đê

hạn chế chung như sau:

e Lẻsố lượng bộ đữ liệu

Hầu hết các nghiên cứu đều dùng chung bộ dữ liệu Sentihood dé đánh giá cho

phương pháp của mình Điều này tuy giúp cho việc so sánh hiệu suất giữa các

mô hình được công bằng và khách quan hơn, tuy nhiên không cung cấp được

cái nhìn toàn diện vi kêt quả chi gói gọn vào một bộ dữ liệu.

13

Trang 34

Như đã trình bày trước đó, bộ dữ liệu Sentihood chỉ đề cập đến các phản hồi

về địa điểm Văn bản trong mỗi điểm dữ liệu chỉ là câu đơn với độ dài và độphức tạp không cao, sé luong đối tượng và khía cạnh chỉ cố định lần lượt ở là

2 (locationT, location2) và 4 (safety, price, general, transit location).

e Vé tinh thực tế của dữ liệu

So với những đặc trưng của dir liệu về phản hồi và bình luận trực tuyến, dữ

liệu trong bộ Sentihood được xem là tương đối “sạch” vì hau như không mắclỗi về ngữ pháp và chính tả, số lượng ký tự đặc biệt hạn chế và không chứa

biêu tượng cảm xúc (emo]]).

e Vẻ ngôn ngữ của bộ dữ liệu

Bộ dữ liệu đang được sử dụng hiện tại (Sentihood) được xây dựng hoàn toàn

trên ngôn ngữ Anh Chưa có các bộ dit liệu cho bài toán TABSA trên tiếng

Việt.

2.3 Kết luận

Thông qua tìm hiểu những công trình nghiên cứu liên quan, chúng tôi rút ra đượcnhững điểm nỗi bật lẫn hạn chế của chúng trong việc phát triển và ứng dụng cácphương pháp giải quyết bài toán Phân tích cảm xúc của đối tượng dựa trên khíacạnh vào thực tế Từ đó, chúng tôi đặt ra mục tiêu ưu tiên là xây dựng một bộ dữliệu tiếng Việt cho bài toán này với những đặc điểm sát với thực tế Sau đó, chúngtôi sẽ tiến hành đánh giá lại các mô hình đã được công bố trên bộ dữ liệu mới dé

so sánh hiệu suất giữa chúng Nghiên cứu của chúng tôi sẽ mang lại một nguồn dit

liệu mới và cái nhìn tổng quan về các tác vụ giải quyết bài toán Phân tích cảm xúc

của đối tượng dựa trên khía cạnh trên tiếng Việt

14

Trang 35

CHƯƠNG 3 XÂY DỰNG BỘ DỮ LIỆU

Trong chương này, chúng tôi sẽ mô tả quá trình xây dựng bộ dữ liệu bình luận cho bài

toán TABSA cùng với các số liệu va phân tích chi tiết về dit liệu trước và sau khi được

gán nhãn.

3.1.

3.2.

Mô tả chung về bộ dữ liệu

Bộ dữ liệu chúng tôi xây dựng có tên là UIT-VOF (Vietnamese Online Feedbacks),

được xây dựng từ 6.000 phản hồi trên Internet thuộc 3 lĩnh vực: thiét bị di động (Di

Các số liệu này cũng sẽ được sử dụng trong quá trình phân tích đánh giá ở

CHƯƠNG 5 nhằm đưa ra những lý giải cho các kết quả thực nghiệm

3.2.1 Đặc điểm của dữ liệu

Dữ liệu chúng tôi sử dụng trong nghiên cứu này được lấy từ các phản hồi trên mạng

Internet Mỗi điểm dé liệu chỉ đơn thuần là một đoạn văn bản gom một hoặc nhiềucâu Đây đều là những phản hồi tiếng Việt của người dùng trong thực tế thông quanên tảng các trang web nên môt điều hiển nhiên là chúng mang những đặc điển

của dạng đữ liệu văn bản tiếng Việt trực tuyến Các đặc điểm nôi bat trong số đó

bao gồm: sai chính tả / từ vô nghĩa, viết tắt / viết theo ngôn ngữ mạng, viết khôngdấu, sử dụng ký tự đặc biệt (emoji, hashtag, )

15

Trang 36

Nhăm có cái nhìn tương đôi về sự phân bô của các đặc điêm kê trên trong dữ liệu

được sử dụng, chúng tôi đã tiến hành xem xét 100 phản hồi ngẫu nhiên đôi với mỗi

miễn của dữ liệu Kết quả thống kê được thê hiện ở Hình 3.1

& Dữ liệu có ký tự đặc biệt

@ Dữ liệu không dấu

dữ liệu có biểu tượng cảm xúc, hầu hết cũng được viết băng tiếng Việt có dấu Tuynhiên số lượng di liệu có xuất hiện lỗi chính tả và các từ viết tắt lại khá cao Cònlại những điểm đữ liệu thuộc miền khdch sạn, chúng tôi nhận thấy rằng chúng kháđơn giản và “sạch” khi số lượng dit liệu có lỗi chính ta, từ viết tắt biểu tượng cảm

xúc đều ở mức khá thấp Nhưng số lượng phản hồi được viết bằng tiếng Việt không

16

Trang 37

dâu lại khá cao.

Bên cạnh thống kê số lượng, chúng tôi cũng liệt kê cụ thể một số lỗi chính tả, cáchviết tắt và các ky tự đặc biệt thé hiện cảm xúc trong mỗi miền đữ liệu ở Bảng 3.1

Bang 3.1: Các đặc trưng thường xuất hiện trong dữ liệu.

Trang 38

/ gra giường e khách hang > kh e =))

® VỚI —> VS en”

Về các lỗi chính tả va các từ vô nghĩa, Bang 3.1 đã liệt kê ra những lỗi điển hình

dễ bắt gặp trong bộ dữ liệu, chúng bao gồm những nguyên nhân chính như sau:

e Sai do nhầm lẫn dau từ ngữ hoặc những từ phát âm gần giống nhau: củng,

bin, xac, gét,

e Sai do sơ xuat khi gõ văn bản: nói chun, neg, Iqji,

e Sai do sử dụng ngôn ngữ mang (hay còn gọi là “teencode”): zui, J, dzay,

e Sai do kéo dài từ dé mô phỏng âm thanh: lammmm, đóooooo,

Về các từ được viết tắt, phần lớn trong số đó đều sử dụng những cách viết tắt thôngdụng trên mạng ngày nay (bao gồm viết tắt của các danh từ riêng phô biến như “thé

18

Trang 39

giới di động” hay “điện máy xanh”) Do đó, các từ viết tắt có độ tương đồng cao

và được lặp đi lặp lại giống nhau ở nhiều điểm dữ liệu

Tương tự như từ viết tắt, các ký tự đặc biệt mang cảm xúc phần lớn cũng chỉ góigọn trong những ký tự đặc biệt quen thuộc trên các nền tảng mạng xã hội như

=)), :D, :), ^^, Tuy nhiên có một điểm đáng lưu ý là những phản hồi thuộc miền nhà hàng còn sử dụng thêm các emoji như 9 @.@ và chúng xuất hiện với

số lượng và tần suất khá dày đặc.

3.2.2 Một vài số liệu thống kê khác

Chúng tôi tiếp tục thực hiện thống kê các số liệu số liệu mà chúng tôi cho răng cóảnh hưởng đến quá trình gán nhãn dữ liệu cũng như xa hơn là đến hiệu suất phân

loại của các mô hình, bao gôm độ dài và sô câu trong mỗi phản hôi.

Hình 3.2: Phân bố độ dài các bình luận theo từng miễn

Vệ độ dài của các phản hôi, biêu đô ở Hình 3.2 đã mô tả một cách tông quan sự

19

Trang 40

phân bố độ dài của các điểm đữ liệu theo từng miền Chúng tôi nhận thấy rằng ở

cả 3 miền dữ liệu, độ dai của các phản hồi phần lớn đều nhỏ hon 500 ký tự Bên

cạnh đó cũng ton tại một vai phản hồi rất ngắn, ví dụ như “ngon.” hoặc “ôn” hoặc

khá dài (trên 500 ký tự) Đặc biệt ở miền dữ liệu nhà hàng và khách sạn, số lượngphản hồi dài khá nhiều, cá biệt có một vài phản hồi có độ dài lên từ hơn 1.500 đếngần 3.000 ký tự Và có thé nhận thấy rang độ dài trung bình của các phản hồi ởmiễn dữ liệu nhà hàng là lớn nhất

Di động Nhà hàng Khách sạn

Mmm licdu mm 2cau mmm 3cdu Mm 4cau BH 5Scau BH 610câu mmm >=11câu

Hình 3.3: Phân bô sô lượng câu trong môi bình luận.

Về số lượng câu trong trong mỗi điềm dữ liệu (Hình 3.3), số lượng phản hồi đượctạo thành từ 1 đến 4 câu chiếm đa số (từ 72,5% trở lên) ở cả 3 miền Tuy nhiên ởmiền dữ liệu về nhà hàng, số lượng phản hồi có số câu lớn (6 câu trở lên) lại có tỉ

lệ khá cao (19%) Cá biệt có một vài phản hồi có hơn 20 câu.

Thông qua hai số liệu phân tích trên, có thê thấy dữ liệu phản hồi ở cả 3 miền đều

có sự đa dạng về độ dai lẫn số lượng câu Tuy nhiên các phản hỏi trong miền di

động có tính ôn định và đêu hơn so với phản hôi ở miên đữ liệu nhà hàng và khách

sạn Ngoài ra, trong hai miên nay cũng tôn tại những điêm dữ liệu với các chỉ sô

20

Tiêu đề	Xây dựng bộ dữ liệu và các phương pháp cho bài toán phân tích cảm xúc tiếng Việt dựa trên các khía cạnh mục tiêu
Tác giả	Huỳnh Phan Minh Quang, Lê Thị Hồng Oanh
Người hướng dẫn	TS. Nguyễn Lưu Thùy Ngân, ThS. Nguyễn Văn Kiệt
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Công nghệ Thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	103
Dung lượng	47,29 MB