Nguyễn Văn Kiệt Thời gian thực hiện: Từ ngày 24/2/2022 đến ngày 9/7/2022 Sinh viên thực hiện: Huỳnh Phan Minh Quang — 18520140 Lê Thị Hồng Oanh — 18521225 Nội dung đề tài:Mô ta chỉ tiết
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
HUYNH PHAN MINH QUANG - 18520140
LE THI HONG OANH - 18521225
KHOA LUAN TOT NGHIEP
XAY DUNG BO DU LIEU VA CAC PHUONG PHAP
CHO BAI TOAN PHAN TICH CAM XUC TIENG VIET
BUILDING DATASET AND METHOD FOR VIETNAMESE
TARGETED ASPECT - BASED SENTIMENT ANALYSIS
CU NHAN NGANH CONG NGHE THONG TIN
TP HO CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
HUYNH PHAN MINH QUANG - 18520140
LE THI HONG OANH - 18521225
KHOA LUAN TOT NGHIEP
XAY DUNG BO DU LIEU VA CAC PHUONG PHAP
CHO BÀI TOÁN PHAN TICH CAM XUC TIENG VIỆT
DUA TREN CAC KHIA CANH MUC TIEU
BUILDING DATASET AND METHOD FOR VIETNAMESE
TARGETED ASPECT - BASED SENTIMENT ANALYSIS
CU NHAN NGANH CONG NGHE THONG TIN
TP HO CHI MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4ĐẠI HOC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TÊN ĐÈ TÀI: XÂY DỰNG BỘ DỮ LIỆU VÀ CÁC PHƯƠNG PHÁP CHO BÀI
TOÁN PHAN TÍCH CAM XÚC TIENG VIỆT DỰA TREN CÁC KHÍA CẠNH
MỤC TIEU
TÊN ĐÈ TÀI (Tiếng Anh): BUILDING DATASET AND METHOD FOR
VIETNAMESE TARGETED ASPECT BASED SENTIMENT ANALYSIS
Cán bộ hướng dẫn: TS Nguyễn Lưu Thùy Ngân
ThS Nguyễn Văn Kiệt
Thời gian thực hiện: Từ ngày 24/2/2022 đến ngày 9/7/2022
Sinh viên thực hiện:
Huỳnh Phan Minh Quang — 18520140
Lê Thị Hồng Oanh — 18521225
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của dé tai)
e Mục tiêu, phạm vi và đối tượng của đề tài:
Xây dựng bộ dữ liệu cho bài toán phân tích cảm xúc dựa trên các khía cạnh mục
tiêu nhằm trích xuất thông tin về cảm xúc liên quan đến các thực thể được đề cập
đên trong các đánh giá và phản hôi băng tiêng Việt đôi với các sản phâm và dịch
Trang 5vụ trên mạng Internet (DS @UIT-Tabsa) Các đánh giá và phản hồi thuộc các miền
nhà hàng, khách sạn và điện thoại.
Nghiên cứu các mô hình, kỹ thuật có liên quan đến bài toán trên sau đó thử nghiệm
trên bộ dữ liệu đã xây dựng được.
Phương pháp thực hiện:
Gán
nhãn
target
Hình 1 Quy trình nghiên cứu
Hình 1 cho thấy quy trình nghiên cứu bài toán phân tích cảm xúc của chúng tôi.Quy trình trên gồm hai giai đoạn chính: nghiên cứu phương pháp và xây dựng bộ
dữ liệu mới (DS @UIT-Tabsa), thực nghiệm bộ dữ liệu đã xây dựng được trên các
mô hình máy học và đánh giá kết quả
1 Xây dựng bộ dữ liệu DS@UIT-Tabsa
Chúng tôi lên kế hoạch tao ra một bộ dit liệu bao gồm khoảng 6000 điểm dữliệu Bộ dữ liệu của chúng tôi ước được kế thừa một phần từ bộ dữ liệu VABSA-
2018 và UIT-ViSD4SA.
e Bộ dữ liệu VLSP 2018 - Aspect Based Sentiment Analysis (VABSA-2018)
Dữ liệu thuộc bộ VABSA-2018 đã được tác gia xử ly gan nhãn cho bai toán
Aspect-based sentiment analysis.
Chúng tôi sẽ tiến hành trích 4000 mẫu dữ liệu thuộc bộ dé liệu trên Cácđiểm dữ liệu được trích ra thuộc 2 miền là Nhà hang (Restaurant) và Khách
Trang 6sạn (Hotel), mỗi miền bao gồm khoảng 2000 diém dữ liệu Sau đó tiễn hànhgán target cho dữ liệu đã lấy được.
Các khía cạnh (aspects) được quan tâm trong mỗi miền bao gồm:
Các nhãn khía cạnh được tạo thành từ các cặp thuộc tính-thực thé
THUC THE THUOC TINH
Bộ dữ liệu UIT-ViSD4SA (Thanh, K N T et al., 2021)
Bộ dữ liệu nay được tác giả Kim và các cộng sự xây dựng cho bài toán Span
Detection for Aspect-Based Sentiment Analysis in Vietnamese trên mién ditliệu là đánh giá của người dùng về điện thoại di động
Trang 7Chúng tôi sẽ tiễn hành trích 2000 mẫu dữ liệu thuộc bộ dữ liệu trên Các
điêm dữ liệu được trích ra thuộc miên điện thoại.
Các khía cạnh được quan tâm bao gồm:
Các điểm dữ liệu sau khi được lựa chọn sé được xử lý gán nhãn target Công
việc này sẽ được thực hiện đông thời bởi nhiêu người dựa trên hướng dân (guideline) của chúng tôi Dữ liệu sau khi được gán nhãn sẽ được tính toán chỉ
số đồng thuận theo công thức Kappa, những dữ liệu có chỉ số Kappa dưới 0.7
sẽ được xem xét và thông nhât lại một lân nữa.
(nhân viên, SERVICE
#GENERAL, positive)
Trang 8được xử lý và đánh dấu theo đúng cấu trúc đã đặt ra.
2 Nghiên cứu phương pháp giải quyết bài toán và thực nghiệm các mô hình
trên bộ dữ liệu DS@UIT-Tabsa
2.1 Bài toán
Phân tích cảm xúc dựa trên các khía cạnh mục tiêu cho tiếng Việt Dựa theo
các nghiên cứu trước đây, bài toán này có thể được chia thành hai tác vụ con
Đầu tiên là xác định các khía cạnh cho đối tượng mục tiêu Tiếp theo là thực
hiện bài toán phân lớp để xác định cảm xúc từng khía cạnh đã được xác định.Đầu vào: một đoạn văn bản S với các đối tượng (target) đã được xác định, tập
các khía cạnh A và tập các nhãn cảm xúc P đã được định san
Đầu ra: xác định các bộ ý kiến (¢, a, p) có trong đoạn văn bản với / là đối tượng
đã được xác định trong S, p là nhãn thé hiện cảm xúc đối với khía cạnh a củađối tượng í
Ví dụ:
Trang 9dân Giá một
bánh hơi cao so
với quê mình.
To cao như mình, phải ăn
tầm 55k mới no.
(QUALITY, GENERAL, PRICE, )
(Positive,
Neutral, Negative)
(Mon an, QUALITY,
Positive)
(Chỗ ngồi, GENERAL,
Neutral) (banh, PRICE, Negative)
Bang 2 Vi dụ về dau vào và đâu ra cho bài toán
2.2 Pipeline
Do thực hiện trên bô dữ liệu open-domain và các nhãn khía cạnh không có sự
tương đồng giữa các domain nên chúng tôi sẽ chia bài toán thành các subtask
và thực hiện theo pipeline như sau:
Hình 2 Pipline xử lí bài toán
2.3 Phương pháp tiếp cận
Đôi với bài toán này, chúng tôi sẽ tìm hiệu và cai đặt lại các mô hình baseline , CG-BERT và QACG-BERT (Wu et al., 2020) trên bộ dữ liệu DS @ UIT-Tabsa.
2.3.1 Baseline
Trang 10Gồm hai mô hình: Logistic Regression và LSTM Chúng tôi sử dụng hàm
softmax đề phân lớp và chọn ra cảm xúc phù hợp cho từng khía cạnh của đốitượng (target) Mỗi mô hình sẽ sử dụng những phương pháp biéu diễn khác
nhau.
Logistic Regression (Saeidi et al., 2016)
Mask target entity n-gram: với mỗi đôi tượng, chúng tôi sẽ sử dung một
biểu diễn n-gram trên câu và thay (mask) đối tượng đó băng một token
đặc biệt.
Left-right n-gram: chúng tôi sẽ biéu diễn ngữ cảnh bên trái và bên phải
của đối tượng dưới dạng n-gram, sau đó nối chúng lại dé thu được một
vector duy nhất mang đặc trưng
Trang 11Đây là các mô hình SOTA cho kết quả vượt trội CG-BERT được xây dựng
dựa trên mô mô hình Transformer sử dung softmax-attention dé nhận biếtngữ cảnh QACG-BERT là sự kết hợp giữa CG-BERT và Quasi-attentionnhằm giúp cho mô hình có được khả năng nhận biết ngữ cảnh tốt hơn Từ đó
đưa ra những dự đoán có tính chính xác cao.
2.4 Phương pháp đánh giá
Tương tự như đa sô các nghiên cứu về bài toán phân tích cảm xúc dựa trên
khía cạnh, chúng tôi sử dụng độ đo F1 và độ chính xác (accuracy) đề đánh giá
Trang 12các mô hình Đồng thời, chúng tôi cũng thử sử dụng thêm độ đo AUC (Saeidi
et al., 2016).
Kết qua mong đợi ở đề tai
Đầu tiên và quan trọng nhất, chúng tôi mong muốn tạo ra được một bộ dữ liệu tiếngViệt gồm 6000 điểm dit liệu cho bài toán phân tích cảm xúc dựa trên các khía cạnhmục tiêu (DS @UIT-Tabsa) Chúng tôi cũng nhắm đến việc tận dụng được tối đahai bộ dữ liệu một cách hiệu quả nhất
Tiếp theo, chúng tôi hướng đến việc hiểu, cài đặt và trình bày lại một số phươngpháp (từ baseline cho đến SOTA) nổi bật trong giải quyết bài toán đã nêu trên bộ
dữ liệu vừa xây dựng được Đối với hướng tiếp cận theo các phương pháp baseline,chúng tôi đặt mục tiêu đạt được ó0% cho cả chỉ số F1 và độ chính xác Con số nàyđối với các phương pháp SOTA là 65% đến 70%
Cuối cùng là chỉ ra được các đặc điểm của bộ dữ liệu DS @UIT-Tabsa thông qua
việc phân tích hiệu suất của các mô hình đã thử nghiệm, từ đó năm được những hạn
chế đề có kế hoạch điều chỉnh phù hợp.
Tài liệu tham khảo
1 Saeidi, M., Bouchard, G., Liakata, M., & Riedel, S (2016) SentiHood:
Targeted Aspect Based Sentiment Analysis Dataset for Urban Neighbourhoods Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 1546-1556.
2 Wu, Z., & Ong, D (2020) Context-Guided BERT for Targeted
Aspect-Based Sentiment Analysis.
3 Orbach, M., Toledo-Ronen, O., Spector, A., Aharonov, R., Katz, Y., &
Slonim, N (2021) YASO: A Targeted Sentiment Analysis Evaluation
Dataset for Open-Domain Reviews Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 9154-9173.
Trang 134 Liu, Bing (2020) Sentiment Analysis: mining opinions, sentiments, and
emotions (2"TM edition), chapter 5-6.
5 Thanh, K.N T., Khai, S H., Huynh, P P., Luc, L P., Nguyen, D.-V., &
Van, K N (2021) Span Detection for Vietnamese Aspect-Based Sentiment Analysis Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation, 322-332.
Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh
viên tham gia)
e Mô tả tóm tat kê hoạch làm việc
Bảng 3 Timline sơ bộ công việc dự kiến
e Phan công công việc
Trang 14Công việc Minh Quang | Hồng Oanh
Khảo sát đề tài, tìm hiểu các kiến thức có liên x x
quan từ các sách, bài báo khoa hoc.
Tìm hiểu cách sử dụng công cụ gán nhãn cho dữ x x
liệu.
Xử lí gán nhãn cho dữ liệu x x
Triển khai các mô hình thực nghiệm x x
Đánh giá, phân tích kết qua x x
Chỉnh sửa lai bộ dữ liệu X X
Viết báo cáo và báo cáo X x
Bang 4 Phân công công việc cho từng thành viên
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
Nguyễn Lưu Thùy Ngân
Nguyễn Văn Kiệt
TP HCM, ngày 25 thắng 2 nắm 2022
Sinh viên
(Ký tên và ghi rõ họ tên)
Huỳnh Phan Minh Quang
Lê Thị Hồng Oanh
Trang 15LOI CAM ON
Đầu tiên, chúng tôi xin gửi lời cam on chân thành đến Trường Dai học Công nghệ thông
tin — Đại học Quốc gia TP.HCM và Khoa Khoa học và Kỹ thuật Thông tin đã tạo điều
kiện cho phép chúng tôi thực hiện đề tài nghiên cứu này
Nhóm xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới ThS Nguyễn Văn Kiệt - giảng
viên hướng dẫn trực tiếp đã tận tinh chi bảo và tin tưởng nhóm chúng tôi trong suốt quá
trình thực hiện khóa luận Chân thành cảm ơn các Thầy Cô, các thành viên và các bạntrong nhóm nghiên cứu về Xử lí ngôn ngữ tự nhiên với những góp ý và giúp đỡ nhóm
trong thời gian qua.
Trong thời gian một học kỳ thực hiện khóa luận, chúng tôi đã vận dụng những kiến thứcnền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những kiến thứcmới Từ đó phát huy tối đa những gi đã tiếp thu được với mục đích hoàn thành khóa luậnmột cách tốt nhất Tuy nhiên, trong quá trình thực hiện không tránh khỏi những thiếusót Chính vì vậy, chúng tôi rất mong nhận được những sự nhận xét và góp ý từ phíaThay Cô về những thiếu sót và hướng phát triển cho đề tài nghiên cứu này Đó sẽ là cơ
sở giúp chúng tôi có thê tiếp tục thực hiện nghiên cứu trong tương lai
Nhóm tác giả xin chân thành cảm ơn.
Trang 16MỤC LỤC
TOM TAT KHÓA LUẬN 252252 9SE+EE£EE£EESEEEEEEEEEEEEEEEEE21121111211 11 T1 cxeE I
CHUONG 1 MO ĐẢU -222©222222222EE2221222122212221 221127122111 crreg 2
1.4 Đối tượng và phạm vi nghiên cứu :- 2 +2+22+t2zxt2zx+zrxesrxeerxeerxee 6
LAD Đối tượng -©5-Scc E2 2112 1221211211211111111121111111 2112111 eye 6
I ÄNš am a 7
1.5 Cấu trúc khóa luận -c-cc- 5c EEEE9E1811 1 E151111111111111E1111 111111 xe, 7CHUONG 2 TONG QUAN 22-222 22t22E22EEESEEeEErErkerkrerrrrrrerrrrrvee 9
2.1 Công trình nghiên cứu liên quann 5 + E9 £ + E#vESsEseEeskeseeserske 9
2.1.1 Công trình nghiên cứu trên thé giới - 5£ £+£+E£+££+££+£z+£++rxerxered 9
2.1.2 Công trình nghiên cứu trong TƯỚC - -.- + + + + ++vEss+seeeseeseeses 13
2.2 Những van đề còn tỒn tại -:- 52-52 SE2E2211211211211211711111 71111 xe 13Care Sẽ 5> ÝƯc CỔ đẲ.- 14
CHUONG 3 XÂY DỰNG BỘ DU LIỆU - 22 ©25c22+c2cxcerxesrxeerseees 15
3.1 Mô tả chung về bộ đữ liệu - 22-22 ©2++22+22EEt2EE+SEE+2EEESEEEerkrerkrerrrrrrree l53.2 Thống kê về dit liệu 2 2 ©E+SE+EE£EE£EESEE211211221211271117171 71111 c0 15
3.2.1 Đặc điểm của dữ liệu ¿-©+¿©2z+EEt2EEEEEESEEE211271211271211 212 re 153.2.2 Một vài số liệu thống kê khác - + 2© £+£+E£+E++EE+rEerxerkerrerrerree 19
3.3 Quy trình xây dựng bộ dữ liệu -2+2+©5+22++Ex++ExeExrzrxerxrerxerxrerxeee 21
3.3.1 Thu thập và xem xét dữ lIỆU - 5 +21 +21 E +3 EE*EESeEEkererrrersrerrre 21
3.3.2 Xây dựng hướng dan gan nhãn 2- ¿2 + ++2++E+E++E+zEerxerxzxerxerxrrs 22
3.4 Phương pháp đánh giá độ đồng thuận 2 2S + E+£Ee£EerErEerreces 27
3.5 Quá trình gắn nhãn - - - s1 19v nh tư 29 3.6 Phân tích bộ dữ liệu -+- +¿+2£+EE++EE£EE2EEEEEEEEE21E22171E221 21.111 33 3.7 ca n6 A5111 39
Trang 17CHUONG 4 CO SỞ LÍ THUYET THỰC NGHIỆM -cc-::-+z¿ 4I
4.1 Bài toán phân lỚP - - S- E1 3S 1111 TH HH HH ky 41
4.2 Mô hình phân lớp truyền thống 2 2 2 £+£+E++EE+EE+EEtEEeEErErrrrrerree 414.3 Biểu diễn từ (Word Embedding) - 2 ©++2++2++2zx2zxerxeerxesrxeersrees 42
AA BERT L2 L2 v2 TH 12212112111 44 4.5 RoBERTa và PhOBERT ssscsssesssesssessssesssesssesssesssecssecssecssesssesssesssesssessseeeases 45 4.6 MG hinh lién hop n.ääẽêẢ 46
AT K@tuainecccccccccscscsesssesssesssesssecsssessesssssssssssvessuesssscssecssecssscssecssecsseessessseessssseeesvess 50 CHUONG 5 CÀI ĐẶT, THUC NGHIEM VA ĐÁNH GIÁ - 51
hit ái 0 0n nà 51
5.2 Phương pháp đánh 91a - - c1 111911 9 11H 1t ng Hư ng nà riệt 52
5.3 Kết quả thực nghiệm và đánh giá - + 5£ £+2£++E+EE£EE£EEeEEerkerkerrerrecee 54
5.4 Phân tíchlỗi đz⁄Z⁄„s#t À 58
5.4.1 Ma trận nhằm lẫn - - + kề +9 SE EEEE111111111111111.11 111 cxe, 58
5.4.2 Lỗi theo từng khía cạnh ¿+ 5: 2+s£S++x+E£t+EeEErkeEerkererkrrerxrrererree 61
5.5 Đánh giá với bộ dữ liệu con của UIT-VOE 2 55c cScxsssssseresereeresee 68
5.6 Kt 1dr ẨẤ / sđẤ> VY “5ˆ 70
CHƯƠNG 6 TONG KET -2+-©c<SEE2EEEEEEEEEEECEErerkrrrkrree 72
6.1 Kết luận chung - 2-52-5252 SEEEE‡EEEEEEEEEEE21121121121121171 11717111 c0 72SÂN: o1 .ÔÒ 736.3 Hướng phat triỀn - 2-2 E+SE+SE£EEEEEEEEE2E1211211211211212171 111.1 c0 73TÀI LIEU THAM KHAO 2© 22SS£SE‡EEEEEEEEE2EEEEEE211271 7112712112121 74
PHU LỤC -2222¿+++222222111112111221121111112 12222020111 C12212 81
Trang 18Các tác vụ trong bài toán TABSA LH HH kh 5
Ví dụ phân biệt giữa TSA, ABSA và TABSA Ăn HH 5 Minh họa mô hình CG-BERT và QACG-BERT [5] - -c +5 13
Thống kê đặc điểm trên 100 điểm dữ liệu ngẫu nhiên ở mỗi miễn 16Phân bố độ dài các bình luận theo từng miền 2: 52 5252252252 19Phân bố số lượng câu trong mỗi bình luận . - 5:52 52+52+sz25£2 20Thống kê số lượng khía cạnh mang cảm xúc trên từng đối tượng 35Thống kê nhãn cảm xúc trên mỗi miền dữ liệu . -:z 5+ 38Thống kê số lượng cặp đối tượng - khía cạnh có và không có cảm xúc 39
Minh họa mô hình Logistic regression với hàm kích hoạt softmax 42 Minh họa mô hình BERT [I2] - - - 6 5 +62 £++E£+v+eEEeeEsereeeseerreesse 4
Mô hình Logistic Regression kết hợp PhoBERT Embedding - 46Các tác vụ giải quyết bài toán TABSA ¿- 2-2 s+++£E+EEerEerkerxerrerree 41Tổng quan hướng xây dựng mô hình cho bài toán TABSA - - 47
Mô hình BERT-palr-QA - cv HH HH gu ng tr ưy 48
Mô hình BERT-palr-ÌNLÍ - - G5 12319112111 11911911191 1 ng ngư, 49
Bộ mã hóa (encoder) của Transformer - 5 + << + *+++*ssvvesssseeeerss 50
Ma trận nhằm lẫn trên miền Di Động - 2 2 2 SE+£E+£xzxzzezse2 58
Ma trận nhằm lẫn trên miền Nhà Hàng 2-2 52 +£sz+£x+zxzzcxeei 59
Ma trận nhằm lẫn trên miền Khách Sạn 2- + s+E+E++E+EeEEzEeEEzEzzszxsz 60Thống kê số lượng cặp đối tượng - khía cạnh có và không có cảm xúc trên top
4 khía cạnh được nhắc đến nhiều nhất 2-2 + + EEE£EE+E£EE+E£EEEeEeEEeEerxzxererxee 68
Trang 19DANH MỤC BANG
Bang 2.1: Một số điểm dit liệu thuộc bộ Sentihood [I] - 5 52 s22: 11 Bang 2.2: Ví du về tạo câu Đổ tr vecceccecessessessesseessessessessessessessessesssssuesssssessessessesseeseeaees 12 Bang 3.1: Cac đặc trưng thường xuất hiện trong dữ liệu -2- 552 5225225: 17 Bang 3.2: Nguồn gốc trích xuất dữ liệu thô + 22 2+E£+E+2£E+EEeEEerEerkerrerreee 21
Bang 3.3: Bộ khía cạnh cua mién Di 9090:2777 22
Bang 3.4: Bảng thực thé - thuộc tính của miền Nhà Hàng . ¿52 5+: 23 Bảng 3.5: Bảng thực thể - thuộc tính của miền Khách Sạn -2- - 2 =szs+zszs2 25 Bang 3.6: Bang phân công gan nhãn 5 + +1 E91 2991 2111911 ng ng rưếc 30 Bảng 3.7: Bảng thống kê số đối tượng đã được đánh dấu trên bộ UIT-VOF 33
Bang 3.8: Tần suất của các khía cạnh mang cảm xúc trên miền Di Động 35
Bảng 3.9: Tân suât xuât hiện của các khía cạnh mang cảm xúc trên miên Nhà Hàng .36 Bảng 3.10: Tân suât xuât hiện của các khía cạnh mang cảm xúc trên miên Khách Sạn "MÔ CỔ Tỉ ằnẽẽ Cố (ốc 36 Bảng 5.1: Kết quả thực nghiệm trên miền Di Động -2¿ 2 52552 xz2z++cse2 54 Bảng 5.2: Kết quả thực nghiệm trên miền Nhà Hàng - + ¿2 5+5: 55 Bảng 5.3: Kết quả thực nghiệm trên miền Khách san o cscscssssesssessseesseesseessessseeeseees 56 Bảng 5.4: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Di Động . - 61
Bảng 5.5: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Nha Hàng - 62
Bảng 5.6: Thống kê tỉ lệ lỗi theo khía cạnh trên miền Khách Sạn . - 63
Bảng 5.7: Một số dự đoán lỗi của mô hình BERT-pair-QA trên các miền dữ liéu .64
Bảng 5.8: Kết quả thực nghiệm trên top 4 khía cạnh xuất hiện nhiều nhắt 69
Trang 20DANH MỤC TU VIET TAT
ABSA Aspect-Based Sentiment Analysis
BERT Bidirectional Encoder Representation from Transformer
CG-BERT Context-Guided BERT
LSTM Long-Short Term Memory
NLP Natural Language Processing
QACG-BERT Quasi-Attention Context-Guided BERT
RoBERTa Robustly Optimized BERT Pretraining Approach
SOTA State Of The Art
TABSA Targeted Aspect-Based Sentiment Analysis
TSA Targeted Sentiment Analysis
VLSP Vietnamese Language and Speech Processing
Trang 21TOM TAT KHÓA LUẬN
Trên cơ sở của bài toán phân tích cảm xúc và các nghiên cứu có liên quan trong lĩnh vực
NLP, nghiên cứu của Marzieh Saeidi và các cộng sự [1] đã công bố một bộ đữ liệu tiếngAnh mang tên Sentihood và đề xuất thêm bài toán Targeted — Aspect Based SentimentAnalysis (TABSA) cùng với một số phương pháp trên bộ dit liệu này Có thé gọi bài
toán TABSA với cái tên Phân tích cảm xúc dựa trên khía cạnh mục tiêu hoặc Phân tích
cảm xúc của đối tượng dựa trên khia cạnh Từ bài toán và bộ đữ liệu nay, đã có nhiềucông trình nghiên cứu về cải tiến các phương pháp cho tác vụ TABSA với kết quả ngàycảng được cải thiện Tuy nhiên trong lĩnh vực NLP tại Việt Nam, những nghiên cứu về
đề tài này vân còn rât hạn chê.
Trong nghiên cứu lần này, nhóm chúng tôi tiễn hành xây dựng một bộ dữ liệu tiếng Việt
cho bài toán TABSA dựa trên 6.000 đánh giá thực tế của khách hàng trên 3 miền: di
động, nhà hàng và khách sạn Đây là một bộ dữ liệu sát với thực tế cả về hình thức vàchủ đề nên mang tính nghiên cứu lẫn ứng dụng cao Sau khi hoàn thành, chúng tôi tiếptục tiến hành phân tích và đánh giá bộ dữ liệu thông qua các phương pháp đã được công
bố và đạt được độ chính xác cao nhất 60,09% - khả quan so với mức độ phức tạp của nó.
Từ những kết quả đó, chúng tôi tìm và chỉ ra những ưu điểm và hạn chế của bộ dit liệu
dé làm cơ sở cải tiên cho những nghiên cứu tiép theo.
Trang 22CHƯƠNG 1 MỞ ĐẦU
1.1 Đặt vấn đề
Trong thời dai phát triển của công nghệ thông tin và Internet, các website ra đờinhư là một giải pháp quảng bá và tiếp thị từ xa của các doanh nghiệp đến với kháchhàng Chi với vài từ khóa đơn giản về sản phẩm hay dịch vụ mà chúng ta quan tâm,
sẽ có hàng triệu kết quả tìm kiếm được hiển thị dé người dùng có thể tham khảo valựa chọn Không chỉ dừng lại ở đó, các trang web còn đóng vai trò cung cấp thôngtin theo chiều ngược lại từ khách hàng đến với doanh nghiệp Đó không gì khácchính là những phản hồi và bình luận của khách hàng nhằm bày tỏ thái độ và đánhgiá của bản thân đối với sản phẩm và dịch vụ mà họ đã sử dụng Thông qua đó,không chỉ doanh nghiệp có thé tiếp nhận thông tin dé cải thiện chất lượng cho sảnphẩm và dịch vụ của mình mà nó còn là nguồn thông tin tham khảo cho nhữngkhách hàng khác có ý định sử dụng những sản phẩm và dịch vụ này Chính vì điềunày, việc có thê thấu hiểu hành vi khách hàng thông qua ý kiến tích cực hay tiêucực về sản phẩm và dịch vụ được trải nghiệm là một trong những van dé quan trọngcho sự phát trién bền vững của doanh nghiệp
Việc phân tích cảm xúc trong văn bản, cụ thé là các phản hồi và bình luận đượcứng dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp,
thương hiệu, chất lượng sản phẩm; quản trị quan hệ khách hàng; phân tích nam bat
xu hướng thị trường; tham khảo chất lượng sản pham trước khi quyết định thanh
toán.
Tuy nhiên trong bối cảnh công nghệ số, vấn đề được đặt ra là số lượng phản hồicủa người dùng là một con số không lồ và không ngừng tăng lên theo thời gian,
chưa kể đến việc danh mục các sản phẩm và dịch vụ lại vô cùng đa dạng Một ví
dụ cụ thé có thé kế đến trang thương mại điện tử Amazon Tại đây mỗi ngày có
Trang 23khoảng 1,6 triệu kiện hàng được gửi đi, với tỉ lệ phản hồi của người dùng đạt
khoảng 2% thi đã có đến 32.000 phản hồi cần được xem xét! Công việc này nếu
được tiến hành thủ công bởi con người thì sẽ tiêu tốn một lượng công lao độngkhông hề nhỏ Chính vì thế, một hệ thống có khả năng tự động nhận diện chính xác
cảm xúc trên bình luận là vô cùng cân thiệt đê tăng hiệu suat và giảm thiêu chi phí.
Nắm bắt nhu cầu thực tế đó, nhiều bài toán về phân loại cảm xúc đã được đặt ra cóthé ké đến như: Phân loại cảm xúc cho văn bản, phân loại cảm xúc cho văn bản dựatrên khía cạnh cụ thé và phân loại cảm xúc cho đối tượng cụ thể trong văn bản dựa
trên từng khía cạnh Song song với đó là các bộ dữ liệu thực nghiệm và các phương
pháp, mô hình từ học máy cơ bản cho đến học sâu để giải các bài toán trên đã đượccông bố với kết quả ngày càng được cải tiến Tuy nhiên, hầu hết những nghiên cứunổi bật trong SỐ ay đều được thực hiện trên tiếng Anh, đặc biệt đối với bài toán
Phân tích cảm xúc cua doi tượng dựa trên khía cạnh Do đó, chúng tôi quyết định
lựa chọn bài toán này đề thực hiện các nghiên cứu về dữ liệu va hiệu quả của cácphương pháp giải quyết đối với tiếng Việt Đây có thê được xem là một trong nhữngnghiên cứu đầu tiên về bài toán TABSA trên tiếng Việt
1.2 Giới thiệu bài toán
Bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh được đề cập lần đầutiên bởi Marzieh Saeidi và các cộng sự [1] Day là bài toán được phát triển lên từ
ba bài toán Phân tích cảm xúc cho văn bản, Phân tích cảm xúc dựa trên khía cạnh
và Phân tích cảm xúc của doi tượng.
e Đôi với bài toán Phán tích cảm xúc cho văn ban, dt liệu đầu vào là một đoạn
van ban trơn, dau ra chỉ đơn giản là nhãn cảm xúc chung cho toàn bộ nội dung
! Số liệu từ trang Market.us, 2020 Chưa tính đến việc nhiều đơn đặt hàng được vận chuyển cùng nhau hoặc được
giao bởi người bán không thông qua sàn giao dich Mỗi đơn cũng có thé có nhiều hon 1 sản phẩm.
Trang 24của văn ban đó Nhãn cảm xúc có thé là {Tích cực; Tiêu cực} hoặc {Tích cực;Trung tính; Tiêu cực} hay chỉ tiết hơn có thé là thang đo mức độ cảm xúcchăng hạn như {-3; -2; -1; 0; 1; 2; 3}.
® O bài toán Phân tích cảm xúc dựa trên khía cạnh (Aspect based Sentiment
Analysyis - ABSA), với đầu vào là một đoạn văn ban, bài toán có thé được chiathành hai tác vụ chính bao gồm nhận diện tập khía cạnh mà văn bản đề cập vàphân loại cảm xúc cho từng khía cạnh đã nhận diện được Việc này nhằm trích
xuất được thông tin về cảm xúc một cách cụ thể hơn cho từng khía cạnh được
đề cập đến trong văn bản thay vì chỉ một cảm xúc chung cho toàn bộ văn bản.
e Ở bài toán Phân tích cảm xúc của đối tượng (Targeted Sentiment Analysis
-TSA), đầu vào là một đoạn văn ban cùng với một đối tượng cụ thể trong vănbản đó Đầu ra của bài toán là cảm xúc cho đối tượng được nhắm đến, nhãn
cảm xúc có thê tương tự các bài toán trên.
Với bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh, nó là sự kết hợp
giữa Phân tích cảm xúc dựa trên khía cạnh và Phân tích cam xúc cua đối tượng và
có thê được chia thành hai tác vụ (Hình 1.1) Thứ nhất là xác định xem từng khíacạnh cụ thể của đối tượng có mang cảm xúc hay không Thứ hai là phân loại cảm
xúc cho các cặp đối tượng — khía cạnh đã được xác định là có mang cảm xúc ở
phần trước Thông qua hai tác vụ này có thê đưa ra được thông tin cảm xúc cho các
khía cạnh của từng đối tượng cụ thé được nhắm đến trong văn bản
Trang 25Tập khía cạnh = {Chất lượng thức ăn, Giá thức ăn, Vệ sinh, Dịch vụ}
Văn bản: * ngon, BAG dở nhưng giá rẻ hon may quán khác Quán cũng do quá làm tôi thất vọng thật sự.”
Cơm Tích cực == ^ *
Quán Tiêu cực Cơm Chất lượng thức ăn Tích cực
(a) Dau ra của bài toán TSA AS Chat lượng thức ăn Tiêu cực
` Giá thức ăn Tích cực
Quán Vệ sinh "Tiêu cực
Kinh Các cặp đối tượng - khía cạnh còn lại Không
Chất lượng thức ăn Trung tính (c) Dau ra của bài toán TABSA
Giá thức ăn Tích cực ca
Vệ sinh "Tiêu cực (b) Dau ra của bài toán ABSA
Hình 1.2: Ví dụ phân biệt giữa TSA, ABSA và TABSA.
Thông qua Hình 1.2 có thé thay rang bài toán Phân tích cảm xúc của đối tượng dựa
trên khia cạnh mang lại thông tin về cảm xúc một cách chỉ tiết và cụ thê nhất trong
số các bài toán ké trên Nó rất phù hợp dé áp dụng vào phân tích cảm xúc cho cácphản hồi về sản phẩm và dịch vụ khi một phản hồi có thé nhắc đến nhiều đối tượng
Trang 26và ta cân biệt chính xác khía cạnh nao của đôi tượng đang được nhac đên với một
thái độ như thế nảo
1.3 Mục tiêu và đóng góp
1.3.1 Mục tiêu
Trong nghiên cứu này, chúng tôi đặt ra 3 mục tiêu chính cần thực hiện và hoàn
thành như sau:
- Thứ nhất: nghiên cứu va hoàn thành việc xây dựng bộ dữ liệu cho bai toán
phân tích cảm xúc của đối tượng dựa trên khía cạnh (TABSA)
¢ Thứ hai: thực nghiệm các mô hình SOTA trên bộ dữ liệu đã xây dựng, so sánh
và phân tích hiệu quả giữa các mô hình.
» Thứ ba: phân tích và chỉ ra những khó khăn và thách thức còn tồn tại ở bộ dit
liệu đôi với bài toán TABSA nói riêng lẫn tác vụ phân tích cảm xúc nói chung.
1.3.2 Đóng góp
Đóng góp chính của chúng tôi thông qua nghiên cứu này là một bộ dữ liệu tiếng
Việt miền mở được xây dựng từ 6.000 bình luận cho bài toán phân tích cảm xúc
của đối tượng dựa trên khía cạnh (TABSA)
Hon thé nữa, những kinh nghiệm được rút ra từ quá trình xây dựng dữ liệu cũngnhư đánh giá và phân tích kết quả trong nghiên cứu của chúng tôi có thé được sửdụng làm tư liệu tham khảo dé nâng cao hiệu suất và chất lượng của những nghiêncứu có liên quan trong thời gian tiếp theo
1.4 Đối tượng và phạm vỉ nghiên cứu
1.4.1 Đối tượng
Đôi tượng chính trong nghiên cứu của chúng tôi là các câu bình luận và phản hôi
của người dùng tại Việt Nam Những bình luận và phản hồi này được thu thập từ
Trang 27nguồn dữ liệu thực tế trên các trang mạng về các thiết bị di động, nhà hàng và khách
sạn Đây là nguồn dữ liệu chứa đựng thông tin về thái độ và cảm xúc của nhữngkhách hang đã sử dụng sản phẩm và dich vụ Đó cũng chính là phan thông tin được
ca những nhà quản lí lẫn những người có ý định sử dụng sản phẩm va dich vụ quantâm đến vì nó phản ánh một cách khách quan và đa chiều về chất lượng của sảnphẩm và dịch vụ
1.4.2 Phạm vi
1.5.
Đối voi dữ liệu, chúng tôi tập trung vào nghiên cứu và xây dựng đối với đữ liệu
thuộc 3 lĩnh vực là điện thoại thông minh (Di Động), Nhà Hàng và Khách Sạn.
Phạm vi thông tin được quan tâm là thái độ hay cảm xúc của người dùng đối với
từng khía cạnh của các đối tượng cụ thé được dé cap dén trong cac điểm dữ liệu.
Đối với các phương pháp và mô hình dùng đề đánh giá bộ đữ liệu, chúng tôi nghiên
cứu và sử dụng những phương pháp và mô hình SOTA cho bài toán TABSA đã
được công bồ trên các tạp chí khoa học uy tín về lĩnh vực Xử lí ngôn ngữ tự nhiên
Câu trúc khóa luận
Phân còn lai của khóa luận này gôm 5 chương với các nội dung chính như sau:
o Chương 2: Tông quan
Trong chương nay, chúng tôi giới thiệu vê các hướng nghiên cứu đã có của các tác gia trong và ngoai nước liên quan đên đê tài; nêu những van dé còn tôn tại; chỉ ra những vân đê mà đê tải cân tập trung, nghiên cứu giải quyết.
o Chương 3: Xây dựng bộ dit liệu
Chương nay trình bày quá trình thu thập dir liệu, tiền xử lý va gan nhãn ditliệu Bên cạnh đó là các số liệu thống kê và nhận xét chỉ tiết về bộ đữ liệu do
chúng tôi thực hiện.
Trang 28o_ Chương 4: Cơ sở lí thuyết thực nghiệm
Chúng tôi trình bày tóm lược ngắn gọn lại một số phương pháp và kỹ thuật từhọc máy đến học sâu có trong các mô hình sẽ được sử dụng để thực nghiệm
và đánh giá bộ dữ liệu.
o Chương 5: Cai đặt, thực nghiệm và đánh giá
Chương này trình bày các vấn đề liên quan đến việc cài đặt mô hình phân lớp
trên bộ dữ liệu của chúng tôi cho bài toán Phân tích cam xúc của đối tượngdựa trên khía cạnh Kết quả thực nghiệm cũng sẽ được đánh giá và phân tíchchỉ tiết tại đây
o Chương 6: Tong kết
Cuối cùng, chúng tôi tông kết những kết qua đã dat được thông qua đề tainghiên cứu này Chúng tôi cũng chỉ ra những hạn chế còn tổn tại và đề xuấtmột số hướng phát triển tiếp tục trong tương lai
Cuối mỗi chương, chúng tôi thêm vào phần kết luận nhăm tóm tắt lại những ý chính
cho từng vân đê.
Trang 29CHƯƠNG 2 TÔNG QUAN
Phân tích cảm xúc nói chung và bài toán Phân tích cảm xúc của đối tượng dựa trên khía
cạnh nỗi riêng là một nhánh trong lĩnh vực Xử ly ngôn ngữ tự nhiên Tính ứng dụng thực
tế của bài toán này là rất cao, đặc biệt trong bối cảnh bùng né của Internet và cuộc cáchmang công nghiệp 4.0 Và dé có thé áp dụng vào thực tế, có rất nhiều công trình nghiêncứu khoa học có liên quan đến van đề này đã được thực hiện và công bó Sau đây, chúngtôi sẽ trình bày những công trình cốt lõi và nổi bật có liên quan đến bài toán này đồng
thời đưa ra nhận xét vê những vân đê còn tôn tai, đặt biệt đôi với ngôn ngữ tiêng Việt.
2.1 Công trình nghiên cứu liên quan
Xuất phát điểm là công trình nghiên cứu của MarzIeh Saeidi và các cộng sự [1] đã
phát biểu và đặt nền tảng cho việc ứng dụng các phương pháp học máy và học sâu
truyền thống vào bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh Từ
đó, thông qua những tiến bộ trong lĩnh vực xử lí ngôn ngữ tự nhiên, đã có nhiều kỹthuật cùng các phương pháp mới được áp dụng vào việc giải quyết bài toán này vớikết quả ngày càng được cải thiện
Sau day là một sô công trình nghiên cứu nôi bật, có liên quan đên các nhiệm vụ từ
xây dựng di liệu đến giải quyết bài toán
2.1.1 Công trình nghiên cứu trên thế giới
® Nghiên cứu cua Matan Orbach và các cộng sự [2]
Nghiên cứu nay tập trung vào quá trình thu thập, xây dựng và phân tích bộ dữ
liệu miền mở cho bài toán Phân tích cảm xúc đối tượng (TS4) mang tên YASO.Bên cạnh đó là các đánh giá về hiệu suất của 5 phương pháp SOTA trong việcgiải quyết bài toán này với kết quả độ đo F1 cao nhất cho toàn tác vụ đạt 55,3%
Cac tác giả cũng chi ra một hạn chê của bộ dir liệu và bài toán này là việc các
Trang 30khía cạnh đã loại bỏ Điều này làm cho tính ứng dụng của chúng bị giảm đi vìtrong thực tế, cùng một đối tượng nhưng với những khía cạnh khác nhau thì có
thê sẽ có những cảm xúc khác nhau được mô tả.
Trong số những nội dung trên, chúng tôi tập trung nghiên cứu và học hỏi về kế
hoạch đã được các tác giả xây dựng cho quá trình gán nhãn dữ liệu Nhận thấy
bộ dữ liệu mà chúng tôi thực hiện có cách xây dựng khá tương đồng với bộ dữ
liệu YASO, điển hình là tác vụ đánh dấu các đối tượng mang cảm xúc, chúng
tôi quyết định tìm hiểu nghiên cứu này và dựa vào đó phát triển nên quy trình
gan nhãn hoàn chỉnh cho nghiên cứu của chúng tôi.
e Nghiên cứu cua Marzieh Saeidi và các cộng sự [1]
Day là nghiên cứu đã đê xuât và đặt nên móng cho các nghiên cứu sau này trong việc giải quyết bài toán Phân tích cảm xúc cua doi tượng dựa trên khía cạnh
(TABSA).
Trong công trình này, các tác giả đã nêu lên những hạn chế còn tồn tại trong haibài toán Phân tích cam xúc doi tượng (TSA) và Phân tích cảm xúc dựa trên khíacạnh (ABSA) trong việc trích xuất thông tin về cảm xúc một cách cụ thể nhất
Từ đó đề xuất bài toán TABSA dé giải quyết van đề nói trên
Tiếp theo, nghiên cứu đề xuất bộ dữ liệu dùng dé đánh giá mang tên Sentihood
— được thu thập từ những dé liệu có liên quan đến các vùng lân cận thành phố London trên nền tảng hỏi đáp của Yahoo!?, sau đó được xử lí va gan nhãn cho
bài toán mới.
? Yahoo! Hỏi đáp là nền tảng hỏi đáp trực tuyến phổ biến đã chính thức ngừng hoạt động từ 04/05/2021.
10
Trang 31Bang 2.1: Một số điểm dữ liệu thuộc bộ Sentihood [1].
Bình luận Nhãn
The cheap parts of London are (Edmonton, price, Positive)
Edmonton and Tottenham and they (Tottenham, price, Positive)
are all poor, crime ridden and crowded (Edmonton, safety, Negative)
with immigrants (Tottenham, safety, Negative)
Hampstead area, more expensive but
P P (Hampstead, price, Negative)
bett lit f livi th i
a DCHOT quality oF living Wan in (Hampstead, live, Positive)
Tufnell Park
Cuối cùng, các tác giả cung cấp các phương pháp cho việc giải quyết bài toánbao gồm sử dụng hồi quy logistic và mô hình học sâu truyền thống LSTM vớikết quả cao nhất ở tác vụ nhận diện khía cạnh mang cảm xúc là 68,7% cho độ
đo F1 va tác vụ phân loại cam xúc là 87,5% cho độ chính xác.
e Nghiên cứu của Yukun Ma và các cộng sự [3]
Trong công trình này, các tác giả đã nghiên cứu đề xuất mô hình SenticLSTM
kết hợp với attention ở cấp độ đối tượng và cấp độ câu nhằm giải quyết bài toán
TABSA.
Kết quả đánh giá trên bộ dữ liệu Sentihood cho thấy sự cải thiện rõ rệt so với các mô hình đã được đề xuất trước đó với độ đo FI là 76,44% cho tác vụ nhận
diện khía cạnh và độ chính xác 76,47% cho tác vụ phân loại cảm xúc.
Ngoài ra, nghiên cứu cũng đề xuất sử dụng chỉ số đánh giá độ chính xác chặtchẽ (strict accuracy) nhằm đánh giá toàn diện hiệu suất của mô hình trên cả bàitoán Con số này cao nhất là 67,34% trong nghiên cứu này
e Nghiên cứu của Chisun và các cộng sự [4]
Trong nghiên cứu này, các tác giả sử dụng kết hợp mô hình pretrained (mô hình
11
Trang 32đã được huấn luyện trước) — BERT với phương pháp tao câu phụ bao gồm câuhỏi (QA) hoặc câu bồ trợ (NLI) ở đầu vào dé tăng kha năng phân loại cho mô
Kết qua đánh gia của phương pháp này trên bộ dit liệu Sentihood đạt được SOTA
với độ đo FI là 87,9% cho tác vụ nhận diện khía cạnh và độ chính xác 93,6%
cho tác vụ phân loại cảm xúc Độ chính xác chặt chẽ cao nhất cũng đạt mức
79,8% cho thay hiệu quả vượt trội mà phương pháp nay mang lại
e Nghiên cứu của Zhengxuan Wu và các cộng sự [5]
Đây có thể được xem là công trình mang lại kết quả cao nhất trong việc giảiquyết bài toán TABSA tính đến thời điểm chúng tôi thực hiện nghiên cứu này.Kết quả cao nhất mà công trình này đạt được là 80,9% cho độ chính xác chặtchẽ, 89,7% cho độ đo F1 đối với tác vụ nhận diện khía cạnh và 93,8% cho độ
chính xác của tác vụ phân loại cảm xúc.
Dé đạt được kết quả trên, các tác giả đã đề xuất sử dụng mang tự nhận thức ngữ
cảnh (context-aware self attention network) [6] dé tinh chỉnh mô hình BERT
(CG-BERT) Ở các mạng tự chú ý (self-attention) thông thường như BERT, trọng số chú ý được tính toán bằng cách sử dụng các ma trận truy vấn và khóa
mà không xem xét đến ngữ cảnh Mô hình CG-BERT sửa đổi ma trận truy vẫn
và khóa bằng cách sử dụng ngữ cảnh, và sau đó tính toán trọng số chú ý như mô
12
Trang 33tả trong hình (b) Mô hình QACG-BERT tính toán trọng số chú ý băng cách kếthợp như ở (c) với trọng số bán chú ý được tính toán bằng cách sử dụng một cặp
ma trận truy vân và ma trận khóa riêng biệt.
(a) BERT (b) CG-BERT Q
Hinh 2.1: Minh hoa mé hinh CG-BERT va QACG-BERT [5]
2.1.2 Công trình nghiên cứu trong nước
Cho đến thời điểm hiện tại, vẫn chưa có nghiên cứu nào có liên quan đến bai toán
Phân tích cảm xúc cho doi tượng dựa trên khía cạnh trên tiếng Việt hoặc được
công bố tại Việt Nam.
2.2 Những vấn đề còn tồn tại
Sau khi tìm hiéu và xem xét những nghiên cứu có liên quan dén bài toán, bên cạnh
những tiên bộ vé mặt kỹ thuật, chúng tôi nhận thay van còn tôn tại một sô vân đê
hạn chế chung như sau:
e Lẻsố lượng bộ đữ liệu
Hầu hết các nghiên cứu đều dùng chung bộ dữ liệu Sentihood dé đánh giá cho
phương pháp của mình Điều này tuy giúp cho việc so sánh hiệu suất giữa các
mô hình được công bằng và khách quan hơn, tuy nhiên không cung cấp được
cái nhìn toàn diện vi kêt quả chi gói gọn vào một bộ dữ liệu.
13
Trang 34© Vêmức độ đa dạng của bộ dữ liệu đang sử dụng
Như đã trình bày trước đó, bộ dữ liệu Sentihood chỉ đề cập đến các phản hồi
về địa điểm Văn bản trong mỗi điểm dữ liệu chỉ là câu đơn với độ dài và độphức tạp không cao, sé luong đối tượng và khía cạnh chỉ cố định lần lượt ở là
2 (locationT, location2) và 4 (safety, price, general, transit location).
e Vé tinh thực tế của dữ liệu
So với những đặc trưng của dir liệu về phản hồi và bình luận trực tuyến, dữ
liệu trong bộ Sentihood được xem là tương đối “sạch” vì hau như không mắclỗi về ngữ pháp và chính tả, số lượng ký tự đặc biệt hạn chế và không chứa
biêu tượng cảm xúc (emo]]).
e Vẻ ngôn ngữ của bộ dữ liệu
Bộ dữ liệu đang được sử dụng hiện tại (Sentihood) được xây dựng hoàn toàn
trên ngôn ngữ Anh Chưa có các bộ dit liệu cho bài toán TABSA trên tiếng
Việt.
2.3 Kết luận
Thông qua tìm hiểu những công trình nghiên cứu liên quan, chúng tôi rút ra đượcnhững điểm nỗi bật lẫn hạn chế của chúng trong việc phát triển và ứng dụng cácphương pháp giải quyết bài toán Phân tích cảm xúc của đối tượng dựa trên khíacạnh vào thực tế Từ đó, chúng tôi đặt ra mục tiêu ưu tiên là xây dựng một bộ dữliệu tiếng Việt cho bài toán này với những đặc điểm sát với thực tế Sau đó, chúngtôi sẽ tiến hành đánh giá lại các mô hình đã được công bố trên bộ dữ liệu mới dé
so sánh hiệu suất giữa chúng Nghiên cứu của chúng tôi sẽ mang lại một nguồn dit
liệu mới và cái nhìn tổng quan về các tác vụ giải quyết bài toán Phân tích cảm xúc
của đối tượng dựa trên khía cạnh trên tiếng Việt
14
Trang 35CHƯƠNG 3 XÂY DỰNG BỘ DỮ LIỆU
Trong chương này, chúng tôi sẽ mô tả quá trình xây dựng bộ dữ liệu bình luận cho bài
toán TABSA cùng với các số liệu va phân tích chi tiết về dit liệu trước và sau khi được
gán nhãn.
3.1.
3.2.
Mô tả chung về bộ dữ liệu
Bộ dữ liệu chúng tôi xây dựng có tên là UIT-VOF (Vietnamese Online Feedbacks),
được xây dựng từ 6.000 phản hồi trên Internet thuộc 3 lĩnh vực: thiét bị di động (Di
Các số liệu này cũng sẽ được sử dụng trong quá trình phân tích đánh giá ở
CHƯƠNG 5 nhằm đưa ra những lý giải cho các kết quả thực nghiệm
3.2.1 Đặc điểm của dữ liệu
Dữ liệu chúng tôi sử dụng trong nghiên cứu này được lấy từ các phản hồi trên mạng
Internet Mỗi điểm dé liệu chỉ đơn thuần là một đoạn văn bản gom một hoặc nhiềucâu Đây đều là những phản hồi tiếng Việt của người dùng trong thực tế thông quanên tảng các trang web nên môt điều hiển nhiên là chúng mang những đặc điển
của dạng đữ liệu văn bản tiếng Việt trực tuyến Các đặc điểm nôi bat trong số đó
bao gồm: sai chính tả / từ vô nghĩa, viết tắt / viết theo ngôn ngữ mạng, viết khôngdấu, sử dụng ký tự đặc biệt (emoji, hashtag, )
15
Trang 36Nhăm có cái nhìn tương đôi về sự phân bô của các đặc điêm kê trên trong dữ liệu
được sử dụng, chúng tôi đã tiến hành xem xét 100 phản hồi ngẫu nhiên đôi với mỗi
miễn của dữ liệu Kết quả thống kê được thê hiện ở Hình 3.1
& Dữ liệu có ký tự đặc biệt
@ Dữ liệu không dấu
dữ liệu có biểu tượng cảm xúc, hầu hết cũng được viết băng tiếng Việt có dấu Tuynhiên số lượng di liệu có xuất hiện lỗi chính tả và các từ viết tắt lại khá cao Cònlại những điểm đữ liệu thuộc miền khdch sạn, chúng tôi nhận thấy rằng chúng kháđơn giản và “sạch” khi số lượng dit liệu có lỗi chính ta, từ viết tắt biểu tượng cảm
xúc đều ở mức khá thấp Nhưng số lượng phản hồi được viết bằng tiếng Việt không
16
Trang 37dâu lại khá cao.
Bên cạnh thống kê số lượng, chúng tôi cũng liệt kê cụ thể một số lỗi chính tả, cáchviết tắt và các ky tự đặc biệt thé hiện cảm xúc trong mỗi miền đữ liệu ở Bảng 3.1
Bang 3.1: Các đặc trưng thường xuất hiện trong dữ liệu.
Trang 38© Drap giường —> ra e nhân viên — nv e :)
/ gra giường e khách hang > kh e =))
® VỚI —> VS en”
Về các lỗi chính tả va các từ vô nghĩa, Bang 3.1 đã liệt kê ra những lỗi điển hình
dễ bắt gặp trong bộ dữ liệu, chúng bao gồm những nguyên nhân chính như sau:
e Sai do nhầm lẫn dau từ ngữ hoặc những từ phát âm gần giống nhau: củng,
bin, xac, gét,
e Sai do sơ xuat khi gõ văn bản: nói chun, neg, Iqji,
e Sai do sử dụng ngôn ngữ mang (hay còn gọi là “teencode”): zui, J, dzay,
e Sai do kéo dài từ dé mô phỏng âm thanh: lammmm, đóooooo,
Về các từ được viết tắt, phần lớn trong số đó đều sử dụng những cách viết tắt thôngdụng trên mạng ngày nay (bao gồm viết tắt của các danh từ riêng phô biến như “thé
18
Trang 39giới di động” hay “điện máy xanh”) Do đó, các từ viết tắt có độ tương đồng cao
và được lặp đi lặp lại giống nhau ở nhiều điểm dữ liệu
Tương tự như từ viết tắt, các ký tự đặc biệt mang cảm xúc phần lớn cũng chỉ góigọn trong những ký tự đặc biệt quen thuộc trên các nền tảng mạng xã hội như
=)), :D, :), ^^, Tuy nhiên có một điểm đáng lưu ý là những phản hồi thuộc miền nhà hàng còn sử dụng thêm các emoji như 9 @.@ và chúng xuất hiện với
số lượng và tần suất khá dày đặc.
3.2.2 Một vài số liệu thống kê khác
Chúng tôi tiếp tục thực hiện thống kê các số liệu số liệu mà chúng tôi cho răng cóảnh hưởng đến quá trình gán nhãn dữ liệu cũng như xa hơn là đến hiệu suất phân
loại của các mô hình, bao gôm độ dài và sô câu trong mỗi phản hôi.
Hình 3.2: Phân bố độ dài các bình luận theo từng miễn
Vệ độ dài của các phản hôi, biêu đô ở Hình 3.2 đã mô tả một cách tông quan sự
19
Trang 40phân bố độ dài của các điểm đữ liệu theo từng miền Chúng tôi nhận thấy rằng ở
cả 3 miền dữ liệu, độ dai của các phản hồi phần lớn đều nhỏ hon 500 ký tự Bên
cạnh đó cũng ton tại một vai phản hồi rất ngắn, ví dụ như “ngon.” hoặc “ôn” hoặc
khá dài (trên 500 ký tự) Đặc biệt ở miền dữ liệu nhà hàng và khách sạn, số lượngphản hồi dài khá nhiều, cá biệt có một vài phản hồi có độ dài lên từ hơn 1.500 đếngần 3.000 ký tự Và có thé nhận thấy rang độ dài trung bình của các phản hồi ởmiễn dữ liệu nhà hàng là lớn nhất
Di động Nhà hàng Khách sạn
Mmm licdu mm 2cau mmm 3cdu Mm 4cau BH 5Scau BH 610câu mmm >=11câu
Hình 3.3: Phân bô sô lượng câu trong môi bình luận.
Về số lượng câu trong trong mỗi điềm dữ liệu (Hình 3.3), số lượng phản hồi đượctạo thành từ 1 đến 4 câu chiếm đa số (từ 72,5% trở lên) ở cả 3 miền Tuy nhiên ởmiền dữ liệu về nhà hàng, số lượng phản hồi có số câu lớn (6 câu trở lên) lại có tỉ
lệ khá cao (19%) Cá biệt có một vài phản hồi có hơn 20 câu.
Thông qua hai số liệu phân tích trên, có thê thấy dữ liệu phản hồi ở cả 3 miền đều
có sự đa dạng về độ dai lẫn số lượng câu Tuy nhiên các phản hỏi trong miền di
động có tính ôn định và đêu hơn so với phản hôi ở miên đữ liệu nhà hàng và khách
sạn Ngoài ra, trong hai miên nay cũng tôn tại những điêm dữ liệu với các chỉ sô
20