Khóa luận tốt nghiệp này là quá trình nghiên cứu áp dụng các kỹ thuật làm giàu dữ liệu và mô hình PhoBERTpas¿ vào bài toán Phân tích cảm xúc người dùng trên đa dạng bộ dữ liệu với các vă
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
KHOA CÔNG NGHỆ PHẢN MÈM
LE SI LAC
KHOA LUAN TOT NGHIEP
NGHIEN CUU BAI TOAN
PHAN TICH CAM XUC CUA NGUOI DUNG
A Research on Sentiment Analysis
KY SU NGANH KY THUAT PHAN MEM
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHAN MEM
LE SI LAC - 17520669
KHOA LUAN TOT NGHIEP
NGHIÊN CỨU BÀI TOÁN.
PHAN TÍCH CAM XÚC CUA NGƯỜI DUNG
A Research on Sentiment Analysis
KY SU NGANH KY THUAT PHAN MEM
GIANG VIEN HUONG DAN
TS NGUYEN LUU THUY NGAN
TP HO CHi MINH, 2021
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
BE — Chủ tịch.
2 ecceeeseeeceeesceceeeessueeeeeeeeeeeeueeeneeees — Thư ký.
Boece cece cee ee ence ee ee eee eneenaeeeenneeneeaees — Uy vién
— cece cence eee cena en eee eeneeneeaees — Uy viên
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn cô Nguyễn Lưu Thùy Ngân vì sự tận
tình hướng dẫn, định hướng cùng những phản biện nhằm giúp tôi đạt được kếtquả tốt nhất cho khóa luận Nếu không có sự hướng dẫn từ cô, mục tiêu của khóa
luận sẽ không thể hoàn thành.
Bên cạnh đó, tôi mong muốn cảm ơn sự hỗ trợ của anh Đặng Văn Thìn (nghiên
cứu viên của The UIT Natural Language Processing Group) vì sự hỗ trợ không
ngừng nghỉ cùng những đóng góp nhất định giúp tôi hoàn thiện thật tốt dé tài
khóa luận.
Tôi cũng xin gửi lời cảm ơn đến Phòng thí nghiệm Truyền thông Đa phươngtiện trường Đại học Công nghệ thông tin và đồng thời là Seedcom Group đã nhiệttình hỗ trợ tôi về cả kiến thức và trang thiết bị trong quá trình làm khóa luận
Điều quan trọng nhất, tôi chân thành cảm ơn gia đình vì đã là điểm tựa vững
chắc trong thời gian tôi thực hiện nghiên cứu này
Tôi xin chân thành cảm ơn.
Trang 5Mục lục
TÓM TẮT KHOÁ LUẬN xiv
1 MỞ ĐẦU 1
11 Datvandé} va 11.2 Đối tượng và phạm vi nghiên cứu| 3
1.2.1 Đối tượng nghiêncứu| - 3
122 Phạmvinghiêncứu| 3
13 Mục tiêu của nghiên cứu| ee 3
1.3.1 Kết quả củanghiêncứu| - 4
1.4 Phát biểu bài toán| So 6
15 Cấu trúckhóa luận 6
2 TONG QUAN 8
ee ee 8
Meee ee ene ee 10
¬ v cece 10 eens 12
3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSEC)| 18
3.1.4 Vietnamese Sentiment Analysis (VS)| 19
Trang 64 LÝTHUYÊT 22
41 Môhìinh BERIH| 22
4.2 Các biên thé của BERT dành cho tiếng Việt 23 4.3 Kỹ thuật làm giàu dữ liệu (Data augmentation)} 24
4.3.1 CharacterAusmenter| 25
4.3.2 Word Augmenter| 25
4.3.3 Contextual Word Embeddings Augmenter] 26
5 KET QUA THỰC NGHIỆM 28 5.1 Kétqua) 2 ee 28 5.1.1 Thực nghiệm trên bài toán SAI 28
DL) aS eee “ e Số ee 28 D112 UIT VSEC] 32
DMG MANS) gm fl ee ee 35 5.2.1.1 Objective) 2 ee 50 5.2.1.2 Thietké) 2 ee 51 Le 53 5.2.2.1 Dashl ẶẶ 53 5.2.2.2 Dash Bootstrap| 53 5.2.23 Selenium) 0.00000 eee eee 54
55
Trang 7A QUA TRINH HUAN LUYEN MO HÌNH NGON NGU (LANGUAGE
MODEL) 58
Trang 8Danh sach hinh ve
2.1 Biểu đồ trình bày các cấp độ trong ngôn ngữ học gồm các cấp độ
phổ biến: Ngữ âm hoc (Phonetics), Âm vị hoc (Phonology), Hình
tics) và Ngữ dụng học (Pragmatics)|_ 9
2.2 Mô tả ba nhiệm vụ của ABSA: Mục đích của bài toán trích xuất mục
tiêu ý kiến, trong trường hợp này là "sushi" và "phục vu" Đối với
bài toán xác định thực thể khía cạnh (aspect category detection), đã
được thiết đặt các danh mục xác định trước, nhiệm vụ là xác định:
thực thểkhía cạnh, khía cạnh của "sushi" là "Food" và thực thể biểu
thị của khía cạnh là "Quality" Xác định cảm xúc của một khía cạnh
mục tiêu (sentiment polarity) - tích cực hoặc tiêu cực.
3.1 Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ thống
khoa học ngữ liệu Nguồn: báo cáo về học ngữ liệu 2016 [5] ¬3.2 Bộ dữ liệu VLSP (a) Phân bố nhãn của tập dữ liệu tương ứng trên
tập huấn luyện va tập kiểm tra (b) Tỉ lệ đồ dài của câu ứng với mỗi
Ma 17
3.3 Bộ dữ liệu HSA (a) Phân bố nhãn của tập dữ liệu tương ứng trên
tập huấn luyện và đánh giá (b) Tỉ lệ đồ dài của câu ứng với mỗi
ốm nẽ 18
3.4 Bộ dữ liệu UIT-VSFC (a) Phân bố nhãn của tập dữ liệu tương ứng
ứng với mỗi nhãn có trong dữ liệu
Trang 9huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ đồ dài của câu ứng với
mỗi nhãn có trong dữ liệu | 20
4.1 Kiến trúc của mô hình BERT được trình bày trong [9] 23
423_ Mô ta BERT EHHIIL-Maskl 27 5.1 Mô tả sử dụng mô hình ngônngữ| 41
Trang 10Danh sách bảng
3.1 Thống kê tóm tắt cho kho ngữ liệu thử nghiệm N: kích thước dữ
quá trình tiền xử lý Ipre—max: Độ dài câu dài nhất trước quá trìnhtiền xử ly [„„: Trung bình độ dài câu sau khi quá trình tiền xử lý
I„ax:Độ dài câu dai nhất sau quá trình tiền xử lý |V|: Kích thước từ
vựng Test: Kích thước tập đánh giá (CV có nghĩa là đánh giá thông
qua kiểm chéo (cross-validation)| - 20
5.1 Kết quả của PhoBERTpg„s„ kết hợp với bốn mức độ làm giàu ngữ
liệu (data augmentation) trên bộ dữ liệu VS [46] Tôi tiền hành tính
toán chỉ số Macro F-score của [46] dựa trên thống kê kết quả của
3 nhãn dữ liệu Theo don 0 %| -.
5.2 Thống kê về tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa
trên kết quả từ bon tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%
và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ
liệu VS [46] Theo đơn 0 %.| ee 31
5.3 Kết quả của PhoBERTgase kết hợp với bốn mức độ làm giàu ngữ
liệu (data augmentation) trên bộ dữ liệu UIT-VSFC [29] Toi tien — |hành tính toán chi số Macro F,-score dựa trên thống kê kết qua của
5.4 Thống kê vẻ tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa
và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ
liệu UIT-VSFC [29]] 34
Trang 11tính toán chỉ số Macro F,-score dựa trên thống kê kết quả của 3
TNHNHaaAaa ee 36
5.6 Thống kê vẻ tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa
trên kết quả từ bốn tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%
và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ
| lệuVLSP|27]| 37
5.7 Kết quả của PhoBERTgase kết hợp với bốn mức độ làm giàu ngữ
tính toán chỉ số Macro F,-score dựa trên thống kê kết quả của 3
mus oss met we ee ee 39
5.8 Thống kê vẻ tính hiệu qua của mỗi mức độ làm giàu ngữ liệu dựa
trên kết quả từ bốn tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%
và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ
| HệuHSAl[iIl| - 40
5.9 Tổng quan về tính hiệu quả của mỗi phương pháp làm giàu dữ liệu
(theo thứ tự giảm dẫn)| ee 41
5.10 Kết quả khi sử dụng PhoBERT pase kết hợp huấn luyện trên mô hình
ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹ
thuật Fill-Mask so với kết qua chỉ sử dụng PhoBERT pase trên bộ dữ
| — liệu VS [46] Theo don vi% | 42
5.11 Kết quả khi sử dung PhoBERT pase kết hợp huấn luyện trên mô hình
ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹthuật Fill-Mask so với kết quả chỉ sử dụng PhoBERTp„;„ trên bộ dữ
liệu UIT_VSFC [29] Theo đơn 056] 42
5.12 Két quả khi sử dụng PhoBERTpase kết hợp huấn luyện trên mô hình
Trang 12ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹthuật Fill-Mask so với kết quả chỉ sử dụng PhoBERTpase trên bộ dữ
liệu HSA [11] Theo don 0 %.| ẶẶẶẶ ee
5.14 Kết quả so sánh khi sử dụng mô hình SVM [14] và SVM kết hop
với ba kỹ thuật làm giàu dữ liệu đạt được hiệu quả tốt nhất ở mỗi
mức (dựa trên Bảng |5.2) trên bộ dữ liệu VS [46] Theo don vi %.|
5.15 Kết quả so sánh khi sử dụng mô hình SVM [14] và SVM kết hop
với ba kỹ thuật làm giàu dữ liệu đạt được hiệu quả tốt nhất ở mỗi
mức (dựa trên Bảng|5.4) trên bộ dữ liệu UIT-VSEC [29].Theo don vi %.| 45
Trang 13Danh mục từ viết tắt
CNN Convolution Neural Network
EA Evolutionary Algorithms
NLP Natural Language Processing
HSA Hotel Sentiment Analysis VLSP Vietnamese Language Sentiment Analysis UIT-VSFC UIT Vietnamese Student Feedback Corpus
VS Vietnamese Sentiment Analysis
SOTA State of the art
GA Genetic Algorithm
SA Sentiment Analysis NAS Neural Architecture Search
CBOW Continuous Bag-of-Words
SG Skip-gram
SVM Support Vector Machine
WB Word Embedding ReLU Rectifier Linear Unit
tf TensorFlow
Trang 14TÓM TẮT KHOÁ LUẬN
Phân tích cảm xúc người dùng là một bài toán quen thuộc trong lĩnh vực xử
lý ngôn ngữ tự nhiên Bài toán có đầu vào là dữ liệu văn bản, đầu ra sẽ là cảm xúccủa đầu vào, có thể là tích cực, tiêu cực hay trung tính
Khóa luận tốt nghiệp này là quá trình nghiên cứu áp dụng các kỹ thuật làm
giàu dữ liệu và mô hình PhoBERTpas¿ vào bài toán Phân tích cảm xúc người dùng
trên đa dạng bộ dữ liệu với các văn cảnh khác nhau (từ giáo dục, đến sử dụng
dịch vụ nhà hàng /khách sạn và mua sắm trên các sàn thương mại điện tử) Cùngvới đó, nghiên cứu đã tiến hành đánh giá kết quả đạt được một cách chỉ tiết vàtoàn diện trên 5 thang đo khác nhau gồm Accuracy, Balance Acc, Weighted F1,
Macro F1, Micro F1 (đã được chứng minh tính hiệu quả ở nhiều nghiên cứu trước
đó [17]|3]) Mặt khác, trong nghiên cứu này, tôi tiền hành đánh giá chỉ tiết và toànđiện về tính hiệu quả của kỹ thuật này trên mô hình truyền thống SVM và tínhchuẩn xác của ngữ liệu được sinh ra - trên 3 văn cảnh khác nhau gồm tổng quát,mang tính chủ dé, và phức tạp Mặt khác, nghiên cứu cũng tiền hành huấn luyệncải thiện mô hình ngôn ngữ (language model) - trên bộ dữ liệu gồm 5 triệu câu
để thực hiện được một phần nội dung mình muốn cải thiện sắp tới cho mô hình
PhoBERThase.
Cùng với đó, một chương trình minh họa về bài toán này đã được triển khai,cho phép người dùng trực tiếp tự động thu thập các bình luận trên trang bán hàngcủa mình (hiện chỉ hỗ trợ Shopee) và tạo báo cáo tổng quan về đánh giá của người
dùng đành cho thương hiệu của mình (brand image/sentiment index/audience
scale).
Trong tiến trình thực nghiệm, tôi cũng đã tiến hành đánh giá, so sánh vớinhững kết quả tốt nhất ứng với mỗi dữ liệu
Trang 15Chương 1
MỞ ĐẦU
Trong chương này, nhóm sẽ giới thiệu tổng quan về bài toán Phân tích cảm
xúc và những thành công nhất định khi tiếp cận bài toán này với các kiến trúc
mạng học sâu.
1.1 Đặt vẫn đề
Trong khoảng những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc củaInternet và nhu cầu tham khảo các phản hồi của những khách hàng trước đó khimua sắm trực tuyến ngày càng tăng Thế nên, những trang mạng hiện nay được
phát triển cho phép các người dùng có thể chia sẻ những trải nghiệm, đánh giá,
nhận xét và phản hồi vẻ các loại hình dich vụ, sản phẩm của các doanh nghiệp, tổchức Khi người dùng quyết định lựa chọn mua một sản phẩm hay dịch vụ nào đókhông những xem xét các thông tin về sản phẩm, dịch vụ đó mà còn có xu hướngquan tâm đến phản hồi của những người dùng khác Khi tiến hành tham khảocác đánh giá, phản hồi của những người dùng khác thì các khách hàng thường có
xu hướng đưa ra các quyết định lựa chọn dịch vụ, sản phẩm phù hợp và đáng tincậy hơn Cùng với đó, các doanh nghiệp, dịch vụ và các tổ chức cũng tiến hànhthu thập các thông tin phản hồi của người dùng về các sản phẩm, dịch vụ của
họ để đưa ra các hướng đi đúng đắn hơn Tuy nhiên, với lượng lớn các thông tin
phản hồi của người dùng về dịch vụ, sản phẩm nào đó thì người dùng và cácdoanh nghiệp, tổ chức khó có thể mà quan tâm được hết Dé giải quyết van dénày, các doanh nghiệp, tổ chức và người dùng cần một hệ thống có thể phân tích
tự động được tat cả các phản hồi và tóm tat lại được tat cả các phản hồi để khách
hàng, doanh nghiệp tham khảo và đưa ra các quyết định nhanh chóng
Trang 16Chương 1 MỞ ĐẦU 2
Mặt khác, việc phân tích tích đánh giá phản hồi của các bạn sinh viên trong
quá trình học tập cũng đóng góp một vai trò quan trọng không kém Tuy nhiên,
phần lớn các phản hồi chỉ dừng lại ở mức khảo sát và đánh giá một cách tổngquát chứ chưa thực sự nắm hiểu sâu được vấn dé
Hiện nay, những thông tin mà các hệ thống được sử dụng để phân tích các
phản hồi của người dùng trên các trang mạng thường chỉ quan tâm đến các thang
điểm mà người dùng đánh giá về các sản phẩm, dịch vụ đó Tuy nhiên, các thangđiểm đánh giá phản hồi thì không thể hiện khách quan mức độ hài lòng của
người dùng bằng những câu văn, những đoạn bình luận
Do đó, một số hệ thống cũng đã được xây dựng để tiến hành phân tích cáccâu văn bình luận của người dùng Ví dụ, đối với câu bình luận của người dùng
về nhà hàng như “Đồ ăn thì rất là ngon luôn đó, dịch vụ tốt nữa nhưng có nhược
điểm thì hơi khó tìm một tý” Đối với hệ thống phân tích ý kiến thì với câu bìnhluận như thé của người dùng thì hệ thống sẽ trả về là tích cực
Đối với lĩnh vực nhà hàng, trước khi khách hàng tiến hành đặt mua đồ ăn,thức uống hay chọn nhà hàng cho các buổi tiệc thì người dùng cũng chú trọng
đến các phản hồi của những khách hàng trước đó để cân nhắc trong việc lựa
chọn Ngoài ra, với lĩnh vực nhà hàng, người dùng còn quan tâm cụ thể đến từng
khía cạnh vấn đề để đưa ra quyết định lựa chọn như chất lượng thức ăn, nước
uống, dịch vụ, không gian, giá cả, v.v chứ không đơn thuần chỉ quan tâm đến
tổng quan của nhà hàng Bằng việc phân tích chỉ tiết trạng thái của các khía cạnh,
chúng ta có thể khai thác được nhiều thông tin từ đánh giá của người dùng Nhậnthấy tầm quan trọng của việc đi sâu vào phân tích các khía cạnh, chúng ta cần một
hệ thống có thể thực hiện bài toán phân tích ý kiến theo khía cạnh của bình luận
người dùng ở trên miễn dữ liệu nhà hàng
Hiện nay, bài toán phân tích ý kiến theo người dùng được quan tâm ở rấtnhiều lĩnh vực khác nhau, từ giáo dục đến khảo sát ý kiến xã hội học và hơn hết
là lĩnh vực dịch vụ/kinh doanh Hầu hết các bộ ngữ liệu cũng như các thuật toán
được xây dựng và thử nghiệm trên nhiều ngôn ngữ khác nhau như tiếng Anh,
tiếng Trung Quốc v.v Tuy nhiên đối với tiếng Việt, chưa có nhiều bộ ngữ liệuđược xây dựng để phục vụ cho cộng đồng nghiên cứu
Trang 17Chương 1 MỞ ĐẦU 3
1.2 Đối tượng và phạm vi nghiên cứu
1.2.1 Đối tượng nghiên cứu
Đối tượng quan trọng đầu tiên trong nghiên cứu này, đó là các câu bình luận
của người dùng /các bạn sinh viên Các câu bình luận/phản hồi này được khaithác từ những phản hồi của người dùng trên các trang mạng về các địa điểm ănuống như: nhà hang, quán ăn, tiệm bánh, v.v Và đồng thời là các phản hồi từ
việc mua/sử dụng dịch vụ cũng như khảo sát của các bạn sinh viên trong quá
trình học tập.
1.2.2 Phạm vi nghiên cứu
Phạm vi được tiền hành nghiên cứu này là những bình luận của người dùngtrên các trang mạng về các địa điểm ăn uống như nha hang, quán ăn, quán bánh,quán cafe, v.v Và phản hồi của các bạn sinh viên trong quá trình tham gia họctập Đối với nghiên cứu này, tôi thực hiện trên bài toán phân tích cảm xúc bìnhluận/phản hồi của người dùng
1.3 Mục tiêu của nghiên cứu
Trong nghiên cứu này, tôi tiến hành nghiên cứu, tìm hiểu và giải quyết các
mục tiêu chính như sau:
© Nghiên cứu và thực nghiệm kiến trúc mang học sâu mang tính chất phức
tạp và đòi hỏi nhiều tài nguyên trong quá trình thực hiện - nhưng mang lạinhiều kết quả nổi bật - PhoBERTs„;¿ Đồng thời là áp dung các kĩ thuật lam
giàu dữ liệu (data augmentation) như dùng từ đồng nghĩa (synonym
re-place), fill-mask BERT|| back translate (dịch ngược), da được chứng minh tính hiệu qua ở nhiều nghiên cứu khác nhau (38) {40} {13} 50].
e Phân tích va so sánh hiệu qua giữa các mô hình học sâu theo hướng có sử
dụng kĩ thuật làm giàu dữ liệu với các mô hình nghiên cứu hiện tại.
https : /“/huggingface co/transformers/_modules/transformers/pipelines/fi11_
mask html
Trang 18Chương 1 MỞ ĐẦU 4
¢ Đánh giá một cách tổng quan mức độ cải thiện của các kỹ thuật làm giàu dữ
liệu không chỉ ở mô hình phức tạp - đòi hỏi nhiều tài nguyên huấn luyện(như PhoBERTpas¿) mà còn ở các mô hình truyền thống
e Xây dựng chương trình minh họa cho phép đơn vị kinh doanh thu thập
bình luận của khách hàng khi trải nghiệm sử dụng dịch vụ và tạo thống kêtổng quan
© Đánh giá mức độ hiệu quả của mô hình khi mở rộng huấn luyện trên mô
hình ngôn ngữ (language model) so với trực tiếp sử dụng PhoBERTgase
1.3.1 Kết quả của nghiên cứu
Với những nội dụng được thực thi trong nghiên cứu này, tôi đạt được những
kết quả như sau:
¢ Thực nghiệm sử dụng mô hình PhoBERT gase trên 4 bộ đữ liệu, thuộc 3 ngữ
cách khác nhau (từ giáo dục cho đến sử dụng dịch vụ/khách sạn và mua
sắm trên các nền tảng e-com)
se Thực nghiệm kết hợp mô hình PhoBERT pase với các mức độ làm giàu ngữ
liệu khác nhàu từ mức độ ký tự, cho đến từ và ngữ cảnh (với lần lượt các tỉ
lệ là 10-20-30-40%).
- Mức độ ký tự: kĩ thuật thêm - xóa - thay thé ký tự ngẫu định
- Mức độ từ: thay thế từ đồng nghĩa (synonym replacement)
- Mức độ ngữ cảnh: contextual word embedding và dịch ngược (đơn va
chuỗi trên hai ngôn ngữ tiếng Anh và tiếng Trung Quốc Phổ Thông)
¢ Đánh giá tính hiệu quả của kỹ thuật làm giàu dw liệu dựa trên
— Kết quả của bài toàn thực nghiệm phân tích cảm xúc người dùng
(sen-timent analysis).
— Kết quả đạt được khi sử dụng mô hình truyền thống SVM
- Đánh giá khách quan từ độ chuẩn xác của đữ liệu sinh ra (ở 3 văn cảnh
khác nhau, gồm tổng quan, mang tinh chủ dé và phức tạp)
Trang 19Chương 1 MỞ ĐẦU 5
yelp*
Cải thiện kết quả của kĩ thuật làm giàu dit liệu ở mức độ ngữ cảnh, cụ thể là
contextual word embedding Bằng việc, huấn luyện mô hình ngôn ngữ trêntập dt liệu gồm 5 triệu câu (từ các bình luận của người dùng để lại trên các
nền tang như Agoda, Booking, Mytour, và Foody)
Xây dựng mô phỏng - website, cho phép người dùng tự động trực tiếp thu
thập các bình luận từ trang bán hàng của mình (hiện tại chỉ hỗ trợ Shopee).
Tiến hành tạo báo cáo tự động, phân tích insights dựa trên các bình luận thu
thập được Các thông tin trong báo cáo gồm, tỉ lệ tích cực/tiêu cực/trungtính từ các bình luận của người dùng nhận diện về thương hiệu (brand
image), thống kê độ dài ngắn của các câu bình luận, từ khóa được người
dùng nhắc về thương hiệu Đồng thời là bảng kết quả chỉ tiết về các bình
luận đã thu thập được.
Cho phép người dùng tải lên dữ liệu cá nhân mình thu thập được trước đó
(chỉ hỗ trợ định dang file pickle).
Restaurants V HomeServices V AutoSerices V More V
YY Write a Review (6) Add Photo ch Share A save Find a Table
HINH 1.1: Minh hoa hệ thống đánh giá nhà hang bởi người dùng
trên trang web YeIrF]
"Yelp: nvtps://aww yelp con/
Trang 20Chương 1 MỞ ĐẦU 6
1.4 Phát biểu bài toán
Trong nghiên cứu này, tôi tiền hành tìm hiểu và nghiên cứu bài toán phân tích
bình luận/ đánh giá của người dùng /các bạn sinh viên trên bón bộ dữ liệu khác
nhau.
Bài toán xác định trạng thái cảm xúc, từ câu bình luận của người dùng và các
trạng thái cảm xúc được quan tâm đến trong nghiên cứu này là tích cực (positive),
trung tính (neutral) và tiêu cực (negative).
Nói một cách ngắn gọn, Phân tích cảm xúc - bài toán chính trong đề tài này
được phát biểu như sau:
© Đầu vào: Câu bình luận của người dùng về dịch vụ, sản phẩm trong nhà
hàng, quán ăn, và đồng thời là những phản hồi của các bạn sinh viên trong
quá trình học tập
¢ Đầu ra: Cảm xúc tương ứng được dé cập trong câu bình luận của người
dùng
Trong khóa luận này, nhóm đã có thực nghiệm nhất định tạo tiền dé áp dung
kĩ thuật làm giàu dữ liệu trong lĩnh vực Xử lý ngôn ngữ tự nhiên nói chung và bài toán Phân tích cảm xúc nói riêng.
1.5 Cau trúc khóa luận
Khóa luận được chia thành 6 Chương, câu trúc được trình bày như sau
° Chương] Mở đầu Trình bày lý do chọn nghiên cứu, đối tượng và phạm vi
nghiên cứu, mục tiêu cũng như kết quả đạt được
e Chương |2} Tổng quan Giới thiệu khái niệm về bài toán phân tích cảm xúc
người dùng, phân tích các hướng nghiên cứu đã được thực hiện trong và
ngoài nước liên quan đến bài toán này Trình bày bài toán trong nghiên cứunày tiền hành nghiên cứu và thực hiện
° Chương] Trình bày khái lược về bốn bộ dữ liệu được sử dụng trong nghiên
cứu Đồng thơi phân tích tổng quan về các bộ dữ liệu và tiến trình tiền xử
lý dữ liệu trước khi huấn luyện mô hình
Trang 21Chương 1 MỞ ĐẦU 7
° Chương] Mô hình phân tích cảm xúc người dùng Đồng thời, trình bày cơ
sở lý thuyết của các phương pháp được sử dụng để tiến hành thử nghiệm
Trong đó, bao gồm PhoBERT ase và các biến thể cho tiếng Việt
° Chương]] Thử nghiệm và kết quả thử nghiệm Trình bày quá trình cài đặt
thử nghiệm, các bảng thông số và phân tích kết quả giữa các thử nghiệm
e Chuong|6} Kết luận va hướng phát triển Tổng kết các kết quả quan trọng đã
đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và hướngphát triển trong tương lai
Trang 22Chương 2
TỔNG QUAN
Trong chương này, tôi tiến hành trình bay tổng quát bài toán phân tích cảmxúc người dùng (sentiment analysis - SA) là một trong số hai bài toán con của
phân tích khía cạnh cảm xúc (aspect-based sentiment analysis - ABSA) Đối với
bài toán SA thông thường, từ một câu bình luận của người dùng, kết quả trả về làcác trang thái cảm xúc tương ứng đồi với câu đó Và, đối với bài toán ABSA, phảitiến hành phân tích chỉ tiết các khía cạnh được đẻ cập đến trong câu bình luận và
cả trạng thái cảm xúc tương ứng cho từng khía cạnh đó.
2.1 Tổng quan về phân tích cảm xúc
Trong những năm gần dây, Phân tích cảm xúc (SA) được cộng đồng nghiên
cứu thuộc lĩnh vực NLP được đông đảo cộng đồng trong lẫn ngoài nước rất quan
tâm Đây là quá trình xác định và phân loại văn bản thành các cảm xúc khác nhau
— ví dụ, cảm xúc tích cực, tiêu cực hoặc trung tính — hoặc cảm xúc — chẳng hạn
như vui, buồn, tức giận hoặc ghê tém — để xác định thái độ của con người đối
với chủ thể hoặc thực thể cụ thể.
Phân tích cảm xúc cũng là một trong những công tác quan trọng trong lĩnh
vực NLP Nó không chỉ có ý nghĩa quan trọng trong học thuật, nghiên cứu mà
còn có ý nghĩa cực kì thiết yêu trong các ngành công nghiệp - dịch vụ, cụ thể là
việc nhận biết hành vi và thái độ của khách hàng về sản phẩm và dich vụ mà họ
sử dụng.
Với ngành công nghiệp - dịch vụ nói chung, SA được sử dụng như một công
cụ mạnh mẽ để tự động hóa quy trình phân tích và đánh giá ý kiến của ngườidùng Đối với lĩnh vực nhà hàng - khách sạn nói riêng, các ý kiến người dùng đó
Trang 23Chương 2 TONG QUAN 9
thường được thu thập từ các trang mang xã hội, hoặc các trang thu thập nhận xét
của khách hàng vẻ chất lượng cũng như mức độ hài lòng
Hiện nay, bài toán phân tích cảm xúc có ba cấp độ chính đó là cấp độ câu
văn (sentence-level), văn bản (document-level), và khía cạnh (aspect-level) Ở cấp
độ câu văn, mục tiêu của bài toán là phân loại một câu văn thành các lớp tiêu
cực (negative), tích cực (positive), hoặc trung tinh (neutral) Cấp độ văn bản được
dùng để xác định mức độ cảm xúc của một đoạn văn (gồm hai hay nhiều câuvăn) là tiêu cực, tích cực, hay trung tính Và cấp độ khía cạnh được dùng để xác
định mức độ cảm xúc cho mỗi khía cạnh của thực thể dé cập trong một văn ban
Trong phạm vi của khóa luận, giới hạn nghiên cứu nhóm sẽ chỉ nằm ở mỗi khía
cạnh cấp độ câu văn
HINH 2.1: Biểu đồ trình bày các cấp độ trong ngôn ngữ học gồm các
cấp độ phổ biến: Ngữ âm học (Phonetics), Âm vị học (Phonology),
Hinh thái hoc (Morphology), Cú pháp (Syntax), Ngữ nghĩa học
(Se-mantics) và Ngữ dụng học (Pragmatics)|"]
Đối với Bai toán phân tích cảm xúc, chúng sẽ thuộc cấp độ ngữ dung hoc
(Pragmatics) và ngữ nghĩa học (Semantics) Chúng ta có thể thay rang vi trí củabài toán này nằm ở vị trí nào trong lĩnh vực NLP - một nhánh của chuyên ngành
khoa học máy tinh, đó là vị trí với vai trò là một ứng dụng trong lĩnh vực NLP.
lGiới thiệu về ngôn ngữ - Lumen: https://courses.lumenlearning.com/
boundless-psychology/chapter/introduction-to-language/
Trang 24HINH 2.2: Mô tả ba nhiệm vụ của ABSA: Mục dich của bài toán
trích xuất mục tiêu ý kiến, trong trường hợp này là "sushi" và "phục vụ" Đối với bài toán xác định thực thể khía cạnh (aspect category detection), đã được thiết đặt các danh mục xác định trước, nhiệm vu
là xác định: thực thểkhía cạnh, khía cạnh của "sushi" là "Food" và thực thể biểu thị của khía cạnh là "Quality" Xác định cảm xúc của
một khía cạnh mục tiêu (sentiment polarity) - tích cực hoặc tiêu cực.
2.2 Tình hình nghiên cứu
ere
2.2.1 Tình hình nghiên cứu trên thé giới
Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến
theo khía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển
và đưa vào ứng dụng thực tế Khái niệm phân tích cảm xúc (sentiment analysis)
xuất hiện lần đầu tiên trong công trình của Nasukawa và Yi [24] Khai niém phan
tích ý kiến (opinion mining) xuất hiện lần đầu tiên trong công trình của Dave,
Lawrence and Pennock (8) Tuy nhiên, nghiên cứu được xem là dau tiên đặt nền
móng cho phân tích ý kiến là nghiên cứu của Pang và các cộng sự [32] Kể từ đó
các nghiên cứu trong bài toán này ngày càng được quan tâm và phát triển.
s Công trình đã tiến hành nghiên cứu về phân tích ý kiến từ các phản
hồi của người dùng đối với miền đữ liệu điện ảnh (movie domain) với haiphân lớp được quan tâm đến trong nghiên cứu là tích cực và tiêu cực Ba
phương pháp máy học (Naive bayes, maximum entropy classification và
support vector machine) được sử dụng để giải quyết van dé phan loai cac ykiến trong nghiên cứu nay
Trang 25Chương 2 TỔNG QUAN 11
® Nam 2010, Thet và các cộng sự tiến hành thực hiện nghiên cứu không
chỉ quan tâm đến việc phân tích ý kiến mà còn phân tích chỉ tiết các định
hướng cảm xúc và sức mạnh của cảm xúc của đánh giá đối với các khía cạnh
khác nhau trong miễn dữ liệu điện ảnh Phương pháp được đề xuất là sửdụng điểm số cảm xúc của bộ SentiWordNet để tiến hành tính toán cảm xúc
cho các khía cạnh khác nhau.
s Công trình của Kim Schouten va Flavius Frasincar giới thiệu tổng quan
về bài toán phân tích ý kiến trên khía cạnh Trong công trình này, tác giả
đưa ra các bài toán con của bài toán phân tích ý kiến theo khía cạnh, cách
phương pháp đánh giá và khảo sát các mô hình và kết quả thử nghiệm được
đề xuất đưa vào nghiên cứu trước đó đối với các bài toán con khác nhau
s® Haque và cộng sự đã sử dụng các bài đánh giá sản phẩm của Amazon
trong ba lĩnh vực: điện thoại di động và phụ kiện, âm nhạc và thiết bị điện
tử Họ đã phân loại cảm xúc thông qua Linear SVM, Multinomial Naive
Bayes, Stochastic Gradient Descent, Random Forest, Hỏi quy logistic và Câyquyết định Va SVM thu được kết quả phân loại tốt nhất với độ chính xác
94,02% đối với các đánh giá ở lĩnh vực âm nhạc
¢ Singla và cộng sự đã thực hiện phân tích tình cảm các đánh giá về điện
thoại di động trên Amazon, họ đã phân loại văn bản thành các phân cực bao
gồm tích cực và tiêu cực, và cảm xúc tức giận, mong đợi, sợ hãi, vui vẻ, buồn
bã, ghê tởm, ngạc nhiên và tin tưởng Việc phân loại được thực hiện thông
qua SVM với đến độ chính xác là 84,85% Và, kết quả mang lại, thương hiệuSamsung nhận được nhiều phản hồi tích cực nhất từ khách hàng Nhữngkết quả này rất hữu ích cho các nhà sản xuất vì họ có thể làm việc trên các
phan hồi để cải thiện chất lượng sản phẩm
Để đáp ứng cho công tác nghiên cứu đối với bài toán, nhiều bộ ngữ liệu ở cácmiễn đữ liệu khác nhau và trên các ngôn ngữ khác nhau đã được xây dựng:
¢ Bộ ngữ liệu của Marianna Apidianaki và các cộng sự xây dựng trên hai
miễn dữ liệu nhà hang và viện bảo toàn trên ngôn ngữ tiếng Pháp Trong
công trình này, bộ ngữ liệu được xây dựng ở cấp độ câu với 2365 câu đốivới lĩnh vực nhà hàng và 655 câu đối với lĩnh vực viện bảo toàn Đồng thời,
Trang 26Chương 2 TỔNG QUAN 12
ngữ liệu này được xây dung theo hai nhiệm vụ của hội thảo SemEval2016
là cấp độ câu đánh giá trong miễn đữ liệu (in-domain sentence-level ABSA)đối với mién dữ liệu nha hàng và ngoài miền di liệu (out-of-domain) đốivới miền dữ liệu viện bảo toàn
e Trong hội thảo SemEval, nhiều bộ ngữ liệu đã được cung cấp ở nhiều ngôn
ngữ khác nhau để phục vụ cho bài toán phân tích ý kiến Hội thảo
Se-mEval2014 cung cấp một bộ ngữ liệu tiếng Anh đối với miền dữ liệu
nhà hàng bao gồm 3841 câu với 2041 được trích xuất từ bộ ngữ liệu củaGayatree Ganu và các cộng sự và miễn dữ liệu máy tính xách tay (lap-
top) với 3845 câu ngữ liệu Hội thảo SemEval2015 cung cấp bộ ngữ liệu
đối với ba miền dữ liệu là nhà hàng (2000 câu), khách sạn (266) và máy tínhxách tay (2500 câu) Ngữ liệu cho miền dữ liệu khách sạn được cung cấp để
giải quyết bài toán out-of-domain Tại hội thảo SemEval2016 [35] đã cung
cấp 19 bộ ngữ liệu huấn luyện (training datasets), 20 bộ ngữ liệu kiểm tra
(testing datasets) cho 8 ngôn ngữ và 7 lĩnh vực khác nhau và trong đó, 24
bộ ngữ liệu phục vụ ở cấp độ câu và 14 bộ ngữ liệu phục vụ cho cấp độ văn
bản.
2.2.2 Tình hình nghiên cứu trong nước
Bên cạnh những công trình nghiên cứu trên thế giới, bài toán phân tích cảm
xúc người cũng thu hút được cộng đồng nghiên cứu trong nước trên đa dạng các
miễn dit liệu khác nhau như nhà hàng, khách sạn, điện tử và giáo dục, v.v Theonhư tôi tìm hiểu, công trình nghiên cứu đầu tiên về phân tích ý kiến trên tiếng
Việt được thực hiện bởi Kieu & Pham trên cấp độ câu văn và xây dựng một
hệ thống dựa trên rule-based system, với nền tảng Gate, tiến hành thực nghiệmđánh giá trên bộ ngữ liệu về miền dữ liệu máy tính đạt được độ đo E1 là 62.84%
Vu và cộng sự trình bày một nghiên cứu về việc khai thác ý kiến dựa trên
khía cạnh đánh giá sản phẩm bằng cách trích xuất các ý kiến rõ ràng hoặc ngụ
ý sử dụng quy tắc cú pháp tiếng Việt Tiếp theo, Le và các cộng sự [14] đề xuất
phương pháp học bán giám sát GK-LDA cho việc trích xuất và phân loại các thuậtngữ khía cạnh cho văn bản tiếng Việt
Trang 27Chương 2 TỔNG QUAN 13
Duyên và cộng sự [1| sử dung Na"1ve Bayes, Max Entropy Model và SVM
để phân loại các đánh giá trên trang Agoda, nền tang cho phép người dùng đặtphòng khách sạn khi di du lịch Kết qua cho thay mô hình SVM dat được kết quatốt nhất Quan và công sự sử dụng phương pháp học sâu, dé xuất một môhình kết hợp Long-short term memory (LSTM) và CNN, cụ thé là LSTM-CNN
đa kênh (LSTM-CNN multi channel) phân tích tâm ly mua hang của người Việt.
Sự kết hợp mô hình đạt được hiệu suất tốt hơn khi chỉ sử dụng đơn lẻ mô hình
LSTM Cách tiếp cận này tương tự như [45], mô hình được sử dung để quan ly
các nhận xét tiêu cực trên các trang mạng xã hội Các vectơ từ (word vector) được
chuyển qua CNN và đầu ra sau đó được sử dụng làm đầu vào cho LSTM để thực
hiện phân loại.
Gần đây, nhóm tác giả [31] thử nghiệm với hai phương pháp tỉnh chỉnh BERTcho nhiệm vụ phân tích tình cảm trên 2 bộ đữ liệu bao gồm các đánh giá về déăn/nhà hàng trên Foody, đồng thời là bộ đữ liệu của Aivivn (đã được đề cậpphía trên) Với 2 phương thức tiếp cận van dé, thứ nhất là chỉ sử dung duy nhất
một token [CLS] làm đầu vào cho một mạng nơ-ron attached feed-forward neural
network và thứ hai là tất cả các vectơ đầu ra BERT được sử dụng làm đầu vào.Kết qua thử nghiệm trên hai tập dữ liệu cho thay các mô hình sử dung BERT tốt
hơn các mô hình đây sử dụng GloVe và FastText.
Rất gần đây, Lắc và cộng sự đã sử dụng phương thức kết của mô hình
Bidirectional Long-Short Term Memory kết hợp với CNN (BiLSTM-CNN) trênhai bộ dữ liệu, gồm bộ dữ liệu về các phản hồi của các bạn sinh viên trong quá
trình học tập (Vietnamese Student’s Feedback Corpus) và đánh giá của khách
hàng trên các nền tảng thương mại điện tử, cụ thể là Tiki Và kết quả công trình
nghiên cứu mang lại, đạt được 93.55% trên thang đo F1 trên bộ dữ liệu VSFC và
84.14% trên bộ dữ liệu còn lại, tăng thấp nhất 2.36% và cao nhất 8.55% so với các
công trình nghiên cứu ở thời điểm trước.
Và, hiện nay, các bộ dữ liệu về phân tích cảm xúc người dùng đã dần được
tập trung và xây dựng nhằm phục vụ cộng đồng nghiên cứu Điển hình, năm
2016, cộng đồng xử lý ngôn ngữ tự nhiên (Vietnamese Language and SpeechProcessing - VLSP) đã tiến hành tổ chức cuộc thi phân tích cảm xúc người dùng
trên các phản hồi mua hàng bởi Huyen và các cộng sự [28] Bên cạnh đó, gần đây
nhất, AIVIVN, một nén tang giúp tổ chức các cuộc thi machine learning cho cộng
Trang 28Chương 2 TỔNG QUAN 14
đồng được thực hiện và giám sát bởi diễn đàn machinelearningcobar[]| đã giới thiệu bộ dt liệu phân loại sắc thái bình luận trên các trang thương mại điện tu}
2.2.3 Nhận xét
Đối với bài toán phân tích sắc thái bình luận/ đánh giá, các công trình đã thực
nghiên cứu ở mức đa dạng và đã tiến hành/thử nghiệm nhiều phương án tiếp
cận khác nhau, từ truyền thống sử dung SVM, Random forest, cho đến các mạng
học sâu CNN, BiLSTM, LSTM Tuy nhiên, đến thời điểm hiện tại, vẫn chưa cónhiều công trình thực hiện đánh giá/thử nghiệm mô hình trên 4-5 bộ dữ liệu
khác nhau, mà chỉ dừng lại ở mức tối đa là 2-3 bộ dữ liệu Đồng thời, phương án
sử dụng các mô hình đánh giá có tiém năng hiệu quả cao của những năm gan
đây như - BERT, Transformer vẫn chưa thực sự khai thác triệt để, chỉ dừng lại
thử nghiệm mô hình pre-trained của PhoBERT pase Trong khi đó, rat còn nhiều
phương án mô hình như, viBert4news, viBERT_ FPT, viELECTRA_FPT, XLMR,
Bên cạnh đó, sự kết hợp thêm các kĩ thuật làm giàu dữ liệu vẫn chưa nhận đượcnhiều sự khai thác
Nhận thay tầm quan trọng và nhu cầu cần thiết của bài toán, đồng thời là
nhiều tiềm năng để thực nghiém/nghién cứu các mô hình/kỹ thuật mới Tôithúc đẩy cho công tác nghiên cứu cũng như phát triển các phương pháp xử lý,thử nghiệm đối với bài toán này
Trang 29học có giám sát (supervised learning) [20] Với thuật toán học có giám sát, chúng
ta cần phải có một bộ ngữ liệu mẫu được gán nhãn để tiến hành huấn luyện cho
hệ thống Bộ ngữ liệu mẫu để huấn luyện sẽ quyết định đến chất lượng của hệ
thống.
What data scientists spend the most time doing
® Building training sets: 33%
® Cleaning and organizing data: 60%
® Collecting data sets; 17%
© Mining data for patterns: #%
® Refining algorithms: 4%
® Other 5%
HINH 3.1: Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ
thống khoa học ngữ liệu Nguồn: báo cáo về học ngữ liệu 2016 BỊ:
Trang 30Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
PHAN HOI
Từ hình 3.1 được trích xuất từ báo cáo về khoa học ngữ liệu [5], chúng ta có
thể thấy được rằng quá trình xây dựng một hệ thống khoa học ngữ liệu thì gần
như toàn bộ thời gian đều liên quan đến ngữ liệu với 88% tổng thời gian (9% thời
gian dành cho công tác phân tích ngữ liệu, 19% thời gian cho việc thu thập ngữ
liệu và 60% thời gian dành cho việc làm sạch và tổ chức lại ngữ liệu)
3.1 Giới thiệu về bộ dw liệu
Trong nghiên cứu, các bộ dữ liệu tôi sử dụng để thực hiện quá trình thực
nghiệm bao gồm: Hotel Sentiment Analysis (HSA), VLSP Sentiment Analysis(VLSP),
Vietnamese Students’ Feedback Corpus (UIT-VSFC), Vietnamese Sentiment
Anal-ysis (VS)
3.1.1 Vietnamese Language and Speech Processing Sentiment
Anal-ysis(VLSP)
Hoạt động đầu tiên liên quan dau tiên đến bài toán phân tích tình cảm trên
tiếng Việt được tổ chức tại VLSP 2016 (SA-VLSP2016) Với tổng cộng 12190 câu
(xem Hình (3.2), bộ dữ liệu nay bao gồm các bình luận ngắn gọn trên các bài báo
kỹ thuật được thu thập từ các diễn đàn và mạng xã hội (tinhte.vn, vnexpress.net
và Facebook), với nhãn dữ liệu gồm tích cực (positive), tiêu cực (negative) và
trung tính (neutral) được giới thiệu bởi [28].
Các bình luận có thể rất phức tạp do ứng với mỗi đối tượng được đề cập,
người dùng lại có những cảm xúc khác nhau, ví dụ: “quán bán đồ ăn rất ngon,
nhưng nhân viên hơi không thân thiện và giá đắt” Do đó, nhóm tác giả đã đặt
một số ràng buộc trên tap dtr liệu như sau:
¢ Bộ dữ liệu chỉ chứa các đánh giá có ý kiến cá nhân
¢ Dữ liệu thường là các bình luận ngắn, chứa các ý kiến về một đối tượng
Không có giới hạn về số lượng các khía cạnh của đối tượng được đề cập
trong nhận xét.
® Nhãn (tích cực/tiêu cực/trung tinh) là cảm xúc chung của toàn bộ câu đánh
giá.
Trang 31Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
PHAN HOI
¢ Bộ dữ liệu được thu thập từ mang xã hội, không tu tạo thủ công.
Thông thường, rất khó để đánh giá một nhận xét trung lập vì các ý kiến luôn
có xu hướng tiêu cực hoặc tích cực Nhóm tác giả thường đánh giá một là trung
lập khi không thể quyết định nó là tích cực hay tiêu cực Nhãn trung lập còn được
sử dụng cho các trường hợp trong đó có cả ý kiến tích cực và tiêu cực nhưng khikết hợp chúng lại, nhận xét đó trở nên trung lập
HINH 3.2: Bộ dữ liệu VLSP (a) Phân bố nhãn của tập đữ liệu tương ứng trên tập huấn luyện và tập kiểm tra (b) Tỉ lệ đồ dài của câu ứng
với mỗi nhãn có trong dữ liệu.
3.1.2 Hotel Sentiment Analysis (HSA)
Bộ dữ liệu được trình bày trong nghiên cứu [12] Bộ dir liệu được lấy từ
Agoda} nền tang cho phép người dùng đặt phòng khách san trực tuyến Nhóm
tác giả trích xuất các bài đánh giá bằng tiếng Việt từ 50 khách sạn đặt tại Việt Nam
(chủ yếu ở Hà Nội, Hồ Chi Minh, Da Nẵng, và Nha Trang) Sau đó, tiến hành một
số bước tiền xử lý Đồng thời, bộ dữ liệu cũng đã được loại bỏ câu không chuẩntiếng Việt, tức là các câu không có day đủ âm tiết/dấu câu
Bộ ngữ liệu gồm 3304 câu, trong đó có 1980 câu được gan nhãn tích cực, 777
câu phủ định và 547 câu trung lập (xem Hình 3.3).
TA goda: https: //www.agoda.com/
Trang 32Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
mỗi nhãn có trong dữ liệu.
3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSFC)
UIT-VSEC, là bộ dữ liệu đầu tiên được thực hiện trong lĩnh vực giáo dục Cụ
thể, bộ dữ liệu được thu thập dựa trên những phản hồi của các bạn sinh viên
trong quá trình tham gia học tập tại trường, được thực hiện trong nghiên cứu
[44].
Bộ dữ liệu UIT-VSFC được sử dung cho hai nhiệm vu khác nhau: (1) phân
loại dựa trên cảm xúc (sentiment-based) va dựa trên chủ dé (topic-based) Họ thu
thập phản hồi của sinh viên thông qua các cuộc khảo sát sinh viên vào cuối học
kỳ 2013 và 2016, với hơn 16.000 phản hồi Có hai loại phan hồi chính: (1) phảnhồi từ giảng viên cho sinh viên để giúp đỡ học sinh nhận thức được điểm yếu
và điểm mạnh của mình để cải thiện nghiên cứu và (2) phản hồi từ sinh viên cho
giảng viên để phản ánh và cải thiện giảng dạy của họ Đặc biệt, sinh viên đưa ra
ý kiến về một loạt các van dé khác nhau Ví du: phản hồi của sinh viên thể hiện
những gì sinh viên thích hoặc không thích về bài giảng cũng như những gì giảng
viên giảng dạy là xuất sắc hoặc quá tệ
Trang 33Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
HINH 3.4: Bộ dữ liệu UIT-VSFC (a) Phân bố nhãn của tập dữ liệu
tương ứng trên tập huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ đồ dài
của câu ứng với mỗi nhãn có trong dữ liệu.
3.1.4 Vietnamese Sentiment Analysis (VS)
VS là tập dữ liệu đánh giá của người dùng về các sản phẩm gồm 17.500
đánh giá /nhận xét từ các trang thương mại điện tử của Việt Nam (gồm TinhTe.vn,
Tiki.vn, v.v.) và được gắn nhãn tích cực/tiêu cực/trung tính bởi ba người Nhómtác giả đã sử dụng xác thực chéo (fold cross-validation) 5 lần để báo cáo kết quả
thử nghiệm Tập di liệu này được xuất bản trên GithutÏ] của nghiên cứu.
*https: //github.com/ntienhuy /MultiChannel
Trang 34Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
negative neutral postive (b) ° = z ave lang
Body mass fa)
°
(a)
HINH 3.5: Bộ dữ liệu VS (a) Phân bố nhãn của tập dữ liệu tương ứng
trên tập huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ dé dài của câu
ứng với mỗi nhãn có trong dữ liệu.
Data N € | Ípre—aog | lpre—max | lao | may | |V| | Test
HSA 3304 |3| 13.67 161 9.00 | 124 | 1434| CV
VS 17500 | 3) 32.14 905 27.88 | 712 | 5816| CV UIT-VSFC | 16174 | 3) 14.22 161 9.57 | 124 | 4336 | 3166
VLSP 6150 | 3} 28.86 2885 26.15 | 2481 | 9496 | 1050
BANG 3.1: Thống kê tóm tat cho kho ngữ liệu thử nghiệm N: kích thước dữ liệu c: Số lớp mục tiêu I pre—avg: Trung bình độ dài câu
trước khi quá trình tiền xử lý Ipre-max: Độ dai câu dài nhất trước
quá trình tiền xử lý l;„¿: Trung bình độ dài câu sau khi quá trình
tiền xử lý J„ax:Độ dài câu dài nhất sau quá trình tiền xử lý |V|: Kích
thước từ vung Test: Kích thước tập đánh giá (CV có nghĩa là đánh
giá thông qua kiểm chéo (cross-validation).
3.2 Tien xử lý dữ liệu
Công tác tiền xử lý, làm sạch ngữ liệu được tiến hành qua một số công tác sau
với các bước cơ bản được trình bày ở nghiên cứu của (71, kết hợp với một vài xử li
được tôi trình bày phía bên dưới:
© Dau tiên, các trường hợp bình luận không phải là ngôn ngữ tiếng Việt được
loại bỏ đi Đồng thời, các bình luận của người dùng mà toàn bộ bình luậntiếng Việt viết không dấu cũng được tiến hành loại bỏ
Trang 35Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC
PHAN HOI
« Tiếp theo, thu viện UETSegmentationf để tiến hành phân tách các bình
luận của người dùng thành các câu đơn Tuy nhiên, vì là ngữ liệu được thu
thập từ các trang mạng nên nhiều bình luận của người dùng không đúng
ngữ pháp như thiếu dấu câu, sử dụng dấu câu không đúng Thế nên, tôitiến hành thêm và điều chỉnh dấu câu cho các đoạn bình luận trước khi
phân tách thành các câu đơn.
* Cuối cùng tôi loại bỏ di các câu trùng nhau trong bộ ngữ liệu
https://github.com/phongnt570/UETsegmenter
Trang 36Chương 4
LÝ THUYÊT
Trong phần này, tôi thực hiện trình bày lí thuyết về các phương pháp tỉnh
chỉnh dựa trên các mô hình ngôn ngữ được đào tạo trước (pre-trained language
model) trên BERT, và các biến thể của nó cho tiếng Việt
4.1 Mô hình BERT
Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer (Bidirectional Encoder
Representations from Transformers hay viết tắt là BERT) là một kỹ thuật học máydựa trên các transformer được dùng cho việc huấn luyện trước xử lý ngôn ngữ
tự nhiên (NLP) được phát triển bởi Google Jacob Devlin và cộng sự từ Google đã
tạo ra và công bó BERT vào năm 2018 [9].
Mô hình BERT bằng tiếng Anh ban đầu đi kèm với hai dạng tổng quát đượcđào tạo trước:[1]: (1) mô hình the BERTy,ase, kiến trúc mạng thần kinh chứa 12-lớp,768-lớp ẩn, 12-dau, 110M tham số, và (2) mô hình BERTI,;„.„ kiến trúc mạng than
kinh chứa 24-lớp, 1024-lớp ẩn, 16-dau, 340 triệu tham s6 Cả hai đều được huấn
luyện từ BooksCorpus với 800 triệu từ, và một phiên bản của Wikipedia tiếngAnt] véi 2,500 triệu từ.
BERT có nguồn gốc từ các biểu diễn theo ngữ cảnh trước đào tạo trước bao
gồm học trình tự bán giám sát (semi-supervised sequence learning), li
Genera-tive Pre-Training, ELMo (33), and ULMFit [19] Không như các mô hình trước đó,
BERT là một biểu diễn ngôn ngữ không giám sát và hai chiều sâu, được đào tạo
trước chỉ sử dụng một kho ngữ liệu văn bản thuần túy
Trang 37Chương 4 LÝ THUYẾT 23
Các mô hình không có ngữ cảnh như Word2vec hay GloVe (học máy) tạo ra
các biểu diễn từ nhúng đơn cho mỗi từ trong tập từ vựng, trong khi đó BERT tínhđến ngữ cảnh cho mỗi lần xuất hiện của một từ cho trước Ví dụ: vectơ của từ
"running" có biểu diễn vectơ Word2vec giống nhau trong hai lần xuất hiện của từ
"running" trong các câu "He is running a company" (anh ấy đang diéu hành một
công ty) và "He is running a marathon" (anh ấy đang chạy marathon), trong khi
đó BERT cung cấp một nhúng từ theo ngữ cảnh và sẽ khác nhau tùy thuộc theo
câu ví dụ.
Masked Sentence A Masked Sentence B
Pre-training Fine-Tuning
HÌNH 4.1: Kiến trúc của mô hình BERT được trình bày trong (9).
4.2 Các biến thể cua BERT dành cho tiếng Việt
Cho đến nay, có rất nhiều mô hình ngôn ngữ được đào tạo trước với các cài
đặt khác nhau cho tiếng Việt bao gồm cả mô hình đơn và đa ngôn ngữ Danh sách
các mô hình có sẵn cho tiếng Việt được tóm tắt như sau:
® PhoBERTpase (26): Đây là mô hình ngôn ngữ được dao tạo trước ở cấp độ từ
(word-level) đầu tiên cho tiếng Việt Mô hình này được huấn luyện và đánh
giá trên 20GB nguồn dữ liệu (Wikipedia + tin tức) và có hai phiên bản Kết
quả thử nghiệm đã chứng minh rằng mô hình này hoạt động tốt hơn mô
hình XLM-R [4] ở bốn tác vu downstreams/|
¢ viBERT4News: Mô hình này được huấn luyện dựa trên 20GB bộ dữ liệu tin
tức dựa trên kiến trúc BERT [10] cho tiếng Việt Nhóm tác giả đã sử dụng
2Downstream tasks are what the field calls those supervised-learning tasks that utilize a
pre-trained model or component
Trang 38Chương 4 LÝ THUYẾT 24
word sentence piece và mã hóa BERT (BERT tokenization) Ứng dụng của
mô hình này đồng thời đã được tích hợp vào hệ thống VĩiNLP P|cho tiếng
Việt.
¢ viBERT (41): Tương tự như viBERT4News, mô hình nay cũng được huấn
luyện trên các bộ dữ liệu là các trang báo mạng được xử lý trước Tuy nhiên,
các từ vựng của mô hình này được sửa đổi từ mô hình mBERT bằng cáchloại bỏ các từ vựng không xuất hiện trong bộ dữ liệu huấn luyện Do hạn
chế về tài nguyên, mô hình này chỉ huấn luyện trên 10GB dữ liệu
® viELECTRA [41]: Nhóm tác giả đã sử dụng kiến trúc ELECTRA trên 60GB
dit liệu từ hai nguồn (NewsCorpus + OscarCorpus) Mô hình được dao taotrước (pre-trained model) này cũng được chia sẻ dang mã nguồn mở đểnghiên cứu mở rộng nghiên cứu cho cộng đồng
¢ mBERT [10]: BERT đa ngôn ngữ được nghiên cứu bởi [10], huấn luyện trên
dit liệu Wikipedia của 104 ngôn ngữ khác nhau bao gồm cả tiếng Việt
se XLM-R IHỆ XLM-R được đề xuất bởi [4] để thực hiện các nhiệm vu đa ngôn
ngữ và đạt được kết quả ấn tượng (SOTA) trong nhiều nhiệm vụ cơ bản
trong NLP, đặc biệt là đối với các ngôn ngữ ít tài nguyên đữ liệu
(low-resources languages) May mắn thay, tiếng Việt là có số lượng về mặt ngữ
liệu lớn thứ 4 trong dữ liệu huấn luyện của nhóm tác giả này.
4.3 Ky thuật làm giàu dư liệu (Data augmentation)
Data augmentation (làm giàu dữ liệu) đang ngày trở thành tiêu điểm trong
những năm gan đây, từ nguồn dữ liệu huấn luyện hạn ché sẽ tự động tạo ra nhiều
dữ liệu đào tạo hơn được coi là học bán giám sát Sennrich et al [38], Sugiyama va
Yoshinaga đã sử dung kỹ thuật back translate (dịch ngược) dé tạo ra nguồn
dữ liệu mới nhằm cải thiện hiệu suất của mô hình Trong nghiên cứu của nhómtác giả [13] cũng đã dé xuất một cách tiếp cận mới nhằm tăng cường dữ liệu đàotạo để cải thiện mô hình dịch thuật Về cơ bản, cách tiếp cận này nhắm mục tiêu
vào các từ có tần suất thấp để tạo ra các cặp câu mới chứa các từ hiếm (rare words)
3ViNLP: https: //github.com/bino282/ViNLP
Trang 39Chương 4 LÝ THUYẾT 25
và ngữ cảnh được tạo ra một cách đa dạng Kobayashi đề xuất sử dụng kĩthuật với việc đa dạng hoá ngữ cảnh trong câu Họ ngẫu nhiên thay thế các từ
bằng các từ dự đoán khác bằng mô hình ngôn ngữ (language models) được cải
tiến với kiến trúc có điều kiện nhãn cho phép mô hình tăng cường câu mà khôngphá vỡ tính tương thích của nhãn Wei và Zou đã áp dụng một số kỹ thuật
tăng dữ liệu dé dang (Easy Data Augmentation - EDA), cụ thể là từ thay thé bằng
các từ đồng nghĩa, hoán đổi ngẫu nhiên, chèn ngẫu nhiên, xóa ngẫu nhiên dé tạo
dữ liệu mới Mặc dù các kỹ thuật này dễ thực hiện, không phụ thuộc vào bất kỳ
ngoại cảnh nào tài nguyên, chúng phần nhiều cũng đã cải thiện đáng kể hiệu suất
hoạt động của mô hình.
Và trong nghiên cứu này, tôi gôm nhóm các kĩ thuật dữ liệu này thành 3 cấp độ
- dưa trên tính chất hoạt động của, gồm có làm giàu dữ liệu ở mức độ kí tự
(char-acter augmenter), mức độ từ (word augmenter) và mức độ ngữ cảnh (contextual
augmenter).
4.3.1 Character Augmenter
Tăng cường dữ liệu ở cấp độ ký tự Các tình huống được ra là lỗi đánh máymặc dù hầu hết các ứng dụng đều có tính năng sửa từ Tôi mô phỏng lỗi này bằng
các cách thức sau, (1) thêm ký tự ngẫu nhiên (insert character randomly), (2) lặp
ký tu (repeat character randomly), (3) xoá ký tự (delete character randomly), (4)
hoán vị ký tu (swap character randomly) Trong nghiên cứu nay, ứng với mỗi câu
đầu vào sẽ ngẫu nhiên sinh ra dữ liệu mới bằng việc mô phỏng 1 trong 4 lỗi trên
Trang 40HÌNH 4.2: Biểu diễn giá trị của từ.
4.3.3 Contextual Word Embeddings Augmenter
Masked Language Model Cac mô hình Transformers như BERT, ROBERTA và
ALBERT đã được huấn luyện trên một lượng lớn văn bản bằng cách sử dụng một
nhiệm vụ có tên là “Masked language modeling” trong đó mô hình phải dự đoán
các từ được che dựa trên ngữ cảnh Chính vì lý do này, chúng ta có thể sử dụng
để làm giàu nguồn dữ liệu Ví dụ: chúng ta có thể sử dụng mô hình BERT đượcđào tạo trước, che một số phần của văn bản và yêu cầu mô hình BERT dự đoán
giá tri (token) cho vị trí đó So với các cách tiếp cận trước đây, văn bản được tạo
mạch lạc hơn về mặt ngữ pháp do mô hình có tính đến ngữ cảnh khi đưa ra dựđoán Garg et al sử dụng ý tưởng này để tạo ra các ví dụ đối nghịch để phân
loại văn bản Tương tự mức độ làm giàu ngữ liệu ở mức từ, ứng với mỗi câu, tỉ lệ
số lượng từ được thay thế cũng là 20% tổng số từ của câu