Đối tượng: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học.. Qua quá trình ng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
DOAN LONG AN
KHOA LUAN TOT NGHIEP
TANG CƯỜNG KHẢ NANG PHAN TÍCH CẢM XÚC
BẰNG PHƯƠNG PHÁP TIẾP CẬN TỪ VỰNG CẢM XÚC
TREN VĂN BẢN TIENG VIỆT
IMPROVING SENTIMENT ANALYSIS BY EMOTION LEXICON APPROACH ON VIETNAMESE TEXTS
CU NHAN NGANH KHOA HOC DU LIEU
TP HO CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
DOAN LONG AN - 19521173
KHOA LUAN TOT NGHIEP
TANG CƯỜNG KHẢ NANG PHAN TÍCH CẢM XUC
BANG PHUONG PHAP TIEP CAN TU VUNG CAM XUC
TREN VAN BAN TIENG VIET
IMPROVING SENTIMENT ANALYSIS BY EMOTION
LEXICON APPROACH ON VIETNAMESE TEXTS
CỬ NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS LƯU THANH SON
TP HO CHÍ MINH, 2022
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngây của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CÁM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành nhất đến Thay Lưu Thanh Sơn
đã đông hành và tận tình hướng dẫn em trong suốt quá trình học tập, nghiên cứu
và công bé bài báo khoa học.
Em cũng xin cảm ơn Khoa Khoa học và Kỹ thuật thông tin và các Anh Chị
di trước, đặc biệt là anh Trần Quốc Khánh đã tạo điều kiện cho em được học hỏi,
nghiên cứu và hỗ trợ em hoàn thành khoá luận này.
Bên cạnh đó, em xin chân thành cảm ơn quý thay cô của Trường Đại học Công nghệ Thông tin nói chung và quý thay cô của Khoa Khoa học và Kỹ thuật
Thông tin nói riêng đã luôn nhiệt huyết, tận tâm giảng dạy và truyền đạt những kiến thức bồ ích cho chúng em Đây là những nên tảng tuyệt vời mà chúng em
không thé có được ở bắt kì nơi đâu Những kiến thức, kĩ năng chúng em nhận được trong suốt quá trình học tập sẽ là hành trang quý báu cho chúng em phát
triển và có thể đạt được những thành công sau này.
Cuối cùng em xin gửi lời cảm ơn đến gia đình và bạn bè đã luôn hỗ trợ em hết mình, không chỉ trên con đường học tập, rèn luyện Cảm ơn mọi người đã
luôn bên cạnh động viên, giúp đỡ, cũng như đưa ra những lời khuyên bồ ích Cho
em luôn tự tin vào bản thân và vững vàng trên con đường mình đã chọn.
Em xin chân thành cảm ơn!
Tác giả Đoàn Long An
Trang 5CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TEN DE TAI: TANG CƯỜNG KHẢ NĂNG PHAN TÍCH CẢM XÚC BẰNG PHƯƠNG
PHÁP TIÉP CAN TỪ VỰNG CẢM XÚC TREN VĂN BẢN TIENG VIỆT.
TÊN DE TÀI (tiếng Anh): IMPROVING SENTIMENT ANALYSIS BY EMOTION
LEXICON APPROACH ON VIETNAMESE TEXTS.
Cán bộ hướng dẫn: ThS Lưu Thanh Sơn
Thời gian thực hiện: Từ ngày 15/9 đến ngày 25/12
Sinh viên thực hiện:
Doan Long An — 19521173
Nội dung đề tài: (Mô tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của dé tài)
-_ Mục tiêu: Xây dựng các phương pháp xử lý dữ liệu, kết hợp cùng bộ từ điển cảm
xúc (emotion lexicon) nhăm tăng khả năng phân tích cảm xúc của các mô hình cho
tiếng Việt Bên cạnh đó thử nghiệm các ÿ thuật tiền xử lý đữ liệu có hiệu quả cho
tác vụ phân tích cảm xúc dữ liệu mạng xã hội; Cài đặt, tinh chỉnh các mô hình may
học nhằm kiểm chứng mức độ hiệu quả c'
đề xuất.
Pham vi: Mạng xã hội ngày nay tiềm an
chúng ta thay được những hậu quả nếu k
ủa các phương pháp tiếp cận từ vựng được
nhiều mối nguy hại và dần dần bộc lộ cho
hông thực sự kiểm soát tốt được nó Trong phạm vi khóa luận, chúng tôi tập trung vào bài toán phân tích cảm xúc (Sentiment
analysis) Bao gồm các tác vụ nhận dạng cảm xúc (Emotion recognition), phân tích cảm xúc và phát hiện nội dung xúc phạm (Hate speech detection), ứng với các bộ
đữ liệu mạng xã hội Việt Nam.
Đối tượng: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảm xúc của các mô
hình máy học Qua đó góp phần xử lý, loại bỏ các nội dung xấu ra khỏi không gian
mạng xã hội, tạo bộ lọc góp phan xây dựng không gian mạng tiêu chuân Cũng như
để xuất một số chương trình minh họa hỗ trợ giải quyết bài toán phân tích cảm xúc của các nội dung trên mạng xã hội Qua đó xây dựng môi trường văn minh theo
những tiêu chí mong muốn và bảo vệ người sử dụng khỏi các nội dung không lành
mạnh.
Phương pháp thực hiện:
Trang 6+ Đầu tiên, chúng tôi tiến hành các khảo sát cho phương pháp tiền xử lý văn
bản tiếng Việt từ những công trình đi trước, rút ra những hạn chế dé xây dựng và phát triển phương pháp xử lý mới một cách hiệu quả Bên cạnh
đó, phân tích các bộ từ vựng cảm xúc cho tiếng Việt hiện nay, lựa chọn các
bộ có tập thuộc tính phù hợp dé đưa vào kết hợp với các bộ dit liệu cho
phân tích cảm xúc tiếng Việt.
Các kỹ thuật tiền xử lý dé liệu được thử nghiệm dé kiểm chứng mức độ
hiệu quả với từng bộ dữ liệu, từng tác vụ nhằm làm sạch các bình luận
được thu thập từ các nền tảng mạng xã hội Phương pháp được đề xuất cũng như các kỹ thuật xử lý được thực hiện với mong muốn nâng cao chất lượng dữ liệu và giúp tăng cường khả năng phân tích cảm xúc của các mô hình Tuy nhiên, không phải phương pháp xử lý dữ liệu nào cũng dem lại
ết quả tốt, từ đó chúng tôi có những so sánh và chọn lọc những kỹ thuật hiệu quả dé xử lý dữ liệu trước khi đưa vào phân tích.
Tiếp theo, chúng tôi đề xuất phương pháp tiếp cận các câu trong bộ dit liệu
ban đầu với từ vựng cảm xúc trong bộ từ vựng VnEmolex Chúng tôi tiễn hành xử lý dữ liệu trước khi đưa vào huấn luyện với các mô hình phân loại,
bao gồm xây dựng bộ đếm từ mang giá trị cảm xúc trong câu và ánh xạ các vec tơ đặc trưng thu được lên bộ dữ liệu ban đầu.
Sau đó, các mô hình được chọn lọc và cài đặt lại phù hợp đề có thể kết hợp
với phương pháp tiếp cận từ vựng được xây dựng Giúp cải thiện hiệu suất
của bài toán phân tích cảm xúc các bình luận trên mạng xã hội Việt Nam.
Để đạt được mục tiêu này, các thử nghiệm khác nhau đã được tiễn hành với hai phương pháp tiếp cận hiện đại: học sâu và học chuyển tiếp Đối với
các mô hình được lựa chọn và cài đặt lại, những cách tiếp cận này hỗ trợ trong việc xây dựng và phát triển các mô hình cơ sở.
Cuối cùng, chúng tôi có những so sánh kết quả đạt được với các công trình
đi trước, từ đó kết luận về mức độ hiệu quả của phương pháp được xây dựng Cũng như phân tích các lỗi gặp phải trong quá trình áp dụng phương pháp Từ đó, đề xuất chương trình minh họa dựa trên streaming để kiểm chứng tính hiệu quả và khả thi của đề tài.
- Mô tả bài toán:
+
+
+
Input: Một câu trong các bộ dữ liệu cảm xúc tiếng Việt, cùng với các từ
trong câu xuât hiện trong bộ từ vựng cảm xúc VnEmolex.
Output: Nhãn thé hiện cung bậc cảm xúc của câu ứng với từng bộ dữ liệu
được sử dụng.
Một câu trong bộ dữ liệu UIT-VSMEC: “cho đáng đời con quỷ về nhà lôi
con nhà mày ra mà đánh `
Các từ như: “đáng đời”, “con quỷ”, “lôi”, “đánh” có xuất hiện trong bộ từ
vựng, và mỗi từ thể hiện một cảm xúc nhat định (từ “đáng đời” mang cảm
xúc tức giận) Qua đó hình thành các vec tơ đặc trưng (mỗi vec tơ đặc trưng |
29 cá
Trang 7là tập hợp các từ xuất hiện và mang giá trị cảm xúc trong bộ từ vựng
VnEmolex).
+ Sau đó thực hiện kết hợp vec tơ đặc trưng thu được với câu trong các bộ
dữ liệu cảm xúc Huấn luyện và đánh giá với các mô hình máy học Cuối cùng là tiến hành các thử nghiệm và rút ra kết luận.
- Kết quả mong đợi:
Khóa luận của chúng tôi thực hiện góp phan trở thành một công trình trong công cuộc phân tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Qua quá trình nghiên cứu, chúng tôi mang tới giải pháp đề xuất xây dựng phương pháp tiếp cận
từ vựng nhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học,
bao gồm các phương pháp xử lý dữ liệu và cài đặt các mô hình sao cho hiệu quả khi kết hợp cùng phương pháp được dé xuất Phương pháp đem lại kết quả tốt so
với các công trình đi trước, cũng như các phương pháp xử lý ngôn ngữ hiện nay
trên tiếng Việt Cùng với đó là nắm bắt những lỗi gặp phải và cải thiện nó một
cách tốt nhất Từ những kết quả đạt được, đề xuất chương trình minh họa phân
tích cảm xúc các bình luận mạng xã hội Cộng đồng xử lý ngôn ngữ tiếng Việt có thêm một phương pháp xử lý hiệu quả giúp tăng cường khả năng dự đoán, phân
tích cảm xúc của các mô hình máy học.
- _ Công trình liên quan:
[1] KTLab, “Vnemolex: A vietnamese emotion lexicon for sentiment intensity analysis,” in OpenAIRE, 2017.
2] V A Ho, D H.-C Nguyen, D H Nguyen, L Thi-Van Pham, D.-V Nguyen,
K Van Nguyen, and N L.-T Nguyen, “Emotion recognition for vietnamese
social media text,” in Computational Linguistics - 16th International Conference
of the Pacific Association for Computational Linguistics, 2019 3] K V Nguyen, V D Nguyen, P X V Nguyen, T T H Truong, and N L.-
T Nguyen, “Uit-vsfc: Vietnamese students’ feedback corpus for sentiment analysis,” in 2018 10th International Conference on Knowledge and Systems
Engineering (KSE), 2018.
4] S T Luu, K V Nguyen, and N L.-T Nguyen, “A large-scale dataset for hate speech detection on vietnamese social media texts,” in Advances and Trends
in Artificial Intelligence Artificial Intelligence Practices, H Fujita, A Selamat,
J C.-W Lin, and M Ali, Eds Cham: Springer International Publishing, 2021 5] K P.-Q Nguyen and K V Nguyen, “Exploiting vietnamese social media characteristics for textual emotion recognition in vietnamese,” in International
Conference on Asian Language Processing (IALP), 2020.
Kế hoạch thực hién:(M6 ta kế hoạch làm việc va phân công công việc cho từng sinh viên
tham gia)
- 15/09/2022: Bắt đầu thực hiện dé tài, tham khảo ý kiến CBHD, lên kế hoạch chi
tiết cho quá trình làm và chuẩn bị sẵn các ngày báo cáo định kỳ với CBHD.
- 15/09 đến 31/10/2022: Trong quá trình làm báo cáo, liên tục cập nhật kết quả, ý
kiến với CBHD, thực hiện các buổi báo cáo định kỳ đầy đủ.
Trang 8- 31/10 đến 06/11/2022: Thực hiện báo cáo giữa kỳ với CBHD theo quy định.
- 06/11 đến 25/12/2022: Hoàn thành tat cả các phan còn lại, chuẩn bị bài báo cáo,
hình thức trình bày theo quy định.
- 09/01 đến 15/01/2023: Hoàn thành báo cáo KLTN.
Báo cáo đề tài.
Xác nhận của CBHD TP HCM, ngày 10 tháng 9 năm 2022
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 9MỤC LỤC
Chương 1 TONG QUAN 22¿222S+2+222EE+vtSEEEEvrrtrrkkrrrrrrkrcree 6
1.1 Giới thiệu bài toann eee eee eeseessesseeseeseeseessesssesesseeseessesusenseseeseesecsesanea 6 1.2 Các công trình nghiên cứu liên quan
1.3 Tính ứng dụng của khóa luận - - ¿6xx svEvxseekeketrrrrrrerrrevee 10
Chương2 CƠ SỞ LÝ THUYÉT
2.1 Tác vụ phân tích cảm XÚC - ¿+ + + *Et+E+E+EEESEEEEEkSEEEEEkrkrkrkereree 12 2.2 Bộ dữ liệu
2.3 Word embedding ¿565-552 S+St2t‡xEEtEeekekerererrreree 16 2.4 Các mô hình phân loại.
2.4.1 Mô hình học sâu (Deep Learning) - - «+5 ss+cexsxexerrer 18 2.4.1.1 Text-CNN [22]
2.4.1.2 Bi-IGI Me v.n , eo, 20 2.4.1.3 BE GSRỤU SA Ể ii 21
2.4.2 Mô hình học chuyền tiếp (Transfer Learning) - - 22
2.4.2.1 BERT c2 2222222221 E221 Error, 23
2.4.2.2, PhoBERT 22222c 2222222111222 re 24 2.4.2.3 XLM-R s2 2222 2221 22221 E211 ceerrrei 24
Chương3 PHƯƠNG PHÁP ĐÈ XUẤT ¿¿+222+2z+222z+zerrrrxscee 25
ko na 25 3.1.1 _ Chuẩn hóa từ ngữ -:c2222cccSccvvrrrerrttrrrrrrrrrrrrrrrvee 26 3.1.2 Chuẩn hóa các kí hiệu cảm xúc thành biêu tượng cảm xúc 27
3.1.3 Tìm và sửa lỗi chính tả cho các từ 2-©2¿©5z+2x++cxesrxeerscee 28
3.1.4 Xử lý Teencode và StopWOrds: -cs55+5c+c+ccscs+ 29
Trang 103.1.5 Words sèmenfafIOn - Ăn Hnngngniệt 29
3.2 Phương pháp tiếp cận từ vựng cảm XÚC - 2-2 2 2+xecxezxerxerssreee 30
3.2.1 Bộ từ vựng VnEEmỌ€X - 5 + 19319 v.v ng ngư, 30
3.2.2 _ Phương pháp tiếp cận từ vựng cảm XÚC - ¿52 5 s+cs+cs+se2 313.3 Mơ hình tinh chỉnh kết hợp cùng các đặc trưng bộ từ vựng VnEmolex 33Chuong 4 © THU NGHIỆM VÀ KET QUẢ - 2 2+52+c+x+cx+rserszse2 36
4.1 Cac d6 do canh 36
4.2 Cài đặt các mơ hình xxx 9 9v 92 TH HH Hư Hưng nh nh 36
4.2.1 — Text-CNN HH HH HH HH ngàng HH 36 4.2.2 Bi-GRU ” 5577ố0 v00 68ãà 19t HIẤU HH HH ng HH ng 36
4.2.3 Các mơ hình học chuyển tiẾp -2¿©2+22+++£E£E++Eezrxerxerseee 37
4.3 Kết quả thử nghiệm 2- +52 £+E£+EEEEEEEEEEEEEEEEEEEEEEEEEEEEEErkerkrrkree 37
4.4 Phân tích lỗi và thảo luận - ¿2 + ++5£+x+E++E+E++Eerxexrxerezxererxeree 41
Chương 5 CHƯƠNG TRINH MINH HOA 20 ccscesscsssesssesssessesssesssesssessesssecsses 45
5.1 Minh họa chương trình phân tích cảm XÚC . 5s «+++£+s£+se+s+2 45
5.2 Minh họa chương trình hỗ trợ phân tích cảm xúc bình luận tiếng Việt theo
5.2.1 Cơng cụ được SU CUNG ee eeceeesecesceceneeeseeeeseeceseeceseeeeneceseeceaeeesaeee 47
5.2.2 _ Phân tích mơ hình hệ thống: 2-2-2 2+£+£++£E£+£z+£x+rxezsez 485.2.3 Phân tích kết quả của chương trình 2- 2 2 s+s+zx+zs+zszse2 49
Chương 6 KÉT LUẬN VÀ HƯỚNG PHÁT TRIEN -: - 50
6.I Kết luận -c2trthHHHHHHHHHH HH re 50
To 5I6.3 Hướng phát triÊn -¿-©2¿©+++E++EE+£EE+2EEEEEE2EEE2EEEEEEE.EEEerkrrrrres 51
Trang 11Hình 2.1 Phân loại văn bản với máy hỌcC - - + 5+ St St vs rrkg 13
Hình 2.2 Các cung bậc cảm xúc trong bộ dữ liệu UIT-VSMEC 13
Hình 2.3 Phân phối độ dài các câu trong ba bộ đữ liệu phân tích cảm xúc tiếng
J5 15
Hình 2.4 Kiến trúc mô hình Text-CNN được đề xuất bởi Yoon Kim [22] sau khi
được tinh chỉnh thông sSỐ ¿2-2-5256 52S22EE2E2EEEEEEEEEEEEEEEEEEEEEEEEEEEErkrrkerkrrkrree 19Hình 2.5 RNN tiêu chuẩn và dạng khai triển của nó - 2-2 2 2 s£s£s+£+2 +2 20Hình 2.6 Kiến trúc mô hình LSTM [23] - 2-2-2 22£+£E+£E+zEzE++zxerxzsz 20Hình 2.7 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K
Paliwal [2⁄4] c1 111122301111 110011 kg 21
Hình 2.8 Mô hình mang RNN, LSTM va GRU -. -c++ccsccscseseeseerske 21
Hình 3.1 Téng quan quy trình thử nghiệm của phương pháp tiếp cận từ vung .25Hình 3.2 Quá trình lựa chọn và kiểm thử các phương pháp . - 26
Hình 3.3 Mật độ các thuộc tính của bộ từ vựng VnEmolex xuất hiện trong ba bộ dữ
liệu cảm xúc tiếng ViỆ( 2-5252 SEEEE9E12112112112171711121211211 211111111 31
Hình 3.4 Quy trình thực hiện kỹ thuật kết hợp từ vựng cảm xúc với các bộ dữ liệu
phân tích cảm xúc tiếng VIiỆt - 2-52 ©2S22E22E22EE2E1223127112212112211221 21121 cre 33
Hình 3.5 Phương pháp tiếp cận từ vựng cảm xúc trước khi đưa vào mô hình
Text-CNN, 34
Hình 3.6 Phương pháp tiếp cận từ vựng cảm xúc trước khi đưa vào mô hình
XLM-.— 35
Hình 4.1 Confusion Matrix của mô hình XLM-R trên bộ dữ liệu UIT-VSMEC 42
Hình 5.1 Sơ đồ xây dựng chương trình phân tích cảm Xúc -: 5-52 45
Trang 12Hình 5.2 Chương trình minh họa phân tích cam xúc từ văn bản hoặc file 46
Hình 5.3 Mô hình hệ thống phân tích cảm xúc theo thời gian thực 47Hình 5.4 Trực quan đầu ra của hệ thống phân tích cảm xúc bình luận Youtube .48
Trang 13DANH MỤC BANG
Bảng 1.1 Minh họa một số điểm trong bộ dit liệu UIT-VSMEC ban đầu 8Bang 1.2 Minh hoa một số điểm trong bộ dữ liệu UIT-VSMEC sau khi kết hợp
cùng VnEmolex Với các thuộc tính Disgust, Fear, EnJoy, Sadness, Surprise, Anger,
Other lần lượt là D, F, E, Sa, Su, Ay O -¿-+¿©2+22++2Ekt2EEEEEEEEEEEkrrrkerkrerkrrrvee 8Bang 2.1 Thống kê tông quát của ba bộ dit liệu phân tích cảm xúc tiếng Việt 14Bảng 3.1 Một số ví dụ trong các bộ dữ liệu mạng xã hội về chuẩn hóa từ ngữ 27
Bang 3.2 Một sô ví dụ vê chuan hóa kí hiệu cảm xúc sang biêu tượng cảm xúc 27
Bảng 3.3 Thống kê các từ viết tắt, các từ sai chính tả trong 3 bộ đữ liệu tiếng Việt
Bảng 3.4 Một vài ví du trong danh sách Stopword và Teencode 29
Bang 3.5 Minh họa một số từ trong bộ từ vung VnEmolex -5- 5 52 30Bảng 3.6 Mô tả một số câu có được từ việc kết hợp câu trong bộ dữ liệu UIT-
Bang 4.1 Kết quả thử nghiệm các mô hình phân loại trên UIT-VSMEC 37Bảng 4.2 Kết quả các phương pháp tiền xử lý dữ liệu với mô hình XLM-R trên
UIT-VSMEC Trong đó 1,2,3,4,5 lần lượt biểu thị cho các phương pháp chuẩn hóa
từ ngữ, chuẩn hóa kí hiệu cảm xúc, sửa lỗi chính tả, xử lý Teencode, Stopwords và
1000000117177 38
Bảng 4.3 Kết quả thử nghiệm phương pháp tiếp cận từ vựng với các mô hình phân
loại trên bộ dữ liệu UIT-VSMEC - - G Sc 1 2211123111211 1211 118 1118111811111 1 8x re, 39
Bảng 4.4 Kết quả thử nghiệm trên 2 bộ dữ liệu UIT-VSFC và ViHSD 40
Bảng 4.5 Một vài lỗi khi dự đoán trong các bộ dữ liệu mang xã hội 43
Bảng 4.6 Một số trường hợp phương pháp đề xuất gây ra sự nhầm lẫn 44
Trang 14DANH MỤC TỪ VIET TAT
STT Thuật ngữ Mô tả
1 SA Sentiment Analysis
2 NLP Natural language processing
3 SQL Structured Query Language
4 API Application Programming Interface
5 CNN Convolutional Neural Network
6 LSTM Long Short-Term Memory
7 Bi-LSTM Bidirectional Long Short-Term Memory
8 GRU Gated Recurrent Unit
9 Bi-GRU Bidirectional Gated Recurrent Unit
10 Conv2D 2D convolution layer
11 XLM-R XLM RoBERTa
12 RoBERTa Robustly Optimized BERT Pre-training Aprroach
13 RNN Recurrent Neural Network
14 SOTA State-of-the-art
15 Cbow Continuous Bag of Words
Trang 15TÓM TẮT KHÓA LUẬN
Cùng với sự phát triển không ngừng của cuộc cách mạng công nghiệp 4.0,
mạng xã hội ngày càng phổ biến và không thê thiếu trong cuộc sống của chúng ta,tạo điều kiện cho người dùng chia sẻ, thu thập thông tin một cách tiện lợi nhất Khi
đó, van đề đặt ra về phân tích cảm xúc các bình luận (nóng giận, thích thú, sợ hãi)trên không gian mạng là vô cùng cần thiết, góp phần xây dựng không gian mạng tiêuchuẩn Vấn đề nắm bắt và phân tích cảm xúc kịp thời ảnh hưởng trực tiếp tới trảinghiệm và đời sống của người sử dụng Bên cạnh đó, các công trình đi trước đã chỉ
ra rằng các từ mang giá trị cảm xúc trong câu có ảnh hưởng tới xu hướng cảm xúc
của câu đó Vì vậy, khoá luận của chúng tôi đề xuất phương pháp tiếp cận từ vựng
cảm xúc giúp tăng cường khả năng phân tích cảm xúc của các mô hình, ứng dụng các
kỹ thuật hiệu quả nhằm giải quyết bài toán phân tích cảm xúc trên mạng xã hội.Phương pháp được đề xuất là những tiếp thu, cải tiến từ các công trình đi trước có
hiệu quả cho bài toán phân loại văn bản nói chung và phân tích cảm xúc nói riêng.
Giải pháp chúng tôi là đề xuất một phương pháp kết hợp từ điển cảm xúc với
mô hình phân loại nhằm nâng cao độ chính xác của mô hình Các kết quả thử nghiệmcho thấy từ vựng cảm xúc kết hợp với các mô hình phân loại sẽ giúp cải thiện hiệu
suất đáng ké của các mô hình Bên cạnh đó, chúng tôi cũng đã triển khai các kỹ thuật
tiền xử lý dữ liệu và cài đặt lại các mô hình một cách hiệu quả nhất, giúp cải thiện
đáng kể hiệu suất của mô hình Sử dụng những kết quả đạt được từ phương pháp dé
xây dựng chương trình minh họa hỗ trợ phân tích cảm xúc mạng xã hội Việt Nam.
Trong khoá luận này, chúng tôi không chỉ đề xuất kỹ thuật xử lý đữ liệu cóhiệu quả cho đữ liệu bình luận mạng xã hội tiếng Việt mà còn đề xuất và tinh chỉnh
mô hình phân loại có hiệu suất vượt trội so với các công trình đi trước, cụ thể là mô
hình XLM-RoBER Ta với độ đo F1-score 70.06% trên bộ dữ liệu UIT-VSMEC [1],
so với F1-Score là 59.74% ở công trình ban đầu [1], Fl-score 93.97% so với 87.94%
trên bộ dữ liệu UIT-VSFC [2] va macro F1-score 68.29% so với 62.69% trên bộ dữ
liệu VIHSD [3] Qua đó nâng cao hiệu suất phân loại mô hình, góp phần xây dựng bộ
lọc giúp hạn chế các bình luận xấu trên không gian mạng
Trang 16MỞ ĐẦU
Đặt vấn đề:
Chủ đề phân tích cảm xúc (Sentiment analysis) đã thu hút rất nhiều sự quantâm và nghiên cứu của giới học thuật, đặc biệt là trong việc phát triển các mô hình dựđoán Phân tích cảm xúc có nhiều ứng dụng khác nhau trong cuộc sống hàng ngàymột phần vì đây là công cụ giúp theo dõi ý kiến từ dữ liệu do người dùng tạo ra và
hỗ trợ việc đưa ra quyết định [4] Ứng dụng của phân tích cảm xúc xuất hiện trong
nhiều lĩnh vực như thương mại điện tử, mạng xã hội, blog, diễn đàn thảo luận và giáo
có những ưu điểm và nhược điểm vì các tác giả trong [6] đề xuất một cách tiếp cận
kết hợp cả hai phương pháp luận với nhau dé cải thiện hiệu suất của các mô hình phân
loại cảm xúc.
Từ những vấn đề được đặt ra, chúng tôi đề xuất một phương pháp kết hợp từ
vựng cảm xúc trong bộ từ điển cảm xúc tiếng Việt với các mô hình phân loại máy
học nhằm cải thiện hiệu suất cho tác vụ phân tích cảm xúc trong tiếng Việt
Mục tiêu:
Trong khóa luận này, chúng tôi tiến hành thử nghiệm các kỹ thuật xử lý dữ
liệu, các thuật toán máy học, so sánh phương pháp đề xuất với các công trình đi trướctương đương.
Đầu tiên, chúng tôi tiễn hành các khảo sát cho phương pháp tiền xử lý văn bảntiếng Việt từ những công trình đi trước, rút ra những hạn chế dé xây dựng và pháttriển phương pháp xử lý mới một cách hiệu quả Bên cạnh đó, phân tích các bộ từ
Trang 17vựng cảm xúc cho tiếng Việt hiện nay, lựa chọn các bộ có tập thuộc tinh phù hợp dé
đưa vào kết hợp với các bộ dữ liệu cho phân tích cảm xúc tiếng Việt
Các kỹ thuật tiền xử lý đữ liệu được thử nghiệm đề kiểm chứng mức độ hiệu
quả với từng bộ dữ liệu, từng tác vụ nhằm làm sạch các bình luận được thu thập từcác nền tảng mạng xã hội Phương pháp được đề xuất cũng như các kỹ thuật xử lý
được thực hiện với mong muốn nâng cao chất lượng dit liệu và giúp tăng cường khả
năng phân tích cảm xúc của các mô hình Tuy nhiên, không phải phương pháp xử lý
dữ liệu nào cũng đem lại kết quả tốt, từ đó chúng tôi có những so sánh và chọn lọc
những kỹ thuật hiệu quả dé xử lý dữ liệu trước khi đưa vào phân tích.
Tiếp theo, chúng tôi đề xuất phương pháp tiếp cận các câu trong bộ dữ liệuban đầu với từ vựng cảm xúc trong bộ từ vựng VnEmolex Chúng tôi tiến hành xử lý
dữ liệu trước khi đưa vào huấn luyện với các mô hình phân loại, bao gồm xây dựng
bộ đếm từ mang giá tri cảm xúc trong câu và ánh xạ các vec tơ đặc trưng thu đượclên bộ đữ liệu ban dau
Sau đó, các mô hình được chọn lọc và cài đặt lại phù hợp dé có thé kết hợpvới phương pháp tiếp cận từ vựng được xây dựng Giúp cải thiện hiệu suất của bàitoán phân tích cảm xúc các bình luận trên mạng xã hội Việt Nam Đề đạt được mụctiêu này, các thử nghiệm khác nhau đã được tiến hành với hai phương pháp tiếp cậnhiện đại: học sâu và học chuyên tiếp Đối với các mô hình được lựa chọn và cải đặtlại, những cách tiếp cận này hỗ trợ trong việc xây dựng và phát triển các mô hình cơ
SỞ.
Cuối cùng, chúng tôi có những so sánh kết quả đạt được với các công trình đitrước, từ đó kết luận về mức độ hiệu quả của phương pháp được xây dựng Cũng nhưphân tích các lỗi gặp phải trong quá trình áp dụng phương pháp Từ đó, đề xuấtchương trình minh họa dựa trên streaming dé kiểm chứng tính hiệu quả và khả thi
của đê tài.
Đôi tượng và phạm vỉ nghiên cứu:
Trang 18> Đối tượng: Mạng xã hội ngày nay tiềm an nhiều mối nguy hại và dần dần
bộc lộ cho chúng ta thay được những hau quả nếu không thực sự kiểm soáttốt được nó Trong phạm vi khóa luận, chúng tôi tập trung vào bài toánphân tích cảm xúc (Sentiment analysis) Bao gồm các tác vụ nhận dạng
cảm xúc (Emotion recognition), phân tích cảm xúc và phát hiện nội dung xúc phạm (Hate speech detection), ứng với các bộ dữ liệu mạng xã hội Việt Nam.
> Phạm vi: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho
các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảmxúc của các mô hình máy học Qua đó góp phan xử lý, loại bỏ các nội dungxâu ra khỏi không gian mạng xã hội, tạo bộ lọc góp phần xây dựng khônggian mạng tiêu chuẩn Cũng như đề xuất một số chương trình minh họa hỗtrợ giải quyết bài toán phân tích cảm xúc của các nội dung trên mạng xã
hội Qua đó xây dựng môi trường văn minh theo những tiêu chí mong muốn
và bảo vệ người sử dụng khỏi các nội dung không lành mạnh.
Kết quả nghiên cứu:
Khóa luận của chúng tôi thực hiện góp phần trở thành một công trình trongcông cuộc phân tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Qua quá trình nghiêncứu, chúng tôi mang tới giải pháp đề xuất xây dựng phương pháp tiếp cận từ vựngnhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học, bao gồm
các phương pháp xử lý dit liệu và cài đặt các mô hình sao cho hiệu quả khi kết hợp
cùng phương pháp được đề xuất Phương pháp đem lại kết quả tốt so với các côngtrình đi trước, cũng như các phương pháp xử lý ngôn ngữ hiện nay trên tiếng Việt.Cùng với đó là nắm bắt những lỗi gặp phải và cải thiện nó một cách tốt nhất Từnhững kết quả đạt được, đề xuất chương trình minh họa phân tích cảm xúc các bìnhluận mạng xã hội Cộng đồng xử lý ngôn ngữ tiếng Việt có thêm một phương pháp
xử lý hiệu quả giúp tăng cường khả năng dự đoán, phân tích cảm xúc của các mô hình
máy học.
Cau trúc khóa luận:
Trang 19Khoá luận gôm 6 chương với các nội dung chính như sau:
> Chương 1: Tổng quan
Giới thiệu về bài toán phân tích cảm xúc với dữ liệu mạng xã hội và phươngpháp tiếp cận từ vựng cảm xúc được xây dựng; Tính ứng dụng của các kết
quả nghiên cứu trong bối cảnh hiện tại Giới thiệu một số công trình nghiên
cứu liên quan đến bài toán được xây dựng, cũng như các mô hình huấnluyện cho phân tích cảm xúc; Cùng với đó là các nghiên cứu về xử lý dữ
liệu theo thời gian thực.
> Chương 2: Cơ sở lý thuyết
Trình bày cở sở nền tang dé có thé tiếp cận bài toán phân tích cảm xúc.Bao gồm cơ sở bài toán phân tích cảm xúc, thông tin tổng quan các bộ dữ
liệu, tách từ, cùng với đó là các mô hình phân loại cho bài toán.
> Chương 3: Phương pháp đề xuất
Mô tả phương pháp được đề xuất của chúng tôi để kết hợp các thuộc tính
từ bộ từ vựng cảm xúc với các mô hình học máy phân loại Cùng với đó là
mô tả các kỹ thuật tiền xử lý dữ liệu được sử dụng, cũng như các mô hình
CƠ SỞ.
> Chương 4: Thứ nghiệm và kết quả
Chúng tôi trình bày các thông tin về quá trình thiết lập thử nghiệm, phântích và đánh giá các kết quả đạt được
> Chương 5: Chương trình minh họa
Chúng tôi trình bày hai chương trình minh họa ứng dụng kết quả từ phương
pháp tiếp cận từ vựng, bao gồm chương trình phân tích cảm xúc của văn
bản, file và chương trình minh họa hỗ trợ phân tích cảm xúc các bình luận
trên mạng xã hội Việt Nam theo thời gian thực.
> Chương 6: Kết luận và hướng phát triển
Chúng tôi tổng kết các kết quả đạt được, hạn chế và đề xuất các hướng pháttriển trong tương lai của khoá luận
Trang 20Chương 1 TONG QUAN
1.1 Giới thiệu bài toán
Bài toán phân tích cảm xúc đã và đang là đề tài nhận được rất nhiều sự quan
tâm, nghiên cứu từ giới học thuật Trong phạm vi khóa luận lần này, chúng tôi đề
xuất phương pháp tiếp cận từ vựng cảm xúc cho các bộ dữ liệu mạng xã hội tiếngViệt Từ đó giúp tăng cường khả năng phân tích cảm xúc của các mô hình phân loại.
Với phương pháp tiếp cận từ vựng, chúng tôi nghiên cứu và áp dụng kết quả
từ những công trình đi trước, có thê kế đến là các phương pháp tiền xử lý và các môhình học máy đạt hiệu suất cao[7]-[9] Cũng như các nghiên cứu chỉ ra vai trò của tử
và cụm tu mang giá tri cảm xúc trong câu [5], [6] Qua đó chúng tôi có được những
thử nghiệm cụ thể để kiểm chứng và đánh giá phương pháp được đề xuất
Các bộ dữ liệu mạng xã hội cho tiếng Việt đóng vai trò trung tâm dé huấnluyện Một số công trình trước đây trong các tác vụ về tình cảm Việt Nam đã xâydựng bộ dữ liệu về các lĩnh vực cụ thể như mạng xã hội, giáo dục, thương mại điện
tử và từ điển cảm xúc Trong bài báo này, chúng tôi sử dụng ba bộ dữ liệu bao gồm
UIT-VSMEC [1], UIT-VSFC [2] và VIHSD [3] cùng với bộ từ vựng VnEmoLex [10]
đề thử nghiệm hiệu suất của phương pháp tiếp cận được đề xuất đối với tác vụ phântích cảm xúc cho tiếng Việt
Cả ba bộ dữ liệu đều là những bộ dữ liệu quy mô lớn và được những người
gán nhãn chú thích theo cách thủ công với quy trình chú thích nghiêm ngặt trên một
lĩnh vực cụ thể, lần lượt là lĩnh vực truyền thông xã hội (UIT-VSMEC), lĩnh vực sinhviên và giáo dục (UIT-VSFC) va phát hiện lời nói căm thù (ViHSD) Bên cạnh đó,
VnEmoLex là một bộ từ vựng về cảm xúc với tám loại cảm xúc khác nhau và chứatổng cộng 12.795 từ cảm xúc
Bài toán này nhằm mục đích trích xuất các đặc trưng cảm xúc có sẵn trongmột bình luận Qua đó kết hợp với bình luận dé xác định xem cảm xúc của nó mang
lại trên mạng xã hội Bài toán có thê được mô tả ngăn gọn như sau:
Trang 21- Input: Một câu trong các bộ dữ liệu cảm xúc tiêng Việt, cùng với các từ trong
câu xuât hiện trong bộ từ vựng cảm xúc VnEmolex.
- Output: Nhãn thé hién cung bậc cảm xúc cua câu ứng với từng bộ dữ liệu
Anger Fear
/ tức giận / sợ hãi
Cho đáng đời con quỷ về nhà lôi Danh nhân 1 0 0 0
con nhà may ra mà đánh danh tiếng 1 0 0 1
đánh Minh họa bộ từ vựng VnEmolex
Hình 1.1 Ví dụ minh hoạ phương pháp tiếp cận cho các bộ dữ liệu cảm xúc
với bộ từ vựng VnEmolex.
+ Một câu trong bộ dữ liệu UIT-VSMEC: “cho đáng đời con quỷ về nhà lôi
con nhà mày ra mà đánh.”
1399 66
+ Các từ như: “đáng đời”, “con quý”, “lôi”, “đánh” có xuất hiện trong bộ tu
vựng, và mỗi từ thé hiện một cảm xúc nhất định (từ “đáng đời” mang cảm
xúc tức giận) Qua đó hình thành các vec tơ đặc trưng (mỗi vec tơ đặc trưng
là tập hợp các từ xuất hiện và mang giá trị cảm xúc trong bộ từ vựng
VnEmolex) Bảng 1.1 minh họa một số câu ban đầu, và sau khi được kết
hợp cùng bộ từ vựng VnEmolex minh họa ở Bảng 1.2.
Trang 22+ Sau đó thực hiện kết hợp vec tơ đặc trưng thu được với câu trong các bộ
dữ liệu cảm xúc Huân luyện và đánh giá với các mô hình máy học Cuôi
cùng là tiên hành các thử nghiệm và rút ra kêt luận.
Bảng 1.1 Minh họa một số điểm trong bộ dữ liệu UIT-VSMEC ban đầu
ID Cảm xúc Bình luận
1 |Other cho minh xin bai nhạc tên là gi với ạ
2_ |Disgust cho đáng đời con quý về nhà lôi con nhà mày ra mà đánh
3 |Enjoyment ước gi sau này về già vẫn có thê như cụ nay :))
thang kia sao mày bắt vợ với bồ tao don thé kia nhà mày
cùng VnEmolex Với các thuộc tính Disgust, Fear, Enjoy, Sadness, Surprise, Anger,
Other lần lượt là D, F, E, Sa, Su, A, O
Bình luận Cảm xúc |DEF [El|Sal|SulA|O cho mình xin bai nhạc tên là gi với a Other 010101010100
cho đáng đời con quỷ về nhà lôi con nhà mày ra mà đánh |Disgust 1{110|01012|0uớc gì sau này về già vẫn có thê như cụ này :)) EnJoyment| 0021010101
thang kia sao mày bắt vợ với bồ tao dọn thé kia nhà mày ở
đâu tao đến thịt mày chết pAnger Oy P99] 9 | 2/0
một lí do trog muôn van lí do Other 0/01010100Ị1
thật hay đùa ác vậy không thể tin được Surprise |0|1|2|10|1110|2
1.2 Các công trình nghiên cứu liên quan
Tác vụ phân tích cảm xúc có thê được phân loại là tác vụ phân loại văn bản.
Các bộ dữ liệu khác nhau được tạo ra dé phục vụ tác vụ phân tích cảm xúc tiếng Việt
cho các lĩnh vực khác nhau, chăng hạn như bộ dữ liệu VLSP 2018 [11] và UIT-ABSA
Trang 23[12] cho phân tích cảm xúc với lĩnh vực nhà hàng và khách sạn, UIT-VSFC [2] bộ
dữ liệu dé phân tích cảm xúc về phản hồi của sinh viên, UIT-VSMEC [1] dé phân
loại cảm xúc đối với nhận xét của người dùng trên các trang mạng xã hội, UIT-ViSFD
[13] để phân tích cảm xúc về phản hồi trên điện thoại thông minh và ViHSD [3] vàVLSP 2019 HSD [14] bộ dữ liệu để phát hiện lời nói căm thù trên các văn bản trên
mạng xã hội (Theo [15], các tác vụ phát hiện lời nói căm thù và phân tích tình cảm
có liên quan với nhau vì chúng đều xử lý tình cảm tiêu cực và tích cực thông quathông điệp lời nói căm thù) Chúng tôi chọn UIT-VSMEC, UIT-VSFC và ViHSD
làm ba bộ dữ liệu để đánh giá phương pháp đề xuất của chúng tôi
Bên cạnh các bộ dữ liệu có chú thích, VnEmoLex [10] và VietSentiWordNet
[16] là hai từ điển được sử dụng cho tác vụ phân tích tình cảm VnEmoLex chứa támcấp độ cảm xúc cơ bản bao gồm joy (Vu), sadness (Buôn bã), anger (Tức giận), fear
(Sợ hai), trust (Tin tưởng), disgust (Ghé tom), surprise (Ngạc nhiên) and anticipation
(Mong doi) trong khi VietSentiWordNet chỉ chứa ba cap độ, đó là positive (Tích cực),negative (Tiêu cực) va neutral (Trung tính) Trong phạm vi khóa luận lần này, chúngtôi sử dụng bộ từ vựng VnEmoLex vì nó có nhiều mức độ cảm xúc, và phù hợp dékết hợp với các bộ dữ liệu được chọn hơn so với VietSentiWordNet
Ngoài ra, dựa trên mỗi bộ dữ liệu, có một số cách tiếp cận đề xây dựng các môhình phân loại nhăm phát hiện cảm xúc từ văn bản Mô hình Maximum entropy đạtđược kết quả tốt nhất trên bộ dữ liệu UIT-VSFC [2], mô hình Text-CNN thu đượckết quả cao nhất trên bộ dữ liệu UIT-VSMEC [1] và mô hình BERT cho kết quả tốtnhất trên bộ dữ liệu ViHSD [3] Cùng với đó là các công trình nghiên cứu đạt kết quả
cao trên dữ liệu mạng xã hội tiếng Việt, cụ thé [9] sử dụng mô hình hồi quy đa thức (Multinomial Logistic Regression) trên UIT-VSMEC, [8] với mô hình két hop
PhoBERT-CNN trên ViHSD hay [7] với mô hình mạng thần kinh học sâu (Deep
neural network) trên UIT-VSFC Từ các mô hình cơ sở hiện tại trên ba bộ dữ liệu,
cũng như các kết quả từ các công trình nghiên cứu liên quan Chúng tôi đề xuấtphương pháp kết hợp từ vựng cảm xúc với các mô hình phân loại dé tăng hiệu suất
Trang 24Từ những mô hình cơ sở tới những mô hình có hiệu quả cho phân loại văn bản, phân loại cảm xúc.
Bên cạnh đó việc cập nhật và xử lý dữ liệu ngay lập tức để có thể nắm bắtthông tin hoặc đưa ra những giải pháp kịp thời cũng là vấn đề cần được quan tâm và
phát triển Phương pháp và các hệ thống cho dang dir liệu theo thời gian thực được
[17] giới thiệu [18] Xử ly dữ liệu real-time từ Twitter sử dụng Spark Streaming Từ
phương pháp tăng cường từ vựng đạt được, chúng tôi đề xuất ứng dụng kỹ thuậtStreaming dé có thể xử lý và phân tích cảm xúc các nội dung trên mạng xã hội theo
thời gian thực, góp phân vào bài toán kiêm soát cảm xúc các bình luận.
1.3 Tính ứng dụng của khóa luận
Internet ngày càng phát trién mạnh mẽ, đặc biệt là các nền tảng mạng xã hội,
người ta có thé dành hang giờ mỗi ngày dé đọc báo, nghe nhac va chia sẻ cảm xúccho nhau; Bằng cách viết các ghi chú, bình luận trên các nền tảng mạng xã hội Ântrong những bình luận đó là những cảm xúc vui, buồn, thích thú, giận hờn mà ta haygọi là tích cực hoặc tiêu cực Những thứ mang hướng “cảm tính” như thế néu khôngphải là con người nhìn nhận và tự hiểu được nó thì thực sự là một thách thức với máy
tính nói chung, và các mô hình phân loại văn bản nói riêng.
Facebook Youtube Instagram Zalo TikTok
Hình 1.2 Thống kê số lượng người dùng Việt Nam trên các nền tảng mạng xã hội
(thống kê theo Triệu)
10
Trang 25Hiện nay, tình trạng xúc phạm, ức hiếp trên nền tảng mạng xã hội ngày càngnghiêm trọng Một cá nhân có tầm ảnh hưởng, được nhiều người mến mộ, và đôi khi
sự mến mộ đó khiến chúng ta lầm tưởng rằng họ luôn luôn phải cư xử chuẩn mực,trong sạch Vì vậy, chỉ cần những sơ suất nhỏ, những lời nói trái với ý kiến dư luận,
cộng đông mạng sẵn sàng tây chay, xúc phạm đời tư và nhân phâm của cá nhân đó.
Bên cạnh đó, với góc nhìn thương mại điện tử, thì việc phát hiện ra cảm xúc
người dùng đúng lúc sẽ giúp ta có thể hiển thị những nội dung giải trí phù hợp, cũngnhư những nội dung quảng cáo tốt hơn Qua đó, tăng giá trị sử dụng các nền tảngmạng xã hội, cũng như hạn chế những nội dung tiêu cực người dùng mang lại khiđang trong một trạng thái không tốt
hợp, nẵng cao XEM LAI SIÊU PHAM PHAN 1
chất lượng với gói VieON VIP 69K/THANG
Tiếp cận từ vựng
cảm xúc
Tao met
mỏi quá tụi bay
người dùng Bang ký ngay
Tăng cường ing i VIP VieON chỉ với 2.300đ/ngày
khả năng Xem # 3 vả Phần 2 của Mỹ Lim MA 0 F
cao độ chính xác của các mô hình phân loại, tăng cường khả năng phân tích cảm xúc
trên các bộ dữ liệu mạng xã hội Bên cạnh đó xây dựng hệ thống phân tích cảm xúc
các bình luận trên mạng xã hội Việt Nam.
11
Trang 26Chương 2 CƠ SỞ LÝ THUYET
2.1 Tác vụ phân tích cảm xúc
Phân tích cảm xúc (Sentiment analysis) [5], hay còn được gọi là phân tích quan
điểm (Opinion mining), là một cách tiếp cận của xử lý ngôn ngữ tự nhiên (NLP) déxác định giọng điệu cảm xúc đằng sau nội dung văn bản Ngoài ra còn có nhiều tên
và các nhiệm vụ khác nhau, ví dụ: trích xuất ý kiến (opinion extraction), phân tích
ảnh hưởng (affect analysis), nhận diện cảm xúc (emotion analysis), phân tích đánh
giá (review mining) Tat cả được gọi là phân tích cảm xúc hay phân tích quan điểm[5] Mặc dù trong ngành công nghiệp, thuật ngữ phân tích cảm xúc được sử dụng phốbiến hơn, nhưng trong giới học thuật, cả phân tích cảm xúc và phân tích quan điểmđều được sử dụng thường xuyên Về cơ bản chúng đại diện cho cùng một lĩnh vực
nghiên cứu.
Bài toán phân tích cảm là việc sử dụng xử lý ngôn ngữ tự nhiên, các mô hình
máy học phân tích văn bản và xác thực sinh trắc học để xác định, trích xuất, địnhlượng và nghiên cứu các sắc thái cảm xúc một cách có hệ thống Bài toán thể được
mô tả đơn giản như sau.
« Pau vào: Văn bản, có thé một câu hoặc nhiều câu
¢ Dau ra: Nhãn tương ứng với sắc thái của văn bản
Đối với bài toán phân loại văn bản nói chung và phân tích cảm xúc nói riêng,người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên quy tắc (rule-based), từkhóa (keywords), dựa trên ngữ nghĩa các từ có tần số xuất hiện cao, mô hìnhMaximum entropy, các tập thô Tuy nhiên, đối với đữ liệu mạng xã hội có đặc trưng
là đa dạng, các cảm xúc được thé hiện dưới dạng ấn thì rule-based, keywords lại
không đem lại kết quả tốt Vì vậy, chúng tôi lựa chọn cách tiếp cận sử dụng các mô
hình máy học (Machine learning) cho tác vụ phân loại văn bản, cụ thể là phân tíchcảm xúc Cách tiếp cận này giúp cho việc phân loại văn bản không dựa vào các quytắc đã được thiết lập thủ công, mà các mô hình máy học sẽ học cách phân loại văn
12
Trang 27bản dựa trên các quan sát trước đó, thường sử dụng dữ liệu huân luyện với các văn bản được găn nhãn trước Các thuật toán phân loại văn bản có thê phát hiện ra nhiêu môi tương quan giữa các phân riêng biệt của văn bản và đâu ra dự đoán cho một văn bản hoặc đâu vào nhât định.
Disgust (Ghé tom) và Other (Các cảm xúc khác) Tổng quan bộ dữ liệu được trìnhbày trong Bảng 2.1, bao gồm kích thước của bộ dữ liệu, độ dài trung bình các điểmdir liệu và phần trăm nhãn có trong bộ dữ liệu
13
Trang 28Bang 2.1 Thống kê tong quát của ba bộ dữ liệu phân tích cảm xúc tiếng Việt.
Bộ đữ liệu Kíchthước | Độ dài trung Nhãn Phần trăm
OTHER 18,40
POSITIVE 49,38 UIT-VSFC 16.175 14,31 NEGATIVE 4,02
NEUTRAL 46,60
CLEAN 82,70 ViHSD 33.400 11,51 OFFENSIVE 6,67
HATE 10,63
Chúng tôi sử dung bộ đữ liệu UIT-VSMEC làm bộ dữ liệu chuẩn đề đánh giá
hiệu quả của phương pháp được đề xuất Bên cạnh đó, chúng tôi cũng phân tích kếtqua dat được trên hai bộ dit liệu còn lại bao gồm UIT-VSFC [2] và ViHSD [3] dé
kiêm chứng mức độ hiệu quả của phương pháp tiêp cận từ vựng cảm xúc trên nhiêu
bộ dữ liệu và tác vụ.
UIT-VSFC [2] được xây dựng dé phân tích phản hồi của sinh viên về hoạt
động giáo dục Bộ dữ liệu này có hai tác vụ: tác vụ dựa trên cảm xúc đê phát hiện
cảm xúc của người dùng từ văn bản vê hoạt động giáo dục và tác vụ dựa trên chủ dé
14
Trang 29để phân loại các danh mục thuộc về hoạt động dạy và học như giảng viên, cơ sở vàchương trình giảng dạy Trong khóa luận này, chúng tôi sử dụng tác vụ dựa trên
cảm xúc cho các thí nghiệm của chúng tôi Bộ dữ liệu UIT-VSEC với tác vụ cảm
xúc bao gồm ba nhãn: Positve (Tích cực), Negative (Tiêu cực) va Neutral (Trung
tính) Các thống kê tông quát của UIT-VSFC cũng được trình bày trong Bảng 2.1
Cuối cùng, VIHSD [3] là bộ dữ liệu được xây dựng cho tác vụ phát hiện lời
nói căm thù trên ngôn ngữ tiếng Việt Bộ dữ liệu này cũng có ba nhãn: Hate (Thù
ghét), Offensive (Xúc phạm) va Clean (Bình luận sạch sẽ) Bộ dữ liệu cũng được
mô tả tổng quan ở Bảng 2.1 Cả ba bộ dữ liệu này đều được gán nhãn thủ công với
quy trình gán nhãn chỉ tiết và chặt chẽ
Bảng 2.1 đưa ra thống kê các nhãn cho ba bộ dữ liệu được sử dung cùng với
phân trăm các nhãn xuât hiện Bên cạnh đó, sự phân bô độ dài các câu trong ba bộ
dữ liệu UIT-VSMEC, UIT-VSFC và ViHSD cũng được mô tả trong Hình 2.3.
Qua biểu dé, có thé thay rang độ dài trung bình của các câu trong ba bộ dữ liệu
có sự tương đồng, là 14,01 đối với UIT -VSMEC, 14,31 cho UIT-VSFC và 11,51 choViHSD Có thé thay rằng, cả ba bộ dữ liệu đều không cân bằng trong việc phân phốicác nhãn Đối chiếu với kết quả trong Bảng 2.1, đối với UIT-VSMEC, các nhãn bị
15
Trang 30lệch về Enjoyments (Thich thú), Sadness (Buôn bã) và Disgust (Ghé tởm) Đối vớiUIT-VSFC, nhãn chiếm phan lớn bộ dữ liệu là Positive (Tích cực) Đối với bộ dit liệuViHSD, nhãn CLEAN chiếm số lượng lớn các điểm dữ liệu.
Ngoài ra, khi xem xét các điểm dữ liệu từ ba bộ dữ liệu, chúng tôi nhận thấyrằng các câu thường ngắn (không quá 20 từ trong một bình luận) Có thể giải thích
bởi tính chất mạng xã hội của các bộ dữ liệu, người dùng chỉ muốn trao đôi nhữngthông tin ngắn gọn, khen ngợi hay chúc mừng (ngoại trừ các trường hợp có mục đích
như spam hoặc kê chuyện) Cùng với đó, biểu tượng cảm xúc và từ viết tắt thường
xuyên được sử dụng dé tăng tốc độ nhập văn ban, cũng như tiết kiệm thời gian cho
người dùng.
Nhìn chung, mặc dù ba bộ dữ liệu có các nhãn khác nhau vì chúng được xây
dựng cho từng tác vụ khác nhau, một lĩnh vực cụ thể, nhưng cả ba bộ dữ liệu có cùng
một tính năng trong văn bản Do đó, chúng tôi sử dụng ba bộ dữ liệu này làm các bộ
dữ liệu chuẩn dé đánh giá hiệu suất của phương pháp mà chúng tôi đề xuất
2.3 Word embedding
Kỹ thuật word embedding được sử dung dé ánh xạ các câu bình luận về cácvec tơ số thực Theo [4], đây là điều kiện cần dé mô hình có thé hiéu và trích xuất đặctrưng từ bộ dữ liệu có dạng văn bản như UIT-VSMEC[1], UIT-VSFC [2] hay ViHSD
BI.
Đối với bài toán phân tích cảm xúc, cũng như phương pháp tiếp cận từ vựng
được đề xuất, chúng tôi sử dụng các bộ Word embedding đa ngôn ngữ và đơn ngônngữ có số chiều khác nhau dé so sánh hiệu suất của các mô hình và tìm ra mô hìnhtối ưu nhất cho phương pháp được đề xuất Chúng tôi sử dụng ba bộ word embedding
dé ánh xạ từ gồm Word2Vec [19] fastText1 [20] và PhoW2V [21]
Word2Vec [19] là một mô hình học không giám sat (un-supervised learning),
được huấn luyện từ kho dữ liệu lớn (large corpus) Chiều của Word2Vec nhỏ hơn
1 https://fasttext.cc/docs/en/crawl-vectors.html
16
Trang 31nhiều so với one-hot-encoding và được tính theo công thức NxD với N là tổng số vec
tơ có trong Word2Vec và D là số chiều của word embedding Nó được sử dụng dé
ánh xạ từ thành vec tơ của số thực Đại diện cho các từ hoặc cụm từ trong không gian
vectơ với nhiều chiều Có thé tạo ra bộ nhúng từ bằng nhiều phương pháp khác nhau
như neural networks, co-occurrence matrIx, probabilistic models.
Word2Vec có hai kiên trúc chính:
- Skip-gram: Là mô hình dự đoán những từ xung quanh nếu biết trước từ
đích Lớp đầu vào chứa từ hiện tại và lớp đầu ra chứa các từ ngữ cảnh.Lớp ân chứa số thứ nguyên mà chúng ta muốn biéu thị, từ mà hiện tại có
ở lớp đầu vào Ưu điểm của mô hình là cho ra dự đoán với tính xác caonhưng hạn chế về thời gian huấn luyện
- Cbow (Continuous Bag of Words): Là mô hình ngược lại của Skip-gram,
dựa vào những từ xung quanh đề dự đoán từ đích Lớp đầu vào chứa các
từ ngữ cảnh và lớp đầu ra chứa từ hiện tại Lớp an chứa số thứ nguyên
mà chúng ta muốn biểu diễn, từ mà hiện tại ở lớp đầu ra Với ưu điểmthời gian huấn luyện nhanh chóng nhưng tính chính xác lại không bằng
mô hình Skip-gram.
Trong khi Word2Vec, mỗi từ được biểu diễn dưới dạng túi từ; Nhưng trongfastText, mỗi từ được biéu diễn dưới dạng một túi ký tự n-gram FastText [20] đượcxây dựng trên Word2Vec bằng cách học các biểu diễn vec tơ cho mỗi từ và n-gramđược tìm thấy trong mỗi từ, trong đó n-gram là số đoạn mà fastText chia văn bản ban
đầu thành các đoạn nhỏ hơn Các giá trị của các biểu diễn sau đó được tính trung bình
thành một vec tơ ở mỗi bước huấn luyện Điều này bổ sung rất nhiều tính toán choviệc huấn luyện, nó cho phép biểu diễn từ dé mã hóa thông tin từ phụ Các vec tơ của
fastText cũng đã được chứng minh là chính xác hơn các vec tơ Word2Vec trong hau
hết các trường hợp
PhoW2V [21] chúng tôi sử dụng bộ biểu diễn từ PhoW2V được cung cấp bởiAnh Tuan Nguyen va đồng tác giả (2020) Bộ biểu diễn từ PhoW2V chứa các vec tơ
17
Trang 32từ dưới dạng cấp độ âm tiết, cấp độ từ và được pre-train dựa trên mô hình Skip-gram
của bộ biéu diễn từ Word2Vec Vì vậy, số chiều của PhoW2V bằng với số chiều của
Word2Vec và cùng bang 300 chiều Bộ nhúng từ được huấn luyện trước (pre-trained
word embedding) trên kho văn bản tiếng Việt 20GB
Như đã đề cập, chúng tôi sử dụng các bộ word embedding khác nhau dé so
sánh hiệu suất của các mô hình pre-trained và tìm ra mô hình tối ưu nhất cho bài toán
mà chúng tôi tiếp cận Qua đó, phương pháp nhúng từ fastText [20] được sử dụng để
làm bộ nhúng từ được huấn luyện trước cho các bộ dữ liệu truyền thông mạng xã hội
cho tiếng Việt
2.4 Các mô hình phân loại
Chúng tôi trình bày cách tiếp cận để xây dựng các mô hình phân loại trongphan này Chi tiết ngắn gon của các mô hình phân loại được mô tả dưới đây
2.4.1 Mô hình học sâu (Deep Learning)
Học sâu là một phần mở rộng của các phương pháp học máy truyền thống dựa
trên mạng thần kinh (Neural networks) với phương pháp học biểu diễn(Representation learning) Việc học có thé được giám sát, bán giám sát hoặc khônggiám sát Trong học sâu, các mô hình học máy được huấn luyện dé thực hiện các tác
vụ phân loại trực tiếp từ văn bản, hình ảnh hoặc âm thanh Các mô hình được huấnluyện băng cách sử dụng một bộ dữ liệu được gan nhãn va thông qua kiến trúc mạngthần kinh với nhiều lớp đề trích xuất đặc trưng từ dữ liệu huấn luyện
2.4.1.1 Text-CNN [22]
CNN cũng là một mạng Neural, nhưng khác ở chỗ nó có những lớp tích chập
(Convolutional) Nếu với việc phân lớp ở hình ảnh, CNN đi qua mọi góc, vec tơ và
kích thước của ma trận pixel Thực hiện với tất cả các tính năng của ma trận làm choCNN bền vững hơn với dữ liệu dang ma trận Thì chúng ta có thể coi dữ liệu văn bản
là đữ liệu tuần tự giống như đữ liệu theo chuỗi thời gian, ma trận một chiều Chúng
18
Trang 33ta cân làm việc với một lớp tích chập một chiêu Y tưởng của mô hình gân như giông
nhau, nhưng kiểu dữ liệu và kích thước của các lớp tích chập đã thay đổi
Text-CNN [22] là sự điều chỉnh của mô hình tích hợp được sử dụng dé phânloại văn bản Trong Text-CNN, dữ liệu văn bản có thé được xem như dữ liệu tuần tự
như dữ liệu chuỗi thời gian hoặc ma trận một chiều Sau đó, các lớp phức hợp trích
xuất các tính năng quan trọng từ các văn bản Đề làm việc với Text-CNN, nó yêu cầumột lớp nhúng từ (Word embeddings) và một mạng tích chập một chiều (one-
dimensional convolutional network).
Action function
Convolution 1-max pooling ] Softmax function
regularization
4 region size: :
(1.2.3.5) 2 features 128 univariate vectors in this layer
32 filters for each for concatenated
Sentence matrix region size each region together to form a
6x5 totally 128 filters | size single feature vector 2 classes
Hình 2.4 Kiến trúc mô hình Text-CNN được dé xuất bởi Yoon Kim [22] sau khi
được tinh chỉnh thông sô.
Với đữ liệu đầu vào có dạng văn bản, Text-CNN sử dụng mạng nơ-ron tích
chập một chiều và chủ yếu là lớp gộp cực đại (Max pooling) theo thời gian Quá trìnhtính toán của mô hình Text-CNN chủ yếu được chia thành các bước sau:
- Bước 1: Định nghĩa nhiều lớp tích chập khác nhau dé thực hiện phép
tính tích chập từ đầu vào
19
Trang 34- _ Bước 2: Thực hiện kết nối trên tất cả các kênh đầu ra, sau đó thực hiện
nối các giá tri gộp của từng kênh lai với nhau dé thu được một vec tơ
- Bước 3: Vec tơ nối trên sẽ được biến đổi thành đầu ra cho từng nhãn
dự đoán thông qua một lớp kết nối đầy đủ (Fully connected) Fully
connected sẽ tính xác suat dau ra theo từng nhãn.
2.4.1.2 Bi-LSTM
Long Short Term Memory — LSTM [23] là một dạng đặc biệt của mạng
nơ-ron hồi qui - Recurrent Neural Network (RNN) Mô hình có khả năng học được những
phụ thuộc xa LSTM được giới thiệu bởi Hochreiter và Schmidhuber (1997), và sau
đó đã được cải tiên bởi nhiêu công trình khác nhau.
(n) T (h) )
© © - @
Hình 2.5 RNN tiêu chuẩn va dang khai triển của nó
LSTM được sinh ra đề giải quyết vấn đề của RNN LSTM không sử dụng các
node tự liên kết với chính nó, thay thế đó là các ô nhớ (memory cell) Các ô nhớ này
có các công ghi dé (input gate), công loại bỏ thừa (forget gate) và công truy xuất(output gate) cho các thông tin lưu trữ trong các ô nhớ.
Hình 2.6 Kiến trúc mô hình LSTM [23]
Bi-LSTM [24] là một biến thể của LSTM Bi-LSTM thêm vào một layer đặcbiệt gọi là backward recurrent layer kết nói layer đó cùng với forward layer đề cho ra
20
Trang 35output Bằng cách này, một unit của Bi-LSTM có thé học được các thông tin ở cả quá
khứ (trước nó) và tương lai (unit kế tiếp)
Hình 2.7 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K
Paliwal [24].
2.4.1.3 Bi-GRU
GRU (Gated recurrent unit) [25] là phiên bản cải thiện của mạng RNN truyềnthống Cũng là một biến thể của LSTM, GRU với tốc độ tính toán nhanh hơn đángkết trong khi chất lượng tương đương GRU được đưa vào ứng dụng nhằm giải quyết
van đề mat mát gradient của mạng RNN truyền thống Kiến trúc GRU bao gồm công
cập nhật và công cài đặt lại (update gate và reset gate) Có thê hiểu hai công cập nhật
và cài đặt lại chính là hai vec tơ quyết định xem thông tin nào sẽ được truyền cho đầu
ra Và điều quan trọng là nó có thé được huấn luyện để lưu lại những thông tin từtrước, mà không phải xóa đi những thông tin liên quan đề dự đoán kết quả đầu ra
Một mô hình Bi-GRU được xử lý trình tự bao gồm hai GRUs Một GRU lấyinput theo chiều đi trước, còn lại theo chiều ngược lại
RNN |
Hình 2.8 Mô hình mạng RNN, LSTM và GRU.
21