Khóa luận tốt nghiệp Khoa học dữ liệu: Tăng cường khả năng phân tích cảm xúc bằng phương pháp tiếp cận từ vựng cảm xúc trên văn bản tiếng Việt.

Đối tượng: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học.. Qua quá trình ng

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

DOAN LONG AN

KHOA LUAN TOT NGHIEP

TANG CƯỜNG KHẢ NANG PHAN TÍCH CẢM XÚC

BẰNG PHƯƠNG PHÁP TIẾP CẬN TỪ VỰNG CẢM XÚC

TREN VĂN BẢN TIENG VIỆT

IMPROVING SENTIMENT ANALYSIS BY EMOTION LEXICON APPROACH ON VIETNAMESE TEXTS

CU NHAN NGANH KHOA HOC DU LIEU

TP HO CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

DOAN LONG AN - 19521173

KHOA LUAN TOT NGHIEP

TANG CƯỜNG KHẢ NANG PHAN TÍCH CẢM XUC

BANG PHUONG PHAP TIEP CAN TU VUNG CAM XUC

TREN VAN BAN TIENG VIET

IMPROVING SENTIMENT ANALYSIS BY EMOTION

LEXICON APPROACH ON VIETNAMESE TEXTS

CỬ NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS LƯU THANH SON

TP HO CHÍ MINH, 2022

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngây của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CÁM ƠN

Đầu tiên em xin gửi lời cảm ơn chân thành nhất đến Thay Lưu Thanh Sơn

đã đông hành và tận tình hướng dẫn em trong suốt quá trình học tập, nghiên cứu

và công bé bài báo khoa học.

Em cũng xin cảm ơn Khoa Khoa học và Kỹ thuật thông tin và các Anh Chị

di trước, đặc biệt là anh Trần Quốc Khánh đã tạo điều kiện cho em được học hỏi,

nghiên cứu và hỗ trợ em hoàn thành khoá luận này.

Bên cạnh đó, em xin chân thành cảm ơn quý thay cô của Trường Đại học Công nghệ Thông tin nói chung và quý thay cô của Khoa Khoa học và Kỹ thuật

Thông tin nói riêng đã luôn nhiệt huyết, tận tâm giảng dạy và truyền đạt những kiến thức bồ ích cho chúng em Đây là những nên tảng tuyệt vời mà chúng em

không thé có được ở bắt kì nơi đâu Những kiến thức, kĩ năng chúng em nhận được trong suốt quá trình học tập sẽ là hành trang quý báu cho chúng em phát

triển và có thể đạt được những thành công sau này.

Cuối cùng em xin gửi lời cảm ơn đến gia đình và bạn bè đã luôn hỗ trợ em hết mình, không chỉ trên con đường học tập, rèn luyện Cảm ơn mọi người đã

luôn bên cạnh động viên, giúp đỡ, cũng như đưa ra những lời khuyên bồ ích Cho

em luôn tự tin vào bản thân và vững vàng trên con đường mình đã chọn.

Em xin chân thành cảm ơn!

Tác giả Đoàn Long An

Trang 5

CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

Độc Lập - Tự Do - Hạnh Phúc

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TEN DE TAI: TANG CƯỜNG KHẢ NĂNG PHAN TÍCH CẢM XÚC BẰNG PHƯƠNG

PHÁP TIÉP CAN TỪ VỰNG CẢM XÚC TREN VĂN BẢN TIENG VIỆT.

TÊN DE TÀI (tiếng Anh): IMPROVING SENTIMENT ANALYSIS BY EMOTION

LEXICON APPROACH ON VIETNAMESE TEXTS.

Cán bộ hướng dẫn: ThS Lưu Thanh Sơn

Thời gian thực hiện: Từ ngày 15/9 đến ngày 25/12

Sinh viên thực hiện:

Doan Long An — 19521173

Nội dung đề tài: (Mô tả chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết

quả mong đợi của dé tài)

-_ Mục tiêu: Xây dựng các phương pháp xử lý dữ liệu, kết hợp cùng bộ từ điển cảm

xúc (emotion lexicon) nhăm tăng khả năng phân tích cảm xúc của các mô hình cho

tiếng Việt Bên cạnh đó thử nghiệm các ÿ thuật tiền xử lý đữ liệu có hiệu quả cho

tác vụ phân tích cảm xúc dữ liệu mạng xã hội; Cài đặt, tinh chỉnh các mô hình may

học nhằm kiểm chứng mức độ hiệu quả c'

đề xuất.

Pham vi: Mạng xã hội ngày nay tiềm an

chúng ta thay được những hậu quả nếu k

ủa các phương pháp tiếp cận từ vựng được

nhiều mối nguy hại và dần dần bộc lộ cho

hông thực sự kiểm soát tốt được nó Trong phạm vi khóa luận, chúng tôi tập trung vào bài toán phân tích cảm xúc (Sentiment

analysis) Bao gồm các tác vụ nhận dạng cảm xúc (Emotion recognition), phân tích cảm xúc và phát hiện nội dung xúc phạm (Hate speech detection), ứng với các bộ

đữ liệu mạng xã hội Việt Nam.

Đối tượng: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảm xúc của các mô

hình máy học Qua đó góp phần xử lý, loại bỏ các nội dung xấu ra khỏi không gian

mạng xã hội, tạo bộ lọc góp phan xây dựng không gian mạng tiêu chuân Cũng như

để xuất một số chương trình minh họa hỗ trợ giải quyết bài toán phân tích cảm xúc của các nội dung trên mạng xã hội Qua đó xây dựng môi trường văn minh theo

những tiêu chí mong muốn và bảo vệ người sử dụng khỏi các nội dung không lành

mạnh.

Phương pháp thực hiện:

Trang 6

+ Đầu tiên, chúng tôi tiến hành các khảo sát cho phương pháp tiền xử lý văn

bản tiếng Việt từ những công trình đi trước, rút ra những hạn chế dé xây dựng và phát triển phương pháp xử lý mới một cách hiệu quả Bên cạnh

đó, phân tích các bộ từ vựng cảm xúc cho tiếng Việt hiện nay, lựa chọn các

bộ có tập thuộc tính phù hợp dé đưa vào kết hợp với các bộ dit liệu cho

phân tích cảm xúc tiếng Việt.

Các kỹ thuật tiền xử lý dé liệu được thử nghiệm dé kiểm chứng mức độ

hiệu quả với từng bộ dữ liệu, từng tác vụ nhằm làm sạch các bình luận

được thu thập từ các nền tảng mạng xã hội Phương pháp được đề xuất cũng như các kỹ thuật xử lý được thực hiện với mong muốn nâng cao chất lượng dữ liệu và giúp tăng cường khả năng phân tích cảm xúc của các mô hình Tuy nhiên, không phải phương pháp xử lý dữ liệu nào cũng dem lại

ết quả tốt, từ đó chúng tôi có những so sánh và chọn lọc những kỹ thuật hiệu quả dé xử lý dữ liệu trước khi đưa vào phân tích.

Tiếp theo, chúng tôi đề xuất phương pháp tiếp cận các câu trong bộ dit liệu

ban đầu với từ vựng cảm xúc trong bộ từ vựng VnEmolex Chúng tôi tiễn hành xử lý dữ liệu trước khi đưa vào huấn luyện với các mô hình phân loại,

bao gồm xây dựng bộ đếm từ mang giá trị cảm xúc trong câu và ánh xạ các vec tơ đặc trưng thu được lên bộ dữ liệu ban đầu.

Sau đó, các mô hình được chọn lọc và cài đặt lại phù hợp đề có thể kết hợp

với phương pháp tiếp cận từ vựng được xây dựng Giúp cải thiện hiệu suất

của bài toán phân tích cảm xúc các bình luận trên mạng xã hội Việt Nam.

Để đạt được mục tiêu này, các thử nghiệm khác nhau đã được tiễn hành với hai phương pháp tiếp cận hiện đại: học sâu và học chuyển tiếp Đối với

các mô hình được lựa chọn và cài đặt lại, những cách tiếp cận này hỗ trợ trong việc xây dựng và phát triển các mô hình cơ sở.

Cuối cùng, chúng tôi có những so sánh kết quả đạt được với các công trình

đi trước, từ đó kết luận về mức độ hiệu quả của phương pháp được xây dựng Cũng như phân tích các lỗi gặp phải trong quá trình áp dụng phương pháp Từ đó, đề xuất chương trình minh họa dựa trên streaming để kiểm chứng tính hiệu quả và khả thi của đề tài.

- Mô tả bài toán:

+

Input: Một câu trong các bộ dữ liệu cảm xúc tiếng Việt, cùng với các từ

trong câu xuât hiện trong bộ từ vựng cảm xúc VnEmolex.

Output: Nhãn thé hiện cung bậc cảm xúc của câu ứng với từng bộ dữ liệu

được sử dụng.

Một câu trong bộ dữ liệu UIT-VSMEC: “cho đáng đời con quỷ về nhà lôi

con nhà mày ra mà đánh `

Các từ như: “đáng đời”, “con quỷ”, “lôi”, “đánh” có xuất hiện trong bộ từ

vựng, và mỗi từ thể hiện một cảm xúc nhat định (từ “đáng đời” mang cảm

xúc tức giận) Qua đó hình thành các vec tơ đặc trưng (mỗi vec tơ đặc trưng |

29 cá

Trang 7

là tập hợp các từ xuất hiện và mang giá trị cảm xúc trong bộ từ vựng

VnEmolex).

+ Sau đó thực hiện kết hợp vec tơ đặc trưng thu được với câu trong các bộ

dữ liệu cảm xúc Huấn luyện và đánh giá với các mô hình máy học Cuối cùng là tiến hành các thử nghiệm và rút ra kết luận.

- Kết quả mong đợi:

Khóa luận của chúng tôi thực hiện góp phan trở thành một công trình trong công cuộc phân tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Qua quá trình nghiên cứu, chúng tôi mang tới giải pháp đề xuất xây dựng phương pháp tiếp cận

từ vựng nhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học,

bao gồm các phương pháp xử lý dữ liệu và cài đặt các mô hình sao cho hiệu quả khi kết hợp cùng phương pháp được dé xuất Phương pháp đem lại kết quả tốt so

với các công trình đi trước, cũng như các phương pháp xử lý ngôn ngữ hiện nay

trên tiếng Việt Cùng với đó là nắm bắt những lỗi gặp phải và cải thiện nó một

cách tốt nhất Từ những kết quả đạt được, đề xuất chương trình minh họa phân

tích cảm xúc các bình luận mạng xã hội Cộng đồng xử lý ngôn ngữ tiếng Việt có thêm một phương pháp xử lý hiệu quả giúp tăng cường khả năng dự đoán, phân

tích cảm xúc của các mô hình máy học.

- _ Công trình liên quan:

[1] KTLab, “Vnemolex: A vietnamese emotion lexicon for sentiment intensity analysis,” in OpenAIRE, 2017.

2] V A Ho, D H.-C Nguyen, D H Nguyen, L Thi-Van Pham, D.-V Nguyen,

K Van Nguyen, and N L.-T Nguyen, “Emotion recognition for vietnamese

social media text,” in Computational Linguistics - 16th International Conference

of the Pacific Association for Computational Linguistics, 2019 3] K V Nguyen, V D Nguyen, P X V Nguyen, T T H Truong, and N L.-

T Nguyen, “Uit-vsfc: Vietnamese students’ feedback corpus for sentiment analysis,” in 2018 10th International Conference on Knowledge and Systems

Engineering (KSE), 2018.

4] S T Luu, K V Nguyen, and N L.-T Nguyen, “A large-scale dataset for hate speech detection on vietnamese social media texts,” in Advances and Trends

in Artificial Intelligence Artificial Intelligence Practices, H Fujita, A Selamat,

J C.-W Lin, and M Ali, Eds Cham: Springer International Publishing, 2021 5] K P.-Q Nguyen and K V Nguyen, “Exploiting vietnamese social media characteristics for textual emotion recognition in vietnamese,” in International

Conference on Asian Language Processing (IALP), 2020.

Kế hoạch thực hién:(M6 ta kế hoạch làm việc va phân công công việc cho từng sinh viên

tham gia)

- 15/09/2022: Bắt đầu thực hiện dé tài, tham khảo ý kiến CBHD, lên kế hoạch chi

tiết cho quá trình làm và chuẩn bị sẵn các ngày báo cáo định kỳ với CBHD.

- 15/09 đến 31/10/2022: Trong quá trình làm báo cáo, liên tục cập nhật kết quả, ý

kiến với CBHD, thực hiện các buổi báo cáo định kỳ đầy đủ.

Trang 8

- 31/10 đến 06/11/2022: Thực hiện báo cáo giữa kỳ với CBHD theo quy định.

- 06/11 đến 25/12/2022: Hoàn thành tat cả các phan còn lại, chuẩn bị bài báo cáo,

hình thức trình bày theo quy định.

- 09/01 đến 15/01/2023: Hoàn thành báo cáo KLTN.

Báo cáo đề tài.

Xác nhận của CBHD TP HCM, ngày 10 tháng 9 năm 2022

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Trang 9

MỤC LỤC

Chương 1 TONG QUAN 22¿222S+2+222EE+vtSEEEEvrrtrrkkrrrrrrkrcree 6

1.1 Giới thiệu bài toann eee eee eeseessesseeseeseeseessesssesesseeseessesusenseseeseesecsesanea 6 1.2 Các công trình nghiên cứu liên quan

1.3 Tính ứng dụng của khóa luận - - ¿6xx svEvxseekeketrrrrrrerrrevee 10

Chương2 CƠ SỞ LÝ THUYÉT

2.1 Tác vụ phân tích cảm XÚC - ¿+ + + *Et+E+E+EEESEEEEEkSEEEEEkrkrkrkereree 12 2.2 Bộ dữ liệu

2.3 Word embedding ¿565-552 S+St2t‡xEEtEeekekerererrreree 16 2.4 Các mô hình phân loại.

2.4.1 Mô hình học sâu (Deep Learning) - - «+5 ss+cexsxexerrer 18 2.4.1.1 Text-CNN [22]

2.4.1.2 Bi-IGI Me v.n , eo, 20 2.4.1.3 BE GSRỤU SA Ể ii 21

2.4.2 Mô hình học chuyền tiếp (Transfer Learning) - - 22

2.4.2.1 BERT c2 2222222221 E221 Error, 23

2.4.2.2, PhoBERT 22222c 2222222111222 re 24 2.4.2.3 XLM-R s2 2222 2221 22221 E211 ceerrrei 24

Chương3 PHƯƠNG PHÁP ĐÈ XUẤT ¿¿+222+2z+222z+zerrrrxscee 25

ko na 25 3.1.1 _ Chuẩn hóa từ ngữ -:c2222cccSccvvrrrerrttrrrrrrrrrrrrrrrvee 26 3.1.2 Chuẩn hóa các kí hiệu cảm xúc thành biêu tượng cảm xúc 27

3.1.3 Tìm và sửa lỗi chính tả cho các từ 2-©2¿©5z+2x++cxesrxeerscee 28

3.1.4 Xử lý Teencode và StopWOrds: -cs55+5c+c+ccscs+ 29

Trang 10

3.1.5 Words sèmenfafIOn - Ăn Hnngngniệt 29

3.2 Phương pháp tiếp cận từ vựng cảm XÚC - 2-2 2 2+xecxezxerxerssreee 30

3.2.1 Bộ từ vựng VnEEmỌ€X - 5 + 19319 v.v ng ngư, 30

3.2.2 _ Phương pháp tiếp cận từ vựng cảm XÚC - ¿52 5 s+cs+cs+se2 313.3 Mơ hình tinh chỉnh kết hợp cùng các đặc trưng bộ từ vựng VnEmolex 33Chuong 4 © THU NGHIỆM VÀ KET QUẢ - 2 2+52+c+x+cx+rserszse2 36

4.1 Cac d6 do canh 36

4.2 Cài đặt các mơ hình xxx 9 9v 92 TH HH Hư Hưng nh nh 36

4.2.1 — Text-CNN HH HH HH HH ngàng HH 36 4.2.2 Bi-GRU ” 5577ố0 v00 68ãÃ 19t HIẤU HH HH ng HH ng 36

4.2.3 Các mơ hình học chuyển tiẾp -2¿©2+22+++£E£E++Eezrxerxerseee 37

4.3 Kết quả thử nghiệm 2- +52 £+E£+EEEEEEEEEEEEEEEEEEEEEEEEEEEEEErkerkrrkree 37

4.4 Phân tích lỗi và thảo luận - ¿2 + ++5£+x+E++E+E++Eerxexrxerezxererxeree 41

Chương 5 CHƯƠNG TRINH MINH HOA 20 ccscesscsssesssesssessesssesssesssessesssecsses 45

5.1 Minh họa chương trình phân tích cảm XÚC . 5s «+++£+s£+se+s+2 45

5.2 Minh họa chương trình hỗ trợ phân tích cảm xúc bình luận tiếng Việt theo

5.2.1 Cơng cụ được SU CUNG ee eeceeesecesceceneeeseeeeseeceseeceseeeeneceseeceaeeesaeee 47

5.2.2 _ Phân tích mơ hình hệ thống: 2-2-2 2+£+£++£E£+£z+£x+rxezsez 485.2.3 Phân tích kết quả của chương trình 2- 2 2 s+s+zx+zs+zszse2 49

Chương 6 KÉT LUẬN VÀ HƯỚNG PHÁT TRIEN -: - 50

6.I Kết luận -c2trthHHHHHHHHHH HH re 50

To 5I6.3 Hướng phát triÊn -¿-©2¿©+++E++EE+£EE+2EEEEEE2EEE2EEEEEEE.EEEerkrrrrres 51

Trang 11

Hình 2.1 Phân loại văn bản với máy hỌcC - - + 5+ St St vs rrkg 13

Hình 2.2 Các cung bậc cảm xúc trong bộ dữ liệu UIT-VSMEC 13

Hình 2.3 Phân phối độ dài các câu trong ba bộ đữ liệu phân tích cảm xúc tiếng

J5 15

Hình 2.4 Kiến trúc mô hình Text-CNN được đề xuất bởi Yoon Kim [22] sau khi

được tinh chỉnh thông sSỐ ¿2-2-5256 52S22EE2E2EEEEEEEEEEEEEEEEEEEEEEEEEEEErkrrkerkrrkrree 19Hình 2.5 RNN tiêu chuẩn và dạng khai triển của nó - 2-2 2 2 s£s£s+£+2 +2 20Hình 2.6 Kiến trúc mô hình LSTM [23] - 2-2-2 22£+£E+£E+zEzE++zxerxzsz 20Hình 2.7 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K

Paliwal [2⁄4] c1 111122301111 110011 kg 21

Hình 2.8 Mô hình mang RNN, LSTM va GRU -. -c++ccsccscseseeseerske 21

Hình 3.1 Téng quan quy trình thử nghiệm của phương pháp tiếp cận từ vung .25Hình 3.2 Quá trình lựa chọn và kiểm thử các phương pháp . - 26

Hình 3.3 Mật độ các thuộc tính của bộ từ vựng VnEmolex xuất hiện trong ba bộ dữ

liệu cảm xúc tiếng ViỆ( 2-5252 SEEEE9E12112112112171711121211211 211111111 31

Hình 3.4 Quy trình thực hiện kỹ thuật kết hợp từ vựng cảm xúc với các bộ dữ liệu

phân tích cảm xúc tiếng VIiỆt - 2-52 ©2S22E22E22EE2E1223127112212112211221 21121 cre 33

Hình 3.5 Phương pháp tiếp cận từ vựng cảm xúc trước khi đưa vào mô hình

Text-CNN, 34

Hình 3.6 Phương pháp tiếp cận từ vựng cảm xúc trước khi đưa vào mô hình

XLM-.— 35

Hình 4.1 Confusion Matrix của mô hình XLM-R trên bộ dữ liệu UIT-VSMEC 42

Hình 5.1 Sơ đồ xây dựng chương trình phân tích cảm Xúc -: 5-52 45

Trang 12

Hình 5.2 Chương trình minh họa phân tích cam xúc từ văn bản hoặc file 46

Hình 5.3 Mô hình hệ thống phân tích cảm xúc theo thời gian thực 47Hình 5.4 Trực quan đầu ra của hệ thống phân tích cảm xúc bình luận Youtube .48

Trang 13

DANH MỤC BANG

Bảng 1.1 Minh họa một số điểm trong bộ dit liệu UIT-VSMEC ban đầu 8Bang 1.2 Minh hoa một số điểm trong bộ dữ liệu UIT-VSMEC sau khi kết hợp

cùng VnEmolex Với các thuộc tính Disgust, Fear, EnJoy, Sadness, Surprise, Anger,

Other lần lượt là D, F, E, Sa, Su, Ay O -¿-+¿©2+22++2Ekt2EEEEEEEEEEEkrrrkerkrerkrrrvee 8Bang 2.1 Thống kê tông quát của ba bộ dit liệu phân tích cảm xúc tiếng Việt 14Bảng 3.1 Một số ví dụ trong các bộ dữ liệu mạng xã hội về chuẩn hóa từ ngữ 27

Bang 3.2 Một sô ví dụ vê chuan hóa kí hiệu cảm xúc sang biêu tượng cảm xúc 27

Bảng 3.3 Thống kê các từ viết tắt, các từ sai chính tả trong 3 bộ đữ liệu tiếng Việt

Bảng 3.4 Một vài ví du trong danh sách Stopword và Teencode 29

Bang 3.5 Minh họa một số từ trong bộ từ vung VnEmolex -5- 5 52 30Bảng 3.6 Mô tả một số câu có được từ việc kết hợp câu trong bộ dữ liệu UIT-

Bang 4.1 Kết quả thử nghiệm các mô hình phân loại trên UIT-VSMEC 37Bảng 4.2 Kết quả các phương pháp tiền xử lý dữ liệu với mô hình XLM-R trên

UIT-VSMEC Trong đó 1,2,3,4,5 lần lượt biểu thị cho các phương pháp chuẩn hóa

từ ngữ, chuẩn hóa kí hiệu cảm xúc, sửa lỗi chính tả, xử lý Teencode, Stopwords và

1000000117177 38

Bảng 4.3 Kết quả thử nghiệm phương pháp tiếp cận từ vựng với các mô hình phân

loại trên bộ dữ liệu UIT-VSMEC - - G Sc 1 2211123111211 1211 118 1118111811111 1 8x re, 39

Bảng 4.4 Kết quả thử nghiệm trên 2 bộ dữ liệu UIT-VSFC và ViHSD 40

Bảng 4.5 Một vài lỗi khi dự đoán trong các bộ dữ liệu mang xã hội 43

Bảng 4.6 Một số trường hợp phương pháp đề xuất gây ra sự nhầm lẫn 44

Trang 14

DANH MỤC TỪ VIET TAT

STT Thuật ngữ Mô tả

1 SA Sentiment Analysis

2 NLP Natural language processing

3 SQL Structured Query Language

4 API Application Programming Interface

5 CNN Convolutional Neural Network

6 LSTM Long Short-Term Memory

7 Bi-LSTM Bidirectional Long Short-Term Memory

8 GRU Gated Recurrent Unit

9 Bi-GRU Bidirectional Gated Recurrent Unit

10 Conv2D 2D convolution layer

11 XLM-R XLM RoBERTa

12 RoBERTa Robustly Optimized BERT Pre-training Aprroach

13 RNN Recurrent Neural Network

14 SOTA State-of-the-art

15 Cbow Continuous Bag of Words

Trang 15

TÓM TẮT KHÓA LUẬN

Cùng với sự phát triển không ngừng của cuộc cách mạng công nghiệp 4.0,

mạng xã hội ngày càng phổ biến và không thê thiếu trong cuộc sống của chúng ta,tạo điều kiện cho người dùng chia sẻ, thu thập thông tin một cách tiện lợi nhất Khi

đó, van đề đặt ra về phân tích cảm xúc các bình luận (nóng giận, thích thú, sợ hãi)trên không gian mạng là vô cùng cần thiết, góp phần xây dựng không gian mạng tiêuchuẩn Vấn đề nắm bắt và phân tích cảm xúc kịp thời ảnh hưởng trực tiếp tới trảinghiệm và đời sống của người sử dụng Bên cạnh đó, các công trình đi trước đã chỉ

ra rằng các từ mang giá trị cảm xúc trong câu có ảnh hưởng tới xu hướng cảm xúc

của câu đó Vì vậy, khoá luận của chúng tôi đề xuất phương pháp tiếp cận từ vựng

cảm xúc giúp tăng cường khả năng phân tích cảm xúc của các mô hình, ứng dụng các

kỹ thuật hiệu quả nhằm giải quyết bài toán phân tích cảm xúc trên mạng xã hội.Phương pháp được đề xuất là những tiếp thu, cải tiến từ các công trình đi trước có

hiệu quả cho bài toán phân loại văn bản nói chung và phân tích cảm xúc nói riêng.

Giải pháp chúng tôi là đề xuất một phương pháp kết hợp từ điển cảm xúc với

mô hình phân loại nhằm nâng cao độ chính xác của mô hình Các kết quả thử nghiệmcho thấy từ vựng cảm xúc kết hợp với các mô hình phân loại sẽ giúp cải thiện hiệu

suất đáng ké của các mô hình Bên cạnh đó, chúng tôi cũng đã triển khai các kỹ thuật

tiền xử lý dữ liệu và cài đặt lại các mô hình một cách hiệu quả nhất, giúp cải thiện

đáng kể hiệu suất của mô hình Sử dụng những kết quả đạt được từ phương pháp dé

xây dựng chương trình minh họa hỗ trợ phân tích cảm xúc mạng xã hội Việt Nam.

Trong khoá luận này, chúng tôi không chỉ đề xuất kỹ thuật xử lý đữ liệu cóhiệu quả cho đữ liệu bình luận mạng xã hội tiếng Việt mà còn đề xuất và tinh chỉnh

mô hình phân loại có hiệu suất vượt trội so với các công trình đi trước, cụ thể là mô

hình XLM-RoBER Ta với độ đo F1-score 70.06% trên bộ dữ liệu UIT-VSMEC [1],

so với F1-Score là 59.74% ở công trình ban đầu [1], Fl-score 93.97% so với 87.94%

trên bộ dữ liệu UIT-VSFC [2] va macro F1-score 68.29% so với 62.69% trên bộ dữ

liệu VIHSD [3] Qua đó nâng cao hiệu suất phân loại mô hình, góp phần xây dựng bộ

lọc giúp hạn chế các bình luận xấu trên không gian mạng

Trang 16

MỞ ĐẦU

Đặt vấn đề:

Chủ đề phân tích cảm xúc (Sentiment analysis) đã thu hút rất nhiều sự quantâm và nghiên cứu của giới học thuật, đặc biệt là trong việc phát triển các mô hình dựđoán Phân tích cảm xúc có nhiều ứng dụng khác nhau trong cuộc sống hàng ngàymột phần vì đây là công cụ giúp theo dõi ý kiến từ dữ liệu do người dùng tạo ra và

hỗ trợ việc đưa ra quyết định [4] Ứng dụng của phân tích cảm xúc xuất hiện trong

nhiều lĩnh vực như thương mại điện tử, mạng xã hội, blog, diễn đàn thảo luận và giáo

có những ưu điểm và nhược điểm vì các tác giả trong [6] đề xuất một cách tiếp cận

kết hợp cả hai phương pháp luận với nhau dé cải thiện hiệu suất của các mô hình phân

loại cảm xúc.

Từ những vấn đề được đặt ra, chúng tôi đề xuất một phương pháp kết hợp từ

vựng cảm xúc trong bộ từ điển cảm xúc tiếng Việt với các mô hình phân loại máy

học nhằm cải thiện hiệu suất cho tác vụ phân tích cảm xúc trong tiếng Việt

Mục tiêu:

Trong khóa luận này, chúng tôi tiến hành thử nghiệm các kỹ thuật xử lý dữ

liệu, các thuật toán máy học, so sánh phương pháp đề xuất với các công trình đi trướctương đương.

Đầu tiên, chúng tôi tiễn hành các khảo sát cho phương pháp tiền xử lý văn bảntiếng Việt từ những công trình đi trước, rút ra những hạn chế dé xây dựng và pháttriển phương pháp xử lý mới một cách hiệu quả Bên cạnh đó, phân tích các bộ từ

Trang 17

vựng cảm xúc cho tiếng Việt hiện nay, lựa chọn các bộ có tập thuộc tinh phù hợp dé

đưa vào kết hợp với các bộ dữ liệu cho phân tích cảm xúc tiếng Việt

Các kỹ thuật tiền xử lý đữ liệu được thử nghiệm đề kiểm chứng mức độ hiệu

quả với từng bộ dữ liệu, từng tác vụ nhằm làm sạch các bình luận được thu thập từcác nền tảng mạng xã hội Phương pháp được đề xuất cũng như các kỹ thuật xử lý

được thực hiện với mong muốn nâng cao chất lượng dit liệu và giúp tăng cường khả

năng phân tích cảm xúc của các mô hình Tuy nhiên, không phải phương pháp xử lý

dữ liệu nào cũng đem lại kết quả tốt, từ đó chúng tôi có những so sánh và chọn lọc

những kỹ thuật hiệu quả dé xử lý dữ liệu trước khi đưa vào phân tích.

Tiếp theo, chúng tôi đề xuất phương pháp tiếp cận các câu trong bộ dữ liệuban đầu với từ vựng cảm xúc trong bộ từ vựng VnEmolex Chúng tôi tiến hành xử lý

dữ liệu trước khi đưa vào huấn luyện với các mô hình phân loại, bao gồm xây dựng

bộ đếm từ mang giá tri cảm xúc trong câu và ánh xạ các vec tơ đặc trưng thu đượclên bộ đữ liệu ban dau

Sau đó, các mô hình được chọn lọc và cài đặt lại phù hợp dé có thé kết hợpvới phương pháp tiếp cận từ vựng được xây dựng Giúp cải thiện hiệu suất của bàitoán phân tích cảm xúc các bình luận trên mạng xã hội Việt Nam Đề đạt được mụctiêu này, các thử nghiệm khác nhau đã được tiến hành với hai phương pháp tiếp cậnhiện đại: học sâu và học chuyên tiếp Đối với các mô hình được lựa chọn và cải đặtlại, những cách tiếp cận này hỗ trợ trong việc xây dựng và phát triển các mô hình cơ

SỞ.

Cuối cùng, chúng tôi có những so sánh kết quả đạt được với các công trình đitrước, từ đó kết luận về mức độ hiệu quả của phương pháp được xây dựng Cũng nhưphân tích các lỗi gặp phải trong quá trình áp dụng phương pháp Từ đó, đề xuấtchương trình minh họa dựa trên streaming dé kiểm chứng tính hiệu quả và khả thi

của đê tài.

Đôi tượng và phạm vỉ nghiên cứu:

Trang 18

> Đối tượng: Mạng xã hội ngày nay tiềm an nhiều mối nguy hại và dần dần

bộc lộ cho chúng ta thay được những hau quả nếu không thực sự kiểm soáttốt được nó Trong phạm vi khóa luận, chúng tôi tập trung vào bài toánphân tích cảm xúc (Sentiment analysis) Bao gồm các tác vụ nhận dạng

cảm xúc (Emotion recognition), phân tích cảm xúc và phát hiện nội dung xúc phạm (Hate speech detection), ứng với các bộ dữ liệu mạng xã hội Việt Nam.

> Phạm vi: Chúng tôi đề xuất phương pháp tiếp cận từ vựng cảm xúc cho

các bình luận trên mạng xã hội nhằm tăng cường khả năng phân tích cảmxúc của các mô hình máy học Qua đó góp phan xử lý, loại bỏ các nội dungxâu ra khỏi không gian mạng xã hội, tạo bộ lọc góp phần xây dựng khônggian mạng tiêu chuẩn Cũng như đề xuất một số chương trình minh họa hỗtrợ giải quyết bài toán phân tích cảm xúc của các nội dung trên mạng xã

hội Qua đó xây dựng môi trường văn minh theo những tiêu chí mong muốn

và bảo vệ người sử dụng khỏi các nội dung không lành mạnh.

Kết quả nghiên cứu:

Khóa luận của chúng tôi thực hiện góp phần trở thành một công trình trongcông cuộc phân tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Qua quá trình nghiêncứu, chúng tôi mang tới giải pháp đề xuất xây dựng phương pháp tiếp cận từ vựngnhằm tăng cường khả năng phân tích cảm xúc của các mô hình máy học, bao gồm

các phương pháp xử lý dit liệu và cài đặt các mô hình sao cho hiệu quả khi kết hợp

cùng phương pháp được đề xuất Phương pháp đem lại kết quả tốt so với các côngtrình đi trước, cũng như các phương pháp xử lý ngôn ngữ hiện nay trên tiếng Việt.Cùng với đó là nắm bắt những lỗi gặp phải và cải thiện nó một cách tốt nhất Từnhững kết quả đạt được, đề xuất chương trình minh họa phân tích cảm xúc các bìnhluận mạng xã hội Cộng đồng xử lý ngôn ngữ tiếng Việt có thêm một phương pháp

xử lý hiệu quả giúp tăng cường khả năng dự đoán, phân tích cảm xúc của các mô hình

máy học.

Cau trúc khóa luận:

Trang 19

Khoá luận gôm 6 chương với các nội dung chính như sau:

> Chương 1: Tổng quan

Giới thiệu về bài toán phân tích cảm xúc với dữ liệu mạng xã hội và phươngpháp tiếp cận từ vựng cảm xúc được xây dựng; Tính ứng dụng của các kết

quả nghiên cứu trong bối cảnh hiện tại Giới thiệu một số công trình nghiên

cứu liên quan đến bài toán được xây dựng, cũng như các mô hình huấnluyện cho phân tích cảm xúc; Cùng với đó là các nghiên cứu về xử lý dữ

liệu theo thời gian thực.

> Chương 2: Cơ sở lý thuyết

Trình bày cở sở nền tang dé có thé tiếp cận bài toán phân tích cảm xúc.Bao gồm cơ sở bài toán phân tích cảm xúc, thông tin tổng quan các bộ dữ

liệu, tách từ, cùng với đó là các mô hình phân loại cho bài toán.

> Chương 3: Phương pháp đề xuất

Mô tả phương pháp được đề xuất của chúng tôi để kết hợp các thuộc tính

từ bộ từ vựng cảm xúc với các mô hình học máy phân loại Cùng với đó là

mô tả các kỹ thuật tiền xử lý dữ liệu được sử dụng, cũng như các mô hình

CƠ SỞ.

> Chương 4: Thứ nghiệm và kết quả

Chúng tôi trình bày các thông tin về quá trình thiết lập thử nghiệm, phântích và đánh giá các kết quả đạt được

> Chương 5: Chương trình minh họa

Chúng tôi trình bày hai chương trình minh họa ứng dụng kết quả từ phương

pháp tiếp cận từ vựng, bao gồm chương trình phân tích cảm xúc của văn

bản, file và chương trình minh họa hỗ trợ phân tích cảm xúc các bình luận

trên mạng xã hội Việt Nam theo thời gian thực.

> Chương 6: Kết luận và hướng phát triển

Chúng tôi tổng kết các kết quả đạt được, hạn chế và đề xuất các hướng pháttriển trong tương lai của khoá luận

Trang 20

Chương 1 TONG QUAN

1.1 Giới thiệu bài toán

Bài toán phân tích cảm xúc đã và đang là đề tài nhận được rất nhiều sự quan

tâm, nghiên cứu từ giới học thuật Trong phạm vi khóa luận lần này, chúng tôi đề

xuất phương pháp tiếp cận từ vựng cảm xúc cho các bộ dữ liệu mạng xã hội tiếngViệt Từ đó giúp tăng cường khả năng phân tích cảm xúc của các mô hình phân loại.

Với phương pháp tiếp cận từ vựng, chúng tôi nghiên cứu và áp dụng kết quả

từ những công trình đi trước, có thê kế đến là các phương pháp tiền xử lý và các môhình học máy đạt hiệu suất cao[7]-[9] Cũng như các nghiên cứu chỉ ra vai trò của tử

và cụm tu mang giá tri cảm xúc trong câu [5], [6] Qua đó chúng tôi có được những

thử nghiệm cụ thể để kiểm chứng và đánh giá phương pháp được đề xuất

Các bộ dữ liệu mạng xã hội cho tiếng Việt đóng vai trò trung tâm dé huấnluyện Một số công trình trước đây trong các tác vụ về tình cảm Việt Nam đã xâydựng bộ dữ liệu về các lĩnh vực cụ thể như mạng xã hội, giáo dục, thương mại điện

tử và từ điển cảm xúc Trong bài báo này, chúng tôi sử dụng ba bộ dữ liệu bao gồm

UIT-VSMEC [1], UIT-VSFC [2] và VIHSD [3] cùng với bộ từ vựng VnEmoLex [10]

đề thử nghiệm hiệu suất của phương pháp tiếp cận được đề xuất đối với tác vụ phântích cảm xúc cho tiếng Việt

Cả ba bộ dữ liệu đều là những bộ dữ liệu quy mô lớn và được những người

gán nhãn chú thích theo cách thủ công với quy trình chú thích nghiêm ngặt trên một

lĩnh vực cụ thể, lần lượt là lĩnh vực truyền thông xã hội (UIT-VSMEC), lĩnh vực sinhviên và giáo dục (UIT-VSFC) va phát hiện lời nói căm thù (ViHSD) Bên cạnh đó,

VnEmoLex là một bộ từ vựng về cảm xúc với tám loại cảm xúc khác nhau và chứatổng cộng 12.795 từ cảm xúc

Bài toán này nhằm mục đích trích xuất các đặc trưng cảm xúc có sẵn trongmột bình luận Qua đó kết hợp với bình luận dé xác định xem cảm xúc của nó mang

lại trên mạng xã hội Bài toán có thê được mô tả ngăn gọn như sau:

Trang 21

- Input: Một câu trong các bộ dữ liệu cảm xúc tiêng Việt, cùng với các từ trong

câu xuât hiện trong bộ từ vựng cảm xúc VnEmolex.

- Output: Nhãn thé hién cung bậc cảm xúc cua câu ứng với từng bộ dữ liệu

Anger Fear

/ tức giận / sợ hãi

Cho đáng đời con quỷ về nhà lôi Danh nhân 1 0 0 0

con nhà may ra mà đánh danh tiếng 1 0 0 1

đánh Minh họa bộ từ vựng VnEmolex

Hình 1.1 Ví dụ minh hoạ phương pháp tiếp cận cho các bộ dữ liệu cảm xúc

với bộ từ vựng VnEmolex.

+ Một câu trong bộ dữ liệu UIT-VSMEC: “cho đáng đời con quỷ về nhà lôi

con nhà mày ra mà đánh.”

1399 66

+ Các từ như: “đáng đời”, “con quý”, “lôi”, “đánh” có xuất hiện trong bộ tu

vựng, và mỗi từ thé hiện một cảm xúc nhất định (từ “đáng đời” mang cảm

xúc tức giận) Qua đó hình thành các vec tơ đặc trưng (mỗi vec tơ đặc trưng

là tập hợp các từ xuất hiện và mang giá trị cảm xúc trong bộ từ vựng

VnEmolex) Bảng 1.1 minh họa một số câu ban đầu, và sau khi được kết

hợp cùng bộ từ vựng VnEmolex minh họa ở Bảng 1.2.

Trang 22

+ Sau đó thực hiện kết hợp vec tơ đặc trưng thu được với câu trong các bộ

dữ liệu cảm xúc Huân luyện và đánh giá với các mô hình máy học Cuôi

cùng là tiên hành các thử nghiệm và rút ra kêt luận.

Bảng 1.1 Minh họa một số điểm trong bộ dữ liệu UIT-VSMEC ban đầu

ID Cảm xúc Bình luận

1 |Other cho minh xin bai nhạc tên là gi với ạ

2_ |Disgust cho đáng đời con quý về nhà lôi con nhà mày ra mà đánh

3 |Enjoyment ước gi sau này về già vẫn có thê như cụ nay :))

thang kia sao mày bắt vợ với bồ tao don thé kia nhà mày

cùng VnEmolex Với các thuộc tính Disgust, Fear, Enjoy, Sadness, Surprise, Anger,

Other lần lượt là D, F, E, Sa, Su, A, O

Bình luận Cảm xúc |DEF [El|Sal|SulA|O cho mình xin bai nhạc tên là gi với a Other 010101010100

cho đáng đời con quỷ về nhà lôi con nhà mày ra mà đánh |Disgust 1{110|01012|0uớc gì sau này về già vẫn có thê như cụ này :)) EnJoyment| 0021010101

thang kia sao mày bắt vợ với bồ tao dọn thé kia nhà mày ở

đâu tao đến thịt mày chết pAnger Oy P99] 9 | 2/0

một lí do trog muôn van lí do Other 0/01010100Ị1

thật hay đùa ác vậy không thể tin được Surprise |0|1|2|10|1110|2

1.2 Các công trình nghiên cứu liên quan

Tác vụ phân tích cảm xúc có thê được phân loại là tác vụ phân loại văn bản.

Các bộ dữ liệu khác nhau được tạo ra dé phục vụ tác vụ phân tích cảm xúc tiếng Việt

cho các lĩnh vực khác nhau, chăng hạn như bộ dữ liệu VLSP 2018 [11] và UIT-ABSA

Trang 23

[12] cho phân tích cảm xúc với lĩnh vực nhà hàng và khách sạn, UIT-VSFC [2] bộ

dữ liệu dé phân tích cảm xúc về phản hồi của sinh viên, UIT-VSMEC [1] dé phân

loại cảm xúc đối với nhận xét của người dùng trên các trang mạng xã hội, UIT-ViSFD

[13] để phân tích cảm xúc về phản hồi trên điện thoại thông minh và ViHSD [3] vàVLSP 2019 HSD [14] bộ dữ liệu để phát hiện lời nói căm thù trên các văn bản trên

mạng xã hội (Theo [15], các tác vụ phát hiện lời nói căm thù và phân tích tình cảm

có liên quan với nhau vì chúng đều xử lý tình cảm tiêu cực và tích cực thông quathông điệp lời nói căm thù) Chúng tôi chọn UIT-VSMEC, UIT-VSFC và ViHSD

làm ba bộ dữ liệu để đánh giá phương pháp đề xuất của chúng tôi

Bên cạnh các bộ dữ liệu có chú thích, VnEmoLex [10] và VietSentiWordNet

[16] là hai từ điển được sử dụng cho tác vụ phân tích tình cảm VnEmoLex chứa támcấp độ cảm xúc cơ bản bao gồm joy (Vu), sadness (Buôn bã), anger (Tức giận), fear

(Sợ hai), trust (Tin tưởng), disgust (Ghé tom), surprise (Ngạc nhiên) and anticipation

(Mong doi) trong khi VietSentiWordNet chỉ chứa ba cap độ, đó là positive (Tích cực),negative (Tiêu cực) va neutral (Trung tính) Trong phạm vi khóa luận lần này, chúngtôi sử dụng bộ từ vựng VnEmoLex vì nó có nhiều mức độ cảm xúc, và phù hợp dékết hợp với các bộ dữ liệu được chọn hơn so với VietSentiWordNet

Ngoài ra, dựa trên mỗi bộ dữ liệu, có một số cách tiếp cận đề xây dựng các môhình phân loại nhăm phát hiện cảm xúc từ văn bản Mô hình Maximum entropy đạtđược kết quả tốt nhất trên bộ dữ liệu UIT-VSFC [2], mô hình Text-CNN thu đượckết quả cao nhất trên bộ dữ liệu UIT-VSMEC [1] và mô hình BERT cho kết quả tốtnhất trên bộ dữ liệu ViHSD [3] Cùng với đó là các công trình nghiên cứu đạt kết quả

cao trên dữ liệu mạng xã hội tiếng Việt, cụ thé [9] sử dụng mô hình hồi quy đa thức (Multinomial Logistic Regression) trên UIT-VSMEC, [8] với mô hình két hop

PhoBERT-CNN trên ViHSD hay [7] với mô hình mạng thần kinh học sâu (Deep

neural network) trên UIT-VSFC Từ các mô hình cơ sở hiện tại trên ba bộ dữ liệu,

cũng như các kết quả từ các công trình nghiên cứu liên quan Chúng tôi đề xuấtphương pháp kết hợp từ vựng cảm xúc với các mô hình phân loại dé tăng hiệu suất

Trang 24

Từ những mô hình cơ sở tới những mô hình có hiệu quả cho phân loại văn bản, phân loại cảm xúc.

Bên cạnh đó việc cập nhật và xử lý dữ liệu ngay lập tức để có thể nắm bắtthông tin hoặc đưa ra những giải pháp kịp thời cũng là vấn đề cần được quan tâm và

phát triển Phương pháp và các hệ thống cho dang dir liệu theo thời gian thực được

[17] giới thiệu [18] Xử ly dữ liệu real-time từ Twitter sử dụng Spark Streaming Từ

phương pháp tăng cường từ vựng đạt được, chúng tôi đề xuất ứng dụng kỹ thuậtStreaming dé có thể xử lý và phân tích cảm xúc các nội dung trên mạng xã hội theo

thời gian thực, góp phân vào bài toán kiêm soát cảm xúc các bình luận.

1.3 Tính ứng dụng của khóa luận

Internet ngày càng phát trién mạnh mẽ, đặc biệt là các nền tảng mạng xã hội,

người ta có thé dành hang giờ mỗi ngày dé đọc báo, nghe nhac va chia sẻ cảm xúccho nhau; Bằng cách viết các ghi chú, bình luận trên các nền tảng mạng xã hội Ântrong những bình luận đó là những cảm xúc vui, buồn, thích thú, giận hờn mà ta haygọi là tích cực hoặc tiêu cực Những thứ mang hướng “cảm tính” như thế néu khôngphải là con người nhìn nhận và tự hiểu được nó thì thực sự là một thách thức với máy

tính nói chung, và các mô hình phân loại văn bản nói riêng.

Facebook Youtube Instagram Zalo TikTok

Hình 1.2 Thống kê số lượng người dùng Việt Nam trên các nền tảng mạng xã hội

(thống kê theo Triệu)

10

Trang 25

Hiện nay, tình trạng xúc phạm, ức hiếp trên nền tảng mạng xã hội ngày càngnghiêm trọng Một cá nhân có tầm ảnh hưởng, được nhiều người mến mộ, và đôi khi

sự mến mộ đó khiến chúng ta lầm tưởng rằng họ luôn luôn phải cư xử chuẩn mực,trong sạch Vì vậy, chỉ cần những sơ suất nhỏ, những lời nói trái với ý kiến dư luận,

cộng đông mạng sẵn sàng tây chay, xúc phạm đời tư và nhân phâm của cá nhân đó.

Bên cạnh đó, với góc nhìn thương mại điện tử, thì việc phát hiện ra cảm xúc

người dùng đúng lúc sẽ giúp ta có thể hiển thị những nội dung giải trí phù hợp, cũngnhư những nội dung quảng cáo tốt hơn Qua đó, tăng giá trị sử dụng các nền tảngmạng xã hội, cũng như hạn chế những nội dung tiêu cực người dùng mang lại khiđang trong một trạng thái không tốt

hợp, nẵng cao XEM LAI SIÊU PHAM PHAN 1

chất lượng với gói VieON VIP 69K/THANG

Tiếp cận từ vựng

cảm xúc

Tao met

mỏi quá tụi bay

người dùng Bang ký ngay

Tăng cường ing i VIP VieON chỉ với 2.300đ/ngày

khả năng Xem # 3 vả Phần 2 của Mỹ Lim MA 0 F

cao độ chính xác của các mô hình phân loại, tăng cường khả năng phân tích cảm xúc

trên các bộ dữ liệu mạng xã hội Bên cạnh đó xây dựng hệ thống phân tích cảm xúc

các bình luận trên mạng xã hội Việt Nam.

11

Trang 26

Chương 2 CƠ SỞ LÝ THUYET

2.1 Tác vụ phân tích cảm xúc

Phân tích cảm xúc (Sentiment analysis) [5], hay còn được gọi là phân tích quan

điểm (Opinion mining), là một cách tiếp cận của xử lý ngôn ngữ tự nhiên (NLP) déxác định giọng điệu cảm xúc đằng sau nội dung văn bản Ngoài ra còn có nhiều tên

và các nhiệm vụ khác nhau, ví dụ: trích xuất ý kiến (opinion extraction), phân tích

ảnh hưởng (affect analysis), nhận diện cảm xúc (emotion analysis), phân tích đánh

giá (review mining) Tat cả được gọi là phân tích cảm xúc hay phân tích quan điểm[5] Mặc dù trong ngành công nghiệp, thuật ngữ phân tích cảm xúc được sử dụng phốbiến hơn, nhưng trong giới học thuật, cả phân tích cảm xúc và phân tích quan điểmđều được sử dụng thường xuyên Về cơ bản chúng đại diện cho cùng một lĩnh vực

nghiên cứu.

Bài toán phân tích cảm là việc sử dụng xử lý ngôn ngữ tự nhiên, các mô hình

máy học phân tích văn bản và xác thực sinh trắc học để xác định, trích xuất, địnhlượng và nghiên cứu các sắc thái cảm xúc một cách có hệ thống Bài toán thể được

mô tả đơn giản như sau.

« Pau vào: Văn bản, có thé một câu hoặc nhiều câu

¢ Dau ra: Nhãn tương ứng với sắc thái của văn bản

Đối với bài toán phân loại văn bản nói chung và phân tích cảm xúc nói riêng,người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên quy tắc (rule-based), từkhóa (keywords), dựa trên ngữ nghĩa các từ có tần số xuất hiện cao, mô hìnhMaximum entropy, các tập thô Tuy nhiên, đối với đữ liệu mạng xã hội có đặc trưng

là đa dạng, các cảm xúc được thé hiện dưới dạng ấn thì rule-based, keywords lại

không đem lại kết quả tốt Vì vậy, chúng tôi lựa chọn cách tiếp cận sử dụng các mô

hình máy học (Machine learning) cho tác vụ phân loại văn bản, cụ thể là phân tíchcảm xúc Cách tiếp cận này giúp cho việc phân loại văn bản không dựa vào các quytắc đã được thiết lập thủ công, mà các mô hình máy học sẽ học cách phân loại văn

12

Trang 27

bản dựa trên các quan sát trước đó, thường sử dụng dữ liệu huân luyện với các văn bản được găn nhãn trước Các thuật toán phân loại văn bản có thê phát hiện ra nhiêu môi tương quan giữa các phân riêng biệt của văn bản và đâu ra dự đoán cho một văn bản hoặc đâu vào nhât định.

Disgust (Ghé tom) và Other (Các cảm xúc khác) Tổng quan bộ dữ liệu được trìnhbày trong Bảng 2.1, bao gồm kích thước của bộ dữ liệu, độ dài trung bình các điểmdir liệu và phần trăm nhãn có trong bộ dữ liệu

13

Trang 28

Bang 2.1 Thống kê tong quát của ba bộ dữ liệu phân tích cảm xúc tiếng Việt.

Bộ đữ liệu Kíchthước | Độ dài trung Nhãn Phần trăm

OTHER 18,40

POSITIVE 49,38 UIT-VSFC 16.175 14,31 NEGATIVE 4,02

NEUTRAL 46,60

CLEAN 82,70 ViHSD 33.400 11,51 OFFENSIVE 6,67

HATE 10,63

Chúng tôi sử dung bộ đữ liệu UIT-VSMEC làm bộ dữ liệu chuẩn đề đánh giá

hiệu quả của phương pháp được đề xuất Bên cạnh đó, chúng tôi cũng phân tích kếtqua dat được trên hai bộ dit liệu còn lại bao gồm UIT-VSFC [2] và ViHSD [3] dé

kiêm chứng mức độ hiệu quả của phương pháp tiêp cận từ vựng cảm xúc trên nhiêu

bộ dữ liệu và tác vụ.

UIT-VSFC [2] được xây dựng dé phân tích phản hồi của sinh viên về hoạt

động giáo dục Bộ dữ liệu này có hai tác vụ: tác vụ dựa trên cảm xúc đê phát hiện

cảm xúc của người dùng từ văn bản vê hoạt động giáo dục và tác vụ dựa trên chủ dé

14

Trang 29

để phân loại các danh mục thuộc về hoạt động dạy và học như giảng viên, cơ sở vàchương trình giảng dạy Trong khóa luận này, chúng tôi sử dụng tác vụ dựa trên

cảm xúc cho các thí nghiệm của chúng tôi Bộ dữ liệu UIT-VSEC với tác vụ cảm

xúc bao gồm ba nhãn: Positve (Tích cực), Negative (Tiêu cực) va Neutral (Trung

tính) Các thống kê tông quát của UIT-VSFC cũng được trình bày trong Bảng 2.1

Cuối cùng, VIHSD [3] là bộ dữ liệu được xây dựng cho tác vụ phát hiện lời

nói căm thù trên ngôn ngữ tiếng Việt Bộ dữ liệu này cũng có ba nhãn: Hate (Thù

ghét), Offensive (Xúc phạm) va Clean (Bình luận sạch sẽ) Bộ dữ liệu cũng được

mô tả tổng quan ở Bảng 2.1 Cả ba bộ dữ liệu này đều được gán nhãn thủ công với

quy trình gán nhãn chỉ tiết và chặt chẽ

Bảng 2.1 đưa ra thống kê các nhãn cho ba bộ dữ liệu được sử dung cùng với

phân trăm các nhãn xuât hiện Bên cạnh đó, sự phân bô độ dài các câu trong ba bộ

dữ liệu UIT-VSMEC, UIT-VSFC và ViHSD cũng được mô tả trong Hình 2.3.

Qua biểu dé, có thé thay rang độ dài trung bình của các câu trong ba bộ dữ liệu

có sự tương đồng, là 14,01 đối với UIT -VSMEC, 14,31 cho UIT-VSFC và 11,51 choViHSD Có thé thay rằng, cả ba bộ dữ liệu đều không cân bằng trong việc phân phốicác nhãn Đối chiếu với kết quả trong Bảng 2.1, đối với UIT-VSMEC, các nhãn bị

15

Trang 30

lệch về Enjoyments (Thich thú), Sadness (Buôn bã) và Disgust (Ghé tởm) Đối vớiUIT-VSFC, nhãn chiếm phan lớn bộ dữ liệu là Positive (Tích cực) Đối với bộ dit liệuViHSD, nhãn CLEAN chiếm số lượng lớn các điểm dữ liệu.

Ngoài ra, khi xem xét các điểm dữ liệu từ ba bộ dữ liệu, chúng tôi nhận thấyrằng các câu thường ngắn (không quá 20 từ trong một bình luận) Có thể giải thích

bởi tính chất mạng xã hội của các bộ dữ liệu, người dùng chỉ muốn trao đôi nhữngthông tin ngắn gọn, khen ngợi hay chúc mừng (ngoại trừ các trường hợp có mục đích

như spam hoặc kê chuyện) Cùng với đó, biểu tượng cảm xúc và từ viết tắt thường

xuyên được sử dụng dé tăng tốc độ nhập văn ban, cũng như tiết kiệm thời gian cho

người dùng.

Nhìn chung, mặc dù ba bộ dữ liệu có các nhãn khác nhau vì chúng được xây

dựng cho từng tác vụ khác nhau, một lĩnh vực cụ thể, nhưng cả ba bộ dữ liệu có cùng

một tính năng trong văn bản Do đó, chúng tôi sử dụng ba bộ dữ liệu này làm các bộ

dữ liệu chuẩn dé đánh giá hiệu suất của phương pháp mà chúng tôi đề xuất

2.3 Word embedding

Kỹ thuật word embedding được sử dung dé ánh xạ các câu bình luận về cácvec tơ số thực Theo [4], đây là điều kiện cần dé mô hình có thé hiéu và trích xuất đặctrưng từ bộ dữ liệu có dạng văn bản như UIT-VSMEC[1], UIT-VSFC [2] hay ViHSD

BI.

Đối với bài toán phân tích cảm xúc, cũng như phương pháp tiếp cận từ vựng

được đề xuất, chúng tôi sử dụng các bộ Word embedding đa ngôn ngữ và đơn ngônngữ có số chiều khác nhau dé so sánh hiệu suất của các mô hình và tìm ra mô hìnhtối ưu nhất cho phương pháp được đề xuất Chúng tôi sử dụng ba bộ word embedding

dé ánh xạ từ gồm Word2Vec [19] fastText1 [20] và PhoW2V [21]

Word2Vec [19] là một mô hình học không giám sat (un-supervised learning),

được huấn luyện từ kho dữ liệu lớn (large corpus) Chiều của Word2Vec nhỏ hơn

1 https://fasttext.cc/docs/en/crawl-vectors.html

16

Trang 31

nhiều so với one-hot-encoding và được tính theo công thức NxD với N là tổng số vec

tơ có trong Word2Vec và D là số chiều của word embedding Nó được sử dụng dé

ánh xạ từ thành vec tơ của số thực Đại diện cho các từ hoặc cụm từ trong không gian

vectơ với nhiều chiều Có thé tạo ra bộ nhúng từ bằng nhiều phương pháp khác nhau

như neural networks, co-occurrence matrIx, probabilistic models.

Word2Vec có hai kiên trúc chính:

- Skip-gram: Là mô hình dự đoán những từ xung quanh nếu biết trước từ

đích Lớp đầu vào chứa từ hiện tại và lớp đầu ra chứa các từ ngữ cảnh.Lớp ân chứa số thứ nguyên mà chúng ta muốn biéu thị, từ mà hiện tại có

ở lớp đầu vào Ưu điểm của mô hình là cho ra dự đoán với tính xác caonhưng hạn chế về thời gian huấn luyện

- Cbow (Continuous Bag of Words): Là mô hình ngược lại của Skip-gram,

dựa vào những từ xung quanh đề dự đoán từ đích Lớp đầu vào chứa các

từ ngữ cảnh và lớp đầu ra chứa từ hiện tại Lớp an chứa số thứ nguyên

mà chúng ta muốn biểu diễn, từ mà hiện tại ở lớp đầu ra Với ưu điểmthời gian huấn luyện nhanh chóng nhưng tính chính xác lại không bằng

mô hình Skip-gram.

Trong khi Word2Vec, mỗi từ được biểu diễn dưới dạng túi từ; Nhưng trongfastText, mỗi từ được biéu diễn dưới dạng một túi ký tự n-gram FastText [20] đượcxây dựng trên Word2Vec bằng cách học các biểu diễn vec tơ cho mỗi từ và n-gramđược tìm thấy trong mỗi từ, trong đó n-gram là số đoạn mà fastText chia văn bản ban

đầu thành các đoạn nhỏ hơn Các giá trị của các biểu diễn sau đó được tính trung bình

thành một vec tơ ở mỗi bước huấn luyện Điều này bổ sung rất nhiều tính toán choviệc huấn luyện, nó cho phép biểu diễn từ dé mã hóa thông tin từ phụ Các vec tơ của

fastText cũng đã được chứng minh là chính xác hơn các vec tơ Word2Vec trong hau

hết các trường hợp

PhoW2V [21] chúng tôi sử dụng bộ biểu diễn từ PhoW2V được cung cấp bởiAnh Tuan Nguyen va đồng tác giả (2020) Bộ biểu diễn từ PhoW2V chứa các vec tơ

17

Trang 32

từ dưới dạng cấp độ âm tiết, cấp độ từ và được pre-train dựa trên mô hình Skip-gram

của bộ biéu diễn từ Word2Vec Vì vậy, số chiều của PhoW2V bằng với số chiều của

Word2Vec và cùng bang 300 chiều Bộ nhúng từ được huấn luyện trước (pre-trained

word embedding) trên kho văn bản tiếng Việt 20GB

Như đã đề cập, chúng tôi sử dụng các bộ word embedding khác nhau dé so

sánh hiệu suất của các mô hình pre-trained và tìm ra mô hình tối ưu nhất cho bài toán

mà chúng tôi tiếp cận Qua đó, phương pháp nhúng từ fastText [20] được sử dụng để

làm bộ nhúng từ được huấn luyện trước cho các bộ dữ liệu truyền thông mạng xã hội

cho tiếng Việt

2.4 Các mô hình phân loại

Chúng tôi trình bày cách tiếp cận để xây dựng các mô hình phân loại trongphan này Chi tiết ngắn gon của các mô hình phân loại được mô tả dưới đây

2.4.1 Mô hình học sâu (Deep Learning)

Học sâu là một phần mở rộng của các phương pháp học máy truyền thống dựa

trên mạng thần kinh (Neural networks) với phương pháp học biểu diễn(Representation learning) Việc học có thé được giám sát, bán giám sát hoặc khônggiám sát Trong học sâu, các mô hình học máy được huấn luyện dé thực hiện các tác

vụ phân loại trực tiếp từ văn bản, hình ảnh hoặc âm thanh Các mô hình được huấnluyện băng cách sử dụng một bộ dữ liệu được gan nhãn va thông qua kiến trúc mạngthần kinh với nhiều lớp đề trích xuất đặc trưng từ dữ liệu huấn luyện

2.4.1.1 Text-CNN [22]

CNN cũng là một mạng Neural, nhưng khác ở chỗ nó có những lớp tích chập

(Convolutional) Nếu với việc phân lớp ở hình ảnh, CNN đi qua mọi góc, vec tơ và

kích thước của ma trận pixel Thực hiện với tất cả các tính năng của ma trận làm choCNN bền vững hơn với dữ liệu dang ma trận Thì chúng ta có thể coi dữ liệu văn bản

là đữ liệu tuần tự giống như đữ liệu theo chuỗi thời gian, ma trận một chiều Chúng

18

Trang 33

ta cân làm việc với một lớp tích chập một chiêu Y tưởng của mô hình gân như giông

nhau, nhưng kiểu dữ liệu và kích thước của các lớp tích chập đã thay đổi

Text-CNN [22] là sự điều chỉnh của mô hình tích hợp được sử dụng dé phânloại văn bản Trong Text-CNN, dữ liệu văn bản có thé được xem như dữ liệu tuần tự

như dữ liệu chuỗi thời gian hoặc ma trận một chiều Sau đó, các lớp phức hợp trích

xuất các tính năng quan trọng từ các văn bản Đề làm việc với Text-CNN, nó yêu cầumột lớp nhúng từ (Word embeddings) và một mạng tích chập một chiều (one-

dimensional convolutional network).

Action function

Convolution 1-max pooling ] Softmax function

regularization

4 region size: :

(1.2.3.5) 2 features 128 univariate vectors in this layer

32 filters for each for concatenated

Sentence matrix region size each region together to form a

6x5 totally 128 filters | size single feature vector 2 classes

Hình 2.4 Kiến trúc mô hình Text-CNN được dé xuất bởi Yoon Kim [22] sau khi

được tinh chỉnh thông sô.

Với đữ liệu đầu vào có dạng văn bản, Text-CNN sử dụng mạng nơ-ron tích

chập một chiều và chủ yếu là lớp gộp cực đại (Max pooling) theo thời gian Quá trìnhtính toán của mô hình Text-CNN chủ yếu được chia thành các bước sau:

- Bước 1: Định nghĩa nhiều lớp tích chập khác nhau dé thực hiện phép

tính tích chập từ đầu vào

19

Trang 34

- _ Bước 2: Thực hiện kết nối trên tất cả các kênh đầu ra, sau đó thực hiện

nối các giá tri gộp của từng kênh lai với nhau dé thu được một vec tơ

- Bước 3: Vec tơ nối trên sẽ được biến đổi thành đầu ra cho từng nhãn

dự đoán thông qua một lớp kết nối đầy đủ (Fully connected) Fully

connected sẽ tính xác suat dau ra theo từng nhãn.

2.4.1.2 Bi-LSTM

Long Short Term Memory — LSTM [23] là một dạng đặc biệt của mạng

nơ-ron hồi qui - Recurrent Neural Network (RNN) Mô hình có khả năng học được những

phụ thuộc xa LSTM được giới thiệu bởi Hochreiter và Schmidhuber (1997), và sau

đó đã được cải tiên bởi nhiêu công trình khác nhau.

(n) T (h) )

Hình 2.5 RNN tiêu chuẩn va dang khai triển của nó

LSTM được sinh ra đề giải quyết vấn đề của RNN LSTM không sử dụng các

node tự liên kết với chính nó, thay thế đó là các ô nhớ (memory cell) Các ô nhớ này

có các công ghi dé (input gate), công loại bỏ thừa (forget gate) và công truy xuất(output gate) cho các thông tin lưu trữ trong các ô nhớ.

Hình 2.6 Kiến trúc mô hình LSTM [23]

Bi-LSTM [24] là một biến thể của LSTM Bi-LSTM thêm vào một layer đặcbiệt gọi là backward recurrent layer kết nói layer đó cùng với forward layer đề cho ra

20

Trang 35

output Bằng cách này, một unit của Bi-LSTM có thé học được các thông tin ở cả quá

khứ (trước nó) và tương lai (unit kế tiếp)

Hình 2.7 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K

Paliwal [24].

2.4.1.3 Bi-GRU

GRU (Gated recurrent unit) [25] là phiên bản cải thiện của mạng RNN truyềnthống Cũng là một biến thể của LSTM, GRU với tốc độ tính toán nhanh hơn đángkết trong khi chất lượng tương đương GRU được đưa vào ứng dụng nhằm giải quyết

van đề mat mát gradient của mạng RNN truyền thống Kiến trúc GRU bao gồm công

cập nhật và công cài đặt lại (update gate và reset gate) Có thê hiểu hai công cập nhật

và cài đặt lại chính là hai vec tơ quyết định xem thông tin nào sẽ được truyền cho đầu

ra Và điều quan trọng là nó có thé được huấn luyện để lưu lại những thông tin từtrước, mà không phải xóa đi những thông tin liên quan đề dự đoán kết quả đầu ra

Một mô hình Bi-GRU được xử lý trình tự bao gồm hai GRUs Một GRU lấyinput theo chiều đi trước, còn lại theo chiều ngược lại

RNN |

Hình 2.8 Mô hình mạng RNN, LSTM và GRU.

21

Tiêu đề	Tăng cường khả năng phân tích cảm xúc bằng phương pháp tiếp cận từ vựng cảm xúc trên văn bản tiếng Việt
Tác giả	Doan Long An
Người hướng dẫn	ThS. Lưu Thanh Sơn
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	71
Dung lượng	36,31 MB