Cuộcđiều tra này, nhờ sử dụng việc phân tích cảm xúc mà đã để xác định được các kiểuchương trình mà từ đó có thé suy ra quy tắc liên kết của các bộ phim/chương trìnhtruyền hình.. Sử dụng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
DOAN THUC QUYEN
KHOA LUAN TOT NGHIEP
CUSTOMER EMOTION ANALYSIS SYSTEM BASED ON
VIETNAMESE COMMENTS
KY SU/ CU NHAN NGANH HE THONG THONG TIN
TP HO CHi MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
ĐOÀN THỤC QUYÊN - 18521320
KHÓA LUẬN TÓT NGHIỆP
HE THONG PHAN TÍCH CAM XÚC KHÁCH HÀNG
DUA TREN BÌNH LUẬN TIENG VIET
CUSTOMER EMOTION ANALYSIS SYSTEM BASED ON
VIETNAMESE COMMENTS
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN
TS NGUYEN THANH BINH
TP HO CHi MINH, 2022
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn chân thành nhất tới Tiến sĩ Nguyễn Thanh Bình,người đã tan tình hướng dẫn, hỗ trợ tôi trong suốt quá trình học tập, nghiên cứu déhoàn thành khóa luận Ngoài sự chỉ dạy và góp ý về kiến thức hàn lâm, kĩ năng thuyếttrình, nghiên cứu, báo cáo, thầy con quan tâm đến tình hình sức khỏe, tâm lí của sinh
viên cũng như luôn lắng nghe, chia sẻ, truyền cảm hứng và tạo động lực cho tôi hoàn
thành khóa luận Những kiến thức và kỹ năng được thay truyền đạt chắc chắn sẽ là
một trong những hành trang quý báu cho quá trình trưởng thành sau này của tôi.
Tiếp đến, tôi xin gửi cám ơn đến các thay cô, anh chị tại Phòng thí nghiệm Hệ thốngThông tin trong đó có thầy Nguyễn Hồ Duy Tri, thay Huỳnh Thiện Ý, anh Mai VănBình, anh Trần Vĩnh Khiêm đã tạo điều kiện, góp ý, hỗ trợ tôi trong suốt quá trìnhlàm khóa luận Bên cạnh đó, tôi cũng xin gửi lời cảm ơn tới các quý thầy cô trongkhoa Hệ thống thông tin nói riêng, các thầy cô trong trường đại học Công nghệ Thôngtin ĐHQG TP HCM nói chung đã giảng dạy kiến thức và kĩ năng cho tôi suốt bốn
năm học qua.
Một lần nữa, tôi bày tỏ lòng biết ơn tới Tiến sĩ Nguyễn Thanh Bình và các quý thầy
cô đã luôn đồng hành, hỗ trợ tôi trong suốt thời gian học Đại học
Tác giả
Đoàn Thục Quyên
Trang 5MỤC LỤC
Chương 1 MỞ ĐẦU 52222 E221 E1EE152121121121111 1111111111 ce 2
1.1 Đặt vấn đề cv nh He 2
1.2 Mục tiêu của khóa luận - - ¿E2 1111112231111 11122531111 119932111 tre, 7
1.3 Đối tượng và phạm vi nghiên cứu ¿- 2 sx++++x£+z++rxezxezxzrserxees 8
1.3.1 _ Đối tượng nghiên cứu 5- + SteEk+EE2EEEE2ECEEEEEEEEEEkrrkrrkrree 8
1.3.2 Phạm vi nghiÊn CỨU -.G c1 3111311131119 111911191 vn rệt 8
1.4 Cấu trúc báo cáo -+c++ttrEhhtthEHnnHH ngu 9
Chương2 CƠ SỞ LÝ THUYÊT - 2© 2+S2+EE+EE+2EE2EEEEESEEEEEEEErrkerrrex 11
2.1 Tổng quan về bài toán phân tích - ¿2 + s2 £+££+E£+E£+E££keEEeExerxrxee 11
2.1.1 Phân tích cảm xúc (Sentiment AnaÌyS18) -««++<sss+<exs+ lãi
2.1.2 Đám mây từ (Word Cloud) c5 se +sekseeeeseeseseresee 13
2.1.3 Mô hình chủ dé (Topic Modeling) - 2-5 2 s>s+zxszs+zsssez 16
2.2 Các hướng tiếp b:ï) lan IẾP., Z£ mm = 19
2.2.1 Các hướng tiếp cận hiện tại của bài toán phân tích cảm xúc: 19
2.2.2 Các hướng tiếp cận của bài toán mô hình chủ đề - 25
2.3 Thuật toán và các khái niệm nền 107 27
2.3.1 Tách từ (Tokenization) cho Tiếng ằ 27
2.3.2 Lý thuyết kiến trúc TransfOmer 2-2 2+ s+£x+tE++E++zxerxersez 35
2.3.3 Lý thuyết mô hình pretrain BERT - 2-2 s2sz+zz+ze+rxezse+ 42
2.3.4 Lý thuyết mô hình pretrain PhoBERTT -¿z2csz2-s+2 45
2.3.5 Lý thuyết mô hình LDA -¿-+¿©2++2+++£x++rxzrxrrreerxesrxee 46
2.4 Phát biểu bài toán c2: St Sncn t3 SE 1 E111 111111115115551555151115E11 E111 EEeErree 50
Trang 6Chương3 THUẬT TOÁN VÀ GIẢI PHÁP DE XUẤT -¿ 52
3.1 Giới thiệu bộ dữ liệu training .- - + xxx *svEsEEseEeeeseesreerkeeerrke 52
3.2 Quy trình và thuật toán sử dung của bai toán phân tích cam xúc 54
3.2.1 Tiền xử lí dữ liệu (PT€DTOC€SSIT) SG set 60
3.2.2 Tokenization và EncOdIng - - «xxx re 68
3.2.3 EncOding Ăn TH TT TH HH tr 74
3.2.4 Sentiment Analysis Model building - «+ ++s<<s£+<xs+s 76
3.2.5 EValuatIOn SH TH TH TH HH nghệ 82
3.3 Quy trình và thuật toán sử dụng dé xây dụng đám mây từ 85
3.4 Quy trình và thuật toán sử dụng của bài toán topic modeling 89
Chương 4 THIẾT KE VÀ TRIEN KHAI HE THÓNG - 99
4.1 Tổng quan về thiết kế hệ thống -. : 2 + +£2£+£++£E+£++£E++E++rxerxezes 99
4.2 Triển khai hệ thống ¿2 2t +E‡SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrervee 102
4.2.1 Cac hệ thong cần triển khai và công nghệ sử dụng: 102
4.2.2 — Cơ sở dữ liệu - 2 S2 S St SH HH HH Hit 104
4.2.3 Trực quan hóa kết quả phân tích - ¿5c s+x+++£++£++xzxees 104
Chương5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN -5+- 109
5.1 KẾt luận: cccvvt th tt nghe 109
5.2 Hạn chế/hướng phát triỂn: - + +¿+£+2++E++£xt£E++Etrxerxrrreereered 109
TÀI LIEU THAM KHẢO -.- - -ScSttEEtSE+EEEEEESEEEEEESEEEEEESEEEEEETEEEEEkrkrkerrrree 111
Trang 7DANH MỤC HÌNH
Hình 1.1: Sự quan tâm tới SA từ theo Google Trends trên toàn thé giới 5
Hình 1.2: Sự quan tâm tới SA theo Google Trends ở Việt Nam - 6
Hình 2.1: Ví dụ minh họa về bài toán Sentiment AnalyS1S - cccssscsseees 13
Hình 2.2: Ví dụ minh họa khi trực quan đám mây từ - 55+ + <++ss<++sss+ 14
Hình 2.3: Hình minh họa trực quan đám mây từ chưa xóa Stop word trong tiếng Anh
RịíÍaladaiaầãầaẳẳẳaẳaẳaẳaẳaẳaẳaiiỔỔẳắầảảẢỶẢỶẢẮẢỔẦẢỐỔỒẢẢÁ 15
Hình 2.4: Ví dụ minh hoa bài toán mô hình chủ đề của thuật toán LDA 18
Hình 2.5: Các cấp độ trong bài toán phân tích cảm xúc [19] -:5z5+ 19
Hình 2.6: Các mục tiêu khác nhau được ứng dụng trong bài toán phân loại cảm xúc
Hình 2.7: Các cách tiếp cận bài toán Sentiment Analysis [9] -«< - 22
Hình 2.8: Sơ đồ của bài toán SA với những phương pháp cô điển ở từng module.Bước trích suất đặc trưng (Feature Extraction) là bước quan trọng ở các phương pháptruyền thống (Tradidonal Method), nhưng trích suất đặc trưng sẽ được trích xuất tự
động ở các phương pháp học sâu (Deep Learning Method) [17] - 24
Hình 2.9: Cau tạo của từ trong tiếng VIỆt ©5:©2222E 2xx 2EEEEEEEEErrrrrrrrrei 27
Hình 2.10: Hình minh họa cho cách tokenizer dựa theo từ (ở trên) và dựa theo ký tự
Hình 2.11 So sánh sự khác nhau của việc tách từ ở các cấp độ khác nhau Các token
sẽ được phân biệt bằng “|” [23] -¿- + 52S2+E22E2EEEEEEEEEE121121121121121 111111 c0 33
Hình 2.12: Cách hoạt động của phiên bản lan truyền ngược qua thời gian bị cắt ngắn
của mô hình RÌNNs - - - L c1 111111 HS H HS SSSnn ST ng 0510 11 ke 36
Hình 2.13: Cấu trúc của mô hình LSTM -.-¿¿+s+s+s+E+E+E+E+ESEEEEEEEEzE+ErEsrrrsrrsez 37
Hình 2.14: Sự khác nhau giữa hai mô hình RNN và LSTM « «+ 38
Trang 8Hình 2.15: Kiến trúc của TransfOrmers ¿-¿ set +s+E+E+E+ESESEEEEEEEE+E+ErEsErrsrrsee 40
Hình 2.16: Cách BERT pre-training va fine-fun1ng - «se ssecsseeseeesee 44
Hình 2.17: Các biến thé của BERT theo thời gian 2- 2 + x+2sz+£++zxsrxczsz 44
Hình 2.18: Số lượng tham số của các mơ hình (Nguồn: hình trong bai báo cơng bố
mơ hình DistilBERT cua Victor và các cộng sự, (2019) [2Š]) 45
Hình 2.19: Mỗi từ cĩ thể thuộc nhiều tài liệu và cũng cĩ thé thuộc nhiều chủ đề 47
Hình 2.20 Sơ đồ kết nối văn bản với từ vựng - 2 ¿+c++cx+zxerxzrserxerrcrex 48
Hình 2.21 Sơ đồ kết nối văn bản tới các từ thơng qua trung gian là các topic ân 49
Hình 3.1 Tổng quan về quy trình xử lý dữ liệu trong hệ thống dé giải quyết ba bài
tốn Word Cloud, Topic Modeling, Sentiment AnalySIS 55s <++<<++<ss+ 52
Hình 3.2: Quy trình cua bai tốn Sentiment AnaÏyS1s .-«-+-«<++++se+ssss+ 59
Hình 3.3 Ví du về chuyển về chữ thường trong tiền xử lí -5- 5552 s2 62
Hình 3.4: Các Emoji trên FacebOOK - - - - + + +32 118391 8391113 1E kg re 63
Hình 3.5 Số lượng token ở mỗi bình luận trong dit liệu -. : ¿2=5+ 73
Hình 3.6 Tỷ lệ phần trăm số lượng bài báo sử dụng các thuật tốn tối ưu, đượcpaperwithcode.com thơng kê như sau 2-2: 522S22EE+EE+EE£2EE+EEvEEeEEEzEEerxerxerez 79Hình 3.7 Kết quả đánh giá accuracy của mơ hình trên tập dit liệu huấn huyện
(accuracy) và tap dữ liệu đánh giá (vaÏ_aCCUTACV) - -SĂ St sissrseersrrrrke 83
Hình 3.8 Kết quả đánh giá độ sai (loss) của mơ hình trên tập dữ liệu huấn huyện
(loss) và tập dữ liệu đánh giá (val_ ÍOSS) - Sc *S+ SE sksrirrrrrirsrrsrerree 84
Hình 3.9 Quy trình của bài tốn Word Cloud 0 cee eeeceeeseeesteceeceeeeeeeeaeeesaeeeneeeaes 85
Hình 3.10 Hình ảnh tính tan suất xuất hiện các từ bang thư viên WordCloud 88
Hình 3.11 Hình ảnh trực quan đám mây từ bằng Python -2- 2-5552 89
Hình 3.12 Quy trình của bai tốn Topic Modeling - - s5 <+sx+seesex 89
Trang 9Hình 3.13 Biêu đô thê hiện sự tương quan giữa chỉ sô coherence score và sô lượng
Hình 4.1 Xử lý dữ liệu theo 16 (Batch Processing), hình ảnh cua Microsolf 100
Hình 4.2 Sơ đồ kiến trúc hệ thống tổng quan - 2-2222 2+£++£x+xz+zz+cseẻ 101
Hình 4.3 Thống kê các công cụ phát triển web “hot” hiện nay (Google Trend) 102
Hình 4.4 Giao diện trang Dashboard 1 55 5+ k SE *kEeeeEeeeesereere 106
Hình 4.5 Giao diện trang Dashboard 2 - 5 556 + 1k ESkEkEseeeserrrkee 108
Trang 10DANH MỤC BANG
Bang 3.1 Bang so sánh các thuật toán Transformers .- +5 s55 s++s++sss+ 58
Bảng 3.2 Các công cụ tách từ cho tiếng Viét cecececcsccesessessessessesesessessessessessesseaee 70
Bang 3.3 So sánh các kết quả tách từ giữa các công cụ -z+cs+ccsrxcces 71Bảng 3.4 Bảng điều chỉnh siêu tham số và các hàm sử dụng trong quá trình huấn
Tuyén m6 Dinh eee 81
Bảng 3.5 Bảng so sánh kết quả của mô hình LDA chỉ sử dung 75% bộ văn ban 93
Bảng 3.6 Bảng so sánh kết quả của mô hình LDA chỉ sử dụng 100% bộ văn bản 94
Bảng 3.7 Bảng kết quả của mô hình LDA - 2-2: 5555¿2S£2£E+£xt£Ezzzzxerxrrez 96
Bang 4.1: Các công nghệ sử dụng trong hệ thống -. 2-5 22 225225225: 103
Bang 4.2: Cau trúc các bảng trong cơ sở dữ liệu - ¿2+ z+cs+rxersezrssrsee 104
Trang 11DANH MỤC TỪ VIET TAT
SA: Sentiment Analysis
NLP: Natural Language Processing
TM: Topic Modeling
WC: Word Cloud
LSA: Latent Semantic Analysis
pLSA: Probabilistic Latent Semantic Analysis
LDA: Latent Dirichlet Allocation
BPE: Byte-Pair-Encoding
CS: Coherence Score
Trang 12là một việc tốn thời gian và không khả quan với con người, đặc biệt là các hệ thống
có dữ liệu bình luận lớn Do đó, mục tiêu của khóa luận này là xây dựng một hệ thống
giúp thống kê, tóm tắt, chắt lọc các tri thức có trong dữ liệu, tinh giản khối lượng dtr
liệu đến người đọc Nhằm phục vụ cho việc thấu hiểu mong muốn, nhận thức, ý kiếncủa người bình luận, hỗ trợ các doanh nghiệp, chính phủ, tô chức đưa ra các lựa chọnthông minh và quyết định đúng đắn, hệ thống đặt ra ba bài toán cần giải quyết là phân
tích cảm xúc (Sentiment Analysis), xây dựng đám mây từ (Word Cloud), mô hìnhchủ đề (Topic Modeling) Kết quả phân tích sẽ được trực quan bang các biểu dé, sơ
đô, hình ảnh khác nhau, dé người đọc kết quả có được nhiều góc nhiều khác nhau
về dữ liệu Một điều quan trọng hơn hết là khả năng triển khai thực tế, tích hợp với
các hệ thông, nên tảng hiện có.
Sau khi tìm kiếm, thực nghiệm, kiểm thử các thuật toán, mô hình tiên tiến, kiến trúcTransformerss với mô hình tiền huấn luyện PhoBERT được chọn do là phù hợp chobài toán phân tích cảm xúc có đữ liệu đầu vào là văn bản tiếng Việt Còn ở bài toán
mô hình chủ đề, LDA được lựa chọn vì là thuật toán phổ biến và có độ chính xác cao
và được điều chỉnh các tham số K, alpha, beta, corpus dé mô hình có Coherence Scorecao nhat va Perlexity thap nhat
Trang 13Chương 1 MỞ ĐẦU
1.1 Đặt vấn đề
Trong những thập niên gần đây, việc sử dụng Internet và tạo ra các trang web trở nênphô biến Hang ngày, có hàng triệu người bộc lộ ý kiến, cảm xúc trên các kênh truyềnthông xã hội như: trang web đánh giá sản phâm, mạng xã hội, diễn đàn, blog và cácnguồn web khác Các trang web này không những giúp người dùng có thé chia sẻthông tin với nhau mà còn cho phép họ dé lại bình luận, nhận xét của mình về nhữngsản phẩm và dịch vụ họ trải nghiệm Ví dụ, một số khán giả sau khi xem bộ phim mớivừa được chiếu ở rạp sẽ bộc lộ cảm xúc tích cực, tiêu cực hoặc trung lập về bộ phimbằng cách nhận xét, bình luận lên các trang mạng xã hội, các diễn đàn, trang webđánh giá phim, Số lượng người xem bộ phim này càng lớn, khối lượng dit liệu bình
luận về bộ phim đó càng nhiều Từ đó, một lượng dữ liệu không lồ được tạo ra từ
người dùng các kênh truyền thông xã hội Nếu nguồn dữ liệu này được đem đi phântích, ta sẽ có cái nhìn tông thé về ý kiến da số của người dùng, do đó có thé nói đây
là nguồn dữ liệu có giá trị và đóng vai trò quan trọng đối với các tổ chức, doanh
nghiệp.
Thực tế cho thấy, phân tích cảm xúc rất hữu ích trong việc ứng dụng trên nhiều lĩnhvực, chang hạn như xác định ý kiến khách hàng hay theo dõi sức khỏe tinh thần dựatrên các bai đăng trên mạng xã hội của bệnh nhân Thêm vào đó, sự xuất hiện của các
công nghệ mới như Big Data, Cloud Computing và Blockchain đã giúp việc phân tích
cảm xúc được áp dụng trong hầu hết mọi lĩnh vực bằng cách cung cấp khả năng phântích cảm tính không giới hạn Ví dụ: một số lĩnh vực ứng dụng phân tích cảm xúc phôbiến được Marouane và cộng sự [19] liệt kê, cụ thể là trong kinh doanh thông minh,
xây dựng các hệ thống khuyến nghị, Government intelligence, Chăm sóc sức khỏe và
Y tế Cụ thể ở mỗi lĩnh vực như sau:
Về Kinh doanh thông minh, việc phân tích cảm nhận của khách hàng về sản phẩmhoặc dịch vụ là ứng dụng phô biến nhất của phân tích cảm tính trong lĩnh vực kinhdoanh thông minh Ví dụ, đối với các công ty, họ thường nghiên cứu phản hồi của
Trang 14khách hàng và dùng kết quả của phân tích cảm xúc dé cải tiến sản phâm hoặc áp dụngchiến lược tiếp thị mới Kết quả của việc ứng dụng bài toán phân tích cảm xúc vàoviệc kinh doanh thông minh [19] cho thấy phân tích tình cảm có thé giúp xác địnhnhận thức của khách hàng, từ đó có thé khắc phục khuyết điểm dé đáp ứng sự hàilòng của khách hàng Ngoài ra, việc phân tích cảm xúc không chỉ giúp ích cho các
doanh nghiệp, mà còn giúp khách hàng so sánh các sản phâm với nhau và đưa raquyết định tốt hơn
Phân tích cảm xúc trong Kinh doanh thông minh không chỉ ứng dụng cho các sản
phẩm, dịch vụ mà còn được áp dụng cho dự đoán lợi nhuận, biến động trên các sàn
giao dịch Forex và sàn giao dịch tiền điện tử Marouane và cộng sự [19] đã chứngminh được bằng các dẫn chứng: Một nghiên cứu đã kết luận được rằng các bài báo,tin tức trực tuyến về các nền kinh tế có tác động tới cảm xúc và hành vi của ngườiđọc, do đó ảnh hưởng tới lợi nhuận, sự biến động trên các sàn giao dịch tiền mã hóa
va sản giao dịch Forex Cũng theo nghiên cứu, kết qua cho thay rằng các tiền tệ truyềnthống bị ảnh hưởng đáng kề và ngay lập tức trên sàn giao dịch ngoại hối forex, cònđối với Bitcoin, tuy có ảnh hưởng nhưng lại không ảnh hưởng ngay lập tức Do đó,một số nghiên cứu đã sử dụng phân tích tâm lý của các Tweeter (người sử dụngTwitter) nham dự đoán giá của một số loại tiền điện tử nổi tiếng Qua đó, ta thay cáccông trình nghiên cứu hiện tại còn sử dụng phân tích cam tính dé dự báo giá trị tiền
tệ điện tử Ngoài ra, còn có các nghiên cứu áp dụng phân tích cảm xúc vào lĩnh vựccông nghệ blockchain Một trong số đó đã được Marouane và cộng sự [19] nêu ra,nghiên cứu đó là kết hợp giữa phân tích cảm tính và công nghệ blockchain, sử dụngcác nguyên tắc và phương pháp của công nghệ blockchain dé phát hiện tin tức giả tựđộng trên kênh phương tiện truyền thông
Đối với các hệ thống khuyến nghị (Recommendation system), chúng là hệ thống dùngmột hoặc nhiều thuật toán nhằm mục đích đề xuất các mặt hàng có liên quan (phim,nhạc hoặc sản phẩm cần mua) cho người mua Một hệ thống đề xuất hiệu quả có thé
tạo ra một khoản thu nhập khổng lồ Vì mục đích đó, các hệ thống này đã áp dụng
việc phân tích cảm tính dé đưa ra khuyến nghị tốt hơn Hiện nay, có rất nhiều nghiên
Trang 15cứu về vấn đề này Ví như một hệ thống đề xuất phim thông minh sử dụng phân tíchtình cảm của các blog nhỏ Bởi vì các nhóm thảo luận trong blog nhỏ thường có mốitương quan với một chủ đề nhất định, do đó, họ đã sử dụng các thuật toán và quy tắc
dé tìm ra mối liên kết nhận thức tình cảm và mối tương quan giữa các nhóm Cuộcđiều tra này, nhờ sử dụng việc phân tích cảm xúc mà đã để xác định được các kiểuchương trình mà từ đó có thé suy ra quy tắc liên kết của các bộ phim/chương trìnhtruyền hình
Về khía cạnh government intelligence, có thé hiểu ứng dụng phân tích cảm xúc dé hỗtrợ các hoạt động cho chính phủ, giúp cho các hệ thông chính quyền đã ra các quyếtđịnh thông minh hơn Bởi vì bên cạnh bình luận về các sản phẩm và dịch vụ, ngườidùng mạng xã hội còn viết bình luận về một số chủ đề khác như chính trị, tôn giáo vàcác van đề xã hội Sử dụng phân tích cảm tính dé xác định ý kiến về các chính sáchcủa chính phủ hoặc các van đề tương tự khác là một cách rất hữu ich dé theo dõi phảnứng của công chúng phản hồi đối với việc thực hiện các chính sách nhất định, nhưtrong công trình của Georgiadou được Marouane và cộng sự [19] nhắc đến đã sửdụng phân tích tình cảm của các bài đăng trên Twitter đề điều tra và tổng hợp tìnhcảm của công chúng hướng tới kết quả Brexit! Một nghiên cứu được Marouane vàcộng sự [19] đề cập, đã phân tích được rằng thái độ của báo chí đối với các đảng phái
chính trị có ảnh hưởng tới cảm xúc của cử tri Mục đích của bài báo này là nghiên
cứu tác động khuynh hướng chính trị của báo chí đến việc hình thành ý kiến của cửtri Các tác giả trong nghiên cứu này đã thu thập dữ liệu bao gồm 180.000 bài báo từ
25 tờ báo trong cuộc Bau cử Liên bang Đức trong 18 tháng, sau đó sử dụng phân tíchtình cảm và phân tích tình cảm thực thé để trích xuất 740.000 thực thê chính trị vớicảm xúc theo ngữ cảnh của họ Những dữ liệu này được khai thác dé phân tích mối
quan hệ giữa báo chí và các đảng phái chính trị.
! Brexit la từ ghép của 2 chữ gồm “Britain” là nước Anh và “exit” là sự ra đi Brexit là ám chỉ sự kiến Vuong
quôc Anh ly khai khỏi Liên hiệp Châu Au.
Trang 16Lĩnh vực cuối cùng được nhắc tới là chăm sóc sức khỏe và y tế Việc sử dụng phântích cảm xúc trong lĩnh vực y tế đã nhận được rất nhiều sự quan tâm trong thời giangần đây Việc ứng dụng này cho phép các nhân viên có được thông tin về dịch bệnh,phản ứng có hại của thuốc cũng như tâm trạng của bệnh nhân sau khi dùng thuốc,đồng thời phân tích chúng để cung cấp dịch vụ chăm sóc sức khỏe tốt hơn Cụ thể,
họ đã thu thập khoảng 5,3 triệu tweet về chủ đề ung thư vú và chọn lọc các tweet cóliên quan đến trải nghiệm của bệnh nhân mắc bệnh này Các tác giả cho rằng nhờnhững trải nghiệm đã được chia sẻ đó giúp mọi người có cái nhìn tích cực hơn vềviệc điều trị ung thư vú Điều này chứng minh rằng các phương tiện truyền thông cóthể giúp bệnh nhân trở nên tích cực hơn Do đó, việc phân tích dữ liệu do bệnh nhântạo trên phương tiện truyền thông xã hội bằng cách sử dụng phân tích cảm xúc rấthữu ích để suy ra mức độ chăm sóc sức khỏe phù hợp cho bệnh nhân và xác địnhphương pháp điều trị theo nhu cầu
Qua những điều ké trên, ta thấy một việc ứng dụng phân tích cảm xúc rất hữu íchtrong nhiều lĩnh vực Rõ ràng, việc nghiên cứu phân tích cảm xúc đã nhận được nhiều
sự quan tâm hơn trong vòng một thập kỷ rưỡi qua giữa các cộng đồng nghiên cứutrên toàn thế giới Ké từ năm 2004, phân tích cảm xúc đã trở thành lĩnh vực đượcnghiên cứu nhiều và phát triển nhanh nhất, theo số lượng thống kê hình 1.1 Biéu đồ
đã cho ta thấy sự gia tăng lớn về số lượng các bài báo tập trung vào phân tích tìnhcảm và khai thác ý kiến, đặc biệt trong những năm gan đây Hình 1.1 cho thấy sự phốbiến ngày càng tăng của việc nghiên cứu bài toán SA theo Google Trends của toànthé giới
Jan 1, 2004 Jul 1, 2001 Jan 1, 2015 Jul 1, 202¢
Hình 1.1: Sự quan tâm tới SA từ theo Google Trends trên toàn thé giới
Trang 17Về phía Việt Nam, vấn đề này bắt đầu được quan tâm từ giữa năm 2011, tuy nhiêncác bài báo nghiên cứu về việc phân tích cảm xúc và khai thác ý kiến thực sự tăngmạnh từ năm 2018 Biểu đồ hình 1.2 bên dưới thê hiện số lượt quan tâm đến bài toán
SA ở Việt Nam, được lấy từ Google Trends Biểu đồ đã cho thấy thống kế số lượngbài báo nghiên cứu bài toán này ở Việt Nam bắt đầu từ tháng 6, năm 2011 Biểu đồcho ta thấy, Việt Nam bắt đầu nghiên cứu về SA bắt đầu từ tháng 6 năm 2011 và sốlượng bài báo nghiêng cứu bắt đầu tăng mạng trong những năm 2018 đến nay, trong
đó năm 2021 là năm có số lượng bài báo tăng cao nhất
Hình 1.2: Sự quan tâm tới SA theo Google Trends ở Việt Nam
Thực chất bài toán phân tích cảm xúc là bài toán con của NLP với mục đích lay duoccảm xúc và ý kiến của người bình luận từ văn bản Nhiều ứng dụng dựa trên phântích cảm xúc đã được nhiều nhà nghiên cứu phát triển Tuy nhiên, phân tích cảm xúccủa con người không phải là chuyện đơn giản, trên thực tế, nó đòi hỏi phải phát hiện
ý đồ của người bình luận như phát hiện văn bản có ý châm biém, mia mai hay ý kiếnchủ quan Hơn nữa, văn bản do người dùng viết không phải lúc nào cũng được chinchu như trong sách báo mà có thé chứa nhiều lỗi chính tả, teencode, tiếng long, hoặcviết tắt, Ngoài ra, do đối tượng xử lý và phân tích là ngôn ngữ tự nhiên - văn bảnnên đối với mỗi ngôn ngữ khác nhau sẽ khác nhau về công nghệ sử dụng, quy trìnhtiền xử lý, Do đó, hiện nay, mặc dù có rất nhiều các giải pháp cho bài toán phântích cảm xúc, nhưng chủ yếu được phát triển ở ngôn ngữ tiếng Anh, chúng ta vẫnkhông thé áp dụng hoàn toàn chúng cho bài toán phân tích cảm xúc cho dữ liệu bìnhluận tiếng Việt được Do đó, việc ứng dụng các mô hình cần có sự linh hoạt, điềuchỉnh cho phù hợp cho dữ liệu tiếng Việt
Trang 18Hiện nay, mặc dù bài toán phân tích cảm xúc đã được nhiều người quan tâm, nghiêncứu và phát triển nhưng chỉ dừng lại ở việc kết luận văn bản hoặc câu bình luận đóhoặc khía cạnh đó được gắn nhãn là tích cực, tiêu cực hay trung lập Sau đó, dé biếtđược mong muốn, ý kiến của người dùng đối với vấn đề nào đó, đối tượng đọc kếtquả phân tích sẽ phải đọc hết toàn bộ bình luận và nhãn vừa được dự đoán Việc đọctoàn bộ bình luận và nhãn như vậy không chỉ tốn rất nhiều thời gian mà đối tượngxem kết quả vẫn không lấy được thông tin (insight) của người dùng Lí do ở đây cóthê là đối tượng xem bị nhằm lẫn hoặc đưa ý kiến chủ quan của mình sau khi đọcbình luận, Vì vậy, một bảng tóm tắt thông tin về dữ liệu, được trực quan băngnhiều biểu đồ dễ hiểu ở nhiều góc nhìn, khía cạnh khác nhau, hỗ trợ người xem có
cái nhìn hiệu quả và hiéu rõ hơn đối tượng cần tìm hiểu, phù hợp cho nhiều mục đích
khác nhau sẽ rất hữu ích cho người xem Do đó, một phần mềm bên cạnh cung cấpnhãn của từng câu bình luận, chúng còn tong hợp lại, gom nhóm dé hiển thị nhiều
biểu đồ, đồ thị về nhiều khía cạnh khác nhau của toàn bộ văn bản, sẽ giúp cho người
sử dụng có cái nhìn vừa tông quát vừa chi tiệt vê dữ liệu của họ.
1.2 Mục tiêu của khóa luận
Trong đê tài khóa luận này, dự án này có 3 mục tiêu:
e Mục tiêu thứ nhất: Đánh giá, phân tích, lựa chọn được quy trình, thuật toán
phục vụ cho bài toán phân tích cảm xúc, đám mây từ mô hình chủ đề cho tiếng
Việt.
e Mục tiêu thứ hai: Kết quả phân tích được trực quan dưới nhiều khía cạnh, góc
nhìn, từ tong quan đến chi tiết bằng các loại biểu đồ, hình vẽ,
e Mục tiêu thứ ba: Xây dựng hệ thong làm nhiệm vụ thực hiện toàn bộ quy trình
xử lý dữ liệu, phân tích và hiển thị các kết quả lên nền tảng web
Trang 191.3. Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Đối tượng quan trọng đầu tiên trong nghiên cứu này, đó là các bình luận
(comment) của người Việt Nam Bình luận hay comment là thuật ngữ chi về các ý kiến của người dùng viết trên các mạng xã hội hoặc các diễn đàn website Đây có thé là một từ, một câu hoặc đoạn văn bản nêu ý nghĩ, cảm tưởng, đánh giá, chia sẻ của bản thân sau khi sử dụng sản phẩm, dịch vụ hay
về một đối tượng hay tô chức nào đó Đó có thé là tích cực với mục đích khen ngợi; hoặc cũng có thé mang tinh chat tiéu cực, là một loi cảnh cáo,
một lời chê bai; hoặc mang tính trung lập, với mục đích chia sẻ, sự thắc mắc
hay lời hỏi thăm.
Các bình luận này được khai thác trên các trang thương mại điện tử; các cửa
hàng; các trang đánh giá về các địa điểm ăn uống, nhà hàng, khách sạn, du lịch;
khảo sát của các bạn sinh viên trong quá trình học tap; Việc nghiên cứu các
ý kiến phản hồi từ bình luận của khách hàng ở nhiều lĩnh vực là một đối tượngnghiên cứu quan trọng trong đề tài này
Một đối tượng quan trọng tiếp theo trong đề tài là nghiên cứu các mô hình kiếntrúc Transformers có thể áp dụng được cho bài toán phân tích cảm xúc và dữliệu Tiếng Việt, cụ thé ở khóa luận này được áp dụng mô hình tiền huấn luyện
Trang 20dùng và được phân loại thành ba loại là tích cực, trung lập, tiêu cực Mỗi đánh
giá của khách hàng thường chứa nhiều câu văn thành phan, việc nghiên cứu bàitoán trên câu văn là nền tảng cho những công tác nghiên cứu trên đoạn văn.Trong đề tài này, hệ thống tập trung nghiên cứu các mô hình cho bài toán phântích ý kiến ở cấp độ toàn bộ văn bản trên tiếng Việt
Phạm vi được tiễn hành nghiên cứu trong bài toán xây dựng hệ thống phân tích
dữ liệu bình luận tiếng Việt là nghiên cứu ba bài toán nhỏ:
e Phân tích cảm xúc (Sentimnet Analysis) là dự đoán nhãn tích cực, trung
lập hay tiêu cực của câu bình luận.
e Đám mây từ (Word Cloud) là tìm ra các từ có tần suất xuất hiện nhiều
và trực quan kết quả bằng đám mây các từ
e©_ Mô hình chủ đề (Topic Modeling) là tìm ra các chủ đề ấn có trong văn
bản bằng cách liệt kê những từ xuất hiện và mức độ xuất hiện của chúng
trong môi chủ đê.
1.4 Câu trúc báo cáo
Chương 1 - Mở đầu Trình bày lý do chọn đề tài, mục tiêu, đối tượng và phạm vinghiên cứu của đề tải
Chương 2 - Cơ sở lý thuyết Nêu lý thuyết các bài toán cần xử lý trong khóa luận
này Phân tích và đánh giá các hướng nghiên cứu đã có hoặc liên quan tới các bài
toán này của các tác giả/ nhóm tác giả trong và ngoài nước Trình bày những vấn đềcòn tồn động và những vấn đề mà khóa luận này cần tập trung giải quyết Trình bàynội dung lý thuyết của những mô hình dựa trên kiến trúc Transformers là BERT,
PhoBERT cho bài toán phân tích cảm xúc; va mô hình LDA cho bài toán mô hình
chủ đề
Chương 3 — Thuật toán và giải pháp đề xuất: Giải thiệu bộ dữ liệu training Quytrình xử lý và các mô hình, công nghệ có thể sử dụng cho bài toán phân tích cảm xúc,đám mây từ, mô hình chủ đề và lí do chọn chúng
Trang 21Chương 4-— Thiết kế và triển khai hệ thống: Trình bày thiết kế tổng quan, các thành
phần trong hệ thông, nhiệm vụ và cách hoạt động của từng thành phần Cách hệ thong
hoạt động, giao tiếp giữa các thành phan với nhau và các bước triển khai hệ thống
Chương 5 - Kết luận và hướng phát triển Cuối cùng, tổng kết lại các kết quả quantrọng trong đề tài đã được nghiên cứu và thực hiện, đưa ra các hạn chế và hướng phát
triên của dé tai.
10
Trang 22Chương2 CƠ SỞ LÝ THUYET
2.1. Tổng quan về bài toán phân tích
Như đê cập ở phân 1.1, việc thâu hiêu cảm nhận của người dùng là chìa khóa quantrọng dé cải thiện trải nghiệm dịch vụ/sản phâm lý tưởng Khi người dùng nhận thấy
cảm xúc của mình được quan tâm, họ có xu hướng tin tưởng và muôn kết nôi dài lâu
với doanh nghiệp/tô chức đó Vì vậy, bài toán đặt ra là làm thế nào dé có thé hiểu
được cảm nhận, ý kiên của người dùng Việc chỉ kêt luận mức độ cảm xúc ở mỗi câu
bình luận là tích cực, trung lập hay tiêu cực thì không thực sự có hiệu quả trong việc hiêu được mong muôn của người dùng của mình Do đó, bài toán phân tích ở đây,
bên cạnh dự đoán nhãn ở mỗi câu bình luận, ta còn phân tích dựa trên nhiêu khía
cạnh, cụ thê thì bài toán được chia thành ba bài toán nhỏ hơn như sau:
Bài toán phân tích cảm xúc (Sentiment Analysis): làm nhiệm vụ dự đoán nhãn
ở mỗi câu bình luận được Nhãn ở đây gom 3 loại là tích cực, trung lập hoặc
tiêu cực, được kí hiệu tương ứng thành 1, 0, -1.
Bài toán đám mây từ (Word Cloud): làm nhiệm vụ hiển thi các từ/cụm từ cónghĩa trong văn bản với tần suất xuất hiện nhiều nhất
Bài toán mô hình chủ dé (Topic Modeling): làm nhiệm vụ tìm các chủ đề ântrong văn bản Mỗi chủ đề được thê hiện bằng các nhóm từ khóa và tần suấtxuất hiện của chúng
2.1.1 Phân tích cảm xúc (Sentiment Analysis)
e Định nghĩa:
Phân tích cảm xúc (Sentiment Analysis), còn được gọi là khai thác ý kiến(Opinion Mining) là nhiệm vụ trích xuất và phân tích ý kiến, tình cảm, thái độ,nhận thức của mọi người, về các thực thé khác nhau như chủ đề, sản phẩm
và dịch vụ Sự phát triển nhanh chóng của các ứng dụng trên Internet như trangweb, mạng xã hội và blog, khiến người dùng tạo ra rất nhiều ý kiến và đánh giá
về sản phẩm, dịch vụ và các hoạt động hàng ngày Phân tích tình cảm được coi
II
Trang 23là một công cụ mạnh mẽ cho các doanh nghiệp, chính phủ và các nhà nghiên cứu đê trích xuât và phân tích tâm trạng và quan điêm của công chúng, có được
cái nhìn sâu sắc về kinh doanh và đưa ra quyết định tốt hơn
e Tầm quan trọng:
Phân tích cảm xúc là một trong những công tác quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên Nó không chỉ có ý nghĩa trong học thuật, nghiên cứu màcòn đóng vai trò quan trọng trong các ngành công nghiệp - dịch vụ, cụ thể làviệc nhận biết hành vi cũng như thái độ của khách hàng về sản phâm và dịch
vụ mà họ sử dụng Chúng ta đang sống trong thời đại số, đặc biệt những nămgan đây, sự phát triển mang xã hội, các trang mạng điện tử với hàng triệu ngườidùng trên thế giới và lượng thông tin, nội dung được người dùng tạo ra hằngngày cực kỳ lớn với sự đa đạng về văn hóa, quan điểm và trình độ Thậm chíthông tin, sự kiện trực tuyến cũng có thé được thu thập trên các phương tiệntruyền thông Chính sự anh hưởng của các kênh truyền thông tới cuộc sống củachúng ta trên diện rộng thúc day sự ứng dụng việc phân tích cám xúc trong vănbản trên nhiều vào các lĩnh vực trong đời sống xã hôi như: Quản trị thươnghiệu, khảo sát ý kiến khách hàng, phân tích tâm lý hành vi,
e Nguồn dữ liệu:
Phân tích cảm xúc được sử dụng như một công cụ mạnh mẽ để tự động hóa quytrình phân tích và đánh giá ý kiến của người dùng Dữ liệu của bài toán này,tùy vào lĩnh vực phân tích mà có những nguồn dữ liệu khác nhau: đối với lĩnhvực nhà hàng, khách sạn, các ý kiến người dùng đó thường được thu thập từcác trang mạng xã hội, chăng hạn như Tripadvisor, Foody, ; đối với lĩnh vựcbán hàng online, ý kiến người dùng đó thường được thu thập từ các mạng xãhội, trang thương mại điện tử, các trang review sản phâm như Shopee, Tiki,
Facebook, Reviewty
Ở các hệ thống đánh giá, thu thập ý kiến khách hàng thường thuộc dạng đánhgiá trên thang điểm (ví dụ: 1-5 sao hoặc 1-10 sao) hoặc mức độ hài lòng (ví dụ:
12
Trang 24rất không hài lòng, không hài lòng, bình thường, hài lòng, rất hài lòng) của
khách hàng Thang điểm hoặc mức độ này phản ánh sự hài lòng, quan điểm, ý
kiến của khách hàng trên các giá trị cảm xúc tiêu cực, trung lập và tích cực
Ngoài việc ghi nhận đánh giá thông qua thang điểm, hệ thống còn thu thập ý
kiến thông dưới dạng văn bản do người dùng dé lại (còn gọi là bình luận)
“Phục vụ ở đây kém quá.” (The service here is too bad.)
10K sentences
Hình 2.1: Vi dụ minh họa về bài toán Sentiment Analysis
e Muc tiêu cua bài toán phân tích cam xúc
Mục đích của bài toán phân tích cảm xúc là quá trình xác định và phân loại văn
bản thành các sentiment khác nhau như tích cực, tiêu cực hoặc trung lập; hoặc
các emotion chăng hạn như vui, buồn, tức giận hoặc ghê sợ, dé xác định thái
độ của con người đối với chủ thé hoặc thực thé cu thé Ở khóa luận này, đầu ra
của bài toán là các câu bình luận được gán một trong ba loại nhãn, đó là: tích
cực, tiêu cực hoặc trung lập.
2.1.2 Dam mây từ (Word Cloud)
e Định nghĩa:
Đám mây từ hay Word Cloud, về bản chất là các phương pháp cho phép chúng
ta miêu tả, làm sáng tỏ các từ khóa được sử dụng nhiều nhất trong 1 đoạn văn
bản Đúng như tên gọi của nó, khi mô phỏng di liệu trong đoạn van bản này,
dữ liệu sẽ được mô phỏng theo dạng hình đám mây từ ngữ - Word Cloud và
diễn giải các từ được sử dụng nhiều nhất - các từ xuất hiện thường xuyên hơn
trong văn bản gốc Trong đó, các từ xuất hiện càng nhiêu, thì hình ảnh từ đó
13
Trang 25trong đám mây từ càng lớn, càng đậm nét, điêu đó cũng có thê nói lên là từ đó
càng phô biến và có ý nghĩa quan trong trong văn bản
102° = MA
liền an all e 1 gIÊP, CNS
n Ơ U U Che thủu Md chính đới "CS" s BIN oem
r1 tt da bay we nghĩa DONG: BY Q 2°noi y¡inhất”.Ð)
9 tươiet T1 tuenOniatal, E: oO :
“Việt”, “Đông”, “biển”, thì ta cũng có thể đoán được văn bản đang đề cập
tới vùng biên phía Đông của Việt Nam Rõ ràng bài toán đâm mây rất hữu ích
trong việc ø1úp đối tượng đọc kết quả phân tích biết được văn bản đang đề cập
tới cái gì, như thé nao,
e Stop word
Nhu đề cập ở trên, nhiệm vụ của đám mây từ là lập danh sách các từ có trong
văn bản đó cùng với số lượng lần xuất hiện các từ có trong văn bản đó Nhờ đó
danh sách đó mà chúng ta biết được các từ xuất hiện nhiều và các từ xuất hiện
ít Tuy nhiên, có những từ dừng — Stop word, ví dụ như: thì, ạ, à, hả, mà, là,
Các từ này chiếm khoảng 25% trong các văn bản Các từ này thường mang
ít giá trị ý nghĩa và không khác nhau nhiều trong các văn bản khác nhau Tưởng
tượng nếu kết quả phân tích chỉ hiện ra toàn những từ “mình”, “này”, “dé”,
rõ ràng điều này ảnh hưởng tới kết quả phân tích và nó không giúp được gì cho
đối tượng đọc kết quả phân tích
14
Trang 26t h a t1 ana si BÀ
Hình 2.3: Hình minh họa trực quan đám mây từ chưa xóa Stop word trong
tiêng Anh
Trong NLP, họ thường làm 1 bước là lọc các từ gây nhiễu, mà Stop word là
một trong số chúng Dé xóa Stop word trong văn bản, có rất nhiều cách dé loại
bỏ Stop word nhưng có 2 cách chính là:
- Dùng từ điển: ta sẽ tiến hành lọc văn bản, loại bỏ những từ xuất hiện
trong từ điển Stop word
- Dựa theo tần suất xuất hiện của từ: Với cách này, chúng ta tiến hành
đếm số lần xuất hiện của từng từ trong văn bản, sau đó thực hiện loại
bỏ những từ xuất hiện nhiều lần (cũng có thể là ít lần) Các nghiên cứu
đã chứng minh được rằng các từ xuất hiện nhiều nhất thường là những
từ không mang nhiều ý nghĩa
e Lợi ích của bài toán Word Cloud
15
Trang 27Có nhiều cách đề chúng ta có thể mô phỏng, trực quan hóa dữ liệu, từ cách trìnhbay bảng thống kê với những dữ liệu số, những dữ liệu biéu đồ thì trình bày dữ
liệu chữ có một sô nội dung sau có thé khái quát:
- Su dụng phương pháp Word Cloud rất trực quan và trong sáng trong
việc trình bay dữ liệu, dữ liệu có thé hiểu được ngay và rat dé hiểu
- Sử dụng phương pháp Word Cloud dễ sử dụng, dé dàng trực quan.
- Sử dụng phương pháp Word Cloud trực quan hơn so với việc trình bay
bang dữ liệu.
2.1.3 Mô hình chủ dé (Topic Modeling)
Câu hỏi được đặt ra đầu tiên là chủ đề ở đây được hiểu như thế nào Theo từđiển Cambridge, chủ dé là vấn đề được thảo luận, viết hay nghiên cứu Còntheo từ điển Oxford, chủ đề là một van đề được trình bay trong văn bản, bàiluận hay trong cuộc hội thoại Còn chủ dé an tiềm ân là chủ đề chưa biết (chưa
được gán nhãn) trong quá trình tạo lập văn bản của người dùng.
Mô hình chủ dé là dé giúp kiểm tra và khai thác dữ liệu văn ban dựa trên việctìm kiếm và thống kê các từ có liên quan đến chủ đề trong mỗi tài liệu, sau đókhám phá ra những chủ đề tiềm ân trong tài liệu văn bản đó Trong đó, các thuậtngữ/các từ thể hiện sự tương đồng được nhóm lại với nhau và chủ đề được xácđịnh dựa trên xác suất thống kê về sự xuất hiện của các từ đó Mô hình chủ đềđược Deerwester cùng cộng sự đề xuất năm 1990, sau đó được phát triển bởicác nhóm nghiên cứu Hofmann vào năm 1999 và Blei vào năm 2003 Một sốtiếp cận hiện nay trong việc mô hình hóa nội dung tài liệu dựa trên ý tưởng tínhphân bó xác suất của mỗi từ đặc trưng trong tài liệu Phân bố này xem văn ban
là một hỗn hợp nhiều chủ đề, mỗi chủ đề là sự kết hợp của nhiều từ kèm phân
bố xác suất riêng cho từng từ trong chủ đề Thông thường, dữ liệu văn ban sẽkhông hạn chế chỉ một chủ đề mà sẽ đề cập đến nhiều chủ đề Do đó, công việccủa bài toán mô hình chủ dé là phải tìm ra được các chủ đề có trong dir liệu vănbản Mà hau hết các topic models đều dựa trên những giả thiết như sau:
16
Trang 28- Mỗi “document” bao gôm nhiêu “topic”
As 66.
- Mỗi “topic” bao giôm nhiêu “word”
Mục tiêu của mô hình chủ đề là khám phá các chủ đề (topic) ân, có trong tàiliệu (document) bang cách tìm ra các từ (word) có trong topic đó
° Lợi ích, công dụng của mô hình chủ đề:
Người đọc báo có thể dễ dàng lựa chọn thể loại báo ưa thích thông qua cáctopic mà nó được gán Người mua sách có thể lựa chọn được những sách liênquan đến chủ đề mà mình quan tâm thông qua topic Hoặc người đưa tin có thétóm tắt nội dung của các mâu tin thông qua topic Tóm lại công việc phân loạitopic giúp chúng ta thấu hiểu nội dung, các van dé và tính chất của các van dé
đó, điều này giúp đối tượng đọc kết quả phân tích xác định nội dung nhanh và
chính xác hơn.
° Các mô hình của bài toán Topic Modeling:
Trong khai thác dữ liệu van ban, ta thường thu thập các document, chăng hạnnhư các bài đăng trên blog hoặc tin tức, mà chúng ta muốn chia thành các nhóm
tự nhiên để có thé hiểu chúng một cách riêng biệt Mô hình chủ dé là một
phương pháp để phân loại không giám sát (unsupervised classification) các
document như vậy, tương tự như việc phân nhóm thành số lượng nhóm dữ liệu
đã được định sẵn, giúp tìm các thành phần của các nhóm một cách tự nhiên bởi
vì chúng ta cũng không biết chính xác các thành phần mỗi nhóm là gì Do đó,
mô hình chủ đề tiết lộ các cau trúc ngữ nghĩa tiềm ân và cung cấp những hiểubiết sâu sắc về dit liệu phi cấu trúc, loại dữ liệu tràn ngập trên internet Một số
mô hình chủ đề phố biến bao gồm: Latent Semantic Analysis (LSA),Probabilistic Latent Semantic Analysis (pLSA), Latent Dirichlet Allocation (LDA),
17
Trang 29Nếu sinh viên đang yêu thích nghề nghiệp trong lĩnh rd tink
i i Đại học
vực kinh tế hoặc yêu thích công nghệ thông tin, thì ein
chương trình dao tao của Khoa thực sự phù hợp với Giảng đạy
bạn Khi tốt nghiệp đại học sau 4 năm, với bằng tốt
nghiệp đại học là cử nhân kinh tế, ngành Hệ thống ——
Nghề nghiệp
thông tin quản lý, chắc chắn bạn sẽ có rất nhiều cơ hội Ï ai lam
uong
việc làm, lương cao và khả năng phat triển trong nhiều Cơ hội
lĩnh vực nghề nghiệp khác nhau và có cơ hội học tập
nâng cao hoặc có thé tham gia giảng day hay du hoc
nước ngoài theo những chương trình hợp tác quốc té, ga
liên két các trường đại hoc trên thé giới của Trường Thể giới
Quốc tế
Hình 2.4: Ví dụ minh họa bài toán mô hình chủ đề của thuật toán LDA?
Trong đó, pLSA là một kỹ thuật thống kê nhằm phân tích những dữ liệu xuất
hiện đồng thời Phương pháp này được phát triển dựa trên phương pháp LSA,
mặc dù pLSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản,
tuy nhiên nó van còn chưa hoàn thiện ở chỗ chưa xây dựng được một mô hình
xác suất tốt ở mức độ tài liệu Điều đó dẫn đến vấn đề gặp phải khi phân phốixác suất cho một tài liệu nam ngoài tap dữ liệu học, ngoài ra SỐ lượng các tham
số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng
Trong khi đó, LDA là một mô hình hoàn thiện hơn so với pLSA và có thé khắcphục được những nhược điểm đã nêu trên Do đó, ta lựa chọn loại mô hình chủ
dé ấn này thay vi pLSA hay LSA trong khóa luận này Thuật toán LDA sẽ đượctrình bày cụ thể ở 2.3.5
? Hình ánh minh họa lấy từ luận án của Hồ Trung Thanh
https://øgs.uit.edu.vn/sites/defaulựfiles/201510/slide bao cao hoc thuat - lan I - ho trung thanh.pdf
18
Trang 302.2 Các hướng tiếp cận hiện tại
2.2.1 Các hướng tiếp cận hiện tại của bài toán phân tích cảm xúc:
- Vé mic độ (level)
Hiện nay có nhiều cấp độ của bài toán SA, nhưng theo Marouane và công sự[19] chỉ ra răng có 3 mức độ chính để phát hiện cảm xúc ở mức độ tài liệu(document-level), cap độ câu (sentence-level) hoặc cấp độ khía cạnh (aspect-level) Hình 2.5 cho thấy các cấp độ phân tích tình cảm Theo Marouane vàcông sự [19] nhận định thì cấp độ Aspect-level sentiment analysis khó hơn vì
Hình 2.5: Các cấp độ trong bài toán phân tích cảm xúc [19]
19
Trang 31Marouane và công sự [19] cũng phân loại các loại bài toán khác nhau trong bài toán lớn phân tích cảm xúc Các bài toán khác nhau do có mục đích khác nhau, các bài toán đó được phân loại như hình 2.6.
= Word sense disambiguation
H Sentiment lexicon generation
Cross domain sentiment classification
Cross language sentiment
Sentiment search and
retrieval
4 Spam detection
Hình 2.6: Các mục tiêu khác nhau được ứng dụng trong bài toán phân loại cảm xúc
[19]
Việc dé lại lời bình luận trên các kênh truyền thông xã hội đã trở thành lối
sông của người dùng hiện nay Do đó, những sản phâm công nghệ có sử dụngbài toán SA đã được ứng dụng rộng rãi trên nhiều lĩnh vực:
Những năm gan đây với sự phát triển mạnh mẽ của thương mại điện tử, nhucầu đánh giá về chất lượng sản phẩm trên các trang web bán hàng trực tuyếnngày càng cao Điều đó thúc day không ngừng những nghiên cứu dé hiểu rõ
và khai thác được ý kiến cũng như mong muốn, của người tiêu dùng Phân tích
cảm xúc là một lĩnh vực nghiên cứu đang phát triên mạnh mẽ và có thê được
20
Trang 32ứng dụng trong nhiều lĩnh vực Vì lý do này, các nhà nghiên cứu liên tục đềxuất, đánh giá và so sánh các phương pháp tiếp cận khác nhau Mục đích là détăng hiệu suất phân tích cảm tính và tìm ra giải pháp cho những thách thức
trong lĩnh vực này Hơn nữa, việc áp dụng phân tích cảm xúc trong các lĩnhvực mới là một động lực tuyệt vời và khiến nhiệm vụ này trở nên quan trọnghơn Tuy nhiên, việc lựa chọn cách tiếp cận phù hợp đề phân tích tình cảm làrất quan trọng và then chốt Mục đích của phần này là cung cấp một cái nhìntong quan về các cách tiếp cận được sử dụng nhiều nhất dé thực hiện phân tíchtình cảm.
Phân tích cảm xúc là phương pháp được sử dụng đề đánh giá cảm xúc của mộtvăn bản Có nhiều ba hướng tiếp cận chính cho bài toán này, đó là MachineLearning, Lexicon và Hybrid (sự kết hợp của hai loại trên) như hình 2.7 Trong
đó:
- Phuong pháp dựa ngữ nghĩa (Lexicon-Based Approaches) thường sử
dụng từ điển các từ thể hiện cảm xúc Theo đó, việc dự đoán cảm xúcdựa vào việc tìm kiếm các từ cảm xúc riêng lẻ, xác định điểm số cho
các từ tích cực, xác định diém số cho các từ tiêu cực và sau đó là tổng
hợp các điểm số này lại theo một độ đo xác định dé quyết định xem vănbản mang màu sắc cảm xúc gì [5][6] Phương pháp này có điểm hạnchế là thứ tự các từ bị bỏ qua và các thông tin quan trọng có thể bị mắt
Độ chính xác của mô hình phụ thuộc vào độ tốt của bộ từ dién các từcảm xúc Nhưng lại có ưu điểm là dễ thực hiện, chi phí tính toán nhanh,chi mat công sức trong việc xây dựng bộ từ dién các từ cảm xúc mà
thôi.
21
Trang 33- _ Trong hướng tiệp can machine learning, phương pháp Deep Learning
Neural Network trở nên phô biên trong những thập niên gan đây, bởi lẽvới sự phát triển nhanh chóng tốc độ xử lý của CPU, GPU và chi phícho phần cứng ngày càng giảm, các dịch vụ hạ tầng điện toán đám mâyngày càng phát triển, làm tiền đề và cơ hội cho phương pháp học sâuDeep Learning Neural Network phát triển mạnh mẽ Trong đó, bài toánphân tích cảm xúc đã được giải quyết băng mô hình học RecurrentNeural Network (RNN) với một biến thé được dùng phổ biến hiện nay
22
Trang 34là Long Short-Term Memory Neural Network (LSTMs), kết hợp với
mô hình vector hóa từ (vector representations of words) Word2Vectorvới kiến trúc Continuous Bag-of-Words (CBOW) Mô hình này cho độchính xác hơn 85% Ưu điểm của phương pháp này là văn bản đầu vào
có thé là 1 câu hay 1 đoạn văn Dé thực hiện mô hình này đòi hỏi phải
có dữ liệu văn bản càng nhiều càng tốt để tạo Word2Vector CBOW
chất lượng cao và dir liệu gan nhãn lớn để huấn luyện (training), xác
minh (validate) và kiém tra (test) mô hình học có giám sat (Supervise
Learning) LSTMs.
Quy trình xử lí bài toán SA theo cách phương pháp truyền thống va theo cácphương pháp sử dung mô hình học sâu được mô tả cụ thé như hình 2.8 do Qian
và cộng sự, (2022) [17] minh họa sơ đồ các quy trình liên quan đến bài toán
phân loại văn bản nói chung, bài toán SA nói riêng, các bài toán phân tích sửdụng phương truyền thống và học sâu Dữ liệu văn bản khác với dữ liệu số,hình ảnh hoặc âm thanh Nó đòi hỏi các kỹ thuật NLP phải được xử lý cânthận Bước quan trọng đầu tiên là xử lý trước dữ liệu văn bản cho mô hình.Các mô hình truyền thông thường cần có được các tính năng mẫu tốt bằng cácphương pháp nhân tạo và sau đó phân loại chúng bằng các thuật toán học máy
cô điển Do đó, hiệu quả của phương pháp bị hạn chế phan lớn bởi bước tríchxuất đặc trưng (Feature Extraction) Tuy nhiên, khác với các mô hình truyềnthông, học sâu tích hợp kỹ thuật trích suất đặc trưng vào quá trình điều chỉnh
mô hình bằng cách học một tập hợp các phép biến đổi phi tuyến dé ánh xạ trực
tiép các đôi tượng đâu vào dén kêt quả đâu ra.
23
Trang 35Hình 2.8: So đồ của bài tốn SA với những phương pháp cổ điển ở từng module.
Bước trích suất đặc trưng (Feature Extraction) là bước quan trọng ở các phương
pháp truyền thống (Traditional Method), nhưng trích suất đặc trưng sẽ được trích
xuất tự động ở các phương pháp học sâu (Deep Learning Method) [17]
Những năm trước năm 2010 bị thống trị bởi những phương pháp truyền thống.Bởi lẽ, khi so sánh với những phương pháp dựa trên quy tắc (rule-based) trước
đĩ, phương pháp này cĩ độ chính xác rõ ràng và ồn định Tuy nhiên, nhữngcách tiếp cận này vẫn cần phải thực hiện kỹ thuật trích xuất đặc trưng, việcnày tốn nhiều thời gian và chi phí Bên cạnh đĩ, họ thường bỏ qua cấu trúctuần tự tự nhiên (natural sequential structure) hoặc thơng tin ngữ cảnh(contextual information) trong dữ liệu văn ban, khién viéc hoc thơng tin ngữ
nghĩa (semantic information) của các từ trong văn bản cĩ nhiêu thách thức.
Ké từ sau những năm 2010, phân loại văn bản đã chuyền dan từ mơ hình truyềnthống sang mơ hình học sâu So với các phương pháp dựa trên truyền thống,phương pháp học sâu tránh việc thiết kế các quy tắc (rules) và đặc trưng(feature) bởi con người mà tự động cung cấp các biểu diễn cĩ ý nghĩa về mặtngữ nghĩa đề khai thác văn bản Do đĩ, hầu hết các cơng trình nghiên cứu phânloại văn bản đều chuyên sang nguyên cứu dựa trên Deep Neural Networks(DNN), là cách tiếp cận theo hướng dữ liệu (data-driven approaches) với độ
phức tạp tính tốn cao.
Phân loại văn bản được hiểu là trích xuất các tính năng từ dữ liệu văn bản thơ
(raw text) và dự đốn loại (category) cua chúng dựa trên các tính năng đĩ.Nhiều mơ hình đã được đề xuất trong vài thập kỷ qua dé phân loại văn bản
Đơi với các mơ hình truyên thơng, Nạve Bayes là mơ hình đâu tiên được sử
24
Trang 36dụng cho nhiệm vụ phân loại văn bản Sau đó, các mô hình phân loại chung
được đề xuất, chăng hạn như KNN, SVM và Random Forest (RF), được gọi
là bộ phân loại và được sử dụng rộng rãi đề phân loại văn bản Đối với các môhình học sâu, TextCNN có số lượng tham chiếu (references) cao nhất trong
các mô hình nay, trong đó mô hình Convolutional Neural Network (CNN) đãđược giới thiệu lần đầu tiên dé giải quyết van dé phân loại văn bản [17]
Mặc dù không được thiết kế đặc biệt cho các nhiệm vụ phân loại văn bản,
nhưng Bidirectional Encoder Representation from Transformerss (BERT) [19]
đã được sử dụng rộng rãi khi thiết kế các mô hình phân loại văn bản, xem xéttính hiệu quả của nó trên nhiều bộ dữ liệu phân loại văn bản nói chung, bàitoán phân tích cảm xúc nói riêng Do đó, hiện nay, có rất nhiều mô hình tiềnhuấn luyện được thiết kế dựa trên mô hình BERT như ALBERT, RoBERTa,XLNET, DistilBERT, BART, Hình 2.17 mô tả các mô hình được dé xuất,
phát hành theo từng năm.
2.2.2 Các hướng tiếp cận của bài toán mô hình chủ đề
Trong những năm gan đây, với sự phát triển của công nghệ va Internet, người
dùng có thé dé dàng đưa ra ý kiến đánh giá nhận xét của mình về các sản phẩm,
dịch vụ của doanh nghiệp Những thông tin này được lưu trữ dưới dang đữ liệu
văn bản Đây là một nguồn dữ liệu không lồ để khai phá Chính vì sự tăngtrưởng mạnh mẽ của lĩnh vực này và sự phát triển của thương mại điện tử cũngnhư Internet, khách hàng càng có nhiều lựa chọn hơn khi mua sắm hay sử dụngdịch vụ Chính vì vậy, các doanh nghiệp cần phải thấu hiểu khách hàng đề kịpthời đáp ứng nhu cầu khách hàng Một trong các phương pháp đề ra là cần tìmhiểu các van đề mà khách hàng bình luận Do đó, đã có nhiều nghiên cứu đượcthực hiện bằng nhiều các phương pháp và mô hình khác nhau đề ứng dụng vàophân tích trải nghiệm khách hang dé nâng cao chất lượng sản phẩm và dich vụ
Trong đó, có nghiên cứu của Raut & Londhe được Van-Ho và công sự, (2020)
[24] trình bày, Raut đã sử dụng phương pháp học máy và bộ từ điển
25
Trang 37SentiWordNet dé khai thác ý kiến từ các đánh giá khách san Dự án này dựatrên mức độ liên quan giữa các câu dé tổng hợp chủ đề về các đánh giá kháchsạn Kết quả, thông tin đánh giá khách sạn đã được phân loại và tóm tắt, từ đódoanh nghiệp dễ dàng hiểu được mong muốn của khách hàng Van-Ho và công
sự, (2020) [24] cũng trình bay một nghiên cứu về việc phân tích phản hồi của
khách hàng trong lĩnh vực du lịch băng cách đề xuất một kỹ thuật tóm tắt vănban dé xác định các chủ đề Bên cạnh đó, một nghiên cứu khác [24] đã thựchiện xem xét các yếu tố về sự tương đồng về nội dung và tình cảm dé xác định
sự giống nhau của hai câu bình luận Nghiên cứu đã sử dụng thuật toán phâncụm k-medoids được sử dụng dé phan chia các câu thành k nhóm
Trong nghiên cứu của Berezina [24], ông đã đánh giá trực tuyến của 2,510khách san đã được thu thập từ TripAdvisor.com cho Sara-sota, Florida Kết quanghiên cứu cho thay một số “chủ dé” phô biến được sử dụng trong cả đánh giátích cực và tiêu cực, bao gồm địa điểm kinh doanh (ví dụ: khách sạn và câu lạc
bộ phòng nội thất, thành viên và thê thao) Kết quả nghiên cứu cũng chỉ ra rằngnhững khách hàng hài lòng săn sàng giới thiệu khách sạn cho người khác đềcập đến những van dé vô hình như những van dé liên quan trong thời gian lưutrú tại khách sạn của họ, chăng hạn như nhân viên, thường xuyên hơn nhữngkhách hàng không hài lòng Mặt khác, những khách hàng không hài lòng đềcập thường xuyên hơn đến các vấn đề hữu hình của khách sạn, chăng hạn nhưnội thất và tài chính (chi phí, giá cả) Nghiên cứu đưa ra các hàm ý lý thuyết vàquan lý rõ ràng liên quan đến việc hiểu khách hàng hài lòng và không hài lòngthông qua việc sử dụng khai thác văn bản và xếp hạng khách sạn thông qua cáctrang web đánh giá, phương tiện truyền thông xã hội, blog và các nền tảng trựctuyến khác
26
Trang 382.3. Thuật toán và các khái niệm nền tảng
2.3.1 Tach từ (Tokenization) cho Tiếng Việt
Tokenization được hiéu là tách từ hay phân đoạn từ Ngoài ra, đữ liệu của trongkhóa luận là dit liệu tiếng Việt, do đó, dé tách từ tốt, chúng ta cần có kiến thức
về từ và cấu trúc từ trong tiếng Việt Trước khi đi vào chỉ tiết về định nghĩa vàcác loại tokenization, ta cần đi qua phần đặc điểm cấu tạo từ tiếng Việt
e Dac trưng cau tao tu tiéng Việt
Mỗi văn bản được cấu tạo từ các câu Trong mỗi câu cấu tạo từ các từ, hay các
từ ghép với nhau dé thành một câu hoàn chỉnh Mỗi từ lại được tạo nên từ cáctiếng Nghĩa là:
- Từ là ngôn ngữ nhỏ nhất dùng dé đặt câu
- Đơn vị câu tạo từ là tiêng.
TỪ (Phân loại theo cấu tạo)
Từ đơn Từ phức
Từ đơn Từ đơn Từ ghép Từ lay
đơn âm tiết đa âm tiết IN ^^
Từ ghép Từghép Từ lay Từ láy
tổng hợp phân loại toàn bộ bộ phận
Hình 2.9: Cấu tạo của từ trong tiếng Việt
Trong nhánh từ đơn, thì từ đơn là từ có 1 tiếng Ví dụ: Cây (Danh từ), đọc (động
từ), cao (tính từ), Phân loại của tử đơn:
27
Trang 39- Tu đơn đơn âm tiết: từ đơn chỉ có một tiêng.
- Từ đơn đa âm tiét: từ đơn được tạo nên từ nhiêu âm tiệt Ví dụ: Tên một
sô loài vật như là Ba ba, chuôn chuôn, châu châu, ;từ mượn tiêng
nước ngoài như: Ti vi, cà phê, in-ter-net,
Trong nhánh từ phức, thì từ phức là từ có 2 tiếng trở lên Ví dụ: Sạch sẽ, sạch
sành sanh, lúng ta lúng túng, Phân loại của từ ghép:
- Từ ghép là loại từ phức được tạo nên bang cách ghép các tiếng có mối
quan hệ về nghĩa Ví dụ: Cao lớn (Có mối quan hệ ngang hàng bìnhđăng về nghĩa), cao vút (Có mối quan hệ với nhau về nghĩa, từ “cao” làtiếng chính, “vút” là tiếng phụ bổ sung nghĩa cho tiếng chính)
- Từ láy là loại từ phức được tạo nên bằng cách phối hợp các tiếng có âm
dau, vần hoặc cả âm dau và van giống nhau Ví dụ: Do đỏ (Hai tiếnggiống nhau về cả âm dau và van), lao xao (hai tiếng giống nhau về van),xôn xao (Hai tiếng giống nhau về âm đầu)
- Tw ghép tông hợp (Ví dụ: Trong xanh — Hai tiếng “Trong” và “xanh”
bình đẳng nhau về nghĩa)
- Tu ghép phân loại (Ví dụ: Xanh ri — Hai tiếng “xanh” và “rì”, “xanh”
là tiếng chính, “ri” là tiếng phụ, bổ sung ý nghĩa cho tiếng chính
- Từ láy toàn bộ (Ví dụ: Xanh xanh Hai tiếng giống nhau hoàn toàn)
- Tir láy bộ phận (Vi dụ: Xanh xao Hai tiếng giống nhau về âm dau)
Sau khi biết được đặc trưng cấu tạo từ tiếng Việt Chúng ta sẽ tìm hiểu địnhnghĩa của tokenization và các loại cách tiếp cận dé tokenization hiện nay
Trang 40này được gọi là token Có thể coi các token là các khối xây dựng của NLP vàtất cả các mô hình NLP đều xử lý văn bản thô ở cấp độ các token Chúng được
sử dụng dé tạo bộ từ vựng trong một kho ngữ liệu (một tập dữ liệu trong NLP)
Từ vựng này sau đó được chuyên thành số như một dạng ID định danh và giúp
chúng ta xây dựng mô hình Token có thể là một từ (word), một từ phụ
(sub-word) hoặc là một ký tự (character).
-Các loại tokenization:
Các thuật toán khác nhau tuân theo các quy trình khác nhau trong việc thực hiện tách từ Có ba mức độ trong các thuật toán tách từ là tách từ dựa trên từ (word-based), dựa trên kí tự (Character-based) và dựa trên từ phụ (Subword- based) Sự khác biệt giữa ba loại tách từ này sẽ được chỉ ra ở dưới đây:
Thuật toán tách từ dựa trên từ (word-based tokenization): là kĩ
thuật tokenization được sử dung phổ biến trong phân tích văn bản Nóchia một văn bản thành các từ (ví dụ tiếng Anh) hoặc âm tiết (ví dụtiếng Việt) dựa trên dau phân cách Dau phân cách hay được dùng chính
là dau cách trắng Vi dụ: câu “Tôi thích cậu.” sẽ được tách thành [“Tôi”,
“thích”, “cậu.”| Công việc tách từ có thể được thực hiện dễ dàng bằngcách sử dụng phương thức split() của Python Ngoài ra, có rất nhiều thư
viện Python hỗ trợ tách từ như: NLTK, spaCy, Keras, Gensim, Tùy
vào các mô hình NLP sử dụng mà có các phương pháp tách từ phù hợp theo từng ngôn ngữ Tuỳ thuộc vào từng bài toán, mà cùng một văn bản
có thé được xử lý dưới các loại token khác nhau Mỗi token thường cótính duy nhất và được biéu diễn bằng một con số ID, các con số này làmột cách mã hoá hay cách định danh token trên không gian số Hình2.10 minh họa việc các token được biéu diễn thành các con số
Hạn chế của kỹ thuật này là nó dẫn đến một kho ngữ liệu khổng lồ vàmột lượng từ vựng lớn, khiến mô hình cồng kénh và đòi hỏi nhiều tài
nguyên tính toán hơn Bên cạnh đó, có thêm một hạn chê là các từ sai
29