Trung...v.v, bài toán phân tích cảm xúc tiếng Việt vẫn còn nhiều hạn chế cả về sốlượng bộ dữ liệu hay số lượng công trình nghiên cứu.. Qua quá trình nghiên cứu và thực nghiệm luận văn đã
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
———— %) & eR ———_.
HUYNH THANH TU
PHAN TÍCH CẢM XUC CHO TIENG VIỆT
SỬ DUNG MO HÌNH KIEN TRÚC TRANSFORMER
LUẬN VAN THAC SĨ
NGANH CONG NGHE THONG TIN
Mã số: 8.48.02.01
TP HO CHÍ MINH - NAM 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HCM TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
———g£»*c8q————
HUỲNH THANH TÚ
PHAN TÍCH CẢM XÚC CHO TIENG VIỆT
SỬ DỤNG MÔ HÌNH KIÊN TRÚC TRANSFORMER
Trang 3LỜI CAM ĐOAN
Đây là công trình nghiên cứu của cá nhân tôi được hướng dẫn bởi PGS.TS Vũ
Đức Lung.
Những kết luận trong luận văn và kết quả thử nghiệm được là đáng tin cậy,
đúng sự thật và chưa được công bố ở thời điểm hiện tại Các tài liệu tham khảo đều
có ghỉ rõ nguồn góc trích dẫn
Tôi sẽ chịu trách nhiệm trước pháp luật khi nói sai sự thật.
Tp Hồ Chí Minh, ngày 10 tháng 11 năm 2022
Học viên
Huỳnh Thanh Tú
Trang 4LỜI CẢM ON
Đầu tiên, tôi gửi lời cảm ơn chân thành đến quý Thầy, Cô Trường Đại họcCông nghệ Thông tin, DHQG-HCM đã tận tình hướng dẫn, giảng day tôi trong suốt
thời gian học tập vừa qua.
Tôi chân thành cảm ơn nhóm nghiên cứu của TS Nguyễn Lưu Thùy Ngân đãtạo ra một bộ dit liệu hữu ích giúp tôi thử nghiệm trong quá trình làm đề tài luận văn
Bên cạnh đó, tôi cảm ơn ThS Phạm Liệu, ThS Lương An Vinh, bạn Võ Bách
Khôi đã nhiệt tình hỗ trợ, động viên tinh thần, có những góp ý đề tôi hoàn thành tốt
luận văn của mình.
Đặc biệt, là lòng biết ơn sâu sắc nhất với PGS TS Vũ Đức Lung, người đã
tốn nhiều thời gian quý báo, tâm huyết dé hướng dẫn, động viên, giúp đỡ tôi trong
suốt thời gian làm luận văn
Sau cùng, tôi gửi lời cảm ơn đến những người thân trong gia đình, bạn bè,đồng nghiệp luôn quan tâm, tạo điều kiện, động viên và khích lệ tôi trong thời gian
vừa qua.
Tôi chân thành cảm ơn.
iv
Trang 5DANH MỤC CÁC HÌNH VE
DANH MỤC CAC BANG
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT.
MỞ ĐÀU
Chương 1 TONG QUAN VE DE TÀI
1.1 Tổng quan về bài toán phân tích cảm xúc.
1.2 Các công trình nghiên cứu liên quan
1.2.1 Các công trình nghiên cứu ngoài nước
1.2.2 Các công trình nghiên cứu trong nước
1.3 Tổng quan về các bộ dữ liệu cho bài toán phân tích cảm xúc tiếng Việt được sử
dụng
1.3.1 Vietname Students’ Feedback Corpus (UIT-VSFC)
1.3.2 Vietnamese Sentiment Analysis (VS) (PDF)
1.4 Mục tiêu dé tai
1.5 Nội dung đề tai
1.6 Đối tượng và phạm vi nghiên cứu .
1.7 Phương pháp nghiên cứu
Chương 2 CƠ SỞ LÝ THUYET
2.1 Các phương pháp trích xuất đặc trưng từ văn ban
2.1.1 Phương pháp Bag-of-Words (BoW) và TF-IDF
2.1.2 Bộ dữ liệu Vietnamese SentiWordNet
2.2 Máy học và học sâu trong xử lý ngôn ngữ tự nhiên
2.2.1 Mạng nơ ron nhân tạo
2.2.2 Mạng nơ ron tích chập.
2.2.3 Mạng nơ ron hồi quy
2.3 Mô hình biểu diễn từ BERT và biến thé của nó
Trang 62.3.1 Mô hình ngôn ngữ
2.3.2 Transformer
2.3.3 Mô hình biểu diễn từ BERT
2.3.4 Biến thể của BERT
Chương 3 THU’ NGHIEM ĐÁNH GIÁ SỰ ANH HUONG CAC BIEN THẺ KHÁC NHAU CUA MO HÌNH PHOBERT
3.3.3 PhoBERT + TF-IDF+ SentiWordNet
Chương 4 THU NGHIEM VÀ ĐÁNH GIA KET QUA
4.1 Mô hình thử nghiệm
4.2 Kết quả thử nghiệm và đánh giá
4.2.1 Kết qua thir nghiệm trên bộ dữ liệu UIT-VSEC
4.2.2 Cải tiền bộ dữ liệu UIT-VSEC
4.2.3 Kết quả thử nghiệm trên bộ dữ liệu VS
Chương 5 KET LUẬN VÀ HƯỚNG PHAT TRIEN
5.1 Kết luận
5.2 Hướng phát triển
DANH MỤC CONG BO KHOA HOC CUA TÁC GIẢ
TAI LIEU THAM KHA
Trang 7DANH MỤC CÁC HÌNH VE
Hình 1.1 Biểu đồ các cấp độ trong phân tích cảm xúc
Hình 1.2 Biểu đồ phân bố dữ liệu cho 3 tập Train, Dev, Test
Hình 2.8 Lớp kết nói day di
Hình 2.9 Mang neural hồi quy - Recurrent Neural Networks
Hình 2.10 Mô hình LSTM
Hình 2.11 Mô hình kết lợp LSTM và BiLSTM
Hình 2.12 Mô hình kiến trúc Transformer [42]
Hình 2.13 Cơ chế attention của một mô hình dich máy Anh-Pháp
Hình 2.14 Cơ chế scaled-dot product attention [42]
Hình 2 15 Lớp Multi-Head Attention [42]
Hình 2.16 Tiến trình pre-training và fine-tuning của BERT
Hình 2.17 Mô hình RoBERTa
Hình 2 18 Mô hình PhoBERT
Hình 3.1 Sơ đồ khối quá trình nghiên cứu
Hình 3.2 Mô hình kiến trúc PhoBERT [19]
Hình 3.3 Kiến trúc của mô hình đề xuất
Hình 3 4 Mô hình ghép đặc trung PhoBERT với TF-IDF
Hình 3 5 Mô hình ghép đặc trung PhoBERT với SentiWordNet
Hình 3 6 Mô hình ghép đặc trung PhoBERT với TF-IDF và SentiWordNet
Hình 4 1 Kết quả trước (bên trái) và sau (bên phải) khi chỉnh sửa nhãn dữ liệu 47
vii
Trang 8DANH MỤC CÁC BANG
Bảng 1.1 Số lượng và tỉ lệ nhãn tiêu cực, trung tính, tích cực trong bộ dữ liệu 10
Bảng 1.2 Số lượng và tỉ lệ nhãn tiêu cực, trung tính, tích cực trong bộ dữ liệu II
Bảng 3 1 Mô tả quá trình thực nghiệm công trình [19] với các siêu tham số khác
235Bang 3.2 Bang mô tả quá trình thực nghiệm mô hình đề xuất với các siêu tham số
khác nhau 36Bang 3 3 Bang kết qua của mô hình PhoBERT do tôi đề xuất (*) so sánh với các
mô hình trước đó .42Bảng 3 4 Kết quả thử nghiệm ghép hai phương pháp trích xuất đặc trưng với môhình PhoBERT tôi đề xuất (*) 43
Bang 3.5 Chỉnh sửa nhăn dữ
Bảng 3 6 Bảng kết quả mô hình PhoBERT
chỉnh sửa so với mô hình PhoBERT gốc [19]
Bang 3 7 Bảng kết quả mô hình PhoBERT tôi đề xu:
Gu ở tập Test.
i đê xuất (*) trên bộ dữ
(*) trên bộ dữ
viii
Trang 9DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT
STT | TỪ VIET TAT Y NGHIA
1 CNN Convolutional Neural Network
2 SVM Support Vector Machine
3 LSTM Long short Term Memory
4 BiLSTM Bidirectional Long short Term Memory
5 BERT Bidirectional Encoder Representations from
Transformer
6 VS Vietnamese Sentiment Analysis
7 UIT-VSFC UIT Vietnamese Student Feedback Corpus
8 TF-IDF Term frequency - Inverse document frequency
9 RNN Recurrent Neural Network
10 | ANN Artificial Neural Network
11 MLP Multilayer Perception
12_ |SentiWordNet Sentiment WordNet
13 | VSWN Vietnamese Sentiment WordNet
14 |LM Language Modelling
15 NLP Natural Language Processing
16 | RoBERTa Robustly Optimized BERT Pretraining Approach
ix
Trang 10MỞ ĐÀU
Trong xã hội hiện đại ngày này, sự phát triển vô cùng mạnh mẽ của công nghệ
và đặc biệt là sự bùng nỗ của Internet tạo nên một làn sóng to ảnh hưởng, đến nhiều
lĩnh vực của cuộc sống Đặc biệt, các ứng dụng và các nền tảng dịch vụ trực tuyến
bắt buộc phải chuyền mình phát triển dé đáp ứng cho số lượng khách hang gia tăngngày càng nhiều khi mà mọi người giờ đây điều dễ dàng tiếp cận với Internet
Việc thu thập dữ liệu của khách hang dé cải thiện dich vụ từ lâu đã là một
chiến lược phát triển của các doanh nghiệp Tuy vậy, những hạn chế trong công nghệ
ngày trước phần nào hạn chế đi những lợi thế của chiến lược này Thế nhưng, nhữngnăm gần đây, nhờ vào sự phát triển của công nghệ, xu thế dựa trên dữ liệu (data-driven) trở nên bùng né hơn bao giờ hết và ngày càng chứng minh được tính hiệu quảcủa bản thân khi hầu hết các doanh nghiệp lớn và vừa đều áp dụng cho mô hình kinh
doanh của mình, một số doanh nghiệp lớn có thé kể đến như Google, Meta, Twitter,
v.v Đặc biệt, việc thu thập và phân tích ý kiến, phản hồi của người sử dụng hay kháchhàng là một việc làm hết sức cần thiết Những ý kiến, phản hồi của khách hàng sẽgiúp ích cho người dung có thể qua đó thấy được tình trạng hàng hóa, dịch vụ trướckhi mua mà còn giúp ích rất nhiều cho doanh nghiệp trong việc đưa ra chiến lược
phát triển sản phẩm một cách phù hợp và hiệu quả nhất
Mặt khác, số lượng người sử dụng internet dé mua hàng ngày càng tăng, đồngnghĩa với việc số lượng ý kiến cũng như phản hồi lớn Việc phân tích các bình luậncủa khách hàng một cách thủ công là vô cùng hạn chê Do đó, nhu cầu về một hệthống có thê tự động xử lý và phân tích được các phản hôi, ý kiến của khác hàng làviệc cần thiết mà các doanh nghiệp nên làm
Không chỉ riêng trong lĩnh vực thương mại điện tử, bài toán hay dịch vụ kinh
doanh, bài toán phân tích phản hồi, ý kiến của khách hàng hay người dùng được quantâm sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ giáo dục, y tế, cho đến dịch
vụ công, hành chính của nhà nước Do đó, bài toán về phân tích bình luận của ngườidùng được nhiều nhóm nghiên cứu cũng như giảng viên, sinh trong trong và ngoàinước quan tâm Dẫu vậy, khi so sánh với các ngôn ngữ khác như tiếng Anh, tiếng
Trang 11Trung v.v, bài toán phân tích cảm xúc tiếng Việt vẫn còn nhiều hạn chế cả về số
lượng bộ dữ liệu hay số lượng công trình nghiên cứu
Trong nghiên cứu này, luận văn tập trung tìm hiéu bai toán phân tích bình luậncủa sinh viên cũng như người dùng trên hai bộ dữ liệu tiếng Việt khác nhau
Qua quá trình nghiên cứu và thực nghiệm luận văn đã đề xuất sự thay đồi cáclớp trong mô hình PhoBERT với một số hiệu chỉnh kiến trúc, đồng thời trích xuất,
kết hợp thêm một số đặc trưng từ các phương pháp truyền thống như TF-IDF và đặc
trưng tích cực hoặc tiêu cực mức từ của bộ SentiWordNet Bên cạnh sự thay đổi cáclớp trong mô hình và đánh giả kết quả thử nghiệm, tôi cũng đã quan sát và nhận thấymột số hạn chế trong bộ dit liệu UIT-VSFC và để xuất chỉnh sửa nhãn cho phù hợphơn Mô hình luận văn đề xuất đạt được kết quả state-of-the-art trên bộ dữ liệu UIT-
'VSFC chưa chỉnh sửa với độ đo F1 là 94.28% và độ đo Accuracy là 94.5% Còn vớidit liệu đã được chỉnh sửa, mô hình đề xuất của chúng tôi đạt được 95.22% với độ đo
FI và 95.42% với độ do Accuracy.
Trang 12CẤU TRÚC LUẬN VAN
Luận văn bao gồm 5 Chương và có cấu trúc như sau:
Phần mở đầu: Giới thiệu bài toán
Chương 1: Tổng quan Giới thiệu đề tài phân tích tích cảm xúc của người
ding và các công trình nghiên cứu liên quan trong và ngoài nước, trình bày mục tiêu,
đối tượng, phạm vi, nội dung và phương pháp nghiên cứu
Chương 2: Cơ sở lý thuyết Trình bày lý thuyết về các phương pháp học sâu
và kiến trúc Transformer Trong đó, bao gồm khái niệm về mô hình ngôn ngữ và mô
hình đơn ngôn ngữ PhoBERT cho tiếng Việt
Chương 3: Phân tích sự ảnh hưởng của các lớp trong mô hình PhoBERT.
Trình bày về kiến trúc mô hình đề xuất và quá trình huấn luyện mô hình trên hai tập
dữ liệu về phân tích cảm xúc tiếng Việt
Chương 4: Thử nghiệm và đánh giá kết quả Trình bày quá trình thử nghiệmcủa mô hình dé xuất, đồng thời so sánh kết quả dự đoán của mô hình đề xuất với các
mô hình khác đã được giới thiệu Bên cạnh đó, dựa trên kết quả huấn luyện, luận văn
đánh giá tính hiệu quả của mô hình đề xuất và cải tiền bộ dữ liệu
Chương 5: Kết luận và hướng phát trién Tổng kết lại những kết quả đã đạt
được trong nghiên cứu, và những hạn chế còn tồn đọng của bài toán, cũng như hướngnghiên cứu, phát triển trong tương lai
Trang 13Chương 1 TONG QUAN VE DE TÀI
Trong chương 1, luận văn sẽ trình bày một cách tổng quan về dé tai nghiêncứu của khóa luận — phân tích cảm xúc (Sentiment analysis), đồng thời sơ lược qua
các công trình nghiên cứu trong và ngoài nước liên quan đến bài toán và các bộ dữ
liệu phục vụ cho bài toán phân tích cảm xúc tiếng Việt
1.1 Tổng quan về bài toán phân tích cảm xúc
Nhu đã trình bay ở phần Dat van đề ở Chương 1, bài toán Phân tích cảm xúc
hay tên tiếng anh là Sentiment Analysis (SA) đang ngày càng thu hút đông đảo nhóm
nghiên cứu bởi tính quan trọng và thiết yếu của mình Bài toán này giúp xác định vàphân loại một đoạn văn bản thành nhiều cảm xúc khác nhau (ví dụ như tiêu cực(negative), trung tinh (neutral) hay tích cực (positive)) dé qua đó xác định được cảmxúc của người bình luận đối với chủ thé nào đó Trong nghiên cứu này, chủ thé hướngtới chính là món hàng, địch vụ trên các trang thương mại điện tử và chất lượng của
cơ sở vật chất giảng dạy, chất lượng giảng dạy của giảng viên cũng như chương trình
học tập của sinh viên.
Hình 1.1 Biểu đồ c; ấp độ trong phân tích cảm xúc
Nguồn: https://link.springer.com/article/10.1007/s 10462-022-10144-1
Bài toán phân tích cảm xúc hiện nay được chia thành bén cấp độ chính là cấp
độ khía cạnh (aspect-level), cụm từ (phrase-level), câu (sentence-level) và văn bản
(document-level) được thể hiện ở hình 1.1
Trong nghiên cứu này, luận văn tập trung nghiên cứu bài toán ở cấp độ câu
van (sentence-level).
Trang 141.2 Các công trình nghiên cứu liên quan
Phân tích cảm xúc là một vấn đề cần thiết đối người người dùng cũng nhưtrong lĩnh vực xử lý ngôn ngữ tự nhiên Những năm gan đây, lĩnh vực nghiên cứu vềphân tích cảm xúc, đặc biệt là phân tích cảm xúc cho tiếng Việt ngày càng được nhiều
nhóm nghiên cứu, giảng viên, sinh viên quan tâm Sau đây là một số công trình nghiên
cứu trong nước và thế giới
1.2.1 Các công trình nghiên cứu ngoài nước
Bài toán Phân tích cảm xúc khi mới xuất hiện và gây sự chú ý của công đồngnghiên cứu, các nhà khoa học ngay từ những năm dau của thé ky 21 trong công trình
nghiên cứu của Pang và các cộng sự với tên gọi Sentiment Classification [2] Bêncạnh đó, tên gọi Sentiment analysis được sử dụng lần đầu trong nghiên cứu của
Nasukawa va Yi [3] Ngoài ra, một tên gọi khác của bài toán là Opinion mining cũng
được xuất hiện lần đầu trong công trình nghiên cứu của Dave, Lawrence and Pennock[4] Ké từ đó, rất nhiều công trình nghiên cứu khác về Phân tích cảm xúc được tiếnhành va phát triển, có thể ké đến như:
- Công trình nghiên cứu của Tripathy và cộng sự [5] sử dụng học máy đề phân
loại cảm xúc của hai nghìn câu bình luận phim Cụ thể mô hình Naive Bayes (NB) và
Support Vector Machine (SVM) được sử dụng kết hợp với các phương pháp tríchxuất đặc trưng Count Vectorizer và TF-IDF
- Công trình nghiên cứu của Hassonal va cộng sự [6] đề xuất sử dụng mô hình
kết hợp giữa Support Vector Machine (SVM) với hai thuật toán trích chọn đặc trưng
(feature selection) là Relief và Multi-Verse Optimizer (MVO) Hiệu năng của mô
hình dé xuất đạt vượt trội trên bộ dữ liệu gồm 6900 câu tweet được lấy từ mạng xã
hội Twitter.
- Công trình nghiên cứu của Uysal va Murphey [7] sử dụng các mô hình như:
CNN, LSTM và CNN-LSTM cho tác vụ phân tích cam xúc trên các bộ dữ liệu IMDb,
Amazon, Sentiment 140 và Nine public sentiment review.
- Công trình nghiên cứu của Basiri và cộng sự [8] dé xuất mô hình
Attention-based Bidirectional CNN-RNN Deep Model (ABCDM) Bằng cách tận dụng mô hình
Trang 15LSTM hai chiều (Bi-LSTM) và GRU, ABCDM học được ngữ cảnh ở cả hai chiều
quá khứ và tương lai Đồng thời sử dụng các lớp Convolution và Pooling để giảm số
chiêu của đặc trưng.
Theo nghiên cứu của Bo Pang và các cộng sự [9], nghiên cứu về tính hiệu quả
của các phương pháp học máy đối với phân tích ý kiến phản hồi của người dùng về
phim ảnh với hai trạng thái cảm xúc tiêu cực, tích cực Tuy nhiên ba phương pháp mà
tác giả đề xuất là (Naive bayes, maximum entropy classification và support vector
machine) này không mang lại hiệu quả.
- Công trình nghiên cứu của Singh và công sự [10] sử dụng mô hình
Bidirectional Encoder Representations from Transformers (BERT) cho tác vụ phân
tích cảm xúc từ các câu tweet liên quan đến đại dịch COVID-19 được lấy từ nền tảngmang xã hội Twitter Mô hình đạt kết quả rat tốt trên tap validation với độ chính xácxấp xi 94%
- K Sangeetha và D Prabha [11], nghiên cứu trên bộ dữ liệu Vietnamese
Student’s Feedback Corpus (VSFC) Cụ thé nghiên cứu này đánh giá bốn phương
pháp tiếp cận bao gồm: LSTM, LSTM + ATT, MUTIHEAD ATT, FUSION Sau khi
so sánh các kết quả nghiên cứu, tác giả nhận thay rằng phương pháp FUSION đạtđược kết quả tốt nhất so với 3 phương pháp còn lại
- Công trình nghiên cứu của Alec Yenter và công sự [12] mô tả một cách tiếpcận mới thông qua viêc kết hợp mạng nơ ron (CNN) và mạng hồi quy Long Short
Term Memory (LSTM) trong phân tích phản hồi về các bình luận phim trên Internet
(IMDb) Khi tác giả kết hợp hai mô hình này tạo một mô hình có độ chính xác cao
vượt trội hơn so với các mô hình đã đề xuất trước đó
- Công trình Vaswani và các cộng sự [13], đề xuất mô hình kiến trúc
Transformer dựa trên cơ chế tự chú ý (Self attention) Kết quả thực nghiệm trên hai
tác vụ dich máy cho thấy mô hình này hoạt động tốt hơn do quá trình xử lý song song
và ít tốn thời gian hơn trong quá trình huấn luyện Hơn nữa, mô hình của tác giả chokết quả tốt nhất trên tác vụ dịch từ tiếng Anh sang tiếng Đức
Trang 161.2.2 Các công trình nghiên cứu trong nước
Ở trong nước, các nghiên cứu về bài toán Phân tích cảm xúc diễn ra rất sôi nồi
Dưới đây là một số công trình nghiên cứu:
- Trần Khải Thiện, Phan Thị Tươi [14], nhóm tác giả đề xuất một mô hình đạtđược kết quả tốt khi phân tích cảm xúc ở mức khía cạnh Mô hình này kết hợp ontolog,
bộ từ điển cảm xúc, luật rút trích sau đó mô hình xây dựng dựa trên nghĩa của các câutiếng Việt cho trước Với cách tiếp cận này cho thấy mô hình của tác giả có kết quảtốt Tuy nhiên, phương pháp này cần phải có một tập từ vựng đủ lớn cũng như luật
rút trích.
- Công trình nghiên cứu của Ngô Xuân Bách cùng cộng sự [15], với các mô
hình học máy như Naive Bayes, MEM va SVM với bài toán phân tích cảm xúc tiếng,Việt Bên cạnh đó, công trình còn cung cấp cho cộng đồng nghiên cứu một bộ dữ liệu
về phản hồi của khách hàng trên nền tảng đặt phòng khách sạn trực tuyến Agoda Bộ
đữ liệu có 3304 câu phản hồi, phản hồi tích cực là 3304 câu, phản hồi tiêu cực là 1980
câu còn lại 547 câu phản hồi trung tính
- Công trình nghiên cứu của Quan-Hoang Vo cùng cộng sự [16] dé xuất môhình kết hợp giữa LSTM và CNN có tên là Multi-channel LSTM-CNN Mô hình đề
xuất đạt kết quả vượt trội so với nếu chỉ dùng đơn lẻ một mô hình LSTM hay CNN
Bộ dữ liệu về phản hồi của khách hàng trên các trang thương mại điện tử Việt Nam
được nhóm tác giả gửi link trong bài báo đã công bố Bộ dữ liệu VS xây dựng từ các
trang thương mại điện tử như Tiki.vn, TinhTe.vn, v.v, được nhóm tác giả xây dựngdựa trên 17500 câu phản hồi, đánh giá được gán nhãn thủ công
- Cũng bằng sự kết hợp giữa các mô hình, công trình nghiên cứu của Lac Si
Le cùng cộng sự [17] để xuất sử dụng mô hình Multi-filter BiLSTM-CNN Mô hình
này có kết quả thử nghiệm cao với điểm số F1 trên bộ dữ liệu UIT-VSFC là 93.55%
và 84.41% trên bộ dữ liệu VS.
- Công trình nghiên cứu của Quoc Thai Nguyen và cộng sự [18] tập trung vào.
ứng dụng kiến trúc Transformer, cụ thể là BERT, cho bài toán phân tích cảm xúc cáccâu phản hồi tiếng Việt Ngoài ra, nhóm tác giả còn tiền hành thử nghiệm, so sánh và
đánh giá với các mô hình như SVM, LSTM, TextCNN, CRNN, FastText và GloVE.
7
Trang 17- Một công trình khác cũng dựa trên kiến trúc Transformer đó là công trình
của Trong-Loc Truong và cộng sự [19] Nghiên cứu đề xuất hiệu chỉnh mô hình
PhoBERT cho bài toán phân tích cảm xúc tiếng Việt Mô hình với sự kế hợp 4 đặc
trưng ở lớp cao đã đem lại kết quả tốt trên trên bộ dir liệu UIT-VSFC với điểm số F1
là 93.92% và điểm số accuracy là 94.28%
Vong Anh Ho và cộng sự [20], với bài báo “Emotion Recognition for
Vietnamese Social Media Text”, nghiên cứu trên bộ dữ liệu UIT-VSMEC Nhóm tác
giả đánh giá bốn phương pháp tiếp cận bao gồm: RandomForest, SVM, LSTM và
CNN Trong đó phương pháp CNN +word2Vec đạt được kết quả tốt nhất với chỉ số
FI là 59,74%.
Công trình nghiên cứu của nhóm TS Ngan Luu-Thuy Nguyen [21], nghiên
cứu về học sâu so với công cụ phân loại truyền thống trên bộ dữ liệu UIT-VSFC Cụ
thể, nghiên cứu này đánh giá bốn phương pháp tiếp cận bao gồm: Naive Bayes,
Maximum Entropy, Long Short-Term Memory and Bi-Directional Long Short-TermMemory Sau khi so sánh các kết quả nghiên cứu, tác giả nhận thấy rằng phương phápBi-Directional Long Short-Term Memory cho hiệu suất cao nhất với với chỉ số F1 là
89,6%.
Ngoài ra Dat Quoc Nguyen, Anh Tuan Nguyen [22], đã giới thiệu PhoBERT
với hai phiên bản, PhoBERT-base và PhoBERT-large là một mô hình được học sẵn
đơn ngôn ngữ đảo tạo ở cấp độ từ (word-level) quy mô lớn đầu tiên cho các tác vụ xử
lý ngôn ngữ tự nhiên của tiếng Việt Khác với hướng tiếp cận so với phiên bản BERT
gốc, PhoBERT tiếp cận theo hướng của mô hình RoBERTa [23] với ý tưởng chính là
loại bỏ hàm mục tiêu dự đoán câu tiếp theo trong phần đào tạo sẵn (pretraining) Kếtquả thử nghiệm cho thấy PhoBERT luôn vượt trội so với mô hình đa ngôn ngữ XLM-
R (Conneau và cộng sự, 2020).
Luan Thanh Nguyen và các cộng sự [24], mô tả một tiêu chuẩn đánh giá mới
dé phân loại văn bản trên mạng xã hội với bốn nhiệm vụ nhận dạng cảm xúc, pháthiện giọng nói tích cực, phát hiện lời nói căm thù và phát hiện nhận xét khiếu nại Cụthể, nghiên cứu này thực hiện các cách tiếp cận khác nhau với các mô hình đơn ngôn
ngữ (PhoBERT, viBERT, vELECTRA và viB ERT4news) và đa ngôn ngữ (mBERT,
Trang 18XLM-R và Distilm BERT) dựa trên BERT trên bộ dữ liệu iéng Viét Các mô hình
đơn ngôn ngữ đạt được hiệu quả tốt nhất trên tất cả các nhiệm vụ phân loại văn bản
Dang Van Thin và các cộng sự [25], trình bày một kiến trúc đa tác vụ hiệu quả
dựa trên mạng nơ ron cho các tác vụ phát hiện danh mục khía cạnh và danh mục khía
cạnh Nghiên cứu này, có thể dự đoán toàn bộ danh mục khía cạnh với các miền dữ
liệu tương ứng Qua kết quả thực nghiệm trên 2 tập dữ liệu tiếng Việt ở miền nhà
hàng và miền khách sạn ở mức độ văn bản cho thấy mô hình của tác giả đề xuất đạthiệu suất tốt hơn so với các phương pháp hiện đại trước đây
Một số công trình nghiên cứu chính liên quan có thé ké đến như nhóm nghiêncứu của TS Nguyễn Lưu Thùy Ngân ĐH Công nghệ Thông tin - ĐHQG TPHCM
[5], đã trình bày phương pháp xây dựng bộ dit liệu Vietnamese Students’ Feedback
Corpus (UIT-VSFC) cho bài toán phân tích cảm xúc tiếng Việt với 16, 000 câu bình
luận của sinh viên trong quá trình học tập và đề xuất mô hình Maximum Entropy làm
mô hình cơ sở (baseline) cho các nghiên cứu sau này trên bộ dữ liệu UIT-VSFC Một
công trình nghiên cứu khác cũng đến từ ĐH Công nghệ Thông tin, nghiên cứu [26]
trình bày phương pháp xây dựng bộ dữ liệu Vietnamese Smartphone Feedback
Dataset (UIT-ViSFD) gồm 11, 122 câu bình luận về điện thoại thông minh trên trang
thương mại điện tử và đề xuất mô hình Bi-LSTM làm mô hình cơ sở với 84.48% cho
độ do Fl.
Dung Tran Tuan và các cộng sự [27], trình bày một mô hình mới phân loại
bài đăng trên Facebook và một tập di liệu mới được gan nhãn tương ứng với chủ đề
Tập đữ liệu gồm 5191 bai đăng được chia làm 3 tập: raining, validation and testing
data sets với 3 phương pháp cắt ngắn so sới các thuật toán học máy khác Kết quả thửnghiệm cho thấy mô hình BERT được tỉnh chỉnh tốt hơn các phương pháp tiếp cận
Trang 191.3.1 Vietname Students’ Feedback Corpus (UIT-VSFC)
Bộ dữ liệu phan hồi của sinh viên Việt Nam hay Vietname Students’ Feedback
Corpus (UITVSFC)! [28] được khảo sát từ Trường Dai học Công nghệ Thông tin
-DH Quốc gia TP HCM trong 3 năm học từ năm 2014 đến năm 2017 với mục đích
nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt Quá trình thu thập
dữ liệu kết quả thu được 16 175 câu, sau quá trình tiền xử lý đữ liệu nhóm tác giả gánnhãn 16 000 câu phản hồi với độ đồng thuận cao trên 90% Các phản hồi của sinhviên chủ yếu về chất lượng giảng dạy, giáo trình cũng như cơ sở vật chất của trường.Bên cạnh đó, thì giảng viên cũng có những phản hồi giúp sinh viên khắc phục hạn
chế và phát huy điểm mạnh đề giúp trường ngày càng được nâng cao chất lượng dạy
và học Bộ dữ liệu với 3 trạng thái nhãn cảm xúc: 0 (tiêu cực) chiếm 45,99%, 1 (trungtính) chiếm 4,32%, 2 (tích cực) chiếm 49,69% Cu thé bộ dữ liệu được chia thành 3
tập: Train (11,426 câu) Dev (1,583 câu), Test (3,166 câu) [28] Tập training dùng dé
huấn luyện mô hình, tập kiểm chứng (validation) dùng dé tìm ra mô hình tốt nhấttrong các mô hình huấn luyện từ tập training, tập dữ liệu kiểm tra (testing) để kiểmtra xem mô hình dé xuất có tốt không để từ có những hiệu chỉnh cần thiết
Bang 1.1 Số lượng và tỉ lệ nhân tiêu cực, trung tính, tích cực trong bộ dữ liệu
Trang 2012000 11426
10000 8000 6000
4000 3166
2000 1538 oO
5 m
Train Dev Test
Hình 1.2 Biểu đồ phân bố dữ liệu cho 3 tập Train, Dev, Test (câu)
1.3.2 Vietnames Sentiment Analysis (VS) (PDF)
Bộ dữ liệu? phân tích sản phẩm của người dùng hay Vietnamese Sentiment
Analysis (VS) được khảo sát từ các trang thương mại điện tử như (TinhTe.vn,
Lazada.vn, Tiki.vn, ) với các sản phẩm khác nhau (sách, laptop, thực phẩm, điện
thoại, ) Bộ dữ liệu gồm 17 500 câu phản hồi của người dùng được gán nhãn với 3
loại nhãn cảm xúc: Tiêu cực, trung tính, tích cực bởi ba người Độ đo đồng thuận
trên bộ dữ liệu gan nhãn trên 74% [16].
Bảng 1.2 Số lượng và tỉ lệ nhãn tiêu cực, trung tính, tích cực trong bộ dữ liệu
Tiêu cực | Trung tính Tích cực Tổng số nhãn
Số lượng nhãn 5,939 5,573 5,988 17,500
¬
Như đã trình bày ở phần 1.3.1 về bộ dữ liệu UIT-VSEC chủ yếu về các phản
hồi của sinh viên ở trường đại học, để làm phong phú thêm các chủ đề về phân tíchcảm xúc luận văn sử dụng thêm bộ dữ liệu VS phân tích sản phẩm của người dùng từcác trang thương mai điện tử với các loại sản phẩm khác nhau Qua bảng 1.2 cho thấy
bộ đữ liệu VS với tổng số nhãn là 17 500 câu với các nhãn được thu thập tương đối
2 Bộ dữ liệu cung cấp tại https://github.com/ntienhuy/MultiChannel/tree/master/data/VS
ll
Trang 21cân bằng rất tốt cho việc chạy thực nghiệm Qua đó, có thể thấy đây một bộ dữ liệu
đủ lớn dé thử nghiệm trong luận văn nay
1.4 Mục tiêu đề tài
Luận văn tiến hành thử nghiệm, đánh giá sự ảnh hưởng các biến thể khác nhau.của mô hình PhoBERT trên 2 tập dữ liệu (UIT-VSFC) và tập (VS) cho tiếng Việt đểhiểu rõ hơn về mô hình
Đề xuất chỉnh sửa một số nhãn có lỗi gan nhãn trên bộ dữ liệu (UIT-VSFC)
1.5 Nội dung đề tài
— Tìm hiểu các kĩ thuật về phân loại văn bản tiếng Việt, kĩ thuật tách từ tiếng
Việt.
— Nghiên cứu các phương pháp, kỹ thuật dé phát hiện ra các trạng thái cảm xúc
tích cực, tiêu cực, trung tính cho phản hồi của sinh viên và phản hồi của khách
hàng trên các trang thương mại điện tử.
— Nghiên cứu mô hình Transformer và các mô hình học sâu khác nhau để đánh
giá hiệu quả.
— Cai at, thử nghiệm và đánh gi: kết quả, từ đó đưa ra mô hình mới cho bàitoán phân tích ý kiến phản hồi của sinh viên và phản hồi của khác hàng trên
02 bộ dữ liệu tiếng Việt
1.6 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là những phản hồi của sinh viên, các câu bình luận, đánh
giá của người dùng về sản phẩm/dịch vụ trên các trang thương mại điện tử Việt Nam
Còn lại, đối tượng nghiên cứu thứ hai là kiến trúc Transformer và mô hình PhoBERTcũng như áp dụng kiến trúc và mô hình này vào bài toán Phân tích cảm xúc
Phạm vi nghiên cứu là các ý kiến phản hồi bằng tiếng Việt được thực hiện trên
hai bộ dữ liệu Vietnamese Students’ Feedback Corpus (UIT-VSFC) và bộ
'Vietnamese Sentiment Analysis (VS).
12
Trang 221.7 Phương pháp nghiên cứu
— Nghiên cứu tổng quan về bài toán mà luận văn giải quyết thông qua các tài
liệu bài báo, tạp chí, sách.
— Nghiên cứu lý thuyết các giải thuật, phương pháp
— Nghiên cứu các dataset cho bài toán.
— Nghiên cứu các công cụ để cài đặt, bổ sung hay hiệu chỉnh cho phù hợp với
bài toán mà luận văn hướng tới.
— Phân tích, đánh giá kết quả quá trình thử nghiệm
13
Trang 23Chương 2 CƠ SỞ LÝ THUYET
Trình bày lý thuyết chính liên quan bài toán xử lý ngôn ngữ tự nhiên như vềcác phương pháp trích xuất đặc trưng từ văn bản phô biến, các phương pháp máy học,học sâu trong lĩnh vực xử lý ngôn ngữ tự nhiên và mô hình biểu diễn từ BERT dựatrên kiến trúc Transformer và những biến thê của nó
2.1 Các phương pháp trích xuất đặc trưng từ văn bán
2.1.1 Phương pháp Bag-of-Words (BoW) và TF-IDF
Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), việc trích xuất đặc trưng từvăn bản cũng như thể hiện văn bản dưới dạng véc tơ số làm đầu vào cho các mô hìnhhọc máy là vô cùng quan trọng Phương pháp Bag-of-Words, viết tắt BoW, là mộttrong những kỹ thuật đơn giản và phổ biến được đông đảo giới nghiên cứu sử dụngcho việc trích xuất đặc trưng từ văn bản Trong phương pháp BoW, văn bản sẽ đượcthể hiện bằng số lần xuất hiện của các từ có trong túi từ (Bag-of-Words) mà không
hề quan tâm đến thông tin về cấu trúc và vị trí của từ trong văn bản Túi từ này sẽchứa các từ hoặc các token riêng biệt có trong kho ngữ liệu huấn luyện
Mở rộng hơn, túi từ có thê chứa N-gram, trong đó N-gram là một chuỗi có N
từ Ngoài ra, thay vì thê hiện bằng số lần xuất hiện của từ, tần số xuất hiện của từ
cũng có thể được sử dụng
Một vấn đề xảy ra khi sử dụng BoW đó là các từ xuất hiện nhiều nhưng mang
rất ít thông tin sẽ gây ảnh đến việc tính toán sau này Dé giải quyết van dé này, phương
pháp Term frequency - inverse document frequency, hay viết tắt là TF-IDF3, được đềxuất với trọng tâm là giảm trọng số của các từ xuất hiện quá nhiều lần trong bộ ngữ
liệu Từ đó việc biểu diễn từ được hiệu quả hơn
TF- term frequency: Là tần xuất xuất hiện của từ trong văn bản, tùy thuộc vào
độ dài ngắn của văn bản mà số lần xuất hiện của từ có thể khác nhau TF được tính
theo công thức sau
TF (t, đ) = ( số lần từ t xuất hiện trong văn bản d) / (tông số từ trong văn bản d)
$3 https://en.wikipedia.org/wiki/T£%E2%80%93idf
14
Trang 24IDF- Inverse Document Frequence: tính toán mức độ quan trong của các từ
trong văn bản Khi tính tuần xuất xuất hiện của TF thì các từ đều quan trọng như
nhau Tuy nhiên một số từ thường xuất hiện nhưng lai không quan trong (Vi dụ như:
nhưng, vì vậy, trong, ở, thì ) Vì vay ta cần giảm mức độ quan trọng của từ bằng
cách sử dụng IDF:
IDF(t, D) = log_e (Tổng số văn bản trong tập mẫu D/ Số văn bản có chứa từ t)
(nguồn:
https://viblo.asia/p/tf-idf-term-frequency-inverse-document-frequency-JQVKVZgKkyd)
2.1.2 Bộ dữ liệu Vietnamese SentiWordNet
Ngoài BoW và TF-IDF, một phương pháp khác đề trích xuất đặc trưng khác
được gọi là WordNet, tạm dịch là mạng ngữ nghĩa [29] Cụ thể, WordNet là một cơ
sở dữ liệu ngữ nghĩa trực tuyến ở mức từ thể hiện mối quan hệ về nghĩa giữa các từ
khác nhau của tiếng Anh Tính đến thời điểm hiện tại, phiên bản WordNet mới nhất
là 3.1 và có thể truy cập sử dụng trực tuyến miễn phí tại địa chỉ [WordNet Search
-3.1 (princeton.edu)] [Princeton University "About WordNet." WordNet Princeton
University 2010 ] Ở phiên bản 3.1, WordNet cung cấp tong cộng 155287 từ trong
đó có 117798 danh từ, 11529 động từ, 21479 tính từ và 4481 trạng từ Hiện tại,
WordNet không chỉ có phiên bản tiếng Anh mà còn nhiều phiên bản khác như tiếng
Pháp, tiếng Đức v.v và đặc biệt là tiếng Việt
Lấy cảm hứng từ WordNet, bộ dữ liệu SentiWordNet [31] được phát triên
riêng dành cho bài toán phân tích cảm xúc tiếng Anh Bộ dữ liệu này tập trung vào
việc tính toán điểm số tích cực (positivity), trung tính (objectivity) và tiêu cực
(negativity) cho mỗi synset (synset có thể hiểu là các từ có nghĩa tương đồng với nhautrong mạng WordNet) Còn với bài toán phân tích cảm xúc tiếng Việt, tác giả Vũ
Xuân Sơn cũng cộng sự đề xuất bộ dữ liệu Vietnamese SentiWordNet (VSWN) [32]
Điều đặc biệt của VSWN là nó không được xây dự từ mạng ngữ nghĩa WordNet của
tiếng Việt mà bằng từ điền tiếng Việt dựa trên phương pháp mới do tác giả đề xuất
15
Trang 25Phương pháp đề xuất chứng minh được sự hiệu quả khi xây dựng thành công bộ
VSWN với tổng cộng 39561 synset*
2.2 Máy học và học sâu trong xử lý ngôn ngữ tự nhiên
Với sự tiến bộ của công nghệ, học sâu (deep learning) - một nhánh của máyhọc (machine learning) — ngày càng phát triển hơn và nhận được sự quan tâm củađông đảo giới nghiên cứu ở rất nhiều lĩnh vực khác nhau Trong lĩnh vực xử lý ngônngữ tự nhiên, học sâu ngày càng cho thấy tầm quan trọng khi được ứng dụng đề giải
quyết và mang đến hiệu năng cực kì cao ở các bài toán như thể hiện từ, dịch máy,
truy vấn văn bản hay phân tích cảm xúc
2.2.1 Mạng nơ ron nhân tạo
Mang no ron nhân tạo tiếng Anh là Artificial Neural Network (ANN) hay
Neural Network [33], là thành phần chính của học sâu Hay nói cách khác, học sâu
dựa trên mạng nơ ron nhân tạo Được giới thiệu lần đầu vào năm 1943 bởi Warren S
McCulloch và Walter Pitts, cho đến ngày nay, mạng nơ-ron nhân tạo đã đạt được
những kết quả vô cùng ấn tượng
Theo các nhà khoa học thì não bộ con người chứa rất nhiều nơ ron thần kinhđược liên kết chặt chẽ với nhau nhằm mục đích dẫn truyền xung thần kinh cũng nhưphát xung thần kinh dé phản ứng lại các kích thích Lay cảm hứng từ đó, mạng nơ-ron nhân tạo được cấu tạo từ nhiều nơ-ron nhân tạo hay còn gọi là nút, chúng có cấu
tạo như hình 2.3 Tương tự như nơ-ron trong não bộ, các nút có nhiệm vụ nhận thông.
tin, xử lý và lan truyền thông tin đến các nút khác Cụ thể hơn, mỗi nút sẽ xử lý thông
tin nhận được từ một hay nhiều đầu vào khác nhau bằng hàm kích hoạt (activation
function) Các hàm kích hoạt này thường là các hàm phi tuyến (nonlinear function)
Một số hàm kích hoạt thường được sử dụng có thể kể đến như sigmoid, tanh, relu,v.v Thông tin sau khi được xử lý sẽ đi qua một dau ra duy nhất
* Khái niệm “synset” là các từ đồng nghĩa với nhau có thé thay thế được cho nhau trong một bồi
cảnh ngôn ngữ nhất định.
16
Trang 26gồm ba lớp: Đầu vào (input), lớp ẩn (Hidden) và đầu ra (Output) Thông tin được
truyền theo một hướng từ đầu vào tới đầu ra nên được gọi là mạng truyền thing Ởcác mô hình học sâu, số lượng lớp an thường rất nhiều
17
Trang 27(Nguồn: https://viblo.asia/p/mang-neural-network-WAyK84zpKxX)
2.2.2 Mạng nơ ron tích chập
Mạng nơ-ron tích chập (Convolutional Neural Network hay CNN hay
ConvNet) là một mô hình mạng nơ-ron nhân tạo dùng đề nhận dang và phân loại hình
ảnh Mạng này được lấy cảm hứng từ vùng của bộ não có chức năng xử lý thông tin
hình ảnh được gọi là visual cortex [34] Bằng cách sử dụng các lớp tích chập
(convolutional layer), mạng nơ-ron tích chập sẽ rút trích các đặc trưng của bức ảnh
từ thấp đến cao đề học và phân loại Các đặc trưng thấp có thể là đường, viền haycạnh của các vật thé trong bức ảnh Các đặc trưng cao có thé là bộ phận của vật thé,
như mắt, mũi miệng của người.
Lớp tích chập được xây dựng dựa vào phép toán tích chập (convolution
operation) Đề trích xuất đặc trưng (feature map), CNN sẽ sử dụng các bộ lọc (filter
hay kernel) Các bộ lọc này là các ma trận có kích thước nhỏ, thường là 3x3 hoặc 5x5.
Bằng cách trượt trên hình ảnh đầu vào và thực hiện phép nhân ma trận, ta thu được
các đặc trưng của hình ảnh, như Hình 2.4.
18
Trang 28La |~
38 41 32
13 80 81
Nguồn [1702.07800] On the Origin of Deep Learning (arxiv.org)
Nhu đã đề cập ở trên, có nhiều bộ lọc khác nhau dùng dé trích xuất các đặc
trưng khác nhau Do đó, để học được bức ảnh đầu vào chính xác, CNN sử dung nhiều
bộ lọc khác nhau trong mỗi lớp tích chập Hình 2.5 mô tả một số bộ lọc thông dụng
19
Trang 29Hình 2.5 Một số loại kernal phổ biến
Nguồn: [1702.078001 On the Origin of Deep Learning (arxiv.org)
20
Trang 31Bên cạnh lớp tích chập, CNN còn có một thành phần quan trọng khác là lớp hợp
nhất (Pooling layer) Mục đích là giảm số chiều của dữ liệu và hạn chế việc mô hình
dự đoán bị overfitting Có nhiều phép pooling như Max, Min hay Average, nhưngthường sử dụng nhất là Max Pooling Phép này sẽ cho ra kết quả giá trị lớn nhất trong
một vùng Hình 2.7 bên dưới thê hiện phép Max Pooling.
Single depth slice
se max pool with 2x2 filters
Thanh phần cuối cùng chính là lớp kết nói đầy đủ (fully connected layer) hay
đơn giản chỉ là mạng nhiều tầng truyền thống (multilayer perception hay MLP) Ma
trận đầu ra của lớp Pooling sẽ được trải đều ra (flatten) và đi vào lớp kết nối đầy đủ
Đầu ra của lớp này cũng chính là đầu ra của mạng CNN
(Nguồn:
https://stanford.edu/~shervine/I/vi/teaching/cs-230/cheatsheet-convolutional-neural-networks)
22
Trang 32Trong tác vụ xử lý ngôn ngữ tự nhiên, mạng tích chập được sử dụng đề tríchxuất thông tin ngữ cảnh của câu văn hay đoạn văn bản đầu vào Cụ thể, đầu vào sẽ
được cắt thành từng đoạn để có dạng ma trận giống như một bức ảnh Các ma trận
này sẽ được xử lý một cách tương tự như với các ma trận biêu diễn hình ảnh
2.2.3 Mạng nơ ron hồi quy
Bên cạnh mạng tích chập, mạng nơ-ron hồi quy RNN [35] cũng là một trong
những mạng ron nhân tạo được sử dụng phổ biến Ý tưởng chính của mạng
nơ-ron hồi quy là sử dụng lại các thông tin cũ của dữ liệu dạng chuỗi Vi dụ, néu muốnđoán từ tiếp theo có thể xuất hiện trong một câu thì ta cần dựa vào thông tin từ các từ
t
6 666.
Hinh 2.9 Mang neural héi quy - Recurrent Neural Networks
đã xuất hiện trước đó
|
Nguồn: https://dominhhai github io/vi/2017/10/what-is-Istm
Trai với mạng truyền thẳng truyền thong, RNN được gọi là hồi quy (recurrent)
do việc sử dụng lại thông tin đã được tính toán Cụ thể, tại bước r, RNN sẽ nhận vàođồng thời đầu ra của thời điểm z-7 va đữ liệu đầu vào tại thời điểm r, như hình 2.10
Tuy có khả năng ghi nhớ các thông tin cũ, thế nhưng mô hình RNN cơ bảnvẫn chỉ có thể ghi nhớ một cách ngắn hạn, tức với những thời điểm ở xa, thông tin
bị mat mát trong lúc truyền đạt làm cho mô hình không thể học được các thông tin
ở các thời điểm xa phía trước Đây được gọi là vanishing gradients [36] Để cải tiếnvấn đề nay, Sepp Hochreiter, Jiirgen Schmidhuber [37] đã đề xuất mô hình LongShort-Term Memory (LSTM) Bằng cách sử dụng hiệu quả các công kết nói, LSTM
có khả năng ghỉ nhớ tốt hơn so với mô hình RNN truyền thống Tuy nhiên, về tốc
độ xử lý, mô hình LSTM lại trở nên chậm chạp hơn nhiều.
23