“ôi là Nguyễn Quốc Trọng, xin cam đoan luận văn "Mô hình học sâu nhận dạng, cảm xúc đa trên đa phương thức" là công tình nghiên cứu của tôi, được thực hiện nnêu trong luận văn là trung
Trang 1KHOA CONG NGHE THONG TIN
NGUYEN QUOC TRONG
MO HINH HQC SAU NHAN DANG CAM XUC
DUA TREN ĐA PHƯƠNG THỨC KHÓA LUẬN TÓT NGHIỆP
TP Hỗ Chí Minh ~ Năm 2024
Trang 2KHOA CÔNG NGHỆ THÔNG TIN
NGUYÊN QUỐC TRỌNG
MÔ HÌNH HỌC SÂU NHẬN DẠNG CẢM XÚC
DỰA TRÊN ĐA PHƯƠNG THỨC CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
KHÓA LUẬN TÓT NGHIỆP
TS Nguyễn Viết Hưng
TP HỖ Chí Minh Năm 2024
Trang 3“ôi là Nguyễn Quốc Trọng, xin cam đoan luận văn "Mô hình học sâu nhận dạng, cảm xúc đa trên đa phương thức" là công tình nghiên cứu của tôi, được thực hiện nnêu trong luận văn là trung thực và nội đung luận văn không có sự sao chép từ các tài
liệu hay công trình nghiên cứu khác mà không ghỉ rõ nguồn trong phần tà liệu tham
‘Toi xin chịu trách nhiệm về lời cam đoan này
Thành phổ Hỗ Chí Minh, ngày 07 tháng 4 năm 2024
Trang 4Trước tiên, em xin bày tỏ lòng biết ơn chân thành đến Nguyễn Viết Hưng
và Thể Trần Thanh Nhã hai người thầy tận tâm đã hướng dẫn, hỗ trợ và chỉ bảo em trong suốt quá tình nghiên cứu khóa luận Em cũng muốn gửi lời cảm ơn đến toàn bộ
giảng viên tại Trường Đại học Sư Phạm Thành phố Hồ Chỉ Minh, đã truyền đạt kiến
thức quý giá và tạo điều kiện cho em hoàn thành tốt chương trình học tập Hy vọng những kiến thức này sẽ gip em tiền bước vũng chắc hơn rên con đường sự nghiệp Mặc dù em đã cổ gắng hoàn thành khóa luận của mình trong phạm vỉ khả năng
và hiểu biết của mình, tuy nhiên chắc chắn sẽ không tránh khỏi những thiểu sót Vì
xây, em rất mong nhận được sự thông cảm và hướng dẫn tận nh từ guý thấy cô và các bạn trong việc ải thiện và phát triển khả năng nghiên cấu của mình
“Thành phố Hồ Chí Minh, ngày 09 tháng 4 năm 2024
NGUYEN QUOC TRONG
Trang 5Lý do chọn đề tài
Mục đích nghiên cứu
Đối tượng và phạm vi nghiên cứu
` nghĩa khoa học thực tiễn
“Cấu trúc luận văn
'CHƯƠNG 1 TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU
“Tổng quan công trình nghiên cứu 'CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Tiên xử lý văn bản
Trang 6
3.1 Phương phíp tích video text, audio
4.1 Phương pháp tiên xử lý dữ liệu 4.11 Tiền xử ý dữ liệu văn bản 4.12 Tiên xử lý video và keypoint
2 Thiết lập thông số cho mô hình 5.3 Thiết lập cách đánh giá mô hình 5.4 Thực nghiệm
5.4.1 Dữ liệu đầu vào gồm text, audio 5.42 Dữ liệu đầu vào gồm text, keypoint video, 5.43 Dữ iệu đầu vào gồm audio, keypoint, video 5.44 Dữ liệu đầu vào gồm keypoint, video, text, audio
5.5 Dánh giá kết quả thực nghiệm
CHUONG 6 KET LUAN VA HUG
TÀI LIỆU THAM KHẢO
Trang 7ĐANH MỤC HÌNH VỀ
Hình 2.3 Cấu trúc thực hiện SwinTransformer 20
Hình 2:7 Cấu trúc mô hình của Matheus Sehmiuz [6] và các công sự 24
Hình 2.10 Công thức hàm GELU [27] 28
Hình 2,11 Mô hình YOLO cho phân loại, phát hiện đối tượng, phân đoạn 30
Hình 3.3 Mỗi ñle của các cuộc hội thoại bao gồm phan dialog li phn chung ding cho
Hình 3.4 Thư mục dialog gdm avi (video), way (audio), transcriptions (text 33
Hình 4.1 Tổng quan bước làm với phương thúc văn bản 36
Hình 4.9 Cách thực rút trích đặc trưng text = sen
5
Trang 8Hình 4.11 Cách thực rút trích đặc trưng face, body sequence Hình 4.12 Cách thực rút trích đặc trưng context sequence Hình 4.13 Cách thực rút trích đặc trưng keypoint face, body sequence Hình 4.14 Cách thực rút tạo veetor Mean Fusion
Hình 4.15 Thực hiện embedding véi dit ligu đơn phương thức Hình 4.16 Tao vector Query, Key, Value
Hình 4.17 Thực hiện Cross Atemtion
Hình 4.18 Thực hiện FEN
Hình 4.19 Tổng quan về mô hình thye hign Cross Attemtion Hình 5.1 Mô hình tong lúc huấn luyện với text, audio
Hình 5.2 Confusion Matrix khi lúc suy luận với video, audio
Hình 5.3 Mô hình tong lúc huấn luyện với text, keypoint, video Hình 5.4 Conftslon Matix trong lúc suy luận với keypoint, video, text Hình 5.5 Mô hình tong lúc huấn luyện với audio, keypoint, video
Hình 5.6 Confusion Matrix trong lúc suy luận với keypoint, video, audio Hình 5.7 Mô hình trong lúc huấn luyện và valid với keypoint, video, text, audio Hinh 5.8 Confusion Matrix trong lie suy luận với keypoinf, video, text, audio
DANH MUC BANG
Bảng 1 Théng kê nhãn đã được rút trích
Bảng 2 Kết quả của mô hình với method text và audio
Bang 3 Kết quả của mô hình với method text va audio và keypoint, Bảng 4 Kết quả của mô hình với method audio, keypoint, video Bảng 5 Kết quả của mô hình với method audio, keypoint, video Bảng 6 So sánh kết quả giữa mô hình của chúng tôi và các mô hình khác
Trang 9Lý do chọn đề tài
“Cảm xúc của con người thể hiện qua biểu hiện khuôn mặt, giọng điệu, cử chỉ, chuyển động cơ thể và tư thể, Một hệ thống có thể nhận dạng tự động cảm xúc của con người bằng cách sử dụng một hoặc nhiễu trong những phương thức
này có thể đồng vai trò quan trọng trong nhiều ứng dụng khác nhau như trồ chơi video, tương tác con người - mấy tính, robot, phần mềm giáo dục, hoạt hình, ăn
toàn ô tô và tính toán ảnh hưởng
Việc phát triển một hệ thông nhận dạng cảm xúc thời gian thực mạnh mẽ
là cần thiết và ứng dụng của nó cần được nghiên cứu một cách kỹ lưỡng Ví dụ,
thiết kế các robot thông mình hơn có khả năng hiểu được cảm xúc của con
lại giá trị vô cùng lớn
“Trong nhận dạng cảm xúc, khuôn mặt của con người biểu hiện nhiễu cảm xúc mà không cần phải nói ra Đồ là một trong những phương tiện mạnh mẽ và
phân tích cám xúc dựa vào hình ảnh là khuôn mặt là một vấn để thú vị và đầy
thách thúc, có ảnh hưởng to lớn đến xã hội Do đó, để tài nghiên cứu về biểu quả khích lệ [1112]
“Các phương pháp nhận dạng cảm xúc có thể được chia thành hai loại
chính: đơn phương và đa phương Phương pháp nhận dạng cảm xúc đơn phương, thức là khi cố gắng xác định tâm trạng của con người bằng cách s dụng một phương thức duy nhất, ví dụ như sử dụng khuôn mặt, văn bản, điện não đủ, lồi phương thức được lựa chọn có thé không phản ánh đúng cảm xúc trong những tình huỗng cụ thể
Mại phương thức đều có ưu điểm và hạn chế riêng của nó Ví dụ, trong điều kiện ánh sáng yếu, âm thanh có thể hoạt động tốt hơn video, trong khi văn
7
Trang 10bản đôi khi có th tốt hơn âm thanh để dự đoán tâm trang
Ngoài việc sử dụng đơn phương thức trên một nguồn dữ iệu (kênh) duy
t nhiều nghiên cứu đã kết hợp các đặc trung của nhiễu bộ dữ lệ n cao hiệu suất của mô hình nhận điện
“Các công trình nghiên cứu trước cũng đã chỉ ra rằng việc chỉ dựa vào một phương thức duy nhất đạt hiệu xuất thấp hơn việc sử dụng kết hợp nhiều phương thức [3| I4| Bằng cách học nhiều nguồn thông tin khác nhau giúp mô hình có khả năng hiểu và phân tích dờ liệu một cách toàn diện hơn
S Yoon và công sự [5] đã sử dụng đồng thời hai loại dữ liệu văn bản và
âm thanh Kiến trúc mô hình có thé phân tích va xử lý được dữ liệu giọng nói ở cấp độ tín hiệu đến cấp độ ngôn ngữ Từ đó sử dụng thông tin của giọng nói một
cách toàn điện hơn so với việc chỉ dùng các đặc trưng âm thanh đơn thuần
Ngoài ra, còn có các phương pháp kết hợp các loại dữ liệu như sử dụng biểu hiện trên khuôn mặt kết hợp với tính hiệu não và các đặc trưng sinh lý đẻ phát hiện cảm xúc một cách đáng tin cậy hơn [6] [7] Trong nghiên cứu [8] tác cdữ liệu Tác giả cũng đã so sánh việc kết hợp bộ dữ liệu đơn chỉ có video và dữ
liệu kết hợp đã cho thấy hiệu xuất tốt hơn
"Từ những lý luận trên, cho thấy tằm quan trọng và tính cắp thiết của việc
nghiên cứu về cảm xúc với nhiều phương thức Vì vậy, nghiên cứu này nhằm
phát triển mô hình nhận diện cảm xúc với sự hỗ trợ của nhiều phương thức khác
nhau để nâng cao khả năng nhận dạng cảm xúc
Trang 11thức chính là văn bản trích xuất từ âm thanh, giọng nói, hình ảnh trên bộ dữ liệu IEMOCAP
“Thực nghiệm và đánh giá mô hình trên bộ dữ liệu IEMOCAP
Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
~ Tìm hiểu tổng quan các công trình nghiên cứu về đa phương thức
- Nghiên cứu cơ sở lý thuyếtliên quan đến để ti
- Nghiên cứu kỹ thuật xử lý dữ liệu
- Nghiên cứu thiết kế mô hình
~ Đề xuất hướng phát iển tong tương ai
Phương pháp nghiên cứu thực nghiệm:
- Tiên hành xây dựng mồ hình
~ Đánh giá và so sánh kết quá đạt được
Ý nghĩa khoa học thực tiến
Đề di Mô hình học sâu nhận đạng cảm xúc dựa trên đa phương thức”
là một phần của bài oán nhận điện cảm xúc con người Một lĩnh vực iên quan đến tr tuệ nhân tạo, tâm lý học VỀ mặt thực tiễn những mô hình nhận diễn cảm xúc truyền
thống thương chỉ tập trung vào một đặc trưng Trong nghiên cứu nảy giúp tìm hiểu
sâu hơn về cách thức dữ liệu không gian ảnh hướng đến cảm xc con người, Bên cạnh
đó là phát triển các mô hình vẻ AI có khả năng nhận diện và thấu hiểu cảm xúc của
son người tốt hơn
“Cấu trúc luận văn
Dựa vào mục tiêu đã được trình bảy, nội dung của luận văn được ch thành các phần như sau:
Trang 12“Chương 1: Tổng quan về tình hình nghiên cứu
Chương này sẽ giới thiệu về tổng quan các công trình nghiên cứu trong lĩnh vực
giải
nhận điện cảm xúc ở con người Trình bảy các nghiên cứu đã được áp dụng quyết bài toán nhân diện cảm xúc Giới thiệu vỀ các tập dữ liệu chuẫn được các nhà
nghiên cứu đang sử dụng
Chương 2: Cơ sở lý thuyết
Chương này trình bày lần lượt các phương pháp được sử dụng trong đề tải Đồng
thời cũng nêu lên những yếu điểm của những phương pháp để có thể lựa chọn những
mô hình phù hợp với để tài
Chương 5: Thực nghiệm và đánh giá
Chương này sẽ so sinh các kết quả đạt được khi huẫn luyện mộp hình trên tập
<a liệu đã chọn
Chương 6: Kết luận và hướng phát triển
Tổng kết lại những kết quả đạt được và gì chưa đạt được sau qu trình nghiên
cứu, tiến hành thực nghiệm Tử đó nêu ra những hướng nghiên cứu và phát triển cho
48 ti khắc phục những hạn ch ở hiện tại
Trang 13CHUONG 1 TONG QUAN TINH HINH NGHIEN CCU Con người có rất nhiều cảm xúc và nó có thể được biểu diễn bằng nhiều cách như văn bản, âm thanh, hình ảnh Nhân dạng cảm xúc là quá trình sử đụng các kỳ thuật nhận biết và phân tích cảm xúc từ các biểu hiện của con người
Để xác định được cảm xúc của con người thì về thủ công sẽ cẳn 1 người am
hiểu về tâm lý, giao tiếp để biết suy nghĩ và tương tác với người bị xác định cảm xúc, biết cách quan sát về hành vi, Tuy nhiên, phương pháp này đòi hỏi nhiều thời gian và
nguồn lực vì mỗi lần phải có một người để xác định cảm xúc Đôi với việc xác định cảm xúc của nhiều người, thì việc này sẽ trở nên càng mắt thời gian hơn
“rong bài oán nhận dạng cảm xúc, hai mô hình chính được sử dụng là mô hình học sân (deep leaming) và mô hình học may (machine learning)
Việc nhận dạng cảm xúc bing các thuật toán học máy mang lại kết quả tốt,
sự đề xuất mô hình sử dụng Local
ích đặc
trưng appearance, Landmark detection vi Face alignment dé rút trích đặc trưng
ching hạn như Deepak Ghimirs [1] và các đồ
Binary Patterns (LBP) va Histogram of Oriented Gradients (HOG) để rút seometie, Từ những đặc trưng đó qua mô hinh SVM để phân loại cảm xúc, phương pháp này đại độ chính xác 97.5%: trên bộ dữ liệu CK+
Matawa [2] và các cộng sự đề xuất một phương pháp nhận dạng biểu cảm khuôn mặt sử dụng hai thuật toán học máy là KNN và Decision Tree Phuong pháp này sử dụng các đặc trưng khoảng cách giữa các điểm đánh dẫu trên khuôn mặt để '98.03% khi sử dụng thuật toán KNN và 97,21% khi sử đụng thuật toán Decision Tree trên bộ dữ liệu CK+
‘Tuy nhiên, khi so sánh mô hình học máy và mô hình học sâu thì mô hình học sâu có thể học đặc trưng tự động, học máy thường cần phải xác định và trích xuất các đặc trưng một cách thủ công hoặc sử dụng các phương pháp lựa chọn đặc trưng: mô
"rong khi một mô hình học máy gặp phải một lỗi, hường cần có sự can thiệp của con người: các mô hình đeep leaming thường cho kết quả cao hơn so với các mô hình học máy truyền thống trong các bài toán nhận dạng cảm xúc [314]
"
Trang 14Nhận dạng cảm xúc bằng hình ảnh của con người thông qua mấy tính và các
thuật toán deep leaming có thể giúp theo dõi cảm xúc [5] Matheus Sehmitz [6] để
xuất một mô hình rút trích đặc trưng có Long Short Term Memory (LSTM) cho âm thanh, LSTM cho Video, Fully Connected cho văn bản sử dụng bộ dữ liệu IEMOCAP'
cho F1 đạt 27.04% cho âm thanh, 65.18% cho văn bản, 13.14% cho video
Ozioma Collins Oguine [7] đỀ xuất mô hình phân loại cảm xúc gồm Deep
Convolutional Neural Network (CNN) và du tic Haar Cascade deep learning, mo
Mình phân loại theo thời gian thực và ảnh khuôn mặt được phân loại dựa trên danh mục nhãn, họ huấn luyện trên bộ dữ liệu PER2013 và cho kết quis Accuracy là
0046
Ashish Ramayee Asokan [8] đề xuất mô hình chủ yếu về Bi-direcioml
‘Contextual LSTM cho ca van ban va 4m thanh cho F1 đạt 47.4% cho âm thanh, 53.7%
cho văn bin, Yousif Khaireddin [9] và các đồng sự đề xuất mô hình có sử dụng VGGNet gm 4 tầng convoluional và 4 tang max pooting va 3 ting fully connected,
họ huấn huyện trên bộ dữ liệu PER2013 và cho kết qua Accuracy la 73.28%
“Tuy nhiên hình ảnh tốt yêu cầu camera chất lượng cao để ghỉ lại dẫn đến chỉ
phí thực hiện cao [10], ngoài ra thì việc nhận dạng cảm xúc một phương thức như vậy:
6 thể chính xác nhưng đổi khỉ nhận dạng cảm xúc như vậy thì chỉ đưa ra dẫu hiệu về
bỀ ngoài cho nên giả sử aỉ đồ cổ thể vui bên ngoài như khuôn mặt nhưng có thể trong suy nghĩ bọ buồn) nên sẽ không được chính xác
Vì vậy kết hợp hình ảnh và âm thanh vì âm thanh không chỉ sồm thông tin ngữ nghĩa mà còn có cảm xúc của người ni [I0]
Lợi ích của đa phương thức là vì thông tín của từng đơn phương thức trong đa phương thức có thể bổ sung cho nhan [11] còn đơn phương thức thì không có sự bổ
sung tử phương thức khác
“Tổng quan công trình nghiên cứu
“Trong nhiing nim gin day, mô hình Graph và Transformer đã được dành nhiều
sự quan âm của các nhà nghiên cứu như Abhimav loshi [I2} và ang Li [13] Graph
12
Trang 15diện cho các thực thể (1 phương thức, 1 batch của hình ảnh, ), các cạnh đại điện cho mỗi quan hệ giữa các nút
Abhinav Joshi (12] và các đồng sự đề xuất mô hình COntextualized Graph Neural Network based Multimodal Emotion recognitioN (COGMEN) M6 hinh sử dụng cấu trúc căn bản là Graph Neural Network (GNN) dé m6 hình phụ thuộc phức
IOCAP Mô tạp (thông tin cục bộ và toàn cục) trong cuộc hội thoại của dữ liệu
hình gồm 4 phần, phần 1 là út trích đặc trưng vỀ ngữ cảnh dựa vào Transformer Encode, phần 2 là kết quả của phần 1 được mô hình héa dui dang Relation Graph,
c, phần 4 là soncat các kết quả của phần 3 và qua EullyConnected để phân loại Họ đưa ra được
kết quả state-of-the art (SOTA) với bộ dữ liệu này
phần 3 là dùng GraphTransformer để học đặc trưng cục bộ và toàn cụ
Jiang Li [13] và các đồng sự để xuất mô hình A Graph Network based Multimodal Fusion Techrique (GraphMET) Mô hình tận đụng mạng đồ thị chú ý để
Mô
lưu lạ thông tin ngữ cảnh đơn phương thức và bổ sung thông tin đa phương th ình gồm 4 phẳn, phần 1 là eneode đơn phương thức như video, âm thanh, văn bản,
cho một phương thức để trích xuất các biểu diễn vectơ đại diện từ ín hiệu giọng nói
sao cho biểu diễn chỉ liên quan đến nhận dạng người nói); phẫn 3 là mô hình hóa dữ
liệu đưới đồ thị với mỗi cặp dữ liệu là đồ thị (đồ thị âm thanh và vidso, đồ thi video
và văn bản, đồ thị văn bản và âm thanh) và phần cuối cùng là thực hiện trên Graph: Atenion Network va concat rồi dura qua Fully Connected để dự đoán Mô hình cũng
được kết quả State-O(-The-Art (SOTA) với độ chính xác Accuracy là 67.90% với dữ
liệu IEMOCAP
Ashish Ramayee Asokan [S] và các đồng sự cho biết hầu hết các nghiên cứu
trong lĩnh vực này liên quan đến các kiến trúc mới để cải thiện hiệu suắt cho nhiệm vụ này Họ để xuất mô hình với dỡ liêu đầu vào là âm thanh, văn bản, video Đối với mỗi
dữ liệu đầu vào, họ sử dụng Bi-directional Contextual LSTM để rút trích thông tin độc
lập, sau đổ kết quả đã được rút trích sẽ được concat và dua vio Bi-cirectional
Contextual LSTM 8 rút trích đặc tang đa phương thúc Kết quả của phương php
13
Trang 16video
Matheus Schmitz [6| và các đồng sự khám phá những thành kiến tổn tại trong các hệ thống nhận dạng cảm xúc liên quan đến các phương thức được sử dụng và nghiên cứu cách các phương pháp tiếp cận đa phương thức ảnh hưởng đến sự thiên vị
và tính công bằng của hệ thống Họ xem xét các phương thức âm thanh, văn bản và video Cấu trúc mô hình cơ bản bao gồm bộ trích xuất đặc trưng LSTM cho âm thanh,
LSTM cho Video, Fully Connected cho van ban, Sau 49 ho concat efe két quả đã trích hấp này về Fl đạt 2704 cho âm than, 65.18% cho van bin, 13.14% cho vi
{65.64% cho am thanh va vin ban, 26.76% cho âm thanh và video, 65.1% cho văn bản và video, 65.39% cho âm thanh và văn bản và video trên bộ dữ liệu IEMOCAP “Xuefeng Liang [15] và các đồng sự để xuất phương pháp lý thuyết về Pairwise- emotion Data Distribution Smoothing (PDDS) vì họ nhận t
IEMOCAP không được câ
mô
ly phân phối dữ liệu trong
tạ, và mô hình CLTNet của họ cũng gồm 3 phẳn là:
nh tiền xử lý với việc sử dụng pre-train data2vec để rút trích đặc trưng của âm thanh va pre-train BERT để rút trích đặc trưng của văn bản, sau đó họ dùng PDDS cho
âm thanh và văn bản vì cho rằng việc phân phối dữ liệu cảm xúc phải diỄn ra suôn sẻ
trong thực tế, sau đỏ áp dụng phương pháp làm mịn Gaussian cho các cặp cảm xúc để
xây dưng một tập huắn luyện mới với sự phân bổ mượt mà hơn, tiếp đến mô hình
CLTNet là họ sử dụng 3 khối ConvBloek ID và 1 khối LSTM cho âm thanh rồi
soncat 4 khối dé lại, sử dựng TransformerEncoder va Attention cho vin bin, cudi cùng tác giảconeat đặc trưng của âm thanh và văn bản đưa qua Fully Conneted để dự đoán và đạt được kết quá là WA () với 60 7% và UA (Se) với 58.20:
Dekai Sun [16] va các đồng sự để xuất mô hình pre-tain model Họ sử dung
wav2vee va sau đỏ dùng transformer layer cho rút trích đặc trưng âm thanh, BERT
cho văn bản, Tiếp theo là mỗi phương thức sẽ thực hiện việc cros atention, nghĩa là
với đặc trưng là âm thanh đã rút trích thì họ sẽ thực hign Attention véi Q của âm thanh
can V và K sẽ sử dụng của văn bản, tương tự với đặc trưng là văn bản đã rất rich thi thì họ sẽ thực hiện Áttenton với Q của văn bản còn V và K sẽ sử dụng của âm thanh Chỗi cùng là kết guả của 2 Atention đỏ sẽ được coneat và đưa qua EC rồi thực hiện
4
Trang 17cả đoán Tuy nhiên họ còn thực hiện thêm Aurilary Tasks gm task I vi task 2 Bi với task I thi khi dự đoán họ không chỉ dự đoán trên nhân gốc mà còn tạo ra nhãn mới
ya vào nhăn của âm thanh và văn bản để dự đoán, véi task I này thì tác dụng là không bỏ qua bắt kỳ thông tin phương thức trong quá trình hợp nhất đặc trừng của hai phương thức Còn task 2 thì họ sẽ đáo phương thức (Ví dụ ta có texi_ và audio_T có nhãn là abel_ và text 2 và audio 2 cùng nan label_1 thi tic giả sẽ đảo lạ là text_1 với audio_2 và text_2 với audio 1 cùng nhãn là label_ ]), tác giả hy vọng rằng mạng tổng hợp có thể tập trung vào các đặc điểm của cảm xúc ở các phương thức khác nhau Họ thực hiện trên bộ dữ liệu IEMOCAP với WA(%) là 78.34% và UA(%) là 19.59%
Jiang Li [13] và các cộng sự đã sử dụng GAT (Graph ATtention nehvorks ) như là 1 kỹ thuật để fusion mulli modal Trước đó, lối với đơn phương thức như âm thanh và hình ảnh, họ ding Fully Connected để tổng hợp thông tin, còn với văn bản thì họ sử dụng LSTM để lấy thông tin toàn chuỗi Sau khi đã có thôi tin của đơn phương thức, họ áp dung Graph 48 Fusion cée đụng bộ dữ liệu IEMOCAP với các nhin Ia Happy, Sad, Neutral, Angry, Excited, Frustrated va cho kết quả với Aocuracy là 670% và FI là 68.07%
Trang 182.1 Tiền xử lý văn bản
Chia chị ¡ thành các token: một token có thể là một từ hoặc một ký tự, Quá
trình này giúp chỉa nhỏ văn bản thành các đơn vị nhỏ hơn để đ dàng xử ý Có nhiều
cách để chia chuỗi thành các token: phương pháp dựa trên khoảng trắng (là cách đơn giản nhất, chúng ta chia chuỗi thành các token dựa trên các khoảng trắng), phương
pháp dựa trên dấu phân cách (có thẻ chọn một ký tự hoặc chuỗi ký tự làm dấu phân
cách để chỉa chuỗi), phương pháp dựa tên từ điễn (chúng ta sử dụng một từ điền chứn
các từ và cụm từ để chia chuỗi)
Ảnh xạ các token thành chỉ số: tắt cả các token rong dữ liệu văn bản được ánh
xa thành các chỉ số Có nhiễu cách để chia chuỗi thành chỉ số như là sử dụng bộ từ
vựng bằng cách xây dựng một bộ từ vựng cho các token để ánh xạ chúng thành các
chi số và bộ từ vựng này thường được xây đựng dựa trên tần suất xuất hiện của các token trong toàn bộ ti liệu
Sit dung tokenizer: trong thu vign nhwr Hugging Face Transformers, tokenizer s6 khả năng ánh xạ tùng từ vớ token ma n tạo ra hoặc ánh xạ từng ký tự của văn bản sốc thành chỉ số Giả sử chúng ta có một câu “Hôm nay trời đẹp" Khi chẳng ta sử
dụng tokenizer, câu này có thể được chia thành các token như sau: ["Hôm”, *nay”,
“trời”, “đẹp ”] Mỗi token này sau đó sẽ được ánh xạ thành một chỉ số duy nhắt, ví dụ:
“Hôm 1, “nay” > 2, “toi” > 3, “dep” -> 4 Quá trình này giúp chuyển đổi van bản thành dạng số hóa, giúp máy tính có thể xử lý và hiểu được Các chỉ số này sau đó
có thể được sử dụng để huấn luyện và đưa ra dự đoán trong các mô hình học máy và
học sâu
Biến đổi về chữ thường: Tắt cả các chữ in hoa được chuyỂn thành chữ thường
Đây là cách đơn gián nhưng hiệu quả trong việc tiền xử lý dữ liệu văn bản
'Tách các câu: Từ một đoạn văn bản gồm nhiều câu, thông qua bước này ta thu
Trang 19Loại bỏ các từ với tẫn suất xuất hiện thấp, giả sử chúng ta có 1 bộ dữ liệu, từ nào có tằn suất xuất hiện thơn 1% th ta có thể bô chúng đi 2.2 Transformer
Trangfomer là một kiến trúc mô hình được giới thiệu bởi Vaswani [I7] và
cộng sự trong bài bio “Attention is All You Need” nam 2017 Transformer là một mô
ình học sâu được thiết kể để phục vụ giả quyết nhiễu bài oán trong xử lý ngôn ngữ
và tiếng nói cũng như hình ảnh, ví dụ như bài toán dịch tự động, bài toán sinh ngôn
ngữ, phân loại, nhận dạng thực thể, nhận dạng ng ni chuyển văn bản thành tiẳng nói
Khi so sánh với RNNs, Translommer không xử lý các phần tử trong một chuỗi một cách tuẫn tr Nếu dữ liệu đầu vào là một câu ngôn ngữ tr nhiên Transformer
không cẩn phải xử lý phần đầu câu trước rồi mới tới phần cuỗi câu Do tính năng nảy,
‘Transformer c6 thé tn dung khả năng tính toán song song của GPU và giảm thời gian
xử lý đáng kể
Mô hình Transformer di tao ra một cuộc cách mạng trong lĩnh vực xử lý ngôn neữ tự nhiên (NLP) và đã trở thành cơ sở cho nhiều mô hình sau này như BERT, GPT vats
Hinh 2.1 Chu tric Transformer
17
Trang 20ối chính là Encoder va Decoder
Cia trie Transformer g6m hai k
Encoder nhận đầu vào là chuỗi token và chuyển đổi chúng thành một chuỗi đã được embedding Mỗi token được biểu diễn bằng một vector được embedding, sau đó được cung cắp cho một chuỗi các khỏi mã hóa Mỗi khối mã hóa bao gồm hai lớp là sell-atention vi fully connected neural network
Decoder gm một chuỗi các khối giải mã, mỗi trong Decoder bao gồm ba lớp
là sel-atendon, lớp chú ý giữa bộ mã hóa và bộ giải mã (eneoder-lecoder atention),
và fully connected neural network Decoder nhận đầu vào là chuỗi token đích vi chuỗi biễu diễn vector từ Eneoder , và tạo ra chuỗi token đầu ra
‘Trong tâm của kiến trúc Transformer li cơ chế chú ý (atenon mechanism), cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào khi tạo ra mỗi
token dau ra Cơ chế này giúp mô hình hiểu được ngữ cảnh và mỗi quan hệ giữa các
từ trong một câu, bao gồm 4 phần
Phin 1 1a Position Embedding Self-adenton không phân biệt thứ tự các chữ cưa vào nên tác gid dd thém Position Embedding dé giúp phân biệt vị tí giữa các tử Phần 2 là tạo ra các vector Q, K, V Tạo ra bộ 3 vetơ từ các vectơ đầu vào của eneoder Tại encoder đẫu tiên, vector đầu vào là word embedding của từ Như vậy với mỗi từ ta sẽ có 3 vecto Query, Key và Value, Với mỗi đầu vào là vector xi ta sẽ có 3
ma trận Wo, Wk, Wy tong ting với (Q, K, V) Lay xị nhân với từng ma trận trên
va 3 vector Q,, Ki, Vi trong quá trình huấn luyện 3 vecto này đồng vai trò khác nhau
Và đều quan trọng đối với atenton Khi đã cố Q, K, Vị th ta sẽ tin Score cho tng
ví một bằng cách lấy Q,nhân với từng K, ƒ từ 0 đến n) Đây là phếp toàn th
mức độ ý nghĩa giữa Xi và Xj Khi có Score, ta chia Score với căn bậc 2 với số chiều của Keys Thực hiện Softnax dựa trên giá trị Score vừa chia Tiếp nữa là Softmax
nhân VJ Q từ 0 đến n) để biết được lấy bao nhiêu thông tin Cuỗi cùng là tổng hợp các giá trị Vị vừa rồi có các ừ đồng nghỉ Phin 3 là nh điểm Trong phin tính toán điễm sổ, mỗi từ trong câu được gần
một điểm số dựa trên mức độ liên quan của nó với các từ khác Điểm số này quyết định mức độ tập trung cần thiết cho từ đồ khi tiến hành mã hóa Điểm số được xác định thông qua phép nhân vô hướng giữa vector Query của từ đang được xem xét và
18
Trang 21
41-42, và cứ thể tiếp tục
Đối với việc chuẩn hóa điểm số, theo bài báo gốc, điểm số được chia cho 8 (là căn bậc hai của 64 — kích thước của vector Key), giúp làm ổn định gradient Sau đó, điểm số được chuyển qua hàm softmax để đảm bảo rằng tắt cả các giá trị điểm đều là
số đương và tổng của chúng không vượt quá 1 Khi i qua qua trinh self-attention, git trị Z được cộng với giá trị X ban đầu và sau đó được chuẩn hóa bằng Layer Norm
"Điều này giúp mô hình tránh được hiện tượng bùng nỗ hoặc biển mất của gradient khi trình huấn luyện của mô hình
Phần 4 là thực hiện phép nhân giữa vector Value và các điểm số đã được tính toán trước đỏ, sau đó tổng hợp chúng lại Mục tiêu của quá tình này là giữ lại giá trị thông tin cần thiết
'Với feed forward, vi phin self-attention được dùng để học phụ thuộc xa chit không thé học mỗi quan hệ phi tuyển tính giữa các từ nên Feed Forvard được ding để học mỗi quan hệ phí tuyển tính giữa các từ
Với malúbead atention thì a sẽ có nhiều head gồm Z0, Z1 Z7 khác nhau
⁄¡ sẽ nhân với W0 để điều
chỉnh chiều đầu ra của self-atenon và iúp việc học mồi quan hệ giữa các ừ ốt hơn
dựa vào Wo, We, Wv (ila s6 head ma minh muốn) C¡
‘Trong nghiên cứu nay chút
Swin Transformer 2 Ếp tục sử dụng kiễn trúc Suin Transformer (kiễn trúc này
có thể coi là bản nâng cấp của Vision Transformer,), một kiến trúc Transformer phân
Trang 22atendon trong 1 cũa sổ cục bộ mà sẽ có khả năng tương tác và tính self attention cing
với các patch khác trong Ï cửa sổ mới
A local wind perform self-tention
“Hình 3.2 Mô phỏng cách hoạt động của Shifted Window
Kiến trúc này giúp giải quyết các thách thức khi áp dụng Transformer từ ngôn
ngữ sang thị giác, hư sựbiến đổi lớn về quy mô của các thực th hình ảnh và độ phân
sii cao cia pixel rong bình ảnh so vớ từ ong văn bân [18] Sgin Tranefomner 2 đã được sử dụng trong nhi tác vụ thị giác mấy tính, bao gốm phân loại ình ảnh, phát hiện đổi tượng, phân đoạn thực thé, nhận dạng hành
động video, và học mấy bín giám sắt Hiệ suất của nó đã vượt qua các mô hình trước
(18)
‘Swin Transformer? là một bước tiến quan trọng trong lĩnh vực thị giác máy tính Với
kiến trúc Transiormer phân cấp, phương pháp tiền huần luyện tr giám sắt mới, và khả
năng mô hình hóa ở các quy mô khác nhau, Swin Transformer 2 đã mở ra những khả
Trang 23“rong Stage 1, lop Lincar Embedding bién không gian vector gốc (48 chiều) thành một không gian vector khác có số chiễu là C, sau đỏ được đưa qua mot vai Swin
‘Transformer Block, lúc này số lượng patch Ii H/4 x W/4 Tại các State 2, 3, 4, mỗi
Stage gdm 2 thành phần chính là lớp Patch Merging va một vài Ssin Transformer Block
[Lap Patch Merging s¢ gp 4 patch (4 hing xém 2x2) thinh 1 patch duy nhất
gia số lượng patch nên khi số lượng patch khi đi qua Stage 2 sẽ là H/8 x W/8 và đặc
trưng của I token li 4C chiều Sau đó, các patch sẽ được đưa qua lớp Linear để giảm
sổ chiều thành 2C và iếp tục đưa qua một vải các Sin Transformer Block Tương tự W/32 xáC
‘Two Successive Swin Transformer Blocks W-MSA va SW-MSA la muichead self attention rong Transformer thue hign với chế "cửa sổ thông thường" và "cửa số trượt" Ivơng ứng Dẫu vào của block sẽ được đưa qua Layer norm (LN) sau dé dura qua W-MSA (hoặc SW-MSA) và MLP, xen giữa đồ 06 sir dung skip connection
Trang 24sông âm thanh thô Điểm đặc biệt của Wav2Vec2 là nó được huắn luyện theo phương
pháp tự giám sát, nghĩa là nó có thế học được từ đữ liệu không có nhãn, chỉ từ âm
thanh mà không cần văn bản tương ứng
“Trong quá trình huấn luyện, Wav2Vec2 sẽ che đi một phần của tín hiệu âm
thanh và sau đó cổ gắng dự đoãn phần bị che đồ dựa trên các phần còn lại của tín hiệu Qué tinh này giúp mô hình học được các đặc trưng quan trọng của âm thanh mà Không cần đến sự can thiệp của con người
Wav2Vec2 bao gồm cách thành phần feature_cxưaetor ( có nhiệm vụ giảm chiều dữ liệu âm thanh, chuyển đổi dạng sóng thô thành một chuỗi các vector đặc trưng ), feature_projection (duge sit dụng để tăng số chiễu từ 512 đến 768 đổi với
cách mô hình sử dụng bản Base dựa trên Transformer hoặc 1024 đối với cách mô hình
sử dụng bản Laree đựa trên Transformer) vi encodkr (tương tự như mé hinh BERT)
.để mã hóa nó thành một chuỗi các vector đặc trưng
Sau khi đã được hị
nhăn, Wav2Vee? có thể được tĩnh chỉnh (ino-tune) trên một lượng nhỏ đữ liệu có
Trang 252.8.1 DistiIBERT
DistiIBERT được tác giả Vietor SANH [20] va các công sự giới thiệu vào năm
2020 DistilBERT sử dụng một bộ từ có kích thước 30522 từ Điều này có nghĩa là mô hình được huấn luyện để hiểu và biểu diễn 30522 từ hoặc (oken khác nhau Bộ từ vựng này được sử dụng trong quá trình lokenization, nơi mỗi từ hoặc cụm từ trong
"văn bản đầu vào được chuyển đổi thành một token tương ứng trong bộ tử vựng
‘Véi DistiIBERT, tic giả đã bỏ bớt các khối Encoder nhằm giảm tham số làm
ho mô hình nhẹ hơn Tác giả đã sử dụng kĩ thuật Disillation, tức là dữ liệu đầu vào
sẽ đưa qua mô hình BERT, đồng thời dữ liệu đầu vào cũng sẽ đưa qua mô hình có hiện loss với BERT Quá trình Distillation sé giúp cho DistiIBERT có được những, tham số trong mô hình gần giống BERT nhưng số lượng tham số nhỏ hơn
23
Trang 26tiêu cực bởi các hạn chế của kỹ thuật fusion (kết hợp) đặc trưng của chúng vì đôi có
những vetor gây nhiễu nên khi tổng hợp sẽ làm nhiễu veclor tổng thể
Hơn nữa, trong bài toán này, phương thúc add usion có thể tổng hợp các
veclor mà không cần biết có bao nhiêu vector đầu vào
2.6.2 Concat Fusion
'Coneat Fusion là một phương pháp phổ biến được dùng đẻ kết hợp nhằm tăng
ổ chiều của tắt cả các vector trong lĩnh vite deep leamine, iúp tăng cường khả năng tổng quất hóa toàn bộ vector của các mô hình deep leaming
“uy nhiên, khả năng tổng quất hóa của những mô hình này có th bị ảnh hướng tiêu cực bởi các hạn chế của kỹ thuật usion (kết hợp) đặc trưng của chúng vì chúng sẽ
làm tăng số chiều của việc kết hợp các đặc trưng làm tăng chỉ phí, thời gian huấn
Trang 27văn bản và video Trong đó với văn ban, ho ding EmoBERTa k&t hop véi I ting Fully
Connected va 1 him phi tuyén ính Sofunax ở cuối EmoBERTa va
p theo là Linear Batchnorm ~ Learky Relu ~ Dropout nhu trong dnb,
48 nhjin dạng khuôn mặt mỗi frame va Liy 263 frame Với video có it hon 263 thi ho padding ở những vị trí đầu, còn những video có hơn 263 frame thì họ lấy phin giữa,
video thì họ ding FaceNet tiếp đó họ dùng LSTM (như trong ảnh) đến các khi tiếp theo để có đặc trưng video Đối với âm thanh, họ sử dụng WavL.M để rút tích dữ liệu với dữ liệu âm thanh đã cquả là đã được embedding là timestep = 600 va đặc trưng là 400, kết quả này được
Mang no-ron nhân tạo, ha) còn gọi là NN, đang là một trong những công nghệ
tiên tiến nhất trong lĩnh vực trí tệ nhân tạo với cấu trúc được mô phông theo hệ
Ũ
ng nơ-ron thần ảnh của con người Khi kết hợp với ác phương pháp họ vãu, hay
Deep Learning (DL), NN trở thành công cụ đắc lực, giải quyết hiệu quả các vin dé
phức tạp như phân tích hình ảnh, nhận dạng giọng nói, và xử lý ngôn ngữ tự nhiên Một mạng NN bao gồm nhiều nơron, mỗi nơron được gọi là perceptron, Các
perceptron ny được tổ chức thành nhiều lớp, tạo nên một mang perceptron da ting, hoạt động cùng nhau dé xử lý thông tin
Trang 28input layer
hidden layer
1g perceptron trong mang NN Hinh 28 Cie
Một mạng NN thường được thị đới 3 loại ng chính
‘Ting diu vio (input ayer): La ting ben trấ cùng của mạng th hiện cho các
đầu vào của mạng, là nơi mà các giá trị đầu vào của mạng được cung cấp, ví dụ như
sấc thông số đầu vào của một bức ảnh hoặc các thông tin đầu vào của một mô hình dự của mồ hình
“Tầng ra (output layer): Đây là tầng cuỗi cùng của mô hình, có nhiệm vụ chuyển
đổi kết quả tính toán của mạng thành đầu ra mone muốn Số lượng nơ-ron trong ting đầu tương ứng với số lượng đầu ra của mô hình
‘Ting ấn (hidden layer): La ting nim gi
toán phức tạp của mạng được thực ên, đồng vai trò quan trọng trong việc xử tầng vào và tầng ra, là nơi các tính thông tin và suy luận ogie Các tằng ấn thường được thết kể với các kết nối giữa các
nơ ron để truyền thông tin và tính toán
.Ở mỗi tằng, số lượng các nút mạng (nơ-ron) có thể khác nhau tuỷ thuộc vào bài
toán và cách giải quyết Ngoài ra các tron ở ác tẳng thường được liên kết đội một với nhau tạo thành mạng kết nỗi đầy đủ fully-connected network).
Trang 292.10 Các hàm
2.10.1 Softmax
Hầm softmax được sử dụng trong các mô hình học máy và học sâu để dự đoán xác suất của các lớp đầu ra Kết quả của hàm sofamax có thể được hiễu là ác suất để
một mẫu thuộc về một lớp nhất định, và lớp với xác suất cao nhất thường được chọn
là lớp dự đoán cho mẫu đó Hàm sofamax rất hữu ích trong các bài toán phân loại đa
lớp vì nó cho phép mô hình đưa ra dự đoán cho nhiều lớp cùng một lúc và đảm bảo
ring ting xée suit của tắt cả các lớp là 1, điều này giúp ta có thé dB ding so sánh xác
suất giữa các lớp với nhau
c7:
Đa c7
“Hình 2.9 Công thức tỉnh sofimax
2.10.2 Batchnorm
Batch-Normalization là kỹ thuật tối ưu hóa quá trình huấn luyện cho các mạng
tip qué trình này diễn ra nhanh chóng và mượt mà hơn Phương pháp,
nay bao gồm việc chuẩn hóa các vector của các lớp ẩn dựa trên giá trị trung bình và độ lệch chuẩn của bach đang xét Quá vình chuẩn hóa này có thể được thực hiện trước hoặc sau khi áp dụng hàm kích hoạt phí tuyển
2.10.3 GELU
Hàm GELU, hay Hàm Kích hoạt Gaussian Error Linear Unit, là một hàm kích hoạt được sử dụng trong các mô hình học sâu Hàm GELU được giới thiệu bởi
Hendrycks và Gimpel |26| và các cộng sự và đã được sử dụng rộng
Him GELU có đặc điểm là không chỉ bao gém các tính chất của hầm ReLU (Rectified Linear Unit), md edn o6 kha nang mô phông các hiệu ứng không tuyển tính mạnh mẽ hơn Điều này giúp cải thiện khả năng biểu diễn của mô hình học sâu
27
Trang 30YOLO (You Only Look One) la mét trong những mô hình phát hiện đối tượng
và phân đoạn ảnh được sử dụng rộng rãi nhất trong lĩnh vực trí tuệ nhân tạo Với khả năng xác định đối tượng và phân đoạn ảnh chỉ trong một lần chạy mô hình, YOLO đã đem lại hiệu quả và ti ích ch nhiễu ứng dụng khác nhau
Trước khi YOLO ra đời, các mô hình phân đoạn và phát hiện đối tượng như R-
CNN, Fas-RCNN, Easer:RCNN gồm cổ hai giải đoạn: tích xuất đặc trg và dự
đoán đối tượng Tuy nhiên, YOLO đã đột phá bằng cách kết hợp cả hai giai đoạn
trong một mô hình duy nhất, chỉ cẳn cho ảnh đi qua mô hình duy nhất một lẫn là có
kết quả Điều này giúp giảm thiểu thời gian xử lý và tăng tốc độ đáng kể so với các
mô hình trước đó
“Các ứng dụng của YOLO rit da dạng, bao gồm xe tự lá, an ninh và giám sát, và hình
ảnh y tế Tử khi ra đời, YOLO đã có sức ảnh hưởng lớn đến lĩnh vực trí tuệ nhân tạo
xà trở thành một trong những mô hình phát hiện đổi tượng và phân đoạn ảnh được sử dụng rộng rã nhất
CCác phiên bản YOLO tếp theo đã iên tục được cải tiền và nâng cao hiệu suất
'YOLOv8 [21] là một mô hình phát hiện đối tượng và phân đoạn ảnh mới nhất được
én bai Ulralyties vio năm 2023, YOLOvS được th
3
Trang 31
phát hiện đối tượng, phân đoạn ảnh và phân loại ảnh
Tĩnh lĩnh hoạt và mổ rộng của YOLOxS:
Một điểm đáng chú ý của YOLOx8 là tính mở rộng của nó Nó được thiết kế dưới dạng mot framework hi tr tất cả các phiên bản YOLO trước đó,
cho YOLOv8 trở thành lựa chọn lý tưởng cho các nhà phát triển và người dùng
muốn sử dụng công nghệ YOLO mới nhất mà vẫn có th sử dụng các mô hình YOLO hiện số của họ
YOLOv8 cũng có khả năng phân đoạn ảnh cho phép nó phít hiện và đình vị các đối trợng trong một bức ảnh một cách chỉnh xác hơn Nó sử dụng
các kỹ thuật tân tiến trong việc học sâu, bao gồm cả một mô hình encoder-
decoder và kỹ thuật skip connection để tăng độ chính xác của việc phân loại
Các thuật toán và kỹ thuật được tích hợp trong YOLOv8: Đầu phít hiện không gắn neo mối (anchorfree detection head): cho phép mô hình để đàng phát hiện các đối tượng có kích thước và hình đáng khác nhau mà không cần tim kiém nhiều gắn anchor Điều này giúp tăng hiệu suắt
“của mô hình và giảm thời gian huấn luyện
Hàm mắt mát mới (new loss function); là một công cụ quan trong dé do lường hiệu suất của mô hình Hàm mắt được thiết kế để tối thiểu hóa sự khác,
hình và ải thiện hiệ suất phát hiện đổi tượng Mạng lõi mới sở dụng các lớp
8 phát hiện các đối tượng
Trang 32
Hinh 2.11 Mé hình YOLO củo phân loi, phát hiện đổi tượng, phân đoạn
Véi việc ích hợp các kỹ thuật mới nhất, YOLOv8 cũng có khả năng xử lý các nhiệm vụ phức tạp như phát hiện và phân l sác đổi tượng đa dạng trong một bite
ảnh Điều này làm cho nó trở thành một công cụ lý tưởng cho các ứng dụng trong lĩnh
‘wre gidm sát an ninh, phát hiện dịch bệnh phân tích ảnh y tẾ và nhiều lĩnh vực ứng dụng khác
“Tổng thể, YOLOv8 là một mô hình phát hiện đối tượng và phân đoạn ảnh rắt
mạnh mẽ và cải tiễn so với các phiên bản trước đó Nó đem lại những lợi ích vượt trội
trong hiệu suất tính linh hoạt và khả năng mỡ rộng đấp ứmg tốt các yêu cầu của các
‘img dụng thực tế và nhu cầu của người ding,
'OLOv§ có số lượng tham số quá nhiều, dẫn đến việc nhận dạng tất lâu trong khi chúng tôi chỉ muốn nhận dạng con người vì vậy chúng tôi đề xuất “Tủy nhiên yolovSs để nhận dạng YOLOV5S cho kết quả nhận dạng tốt với người rong bộ dữ liệu IEMOCAP đồng thời với việc có trọng số ít nên việc nhận dạng diễn ra nhanh
hơn,