Mô hình học sâu nhận dạng cảm xúc dựa trên Đa phương thức

“ôi là Nguyễn Quốc Trọng, xin cam đoan luận văn "Mô hình học sâu nhận dạng, cảm xúc đa trên đa phương thức" là công tình nghiên cứu của tôi, được thực hiện nnêu trong luận văn là trung

Trang 1

KHOA CONG NGHE THONG TIN

NGUYEN QUOC TRONG

MO HINH HQC SAU NHAN DANG CAM XUC

DUA TREN ĐA PHƯƠNG THỨC KHÓA LUẬN TÓT NGHIỆP

TP Hỗ Chí Minh ~ Năm 2024

Trang 2

KHOA CÔNG NGHỆ THÔNG TIN

NGUYÊN QUỐC TRỌNG

MÔ HÌNH HỌC SÂU NHẬN DẠNG CẢM XÚC

DỰA TRÊN ĐA PHƯƠNG THỨC CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

KHÓA LUẬN TÓT NGHIỆP

TS Nguyễn Viết Hưng

TP HỖ Chí Minh Năm 2024

Trang 3

“ôi là Nguyễn Quốc Trọng, xin cam đoan luận văn "Mô hình học sâu nhận dạng, cảm xúc đa trên đa phương thức" là công tình nghiên cứu của tôi, được thực hiện nnêu trong luận văn là trung thực và nội đung luận văn không có sự sao chép từ các tài

liệu hay công trình nghiên cứu khác mà không ghỉ rõ nguồn trong phần tà liệu tham

‘Toi xin chịu trách nhiệm về lời cam đoan này

Thành phổ Hỗ Chí Minh, ngày 07 tháng 4 năm 2024

Trang 4

Trước tiên, em xin bày tỏ lòng biết ơn chân thành đến Nguyễn Viết Hưng

và Thể Trần Thanh Nhã hai người thầy tận tâm đã hướng dẫn, hỗ trợ và chỉ bảo em trong suốt quá tình nghiên cứu khóa luận Em cũng muốn gửi lời cảm ơn đến toàn bộ

giảng viên tại Trường Đại học Sư Phạm Thành phố Hồ Chỉ Minh, đã truyền đạt kiến

thức quý giá và tạo điều kiện cho em hoàn thành tốt chương trình học tập Hy vọng những kiến thức này sẽ gip em tiền bước vũng chắc hơn rên con đường sự nghiệp Mặc dù em đã cổ gắng hoàn thành khóa luận của mình trong phạm vỉ khả năng

và hiểu biết của mình, tuy nhiên chắc chắn sẽ không tránh khỏi những thiểu sót Vì

xây, em rất mong nhận được sự thông cảm và hướng dẫn tận nh từ guý thấy cô và các bạn trong việc ải thiện và phát triển khả năng nghiên cấu của mình

“Thành phố Hồ Chí Minh, ngày 09 tháng 4 năm 2024

NGUYEN QUOC TRONG

Trang 5

Lý do chọn đề tài

Mục đích nghiên cứu

Đối tượng và phạm vi nghiên cứu

` nghĩa khoa học thực tiễn

“Cấu trúc luận văn

'CHƯƠNG 1 TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU

“Tổng quan công trình nghiên cứu 'CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Tiên xử lý văn bản

Trang 6

3.1 Phương phíp tích video text, audio

4.1 Phương pháp tiên xử lý dữ liệu 4.11 Tiền xử ý dữ liệu văn bản 4.12 Tiên xử lý video và keypoint

2 Thiết lập thông số cho mô hình 5.3 Thiết lập cách đánh giá mô hình 5.4 Thực nghiệm

5.4.1 Dữ liệu đầu vào gồm text, audio 5.42 Dữ liệu đầu vào gồm text, keypoint video, 5.43 Dữ iệu đầu vào gồm audio, keypoint, video 5.44 Dữ liệu đầu vào gồm keypoint, video, text, audio

5.5 Dánh giá kết quả thực nghiệm

CHUONG 6 KET LUAN VA HUG

TÀI LIỆU THAM KHẢO

Trang 7

ĐANH MỤC HÌNH VỀ

Hình 2.3 Cấu trúc thực hiện SwinTransformer 20

Hình 2:7 Cấu trúc mô hình của Matheus Sehmiuz [6] và các công sự 24

Hình 2.10 Công thức hàm GELU [27] 28

Hình 2,11 Mô hình YOLO cho phân loại, phát hiện đối tượng, phân đoạn 30

Hình 3.3 Mỗi ñle của các cuộc hội thoại bao gồm phan dialog li phn chung ding cho

Hình 3.4 Thư mục dialog gdm avi (video), way (audio), transcriptions (text 33

Hình 4.1 Tổng quan bước làm với phương thúc văn bản 36

Hình 4.9 Cách thực rút trích đặc trưng text = sen

5

Trang 8

Hình 4.11 Cách thực rút trích đặc trưng face, body sequence Hình 4.12 Cách thực rút trích đặc trưng context sequence Hình 4.13 Cách thực rút trích đặc trưng keypoint face, body sequence Hình 4.14 Cách thực rút tạo veetor Mean Fusion

Hình 4.15 Thực hiện embedding véi dit ligu đơn phương thức Hình 4.16 Tao vector Query, Key, Value

Hình 4.17 Thực hiện Cross Atemtion

Hình 4.18 Thực hiện FEN

Hình 4.19 Tổng quan về mô hình thye hign Cross Attemtion Hình 5.1 Mô hình tong lúc huấn luyện với text, audio

Hình 5.2 Confusion Matrix khi lúc suy luận với video, audio

Hình 5.3 Mô hình tong lúc huấn luyện với text, keypoint, video Hình 5.4 Conftslon Matix trong lúc suy luận với keypoint, video, text Hình 5.5 Mô hình tong lúc huấn luyện với audio, keypoint, video

Hình 5.6 Confusion Matrix trong lúc suy luận với keypoint, video, audio Hình 5.7 Mô hình trong lúc huấn luyện và valid với keypoint, video, text, audio Hinh 5.8 Confusion Matrix trong lie suy luận với keypoinf, video, text, audio

DANH MUC BANG

Bảng 1 Théng kê nhãn đã được rút trích

Bảng 2 Kết quả của mô hình với method text và audio

Bang 3 Kết quả của mô hình với method text va audio và keypoint, Bảng 4 Kết quả của mô hình với method audio, keypoint, video Bảng 5 Kết quả của mô hình với method audio, keypoint, video Bảng 6 So sánh kết quả giữa mô hình của chúng tôi và các mô hình khác

Trang 9

Lý do chọn đề tài

“Cảm xúc của con người thể hiện qua biểu hiện khuôn mặt, giọng điệu, cử chỉ, chuyển động cơ thể và tư thể, Một hệ thống có thể nhận dạng tự động cảm xúc của con người bằng cách sử dụng một hoặc nhiễu trong những phương thức

này có thể đồng vai trò quan trọng trong nhiều ứng dụng khác nhau như trồ chơi video, tương tác con người - mấy tính, robot, phần mềm giáo dục, hoạt hình, ăn

toàn ô tô và tính toán ảnh hưởng

Việc phát triển một hệ thông nhận dạng cảm xúc thời gian thực mạnh mẽ

là cần thiết và ứng dụng của nó cần được nghiên cứu một cách kỹ lưỡng Ví dụ,

thiết kế các robot thông mình hơn có khả năng hiểu được cảm xúc của con

lại giá trị vô cùng lớn

“Trong nhận dạng cảm xúc, khuôn mặt của con người biểu hiện nhiễu cảm xúc mà không cần phải nói ra Đồ là một trong những phương tiện mạnh mẽ và

phân tích cám xúc dựa vào hình ảnh là khuôn mặt là một vấn để thú vị và đầy

thách thúc, có ảnh hưởng to lớn đến xã hội Do đó, để tài nghiên cứu về biểu quả khích lệ [1112]

“Các phương pháp nhận dạng cảm xúc có thể được chia thành hai loại

chính: đơn phương và đa phương Phương pháp nhận dạng cảm xúc đơn phương, thức là khi cố gắng xác định tâm trạng của con người bằng cách s dụng một phương thức duy nhất, ví dụ như sử dụng khuôn mặt, văn bản, điện não đủ, lồi phương thức được lựa chọn có thé không phản ánh đúng cảm xúc trong những tình huỗng cụ thể

Mại phương thức đều có ưu điểm và hạn chế riêng của nó Ví dụ, trong điều kiện ánh sáng yếu, âm thanh có thể hoạt động tốt hơn video, trong khi văn

7

Trang 10

bản đôi khi có th tốt hơn âm thanh để dự đoán tâm trang

Ngoài việc sử dụng đơn phương thức trên một nguồn dữ iệu (kênh) duy

t nhiều nghiên cứu đã kết hợp các đặc trung của nhiễu bộ dữ lệ n cao hiệu suất của mô hình nhận điện

“Các công trình nghiên cứu trước cũng đã chỉ ra rằng việc chỉ dựa vào một phương thức duy nhất đạt hiệu xuất thấp hơn việc sử dụng kết hợp nhiều phương thức [3| I4| Bằng cách học nhiều nguồn thông tin khác nhau giúp mô hình có khả năng hiểu và phân tích dờ liệu một cách toàn diện hơn

S Yoon và công sự [5] đã sử dụng đồng thời hai loại dữ liệu văn bản và

âm thanh Kiến trúc mô hình có thé phân tích va xử lý được dữ liệu giọng nói ở cấp độ tín hiệu đến cấp độ ngôn ngữ Từ đó sử dụng thông tin của giọng nói một

cách toàn điện hơn so với việc chỉ dùng các đặc trưng âm thanh đơn thuần

Ngoài ra, còn có các phương pháp kết hợp các loại dữ liệu như sử dụng biểu hiện trên khuôn mặt kết hợp với tính hiệu não và các đặc trưng sinh lý đẻ phát hiện cảm xúc một cách đáng tin cậy hơn [6] [7] Trong nghiên cứu [8] tác cdữ liệu Tác giả cũng đã so sánh việc kết hợp bộ dữ liệu đơn chỉ có video và dữ

liệu kết hợp đã cho thấy hiệu xuất tốt hơn

"Từ những lý luận trên, cho thấy tằm quan trọng và tính cắp thiết của việc

nghiên cứu về cảm xúc với nhiều phương thức Vì vậy, nghiên cứu này nhằm

phát triển mô hình nhận diện cảm xúc với sự hỗ trợ của nhiều phương thức khác

nhau để nâng cao khả năng nhận dạng cảm xúc

Trang 11

thức chính là văn bản trích xuất từ âm thanh, giọng nói, hình ảnh trên bộ dữ liệu IEMOCAP

“Thực nghiệm và đánh giá mô hình trên bộ dữ liệu IEMOCAP

Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết

~ Tìm hiểu tổng quan các công trình nghiên cứu về đa phương thức

- Nghiên cứu cơ sở lý thuyếtliên quan đến để ti

- Nghiên cứu kỹ thuật xử lý dữ liệu

- Nghiên cứu thiết kế mô hình

~ Đề xuất hướng phát iển tong tương ai

Phương pháp nghiên cứu thực nghiệm:

- Tiên hành xây dựng mồ hình

~ Đánh giá và so sánh kết quá đạt được

Ý nghĩa khoa học thực tiến

Đề di Mô hình học sâu nhận đạng cảm xúc dựa trên đa phương thức”

là một phần của bài oán nhận điện cảm xúc con người Một lĩnh vực iên quan đến tr tuệ nhân tạo, tâm lý học VỀ mặt thực tiễn những mô hình nhận diễn cảm xúc truyền

thống thương chỉ tập trung vào một đặc trưng Trong nghiên cứu nảy giúp tìm hiểu

sâu hơn về cách thức dữ liệu không gian ảnh hướng đến cảm xc con người, Bên cạnh

đó là phát triển các mô hình vẻ AI có khả năng nhận diện và thấu hiểu cảm xúc của

son người tốt hơn

“Cấu trúc luận văn

Dựa vào mục tiêu đã được trình bảy, nội dung của luận văn được ch thành các phần như sau:

Trang 12

“Chương 1: Tổng quan về tình hình nghiên cứu

Chương này sẽ giới thiệu về tổng quan các công trình nghiên cứu trong lĩnh vực

giải

nhận điện cảm xúc ở con người Trình bảy các nghiên cứu đã được áp dụng quyết bài toán nhân diện cảm xúc Giới thiệu vỀ các tập dữ liệu chuẫn được các nhà

nghiên cứu đang sử dụng

Chương 2: Cơ sở lý thuyết

Chương này trình bày lần lượt các phương pháp được sử dụng trong đề tải Đồng

thời cũng nêu lên những yếu điểm của những phương pháp để có thể lựa chọn những

mô hình phù hợp với để tài

Chương 5: Thực nghiệm và đánh giá

Chương này sẽ so sinh các kết quả đạt được khi huẫn luyện mộp hình trên tập

<a liệu đã chọn

Chương 6: Kết luận và hướng phát triển

Tổng kết lại những kết quả đạt được và gì chưa đạt được sau qu trình nghiên

cứu, tiến hành thực nghiệm Tử đó nêu ra những hướng nghiên cứu và phát triển cho

48 ti khắc phục những hạn ch ở hiện tại

Trang 13

CHUONG 1 TONG QUAN TINH HINH NGHIEN CCU Con người có rất nhiều cảm xúc và nó có thể được biểu diễn bằng nhiều cách như văn bản, âm thanh, hình ảnh Nhân dạng cảm xúc là quá trình sử đụng các kỳ thuật nhận biết và phân tích cảm xúc từ các biểu hiện của con người

Để xác định được cảm xúc của con người thì về thủ công sẽ cẳn 1 người am

hiểu về tâm lý, giao tiếp để biết suy nghĩ và tương tác với người bị xác định cảm xúc, biết cách quan sát về hành vi, Tuy nhiên, phương pháp này đòi hỏi nhiều thời gian và

nguồn lực vì mỗi lần phải có một người để xác định cảm xúc Đôi với việc xác định cảm xúc của nhiều người, thì việc này sẽ trở nên càng mắt thời gian hơn

“rong bài oán nhận dạng cảm xúc, hai mô hình chính được sử dụng là mô hình học sân (deep leaming) và mô hình học may (machine learning)

Việc nhận dạng cảm xúc bing các thuật toán học máy mang lại kết quả tốt,

sự đề xuất mô hình sử dụng Local

ích đặc

trưng appearance, Landmark detection vi Face alignment dé rút trích đặc trưng

ching hạn như Deepak Ghimirs [1] và các đồ

Binary Patterns (LBP) va Histogram of Oriented Gradients (HOG) để rút seometie, Từ những đặc trưng đó qua mô hinh SVM để phân loại cảm xúc, phương pháp này đại độ chính xác 97.5%: trên bộ dữ liệu CK+

Matawa [2] và các cộng sự đề xuất một phương pháp nhận dạng biểu cảm khuôn mặt sử dụng hai thuật toán học máy là KNN và Decision Tree Phuong pháp này sử dụng các đặc trưng khoảng cách giữa các điểm đánh dẫu trên khuôn mặt để '98.03% khi sử dụng thuật toán KNN và 97,21% khi sử đụng thuật toán Decision Tree trên bộ dữ liệu CK+

‘Tuy nhiên, khi so sánh mô hình học máy và mô hình học sâu thì mô hình học sâu có thể học đặc trưng tự động, học máy thường cần phải xác định và trích xuất các đặc trưng một cách thủ công hoặc sử dụng các phương pháp lựa chọn đặc trưng: mô

"rong khi một mô hình học máy gặp phải một lỗi, hường cần có sự can thiệp của con người: các mô hình đeep leaming thường cho kết quả cao hơn so với các mô hình học máy truyền thống trong các bài toán nhận dạng cảm xúc [314]

"

Trang 14

Nhận dạng cảm xúc bằng hình ảnh của con người thông qua mấy tính và các

thuật toán deep leaming có thể giúp theo dõi cảm xúc [5] Matheus Sehmitz [6] để

xuất một mô hình rút trích đặc trưng có Long Short Term Memory (LSTM) cho âm thanh, LSTM cho Video, Fully Connected cho văn bản sử dụng bộ dữ liệu IEMOCAP'

cho F1 đạt 27.04% cho âm thanh, 65.18% cho văn bản, 13.14% cho video

Ozioma Collins Oguine [7] đỀ xuất mô hình phân loại cảm xúc gồm Deep

Convolutional Neural Network (CNN) và du tic Haar Cascade deep learning, mo

Mình phân loại theo thời gian thực và ảnh khuôn mặt được phân loại dựa trên danh mục nhãn, họ huấn luyện trên bộ dữ liệu PER2013 và cho kết quis Accuracy là

0046

Ashish Ramayee Asokan [8] đề xuất mô hình chủ yếu về Bi-direcioml

‘Contextual LSTM cho ca van ban va 4m thanh cho F1 đạt 47.4% cho âm thanh, 53.7%

cho văn bin, Yousif Khaireddin [9] và các đồng sự đề xuất mô hình có sử dụng VGGNet gm 4 tầng convoluional và 4 tang max pooting va 3 ting fully connected,

họ huấn huyện trên bộ dữ liệu PER2013 và cho kết qua Accuracy la 73.28%

“Tuy nhiên hình ảnh tốt yêu cầu camera chất lượng cao để ghỉ lại dẫn đến chỉ

phí thực hiện cao [10], ngoài ra thì việc nhận dạng cảm xúc một phương thức như vậy:

6 thể chính xác nhưng đổi khỉ nhận dạng cảm xúc như vậy thì chỉ đưa ra dẫu hiệu về

bỀ ngoài cho nên giả sử aỉ đồ cổ thể vui bên ngoài như khuôn mặt nhưng có thể trong suy nghĩ bọ buồn) nên sẽ không được chính xác

Vì vậy kết hợp hình ảnh và âm thanh vì âm thanh không chỉ sồm thông tin ngữ nghĩa mà còn có cảm xúc của người ni [I0]

Lợi ích của đa phương thức là vì thông tín của từng đơn phương thức trong đa phương thức có thể bổ sung cho nhan [11] còn đơn phương thức thì không có sự bổ

sung tử phương thức khác

“Tổng quan công trình nghiên cứu

“Trong nhiing nim gin day, mô hình Graph và Transformer đã được dành nhiều

sự quan âm của các nhà nghiên cứu như Abhimav loshi [I2} và ang Li [13] Graph

12

Trang 15

diện cho các thực thể (1 phương thức, 1 batch của hình ảnh, ), các cạnh đại điện cho mỗi quan hệ giữa các nút

Abhinav Joshi (12] và các đồng sự đề xuất mô hình COntextualized Graph Neural Network based Multimodal Emotion recognitioN (COGMEN) M6 hinh sử dụng cấu trúc căn bản là Graph Neural Network (GNN) dé m6 hình phụ thuộc phức

IOCAP Mô tạp (thông tin cục bộ và toàn cục) trong cuộc hội thoại của dữ liệu

hình gồm 4 phần, phần 1 là út trích đặc trưng vỀ ngữ cảnh dựa vào Transformer Encode, phần 2 là kết quả của phần 1 được mô hình héa dui dang Relation Graph,

c, phần 4 là soncat các kết quả của phần 3 và qua EullyConnected để phân loại Họ đưa ra được

kết quả state-of-the art (SOTA) với bộ dữ liệu này

phần 3 là dùng GraphTransformer để học đặc trưng cục bộ và toàn cụ

Jiang Li [13] và các đồng sự để xuất mô hình A Graph Network based Multimodal Fusion Techrique (GraphMET) Mô hình tận đụng mạng đồ thị chú ý để

Mô

lưu lạ thông tin ngữ cảnh đơn phương thức và bổ sung thông tin đa phương th ình gồm 4 phẳn, phần 1 là eneode đơn phương thức như video, âm thanh, văn bản,

cho một phương thức để trích xuất các biểu diễn vectơ đại diện từ ín hiệu giọng nói

sao cho biểu diễn chỉ liên quan đến nhận dạng người nói); phẫn 3 là mô hình hóa dữ

liệu đưới đồ thị với mỗi cặp dữ liệu là đồ thị (đồ thị âm thanh và vidso, đồ thi video

và văn bản, đồ thị văn bản và âm thanh) và phần cuối cùng là thực hiện trên Graph: Atenion Network va concat rồi dura qua Fully Connected để dự đoán Mô hình cũng

được kết quả State-O(-The-Art (SOTA) với độ chính xác Accuracy là 67.90% với dữ

liệu IEMOCAP

Ashish Ramayee Asokan [S] và các đồng sự cho biết hầu hết các nghiên cứu

trong lĩnh vực này liên quan đến các kiến trúc mới để cải thiện hiệu suắt cho nhiệm vụ này Họ để xuất mô hình với dỡ liêu đầu vào là âm thanh, văn bản, video Đối với mỗi

dữ liệu đầu vào, họ sử dụng Bi-directional Contextual LSTM để rút trích thông tin độc

lập, sau đổ kết quả đã được rút trích sẽ được concat và dua vio Bi-cirectional

Contextual LSTM 8 rút trích đặc tang đa phương thúc Kết quả của phương php

13

Trang 16

video

Matheus Schmitz [6| và các đồng sự khám phá những thành kiến tổn tại trong các hệ thống nhận dạng cảm xúc liên quan đến các phương thức được sử dụng và nghiên cứu cách các phương pháp tiếp cận đa phương thức ảnh hưởng đến sự thiên vị

và tính công bằng của hệ thống Họ xem xét các phương thức âm thanh, văn bản và video Cấu trúc mô hình cơ bản bao gồm bộ trích xuất đặc trưng LSTM cho âm thanh,

LSTM cho Video, Fully Connected cho van ban, Sau 49 ho concat efe két quả đã trích hấp này về Fl đạt 2704 cho âm than, 65.18% cho van bin, 13.14% cho vi

{65.64% cho am thanh va vin ban, 26.76% cho âm thanh và video, 65.1% cho văn bản và video, 65.39% cho âm thanh và văn bản và video trên bộ dữ liệu IEMOCAP “Xuefeng Liang [15] và các đồng sự để xuất phương pháp lý thuyết về Pairwise- emotion Data Distribution Smoothing (PDDS) vì họ nhận t

IEMOCAP không được câ

mô

ly phân phối dữ liệu trong

tạ, và mô hình CLTNet của họ cũng gồm 3 phẳn là:

nh tiền xử lý với việc sử dụng pre-train data2vec để rút trích đặc trưng của âm thanh va pre-train BERT để rút trích đặc trưng của văn bản, sau đó họ dùng PDDS cho

âm thanh và văn bản vì cho rằng việc phân phối dữ liệu cảm xúc phải diỄn ra suôn sẻ

trong thực tế, sau đỏ áp dụng phương pháp làm mịn Gaussian cho các cặp cảm xúc để

xây dưng một tập huắn luyện mới với sự phân bổ mượt mà hơn, tiếp đến mô hình

CLTNet là họ sử dụng 3 khối ConvBloek ID và 1 khối LSTM cho âm thanh rồi

soncat 4 khối dé lại, sử dựng TransformerEncoder va Attention cho vin bin, cudi cùng tác giảconeat đặc trưng của âm thanh và văn bản đưa qua Fully Conneted để dự đoán và đạt được kết quá là WA () với 60 7% và UA (Se) với 58.20:

Dekai Sun [16] va các đồng sự để xuất mô hình pre-tain model Họ sử dung

wav2vee va sau đỏ dùng transformer layer cho rút trích đặc trưng âm thanh, BERT

cho văn bản, Tiếp theo là mỗi phương thức sẽ thực hiện việc cros atention, nghĩa là

với đặc trưng là âm thanh đã rút trích thì họ sẽ thực hign Attention véi Q của âm thanh

can V và K sẽ sử dụng của văn bản, tương tự với đặc trưng là văn bản đã rất rich thi thì họ sẽ thực hiện Áttenton với Q của văn bản còn V và K sẽ sử dụng của âm thanh Chỗi cùng là kết guả của 2 Atention đỏ sẽ được coneat và đưa qua EC rồi thực hiện

4

Trang 17

cả đoán Tuy nhiên họ còn thực hiện thêm Aurilary Tasks gm task I vi task 2 Bi với task I thi khi dự đoán họ không chỉ dự đoán trên nhân gốc mà còn tạo ra nhãn mới

ya vào nhăn của âm thanh và văn bản để dự đoán, véi task I này thì tác dụng là không bỏ qua bắt kỳ thông tin phương thức trong quá trình hợp nhất đặc trừng của hai phương thức Còn task 2 thì họ sẽ đáo phương thức (Ví dụ ta có texi_ và audio_T có nhãn là abel_ và text 2 và audio 2 cùng nan label_1 thi tic giả sẽ đảo lạ là text_1 với audio_2 và text_2 với audio 1 cùng nhãn là label_ ]), tác giả hy vọng rằng mạng tổng hợp có thể tập trung vào các đặc điểm của cảm xúc ở các phương thức khác nhau Họ thực hiện trên bộ dữ liệu IEMOCAP với WA(%) là 78.34% và UA(%) là 19.59%

Jiang Li [13] và các cộng sự đã sử dụng GAT (Graph ATtention nehvorks ) như là 1 kỹ thuật để fusion mulli modal Trước đó, lối với đơn phương thức như âm thanh và hình ảnh, họ ding Fully Connected để tổng hợp thông tin, còn với văn bản thì họ sử dụng LSTM để lấy thông tin toàn chuỗi Sau khi đã có thôi tin của đơn phương thức, họ áp dung Graph 48 Fusion cée đụng bộ dữ liệu IEMOCAP với các nhin Ia Happy, Sad, Neutral, Angry, Excited, Frustrated va cho kết quả với Aocuracy là 670% và FI là 68.07%

Trang 18

2.1 Tiền xử lý văn bản

Chia chị ¡ thành các token: một token có thể là một từ hoặc một ký tự, Quá

trình này giúp chỉa nhỏ văn bản thành các đơn vị nhỏ hơn để đ dàng xử ý Có nhiều

cách để chia chuỗi thành các token: phương pháp dựa trên khoảng trắng (là cách đơn giản nhất, chúng ta chia chuỗi thành các token dựa trên các khoảng trắng), phương

pháp dựa trên dấu phân cách (có thẻ chọn một ký tự hoặc chuỗi ký tự làm dấu phân

cách để chỉa chuỗi), phương pháp dựa tên từ điễn (chúng ta sử dụng một từ điền chứn

các từ và cụm từ để chia chuỗi)

Ảnh xạ các token thành chỉ số: tắt cả các token rong dữ liệu văn bản được ánh

xa thành các chỉ số Có nhiễu cách để chia chuỗi thành chỉ số như là sử dụng bộ từ

vựng bằng cách xây dựng một bộ từ vựng cho các token để ánh xạ chúng thành các

chi số và bộ từ vựng này thường được xây đựng dựa trên tần suất xuất hiện của các token trong toàn bộ ti liệu

Sit dung tokenizer: trong thu vign nhwr Hugging Face Transformers, tokenizer s6 khả năng ánh xạ tùng từ vớ token ma n tạo ra hoặc ánh xạ từng ký tự của văn bản sốc thành chỉ số Giả sử chúng ta có một câu “Hôm nay trời đẹp" Khi chẳng ta sử

dụng tokenizer, câu này có thể được chia thành các token như sau: ["Hôm”, *nay”,

“trời”, “đẹp ”] Mỗi token này sau đó sẽ được ánh xạ thành một chỉ số duy nhắt, ví dụ:

“Hôm 1, “nay” > 2, “toi” > 3, “dep” -> 4 Quá trình này giúp chuyển đổi van bản thành dạng số hóa, giúp máy tính có thể xử lý và hiểu được Các chỉ số này sau đó

có thể được sử dụng để huấn luyện và đưa ra dự đoán trong các mô hình học máy và

học sâu

Biến đổi về chữ thường: Tắt cả các chữ in hoa được chuyỂn thành chữ thường

Đây là cách đơn gián nhưng hiệu quả trong việc tiền xử lý dữ liệu văn bản

'Tách các câu: Từ một đoạn văn bản gồm nhiều câu, thông qua bước này ta thu

Trang 19

Loại bỏ các từ với tẫn suất xuất hiện thấp, giả sử chúng ta có 1 bộ dữ liệu, từ nào có tằn suất xuất hiện thơn 1% th ta có thể bô chúng đi 2.2 Transformer

Trangfomer là một kiến trúc mô hình được giới thiệu bởi Vaswani [I7] và

cộng sự trong bài bio “Attention is All You Need” nam 2017 Transformer là một mô

ình học sâu được thiết kể để phục vụ giả quyết nhiễu bài oán trong xử lý ngôn ngữ

và tiếng nói cũng như hình ảnh, ví dụ như bài toán dịch tự động, bài toán sinh ngôn

ngữ, phân loại, nhận dạng thực thể, nhận dạng ng ni chuyển văn bản thành tiẳng nói

Khi so sánh với RNNs, Translommer không xử lý các phần tử trong một chuỗi một cách tuẫn tr Nếu dữ liệu đầu vào là một câu ngôn ngữ tr nhiên Transformer

không cẩn phải xử lý phần đầu câu trước rồi mới tới phần cuỗi câu Do tính năng nảy,

‘Transformer c6 thé tn dung khả năng tính toán song song của GPU và giảm thời gian

xử lý đáng kể

Mô hình Transformer di tao ra một cuộc cách mạng trong lĩnh vực xử lý ngôn neữ tự nhiên (NLP) và đã trở thành cơ sở cho nhiều mô hình sau này như BERT, GPT vats

Hinh 2.1 Chu tric Transformer

17

Trang 20

ối chính là Encoder va Decoder

Cia trie Transformer g6m hai k

Encoder nhận đầu vào là chuỗi token và chuyển đổi chúng thành một chuỗi đã được embedding Mỗi token được biểu diễn bằng một vector được embedding, sau đó được cung cắp cho một chuỗi các khỏi mã hóa Mỗi khối mã hóa bao gồm hai lớp là sell-atention vi fully connected neural network

Decoder gm một chuỗi các khối giải mã, mỗi trong Decoder bao gồm ba lớp

là sel-atendon, lớp chú ý giữa bộ mã hóa và bộ giải mã (eneoder-lecoder atention),

và fully connected neural network Decoder nhận đầu vào là chuỗi token đích vi chuỗi biễu diễn vector từ Eneoder , và tạo ra chuỗi token đầu ra

‘Trong tâm của kiến trúc Transformer li cơ chế chú ý (atenon mechanism), cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào khi tạo ra mỗi

token dau ra Cơ chế này giúp mô hình hiểu được ngữ cảnh và mỗi quan hệ giữa các

từ trong một câu, bao gồm 4 phần

Phin 1 1a Position Embedding Self-adenton không phân biệt thứ tự các chữ cưa vào nên tác gid dd thém Position Embedding dé giúp phân biệt vị tí giữa các tử Phần 2 là tạo ra các vector Q, K, V Tạo ra bộ 3 vetơ từ các vectơ đầu vào của eneoder Tại encoder đẫu tiên, vector đầu vào là word embedding của từ Như vậy với mỗi từ ta sẽ có 3 vecto Query, Key và Value, Với mỗi đầu vào là vector xi ta sẽ có 3

ma trận Wo, Wk, Wy tong ting với (Q, K, V) Lay xị nhân với từng ma trận trên

va 3 vector Q,, Ki, Vi trong quá trình huấn luyện 3 vecto này đồng vai trò khác nhau

Và đều quan trọng đối với atenton Khi đã cố Q, K, Vị th ta sẽ tin Score cho tng

ví một bằng cách lấy Q,nhân với từng K, ƒ từ 0 đến n) Đây là phếp toàn th

mức độ ý nghĩa giữa Xi và Xj Khi có Score, ta chia Score với căn bậc 2 với số chiều của Keys Thực hiện Softnax dựa trên giá trị Score vừa chia Tiếp nữa là Softmax

nhân VJ Q từ 0 đến n) để biết được lấy bao nhiêu thông tin Cuỗi cùng là tổng hợp các giá trị Vị vừa rồi có các ừ đồng nghỉ Phin 3 là nh điểm Trong phin tính toán điễm sổ, mỗi từ trong câu được gần

một điểm số dựa trên mức độ liên quan của nó với các từ khác Điểm số này quyết định mức độ tập trung cần thiết cho từ đồ khi tiến hành mã hóa Điểm số được xác định thông qua phép nhân vô hướng giữa vector Query của từ đang được xem xét và

18

Trang 21

41-42, và cứ thể tiếp tục

Đối với việc chuẩn hóa điểm số, theo bài báo gốc, điểm số được chia cho 8 (là căn bậc hai của 64 — kích thước của vector Key), giúp làm ổn định gradient Sau đó, điểm số được chuyển qua hàm softmax để đảm bảo rằng tắt cả các giá trị điểm đều là

số đương và tổng của chúng không vượt quá 1 Khi i qua qua trinh self-attention, git trị Z được cộng với giá trị X ban đầu và sau đó được chuẩn hóa bằng Layer Norm

"Điều này giúp mô hình tránh được hiện tượng bùng nỗ hoặc biển mất của gradient khi trình huấn luyện của mô hình

Phần 4 là thực hiện phép nhân giữa vector Value và các điểm số đã được tính toán trước đỏ, sau đó tổng hợp chúng lại Mục tiêu của quá tình này là giữ lại giá trị thông tin cần thiết

'Với feed forward, vi phin self-attention được dùng để học phụ thuộc xa chit không thé học mỗi quan hệ phi tuyển tính giữa các từ nên Feed Forvard được ding để học mỗi quan hệ phí tuyển tính giữa các từ

Với malúbead atention thì a sẽ có nhiều head gồm Z0, Z1 Z7 khác nhau

⁄¡ sẽ nhân với W0 để điều

chỉnh chiều đầu ra của self-atenon và iúp việc học mồi quan hệ giữa các ừ ốt hơn

dựa vào Wo, We, Wv (ila s6 head ma minh muốn) C¡

‘Trong nghiên cứu nay chút

Swin Transformer 2 Ếp tục sử dụng kiễn trúc Suin Transformer (kiễn trúc này

có thể coi là bản nâng cấp của Vision Transformer,), một kiến trúc Transformer phân

Trang 22

atendon trong 1 cũa sổ cục bộ mà sẽ có khả năng tương tác và tính self attention cing

với các patch khác trong Ï cửa sổ mới

A local wind perform self-tention

“Hình 3.2 Mô phỏng cách hoạt động của Shifted Window

Kiến trúc này giúp giải quyết các thách thức khi áp dụng Transformer từ ngôn

ngữ sang thị giác, hư sựbiến đổi lớn về quy mô của các thực th hình ảnh và độ phân

sii cao cia pixel rong bình ảnh so vớ từ ong văn bân [18] Sgin Tranefomner 2 đã được sử dụng trong nhi tác vụ thị giác mấy tính, bao gốm phân loại ình ảnh, phát hiện đổi tượng, phân đoạn thực thé, nhận dạng hành

động video, và học mấy bín giám sắt Hiệ suất của nó đã vượt qua các mô hình trước

(18)

‘Swin Transformer? là một bước tiến quan trọng trong lĩnh vực thị giác máy tính Với

kiến trúc Transiormer phân cấp, phương pháp tiền huần luyện tr giám sắt mới, và khả

năng mô hình hóa ở các quy mô khác nhau, Swin Transformer 2 đã mở ra những khả

Trang 23

“rong Stage 1, lop Lincar Embedding bién không gian vector gốc (48 chiều) thành một không gian vector khác có số chiễu là C, sau đỏ được đưa qua mot vai Swin

‘Transformer Block, lúc này số lượng patch Ii H/4 x W/4 Tại các State 2, 3, 4, mỗi

Stage gdm 2 thành phần chính là lớp Patch Merging va một vài Ssin Transformer Block

[Lap Patch Merging s¢ gp 4 patch (4 hing xém 2x2) thinh 1 patch duy nhất

gia số lượng patch nên khi số lượng patch khi đi qua Stage 2 sẽ là H/8 x W/8 và đặc

trưng của I token li 4C chiều Sau đó, các patch sẽ được đưa qua lớp Linear để giảm

sổ chiều thành 2C và iếp tục đưa qua một vải các Sin Transformer Block Tương tự W/32 xáC

‘Two Successive Swin Transformer Blocks W-MSA va SW-MSA la muichead self attention rong Transformer thue hign với chế "cửa sổ thông thường" và "cửa số trượt" Ivơng ứng Dẫu vào của block sẽ được đưa qua Layer norm (LN) sau dé dura qua W-MSA (hoặc SW-MSA) và MLP, xen giữa đồ 06 sir dung skip connection

Trang 24

sông âm thanh thô Điểm đặc biệt của Wav2Vec2 là nó được huắn luyện theo phương

pháp tự giám sát, nghĩa là nó có thế học được từ đữ liệu không có nhãn, chỉ từ âm

thanh mà không cần văn bản tương ứng

“Trong quá trình huấn luyện, Wav2Vec2 sẽ che đi một phần của tín hiệu âm

thanh và sau đó cổ gắng dự đoãn phần bị che đồ dựa trên các phần còn lại của tín hiệu Qué tinh này giúp mô hình học được các đặc trưng quan trọng của âm thanh mà Không cần đến sự can thiệp của con người

Wav2Vec2 bao gồm cách thành phần feature_cxưaetor ( có nhiệm vụ giảm chiều dữ liệu âm thanh, chuyển đổi dạng sóng thô thành một chuỗi các vector đặc trưng ), feature_projection (duge sit dụng để tăng số chiễu từ 512 đến 768 đổi với

cách mô hình sử dụng bản Base dựa trên Transformer hoặc 1024 đối với cách mô hình

sử dụng bản Laree đựa trên Transformer) vi encodkr (tương tự như mé hinh BERT)

.để mã hóa nó thành một chuỗi các vector đặc trưng

Sau khi đã được hị

nhăn, Wav2Vee? có thể được tĩnh chỉnh (ino-tune) trên một lượng nhỏ đữ liệu có

Trang 25

2.8.1 DistiIBERT

DistiIBERT được tác giả Vietor SANH [20] va các công sự giới thiệu vào năm

2020 DistilBERT sử dụng một bộ từ có kích thước 30522 từ Điều này có nghĩa là mô hình được huấn luyện để hiểu và biểu diễn 30522 từ hoặc (oken khác nhau Bộ từ vựng này được sử dụng trong quá trình lokenization, nơi mỗi từ hoặc cụm từ trong

"văn bản đầu vào được chuyển đổi thành một token tương ứng trong bộ tử vựng

‘Véi DistiIBERT, tic giả đã bỏ bớt các khối Encoder nhằm giảm tham số làm

ho mô hình nhẹ hơn Tác giả đã sử dụng kĩ thuật Disillation, tức là dữ liệu đầu vào

sẽ đưa qua mô hình BERT, đồng thời dữ liệu đầu vào cũng sẽ đưa qua mô hình có hiện loss với BERT Quá trình Distillation sé giúp cho DistiIBERT có được những, tham số trong mô hình gần giống BERT nhưng số lượng tham số nhỏ hơn

23

Trang 26

tiêu cực bởi các hạn chế của kỹ thuật fusion (kết hợp) đặc trưng của chúng vì đôi có

những vetor gây nhiễu nên khi tổng hợp sẽ làm nhiễu veclor tổng thể

Hơn nữa, trong bài toán này, phương thúc add usion có thể tổng hợp các

veclor mà không cần biết có bao nhiêu vector đầu vào

2.6.2 Concat Fusion

'Coneat Fusion là một phương pháp phổ biến được dùng đẻ kết hợp nhằm tăng

ổ chiều của tắt cả các vector trong lĩnh vite deep leamine, iúp tăng cường khả năng tổng quất hóa toàn bộ vector của các mô hình deep leaming

“uy nhiên, khả năng tổng quất hóa của những mô hình này có th bị ảnh hướng tiêu cực bởi các hạn chế của kỹ thuật usion (kết hợp) đặc trưng của chúng vì chúng sẽ

làm tăng số chiều của việc kết hợp các đặc trưng làm tăng chỉ phí, thời gian huấn

Trang 27

văn bản và video Trong đó với văn ban, ho ding EmoBERTa k&t hop véi I ting Fully

Connected va 1 him phi tuyén ính Sofunax ở cuối EmoBERTa va

p theo là Linear Batchnorm ~ Learky Relu ~ Dropout nhu trong dnb,

48 nhjin dạng khuôn mặt mỗi frame va Liy 263 frame Với video có it hon 263 thi ho padding ở những vị trí đầu, còn những video có hơn 263 frame thì họ lấy phin giữa,

video thì họ ding FaceNet tiếp đó họ dùng LSTM (như trong ảnh) đến các khi tiếp theo để có đặc trưng video Đối với âm thanh, họ sử dụng WavL.M để rút tích dữ liệu với dữ liệu âm thanh đã cquả là đã được embedding là timestep = 600 va đặc trưng là 400, kết quả này được

Mang no-ron nhân tạo, ha) còn gọi là NN, đang là một trong những công nghệ

tiên tiến nhất trong lĩnh vực trí tệ nhân tạo với cấu trúc được mô phông theo hệ

Ũ

ng nơ-ron thần ảnh của con người Khi kết hợp với ác phương pháp họ vãu, hay

Deep Learning (DL), NN trở thành công cụ đắc lực, giải quyết hiệu quả các vin dé

phức tạp như phân tích hình ảnh, nhận dạng giọng nói, và xử lý ngôn ngữ tự nhiên Một mạng NN bao gồm nhiều nơron, mỗi nơron được gọi là perceptron, Các

perceptron ny được tổ chức thành nhiều lớp, tạo nên một mang perceptron da ting, hoạt động cùng nhau dé xử lý thông tin

Trang 28

input layer

hidden layer

1g perceptron trong mang NN Hinh 28 Cie

Một mạng NN thường được thị đới 3 loại ng chính

‘Ting diu vio (input ayer): La ting ben trấ cùng của mạng th hiện cho các

đầu vào của mạng, là nơi mà các giá trị đầu vào của mạng được cung cấp, ví dụ như

sấc thông số đầu vào của một bức ảnh hoặc các thông tin đầu vào của một mô hình dự của mồ hình

“Tầng ra (output layer): Đây là tầng cuỗi cùng của mô hình, có nhiệm vụ chuyển

đổi kết quả tính toán của mạng thành đầu ra mone muốn Số lượng nơ-ron trong ting đầu tương ứng với số lượng đầu ra của mô hình

‘Ting ấn (hidden layer): La ting nim gi

toán phức tạp của mạng được thực ên, đồng vai trò quan trọng trong việc xử tầng vào và tầng ra, là nơi các tính thông tin và suy luận ogie Các tằng ấn thường được thết kể với các kết nối giữa các

nơ ron để truyền thông tin và tính toán

.Ở mỗi tằng, số lượng các nút mạng (nơ-ron) có thể khác nhau tuỷ thuộc vào bài

toán và cách giải quyết Ngoài ra các tron ở ác tẳng thường được liên kết đội một với nhau tạo thành mạng kết nỗi đầy đủ fully-connected network).

Trang 29

2.10 Các hàm

2.10.1 Softmax

Hầm softmax được sử dụng trong các mô hình học máy và học sâu để dự đoán xác suất của các lớp đầu ra Kết quả của hàm sofamax có thể được hiễu là ác suất để

một mẫu thuộc về một lớp nhất định, và lớp với xác suất cao nhất thường được chọn

là lớp dự đoán cho mẫu đó Hàm sofamax rất hữu ích trong các bài toán phân loại đa

lớp vì nó cho phép mô hình đưa ra dự đoán cho nhiều lớp cùng một lúc và đảm bảo

ring ting xée suit của tắt cả các lớp là 1, điều này giúp ta có thé dB ding so sánh xác

suất giữa các lớp với nhau

c7:

Đa c7

“Hình 2.9 Công thức tỉnh sofimax

2.10.2 Batchnorm

Batch-Normalization là kỹ thuật tối ưu hóa quá trình huấn luyện cho các mạng

tip qué trình này diễn ra nhanh chóng và mượt mà hơn Phương pháp,

nay bao gồm việc chuẩn hóa các vector của các lớp ẩn dựa trên giá trị trung bình và độ lệch chuẩn của bach đang xét Quá vình chuẩn hóa này có thể được thực hiện trước hoặc sau khi áp dụng hàm kích hoạt phí tuyển

2.10.3 GELU

Hàm GELU, hay Hàm Kích hoạt Gaussian Error Linear Unit, là một hàm kích hoạt được sử dụng trong các mô hình học sâu Hàm GELU được giới thiệu bởi

Hendrycks và Gimpel |26| và các cộng sự và đã được sử dụng rộng

Him GELU có đặc điểm là không chỉ bao gém các tính chất của hầm ReLU (Rectified Linear Unit), md edn o6 kha nang mô phông các hiệu ứng không tuyển tính mạnh mẽ hơn Điều này giúp cải thiện khả năng biểu diễn của mô hình học sâu

27

Trang 30

YOLO (You Only Look One) la mét trong những mô hình phát hiện đối tượng

và phân đoạn ảnh được sử dụng rộng rãi nhất trong lĩnh vực trí tuệ nhân tạo Với khả năng xác định đối tượng và phân đoạn ảnh chỉ trong một lần chạy mô hình, YOLO đã đem lại hiệu quả và ti ích ch nhiễu ứng dụng khác nhau

Trước khi YOLO ra đời, các mô hình phân đoạn và phát hiện đối tượng như R-

CNN, Fas-RCNN, Easer:RCNN gồm cổ hai giải đoạn: tích xuất đặc trg và dự

đoán đối tượng Tuy nhiên, YOLO đã đột phá bằng cách kết hợp cả hai giai đoạn

trong một mô hình duy nhất, chỉ cẳn cho ảnh đi qua mô hình duy nhất một lẫn là có

kết quả Điều này giúp giảm thiểu thời gian xử lý và tăng tốc độ đáng kể so với các

mô hình trước đó

“Các ứng dụng của YOLO rit da dạng, bao gồm xe tự lá, an ninh và giám sát, và hình

ảnh y tế Tử khi ra đời, YOLO đã có sức ảnh hưởng lớn đến lĩnh vực trí tuệ nhân tạo

xà trở thành một trong những mô hình phát hiện đổi tượng và phân đoạn ảnh được sử dụng rộng rã nhất

CCác phiên bản YOLO tếp theo đã iên tục được cải tiền và nâng cao hiệu suất

'YOLOv8 [21] là một mô hình phát hiện đối tượng và phân đoạn ảnh mới nhất được

én bai Ulralyties vio năm 2023, YOLOvS được th

3

Trang 31

phát hiện đối tượng, phân đoạn ảnh và phân loại ảnh

Tĩnh lĩnh hoạt và mổ rộng của YOLOxS:

Một điểm đáng chú ý của YOLOx8 là tính mở rộng của nó Nó được thiết kế dưới dạng mot framework hi tr tất cả các phiên bản YOLO trước đó,

cho YOLOv8 trở thành lựa chọn lý tưởng cho các nhà phát triển và người dùng

muốn sử dụng công nghệ YOLO mới nhất mà vẫn có th sử dụng các mô hình YOLO hiện số của họ

YOLOv8 cũng có khả năng phân đoạn ảnh cho phép nó phít hiện và đình vị các đối trợng trong một bức ảnh một cách chỉnh xác hơn Nó sử dụng

các kỹ thuật tân tiến trong việc học sâu, bao gồm cả một mô hình encoder-

decoder và kỹ thuật skip connection để tăng độ chính xác của việc phân loại

Các thuật toán và kỹ thuật được tích hợp trong YOLOv8: Đầu phít hiện không gắn neo mối (anchorfree detection head): cho phép mô hình để đàng phát hiện các đối tượng có kích thước và hình đáng khác nhau mà không cần tim kiém nhiều gắn anchor Điều này giúp tăng hiệu suắt

“của mô hình và giảm thời gian huấn luyện

Hàm mắt mát mới (new loss function); là một công cụ quan trong dé do lường hiệu suất của mô hình Hàm mắt được thiết kế để tối thiểu hóa sự khác,

hình và ải thiện hiệ suất phát hiện đổi tượng Mạng lõi mới sở dụng các lớp

8 phát hiện các đối tượng

Trang 32

Hinh 2.11 Mé hình YOLO củo phân loi, phát hiện đổi tượng, phân đoạn

Véi việc ích hợp các kỹ thuật mới nhất, YOLOv8 cũng có khả năng xử lý các nhiệm vụ phức tạp như phát hiện và phân l sác đổi tượng đa dạng trong một bite

ảnh Điều này làm cho nó trở thành một công cụ lý tưởng cho các ứng dụng trong lĩnh

‘wre gidm sát an ninh, phát hiện dịch bệnh phân tích ảnh y tẾ và nhiều lĩnh vực ứng dụng khác

“Tổng thể, YOLOv8 là một mô hình phát hiện đối tượng và phân đoạn ảnh rắt

mạnh mẽ và cải tiễn so với các phiên bản trước đó Nó đem lại những lợi ích vượt trội

trong hiệu suất tính linh hoạt và khả năng mỡ rộng đấp ứmg tốt các yêu cầu của các

‘img dụng thực tế và nhu cầu của người ding,

'OLOv§ có số lượng tham số quá nhiều, dẫn đến việc nhận dạng tất lâu trong khi chúng tôi chỉ muốn nhận dạng con người vì vậy chúng tôi đề xuất “Tủy nhiên yolovSs để nhận dạng YOLOV5S cho kết quả nhận dạng tốt với người rong bộ dữ liệu IEMOCAP đồng thời với việc có trọng số ít nên việc nhận dạng diễn ra nhanh

hơn,

Tiêu đề	Mô hình học sâu nhận dạng cảm xúc dựa trên đa phương thức
Tác giả	Nguyễn Quốc Trọng
Người hướng dẫn	Th.S Trần Thanh Nhã, TS. Nguyễn Viết Hưng
Trường học	Trường Đại học Sư Phạm Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	65
Dung lượng	4,93 MB