ai trò trung tâm, chiếm khoảng 55% cơ sở để giúp con người hiểu và giao tiếp với nhau nhà nghiên cứu phân tích và đánh giá nhằm xây dựng được các phương pháp nhân diện cảm xúc và nhiễu n
Trang 1KHOA CONG NGHE THONG TIN
Te HO.CHI MN
NGUYEN DAT MINH
MO HINH NHAN DIEN CAM XUC DUA TREN
NGU CANH
KHOA LUAN TOT NGHIEP
'TP HỖ CHÍ MINH - NAM 2024
Trang 2CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
KHÓA LUẬN TÓT NGHIỆP
NGƯỜI HƯỚNG DẪN KHOA HỌC: Th.S Trần Thanh Nhã
TS Nguyễn Viết Hung
TP.HCM ~ NAM 2024
Trang 3
ôi tên Nguyễn Đạt Minh, tôi xin cam đoan đề ải khoá luận tốt nghiệp “Mô hình nhận điện cảm xúc dựa trên ngữ cảnh” là công trình nghiên cứu của tôi dưới sự hướng dẫn của
là trung thực và không có sự sao chép từ tài liệu khác mà không ghi rõ nguồn trong phần
Tôi xin chịu hoàn ton trách nhiệm về lời cam doan này
"hành phố HỖ Cũỉ Minh, ngày 0 thắng 05 năm 2034
Trang 4ắc đến Thạc sĩ Trằn Thanh Nhã và Lời đầu tiên em xin chân thành cảm ơn sâu
Nguyễn Viết Hưng là hai người thầy đã hướng dẫn hỗ trợ em rất nhiều trong suốt khoảng,
thời gian nghiên cứu khóa luận Hai thầy với kinh nghiêm và sự âm huyết trong việc nghiê cứu khoa học đã góp phần định hướng, gởi mở và đưa ra nhiều lời khuyên hướng dẫn hữu:
ích giúp em hoàn thành khóa luận một cách tròn vẹn Với sự tận tâm của hai thầy đã là
nguồn cảm húng để em nỗ lúc và giữ ngọn lửa đam mê nghiễn cứu rong mình
'Bên cạnh đó, em muốn gửi lời cảm ơn đến với toàn bộ giáo viên khoa Công Nghệ Thông
Tín đã hỗ trợ và đưa ra những lời khuyên hữu Ích cho đỀ ải Em xin gi ời cảm ơn đến với
cm những bài học bổ ích để em có đầy đã kiến thức để hoàn thành để dải
'Con cũng xin cảm ơn đến gia định, bạn bẻ, người thân, anh chị em và nhóm nghiên cứu
của Thầy Hưng và Thấy Nhã Dặc biệt xin gửi lời cảm ơn đến ba, mẹ đã luôn động viên
luôn đành tình yêu thương vô bờ bến Ba, mẹ là hậu phương vũng chắc, là chỗ dựa tỉnh
thần to lớn để con vững bước theo đuôi ước mơ của mình
Xin chân thành cảm on!
Thành phố Hỗ Chỉ Minh, ngày 08 thắng 05 năm 2034,
Trang 5LỜI CAM ĐOAN 1
Phạm vi nghiên cứu
Phương pháp nghiên cứu
_Ý nghĩa khoa học thực tiễn
27 1.2 Cac phuong pháp nhận điện cảm xúc của con người
Trang 61.2.2 Hoe sau : : _ see DT 1.2.3 Đaphươngthức
3.3 Mô hình trích xuất đặc trưng cơ thể
3.4 Môhình xuất đặc trưng ngữ cảnh
3.5 Mô hình kết hop đa đặc trưng 58
'CHƯƠNG 4 THỰC NGHIỆM VA DANH GL
Trang 74.3 Đánh giá kết quả thực nghiệm - —_
CHƯƠNG § - KẾT LUẬN VÀ HƯỚNG PHÁT TRIÊN
TÀI LIỆU THAM KHẢO
Trang 8‘Amazon Mechanical Turk Multi-Head Self Attention
State OF The Art
Trang 9Hình 1.1: Một số ứng dụng dự đoán cảm xúc, 15 Hình 1.2: Hình ảnh khuôn mặt các nhà nghiên cứu Ekman và Friesen (1976), „ Hình 1.3: Các mỗi quan hg cam xite trong Emotion Wheel 19 Hình L.: Các đơn vị hành động (AU) được thể hiện trên khuôn mat [23] 20 Hình 1.5: Ảnh thường và nhiệt của báy loại cảm xúc cơ bản [34] 24 Hình 1.6: Nhận điện cảm xúc bằng âm thanh sử dụng mô hinh Recurrent Neural Network
Hinh 1.7: Trinh ty cde burée của phương pháp nhận diện cảm xúc dựa trên EGG [42] 6 Mình 1.8: Kiến trúc mô hình chú ý chéo theo cấp bậc (HCAM) [S9] 29 Hinh 1.9: Nhận diện cảm xúc dùng ngữ cảnh dữ liệu trong EMOTIC [63] 30 Hình 1.10: Ví dụ cho thấy tim quan trong của ngữ cảnh [64] 31 Hình I.11: Hình ảnh về các loại dữ liệu có trong bộ dữ liệu ngữ cảnh a) EMOTIC, b) CAER,
Mình 2.3: Minh họa kiến trúc cơ bản của cơ chế chú ý trên mô hình RNN 41
Hình 2.5: Kiến trie m6 hinh Vision Transformer [80] “ Hình 2.6: (a) BE xuất của Swin Transformer khi gp ee patch lân cận lại (b) Mô hình Vision Transformer với phân chia kích thước qua từng lớp là duy nhất [S1] 46 Hình 2.7: Cơ chế hoạt động của shifted window rong mô hình Swin Transformer [81] 47
Mình 3.2: Ví dụ có thể hiện độ đo VAD với cảm xúc được gán nhãn 51 Hình 3.3: Dinh dang file khi di chuyén ti mat sang esv 52 Hình 3.4: Quy trình trích xuất khuôn mặt trong bộ dữ liệu Emotie “
Trang 10Hình 3.7: Các hành vi tương ứng với cảm xúc [85] 56
Hình 3.10: Kiến trúc mô hình đa phương thức kết hợp cơ chế chủ ÿ về nhận
Trang 11Bing 1.1: Cim xii twong ting véi don vi AU
Bang 1.2: Thông kế về kích thước và nhân của các tập dữ liệu Bang 3.1: Ngữ nghĩa của 26 loại cảm xúc,
Bảng 3.2: Định nghĩa các cột giá tị trong file
Bang 4.1: Kết quá huấn luyện mô hình nhận điện cảm xúc dựa trên ngữ cảnh Bảng 4.2: Kết quả AP của từng lớp của mô hình
Bảng 4.3 So sánh mô hình đề xuất với các phương pháp khác
Trang 12Lý do chọn để tài
Trong những năm gần, với sự tiến bộ đáng kể trong lĩnh vực công nghệ, cuộc cách
mạng về phần cứng kéo theo đó là máy móc đồng một vai trỏ quan trọng rong đối sống của con người Việc giúp robot hiểu được con người vị giáo tếptốt dang là một đ ải thụ
hút được các nhà nghiên cứu vì tỉnh ứng dụng cao Trong đó, nhận di: cảm xúc đang đồng một vài trò quan trọng và có nhiều ứng dụng cao chẳng hạn như: Sự tương tác của người
lấy ví dụ rong sự tương tác của người và mấy tỉnh trên mạng xã hội Vì nn tủng mạng xã
hội là phương tiện để truyền đạt cảm xúc do sự mở rộng nhanh chóng của kỷ nguyên
Intemet Qua đó, các công ty lớn như Facebook luôn đầy mạnh việc phân tích cảm xúc của người dùng cụ thể là Facebook Reaeions được thiết ké để phân tích cảm xúc của người
dùng trên cái bài đăng khác nhau và thể hiện nội dung phù hợp với sở thích và tâm trạng
ccủa họ [4 Việc nhận diện cảm xúc tự động cũng hỗ trợ các bác sĩtheo dõi được tính hình
cảm xúc của bệnh nhân từ đó có thẻ đưa ra thông báo kịp thời các triệu chứng về rối loạn
tm thin [5] Vige nhận điện và phân tích cảm xúc trong giáo dục cũng ngày cảng được đổi phương pháp giảng dạy sao cho phủ hợp [6]
Mục tiêu nghiên cứu
~_ Tìm hiểu về thuyết về nhận điện cảm xúc
= Tim hiểu và phân tích các mô hình nhận diện cảm xúc dựa trên ngữ cảnh
“Xây dựng mô hình nhận diện cảm xúc dựa trên ngữ cảnh
Đối tượng nghiên cứu
= Hinh ảnh chứa các đối tượng đã được gắn nhãn cảm xúc
~_ Môhinh đa phường,
lô
Trang 13-_ Cơ chế chú ý,
Phạm vi nghiên cứu
+ Tim hig lý thuyế
= Nal n cứu huấn luyện mô hình và thực nghiệm trên bộ dữ liệu EMOTIC
“Xây dựng mô hình nhận diện cảm xúc dựa trên ngữ cánh Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
Tìm hiểu tổng quan về các công trình nghiên cửu về nhận diện cảm xúc đựa và
sữ cảnh
"Nghiên cứu cơ sở lý thuyết liên quan đến đề tài
Nghiên cửu các kỹ huật tích xuất đặc trưng trên d liệu ảnh sử đụng mô hình học su
* _ Nghiên cứu kỹ thuật kết hợp môi
phương pháp trong tương li
Phương pháp nghiên cứu thực nghiệm
+ Tìm kiếm dữ liệu đáp ứng như cầu của bài toán
« _ Tiến hành xây dựng mô hình học sâu
© Danh gid va so sánh kết quả đạt được
Ý nghĩa khoa học thực tiễn
"Đề tài “Mô hình nhận diện cảm xúc dựa trên ngữ cảnh” là một phần của bài toán nhận
điện cảm xúc con người Một lĩnh vực liên quan đến tí tuệ nhân to, tâm lý học VỀ mặt
thực tiễn những mô hình nhận điện cảm xúc truyền thống thương chỉ tập trung vào một đặc
Trang 14sảm xúc con người Bên cạnh đổ là phát iển các mô hình v AT có khả năng nhận điện và thấu hiểu cảm xúc của con người tốt hơn
Cấu trúc luận văn
Dựa vào mục tiêu đã được tình bày, nội dung của luận văn được chỉ thành các phần như sau
Chương mỡ đầu
“Chương này giới thiệu tng quan vé để tài gồm các nội dung như: Lý do chọn để tai,
mục tiêu nghiên cứu, đối tượng nghiên cứu, phạm vĩ nghiên cứu, ÿ nghĩa khoa học thực
tiễn và cấu trúc của đề tải
Chương 1: Tổng quan về tỉnh hình nghiên cứu
“Chương này sẽ giới thiệu về tổng quan các công trình nghiên cứu trong nh vực nhận
diện cảm xúc ở con người Trình bày các nghiên cứu đã được áp dụng để giải quyết bải toán
nhận diện cảm xúc Giới thiệu bác tập dữ liệu chuẫn được các nhà nghiên cứu đang sử dụng
Chương 2: Cơ s lý thuyết
“Chương này trình bày lần lượt các phương pháp được sử dụng trong để tải Đồng thời
và kết hợp với cơ chế chủ ý
Trang 15Chương này sẽ so sảnh các kết quả đạt được khi huẳn luyện mô hình trên tập đã liệu đã chọn
Chương 5: Kết luận và hướng phát triển
“Tổng kết lại những kết quả đạt được và chưa đạt được sau quả tỉnh nghiên cứu, tiến
hành thực nghiệm Từ đó nêu ra những hướng nghiên cứu và phát triển cho để tải khắc phục
những hạn chế ở hiện tại
Trang 1611 Téng quan
Hiện nay, trí tuệ nhân tạo (AI) đang là xu hướng công nghệ hàng đầu được các tập đoàn
công nghệ trên toàn thể giới ích cực nghiền cứu và phát tiễn Cúc mô hình AI tiên
đang được ứng dụng và tích hợp vào các sản phẩm phần mềm nhằm tăng cường hiệu s
tự động hóa quy trình và mang lại trải nghiệm người dùng tốt hơn Mục tiêu cuối cùng của các doanh nghiệp khi áp dụng AI à tối ưu hóa hoạt động kinh doanh, giảm chỉ phí vận hành
và đạt được lợi nhuận cao hơn Ngoài ra, rí tuệ nhân tạo còn nâng cao chất lượng sống của con người mang lại nhiều lợi ích
Trong nghiên cứu về cảm xúc trong lĩnh vục chăm sóc sức khỏe là một lĩnh vực quan
trọng và ngày cảng nhận được nhiều sự quan tâm Điều này là do cảm xúc đồng một vai trò
"bệnh nhân Nhiều nghiên cứu đã chỉ ra rằng các biễ
đầu hiệu quan trọng về tình trạng súc khỏe của một người Các biểu hiện cảm xúc trên khuôn mặt có thẻ thấy dấu hiệu của một số bệnh lý như đau đớn, mệt mỏi, tâm thân phân liệt hoặc trằm cảm Trong đồ sự suy giảm trong bigu hiện cám xúc lã một đặc điểm nỗi bật
tồi loạn này thường gặp khô khăn trong việc nhận bit diễn đại và điều chính cảm xúc của mình một cách thích hợp với hoàn cảnh Điều này có thể dẫn đến khó khăn rong giao tiếp
và thiết lập các mỗi quan hệ xã hội Ngoài ra, sự mắt liên kết cảm xúc cũng có thể làm tăng
nguy cơ xuất hiện các triệu chứng tiêu cực khác như ảo giác, hoang tưởng và rồi loạn hành
vi [7] Không những vậy các cảm xúc tiêu cực như khinh thường, ít cười kèm theo các biểu
hiện trên khuôn mặt cũng là những dấu hiệu của bệnh trằm cảm [R] [9] Không chỉ nhận dõi và phân tích cảm xúc của học sinh trong quả tình học tập có th giúp giáo viễn thay
đối nội dung và điều chỉnh phương pháp dạy học Trong nghiên cứu [10] đã khảo sát các,
“4
Trang 17sinh cổ những cảm xúc tích cực như sự thích tht (enjoyment), nigm tr ho (pride) thi dat
(anxiety), xấu hỗ (shame), buồn chán (borcdom), tuyệt vọng (hopelessness) sẽ nhận được
những điểm số thấp Ngoài ra, việc tiếp xúc với nhiễu nguồn tr thức làm cho học sinh, sinh
viên phải nỗ lực nhiều Lin va gay ra các triệu chứng căng thẳng, trằm cảm và các bệnh tâm
lý khác cho nên việc nhân dạng cảm xúc giúp giáo viên và phụ huynh có th phát hiện sớm,
và can thiệp kịp thời Một vải ứng dụng trong bài toán nhận diện cảm xúc được thể hiện ở
Hình 1.1
Hình 1.1: Một số ứng dụng dự đoán cảm xức
Từ những lợi ích và tằm quan trọng đó mà n điện cảm xúc mang lại đã thu hút được
sự quan tâm lớn của các nhà khoa học trong các lĩnh vực như trí tuệ nhân tạo, máy học và
nói đã được chứng mình là một phương pháp hiệu quả để nẵng cao độ chính sắc và độ tin
Is
Trang 18
ai trò trung tâm, chiếm khoảng 55% cơ sở để giúp con người hiểu và giao tiếp với nhau nhà nghiên cứu phân tích và đánh giá nhằm xây dựng được các phương pháp nhân diện cảm xúc và nhiễu nghiên cứu đã đạt được kết quả khả quan[14), 15], [6]
CCharles Dravin đã đưa ra lý thuyết quan trọng về nguồn gốc và chức năng của cảm xúc
Darwin tin rằng cảm xúc có nguồn gốc từ quá trình tiễn hóa để giúp sinh tồn và thích nghĩ
Darwin nhận thấy rằng các biểu hiện cảm xúc như nết mặt, cử chỉ có nhiều điểm tương với động vật việc thể hiện cảm xúc thông qua hành động tuy không đa dạng như con người như chúng ta vẫn có th nhận diện cảm xúc của động vật thông qua những cử chỉ như "chớp,
(I7, Lý thuyết của Chares Drawin là nỀn tảng cho nhiều nghiên cứu và tranh luận tong khoa họ tâm lý về bả chất của cảm xúc con ngườ
“Trong nghiên cứu [I8] của tác giả Paul Ekman đã đưa ra lý thuyết về cảm xúc cơ bản
cia con người ĐỂ chứng mình các đối tượng ở những nền văn hóa khác nhau vẫn cổ xuất thập đữ liệu ở New Guinea bằng cách kể những câu chuyện và cho họ xem một vài hình
cảnh Từ đó, yêu cầu những đổi tượng nghiên cứu chọn những khuôn mặt ứng với cảm xúc
phù hợp Kết quả được tổng hợp và phân tích đã chỉ ra gồm có 6 cảm xúc cơ bản biểu hiện
16
Trang 19(disgust) va ngge nhién (surprise), duge thé hign Hinh 1.2
Điều này cho thấy Ekman và Eriesen đã bắt đầu xây dựng một hệ thống quy tắc phức
lự đoán cảm xúc dựa trên các
top cảm khuôn mặt, ngay cả khi không phải tất
cả các yếu tổ đặc trưng đều được hiễn thị đầy đủ Đây là một bước quan trong trong qui
trình phát triển phương pháp đánh giá biểu cảm khuôn mặt một cách chính xác
Bộ ảnh "Pictures of Facial Affect" do Ekman va Friesen (1976) phát triển đóng vai trò then chét trong nghiên cứu về nhận diện cảm xúc Trong bộ ảnh này, 6 loại cảm xúc cơ bản
cđược thể hiện, bao gồm: giận dit (Anger), ghé tm (Disgust), so hãi (Fe) hạnh phúc
này được chỉ lại từ 6 người mẫu nữ và 4 người mẫu nam Bộ ảnh này đã trở thảnh một tập
cdữ liệu tiêu chuẩn được sử dụng rộng rãi trong các nghiên cứu vỀ nhận điện cảm xúc từ
hình ảnh khuôn mặt
F2 F4 F5 F6 F7 F8 MI M4 M6 M6
1
Trang 20xúc như tức giận (A), ghé tom (D), sợ hãi (F), hạnh phúc (H), buồn (S) và ngạc nhiên (U),
MI là mẫu nam đầu tiên,
Ngoài 6 loại cảm xúc cơ bản phố biến của Paul Elonan Ông còn thực nghiệm và cho
rằng có nhiều loại cảm xúc không nằm trong 6 loại cảm xúc cơ bản Trong nghiên cứu [19]
đđã chỉ ra 27 loại cảm xúc khác nhau như kinh đị, buồn, sợ hi, tức giận, xấu hỗ Tuy nhiên, nhau bởi những dã liên tục (continuous gradien), có nghĩa là các cảm xúc có thể chuyển dần từ cấp độ này sang cắp độ khác thay vì thay đổi đột ngột
Không những có các công trình nghiền cứu về cảm xúc bằng hình ảnh Paul Ekeman
cùng với các cộng sự [20] đã nghiên cứu về việc âm thanh tương tự với việc thực nghiệm
trên hình ảnh, Các nhà nghiên cứu đã phát những đoạn âm thanh với các phiên bản khác
nhau vỉ dụ: cảm xúc ghế tõm âm thanh chủ yếu làng nôn mữa, nỗi sợ tiếng lahứ Từ
đó tổng hợp và so sánh việc lựa chọn âm thanh tương ứng với cảm xúc của từng dân cư:
khác nhau và nghiên cứu đã đi đến
tương ứng với những loại cảm xúc cơ bản được cũng cổ bằng cảm xúc khuôn mặt Tir phat luận Những cảm xúc được nhận diện từ âm thanh
hiện này bổ sung thêm cho ác lý thuyết để xuất những cảm xúc cơ bản đã cố ừ lúc con
người tiến hóa và được chuyển cho các đời sau
"Để trực quan hóa mồi liên hệ giữa các cảm xúc của con người Nhà tâm lý học Robert Putchik (1927 - 2006) đã giới thiêu mô hình bánh xe cảm xúc (Emotion Wheel) trong c sách "Emotion: A Psychoevolutionary Synthesis” [21] được mô tả trong Hình 1.3, Bánh xe
này thể hiện mỗi quan hệ giữa các cảm xúc cơ bản theo hình trồn hoạt động giếng với ảnh,
xe màu sắc, Trong đó các cảm xúc tương đồng nằm gần nhau và các cảm xúc đổi lập nằm
Trang 21‘cu dé nhận diện, phân tích và quản lý các cảm xúc hiệu quả hơn
N
Hình L3: Các mỗi quan hệ cảm xic trong Emotion Wheel Bên cạnh đồ, lý thuyết đánh giá (Appraisal Theory) là một ý thuyết tâm lý học, tập trung vào cách con người đánh giá và phân ích ác sự kiện, ngữ cảnh và tỉnh huồng để tạo kiện ở nhũng cá nhân và ừ sự kiện kháe nhau bằng cách sử dụng thông tin bi cn, lich
nhạy cảm khác của cá nhân để đánh giá cảm xúc trong từng sự kiện trong bối
'Nhằm xác định cảm xúc thông qua nét mặt, nhiều hệ thống mã hóa đã được sử dụng và
Hệ thống mã hóa hành động khuôn mặt (EACS) là những hệ thông phỏ biến nhất trong số
đó, Để nắm bắt được sự tinh té trong nét mặt con người, cằn có sự mô tả chỉ tiết về nét mặt
Facial Action Coding System (FACS) -
hệ th thống mã hóa hành động trên khuôn mặt là một
1g dựa trên người quan sắt được thiết kế để phát hiện những thay đổi trên các đặc điểm trên khuôn mặt [22],
19
Trang 22đơn vị hành động AU, bao gồm 44 đơn vị hành động (AU) Theo nghiên cứu về AU trong nhận diện cảm xúc khuôn mặt, có tổng cộng 44 sợi cơ mặt được định nghĩa và phân loại
30 sợi cơ liên quan mật thiết về mặt giải phẫu với sự co giãn của các nhóm cơ mặt cụ thể,
14 cơ còn lại được gọi là các hành động khdc (Additional Actions), không trực tế
‘quan đến các biểu cảm cảm xúc cơ bản
Trang 23
Emotion Bonus movement | Subtraction action | Action unit
Brow Raise, Brow
Brow Raise, Smile, Brow Furrow, Lip
Sadness Suck, Eye Widen Lip Press, Mouth | AUL+AU4+AUIS
Open Toner Brow Raise, Smile, Brow AUI+AU2
Widen
AUI+AU2+
Brow Raise, Eye | Brow Furrow AU7+AU20
a Brow Furrow, Eye | Inner BrowRaise, | AUS+AUS+
s Widen, Chin Raise | Brow Raise, Smile | AU7+AU23
Brow Raise, Bye Inner Brow Raise, Widen, Mouth AU94AUI5+
Comer Depressor Smile
Trang 24phát triển các ứng đụng hỗ trợ con người đựa trên nhận diện cảm xúc, tạo ra một môi trường
khía cạnh phức tạp bao gồm nhiễu yếu tố biểu hiện như gương mặt, giọng điệu, ngôn ngữ
sơthể Bên cạnh đồ, môi trường xung quanh cũng ảnh hưởng nhiễu đến cảm xúc của con
người Do đó, việc tích hợp thông tin về ngữ cảnh vào quá trình nhận điện cảm xúc không
chỉ giúp cái thiện độ chính xắc của mô hình mà côn làm tăng khả năng tổng quất hóa và
hiểu biết sâu hơn về cảm xúc của con người trong các tình huống thực tế,
“Các đặc điểm của một bức ảnh về cảm xúc trong ngữ cảnh sẽ miêu tả môi trường trong
đồ có bối cảnh và đối tượng mục tiêu được dự đoàn cảm xúc Nhiễu nghiên cứu [25), [26],
[27] đã sử dụng đa phương thúc để xử lí các đặc trung của bối cảnh và đối tượng trong hình Để có thể bổ sung thông tin cho nhau khi một phương thức gặp khó khăn thì
những phương pháp khác có thể hỗ trợ và cung cấp thông tin cho những nhánh khác Gần
đây, mô hình đa phương thức là một vẫn đề được nhiều nhà nghiên cứu quan tâm Việc sử: liệu sao cho hợp lý Tử đó, có các phương pháp chiến lược chính được sử dụng để giải
“quyết bài toán Trong nghiên cứu này, lộc sử dụng đa phương thức nhm kết hợp được các .đặc trưng có trong hình ảnh từ đó mô hình sẽ kết hợp và phân tích các đặc trưng của ngữ
cảnh xung quanh
'Bên cạnh việc áp dụng các mô hình xử lý hình ảnh đẻ nhận điện cảm xúc, các nghiên
cứu mới đây trong nh vực này đã mở rộng phạm vỉ bằng cách xây dựng các mô hình tỉ
thức, nhằm hiểu sâu hơn về ngữ cảnh của hình ảnh Qua việc tích hợp tri thức, khả năng dự
đoán cảm xúc của các đối ượng trong hình ảnh đã được cải thiện đáng kể, đánh dẫu một (29), [30], Vige miêu tả cảm xúc trong ngữ cảnh sử đụng đỗ thị tị thức sẽ giảm được thồi
gian tính toán khi sử dụng những mô hình học sâu để trí :h xuất đặc trưng ngữ cảnh của ảnh
Trang 25triển của công nghệ xử lý ảnh và trí tuệ nhân tạo, khả năng nhận diện được các biểu cảm và
cảm xúc trên hình ảnh khuôn mặt con người ngày cảng chỉnh xác và hiệu quả Nhiễu nhà nghiên cứu đã sử dụng ảnh thường để nhận diện cảm xúc chủ yếu là hình ảnh, khuôn mặt Nghiên cấu [31] đã xây dựng một hệ thống nhận điện sử dụng mạng neural kết khuôn mặt ừ đồ nhận điện được cảm xúc trên khuôn mặt Trong đỏ, Shỉhao Xu và cộng sử
Laban Movement Analysis (LMA) [33] nhằm phân tích đánh giá cách thức di chuyển và sử
dung co thé trong không gian Thêm vào đó nghiên cứu côn so sinh các mô hình SVM
Naive Bayes, Random Forest trên bộ dữ liệu họ đã xây dựng đạt được nhiều kết quả khả
quan
Bên cạnh việc sử dụng dữ liệu ảnh thường để nhận diện cảm xúc, H Nguyen và công
Kotani Thermal Emotion (KTFE) két hợp ảnh thường
và ảnh nhiệt về cảm xúc con người được biểu diễn Hình I5 nhằm tăng cường hiệu suất
sự [34] đã xây dựng một bộ dữ li
nhận diện cảm xúc của con người
Trang 26Hinh 1, Ảnh thưởng và nhiệt của bảy loại cảm xúc cơ bản [34] 1.1.3 Nhận điện bằng âm thanh
Sử dụng đặc trưng âm thanh trong việc nhận diện cảm xúc là một phương pháp hiệu quả
vì giong nói và cách thức phát âm của con người thường phản ánh rõ rằng trạng thái cảm xúc của họ Có nhiều lý do để sử đụng đặc trưng âm thanh cho nhận diện cảm xúc
này sẽ ảnh hưởng đến cách
Khi con người cảm thấy buồn, vui, giận dữ, sợ hãi,
tổ âm thanh như tần sổ,
họ nói chuyện Biểu hiện của cảm xúc được thể hiện qua c
âm lượng, nhịp độ, tính chất của giọng nói (run rẩy, khản đặc, ) các yếu tổ này được biển đổi thành đặc trưng phổ âm thanh (Specưal Features) như: Mel-Frequency Cepstral (MECC), Mel Spetrogram,
Trang 27và bộ dữ liệu UGA được trích xuất đặc trưng năng lượng cao 46, hé sé MECC, LPCC phân loại cảm xúc đựa trên các đặc trưng đã trích xuất Trong đó, khi sử dụng đặc trưng MFC cho được kết quả cao hơn khi ding LPCC
“Trong nghiên cứu [36], các nhà nghiên cứu đã đề xuất sử dụng Bag-ofAudio-Words (BoAW) để chuyển dữ liệu âm thanh thành các veelor đặc trưng Từ các đặc trưng đồ sử
nhận diện cảm xúc của đổi tượng, Mô hình được mô tỉ ở Hình Ló
đặt điểm văn hóa của lừng ngư những loại cảm xúc biểu hiện ra bên ngoài phy thuộc vào độ tuôi và và mang tính chủ quan nên việc đánh giá chính xác cảm
"xúc gặp khó khăn, Ngoài ra, việc không thể hiện cảm xúc mạnh hoặc che gidu cảm xúc tốt
35
Trang 28không thể nối rõ rằng và bày tờ cảm xúc của mình thông qua lồi nói tự nhiền hoặc bị khuyết tậtvề thể chất và không thể bảy tò cảm xúc của mình thông qua nết mặt hoặc tư thể cơ thể,
việc nhận điện cảm xúc của giọng nói, biểu cảm và tư thể trở nên bắt khả thí Từ đó, một
ố nhà nghiên cứu đãsử dụng hoạt động sinh lý (hoặc manh mỗi sinh lý) để nhận điện cảm,
xúc Phương pháp đựa trên các tin hiện sinh lý được coi là sự bổ sung hiệu quả cho phương
pháp nhận biết đa trên các tin hiệu phí sinh lý, chẳng hạn như nhịp im [37], trở khẳng của
đa (skin impedance) [38], hô hắp [39] hoặc tín hiệu não từ chụp cộng hưởng từ chức năng
(MRI) [40] và điện não đồ để xác nhận các tinh trạng cảm xúc [41]
Trinh ty các bước của phương pháp nhận điện cảm xúc dựa trên EGG [42],
Trang 291.2.1 Máy học
Vector hd try (SVM), Naive Bayes, Decision Tree, Random Forel, Các phương pháp này thường dựa trên các đặc trang thi dng duge rit trch tr vin bin nhurb§ we vung,
‘TE-IDF vi n-gram
Trong đó nghiên cứu {43] Xây dựng một hệ thống nhận dạng biểu cảm khuôn mặt sử
SVM SVM véi hat nhin RBF (Radial Basis Function) dat d6 chinh xc cao nhit, khoảng
87% trên bộ dữ liệu Japanese Female Facial Expression (JAFFE) vi 77% University Facial Expression (MUFE) vượt trội so với các phương pháp truyền thống
"Ngoài ra, với sự phát triển của các mạng xã hội các loại dữ liệu văn bản đa dạng vì vậy trong nghiên cứu [44] 43 diing Term Frequency- Inverse Document Frequency (TF-IDF)
‘cing với tập từ phụ định kết hợp với Linear Support vector machine (LSVM) cho việc phân loại cảm xúc trong text
122 Học sâu
Gần đã sa phát triển của các mồ hình họ sâu, đặc biệt à các mỗ hình mạng nơ-ron tích chập (CNN) và biến thể của chúng đã mang lại những cải tiến đáng kể trong phân loại
được các đặc trưng từ dữ liệu
“Các hệ thống nhận diện cảm xúc bằng ảnh thường sẽ có nhiều nhược điểm dẫn tối việc
mô hình nhận diện nhằm lẫn gây ra bởi các yếu tổ như điều kiện ánh sáng không tốt, chất
lượng hình ảnh không được đảm bảo, cảm xúc của người được nhận diện không được thể
hiện rõ ra bên ngoài
Trang 30trên nhiều kênh khác nhau chẳng han như: video[45] (46], âm thanh [36], [47], văn ban [48], ding đi [49]
1.2.3 Da phương thức
Ngoài việc sử dụng đơn phương thức trên một bộ nguồn dữ liều duy nhất, nhiều
nghiên cứu đã kết hợp các đặc trrng của nhiều bộ dữ liệu lại với nhau nhằm nâng cao hiệu suất của mô hình nhận diện Các công trình nghiên cứu trước cũng chỉ ra rằng việc sử dụng
{50}, [51], Bing eée học nhiễu nguồn thông tin khác gip mô hình cỏ khả năng hiểu và
phân tích dữ liệu một cách toàn diện hơn Nhiều nghiên cửu đã sử dụng đồng thời hai loại
dữ iệu là video kết hợp với âm thanh từ đó nhiễu mô hình đạt được độ chính xác cao [52]
thanh Kiến trúc mô hình có thể phân tích và xử lí được dữ liệu giọng nói ở cấp độ tín hiệu
đến cấp độ ngôn ngữ Từ đó sử dụng thông tin của giợng nồi một cách toàn điện hơn so với
dữ êu của khuôn mặt và tính hiện 10 dé tang độ chính xác của phương pháp [56], 57] Trong nghiên cứu [58] tác giả đã phân tích dữ liệu giọng nói vả hình ảnh rồi kết hợp thông tin của bai loại dữ liệu Tác giả cũng đã so sánh việc kết hợp bộ dữ liệu đơn chỉ có video hình chú ý chéo theo cắp bậc (HCAM) được miêu tả trong Hình 1.8 để nhận diện cảm xúc
đa phương thức với bai loại dữ liệu là văn bản và âm thanh Mô hình được thực nghiệm với các mô hình khác và đạt được kết quả slate-of-the-art (SOTA),
Trang 31
1.2.4 Sử dụng ngữ cảnh
Mặc dủ đã cô nhiều phương pháp về nhận diện căm xúc đã kể trên như phương pháp
đó chỉ tập trung vào những đặc điểm bên ngoài lẫn bên trong con người Bên cạnh đó, việc cảm xúc Theo nhiều nghiên cứu khác nhau, độ chính xác của việc nhận diện cảm xúc dựa
nhau như cơ thể của đối tượng nhiều
tượng không liên quan (người khác rong cảnh),
và phông nền lớn với khuôn mặt có kích thước nhỏ Vai trò của tư thể cơ thể và thông tin
ngữ cảnh đã bị bỏ qua, mặc dù đã có nhiều nghiên cứu trước đó chi ra ring chúng đóng vai
trò quan trọng trong việc đánh giá cảm xúc Các nghiên cứu đồ đã tiết lộ rằng tư thể cơ thể
[60] và hậu cảnh cũt
hưởng đến trạng thấi cảm xúc và khi ngữ cảnh được tích hợp, chúng ta có thể suy luận được ing [61] có thể được sử dụng đẻ ước tính cảm xúc, vì chúng thưởng ảnh
nhiều trạng thái tâm trạng hơn Trong nghiên cứu về ảnh hưởng của ngữ cảnh [62] tác giả
đã đồ cập vé tm quan trọng của iệc sử dụng ngữ cảnh để nhận diện cảm xúc Trong nghiên
cứu đó cũng đã chia nhận diện cảm xúc ra làm ba cấp Cấp một là đề cập tới các yêu tô cá
29
Trang 32diện các yêu tổ tỉnh huồng, liên quan đến môi trường, bối cảnh xung quanh đối tượng, các
mối quan hệ trong xã hội CẮp ba bao gồm các yếu tổ văn hồa, định hướng văn hồn của
từng cá nhân có thể ảnh hưởng đến cảm xúc
Hiểu được cảm xúc của con người đồng một vai trd quan trọng trong tương tác xã
hội Khả năng nảy là cần thiết để nhận biết, dự đoán và phản ứng một cách quan tâm đối
với phản ứng của người khác Con người rất giồi trong việc quan sắt và chúng ta thường
ta quan sit mét ai dd, chúng ta cổ thể ước tính được ắt nhiều thông in về trạng thái tinh
Hình 1.9 a, chúng ta tự đặt mình vio tinh huồng của đối tượng và cố gắng dự đoán cảm xúc của đối tượng nằm trong bounding box Chúng ta có thể thấy rằng không thể dùng các phương pháp dùng khuôn mặt để nhận diện được cảm xúc của đối tượng vì đã bị che khuất Nhưng khỉ nhìn tổng thể chúng ta có thể thấy người này đang cảm thấy bình yên (Peace) hạnh phúc (Happiness) và tình cảm (Aection) Ngoài ra, trong Hình 1.9 b, có thể nhận ra
‘quan đó cho thấy sự hạnh phúc (Happiness) Cũng có thể thấy cô ấy đang bình thản và thư giản cho thấy một cảm giác chung lả sự thanh bình (Peace) Mie di không biết chính xác được những người đó đang nghĩ gì nhưng có thể trích xuất thông tin và dự đoán được cảm Xúc của người trong ảnh,
Hình 1.9: Nhận điện cảm xúc dùng ngữ cảnh dữ liệu trong EMOTIC [63]
30
Trang 33để dự đoán cảm xúc đựa trên nét mặt, chẳng ta cổ thể không chắc hắn về loại cảm xúc cự
làm cho việc nhận điện cảm xúc của bức ảnh chở nên chắc chắn hơn Từ các ví dụ trên cho
thấy tùy thuộc vào ngữ cảnh con người có thể dự đoán được cảm xúc của đối tượng Bên
canh đó, việc thêm thông tin về ngữ cảnh có thể làm tăng sự chính xác khi nhận điện cảm xúc Trong khi đó việc xây dựng các mô hình hiện đại đều được dựa trên cách thức mà con
tăng hiệu suất cho mô hình nhận điện cảm xúc mã chúng tôi muốn hướng đến
Mình 1.10: Ví dụ cho thấy tằm quan trọng của ngữ cảnh [64]
13 Cae ập dữ liệu chuẩn
Để có thể phân tích và huấn luyện mô hình việc cỏ đữ liệu là điều vô cùng quan trọng
“Trong dỀ tài nghiên cứu về nhận diện cảm xúc sử dựng ngữ cảnh đã có một vải bộ dữ liệu
được các nhà nghiên cứu công bồ gắn đây Các bộ dữ liệu này đã được phân tích và sử dụng
trong việc xây dựng các phương pháp nhận diện cảm xúc dựa trên bồi cảnh như EMOTIC
[63], CAER [65], HECO [25]
31
Trang 34
Tình 1.11: Hình ảnh về các loi dữ liệu có tong bộ dữ liệu ngữ cảnh a) EMOTIC, b) CAER, c) HECO
Băng L2: Thông kê về kích thước và nhân của các tập dữ liệu
"Tên dữ liệu weno ĐỂ Nhãn cảm xúc - Loại dữliệu Đối mg dave EMOTIC[68] 183l6ảnh 26loại ảnh 34320 CAER-S(65] 70,000 in Tosi ảnh 70,000 CAER 65] 13,201 clips 7loại clips HECO [25] 9,385 anh 8 loại ảnh
“Trong đó, dữ liệu CAEER được xây dựng hơn 13,00 đối tượng trong video ứng với 7
loại cám xúc như Happy, Sad, Surprise, Fear, Anger, Neutral Cũng một nhóm nghiên cứu
'CAER-S là dữ liệu về video chủ yêu từ các truyền hình, phim sitcom
HECO là bộ dữ liệu thiết kế để nhận diện cảm xúc dựa trên ngữ cảnh có 8 lớp
Surprise, Excitement, Happiness, Peace, Disgust, Anger, Fear, vi Sadness Hình ảnh chit
yếu được thu thap trén intemet
Đối với bộ dữ liệu EMOTIC được xây dung tie ngudn trực tuyển nh Flickr, Instagram
‘va Google Images Các hình ảnh có độ phân giải từ 300x300 pixel trở lên Hình ảnh được
32
Trang 35nhiên, đau khổ, tò mô, và là loại dữ liệu đa nhãn (multi label).
Trang 363⁄1 Mô hình đa phương thức
'Con người sử dụng cảm nhận vẻ thế giới bằng năm giác quan Sử dụng những thông tin được thụ thập từ các giác quan đó để xây dựng và hiểu về mô trường xung quanh Dựa
vào cơ chế hoạt động của con người từ đồ ứng dụng cho các mô hình AI nhằm nắng cao
hiệu suất phân loại của mô hình
Mô hình đa phương thức (muld-modal moáe) là một trong những nghiên cứu hắp
dẫn và đầy triển vọng trong lĩnh vực trí tuệ nhân tạo hiện nay Khác với các mô hình về:
phương thức khi chỉ nhận điện cảm xú khuôn mặt hoặc âm thanh riêng biệt, mô hình đa
phương thức khai thác thông tin từ nhiều nguồn dữ liệu khác nhau nhằm đạt được hiệu xuất
sao, Cỏ nhiều phương pháp kết hợp nhưng chủ yêu có 3 phương pháp kết hợp đa mô hình như
Kết hợp sớm (Early Fusion)
Early Fusion là một kỹ thuật kết hợp dữ liệu từ nhiễu nguồn khác nhau ngay từ giai
đoạn đầu tiên của quá trình học máy Trong Early Fusion, các die trumg (features) từ các
nguồn dữ lều khác nhau sẽ dược kết hợp ại thành một vector đặc trưng duy nhất trước khi đưa vào mô hình 66], [67]
“Trong Early Fusion, thông tin tir ede nguồn dữ liệu khác nhau được kết hợp ngay tr đầu để tạo ra một veetor đặc trưng duy nhất, trước khi đưa vào mô hình học máy Cụ th, đặc trưng toàn điện, tổng hợp các thông tìn quan trọng từ mỗi nguồn, Điều này giúp môi
hình học máy có thể sử dụng một cách toàn diện thông tin tir tat cá các nguồn dữ liệu, từ
đồ cải thiện hiệu suất của mô hình trong việc dự đoán và phân loại Early Fusion thưởng .được ưa chuộng trong các ứng dụng yêu cầu tích hợp thông in từ nhiều nguồn dữ liệu, như
Trang 37khác nhau
Kết hợp 6 cip trung gian (Intermediate-tevel Fusion):
Kết hợp ở cấp trung gian (Intermediate-level Fusion) li mt phuomg phip két hop
đc trừng (featre Rsion) trong các mô hình học sâu, thường được sử dụng trong các bải
toán xử lý đa phương tiện Khác với việc chỉ kết hợp đầu ra cuỗi cùng của các mạng con
(kết hợp ở cấp cao) phương pháp này sẽ kết hợp các đặc trưng ở các tằng ân trung gian là
của mô hình [68], [69]
Điều này cho phép mô hình tận đụng thông tín ở các mức độ trừu tượng khác nhau
“Các đặc trưng ở các tằng trung gian thường chứa thông tin bỗ sung và phân biệt hơn so với
dầu ra cuối cũng, do đồ việc kết hợp chúng giúp mô hình học được biểu diễn tốt hơn cho
bài toán
Kết hợp ở cắp trung gian thưởng giúp cải thiện hiệu suất của mô hình sơ với chỉ sử
dụng đầu ra cuối cùng, đặc biệt hiệu quả trong các bài toán xử lý đa phương tiện, như phân
loại ảnh kết hợp với âm thanh Đây là một kỹ thuật quan trọng trong thết kế kể trúc mo
hình học sâu, gióp tan dụng tối đa thông in từ các nguồn đầu vào khác nhau
Kết hợp ở cắp quyét dinh (Decision-level Fusion)
Kết hợp ở cắp quyết dịnh (Decsion.level Eusion) là một kỹ thuật trong các mô hình
học sâu, khác biệt so với việc kết hợp đặc trưng ở cắp trung gian (Intermediate-level Fusion)
hoặc 1 ra cuỗi công Trong phương pháp này, các mô hình con (như ngư network,
'SVM, .) được độc lập xây dựng và huấn luyện trên các nguồn dữ liệu khác nhau Mỗi mô
hình con đưa ra kết qu riêng đựa trên đầu vào của mình [70], [71] Thay vì kết hợp các đặc trưng hoặc đầu ra trung gian, Kết hợp ở cắp quyết định tập
trung vào việc tổng hợp các cùng từ các mô hình con Các phương pháp kết
Trang 38sắc quyết định từ nhiều mô hình con có th củi thiện độ chính xác và độ tin cây của kết quả
tương quan với nhau,
Kết hợp ở cấp quyết định thường được áp dụng trong các bài toán phân loại, dự
đoán, nhận đạng đa phương khi cần tận dụng thông tin từ nhiêu nguồn khác nhau để
đưa ra quyế định cuối cùng tốt hơn, Đây là một kỹ (huật quan trọng Hong lnh vực học sâu,
siúp nâng cao hiệu suất và độ chính xác của mô hình
2.2 Residual Network
Đối với mô hình ResNet (Residual Network) [72] tốt hơn với những mô hình deep
lsaming cơ bản Khi lan truyền ngược tử các lớp cuỗi căng vỀ các lớp đầu tê sa mạng việc sử đạng những mô hình deep leaming cơ bản khi mô hình thực hiện quá tình lăn
truyền ngược (backpropagation) để cập nhật lai cic mang neural sẽ gây ra hiện tượng
vanishing gradients Đồ là hiện tượng gradient 6 th giảm đăng kể qua mỗi lớp trong quả
trình lan truyền ngược Khi đó gradient s không còn đủ lớn để cập nhật các trọng số của
sắc lớp đầu tiên một cính hiệu quả Qua đó việc sử đụng các kết nỗi nhây tẳng (Skip
connections) trong quá trình la truyỄn ngược cho phép thông tỉn trực tiếp truyền về các
lớp đầu tiên mà không cần phải qua các mạng trung gian
“Công thức của toán học của kiễn trúc ResNet 6 thể được biểu diễn như sau
‘Cho x là đầu vào của khối residual, F(x) là hảm biển đổi của khối residual và y là đầu ra
của khối reidual Trong mỗi khối residual, đầu vào x được truyễn qua một chuỗi các phép
tích chập và các lớp Batch Normalization để tạo ra đầu ra F(x) Sau đó, x được cộng với
F(x) để tạo ra đầu ra cuối cùng y, theo công thức (1):
Trang 39x
Hình 2.1: Kiến trúc cơ ban cia Residual Network Hầu như, tắt cả môt hình ResNet đều có chung một quy luật chỉ khác phần độ sâu
của kiến trúc, Trong đó, ResNetl§ và ResNetð0 là những mô hình đơn giản với tham số,
thích hợp cho các nhiệm vụ phân loại hình ảnh cơ bản, Với độ sâu tương đối nhỏ, chúng có
thể được huấn luyện nhanh chóng và mang lại kết quả đáng kể trên các tập dữ liệt
chuẩn như ImageNet
Đối với ResNet18 có tống cộng 18 lớp, bao gồm các lớp tích chập Conv2D, lớp kích
hoạt Aetivation và lớp pooline Mỗi khối trong ResNetl8 chứa nhiều lớp ích chập với số
lượng lớp tăng dẫn qua các khối Thêm vào đó, mô hình còn sử dụng kết nỗi nổi tiếp
(sequential connection) diy li cach két ni truyén thing, dt iệu được tryỄn từ lớp này
đến lớp tiếp theo và kết nồi nay vot (skip connection) dé gi quyết vẫn đề v sự thoái hóa
độ biến thiên trong quá trình huấn luyện mạng nón sâu Bên cạnh đỏ, ResNet1§ sử dụng
các kỹ thuật regularization như Dropout và Batch Normalization dé cai thign higu suất
37