Mô hình nhận diện cảm xúc dựa trên ngữ cảnh

ai trò trung tâm, chiếm khoảng 55% cơ sở để giúp con người hiểu và giao tiếp với nhau nhà nghiên cứu phân tích và đánh giá nhằm xây dựng được các phương pháp nhân diện cảm xúc và nhiễu n

Trang 1

KHOA CONG NGHE THONG TIN

Te HO.CHI MN

NGUYEN DAT MINH

MO HINH NHAN DIEN CAM XUC DUA TREN

NGU CANH

KHOA LUAN TOT NGHIEP

'TP HỖ CHÍ MINH - NAM 2024

Trang 2

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

KHÓA LUẬN TÓT NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC: Th.S Trần Thanh Nhã

TS Nguyễn Viết Hung

TP.HCM ~ NAM 2024

Trang 3

ôi tên Nguyễn Đạt Minh, tôi xin cam đoan đề ải khoá luận tốt nghiệp “Mô hình nhận điện cảm xúc dựa trên ngữ cảnh” là công trình nghiên cứu của tôi dưới sự hướng dẫn của

là trung thực và không có sự sao chép từ tài liệu khác mà không ghi rõ nguồn trong phần

Tôi xin chịu hoàn ton trách nhiệm về lời cam doan này

"hành phố HỖ Cũỉ Minh, ngày 0 thắng 05 năm 2034

Trang 4

ắc đến Thạc sĩ Trằn Thanh Nhã và Lời đầu tiên em xin chân thành cảm ơn sâu

Nguyễn Viết Hưng là hai người thầy đã hướng dẫn hỗ trợ em rất nhiều trong suốt khoảng,

thời gian nghiên cứu khóa luận Hai thầy với kinh nghiêm và sự âm huyết trong việc nghiê cứu khoa học đã góp phần định hướng, gởi mở và đưa ra nhiều lời khuyên hướng dẫn hữu:

ích giúp em hoàn thành khóa luận một cách tròn vẹn Với sự tận tâm của hai thầy đã là

nguồn cảm húng để em nỗ lúc và giữ ngọn lửa đam mê nghiễn cứu rong mình

'Bên cạnh đó, em muốn gửi lời cảm ơn đến với toàn bộ giáo viên khoa Công Nghệ Thông

Tín đã hỗ trợ và đưa ra những lời khuyên hữu Ích cho đỀ ải Em xin gi ời cảm ơn đến với

cm những bài học bổ ích để em có đầy đã kiến thức để hoàn thành để dải

'Con cũng xin cảm ơn đến gia định, bạn bẻ, người thân, anh chị em và nhóm nghiên cứu

của Thầy Hưng và Thấy Nhã Dặc biệt xin gửi lời cảm ơn đến ba, mẹ đã luôn động viên

luôn đành tình yêu thương vô bờ bến Ba, mẹ là hậu phương vũng chắc, là chỗ dựa tỉnh

thần to lớn để con vững bước theo đuôi ước mơ của mình

Xin chân thành cảm on!

Thành phố Hỗ Chỉ Minh, ngày 08 thắng 05 năm 2034,

Trang 5

LỜI CAM ĐOAN 1

Phạm vi nghiên cứu

Phương pháp nghiên cứu

_Ý nghĩa khoa học thực tiễn

27 1.2 Cac phuong pháp nhận điện cảm xúc của con người

Trang 6

1.2.2 Hoe sau : : _ see DT 1.2.3 Đaphươngthức

3.3 Mô hình trích xuất đặc trưng cơ thể

3.4 Môhình xuất đặc trưng ngữ cảnh

3.5 Mô hình kết hop đa đặc trưng 58

'CHƯƠNG 4 THỰC NGHIỆM VA DANH GL

Trang 7

4.3 Đánh giá kết quả thực nghiệm - —_

CHƯƠNG § - KẾT LUẬN VÀ HƯỚNG PHÁT TRIÊN

TÀI LIỆU THAM KHẢO

Trang 8

‘Amazon Mechanical Turk Multi-Head Self Attention

State OF The Art

Trang 9

Hình 1.1: Một số ứng dụng dự đoán cảm xúc, 15 Hình 1.2: Hình ảnh khuôn mặt các nhà nghiên cứu Ekman và Friesen (1976), „ Hình 1.3: Các mỗi quan hg cam xite trong Emotion Wheel 19 Hình L.: Các đơn vị hành động (AU) được thể hiện trên khuôn mat [23] 20 Hình 1.5: Ảnh thường và nhiệt của báy loại cảm xúc cơ bản [34] 24 Hình 1.6: Nhận điện cảm xúc bằng âm thanh sử dụng mô hinh Recurrent Neural Network

Hinh 1.7: Trinh ty cde burée của phương pháp nhận diện cảm xúc dựa trên EGG [42] 6 Mình 1.8: Kiến trúc mô hình chú ý chéo theo cấp bậc (HCAM) [S9] 29 Hinh 1.9: Nhận diện cảm xúc dùng ngữ cảnh dữ liệu trong EMOTIC [63] 30 Hình 1.10: Ví dụ cho thấy tim quan trong của ngữ cảnh [64] 31 Hình I.11: Hình ảnh về các loại dữ liệu có trong bộ dữ liệu ngữ cảnh a) EMOTIC, b) CAER,

Mình 2.3: Minh họa kiến trúc cơ bản của cơ chế chú ý trên mô hình RNN 41

Hình 2.5: Kiến trie m6 hinh Vision Transformer [80] “ Hình 2.6: (a) BE xuất của Swin Transformer khi gp ee patch lân cận lại (b) Mô hình Vision Transformer với phân chia kích thước qua từng lớp là duy nhất [S1] 46 Hình 2.7: Cơ chế hoạt động của shifted window rong mô hình Swin Transformer [81] 47

Mình 3.2: Ví dụ có thể hiện độ đo VAD với cảm xúc được gán nhãn 51 Hình 3.3: Dinh dang file khi di chuyén ti mat sang esv 52 Hình 3.4: Quy trình trích xuất khuôn mặt trong bộ dữ liệu Emotie “

Trang 10

Hình 3.7: Các hành vi tương ứng với cảm xúc [85] 56

Hình 3.10: Kiến trúc mô hình đa phương thức kết hợp cơ chế chủ ÿ về nhận

Trang 11

Bing 1.1: Cim xii twong ting véi don vi AU

Bang 1.2: Thông kế về kích thước và nhân của các tập dữ liệu Bang 3.1: Ngữ nghĩa của 26 loại cảm xúc,

Bảng 3.2: Định nghĩa các cột giá tị trong file

Bang 4.1: Kết quá huấn luyện mô hình nhận điện cảm xúc dựa trên ngữ cảnh Bảng 4.2: Kết quả AP của từng lớp của mô hình

Bảng 4.3 So sánh mô hình đề xuất với các phương pháp khác

Trang 12

Lý do chọn để tài

Trong những năm gần, với sự tiến bộ đáng kể trong lĩnh vực công nghệ, cuộc cách

mạng về phần cứng kéo theo đó là máy móc đồng một vai trỏ quan trọng rong đối sống của con người Việc giúp robot hiểu được con người vị giáo tếptốt dang là một đ ải thụ

hút được các nhà nghiên cứu vì tỉnh ứng dụng cao Trong đó, nhận di: cảm xúc đang đồng một vài trò quan trọng và có nhiều ứng dụng cao chẳng hạn như: Sự tương tác của người

lấy ví dụ rong sự tương tác của người và mấy tỉnh trên mạng xã hội Vì nn tủng mạng xã

hội là phương tiện để truyền đạt cảm xúc do sự mở rộng nhanh chóng của kỷ nguyên

Intemet Qua đó, các công ty lớn như Facebook luôn đầy mạnh việc phân tích cảm xúc của người dùng cụ thể là Facebook Reaeions được thiết ké để phân tích cảm xúc của người

dùng trên cái bài đăng khác nhau và thể hiện nội dung phù hợp với sở thích và tâm trạng

ccủa họ [4 Việc nhận diện cảm xúc tự động cũng hỗ trợ các bác sĩtheo dõi được tính hình

cảm xúc của bệnh nhân từ đó có thẻ đưa ra thông báo kịp thời các triệu chứng về rối loạn

tm thin [5] Vige nhận điện và phân tích cảm xúc trong giáo dục cũng ngày cảng được đổi phương pháp giảng dạy sao cho phủ hợp [6]

Mục tiêu nghiên cứu

~_ Tìm hiểu về thuyết về nhận điện cảm xúc

= Tim hiểu và phân tích các mô hình nhận diện cảm xúc dựa trên ngữ cảnh

“Xây dựng mô hình nhận diện cảm xúc dựa trên ngữ cảnh

Đối tượng nghiên cứu

= Hinh ảnh chứa các đối tượng đã được gắn nhãn cảm xúc

~_ Môhinh đa phường,

lô

Trang 13

-_ Cơ chế chú ý,

Phạm vi nghiên cứu

+ Tim hig lý thuyế

= Nal n cứu huấn luyện mô hình và thực nghiệm trên bộ dữ liệu EMOTIC

“Xây dựng mô hình nhận diện cảm xúc dựa trên ngữ cánh Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết

Tìm hiểu tổng quan về các công trình nghiên cửu về nhận diện cảm xúc đựa và

sữ cảnh

"Nghiên cứu cơ sở lý thuyết liên quan đến đề tài

Nghiên cửu các kỹ huật tích xuất đặc trưng trên d liệu ảnh sử đụng mô hình học su

* _ Nghiên cứu kỹ thuật kết hợp môi

phương pháp trong tương li

Phương pháp nghiên cứu thực nghiệm

+ Tìm kiếm dữ liệu đáp ứng như cầu của bài toán

« _ Tiến hành xây dựng mô hình học sâu

Ý nghĩa khoa học thực tiễn

"Đề tài “Mô hình nhận diện cảm xúc dựa trên ngữ cảnh” là một phần của bài toán nhận

điện cảm xúc con người Một lĩnh vực liên quan đến tí tuệ nhân to, tâm lý học VỀ mặt

thực tiễn những mô hình nhận điện cảm xúc truyền thống thương chỉ tập trung vào một đặc

Trang 14

sảm xúc con người Bên cạnh đổ là phát iển các mô hình v AT có khả năng nhận điện và thấu hiểu cảm xúc của con người tốt hơn

Cấu trúc luận văn

Dựa vào mục tiêu đã được tình bày, nội dung của luận văn được chỉ thành các phần như sau

Chương mỡ đầu

“Chương này giới thiệu tng quan vé để tài gồm các nội dung như: Lý do chọn để tai,

mục tiêu nghiên cứu, đối tượng nghiên cứu, phạm vĩ nghiên cứu, ÿ nghĩa khoa học thực

tiễn và cấu trúc của đề tải

Chương 1: Tổng quan về tỉnh hình nghiên cứu

“Chương này sẽ giới thiệu về tổng quan các công trình nghiên cứu trong nh vực nhận

diện cảm xúc ở con người Trình bày các nghiên cứu đã được áp dụng để giải quyết bải toán

nhận diện cảm xúc Giới thiệu bác tập dữ liệu chuẫn được các nhà nghiên cứu đang sử dụng

Chương 2: Cơ s lý thuyết

“Chương này trình bày lần lượt các phương pháp được sử dụng trong để tải Đồng thời

và kết hợp với cơ chế chủ ý

Trang 15

Chương này sẽ so sảnh các kết quả đạt được khi huẳn luyện mô hình trên tập đã liệu đã chọn

Chương 5: Kết luận và hướng phát triển

“Tổng kết lại những kết quả đạt được và chưa đạt được sau quả tỉnh nghiên cứu, tiến

hành thực nghiệm Từ đó nêu ra những hướng nghiên cứu và phát triển cho để tải khắc phục

những hạn chế ở hiện tại

Trang 16

11 Téng quan

Hiện nay, trí tuệ nhân tạo (AI) đang là xu hướng công nghệ hàng đầu được các tập đoàn

công nghệ trên toàn thể giới ích cực nghiền cứu và phát tiễn Cúc mô hình AI tiên

đang được ứng dụng và tích hợp vào các sản phẩm phần mềm nhằm tăng cường hiệu s

tự động hóa quy trình và mang lại trải nghiệm người dùng tốt hơn Mục tiêu cuối cùng của các doanh nghiệp khi áp dụng AI à tối ưu hóa hoạt động kinh doanh, giảm chỉ phí vận hành

và đạt được lợi nhuận cao hơn Ngoài ra, rí tuệ nhân tạo còn nâng cao chất lượng sống của con người mang lại nhiều lợi ích

Trong nghiên cứu về cảm xúc trong lĩnh vục chăm sóc sức khỏe là một lĩnh vực quan

trọng và ngày cảng nhận được nhiều sự quan tâm Điều này là do cảm xúc đồng một vai trò

"bệnh nhân Nhiều nghiên cứu đã chỉ ra rằng các biễ

đầu hiệu quan trọng về tình trạng súc khỏe của một người Các biểu hiện cảm xúc trên khuôn mặt có thẻ thấy dấu hiệu của một số bệnh lý như đau đớn, mệt mỏi, tâm thân phân liệt hoặc trằm cảm Trong đồ sự suy giảm trong bigu hiện cám xúc lã một đặc điểm nỗi bật

tồi loạn này thường gặp khô khăn trong việc nhận bit diễn đại và điều chính cảm xúc của mình một cách thích hợp với hoàn cảnh Điều này có thể dẫn đến khó khăn rong giao tiếp

và thiết lập các mỗi quan hệ xã hội Ngoài ra, sự mắt liên kết cảm xúc cũng có thể làm tăng

nguy cơ xuất hiện các triệu chứng tiêu cực khác như ảo giác, hoang tưởng và rồi loạn hành

vi [7] Không những vậy các cảm xúc tiêu cực như khinh thường, ít cười kèm theo các biểu

hiện trên khuôn mặt cũng là những dấu hiệu của bệnh trằm cảm [R] [9] Không chỉ nhận dõi và phân tích cảm xúc của học sinh trong quả tình học tập có th giúp giáo viễn thay

đối nội dung và điều chỉnh phương pháp dạy học Trong nghiên cứu [10] đã khảo sát các,

“4

Trang 17

sinh cổ những cảm xúc tích cực như sự thích tht (enjoyment), nigm tr ho (pride) thi dat

(anxiety), xấu hỗ (shame), buồn chán (borcdom), tuyệt vọng (hopelessness) sẽ nhận được

những điểm số thấp Ngoài ra, việc tiếp xúc với nhiễu nguồn tr thức làm cho học sinh, sinh

viên phải nỗ lực nhiều Lin va gay ra các triệu chứng căng thẳng, trằm cảm và các bệnh tâm

lý khác cho nên việc nhân dạng cảm xúc giúp giáo viên và phụ huynh có th phát hiện sớm,

và can thiệp kịp thời Một vải ứng dụng trong bài toán nhận diện cảm xúc được thể hiện ở

Hình 1.1

Hình 1.1: Một số ứng dụng dự đoán cảm xức

Từ những lợi ích và tằm quan trọng đó mà n điện cảm xúc mang lại đã thu hút được

sự quan tâm lớn của các nhà khoa học trong các lĩnh vực như trí tuệ nhân tạo, máy học và

nói đã được chứng mình là một phương pháp hiệu quả để nẵng cao độ chính sắc và độ tin

Is

Trang 18

ai trò trung tâm, chiếm khoảng 55% cơ sở để giúp con người hiểu và giao tiếp với nhau nhà nghiên cứu phân tích và đánh giá nhằm xây dựng được các phương pháp nhân diện cảm xúc và nhiễu nghiên cứu đã đạt được kết quả khả quan[14), 15], [6]

CCharles Dravin đã đưa ra lý thuyết quan trọng về nguồn gốc và chức năng của cảm xúc

Darwin tin rằng cảm xúc có nguồn gốc từ quá trình tiễn hóa để giúp sinh tồn và thích nghĩ

Darwin nhận thấy rằng các biểu hiện cảm xúc như nết mặt, cử chỉ có nhiều điểm tương với động vật việc thể hiện cảm xúc thông qua hành động tuy không đa dạng như con người như chúng ta vẫn có th nhận diện cảm xúc của động vật thông qua những cử chỉ như "chớp,

(I7, Lý thuyết của Chares Drawin là nỀn tảng cho nhiều nghiên cứu và tranh luận tong khoa họ tâm lý về bả chất của cảm xúc con ngườ

“Trong nghiên cứu [I8] của tác giả Paul Ekman đã đưa ra lý thuyết về cảm xúc cơ bản

cia con người ĐỂ chứng mình các đối tượng ở những nền văn hóa khác nhau vẫn cổ xuất thập đữ liệu ở New Guinea bằng cách kể những câu chuyện và cho họ xem một vài hình

cảnh Từ đó, yêu cầu những đổi tượng nghiên cứu chọn những khuôn mặt ứng với cảm xúc

phù hợp Kết quả được tổng hợp và phân tích đã chỉ ra gồm có 6 cảm xúc cơ bản biểu hiện

16

Trang 19

(disgust) va ngge nhién (surprise), duge thé hign Hinh 1.2

Điều này cho thấy Ekman và Eriesen đã bắt đầu xây dựng một hệ thống quy tắc phức

lự đoán cảm xúc dựa trên các

top cảm khuôn mặt, ngay cả khi không phải tất

cả các yếu tổ đặc trưng đều được hiễn thị đầy đủ Đây là một bước quan trong trong qui

trình phát triển phương pháp đánh giá biểu cảm khuôn mặt một cách chính xác

Bộ ảnh "Pictures of Facial Affect" do Ekman va Friesen (1976) phát triển đóng vai trò then chét trong nghiên cứu về nhận diện cảm xúc Trong bộ ảnh này, 6 loại cảm xúc cơ bản

cđược thể hiện, bao gồm: giận dit (Anger), ghé tm (Disgust), so hãi (Fe) hạnh phúc

này được chỉ lại từ 6 người mẫu nữ và 4 người mẫu nam Bộ ảnh này đã trở thảnh một tập

cdữ liệu tiêu chuẩn được sử dụng rộng rãi trong các nghiên cứu vỀ nhận điện cảm xúc từ

hình ảnh khuôn mặt

F2 F4 F5 F6 F7 F8 MI M4 M6 M6

1

Trang 20

xúc như tức giận (A), ghé tom (D), sợ hãi (F), hạnh phúc (H), buồn (S) và ngạc nhiên (U),

MI là mẫu nam đầu tiên,

Ngoài 6 loại cảm xúc cơ bản phố biến của Paul Elonan Ông còn thực nghiệm và cho

rằng có nhiều loại cảm xúc không nằm trong 6 loại cảm xúc cơ bản Trong nghiên cứu [19]

đđã chỉ ra 27 loại cảm xúc khác nhau như kinh đị, buồn, sợ hi, tức giận, xấu hỗ Tuy nhiên, nhau bởi những dã liên tục (continuous gradien), có nghĩa là các cảm xúc có thể chuyển dần từ cấp độ này sang cắp độ khác thay vì thay đổi đột ngột

Không những có các công trình nghiền cứu về cảm xúc bằng hình ảnh Paul Ekeman

cùng với các cộng sự [20] đã nghiên cứu về việc âm thanh tương tự với việc thực nghiệm

trên hình ảnh, Các nhà nghiên cứu đã phát những đoạn âm thanh với các phiên bản khác

nhau vỉ dụ: cảm xúc ghế tõm âm thanh chủ yếu làng nôn mữa, nỗi sợ tiếng lahứ Từ

đó tổng hợp và so sánh việc lựa chọn âm thanh tương ứng với cảm xúc của từng dân cư:

khác nhau và nghiên cứu đã đi đến

tương ứng với những loại cảm xúc cơ bản được cũng cổ bằng cảm xúc khuôn mặt Tir phat luận Những cảm xúc được nhận diện từ âm thanh

hiện này bổ sung thêm cho ác lý thuyết để xuất những cảm xúc cơ bản đã cố ừ lúc con

người tiến hóa và được chuyển cho các đời sau

"Để trực quan hóa mồi liên hệ giữa các cảm xúc của con người Nhà tâm lý học Robert Putchik (1927 - 2006) đã giới thiêu mô hình bánh xe cảm xúc (Emotion Wheel) trong c sách "Emotion: A Psychoevolutionary Synthesis” [21] được mô tả trong Hình 1.3, Bánh xe

này thể hiện mỗi quan hệ giữa các cảm xúc cơ bản theo hình trồn hoạt động giếng với ảnh,

xe màu sắc, Trong đó các cảm xúc tương đồng nằm gần nhau và các cảm xúc đổi lập nằm

Trang 21

‘cu dé nhận diện, phân tích và quản lý các cảm xúc hiệu quả hơn

N

Hình L3: Các mỗi quan hệ cảm xic trong Emotion Wheel Bên cạnh đồ, lý thuyết đánh giá (Appraisal Theory) là một ý thuyết tâm lý học, tập trung vào cách con người đánh giá và phân ích ác sự kiện, ngữ cảnh và tỉnh huồng để tạo kiện ở nhũng cá nhân và ừ sự kiện kháe nhau bằng cách sử dụng thông tin bi cn, lich

nhạy cảm khác của cá nhân để đánh giá cảm xúc trong từng sự kiện trong bối

'Nhằm xác định cảm xúc thông qua nét mặt, nhiều hệ thống mã hóa đã được sử dụng và

Hệ thống mã hóa hành động khuôn mặt (EACS) là những hệ thông phỏ biến nhất trong số

đó, Để nắm bắt được sự tinh té trong nét mặt con người, cằn có sự mô tả chỉ tiết về nét mặt

Facial Action Coding System (FACS) -

hệ th thống mã hóa hành động trên khuôn mặt là một

1g dựa trên người quan sắt được thiết kế để phát hiện những thay đổi trên các đặc điểm trên khuôn mặt [22],

19

Trang 22

đơn vị hành động AU, bao gồm 44 đơn vị hành động (AU) Theo nghiên cứu về AU trong nhận diện cảm xúc khuôn mặt, có tổng cộng 44 sợi cơ mặt được định nghĩa và phân loại

30 sợi cơ liên quan mật thiết về mặt giải phẫu với sự co giãn của các nhóm cơ mặt cụ thể,

14 cơ còn lại được gọi là các hành động khdc (Additional Actions), không trực tế

‘quan đến các biểu cảm cảm xúc cơ bản

Trang 23

Emotion Bonus movement | Subtraction action | Action unit

Brow Raise, Brow

Brow Raise, Smile, Brow Furrow, Lip

Sadness Suck, Eye Widen Lip Press, Mouth | AUL+AU4+AUIS

Open Toner Brow Raise, Smile, Brow AUI+AU2

Widen

AUI+AU2+

Brow Raise, Eye | Brow Furrow AU7+AU20

a Brow Furrow, Eye | Inner BrowRaise, | AUS+AUS+

s Widen, Chin Raise | Brow Raise, Smile | AU7+AU23

Brow Raise, Bye Inner Brow Raise, Widen, Mouth AU94AUI5+

Comer Depressor Smile

Trang 24

phát triển các ứng đụng hỗ trợ con người đựa trên nhận diện cảm xúc, tạo ra một môi trường

khía cạnh phức tạp bao gồm nhiễu yếu tố biểu hiện như gương mặt, giọng điệu, ngôn ngữ

sơthể Bên cạnh đồ, môi trường xung quanh cũng ảnh hưởng nhiễu đến cảm xúc của con

người Do đó, việc tích hợp thông tin về ngữ cảnh vào quá trình nhận điện cảm xúc không

chỉ giúp cái thiện độ chính xắc của mô hình mà côn làm tăng khả năng tổng quất hóa và

hiểu biết sâu hơn về cảm xúc của con người trong các tình huống thực tế,

“Các đặc điểm của một bức ảnh về cảm xúc trong ngữ cảnh sẽ miêu tả môi trường trong

đồ có bối cảnh và đối tượng mục tiêu được dự đoàn cảm xúc Nhiễu nghiên cứu [25), [26],

[27] đã sử dụng đa phương thúc để xử lí các đặc trung của bối cảnh và đối tượng trong hình Để có thể bổ sung thông tin cho nhau khi một phương thức gặp khó khăn thì

những phương pháp khác có thể hỗ trợ và cung cấp thông tin cho những nhánh khác Gần

đây, mô hình đa phương thức là một vẫn đề được nhiều nhà nghiên cứu quan tâm Việc sử: liệu sao cho hợp lý Tử đó, có các phương pháp chiến lược chính được sử dụng để giải

“quyết bài toán Trong nghiên cứu này, lộc sử dụng đa phương thức nhm kết hợp được các .đặc trưng có trong hình ảnh từ đó mô hình sẽ kết hợp và phân tích các đặc trưng của ngữ

cảnh xung quanh

'Bên cạnh việc áp dụng các mô hình xử lý hình ảnh đẻ nhận điện cảm xúc, các nghiên

cứu mới đây trong nh vực này đã mở rộng phạm vỉ bằng cách xây dựng các mô hình tỉ

thức, nhằm hiểu sâu hơn về ngữ cảnh của hình ảnh Qua việc tích hợp tri thức, khả năng dự

đoán cảm xúc của các đối ượng trong hình ảnh đã được cải thiện đáng kể, đánh dẫu một (29), [30], Vige miêu tả cảm xúc trong ngữ cảnh sử đụng đỗ thị tị thức sẽ giảm được thồi

gian tính toán khi sử dụng những mô hình học sâu để trí :h xuất đặc trưng ngữ cảnh của ảnh

Trang 25

triển của công nghệ xử lý ảnh và trí tuệ nhân tạo, khả năng nhận diện được các biểu cảm và

cảm xúc trên hình ảnh khuôn mặt con người ngày cảng chỉnh xác và hiệu quả Nhiễu nhà nghiên cứu đã sử dụng ảnh thường để nhận diện cảm xúc chủ yếu là hình ảnh, khuôn mặt Nghiên cấu [31] đã xây dựng một hệ thống nhận điện sử dụng mạng neural kết khuôn mặt ừ đồ nhận điện được cảm xúc trên khuôn mặt Trong đỏ, Shỉhao Xu và cộng sử

Laban Movement Analysis (LMA) [33] nhằm phân tích đánh giá cách thức di chuyển và sử

dung co thé trong không gian Thêm vào đó nghiên cứu côn so sinh các mô hình SVM

Naive Bayes, Random Forest trên bộ dữ liệu họ đã xây dựng đạt được nhiều kết quả khả

quan

Bên cạnh việc sử dụng dữ liệu ảnh thường để nhận diện cảm xúc, H Nguyen và công

Kotani Thermal Emotion (KTFE) két hợp ảnh thường

và ảnh nhiệt về cảm xúc con người được biểu diễn Hình I5 nhằm tăng cường hiệu suất

sự [34] đã xây dựng một bộ dữ li

nhận diện cảm xúc của con người

Trang 26

Hinh 1, Ảnh thưởng và nhiệt của bảy loại cảm xúc cơ bản [34] 1.1.3 Nhận điện bằng âm thanh

Sử dụng đặc trưng âm thanh trong việc nhận diện cảm xúc là một phương pháp hiệu quả

vì giong nói và cách thức phát âm của con người thường phản ánh rõ rằng trạng thái cảm xúc của họ Có nhiều lý do để sử đụng đặc trưng âm thanh cho nhận diện cảm xúc

này sẽ ảnh hưởng đến cách

Khi con người cảm thấy buồn, vui, giận dữ, sợ hãi,

tổ âm thanh như tần sổ,

họ nói chuyện Biểu hiện của cảm xúc được thể hiện qua c

âm lượng, nhịp độ, tính chất của giọng nói (run rẩy, khản đặc, ) các yếu tổ này được biển đổi thành đặc trưng phổ âm thanh (Specưal Features) như: Mel-Frequency Cepstral (MECC), Mel Spetrogram,

Trang 27

và bộ dữ liệu UGA được trích xuất đặc trưng năng lượng cao 46, hé sé MECC, LPCC phân loại cảm xúc đựa trên các đặc trưng đã trích xuất Trong đó, khi sử dụng đặc trưng MFC cho được kết quả cao hơn khi ding LPCC

“Trong nghiên cứu [36], các nhà nghiên cứu đã đề xuất sử dụng Bag-ofAudio-Words (BoAW) để chuyển dữ liệu âm thanh thành các veelor đặc trưng Từ các đặc trưng đồ sử

nhận diện cảm xúc của đổi tượng, Mô hình được mô tỉ ở Hình Ló

đặt điểm văn hóa của lừng ngư những loại cảm xúc biểu hiện ra bên ngoài phy thuộc vào độ tuôi và và mang tính chủ quan nên việc đánh giá chính xác cảm

"xúc gặp khó khăn, Ngoài ra, việc không thể hiện cảm xúc mạnh hoặc che gidu cảm xúc tốt

35

Trang 28

không thể nối rõ rằng và bày tờ cảm xúc của mình thông qua lồi nói tự nhiền hoặc bị khuyết tậtvề thể chất và không thể bảy tò cảm xúc của mình thông qua nết mặt hoặc tư thể cơ thể,

việc nhận điện cảm xúc của giọng nói, biểu cảm và tư thể trở nên bắt khả thí Từ đó, một

ố nhà nghiên cứu đãsử dụng hoạt động sinh lý (hoặc manh mỗi sinh lý) để nhận điện cảm,

xúc Phương pháp đựa trên các tin hiện sinh lý được coi là sự bổ sung hiệu quả cho phương

pháp nhận biết đa trên các tin hiệu phí sinh lý, chẳng hạn như nhịp im [37], trở khẳng của

đa (skin impedance) [38], hô hắp [39] hoặc tín hiệu não từ chụp cộng hưởng từ chức năng

(MRI) [40] và điện não đồ để xác nhận các tinh trạng cảm xúc [41]

Trinh ty các bước của phương pháp nhận điện cảm xúc dựa trên EGG [42],

Trang 29

1.2.1 Máy học

Vector hd try (SVM), Naive Bayes, Decision Tree, Random Forel, Các phương pháp này thường dựa trên các đặc trang thi dng duge rit trch tr vin bin nhurb§ we vung,

‘TE-IDF vi n-gram

Trong đó nghiên cứu {43] Xây dựng một hệ thống nhận dạng biểu cảm khuôn mặt sử

SVM SVM véi hat nhin RBF (Radial Basis Function) dat d6 chinh xc cao nhit, khoảng

87% trên bộ dữ liệu Japanese Female Facial Expression (JAFFE) vi 77% University Facial Expression (MUFE) vượt trội so với các phương pháp truyền thống

"Ngoài ra, với sự phát triển của các mạng xã hội các loại dữ liệu văn bản đa dạng vì vậy trong nghiên cứu [44] 43 diing Term Frequency- Inverse Document Frequency (TF-IDF)

‘cing với tập từ phụ định kết hợp với Linear Support vector machine (LSVM) cho việc phân loại cảm xúc trong text

122 Học sâu

Gần đã sa phát triển của các mồ hình họ sâu, đặc biệt à các mỗ hình mạng nơ-ron tích chập (CNN) và biến thể của chúng đã mang lại những cải tiến đáng kể trong phân loại

được các đặc trưng từ dữ liệu

“Các hệ thống nhận diện cảm xúc bằng ảnh thường sẽ có nhiều nhược điểm dẫn tối việc

mô hình nhận diện nhằm lẫn gây ra bởi các yếu tổ như điều kiện ánh sáng không tốt, chất

lượng hình ảnh không được đảm bảo, cảm xúc của người được nhận diện không được thể

hiện rõ ra bên ngoài

Trang 30

trên nhiều kênh khác nhau chẳng han như: video[45] (46], âm thanh [36], [47], văn ban [48], ding đi [49]

1.2.3 Da phương thức

Ngoài việc sử dụng đơn phương thức trên một bộ nguồn dữ liều duy nhất, nhiều

nghiên cứu đã kết hợp các đặc trrng của nhiều bộ dữ liệu lại với nhau nhằm nâng cao hiệu suất của mô hình nhận diện Các công trình nghiên cứu trước cũng chỉ ra rằng việc sử dụng

{50}, [51], Bing eée học nhiễu nguồn thông tin khác gip mô hình cỏ khả năng hiểu và

phân tích dữ liệu một cách toàn diện hơn Nhiều nghiên cửu đã sử dụng đồng thời hai loại

dữ iệu là video kết hợp với âm thanh từ đó nhiễu mô hình đạt được độ chính xác cao [52]

thanh Kiến trúc mô hình có thể phân tích và xử lí được dữ liệu giọng nói ở cấp độ tín hiệu

đến cấp độ ngôn ngữ Từ đó sử dụng thông tin của giợng nồi một cách toàn điện hơn so với

dữ êu của khuôn mặt và tính hiện 10 dé tang độ chính xác của phương pháp [56], 57] Trong nghiên cứu [58] tác giả đã phân tích dữ liệu giọng nói vả hình ảnh rồi kết hợp thông tin của bai loại dữ liệu Tác giả cũng đã so sánh việc kết hợp bộ dữ liệu đơn chỉ có video hình chú ý chéo theo cắp bậc (HCAM) được miêu tả trong Hình 1.8 để nhận diện cảm xúc

đa phương thức với bai loại dữ liệu là văn bản và âm thanh Mô hình được thực nghiệm với các mô hình khác và đạt được kết quả slate-of-the-art (SOTA),

Trang 31

1.2.4 Sử dụng ngữ cảnh

Mặc dủ đã cô nhiều phương pháp về nhận diện căm xúc đã kể trên như phương pháp

đó chỉ tập trung vào những đặc điểm bên ngoài lẫn bên trong con người Bên cạnh đó, việc cảm xúc Theo nhiều nghiên cứu khác nhau, độ chính xác của việc nhận diện cảm xúc dựa

nhau như cơ thể của đối tượng nhiều

tượng không liên quan (người khác rong cảnh),

và phông nền lớn với khuôn mặt có kích thước nhỏ Vai trò của tư thể cơ thể và thông tin

ngữ cảnh đã bị bỏ qua, mặc dù đã có nhiều nghiên cứu trước đó chi ra ring chúng đóng vai

trò quan trọng trong việc đánh giá cảm xúc Các nghiên cứu đồ đã tiết lộ rằng tư thể cơ thể

[60] và hậu cảnh cũt

hưởng đến trạng thấi cảm xúc và khi ngữ cảnh được tích hợp, chúng ta có thể suy luận được ing [61] có thể được sử dụng đẻ ước tính cảm xúc, vì chúng thưởng ảnh

nhiều trạng thái tâm trạng hơn Trong nghiên cứu về ảnh hưởng của ngữ cảnh [62] tác giả

đã đồ cập vé tm quan trọng của iệc sử dụng ngữ cảnh để nhận diện cảm xúc Trong nghiên

cứu đó cũng đã chia nhận diện cảm xúc ra làm ba cấp Cấp một là đề cập tới các yêu tô cá

29

Trang 32

diện các yêu tổ tỉnh huồng, liên quan đến môi trường, bối cảnh xung quanh đối tượng, các

mối quan hệ trong xã hội CẮp ba bao gồm các yếu tổ văn hồa, định hướng văn hồn của

từng cá nhân có thể ảnh hưởng đến cảm xúc

Hiểu được cảm xúc của con người đồng một vai trd quan trọng trong tương tác xã

hội Khả năng nảy là cần thiết để nhận biết, dự đoán và phản ứng một cách quan tâm đối

với phản ứng của người khác Con người rất giồi trong việc quan sắt và chúng ta thường

ta quan sit mét ai dd, chúng ta cổ thể ước tính được ắt nhiều thông in về trạng thái tinh

Hình 1.9 a, chúng ta tự đặt mình vio tinh huồng của đối tượng và cố gắng dự đoán cảm xúc của đối tượng nằm trong bounding box Chúng ta có thể thấy rằng không thể dùng các phương pháp dùng khuôn mặt để nhận diện được cảm xúc của đối tượng vì đã bị che khuất Nhưng khỉ nhìn tổng thể chúng ta có thể thấy người này đang cảm thấy bình yên (Peace) hạnh phúc (Happiness) và tình cảm (Aection) Ngoài ra, trong Hình 1.9 b, có thể nhận ra

‘quan đó cho thấy sự hạnh phúc (Happiness) Cũng có thể thấy cô ấy đang bình thản và thư giản cho thấy một cảm giác chung lả sự thanh bình (Peace) Mie di không biết chính xác được những người đó đang nghĩ gì nhưng có thể trích xuất thông tin và dự đoán được cảm Xúc của người trong ảnh,

Hình 1.9: Nhận điện cảm xúc dùng ngữ cảnh dữ liệu trong EMOTIC [63]

30

Trang 33

để dự đoán cảm xúc đựa trên nét mặt, chẳng ta cổ thể không chắc hắn về loại cảm xúc cự

làm cho việc nhận điện cảm xúc của bức ảnh chở nên chắc chắn hơn Từ các ví dụ trên cho

thấy tùy thuộc vào ngữ cảnh con người có thể dự đoán được cảm xúc của đối tượng Bên

canh đó, việc thêm thông tin về ngữ cảnh có thể làm tăng sự chính xác khi nhận điện cảm xúc Trong khi đó việc xây dựng các mô hình hiện đại đều được dựa trên cách thức mà con

tăng hiệu suất cho mô hình nhận điện cảm xúc mã chúng tôi muốn hướng đến

Mình 1.10: Ví dụ cho thấy tằm quan trọng của ngữ cảnh [64]

13 Cae ập dữ liệu chuẩn

Để có thể phân tích và huấn luyện mô hình việc cỏ đữ liệu là điều vô cùng quan trọng

“Trong dỀ tài nghiên cứu về nhận diện cảm xúc sử dựng ngữ cảnh đã có một vải bộ dữ liệu

được các nhà nghiên cứu công bồ gắn đây Các bộ dữ liệu này đã được phân tích và sử dụng

trong việc xây dựng các phương pháp nhận diện cảm xúc dựa trên bồi cảnh như EMOTIC

[63], CAER [65], HECO [25]

31

Trang 34

Tình 1.11: Hình ảnh về các loi dữ liệu có tong bộ dữ liệu ngữ cảnh a) EMOTIC, b) CAER, c) HECO

Băng L2: Thông kê về kích thước và nhân của các tập dữ liệu

"Tên dữ liệu weno ĐỂ Nhãn cảm xúc - Loại dữliệu Đối mg dave EMOTIC[68] 183l6ảnh 26loại ảnh 34320 CAER-S(65] 70,000 in Tosi ảnh 70,000 CAER 65] 13,201 clips 7loại clips HECO [25] 9,385 anh 8 loại ảnh

“Trong đó, dữ liệu CAEER được xây dựng hơn 13,00 đối tượng trong video ứng với 7

loại cám xúc như Happy, Sad, Surprise, Fear, Anger, Neutral Cũng một nhóm nghiên cứu

'CAER-S là dữ liệu về video chủ yêu từ các truyền hình, phim sitcom

HECO là bộ dữ liệu thiết kế để nhận diện cảm xúc dựa trên ngữ cảnh có 8 lớp

Surprise, Excitement, Happiness, Peace, Disgust, Anger, Fear, vi Sadness Hình ảnh chit

yếu được thu thap trén intemet

Đối với bộ dữ liệu EMOTIC được xây dung tie ngudn trực tuyển nh Flickr, Instagram

‘va Google Images Các hình ảnh có độ phân giải từ 300x300 pixel trở lên Hình ảnh được

32

Trang 35

nhiên, đau khổ, tò mô, và là loại dữ liệu đa nhãn (multi label).

Trang 36

3⁄1 Mô hình đa phương thức

'Con người sử dụng cảm nhận vẻ thế giới bằng năm giác quan Sử dụng những thông tin được thụ thập từ các giác quan đó để xây dựng và hiểu về mô trường xung quanh Dựa

vào cơ chế hoạt động của con người từ đồ ứng dụng cho các mô hình AI nhằm nắng cao

hiệu suất phân loại của mô hình

Mô hình đa phương thức (muld-modal moáe) là một trong những nghiên cứu hắp

dẫn và đầy triển vọng trong lĩnh vực trí tuệ nhân tạo hiện nay Khác với các mô hình về:

phương thức khi chỉ nhận điện cảm xú khuôn mặt hoặc âm thanh riêng biệt, mô hình đa

phương thức khai thác thông tin từ nhiều nguồn dữ liệu khác nhau nhằm đạt được hiệu xuất

sao, Cỏ nhiều phương pháp kết hợp nhưng chủ yêu có 3 phương pháp kết hợp đa mô hình như

Kết hợp sớm (Early Fusion)

Early Fusion là một kỹ thuật kết hợp dữ liệu từ nhiễu nguồn khác nhau ngay từ giai

đoạn đầu tiên của quá trình học máy Trong Early Fusion, các die trumg (features) từ các

nguồn dữ lều khác nhau sẽ dược kết hợp ại thành một vector đặc trưng duy nhất trước khi đưa vào mô hình 66], [67]

“Trong Early Fusion, thông tin tir ede nguồn dữ liệu khác nhau được kết hợp ngay tr đầu để tạo ra một veetor đặc trưng duy nhất, trước khi đưa vào mô hình học máy Cụ th, đặc trưng toàn điện, tổng hợp các thông tìn quan trọng từ mỗi nguồn, Điều này giúp môi

hình học máy có thể sử dụng một cách toàn diện thông tin tir tat cá các nguồn dữ liệu, từ

đồ cải thiện hiệu suất của mô hình trong việc dự đoán và phân loại Early Fusion thưởng .được ưa chuộng trong các ứng dụng yêu cầu tích hợp thông in từ nhiều nguồn dữ liệu, như

Trang 37

khác nhau

Kết hợp 6 cip trung gian (Intermediate-tevel Fusion):

Kết hợp ở cấp trung gian (Intermediate-level Fusion) li mt phuomg phip két hop

đc trừng (featre Rsion) trong các mô hình học sâu, thường được sử dụng trong các bải

toán xử lý đa phương tiện Khác với việc chỉ kết hợp đầu ra cuỗi cùng của các mạng con

(kết hợp ở cấp cao) phương pháp này sẽ kết hợp các đặc trưng ở các tằng ân trung gian là

của mô hình [68], [69]

Điều này cho phép mô hình tận đụng thông tín ở các mức độ trừu tượng khác nhau

“Các đặc trưng ở các tằng trung gian thường chứa thông tin bỗ sung và phân biệt hơn so với

dầu ra cuối cũng, do đồ việc kết hợp chúng giúp mô hình học được biểu diễn tốt hơn cho

bài toán

Kết hợp ở cắp trung gian thưởng giúp cải thiện hiệu suất của mô hình sơ với chỉ sử

dụng đầu ra cuối cùng, đặc biệt hiệu quả trong các bài toán xử lý đa phương tiện, như phân

loại ảnh kết hợp với âm thanh Đây là một kỹ thuật quan trọng trong thết kế kể trúc mo

hình học sâu, gióp tan dụng tối đa thông in từ các nguồn đầu vào khác nhau

Kết hợp ở cắp quyét dinh (Decision-level Fusion)

Kết hợp ở cắp quyết dịnh (Decsion.level Eusion) là một kỹ thuật trong các mô hình

học sâu, khác biệt so với việc kết hợp đặc trưng ở cắp trung gian (Intermediate-level Fusion)

hoặc 1 ra cuỗi công Trong phương pháp này, các mô hình con (như ngư network,

'SVM, .) được độc lập xây dựng và huấn luyện trên các nguồn dữ liệu khác nhau Mỗi mô

hình con đưa ra kết qu riêng đựa trên đầu vào của mình [70], [71] Thay vì kết hợp các đặc trưng hoặc đầu ra trung gian, Kết hợp ở cắp quyết định tập

trung vào việc tổng hợp các cùng từ các mô hình con Các phương pháp kết

Trang 38

sắc quyết định từ nhiều mô hình con có th củi thiện độ chính xác và độ tin cây của kết quả

tương quan với nhau,

Kết hợp ở cấp quyết định thường được áp dụng trong các bài toán phân loại, dự

đoán, nhận đạng đa phương khi cần tận dụng thông tin từ nhiêu nguồn khác nhau để

đưa ra quyế định cuối cùng tốt hơn, Đây là một kỹ (huật quan trọng Hong lnh vực học sâu,

siúp nâng cao hiệu suất và độ chính xác của mô hình

2.2 Residual Network

Đối với mô hình ResNet (Residual Network) [72] tốt hơn với những mô hình deep

lsaming cơ bản Khi lan truyền ngược tử các lớp cuỗi căng vỀ các lớp đầu tê sa mạng việc sử đạng những mô hình deep leaming cơ bản khi mô hình thực hiện quá tình lăn

truyền ngược (backpropagation) để cập nhật lai cic mang neural sẽ gây ra hiện tượng

vanishing gradients Đồ là hiện tượng gradient 6 th giảm đăng kể qua mỗi lớp trong quả

trình lan truyền ngược Khi đó gradient s không còn đủ lớn để cập nhật các trọng số của

sắc lớp đầu tiên một cính hiệu quả Qua đó việc sử đụng các kết nỗi nhây tẳng (Skip

connections) trong quá trình la truyỄn ngược cho phép thông tỉn trực tiếp truyền về các

lớp đầu tiên mà không cần phải qua các mạng trung gian

“Công thức của toán học của kiễn trúc ResNet 6 thể được biểu diễn như sau

‘Cho x là đầu vào của khối residual, F(x) là hảm biển đổi của khối residual và y là đầu ra

của khối reidual Trong mỗi khối residual, đầu vào x được truyễn qua một chuỗi các phép

tích chập và các lớp Batch Normalization để tạo ra đầu ra F(x) Sau đó, x được cộng với

F(x) để tạo ra đầu ra cuối cùng y, theo công thức (1):

Trang 39

x

Hình 2.1: Kiến trúc cơ ban cia Residual Network Hầu như, tắt cả môt hình ResNet đều có chung một quy luật chỉ khác phần độ sâu

của kiến trúc, Trong đó, ResNetl§ và ResNetð0 là những mô hình đơn giản với tham số,

thích hợp cho các nhiệm vụ phân loại hình ảnh cơ bản, Với độ sâu tương đối nhỏ, chúng có

thể được huấn luyện nhanh chóng và mang lại kết quả đáng kể trên các tập dữ liệt

chuẩn như ImageNet

Đối với ResNet18 có tống cộng 18 lớp, bao gồm các lớp tích chập Conv2D, lớp kích

hoạt Aetivation và lớp pooline Mỗi khối trong ResNetl8 chứa nhiều lớp ích chập với số

lượng lớp tăng dẫn qua các khối Thêm vào đó, mô hình còn sử dụng kết nỗi nổi tiếp

(sequential connection) diy li cach két ni truyén thing, dt iệu được tryỄn từ lớp này

đến lớp tiếp theo và kết nồi nay vot (skip connection) dé gi quyết vẫn đề v sự thoái hóa

độ biến thiên trong quá trình huấn luyện mạng nón sâu Bên cạnh đỏ, ResNet1§ sử dụng

các kỹ thuật regularization như Dropout và Batch Normalization dé cai thign higu suất

37

Tiêu đề	Mô hình nhận diện cảm xúc dựa trên ngữ cảnh
Tác giả	Nguyễn Đạt Minh
Người hướng dẫn	Th.S Trần Thanh Nhã, TS. Nguyễn Viết Hưng
Trường học	Trường Đại học Sư phạm TPHCM
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	79
Dung lượng	6,05 MB