1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá các phương pháp cho bài toán phát hiện cảm xúc từ camera quan sát

109 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện cảm xúc từ camera quan sát
Tác giả Ló Trường Hải
Người hướng dẫn ThS Đỗ Văn Tiến
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 109
Dung lượng 57,08 MB

Nội dung

Trong suốt quá trình nghiên cứu, khoá luận này đã thực hiện được những nội dung sau: * Khao sát và đánh giá những phương pháp tiên tiến nhất hiện nay cho bài toán nhận diện cảm xúc khuôn

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

Lã Trường Hải - 18520698

KHOÁ LUẬN TỐT NGHIỆP

PHƯƠNG PHÁP CHO BÀI TOÁN NHẬN DIỆN

CẢM XÚC TRONG THỜI GIAN THỰC

Facial Emotion Recognition With Real-time Processing

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHÍ MINH, 2021

Trang 2

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số

¬ ngày của Hiệu trưởng Trường Dai học

Công nghệ Thông tin.

ne - Chi tich.

Qe cessscseessessee PME - Thu ky.

Ae eee ae GA a8 - Uy vién.

Trang 3

LỜI CẢM ƠN

Đầu tiên, em xin chân thành cảm ơn ThS Đỗ Văn Tiến, là người thay

đã tận tình hướng dẫn giúp đỡ em trong những khó khăn của khóaluận, đưa ra những lời khuyên bổ ích, những định hướng đúng đắn

giúp em đi đúng đường là kim chỉ nam đã dẫn dắt em trong quãng

thời gian qua.

Đồng thời, em cũng muốn gửi lời cảm ơn tới toàn thể thầy cô giáo

trong Khoa Khoa học Máy tính, và những thay cô đã giảng dạy em

trong thời gian học tập và rèn luyện tại trường Đại học Công nghệ

Thông tin.

Cuối cùng, em xin cảm ơn ba mẹ, các anh chị, bạn bè đã luôn bên

cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi trong suốt

thời gian học tập ở trường Đại học Công nghệ Thông tin.

TP Hồ Chí Minh, tháng 12 năm 2021

Sinh viên thực hiện

Trang 4

Mục lục

Mục lục iii

Danh sach hinh ve vii

Danh sách bang xDanh mục từ viết tat xi

1 TONG QUAN 1

1.1 Datvandé 2 ee 1

12 Phạm vi và mục tiêu - 4

12.1 MụctiêU ee ee ee 4 1.22 Phạmvl ee ee ee es 5

13 Dong góp củakhóaluận 5

14 Cấutrúckhóaluận 6

2 BÀI TOÁN NHẬN DIỆN CẢM XÚC KHUÔN MAT VÀ NHUNG

NGHIÊN CỨU LIÊN QUAN 7

Trang 5

MỤC LỤC

2.2.3 Phương pháp Face-SSD 16

2.2.4 Phương phap BlazeFace 17

2.2.5 Nhận xét những phương pháp tiếp cận: 20

2.3 Bài toán nhận diện cảm xúc trên khuôn mặt và hướng tiếp cận 21 2.3.1 Hướng tiếp cận theo phương pháp truyền thống 21

2.3.2 Hướng tiếp cận theo phương pháp hiện đại (sử dung hoc SÂU) QOQO Q ee 24 24 Kếtchương ẶẶ Q Q TQ 26 PHƯƠNG PHÁP TỐI ƯU THỜI GIAN THỰC THỊ CHO BÀI TOÁN NHẬN DIỆN CAM XÚC KHUÔN MAT 27 31 Médau ee 27 3.2 Những kiến thức lênquan 28

3.2.1 DOGO" Se | / 28

3.2.1.1 Bài toán phát hiện khuôn mặt 29

3.2.12 Bàitoánphânloại 32

3.2.2 _ Hàm mấtmát: 35

3.2.3 Hàmtốiưu: ee 36 3.2.4 Chat lọc kiến thức (Knowledge Distillation) 39

3.2.4.1 TemperatureScale 41

3.2.4.2 DisHilaionLoss 42

3.24.3 Nhanxét - 2.0004 43 3.2.5 Hockéthop 0.000000 eee 43 3.3 Module phát hiện khuôn mặt: 45

3.3.1 Đánh giácác phương pháp 45

3.3.2 So sánh với điều kiện ảnh khác nhau 46

3.33 Kétluan Q Q Q2 50 3.4 Module phân loại cảm xúc khuôn mặt 51

iv

Trang 6

MỤC LỤC

3.4.1 Giới thiệu về bộ đữliệu 51

3.4.1.1 Tổng quan về bộ dữ liệu FER2013 51

3.4.1.2 St dụng tap dữ liệu FER2013: 52

3.4.1.3 Vấn dé trong tập dữ liệu FER2013 va động lực 53 3.4.1.4 Nhậnxét 53

3.4.2 Huấn luyệnmôhình 54

3.4.2.1 _ Giới thiệu về mô hình huấn luyện 54

3.4.2.2 Quá trình tiền xử lý dữ liệu: 56

3.4.2.3 Quá rìnhhuấnluyện 58

3.4.3 So sánh và đánh giá kết quả mô hình trên tập dữ liệu FER205227 6 \x À 59

3.4.4 Trucquanhda 2.2-00 64 3.4.5 Kétlu@ fF đà | / 67

3.5_ Đánh giá hiệu suất kếthợp 2module 68

36 Kếtchương Ặ QQ TQ ee 69 ỨNG DỤNG MINH HOA 71 41 Médau Qua 71 42 Mộtsốhìnhảnhminhhọa - 71

4.3 Xây dựng ứng dung minh họa cho bài toán 71

4.3.1 Những thư viện va framework liên quan 72

43.1.1 PhầnAPI 72

4.3.1.2 PhanClientt 74

43.2 Cấu trúchệthống 75

43.3 Những chứcnăngchính 77

4.3.3.1 Táiánhiên 77

4.3.3.2 Lựa chọn phương pháp tiền xửlý 78

4.3.3.3 Lựa chọn module phát hiện khuôn mat 78

Trang 7

MỤC LỤC

4.3.3.4 Lựa chọn module phân loại cảm xúc

4.3.3.5 _ Thực hiện phân loại cảm xúc khuôn mat

5 KẾT LUẬN VA HƯỚNG PHAT TRIỂN

52 Hướng pháttriển co

Tài liệu tham khảo

A Phụ lục cho phan so sánh và đánh giá thực nghiệm

84

90

Trang 8

Danh sách hình ve

1.1

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

2.14

Minh hoa dau vào và dau ra của bai toán (Trái) và Vi du minh

hoạ cho bài toán (Phai)

Hệ thống đơn vị hành động biểu diễn khuôn mặt

Mô tả tổng quan về bài toán nhận diện cảm xúc khuôn mặt

Minh hoa cho bài toán phát hiện khuôn mặt

Mô tả đặc trưng

haarlike -Mô tả ảnhtíchhợp eee Mô tả thuật toán AdaBoost

Thuật toán phân lớp tang

-Phát hiện khuôn mặt với phương pháp Viola-Jones

Mô tả cấu trúc của mô hìnhSSD

Phát hiện khuôn mặt với phương pháp Face-SSD

Kiến trúc của khối Blaze Khối Blaze đơn (Trái) và khối Blaze đôi(phả) Ặ.Ặ ee ee ee ee ee ee ee Kiến trúc mang kim tự tháp gop Mô hình Single Shot Detec-tion(trai) và mô hình BlazeFace (phai)

Phát hiện khuôn mặt với phương pháp BlazeFace Đánh giá phương pháp HOG kết hợp SVM trên bộ dữ liệu JAFFE

22

vii

Trang 9

Mơ tả kiến trúc của Residual Masking Network 25

Module hồn chỉnh cho bài tốn phát hiện và nhận diện cảm xúc

khuơn mặt ẶỒ.Ồ 28 Cơng thức tính độ đoloÙ 30

Mơ tả độ đo AP Q Q 0202200 eee 32

Minh hoa cho Confusion matix 33

Vi dụ về ma trận bổi rối trong bài tốn phân loaidalép 34

Sơ đồ mơ tả hoạt động của hàm tối ưu trên một hàm mat mát 38

Cơng thức thuật tốn Adabelef 38

Ý tưởng chính của phương pháp knowledge distillation 39

Mơ tả phương pháp Knowledge Distillation 40

Mơ tả Hard Label (đầu ra trước khi làm mượt) va Soft Targets(đầu ra sau khi làm mượt) - 42

Mơ tả thuật tốn stackmg 44

So sánh khả năng phát hiện khuơn mặt trên ảnh điều kiện bình

So sánh khả năng phát hiện khuơn mặt trên ảnh chứa nhiều người 47

So sánh khả năng phát hiện khuơn mặt trên ảnh cận mat 48

So sánh khả năng phát hiện khuơn mặt trên ảnh chứa khuơn mặt

So sánh khả năng phát hiện khuơn mặt trên ảnh thiểu sáng 49

So sánh khả năng phát hiện khuơn mặt trên ảnh chứa khuơn xa sovGicamera - - da(a4(.L.L 49

Biểu đồ thể hiện tỉ lệ phân chia của tập dữ liệu FER2013_ 52

Mơ tả mơ hình CNN để xuất 55

Viil

Trang 10

DANH SÁCH HÌNH VẼ

3.20

3.21

3.22

3.23

3.24

3.25

3.26

3.27

3.28

3.29

3.30

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

A.l

A.2

A.3

A.4

A.5

Mô tả mô hình CNN_minimum đề xuất 55

Đặc tả phương pháp đề xuất 57

Ap dụng phương pháp knowledge distillation 60

Mô tả phương pháp học kếthợp - 61

Ma trận hỗn loạn của mô hìnhCNN 62

Ma trận hỗn loạn của mô hình kếthợp 63

Ma trận đặc trưng của lớp tích chập - 65

Ma trận đặc trưng của lớp Leaky RELU 2 65

Ma trận đặc trưng của lớp chuẩnhóa 66

Ma trận đặc trưng của lớp gop tungbình 66

Ma trận đặc trưng của lớp dropout 67

Module hoàn chỉnh cho bai toán phát hiện va nhận diện cảm xúc khuôn mặt Ặ.Ặ.Ặ.Ồ ẶQẶ Ồ 72 Một số hình ảnh nhận diện đúng 73

Mô ta pipeline qui trình xử lý của ứng dụng minhhoa 75

Mô tả giao diện của ứng dụng minhhoa 77

Giao diện hiển thị ảnh tải lên 78

Giao diện chọn 3 module phát hiện khuôn mặt 79

Giao diện chọn các module phân loại cảm xúc khuôn mat 79

Giao diện hiển thị kết quả của ứng dụng minhhoa 80

Ma trận hỗn loạn của mô hình VGGI16 9]

Ma trận hỗn loạn của mot hình ResNet34 92

Ma trận hỗn loạn của mot hình RestNet50 93

Ma trận hỗn loạn của mot hình Xception 94

Ma trận hỗn loạn của mot hình MobileNetV1 95

1X

Trang 11

Danh sách bảng

2.1

3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

Phân loại cảm xúc dưa trên Don vị Hanh déng

Đánh giá các phương pháp phát hiện khuôn mat Bang thống kê dữ liệu trong tập dữ liệu FER2013_

Tỉ lệ phân chia dữ liệu huấn luyện trong tập dữ liệu FER213

Mô hình được sử dụng trong khoá luận

Cấu hình máy huấn luyện

-So sánh kết quả của những mô hình đã được huấn luyện lại

So sánh hiệu suất của mô hình qua các phương pháp

So sánh mô hình với những phương pháp State of the art Cấu hình máy thực nghệm -

3.10 Bảng so sánh tốc độ thực thi của module hoàn chỉnh

Trang 12

Danh mục từ viết tắt

Từ viết tắt | Nội dungCNN(s) Convolutional Neural Networks

Conv Convolution

SSD Single Shot Detection (may do anh don)

FACS Facial Action Coding System

VJ Viola Jones algorithm (thuật toán Viola & Jones)

XI

Trang 13

TÓM TẮT KHÓA LUẬN

Sự phát triển vượt bậc của nền văn minh nhân loại đã kéo theo nhiềubước đột phá trong tiến trình khai phá tri thức Ngày càng nhiều

những nghiên cứu và sản phẩm được tạo ra nhằm giải quyết giúp con

người những nhu cầu thiết yếu Những sản phẩm góp phần giảm áp

lực vận động cho con người cũng như san sẻ trách nhiệm, đáp ứng

nhu cầu cho con người Trong đó, sự phát triển mạnh mẽ của ngành

dịch vụ kéo theo nhu cầu được đáp ứng của người dùng khắt khe hơn.Tận dụng được sức mạnh của Trí tuệ Nhân tạo, bài toán nhận diện

cảm xúc dựa trên khuôn mặt con người được dé cập và giải quyết

nhằm phù hợp với nhu cầu dịch vụ

Hiện nay, đã có những nghiên cứu về bài toán nhận diện cảm xúckhuôn mặt và có những kết quả khá tốt Tuy nhiên mức độ áp dụng

của những nghiên cứu chưa cao, nguyên nhân do độ phức tạp tính

toán của những phương pháp này khá lớn, đòi hỏi yêu cầu phần cứng

tương đối cao Trong khi nhìn chung những mô hình dịch vụ vẫn

chưa thể đáp ứng về những yêu cầu trên Bên cạnh đó vấn đề xử lý

thời gian thực cũng là một thách thức Vì những lí do đó, nhóm thực

hiện nghiên cứu và đánh giá những phương pháp phù hợp giải quyếtcho vấn đề về yêu cầu phần cứng và thực thi thời gian thực Đó cũng

là đề tài chính của khoá luận này

Để giải quyết van đề trên, nhóm đã tập trung phân tích và nghiên cứu

những mô hình hiện đại cho bài toán phân loại cảm xúc Nghiên cứu

Trang 14

và đánh giá trên những mô hình có kích thước nhỏ Qua đó tìm ra mô

hình phù hợp với yêu cầu bài toán đã đặt ra.

Trong suốt quá trình nghiên cứu, khoá luận này đã thực hiện được

những nội dung sau:

* Khao sát và đánh giá những phương pháp tiên tiến nhất hiện nay

cho bài toán nhận diện cảm xúc khuôn mặt.

¢ Nghiên cứu, phân tích và dé xuất giải pháp phù hợp cho bài

toán nhận diện cảm xúc khuôn mặt với thời gian thực thi nhanh

hơn và yêu cầu phần cứng nhỏ hơn Trong đó mô hình nhóm déxuất một đạt kết quả 72.8% với 6.4 triệu tham số Khi sử dụng

phương pháp học kết hợp kết quả đạt 73.6%.

« Đối với bài toán thời gian thực đề xuất mô hình nhỏ hơn dat

70.9% và 70.14% lần lượt với lượng tham số 1.1 triệu và 3.3

triệu tham số.

* Xây dựng một ứng dụng web nhằm đánh giá hiệu suất thực thi

khi áp dụng thực tế

Từ khoá: nhận diện cảm xúc khuôn mặt, học sâu, mạng nơ ron tích

chap, phát hiện khuôn mặt.

Trang 15

Chương 1

TỔNG QUAN

1.1 Đặt van đề

Công nghệ hiện đại của con người đã có một bước tiền dài sau khi có sự xuất

hiện của Trí tuệ Nhân tạo (AI) Mỗi ngày trôi qua, lại có sự xuất hiện của côngnghệ mới - thứ góp phần trong việc giúp đỡ con người xử lý những công việc từđơn giản cho đến phức tạp Sư tăng trưởng đên mức chóng mặt của Công nghệ

nói chung và Trí tuệ Nhân tạo nói riêng đã đóng vai trò quan trọng trong công

cuộc hiện đại hoá, công cuộc của cách mạng 4.0.

Trí tuệ Nhân tạo, là thuật ngữ để chỉ một hay nhiều thiết bị, máy tính có thểhoạt động và xử lý những tình huống như một con người Những bài toán có thể

được đặt ra trong lĩnh vực này là:

* Thị giác Máy tính: giúp máy tính có thể nhìn thấy hình ảnh và xử lý hình

ảnh tương tự như cách con người xử lý.

¢ Xử lý Ngôn ngữ Tự nhiên: giúp máy tính có thể hiểu được ngôn ngữ

giống như con người.

* Xử lý Tiếng nói: giúp máy tính nghe và hiểu được âm thanh etc

Trang 16

1 TONG QUAN

Trong đó, Thi giác Máy tính là một lĩnh vực tiềm năng khi khai thác cách máytính xử lý hình ảnh Nhờ vào Thị giác Máy tính, máy tính có thể nhận diện được vật thể, xác định được khuôn mặt người hay nhận diện văn bản,

Bài toán nhận diện cảm xúc trên khuôn mặt người, là một trong những bài toán nổi bật trong lĩnh vực này [1, 2]

Dữ liệu đầu vào và đầu ra của bài toán bao gồm:

‹ Đầu vào: Hình ảnh chứa khuôn mặt người

¢ Dau ra: Nhãn cảm xúc khuôn mặt.

Hình 1.1: Minh hoạ đầu vào và đầu ra của bài toán (Trái) và Ví dụ minh hoạ cho bài

toán (Phải)?

Bài toán phân tích cảm xúc dựa trên 2 loại đầu vào bao gồm:

- Ảnh tĩnh: nhận diện cảm xúc trên khuôn mặt của từng ảnh mà trong đó

chủ yếu trích xuất đặc trưng trên khuôn mặt trong ảnh và xử lý Phươngphap[3, 4] là những phương phương pháp nổi bật trong bài toán này

¢ Chuỗi anh động: việc xử lý trên chuỗi ảnh động, thực hiện quan sát sự

tương quan giữa các chuỗi ảnh và nhịp độ của chúng để đánh giá và nhận

Trang 17

1 TONG QUAN

diện nhãn cảm xúc Phương pháp [5, 6, 7, 8] là những phương phương

pháp nổi bật trong bài toán này.

Với kiến thức có được, trong khoá luận này, nhóm thực hiện nghiên cứu phương

pháp nhận diện cảm xúc khuôn mặt trên anh tinh.

Gần đây, có một số nghiên cứu về nhận diện cảm xúc khuôn mặt được triểnkhai và ứng dụng vào một số lĩnh vực thực tiễn Dựa vào camera hành trình,

có thể nhận biết và giám sát cảm xúc, hành vi của tài xế hay dựa vào hình từcamera theo dõi, có thể phân tích và đánh giá phản hồi của khách hàng thông

qua các dịch vụ chăm sóc khách hàng [9].

Theo thống kê của Mordor Intelligence, lợi nhuận của thị trường nhận diệncảm xúc đạt 19.87 tỉ USD với mức tăng trưởng 18.01% Có thể thấy nhu cầu áp

dụng trí tuệ nhân tạo trong việc phát hiện cảm xúc ngày càng tăng Điều này góp

phần thúc đẩy sự phát triển các ngành kinh tế đặc biệt là các ngành đòi hỏi sựtương tác và nhu cầu của khách hàng như dịch vụ, bán lẻ

Việc tăng mức độ hài lòng, trải nghiệm của khách hang là van dé ưu tiênhàng đầu mà trong đó một trong những yếu tố chính khi nói về trải nghiệm của

người dùng khi triển khai và áp dụng công nghệ là tốc độ phản hồi nhanh chóng (trong thời gian thực).

Với những nghiên cứu về bài toán nhận diện cảm xúc khuôn mặt, cùng với

sự bùng nổ về dữ liệu hình ảnh, những tập dữ liệu cho bài toán nhận diện cảm

xúc được tạo ra với mục đích phục vụ cho bài toán Qua quá trình khảo sát và đánh giá [10], bộ dữ liệu được chia làm 2 nhánh chính:

» Bộ dữ liệu ràng buộc (constrained database): đây là bộ dữ liệu được thu

thập và đánh giá dựa trên những điều kiện ràng buộc hay trong phòng thínghiệm phục vụ cho việc đánh giá những hệ thống nhận diện khuôn mặt

Những bộ dif liệu tiêu biểu cho dang này là: CK+ [11], JAFFE [12], MMI

[13]

Trang 18

1 TONG QUAN

* Bộ dư liệu không rang buộc (unconstrained database): đây là bộ dữ

liệu được thu thập trong điều kiện tự nhiên với mức độ ánh sáng đa dạng,phức tạp và không chịu sự chi phối từ điều kiện khách quan Những bộ dữ

liệu tiêu biểu cho dạng nay là: FER2013 [14], AFEW [15],

Mục tiêu chính của khoá luận là thử nghiệm và đánh giá các phương pháp nhận

diện cảm xúc khuôn mặt trên hệ thống phát hiện khuôn mặt từ camera với

những hình ảnh ở những điều kiện đa dạng khác nhau Do dó, nhóm tập trung

nghiên cứu và đánh giá trên bộ dữ liệu không ràng buộc.

1.2 Phạm vi và mục tiêu

1.2.1 Mục tiêu

Các mô hình hiện đại hiện nay tập trung chủ yếu vào chất lượng (độ chính

xác) của mô hình phân lớp cảm xúc Do đó, phần lớn những phương pháp này

có lượng tham số và khối lượng tính toán rất lớn Điều này gây khó khăn cho trải

nghiệm của người sử dụng nếu áp dụng vào thực tế, đặc biệt là áp dụng vào các ngành dịch vụ.

Do đó, nhằm tập trung giải quyết bài toán nhận diện cảm xúc trên khuôn mặt

từ ảnh trích xuất từ camera và xử lý trong thời gian thực, nhóm đã dé ra những

mục tiêu cụ thể để hoàn thành công việc như sau:

« Phân tích và đánh giá một số phương pháp nhận diện cảm xúc khuôn mặt

hiện đại nhất hiện nay sử dụng Deep Learning

* So sánh những phương pháp tốt nhất, nhờ đó, đề xuất phương pháp phù

hợp cho bài toán thời gian thực.

« Cài đặt, hiện thực, đánh giá kết quả của một số phương pháp trên tập dữ

Trang 19

1 TONG QUAN

liệu chuẩn dựa trên một số độ đo tiêu chuẩn của bài toán nhận diện, phân

loại cảm xúc trên khuôn mặt.

¢ Huan luyện mô hình có thể thực thi gần với thời gian thực với độ chính xác

chấp nhận được.

s Xây dựng ứng dụng minh hoa cho bài toán nhận diện cảm xúc khuôn mat.

1.2.2 Phạm vi

Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn

thành các công việc sau:

« Tập trung giải quyết bài toán nhận diện cảm xúc khuôn mặt dựa trên hình

ảnh trích xuât từ camera.

» Tập trung đánh giá các phương pháp hiện dai dựa trên tập dữ liệu FER2013

[14]

° Nghiên cứu, huấn luyện lại những mô hình hoc sâu tiên tiến nhất, qua đó

thực hiện so sánh và đánh giá giữa những mô hình, chọn lọc ra phương

pháp phù hợp cho bài toán nhận diện cảm xúc thời gian thực.

s Xây dung một ứng dung minh hoa cho các thuật toán dùng cho bài toán

nhận diện cảm xúc khuôn mặt từ hình ảnh trích xuât từ camera.

1.3 Đóng góp của khóa luận

Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực

hiện khóa luận:

¢ Hệ thống lại hướng tiếp cận và giải quyết trong bài toán nhận diện cảm

xúc trên khuôn mặt.

Trang 20

1 TONG QUAN

* Tìm hiểu và đánh giá những phương pháp hoc sâu được sử dụng trong bai

toán nhận diện cảm xúc khuôn mặt.

¢ Huấn luyện và đánh giá các mô hình sử dụng phương pháp nhận diện cảm

xúc khuôn mặt.

« Đề xuất phương pháp nhằm giúp cải thiện tốc độ thực thi cũng như độ

chính xác của bộ phân lớp cảm xúc.

» Xây dựng ứng dụng minh hoạ cho bài toán nhận diện cảm xúc khuôn mặt.

1.4 Cấu trúc khóa luận

Chương 1: Giới thiệu tổng quan đề tài

Chương 2: Trình bày tổng quát các hướng tiếp cận có thể giải quyết bài toán

nhận diện cảm xúc khuôn mặt trong hình ảnh và các nghiên cứu liên quan.

Chương 3: Thực nghiệm, so sánh và đánh giá phương pháp trên bộ dữ liệu

và kết quả so sánh giữa các phương pháp nhận diện cảm xúc khuôn mặt.

Chương 4: Minh hoạ cho phương pháp nhận diện cảm xúc khuôn mặt và

xây dựng ứng dụng sử dụng phương pháp đã chọn lọc.

Chương 5: Trình bày kết luận và hướng phát triển của đề tài

Trang 21

Chương 2

BÀI TOÁN NHẬN DIỆN CẢM XÚC

KHUÔN MAT VÀ NHỮNG NGHIÊN

CỨU LIÊN QUAN

2.1 Mở đầu

Nghiên cứu về cảm xúc con người luôn là bài toán được quan tâm nhiềunhất nhằm phân tích và đánh giá cảm xúc của con người dựa trên những biểuhiện của con người Trong đó, khuôn mặt luôn là yếu tố chính biểu hiện rõ nétnhất về cảm xúc của con người Paul Ekman và những đồng sự [16, 17] đã cónhững nghiên cứu về những biểu hiện trên khuôn mặt nhằm phân tích nhữngđiểm nét trên khuôn mặt mà dựa vào đó ta có thế đánh giá cảm xúc của khuôn

mặt [18, 19] Hệ thống mã hoá hành động trên khuôn mặt (FACS) đã được Paul

Ekman phát triển dựa trên Don vị hành động (Action Units), cơ sở cho nhữngnghiên cứu về biểu hiện của con người dựa trên hành động

Don vị hành động và hệ thong mã hoá hành động trên khuôn mặt hệ thống

mã hoá hành động trên khuôn mặt là một hệ thống toàn diện dựa trên giải phẫu

học để mô tả tất cả chuyển động của khuôn mặt có thể nhìn thấy được bằng

Trang 22

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

mắt thường [17] Trong đó, nó chia nhỏ các biểu hiện khuôn mặt thành những

chuyển động riêng lẻ của cơ mặt, được gọi là đơn vị Hành động (AU).

Upper Face Action Units

AUI AU4 AUS | AU6 AU7

Inner Brow | Outer Brow |e werer| Upper Lid |

Rainer Raiser Raine | (Cheek Raiser | Lid Tightener

Lip Droop Slit Eyes Closed Squint | Blink Wink

Lower Face Action Units

AU9 AU10 AUIl AU12 AUI3 AUIS

cd ay

F —n Tả

Nose Wrinkler Upper Lip Nasolabial Lip Corner

Raiser Deepener Puller ee | ee

AUIS AUI6 AUI7 AUIS AU20 AU22

Lip Tightener | Lip Pressor | Lips Parts | Jaw Drop | Mouth Stretch| Lip Suck

Chin Raiser | Lip Puckerer | Lip Swetcher | Lip Funneler

Hình 2.1: Hệ thống đơn vị hành động biểu diễn khuôn mat Nguồn Internet !

Hình 2.1 đã mô tả những biếu hiện khuôn mặt trong hệ thông mã hoá hành

động khuôn mặt, dựa vào những điểm trên, (Bảng 2.1) đã thể hiện phân tích

cảm xúc dựa trên đơn vị Hành động và phân loại nó thành 7 loại nhãn cảm xúc

dựa trên nghiên cứu của Paul Ekman và đồng sự [20, 17, 21], là nền tang cho

những nghiên cứu và phân tích cảm xúc khuôn mặt hay xa hơn nữa là những bài

toán nhận diện cảm xúc khuôn mặt với trí tuệ nhân tạo sau này.

Trong giới han của khoá luận này, sinh viên tiêp cận bài toán với 7 nhãn cảm

xúc chính bao gồm:

¢ Hức giận

'https://www.researchgate.net/figure/Facial-Action-Units-AUs-of-upper-and-lower-face_fig3_280298368 'Nhe

?Một chút ít

3Bén phải

Trang 23

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

Bảng 2.1: Phân loại cảm xúc dưa trên Đơn vị Hành động

Ở bài toán nhận điện cảm xúc khuôn mặt dựa trên ảnh chứa khuôn mặt người,

có hai thành phần chính riêng biệt cho bài toán này Bao gồm:

« Phát hiện khuôn mặt: phát hiện vùng chứa khuôn mặt người, là đầu vào

cho phân phân loại cảm xúc.

¢ Phân loại cảm xúc: dựa vào đầu vào là những ảnh khuôn mặt người, thực

hiện phân loại và gán nhãn cảm xúc cho bức ảnh.

Ở mỗi bài toán thành phần ta có những hướng tiếp cận riêng cho từng bài

toán sẽ được giới thiệu ở phần tiếp theo Dưới đây, nhóm thực hiện đánh giá vàphân tích những hướng tiếp cận chính cho bài toán nhận diện cảm xúc khuôn

mặt.

Trang 24

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

phân loại

Angry

Module nhận diện cam xúc P

Hình 2.2: Mô tả tổng quan về bài toán nhận diện cảm xúc khuôn mặt

2.2 Giới thiệu về bài toán phát hiện khuôn mặt

2.2.1 Mô ta bài toán

Bài toán phát hiện khuôn mặt là bài toán đã xuất hiện từ lâu, nó là thành

phần cơ sở cho những bài toán trí tuệ nhân tạo sau này mà đặc biệt trong đó là

bài toán nhận diện cảm xúc khuôn mặt.

Bài toán bao gồm:

* Đầu vào: hình ảnh chứa con người.

‹ Đầu ra: vùng ảnh chứa khuôn mặt

Đã có những nghiên cứu, những phương pháp được phát triển nhằm giải

quyết bài toán phát hiện khuôn mặt Viola và Jones đã phát triển thuật toán

mang tên của bọn họ để tăng năng suất cho bài toán phát hiện khuôn mặt dựa

trên sự tính toán của cpu [22] Hay Wei Liu và những đồng sự với mô hình SSD

10

Trang 25

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

đã cải thiện độ chính xác trong phát hiện vật thể dựa trên mạng nơ ron sâu [23],nhờ đó dựa trên cấu trúc này B Ye và đồng sự [24] đã giải quyết bài toán pháthiện khuôn mặt Xa hơn nữa, trong những nghiên cứu gần đây, [25, 26] đã tận

dụng GPU và mạng nơ ron tích chập để cho ra những phương pháp phát hiện

khuôn mặt tốt hơn với độ chính xác cao và thời gian tính toán thấp

Trong giới hạn của khóa luận, sinh viên nghiên cứu và đánh giá trên 3 phương

pháp chính bao gồm: Haar Cascade Detector (Thuật toán Viola & Jones) [22],

Face - SSD [23, 24] và BlazeFace [26].

2.2.2 Phương pháp Viola & Jones

Được công bố vào năm 2004, thuật toán Viola & Jones đến nay van là mộttrong những phương pháp được sử dụng nhiều nhất và đem lại kết quả tốt trong

bài toán phát hiện khuôn mặt.

Phân tích thuật toán ý tưởng chính của thuật toán là sử dung haar like feature

- những đặc trưng được khởi tạo từ ban đầu - so sánh với những vùng đặc trưng

riêng biệt trên ảnh để chọn ra những vùng được cho là giống với đặc trưng khuôn

11

Trang 26

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

mặt người nhất (gần với đặc trưng haar like)

Ba thành phần chính của thuật toán Viola & Jones bao gồm:

« Đặc trưng Haar like: như đã dé cập ở trên, đặc trưng haar like là thành

phần quan trọng của thuật toán, nó giúp tính toán và phát hiện vùng chứ

khuôn mặt (Hình 2.4) thể hiện những dạng đặc trưng của haar like bao gồm 3 loại filter: Two-Rectangle Feature, Three-Rectangle Feature và Four-Rectangle Feature.

Hình 2.4: Mô tả đặc trưng haar like Nguồn Internet !

° Ma trận ảnh tích hợp (Integral Image): là ma trận tích hợp được tính

toán dựa trên ảnh truyền vào, được tính toán là tổng những điểm nằm phía

trên và bên trái của điểm ảnh hiện tại (bao gồm cả điểm ảnh đó) Ma trậnảnh tích hợp giúp giảm thiểu thời gian tính toán và chi phí cho việc tínhtoán những đặc trưng ảnh (Hinh 2.5) minh hoạ về ma trận ảnh tích hợp.Trong đó, ảnh bên trên là công thức biến đổi từ ma trận ảnh thường sang

| https://www.researchgate.net/publication/220660094_Robust_RealTime_Face_Detection

12

Trang 27

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

ma trận ảnh tích hợp và ảnh dưới là minh hoạ cách mà ta thực hiện tính

toán đặc trưng haar like trên ảnh tích hợp.

W515 1ñH Ti = Mil0@al image vs 145 | 48 late 147

Ry Peas Eccl erat Brot

Original Image

(Grayscale) Integral Image

Hình 2.5: Mô ta ma trận ảnh tích hợp Nguồn Internet !

¢ Thuật toán AdaBoost: thuật toán AdaBoost [27] là một thuật toán của

phương pháp học kết hợp nhằm tăng độ chính xác của thuật toán và giảmchi phí cho việc tìm kiếm đặc trưng khuôn mặt Thuật toán AdaBoost giúpchọn ra feature tốt nhất, nhờ đó giảm thiếu số lượng đặc trưng haar like

"https://towardsdatascience.com/understanding-face-detection-with-the-viola-jones-object-detection-framework-c55cc2a9dal4

13

Trang 28

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

Feature 1 best feature |

Feature 2 best feature 2

feature 3 best features ———= Strong Classifier

Feature n best fealirre tú

where mú > m

Hình 2.6: Mô tả thuật toán AdaBoost Nguồn Internet !

* Bộ phân loại tầng: là bộ phân loại theo tầng, trong đó mỗi tầng là một bộ

phân loại mạnh dựa trên thuật toán AdaBoost và số lượng "phân loại yếu"

trong mỗi "phân loại mạnh" sẽ tăng dần theo mỗi tầng Ý tưởng chính: qua

mỗi tầng, sẽ thực hiện đánh giá, nếu đầu vào mang nhãn tiêu cực (khôngphải khuôn mặt), đặc trưng đó sẽ bị loại bỏ, ngược lại nếu mang nhãn tíchcực, nó sẽ được chuyển đến tầng tiếp theo Nhờ vậy, chi phí và thời gian

cho việc tính toán đã được rút ngắn rất nhiều

Với 4 thành phần chính được nêu ra ở trên, thuật toán Viola & Jones được

chia ra 2 giai đoạn chính:

* Giai đoạn xử lý đầu vào bao gồm 2 thành phan: Đặc trưng haar like và ma

trận ảnh tích hợp Trong đó, ở giai đoạn này thuật toán thực hiện tính toán

Trang 29

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

Lm]

‡ Maybe face Maybelaos — „—— Maybe face

{no face pee {it ce {Not face

| Rielect Input |

Hình 2.7: Thuật toán phân lớp tầng Nguồn Internet !

đặc trưng trên ảnh dựa vào ma trận ảnh tích hợp và so sánh với đặc trưng

haar like để đánh giá.

« Giai đoạn phân loại và phát hiện vùng chứa ảnh khuôn mặt, bao gồm 2

thành phan: Phân lớp tang dựa trên thuật toán Ada Boost Trong đó, ở giaiđoạn này, thuật toán thực hiện tìm và phân loại những đặc trưng giống vớiđặc trưng khuôn mặt haar like nhất

15

Trang 30

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

Extra Feature Layers

~ Cony, 3x3x1024 Conn: 1x1x1024 Coen: ixtx286 “Con lxlxl25 Comrlrlxi23 Gọnwv Txtxt 28.

Coen: 3v3512-52 Conv; 3v3v25632 Conv: 3x3x256-51 Corn: 3lv2564%1

Hình 2.9: Mô tả cau trúc của mô hình SSD Nguồn [23]

2.2.3 Phương pháp Face - SSD

Phương pháp Face-SDD là một dạng bài toán phát hiện đối tượng (khuônmặt) được lay cảm hứng từ phương pháp Single Shot Detector (SSD) [24, 23]

Vì phạm vi của khóa luận, nhóm chỉ tập trung phân tích ý tưởng phát hiện khuôn

mặt với SSD, không phân tích về cấu trúc SSD

Khi áp dụng với ảnh khuôn mặt (được triển khai bởi OpenCV), khi thực

hiện phát hiện khuôn mặt dựa trên blob (hình dáng khuôn mặt) Blob là kĩ thuật

tìm những điểm bên trong ảnh, dựa vào những hình dáng điểm đó, mô hình

pretrained sẽ phát hiện được khuôn mặt và vùng chứa khuôn mặt trên đó.

Ưu điểm: nhờ sử dụng những phương pháp học sâu nên khả năng phát hiện khuôn mặt và thời gian thực thi của phương pháp này khá tốt Tuy nhiên vẫn còn

một số hạn chế nhất định

Nhược điểm: phương pháp này dựa vào những ảnh với kích thước đầu vào lớn

hơn 300 x 300, do đó, những ảnh có kích thước nhỏ hơn, phương pháp này sẽ dễ

nhận biết sai lầm, bên cạnh đó những khuôn mặt cận sẽ không thể nhận biết tốt.Phần này, nhóm sẽ trình bày rõ hơn ở phần thực nghiệm

16

Trang 31

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

2.2.4 Phương pháp BlazeFace

Phương pháp BlazeFace sử dụng mạng Nơ ron tích chập mang tên là

Blaze-Face, giải quyết bài toán phát hiện khuôn mặt trên những thiết bị di động với tốc

độ phát hiện nhanh (gấp 10 lần so với phương pháp của Viola va Jones)

Ý Tưởng chính

* Khối Blaze: là thành phần cơ bản của mô hình Blaze Face Lay cảm hứng

từ MobileNetV1, khối Blaze được thiết kế là một khối Tích chập có thể

tách rời theo chiều sâu (Được giới thiệu lần đầu trong [28]) Kiến trúc

của khối này bao gồm một ma trận tích chập sâu (Deepwise) kích thước

5x5 theo sau là một ma trận tích chập với kích thước là 1x1 được gọi là

PointWise Mục đích của phương pháp này nhằm giảm thiểu số lượng

tham số được dùng cho bài toán phát hiện khuôn mặt với mô hình với khối

17

Trang 32

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

¢ Tính toán neo: lay cảm hứng từ [23, 29], Mang Kim tự tháp gdp được triển

khai để tính toán neo Dựa vào (Hình 2.12), ta có thể thấy so với mô hình

Single Shot Detector, tác giả đã lược bỏ bớt số lượng bản đồ đặc trưng

(kích thước nhỏ nhất bản đồ tính năng của mô hình SSD là 2x2 trong khi

ở mô hình Blaze Face là 8x8) Số lượng hộp được tăng lên (690 —› 896),

nhờ vậy việc xác định vật thể (khuôn mặt) trong bức ảnh được chính xác

hơn.

18

Trang 33

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

» Chỉ phù hợp với những hình ảnh rõ khuôn mặt (khuôn mặt có khoảng cách

so Với camera vừa đủ).

19

Trang 34

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

2.2.5 Nhận xét những phương pháp tiếp cận:

Nhìn chung, những phương pháp phát hiện khuôn mặt trên phương diện thực

nghiệm và phát hiện khuôn mặt đã phần giải quyết được bài toán xác định vàtrích xuất đặc trưng vùng chứa khuôn mặt Tuy nhiên, vẫn còn những đặc điểm

đáng lưu ý ở những phương pháp trên:

« Với thuật toán Viola & Jones, đặc trưng khuôn mặt phụ thuộc rất nhiều

vào đặc trưng haar like, do đó về mức độ tổng quát, phương pháp này sẽcho độ chính xác không tốt ở những điều kiện môi trường thiếu sáng hoặc

nhiều hình ảnh nhiễu (đối tượng có đặc trưng giống khuôn mặt) Tuy nhiên,

vì không yêu cầu sự phức tạp tính toán cũng như tài nguyên lớn, phươngpháp này vẫn được sử dụng nhiều, đặc biệt là những thiết bị có phần cứngchất lượng chưa tốt

« Với phương pháp Face-SSD, đây là phương pháp được sử dụng lay cảm

20

Trang 35

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

hứng từ phương pháp Máy dò ảnh phát hiện đối tượng Phương pháp này

khắc phục được hầu hết những hạn chế của phương pháp Viola & Jones

đối với những ảnh khuôn mặt trong điều kiện không tốt Tuy nhiên với

những ảnh cận mặt, phương pháp này vẫn cho một số kết quả chưa tốt.

* Với phương pháp BlazeFace, việc tận dung GPU đã tăng tốc độ phát hiện

khuôn mặt trên ảnh, độ chính xác của hộp bao cải thiện hơn nhiều so với

phương pháp Viola & Jones (kể cả với những ảnh mặt nghiêng) Tuy nhiên, phương pháp này lại gặp khó khăn với những bức ảnh chứa nhiều khuôn

mặt hoặc ảnh chứa khuôn mặt nhỏ Phát biểu này sẽ được nhóm trình bày

rõ hơn ở phần 3.3.2.

2.3 Bài toán nhận diện cam xúc trên khuôn mat và

hướng tiếp cận

Sau khi xác định đươc khuôn mặt có trong ảnh, bước tiếp theo, ta thực hiện

nhận diện/phân loại cảm xúc trên khuôn mặt đã được trích xuất, dựa trên những

đặc trưng trên khuôn mặt Có hai hướng tiếp cận chính cho bài toán này: sử dụngphương pháp truyền thống và sử dụng phương pháp hiện đại

2.3.1 Hướng tiếp cận theo phương pháp truyền thông

Phương pháp truyền thống là phương pháp sử dụng mô hình máy học để phânloại những nhãn cảm xúc, dựa trên những đặc trưng khuôn mặt Đặc điểm chínhcủa phương pháp này là bước trích xuất đặc trưng khuôn mặt, thực hiện trích

xuất những đặc trưng khuôn mặt (mắt, mũi, miệng) Sau đó dựa trên những đặc

trưng đó đưa vào mô hình để thực hiện phân loại.

Những nghiên cứu gần đây đã cho thấy sự hiệu quả của phương pháp này:Junkai Chen và đồng sự [30] đã sử dụng kết hợp phương pháp trích xuất đặc

21

Trang 36

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

trưng (Histogram of Oriented Gradient) và thuật toán phân loại Máy Véc-tơ

Hỗ Trợ (SVM) cho bài toán phân loại cảm xúc Trong khi đó Md Zia Uddin

và những đồng sự [31] lại sử dụng phương pháp chuyển đổi Radon (Radon

Tranform) kết hợp với phân tích phân biệt tổng quát (GDA) cho giai đoạn trích

xuất đặc trưng và Mô hình Markov ẩn cho giai đoạn phân loại nhãn cảm xúc

TABLEL cuasmeanon Resorisoe Four Menoss AN T€0T DĐ TTETTHT ST 80 TABLE IV THE-CLASSIFICATION RATES OF EACH EXPRESSION WITH

ON THEIAEE DATASE AN | 0.84 | 0.04 | 0.07 | 0.00 | 0.02 | 0.00 | 002 ‘Our | SPIS [is] | CAPP |SPTSICAPE

Method Classification Rate CO | 006 | 061 | 0.00 | 011 | 011 | 0.11 | 0.00 am CI ED ea

Gabor*FSLP [19] 91.0% DI | 0.02 | 000 | 095 | 0.00 | 0.03 | 000 | 0.00 co} nái ?z TL n5 0m]

Hình 2.14: Đánh giá phương pháp HOG kết hợp SVM Độ chính xác của phương pháp

(Trái), Ma trận hỗn loạn (Giữa), Bảng báo cáo phân loại (Phải) Nguồn [30]

Những phương pháp trên nhìn chung đã cho kết quả tương đối cao khi thực hiện phân loại (Hình 2.14) cho thấy phương pháp [30] đem lại độ chính xác cao

và phân loại khá tốt Tương tự là (hình 2.15) khi hướng tiếp cận của tác giả đạtđược kết quả tương đối cao cho bài toán phân loại

22

Trang 37

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

Feature Activity Recognition rate Mean

ANN, SV!

HMM (uni ANN Anger 85 86.25

Happy 87.50

@RGB/Non-Depth Camera-Based Mean FER Rate Sad 85

@ Depth Camera-Based Mean FER Rate ‘Surprise 9”

Hình 2.15: Đánh giá phương pháp chuyển đổi Radon kết hợp mô hình Markov ẩn Biểu

đồ đánh giá của những phương pháp trích xuất đặc trưng (Trái) và Bảng so sánh những thuật toán phân loại (Phải) Nguồn [31]

Ưu điểm:

* Với phương pháp truyền thống, độ phức tạp tính toán không lớn nhờ đó có

thể dễ dàng triển khai mô hình và thuật toán cho phương pháp này.

* Độ chính xác của phương pháp này tương đối cao nếu có bước trích xuất

đặc trưng hợp lí.

* Bộ dữ liệu không yêu cau số lượng lớn

Nhược điểm:

¢ Vi là những thuật toán phân loại với độ phức tap tính toán không cao nên

tính tổng quát của mô hình phân loại chưa được tốt.

« Phụ thuộc khá nhiều vào phương pháp trích xuất đặc trưng và thuật toán

phân loại.

23

Trang 38

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

» Phải tinh chỉnh tham số nhiều lần để đạt được độ chính xác tốt nhất

2.3.2 Hướng tiếp cận theo phương pháp hiện đại (sử dụng học sâu)

Những năm gan đây, với sự nổi lên của học sâu, mạng no ron tích chập đã

được áp dụng và đem lại những kết quả khá tôt Những mạng nơ ron tích chậpnày đã cải thiện được nhược điểm của phương pháp truyền thống (học máy) làphụ thuộc nhiều vào bước trích xuất đặc trưng ảnh một cách thủ công trong khi

giai đoạn này ở phương pháp học sâu diễn ra hoàn toàn tự động (diễn ra bên trong những mạng nơ ron tích chập) Việc này giảm thời gian tỉnh chỉnh tham số

trong huấn luyện mô hình và tăng mức độ tổng quát cho mô hình được tốt hơn

Christopher Pramerdorfer và những đồng sự [3] đã lấy cảm hứng từ 3 mạng

nơ ron tích chập nổi tiếng (ResNet [32], Inception [33] và WGG [34]) để thiết kếkiến trúc mạng với số lượng tham số ít hơn nhưng đem lại độ chính xác tương

đối tốt Trong khi đó, Yousif Khaireddin và các đồng sự [4] lấy cảm hứng từ

kiến trúc của mạng VGG, đã phát triển phương pháp nhận diện cảm xúc khuônmặt với kết quả khá tốt Được huấn luyện và đánh giá trên tập dữ liệu FER2013,

độ chính xác của những phương pháp này tốt hơn nhiều so với đánh giá của conngười trên tập dữ liệu FER2013 (xấp xỉ 65.5% [14])

Với Zhanpeng Zhang và đồng sự [35], phát triển một mạng tích chập sâu

(DCN) để dự đoán phân loại quan hệ xã hội dựa trên nhiều yếu tốt, trong đó có

cảm xúc khuôn mặt Với mô hình đa mạng đề xuất của mình, kết quả đạt được tốt nhất với 75.1%.

Phương pháp học kết hợp đang là những phương pháp được sử dụng rộng rãivới ý tưởng sử dụng kết hợp nhiều mô hình nhằm tìm kiếm những điểm tối ưunhất cho bộ phân lớp Christopher Pramerdorfer và đồng sự [3] sử dụng kết hợp

8 mô hình va đạt được kết quả ấn tượng với 75.2% trên tập dữ liệu FER2013.Phạm Quí Luân và đồng sự [36] đã sử dụng những một lớp thêm vào - lớp

24

Trang 39

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

—— direct forward @ element-wise i — 3 residual

shorten forward product masking block residual} {masking

soo (governed by @ element-wise sum unit mm ; block area

hyperparameters)

Hình 2.16: Mô tả kiến trúc của Residual Masking Network Nguồn [36]

Masking, lấy cảm hứng từ kiến trúc của mạng Unet - với kiến trúc cơ bản củaResnet (hình 2.16) Với mô hình này bộ phân lớp có thể tập trung vào những

điểm nổi bật trên khuôn mặt và kết quả đạt được với 74.14% khi sử dụng mạng

Residual Masking và 76.82% khi kết hợp với 6 mô hình khác

Ưu điểm:

° Mức độ tổng quát của phương pháp nay có mức độ thể hiện khá tốt

« Tốc độ nhận diện rất nhanh, nhờ vào GPU.

« Loại bỏ được bước trích xuất đặc trưng phức tap

Nhược điểm:

* Cần một tập dữ liệu với số lượng lớn

* Tài nguyên sử dụng cho tính toán là rất nhiều

« Có thể bị hạn chế ở những thiết bị phần cứng yếu

25

Trang 40

2 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan

2.4 Kết chương

Với 2 giai đoạn riêng biệt (phát hiện khuôn mặt và phân loại cảm xúc), ta có

thể có nhiều hương tiếp cận khác nhau Kết hợp những phương pháp ở hai giaiđoạn này là hướng giải quyết cho bài toán nhận diện cảm xúc trên khuôn mặt

Để đánh giá rõ hơn về sự kết hợp những phương pháp đã nêu trên, sinh viên sẽ

thực hiện đánh giá và phân tích những phương pháp này và được nêu ở chương

3 Như mục tiêu của nhóm đã đề ra từ trước là sẽ chọn lọc và đánh giá phương

pháp phù hợp cho bài toán thời gian thực Do đó, nhóm sẽ thực hiện phân tích,

so sánh và đánh giá trên những phương pháp hiện đại (sử dụng mạng học sâu)nhằm tối ưu thời gian cũng như chất lượng của mô hình sử dụng

26

Ngày đăng: 03/11/2024, 18:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w