Trong suốt quá trình nghiên cứu, khoá luận này đã thực hiện được những nội dung sau: * Khao sát và đánh giá những phương pháp tiên tiến nhất hiện nay cho bài toán nhận diện cảm xúc khuôn
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
Lã Trường Hải - 18520698
KHOÁ LUẬN TỐT NGHIỆP
PHƯƠNG PHÁP CHO BÀI TOÁN NHẬN DIỆN
CẢM XÚC TRONG THỜI GIAN THỰC
Facial Emotion Recognition With Real-time Processing
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHÍ MINH, 2021
Trang 2DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số
¬ ngày của Hiệu trưởng Trường Dai học
Công nghệ Thông tin.
ne - Chi tich.
Qe cessscseessessee PME - Thu ky.
Ae eee ae GA a8 - Uy vién.
Trang 3LỜI CẢM ƠN
Đầu tiên, em xin chân thành cảm ơn ThS Đỗ Văn Tiến, là người thay
đã tận tình hướng dẫn giúp đỡ em trong những khó khăn của khóaluận, đưa ra những lời khuyên bổ ích, những định hướng đúng đắn
giúp em đi đúng đường là kim chỉ nam đã dẫn dắt em trong quãng
thời gian qua.
Đồng thời, em cũng muốn gửi lời cảm ơn tới toàn thể thầy cô giáo
trong Khoa Khoa học Máy tính, và những thay cô đã giảng dạy em
trong thời gian học tập và rèn luyện tại trường Đại học Công nghệ
Thông tin.
Cuối cùng, em xin cảm ơn ba mẹ, các anh chị, bạn bè đã luôn bên
cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi trong suốt
thời gian học tập ở trường Đại học Công nghệ Thông tin.
TP Hồ Chí Minh, tháng 12 năm 2021
Sinh viên thực hiện
Trang 4Mục lục
Mục lục iii
Danh sach hinh ve vii
Danh sách bang xDanh mục từ viết tat xi
1 TONG QUAN 1
1.1 Datvandé 2 ee 1
12 Phạm vi và mục tiêu - 4
12.1 MụctiêU ee ee ee 4 1.22 Phạmvl ee ee ee es 5
13 Dong góp củakhóaluận 5
14 Cấutrúckhóaluận 6
2 BÀI TOÁN NHẬN DIỆN CẢM XÚC KHUÔN MAT VÀ NHUNG
NGHIÊN CỨU LIÊN QUAN 7
Trang 5MỤC LỤC
2.2.3 Phương pháp Face-SSD 16
2.2.4 Phương phap BlazeFace 17
2.2.5 Nhận xét những phương pháp tiếp cận: 20
2.3 Bài toán nhận diện cảm xúc trên khuôn mặt và hướng tiếp cận 21 2.3.1 Hướng tiếp cận theo phương pháp truyền thống 21
2.3.2 Hướng tiếp cận theo phương pháp hiện đại (sử dung hoc SÂU) QOQO Q ee 24 24 Kếtchương ẶẶ Q Q TQ 26 PHƯƠNG PHÁP TỐI ƯU THỜI GIAN THỰC THỊ CHO BÀI TOÁN NHẬN DIỆN CAM XÚC KHUÔN MAT 27 31 Médau ee 27 3.2 Những kiến thức lênquan 28
3.2.1 DOGO" Se | / 28
3.2.1.1 Bài toán phát hiện khuôn mặt 29
3.2.12 Bàitoánphânloại 32
3.2.2 _ Hàm mấtmát: 35
3.2.3 Hàmtốiưu: ee 36 3.2.4 Chat lọc kiến thức (Knowledge Distillation) 39
3.2.4.1 TemperatureScale 41
3.2.4.2 DisHilaionLoss 42
3.24.3 Nhanxét - 2.0004 43 3.2.5 Hockéthop 0.000000 eee 43 3.3 Module phát hiện khuôn mặt: 45
3.3.1 Đánh giácác phương pháp 45
3.3.2 So sánh với điều kiện ảnh khác nhau 46
3.33 Kétluan Q Q Q2 50 3.4 Module phân loại cảm xúc khuôn mặt 51
iv
Trang 6MỤC LỤC
3.4.1 Giới thiệu về bộ đữliệu 51
3.4.1.1 Tổng quan về bộ dữ liệu FER2013 51
3.4.1.2 St dụng tap dữ liệu FER2013: 52
3.4.1.3 Vấn dé trong tập dữ liệu FER2013 va động lực 53 3.4.1.4 Nhậnxét 53
3.4.2 Huấn luyệnmôhình 54
3.4.2.1 _ Giới thiệu về mô hình huấn luyện 54
3.4.2.2 Quá trình tiền xử lý dữ liệu: 56
3.4.2.3 Quá rìnhhuấnluyện 58
3.4.3 So sánh và đánh giá kết quả mô hình trên tập dữ liệu FER205227 6 \x À 59
3.4.4 Trucquanhda 2.2-00 64 3.4.5 Kétlu@ fF đà | / 67
3.5_ Đánh giá hiệu suất kếthợp 2module 68
36 Kếtchương Ặ QQ TQ ee 69 ỨNG DỤNG MINH HOA 71 41 Médau Qua 71 42 Mộtsốhìnhảnhminhhọa - 71
4.3 Xây dựng ứng dung minh họa cho bài toán 71
4.3.1 Những thư viện va framework liên quan 72
43.1.1 PhầnAPI 72
4.3.1.2 PhanClientt 74
43.2 Cấu trúchệthống 75
43.3 Những chứcnăngchính 77
4.3.3.1 Táiánhiên 77
4.3.3.2 Lựa chọn phương pháp tiền xửlý 78
4.3.3.3 Lựa chọn module phát hiện khuôn mat 78
Trang 7MỤC LỤC
4.3.3.4 Lựa chọn module phân loại cảm xúc
4.3.3.5 _ Thực hiện phân loại cảm xúc khuôn mat
5 KẾT LUẬN VA HƯỚNG PHAT TRIỂN
52 Hướng pháttriển co
Tài liệu tham khảo
A Phụ lục cho phan so sánh và đánh giá thực nghiệm
84
90
Trang 8Danh sách hình ve
1.1
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
Minh hoa dau vào và dau ra của bai toán (Trái) và Vi du minh
hoạ cho bài toán (Phai)
Hệ thống đơn vị hành động biểu diễn khuôn mặt
Mô tả tổng quan về bài toán nhận diện cảm xúc khuôn mặt
Minh hoa cho bài toán phát hiện khuôn mặt
Mô tả đặc trưng
haarlike -Mô tả ảnhtíchhợp eee Mô tả thuật toán AdaBoost
Thuật toán phân lớp tang
-Phát hiện khuôn mặt với phương pháp Viola-Jones
Mô tả cấu trúc của mô hìnhSSD
Phát hiện khuôn mặt với phương pháp Face-SSD
Kiến trúc của khối Blaze Khối Blaze đơn (Trái) và khối Blaze đôi(phả) Ặ.Ặ ee ee ee ee ee ee ee Kiến trúc mang kim tự tháp gop Mô hình Single Shot Detec-tion(trai) và mô hình BlazeFace (phai)
Phát hiện khuôn mặt với phương pháp BlazeFace Đánh giá phương pháp HOG kết hợp SVM trên bộ dữ liệu JAFFE
22
vii
Trang 9Mơ tả kiến trúc của Residual Masking Network 25
Module hồn chỉnh cho bài tốn phát hiện và nhận diện cảm xúc
khuơn mặt ẶỒ.Ồ 28 Cơng thức tính độ đoloÙ 30
Mơ tả độ đo AP Q Q 0202200 eee 32
Minh hoa cho Confusion matix 33
Vi dụ về ma trận bổi rối trong bài tốn phân loaidalép 34
Sơ đồ mơ tả hoạt động của hàm tối ưu trên một hàm mat mát 38
Cơng thức thuật tốn Adabelef 38
Ý tưởng chính của phương pháp knowledge distillation 39
Mơ tả phương pháp Knowledge Distillation 40
Mơ tả Hard Label (đầu ra trước khi làm mượt) va Soft Targets(đầu ra sau khi làm mượt) - 42
Mơ tả thuật tốn stackmg 44
So sánh khả năng phát hiện khuơn mặt trên ảnh điều kiện bình
So sánh khả năng phát hiện khuơn mặt trên ảnh chứa nhiều người 47
So sánh khả năng phát hiện khuơn mặt trên ảnh cận mat 48
So sánh khả năng phát hiện khuơn mặt trên ảnh chứa khuơn mặt
So sánh khả năng phát hiện khuơn mặt trên ảnh thiểu sáng 49
So sánh khả năng phát hiện khuơn mặt trên ảnh chứa khuơn xa sovGicamera - - da(a4(.L.L 49
Biểu đồ thể hiện tỉ lệ phân chia của tập dữ liệu FER2013_ 52
Mơ tả mơ hình CNN để xuất 55
Viil
Trang 10DANH SÁCH HÌNH VẼ
3.20
3.21
3.22
3.23
3.24
3.25
3.26
3.27
3.28
3.29
3.30
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
A.l
A.2
A.3
A.4
A.5
Mô tả mô hình CNN_minimum đề xuất 55
Đặc tả phương pháp đề xuất 57
Ap dụng phương pháp knowledge distillation 60
Mô tả phương pháp học kếthợp - 61
Ma trận hỗn loạn của mô hìnhCNN 62
Ma trận hỗn loạn của mô hình kếthợp 63
Ma trận đặc trưng của lớp tích chập - 65
Ma trận đặc trưng của lớp Leaky RELU 2 65
Ma trận đặc trưng của lớp chuẩnhóa 66
Ma trận đặc trưng của lớp gop tungbình 66
Ma trận đặc trưng của lớp dropout 67
Module hoàn chỉnh cho bai toán phát hiện va nhận diện cảm xúc khuôn mặt Ặ.Ặ.Ặ.Ồ ẶQẶ Ồ 72 Một số hình ảnh nhận diện đúng 73
Mô ta pipeline qui trình xử lý của ứng dụng minhhoa 75
Mô tả giao diện của ứng dụng minhhoa 77
Giao diện hiển thị ảnh tải lên 78
Giao diện chọn 3 module phát hiện khuôn mặt 79
Giao diện chọn các module phân loại cảm xúc khuôn mat 79
Giao diện hiển thị kết quả của ứng dụng minhhoa 80
Ma trận hỗn loạn của mô hình VGGI16 9]
Ma trận hỗn loạn của mot hình ResNet34 92
Ma trận hỗn loạn của mot hình RestNet50 93
Ma trận hỗn loạn của mot hình Xception 94
Ma trận hỗn loạn của mot hình MobileNetV1 95
1X
Trang 11Danh sách bảng
2.1
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Phân loại cảm xúc dưa trên Don vị Hanh déng
Đánh giá các phương pháp phát hiện khuôn mat Bang thống kê dữ liệu trong tập dữ liệu FER2013_
Tỉ lệ phân chia dữ liệu huấn luyện trong tập dữ liệu FER213
Mô hình được sử dụng trong khoá luận
Cấu hình máy huấn luyện
-So sánh kết quả của những mô hình đã được huấn luyện lại
So sánh hiệu suất của mô hình qua các phương pháp
So sánh mô hình với những phương pháp State of the art Cấu hình máy thực nghệm -
3.10 Bảng so sánh tốc độ thực thi của module hoàn chỉnh
Trang 12Danh mục từ viết tắt
Từ viết tắt | Nội dungCNN(s) Convolutional Neural Networks
Conv Convolution
SSD Single Shot Detection (may do anh don)
FACS Facial Action Coding System
VJ Viola Jones algorithm (thuật toán Viola & Jones)
XI
Trang 13TÓM TẮT KHÓA LUẬN
Sự phát triển vượt bậc của nền văn minh nhân loại đã kéo theo nhiềubước đột phá trong tiến trình khai phá tri thức Ngày càng nhiều
những nghiên cứu và sản phẩm được tạo ra nhằm giải quyết giúp con
người những nhu cầu thiết yếu Những sản phẩm góp phần giảm áp
lực vận động cho con người cũng như san sẻ trách nhiệm, đáp ứng
nhu cầu cho con người Trong đó, sự phát triển mạnh mẽ của ngành
dịch vụ kéo theo nhu cầu được đáp ứng của người dùng khắt khe hơn.Tận dụng được sức mạnh của Trí tuệ Nhân tạo, bài toán nhận diện
cảm xúc dựa trên khuôn mặt con người được dé cập và giải quyết
nhằm phù hợp với nhu cầu dịch vụ
Hiện nay, đã có những nghiên cứu về bài toán nhận diện cảm xúckhuôn mặt và có những kết quả khá tốt Tuy nhiên mức độ áp dụng
của những nghiên cứu chưa cao, nguyên nhân do độ phức tạp tính
toán của những phương pháp này khá lớn, đòi hỏi yêu cầu phần cứng
tương đối cao Trong khi nhìn chung những mô hình dịch vụ vẫn
chưa thể đáp ứng về những yêu cầu trên Bên cạnh đó vấn đề xử lý
thời gian thực cũng là một thách thức Vì những lí do đó, nhóm thực
hiện nghiên cứu và đánh giá những phương pháp phù hợp giải quyếtcho vấn đề về yêu cầu phần cứng và thực thi thời gian thực Đó cũng
là đề tài chính của khoá luận này
Để giải quyết van đề trên, nhóm đã tập trung phân tích và nghiên cứu
những mô hình hiện đại cho bài toán phân loại cảm xúc Nghiên cứu
Trang 14và đánh giá trên những mô hình có kích thước nhỏ Qua đó tìm ra mô
hình phù hợp với yêu cầu bài toán đã đặt ra.
Trong suốt quá trình nghiên cứu, khoá luận này đã thực hiện được
những nội dung sau:
* Khao sát và đánh giá những phương pháp tiên tiến nhất hiện nay
cho bài toán nhận diện cảm xúc khuôn mặt.
¢ Nghiên cứu, phân tích và dé xuất giải pháp phù hợp cho bài
toán nhận diện cảm xúc khuôn mặt với thời gian thực thi nhanh
hơn và yêu cầu phần cứng nhỏ hơn Trong đó mô hình nhóm déxuất một đạt kết quả 72.8% với 6.4 triệu tham số Khi sử dụng
phương pháp học kết hợp kết quả đạt 73.6%.
« Đối với bài toán thời gian thực đề xuất mô hình nhỏ hơn dat
70.9% và 70.14% lần lượt với lượng tham số 1.1 triệu và 3.3
triệu tham số.
* Xây dựng một ứng dụng web nhằm đánh giá hiệu suất thực thi
khi áp dụng thực tế
Từ khoá: nhận diện cảm xúc khuôn mặt, học sâu, mạng nơ ron tích
chap, phát hiện khuôn mặt.
Trang 15Chương 1
TỔNG QUAN
1.1 Đặt van đề
Công nghệ hiện đại của con người đã có một bước tiền dài sau khi có sự xuất
hiện của Trí tuệ Nhân tạo (AI) Mỗi ngày trôi qua, lại có sự xuất hiện của côngnghệ mới - thứ góp phần trong việc giúp đỡ con người xử lý những công việc từđơn giản cho đến phức tạp Sư tăng trưởng đên mức chóng mặt của Công nghệ
nói chung và Trí tuệ Nhân tạo nói riêng đã đóng vai trò quan trọng trong công
cuộc hiện đại hoá, công cuộc của cách mạng 4.0.
Trí tuệ Nhân tạo, là thuật ngữ để chỉ một hay nhiều thiết bị, máy tính có thểhoạt động và xử lý những tình huống như một con người Những bài toán có thể
được đặt ra trong lĩnh vực này là:
* Thị giác Máy tính: giúp máy tính có thể nhìn thấy hình ảnh và xử lý hình
ảnh tương tự như cách con người xử lý.
¢ Xử lý Ngôn ngữ Tự nhiên: giúp máy tính có thể hiểu được ngôn ngữ
giống như con người.
* Xử lý Tiếng nói: giúp máy tính nghe và hiểu được âm thanh etc
Trang 161 TONG QUAN
Trong đó, Thi giác Máy tính là một lĩnh vực tiềm năng khi khai thác cách máytính xử lý hình ảnh Nhờ vào Thị giác Máy tính, máy tính có thể nhận diện được vật thể, xác định được khuôn mặt người hay nhận diện văn bản,
Bài toán nhận diện cảm xúc trên khuôn mặt người, là một trong những bài toán nổi bật trong lĩnh vực này [1, 2]
Dữ liệu đầu vào và đầu ra của bài toán bao gồm:
‹ Đầu vào: Hình ảnh chứa khuôn mặt người
¢ Dau ra: Nhãn cảm xúc khuôn mặt.
Hình 1.1: Minh hoạ đầu vào và đầu ra của bài toán (Trái) và Ví dụ minh hoạ cho bài
toán (Phải)?
Bài toán phân tích cảm xúc dựa trên 2 loại đầu vào bao gồm:
- Ảnh tĩnh: nhận diện cảm xúc trên khuôn mặt của từng ảnh mà trong đó
chủ yếu trích xuất đặc trưng trên khuôn mặt trong ảnh và xử lý Phươngphap[3, 4] là những phương phương pháp nổi bật trong bài toán này
¢ Chuỗi anh động: việc xử lý trên chuỗi ảnh động, thực hiện quan sát sự
tương quan giữa các chuỗi ảnh và nhịp độ của chúng để đánh giá và nhận
Trang 171 TONG QUAN
diện nhãn cảm xúc Phương pháp [5, 6, 7, 8] là những phương phương
pháp nổi bật trong bài toán này.
Với kiến thức có được, trong khoá luận này, nhóm thực hiện nghiên cứu phương
pháp nhận diện cảm xúc khuôn mặt trên anh tinh.
Gần đây, có một số nghiên cứu về nhận diện cảm xúc khuôn mặt được triểnkhai và ứng dụng vào một số lĩnh vực thực tiễn Dựa vào camera hành trình,
có thể nhận biết và giám sát cảm xúc, hành vi của tài xế hay dựa vào hình từcamera theo dõi, có thể phân tích và đánh giá phản hồi của khách hàng thông
qua các dịch vụ chăm sóc khách hàng [9].
Theo thống kê của Mordor Intelligence, lợi nhuận của thị trường nhận diệncảm xúc đạt 19.87 tỉ USD với mức tăng trưởng 18.01% Có thể thấy nhu cầu áp
dụng trí tuệ nhân tạo trong việc phát hiện cảm xúc ngày càng tăng Điều này góp
phần thúc đẩy sự phát triển các ngành kinh tế đặc biệt là các ngành đòi hỏi sựtương tác và nhu cầu của khách hàng như dịch vụ, bán lẻ
Việc tăng mức độ hài lòng, trải nghiệm của khách hang là van dé ưu tiênhàng đầu mà trong đó một trong những yếu tố chính khi nói về trải nghiệm của
người dùng khi triển khai và áp dụng công nghệ là tốc độ phản hồi nhanh chóng (trong thời gian thực).
Với những nghiên cứu về bài toán nhận diện cảm xúc khuôn mặt, cùng với
sự bùng nổ về dữ liệu hình ảnh, những tập dữ liệu cho bài toán nhận diện cảm
xúc được tạo ra với mục đích phục vụ cho bài toán Qua quá trình khảo sát và đánh giá [10], bộ dữ liệu được chia làm 2 nhánh chính:
» Bộ dữ liệu ràng buộc (constrained database): đây là bộ dữ liệu được thu
thập và đánh giá dựa trên những điều kiện ràng buộc hay trong phòng thínghiệm phục vụ cho việc đánh giá những hệ thống nhận diện khuôn mặt
Những bộ dif liệu tiêu biểu cho dang này là: CK+ [11], JAFFE [12], MMI
[13]
Trang 181 TONG QUAN
* Bộ dư liệu không rang buộc (unconstrained database): đây là bộ dữ
liệu được thu thập trong điều kiện tự nhiên với mức độ ánh sáng đa dạng,phức tạp và không chịu sự chi phối từ điều kiện khách quan Những bộ dữ
liệu tiêu biểu cho dạng nay là: FER2013 [14], AFEW [15],
Mục tiêu chính của khoá luận là thử nghiệm và đánh giá các phương pháp nhận
diện cảm xúc khuôn mặt trên hệ thống phát hiện khuôn mặt từ camera với
những hình ảnh ở những điều kiện đa dạng khác nhau Do dó, nhóm tập trung
nghiên cứu và đánh giá trên bộ dữ liệu không ràng buộc.
1.2 Phạm vi và mục tiêu
1.2.1 Mục tiêu
Các mô hình hiện đại hiện nay tập trung chủ yếu vào chất lượng (độ chính
xác) của mô hình phân lớp cảm xúc Do đó, phần lớn những phương pháp này
có lượng tham số và khối lượng tính toán rất lớn Điều này gây khó khăn cho trải
nghiệm của người sử dụng nếu áp dụng vào thực tế, đặc biệt là áp dụng vào các ngành dịch vụ.
Do đó, nhằm tập trung giải quyết bài toán nhận diện cảm xúc trên khuôn mặt
từ ảnh trích xuất từ camera và xử lý trong thời gian thực, nhóm đã dé ra những
mục tiêu cụ thể để hoàn thành công việc như sau:
« Phân tích và đánh giá một số phương pháp nhận diện cảm xúc khuôn mặt
hiện đại nhất hiện nay sử dụng Deep Learning
* So sánh những phương pháp tốt nhất, nhờ đó, đề xuất phương pháp phù
hợp cho bài toán thời gian thực.
« Cài đặt, hiện thực, đánh giá kết quả của một số phương pháp trên tập dữ
Trang 191 TONG QUAN
liệu chuẩn dựa trên một số độ đo tiêu chuẩn của bài toán nhận diện, phân
loại cảm xúc trên khuôn mặt.
¢ Huan luyện mô hình có thể thực thi gần với thời gian thực với độ chính xác
chấp nhận được.
s Xây dựng ứng dụng minh hoa cho bài toán nhận diện cảm xúc khuôn mat.
1.2.2 Phạm vi
Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn
thành các công việc sau:
« Tập trung giải quyết bài toán nhận diện cảm xúc khuôn mặt dựa trên hình
ảnh trích xuât từ camera.
» Tập trung đánh giá các phương pháp hiện dai dựa trên tập dữ liệu FER2013
[14]
° Nghiên cứu, huấn luyện lại những mô hình hoc sâu tiên tiến nhất, qua đó
thực hiện so sánh và đánh giá giữa những mô hình, chọn lọc ra phương
pháp phù hợp cho bài toán nhận diện cảm xúc thời gian thực.
s Xây dung một ứng dung minh hoa cho các thuật toán dùng cho bài toán
nhận diện cảm xúc khuôn mặt từ hình ảnh trích xuât từ camera.
1.3 Đóng góp của khóa luận
Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực
hiện khóa luận:
¢ Hệ thống lại hướng tiếp cận và giải quyết trong bài toán nhận diện cảm
xúc trên khuôn mặt.
Trang 201 TONG QUAN
* Tìm hiểu và đánh giá những phương pháp hoc sâu được sử dụng trong bai
toán nhận diện cảm xúc khuôn mặt.
¢ Huấn luyện và đánh giá các mô hình sử dụng phương pháp nhận diện cảm
xúc khuôn mặt.
« Đề xuất phương pháp nhằm giúp cải thiện tốc độ thực thi cũng như độ
chính xác của bộ phân lớp cảm xúc.
» Xây dựng ứng dụng minh hoạ cho bài toán nhận diện cảm xúc khuôn mặt.
1.4 Cấu trúc khóa luận
Chương 1: Giới thiệu tổng quan đề tài
Chương 2: Trình bày tổng quát các hướng tiếp cận có thể giải quyết bài toán
nhận diện cảm xúc khuôn mặt trong hình ảnh và các nghiên cứu liên quan.
Chương 3: Thực nghiệm, so sánh và đánh giá phương pháp trên bộ dữ liệu
và kết quả so sánh giữa các phương pháp nhận diện cảm xúc khuôn mặt.
Chương 4: Minh hoạ cho phương pháp nhận diện cảm xúc khuôn mặt và
xây dựng ứng dụng sử dụng phương pháp đã chọn lọc.
Chương 5: Trình bày kết luận và hướng phát triển của đề tài
Trang 21Chương 2
BÀI TOÁN NHẬN DIỆN CẢM XÚC
KHUÔN MAT VÀ NHỮNG NGHIÊN
CỨU LIÊN QUAN
2.1 Mở đầu
Nghiên cứu về cảm xúc con người luôn là bài toán được quan tâm nhiềunhất nhằm phân tích và đánh giá cảm xúc của con người dựa trên những biểuhiện của con người Trong đó, khuôn mặt luôn là yếu tố chính biểu hiện rõ nétnhất về cảm xúc của con người Paul Ekman và những đồng sự [16, 17] đã cónhững nghiên cứu về những biểu hiện trên khuôn mặt nhằm phân tích nhữngđiểm nét trên khuôn mặt mà dựa vào đó ta có thế đánh giá cảm xúc của khuôn
mặt [18, 19] Hệ thống mã hoá hành động trên khuôn mặt (FACS) đã được Paul
Ekman phát triển dựa trên Don vị hành động (Action Units), cơ sở cho nhữngnghiên cứu về biểu hiện của con người dựa trên hành động
Don vị hành động và hệ thong mã hoá hành động trên khuôn mặt hệ thống
mã hoá hành động trên khuôn mặt là một hệ thống toàn diện dựa trên giải phẫu
học để mô tả tất cả chuyển động của khuôn mặt có thể nhìn thấy được bằng
Trang 222 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
mắt thường [17] Trong đó, nó chia nhỏ các biểu hiện khuôn mặt thành những
chuyển động riêng lẻ của cơ mặt, được gọi là đơn vị Hành động (AU).
Upper Face Action Units
AUI AU4 AUS | AU6 AU7
Inner Brow | Outer Brow |e werer| Upper Lid |
Rainer Raiser Raine | (Cheek Raiser | Lid Tightener
Lip Droop Slit Eyes Closed Squint | Blink Wink
Lower Face Action Units
AU9 AU10 AUIl AU12 AUI3 AUIS
cd ay
F —n Tả
Nose Wrinkler Upper Lip Nasolabial Lip Corner
Raiser Deepener Puller ee | ee
AUIS AUI6 AUI7 AUIS AU20 AU22
Lip Tightener | Lip Pressor | Lips Parts | Jaw Drop | Mouth Stretch| Lip Suck
Chin Raiser | Lip Puckerer | Lip Swetcher | Lip Funneler
Hình 2.1: Hệ thống đơn vị hành động biểu diễn khuôn mat Nguồn Internet !
Hình 2.1 đã mô tả những biếu hiện khuôn mặt trong hệ thông mã hoá hành
động khuôn mặt, dựa vào những điểm trên, (Bảng 2.1) đã thể hiện phân tích
cảm xúc dựa trên đơn vị Hành động và phân loại nó thành 7 loại nhãn cảm xúc
dựa trên nghiên cứu của Paul Ekman và đồng sự [20, 17, 21], là nền tang cho
những nghiên cứu và phân tích cảm xúc khuôn mặt hay xa hơn nữa là những bài
toán nhận diện cảm xúc khuôn mặt với trí tuệ nhân tạo sau này.
Trong giới han của khoá luận này, sinh viên tiêp cận bài toán với 7 nhãn cảm
xúc chính bao gồm:
¢ Hức giận
'https://www.researchgate.net/figure/Facial-Action-Units-AUs-of-upper-and-lower-face_fig3_280298368 'Nhe
?Một chút ít
3Bén phải
Trang 232 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
Bảng 2.1: Phân loại cảm xúc dưa trên Đơn vị Hành động
Ở bài toán nhận điện cảm xúc khuôn mặt dựa trên ảnh chứa khuôn mặt người,
có hai thành phần chính riêng biệt cho bài toán này Bao gồm:
« Phát hiện khuôn mặt: phát hiện vùng chứa khuôn mặt người, là đầu vào
cho phân phân loại cảm xúc.
¢ Phân loại cảm xúc: dựa vào đầu vào là những ảnh khuôn mặt người, thực
hiện phân loại và gán nhãn cảm xúc cho bức ảnh.
Ở mỗi bài toán thành phần ta có những hướng tiếp cận riêng cho từng bài
toán sẽ được giới thiệu ở phần tiếp theo Dưới đây, nhóm thực hiện đánh giá vàphân tích những hướng tiếp cận chính cho bài toán nhận diện cảm xúc khuôn
mặt.
Trang 242 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
phân loại
Angry
Module nhận diện cam xúc P
Hình 2.2: Mô tả tổng quan về bài toán nhận diện cảm xúc khuôn mặt
2.2 Giới thiệu về bài toán phát hiện khuôn mặt
2.2.1 Mô ta bài toán
Bài toán phát hiện khuôn mặt là bài toán đã xuất hiện từ lâu, nó là thành
phần cơ sở cho những bài toán trí tuệ nhân tạo sau này mà đặc biệt trong đó là
bài toán nhận diện cảm xúc khuôn mặt.
Bài toán bao gồm:
* Đầu vào: hình ảnh chứa con người.
‹ Đầu ra: vùng ảnh chứa khuôn mặt
Đã có những nghiên cứu, những phương pháp được phát triển nhằm giải
quyết bài toán phát hiện khuôn mặt Viola và Jones đã phát triển thuật toán
mang tên của bọn họ để tăng năng suất cho bài toán phát hiện khuôn mặt dựa
trên sự tính toán của cpu [22] Hay Wei Liu và những đồng sự với mô hình SSD
10
Trang 252 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
đã cải thiện độ chính xác trong phát hiện vật thể dựa trên mạng nơ ron sâu [23],nhờ đó dựa trên cấu trúc này B Ye và đồng sự [24] đã giải quyết bài toán pháthiện khuôn mặt Xa hơn nữa, trong những nghiên cứu gần đây, [25, 26] đã tận
dụng GPU và mạng nơ ron tích chập để cho ra những phương pháp phát hiện
khuôn mặt tốt hơn với độ chính xác cao và thời gian tính toán thấp
Trong giới hạn của khóa luận, sinh viên nghiên cứu và đánh giá trên 3 phương
pháp chính bao gồm: Haar Cascade Detector (Thuật toán Viola & Jones) [22],
Face - SSD [23, 24] và BlazeFace [26].
2.2.2 Phương pháp Viola & Jones
Được công bố vào năm 2004, thuật toán Viola & Jones đến nay van là mộttrong những phương pháp được sử dụng nhiều nhất và đem lại kết quả tốt trong
bài toán phát hiện khuôn mặt.
Phân tích thuật toán ý tưởng chính của thuật toán là sử dung haar like feature
- những đặc trưng được khởi tạo từ ban đầu - so sánh với những vùng đặc trưng
riêng biệt trên ảnh để chọn ra những vùng được cho là giống với đặc trưng khuôn
11
Trang 262 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
mặt người nhất (gần với đặc trưng haar like)
Ba thành phần chính của thuật toán Viola & Jones bao gồm:
« Đặc trưng Haar like: như đã dé cập ở trên, đặc trưng haar like là thành
phần quan trọng của thuật toán, nó giúp tính toán và phát hiện vùng chứ
khuôn mặt (Hình 2.4) thể hiện những dạng đặc trưng của haar like bao gồm 3 loại filter: Two-Rectangle Feature, Three-Rectangle Feature và Four-Rectangle Feature.
Hình 2.4: Mô tả đặc trưng haar like Nguồn Internet !
° Ma trận ảnh tích hợp (Integral Image): là ma trận tích hợp được tính
toán dựa trên ảnh truyền vào, được tính toán là tổng những điểm nằm phía
trên và bên trái của điểm ảnh hiện tại (bao gồm cả điểm ảnh đó) Ma trậnảnh tích hợp giúp giảm thiểu thời gian tính toán và chi phí cho việc tínhtoán những đặc trưng ảnh (Hinh 2.5) minh hoạ về ma trận ảnh tích hợp.Trong đó, ảnh bên trên là công thức biến đổi từ ma trận ảnh thường sang
| https://www.researchgate.net/publication/220660094_Robust_RealTime_Face_Detection
12
Trang 272 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
ma trận ảnh tích hợp và ảnh dưới là minh hoạ cách mà ta thực hiện tính
toán đặc trưng haar like trên ảnh tích hợp.
W515 1ñH Ti = Mil0@al image vs 145 | 48 late 147
Ry Peas Eccl erat Brot
Original Image
(Grayscale) Integral Image
Hình 2.5: Mô ta ma trận ảnh tích hợp Nguồn Internet !
¢ Thuật toán AdaBoost: thuật toán AdaBoost [27] là một thuật toán của
phương pháp học kết hợp nhằm tăng độ chính xác của thuật toán và giảmchi phí cho việc tìm kiếm đặc trưng khuôn mặt Thuật toán AdaBoost giúpchọn ra feature tốt nhất, nhờ đó giảm thiếu số lượng đặc trưng haar like
"https://towardsdatascience.com/understanding-face-detection-with-the-viola-jones-object-detection-framework-c55cc2a9dal4
13
Trang 282 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
Feature 1 best feature |
Feature 2 best feature 2
feature 3 best features ———= Strong Classifier
Feature n best fealirre tú
where mú > m
Hình 2.6: Mô tả thuật toán AdaBoost Nguồn Internet !
* Bộ phân loại tầng: là bộ phân loại theo tầng, trong đó mỗi tầng là một bộ
phân loại mạnh dựa trên thuật toán AdaBoost và số lượng "phân loại yếu"
trong mỗi "phân loại mạnh" sẽ tăng dần theo mỗi tầng Ý tưởng chính: qua
mỗi tầng, sẽ thực hiện đánh giá, nếu đầu vào mang nhãn tiêu cực (khôngphải khuôn mặt), đặc trưng đó sẽ bị loại bỏ, ngược lại nếu mang nhãn tíchcực, nó sẽ được chuyển đến tầng tiếp theo Nhờ vậy, chi phí và thời gian
cho việc tính toán đã được rút ngắn rất nhiều
Với 4 thành phần chính được nêu ra ở trên, thuật toán Viola & Jones được
chia ra 2 giai đoạn chính:
* Giai đoạn xử lý đầu vào bao gồm 2 thành phan: Đặc trưng haar like và ma
trận ảnh tích hợp Trong đó, ở giai đoạn này thuật toán thực hiện tính toán
Trang 292 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
Lm]
‡ Maybe face Maybelaos — „—— Maybe face
{no face pee {it ce {Not face
| Rielect Input |
Hình 2.7: Thuật toán phân lớp tầng Nguồn Internet !
đặc trưng trên ảnh dựa vào ma trận ảnh tích hợp và so sánh với đặc trưng
haar like để đánh giá.
« Giai đoạn phân loại và phát hiện vùng chứa ảnh khuôn mặt, bao gồm 2
thành phan: Phân lớp tang dựa trên thuật toán Ada Boost Trong đó, ở giaiđoạn này, thuật toán thực hiện tìm và phân loại những đặc trưng giống vớiđặc trưng khuôn mặt haar like nhất
15
Trang 302 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
Extra Feature Layers
~ Cony, 3x3x1024 Conn: 1x1x1024 Coen: ixtx286 “Con lxlxl25 Comrlrlxi23 Gọnwv Txtxt 28.
Coen: 3v3512-52 Conv; 3v3v25632 Conv: 3x3x256-51 Corn: 3lv2564%1
Hình 2.9: Mô tả cau trúc của mô hình SSD Nguồn [23]
2.2.3 Phương pháp Face - SSD
Phương pháp Face-SDD là một dạng bài toán phát hiện đối tượng (khuônmặt) được lay cảm hứng từ phương pháp Single Shot Detector (SSD) [24, 23]
Vì phạm vi của khóa luận, nhóm chỉ tập trung phân tích ý tưởng phát hiện khuôn
mặt với SSD, không phân tích về cấu trúc SSD
Khi áp dụng với ảnh khuôn mặt (được triển khai bởi OpenCV), khi thực
hiện phát hiện khuôn mặt dựa trên blob (hình dáng khuôn mặt) Blob là kĩ thuật
tìm những điểm bên trong ảnh, dựa vào những hình dáng điểm đó, mô hình
pretrained sẽ phát hiện được khuôn mặt và vùng chứa khuôn mặt trên đó.
Ưu điểm: nhờ sử dụng những phương pháp học sâu nên khả năng phát hiện khuôn mặt và thời gian thực thi của phương pháp này khá tốt Tuy nhiên vẫn còn
một số hạn chế nhất định
Nhược điểm: phương pháp này dựa vào những ảnh với kích thước đầu vào lớn
hơn 300 x 300, do đó, những ảnh có kích thước nhỏ hơn, phương pháp này sẽ dễ
nhận biết sai lầm, bên cạnh đó những khuôn mặt cận sẽ không thể nhận biết tốt.Phần này, nhóm sẽ trình bày rõ hơn ở phần thực nghiệm
16
Trang 312 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
2.2.4 Phương pháp BlazeFace
Phương pháp BlazeFace sử dụng mạng Nơ ron tích chập mang tên là
Blaze-Face, giải quyết bài toán phát hiện khuôn mặt trên những thiết bị di động với tốc
độ phát hiện nhanh (gấp 10 lần so với phương pháp của Viola va Jones)
Ý Tưởng chính
* Khối Blaze: là thành phần cơ bản của mô hình Blaze Face Lay cảm hứng
từ MobileNetV1, khối Blaze được thiết kế là một khối Tích chập có thể
tách rời theo chiều sâu (Được giới thiệu lần đầu trong [28]) Kiến trúc
của khối này bao gồm một ma trận tích chập sâu (Deepwise) kích thước
5x5 theo sau là một ma trận tích chập với kích thước là 1x1 được gọi là
PointWise Mục đích của phương pháp này nhằm giảm thiểu số lượng
tham số được dùng cho bài toán phát hiện khuôn mặt với mô hình với khối
17
Trang 322 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
¢ Tính toán neo: lay cảm hứng từ [23, 29], Mang Kim tự tháp gdp được triển
khai để tính toán neo Dựa vào (Hình 2.12), ta có thể thấy so với mô hình
Single Shot Detector, tác giả đã lược bỏ bớt số lượng bản đồ đặc trưng
(kích thước nhỏ nhất bản đồ tính năng của mô hình SSD là 2x2 trong khi
ở mô hình Blaze Face là 8x8) Số lượng hộp được tăng lên (690 —› 896),
nhờ vậy việc xác định vật thể (khuôn mặt) trong bức ảnh được chính xác
hơn.
18
Trang 332 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
» Chỉ phù hợp với những hình ảnh rõ khuôn mặt (khuôn mặt có khoảng cách
so Với camera vừa đủ).
19
Trang 342 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
2.2.5 Nhận xét những phương pháp tiếp cận:
Nhìn chung, những phương pháp phát hiện khuôn mặt trên phương diện thực
nghiệm và phát hiện khuôn mặt đã phần giải quyết được bài toán xác định vàtrích xuất đặc trưng vùng chứa khuôn mặt Tuy nhiên, vẫn còn những đặc điểm
đáng lưu ý ở những phương pháp trên:
« Với thuật toán Viola & Jones, đặc trưng khuôn mặt phụ thuộc rất nhiều
vào đặc trưng haar like, do đó về mức độ tổng quát, phương pháp này sẽcho độ chính xác không tốt ở những điều kiện môi trường thiếu sáng hoặc
nhiều hình ảnh nhiễu (đối tượng có đặc trưng giống khuôn mặt) Tuy nhiên,
vì không yêu cầu sự phức tạp tính toán cũng như tài nguyên lớn, phươngpháp này vẫn được sử dụng nhiều, đặc biệt là những thiết bị có phần cứngchất lượng chưa tốt
« Với phương pháp Face-SSD, đây là phương pháp được sử dụng lay cảm
20
Trang 352 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
hứng từ phương pháp Máy dò ảnh phát hiện đối tượng Phương pháp này
khắc phục được hầu hết những hạn chế của phương pháp Viola & Jones
đối với những ảnh khuôn mặt trong điều kiện không tốt Tuy nhiên với
những ảnh cận mặt, phương pháp này vẫn cho một số kết quả chưa tốt.
* Với phương pháp BlazeFace, việc tận dung GPU đã tăng tốc độ phát hiện
khuôn mặt trên ảnh, độ chính xác của hộp bao cải thiện hơn nhiều so với
phương pháp Viola & Jones (kể cả với những ảnh mặt nghiêng) Tuy nhiên, phương pháp này lại gặp khó khăn với những bức ảnh chứa nhiều khuôn
mặt hoặc ảnh chứa khuôn mặt nhỏ Phát biểu này sẽ được nhóm trình bày
rõ hơn ở phần 3.3.2.
2.3 Bài toán nhận diện cam xúc trên khuôn mat và
hướng tiếp cận
Sau khi xác định đươc khuôn mặt có trong ảnh, bước tiếp theo, ta thực hiện
nhận diện/phân loại cảm xúc trên khuôn mặt đã được trích xuất, dựa trên những
đặc trưng trên khuôn mặt Có hai hướng tiếp cận chính cho bài toán này: sử dụngphương pháp truyền thống và sử dụng phương pháp hiện đại
2.3.1 Hướng tiếp cận theo phương pháp truyền thông
Phương pháp truyền thống là phương pháp sử dụng mô hình máy học để phânloại những nhãn cảm xúc, dựa trên những đặc trưng khuôn mặt Đặc điểm chínhcủa phương pháp này là bước trích xuất đặc trưng khuôn mặt, thực hiện trích
xuất những đặc trưng khuôn mặt (mắt, mũi, miệng) Sau đó dựa trên những đặc
trưng đó đưa vào mô hình để thực hiện phân loại.
Những nghiên cứu gần đây đã cho thấy sự hiệu quả của phương pháp này:Junkai Chen và đồng sự [30] đã sử dụng kết hợp phương pháp trích xuất đặc
21
Trang 362 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
trưng (Histogram of Oriented Gradient) và thuật toán phân loại Máy Véc-tơ
Hỗ Trợ (SVM) cho bài toán phân loại cảm xúc Trong khi đó Md Zia Uddin
và những đồng sự [31] lại sử dụng phương pháp chuyển đổi Radon (Radon
Tranform) kết hợp với phân tích phân biệt tổng quát (GDA) cho giai đoạn trích
xuất đặc trưng và Mô hình Markov ẩn cho giai đoạn phân loại nhãn cảm xúc
TABLEL cuasmeanon Resorisoe Four Menoss AN T€0T DĐ TTETTHT ST 80 TABLE IV THE-CLASSIFICATION RATES OF EACH EXPRESSION WITH
ON THEIAEE DATASE AN | 0.84 | 0.04 | 0.07 | 0.00 | 0.02 | 0.00 | 002 ‘Our | SPIS [is] | CAPP |SPTSICAPE
Method Classification Rate CO | 006 | 061 | 0.00 | 011 | 011 | 0.11 | 0.00 am CI ED ea
Gabor*FSLP [19] 91.0% DI | 0.02 | 000 | 095 | 0.00 | 0.03 | 000 | 0.00 co} nái ?z TL n5 0m]
Hình 2.14: Đánh giá phương pháp HOG kết hợp SVM Độ chính xác của phương pháp
(Trái), Ma trận hỗn loạn (Giữa), Bảng báo cáo phân loại (Phải) Nguồn [30]
Những phương pháp trên nhìn chung đã cho kết quả tương đối cao khi thực hiện phân loại (Hình 2.14) cho thấy phương pháp [30] đem lại độ chính xác cao
và phân loại khá tốt Tương tự là (hình 2.15) khi hướng tiếp cận của tác giả đạtđược kết quả tương đối cao cho bài toán phân loại
22
Trang 372 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
Feature Activity Recognition rate Mean
ANN, SV!
HMM (uni ANN Anger 85 86.25
Happy 87.50
@RGB/Non-Depth Camera-Based Mean FER Rate Sad 85
@ Depth Camera-Based Mean FER Rate ‘Surprise 9”
Hình 2.15: Đánh giá phương pháp chuyển đổi Radon kết hợp mô hình Markov ẩn Biểu
đồ đánh giá của những phương pháp trích xuất đặc trưng (Trái) và Bảng so sánh những thuật toán phân loại (Phải) Nguồn [31]
Ưu điểm:
* Với phương pháp truyền thống, độ phức tạp tính toán không lớn nhờ đó có
thể dễ dàng triển khai mô hình và thuật toán cho phương pháp này.
* Độ chính xác của phương pháp này tương đối cao nếu có bước trích xuất
đặc trưng hợp lí.
* Bộ dữ liệu không yêu cau số lượng lớn
Nhược điểm:
¢ Vi là những thuật toán phân loại với độ phức tap tính toán không cao nên
tính tổng quát của mô hình phân loại chưa được tốt.
« Phụ thuộc khá nhiều vào phương pháp trích xuất đặc trưng và thuật toán
phân loại.
23
Trang 382 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
» Phải tinh chỉnh tham số nhiều lần để đạt được độ chính xác tốt nhất
2.3.2 Hướng tiếp cận theo phương pháp hiện đại (sử dụng học sâu)
Những năm gan đây, với sự nổi lên của học sâu, mạng no ron tích chập đã
được áp dụng và đem lại những kết quả khá tôt Những mạng nơ ron tích chậpnày đã cải thiện được nhược điểm của phương pháp truyền thống (học máy) làphụ thuộc nhiều vào bước trích xuất đặc trưng ảnh một cách thủ công trong khi
giai đoạn này ở phương pháp học sâu diễn ra hoàn toàn tự động (diễn ra bên trong những mạng nơ ron tích chập) Việc này giảm thời gian tỉnh chỉnh tham số
trong huấn luyện mô hình và tăng mức độ tổng quát cho mô hình được tốt hơn
Christopher Pramerdorfer và những đồng sự [3] đã lấy cảm hứng từ 3 mạng
nơ ron tích chập nổi tiếng (ResNet [32], Inception [33] và WGG [34]) để thiết kếkiến trúc mạng với số lượng tham số ít hơn nhưng đem lại độ chính xác tương
đối tốt Trong khi đó, Yousif Khaireddin và các đồng sự [4] lấy cảm hứng từ
kiến trúc của mạng VGG, đã phát triển phương pháp nhận diện cảm xúc khuônmặt với kết quả khá tốt Được huấn luyện và đánh giá trên tập dữ liệu FER2013,
độ chính xác của những phương pháp này tốt hơn nhiều so với đánh giá của conngười trên tập dữ liệu FER2013 (xấp xỉ 65.5% [14])
Với Zhanpeng Zhang và đồng sự [35], phát triển một mạng tích chập sâu
(DCN) để dự đoán phân loại quan hệ xã hội dựa trên nhiều yếu tốt, trong đó có
cảm xúc khuôn mặt Với mô hình đa mạng đề xuất của mình, kết quả đạt được tốt nhất với 75.1%.
Phương pháp học kết hợp đang là những phương pháp được sử dụng rộng rãivới ý tưởng sử dụng kết hợp nhiều mô hình nhằm tìm kiếm những điểm tối ưunhất cho bộ phân lớp Christopher Pramerdorfer và đồng sự [3] sử dụng kết hợp
8 mô hình va đạt được kết quả ấn tượng với 75.2% trên tập dữ liệu FER2013.Phạm Quí Luân và đồng sự [36] đã sử dụng những một lớp thêm vào - lớp
24
Trang 392 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
—— direct forward @ element-wise i — 3 residual
shorten forward product masking block residual} {masking
soo (governed by @ element-wise sum unit mm ; block area
hyperparameters)
Hình 2.16: Mô tả kiến trúc của Residual Masking Network Nguồn [36]
Masking, lấy cảm hứng từ kiến trúc của mạng Unet - với kiến trúc cơ bản củaResnet (hình 2.16) Với mô hình này bộ phân lớp có thể tập trung vào những
điểm nổi bật trên khuôn mặt và kết quả đạt được với 74.14% khi sử dụng mạng
Residual Masking và 76.82% khi kết hợp với 6 mô hình khác
Ưu điểm:
° Mức độ tổng quát của phương pháp nay có mức độ thể hiện khá tốt
« Tốc độ nhận diện rất nhanh, nhờ vào GPU.
« Loại bỏ được bước trích xuất đặc trưng phức tap
Nhược điểm:
* Cần một tập dữ liệu với số lượng lớn
* Tài nguyên sử dụng cho tính toán là rất nhiều
« Có thể bị hạn chế ở những thiết bị phần cứng yếu
25
Trang 402 Bài toán nhận diện cảm xúc khuôn mặt và những nghiên cứu liên quan
2.4 Kết chương
Với 2 giai đoạn riêng biệt (phát hiện khuôn mặt và phân loại cảm xúc), ta có
thể có nhiều hương tiếp cận khác nhau Kết hợp những phương pháp ở hai giaiđoạn này là hướng giải quyết cho bài toán nhận diện cảm xúc trên khuôn mặt
Để đánh giá rõ hơn về sự kết hợp những phương pháp đã nêu trên, sinh viên sẽ
thực hiện đánh giá và phân tích những phương pháp này và được nêu ở chương
3 Như mục tiêu của nhóm đã đề ra từ trước là sẽ chọn lọc và đánh giá phương
pháp phù hợp cho bài toán thời gian thực Do đó, nhóm sẽ thực hiện phân tích,
so sánh và đánh giá trên những phương pháp hiện đại (sử dụng mạng học sâu)nhằm tối ưu thời gian cũng như chất lượng của mô hình sử dụng
26