Bài viết tập trung vào bài toán nhận dạng biểu cảm khuôn mặt bằng phương pháp học sâu sử dụng kiến trúc mạng ResNet101. Độ tin cậy của mô hình được đánh giá dựa trên tập dữ liệu mẫu có sẵn FER2013 cho tỷ lệ nhận dạng cao nhất là 71,22%. Từ phân tích chi tiết độ chính xác từng loại biểu cảm nhóm tác giả đưa ra giải pháp đề xuất ba nhóm biểu cảm chính để xây dựng chương trình đánh giá chất lượng dịch vụ với ba mức độ: hài lòng, bình thường và không hài lòng.
TẠP CHÍ ISSN: 1859-316X KHOA HỌC CƠNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ JOURNAL OF MARINE SCIENCE AND TECHNOLOGY NGHIÊN CỨU NHẬN DẠNG BIỂU CẢM KHUÔN MẶT BẰNG PHƯƠNG PHÁP HỌC SÂU SỬ DỤNG KIẾN TRÚC RESNET RESEARCH OF FACIAL EXPRESSION RECOGNITION BY DEEP LEARNING USING RESNET ARCHITECTURE HỒ THỊ HƯƠNG THƠM*, NGUYỄN KIM ANH Khoa Công nghệ Thông tin, Trường Đại học Hàng hải Việt Nam *Email liên hệ: thomhth@vimaru.edu.vn Tóm tắt Nhận dạng biểu cảm khn mặt phương pháp cho ý định xử lý phi ngôn ngữ Nghiên cứu nhận dạng biểu cảm khuôn mặt quan tâm nghiên cứu ứng dụng nhiều nơi giới Do báo tập trung vào tốn nhận dạng biểu cảm khuôn mặt phương pháp học sâu sử dụng kiến trúc mạng ResNet101 Độ tin cậy mơ hình đánh giá dựa tập liệu mẫu có sẵn FER2013 cho tỷ lệ nhận dạng cao 71,22% Từ phân tích chi tiết độ xác loại biểu cảm nhóm tác giả đưa giải pháp đề xuất ba nhóm biểu cảm để xây dựng chương trình đánh giá chất lượng dịch vụ với ba mức độ: hài lịng, bình thường khơng hài lịng Từ khóa: CNN, FER, ResNet Abstract Facial recognition is the main method for nonverbal processing intentions Research on facial expression recognition has been interested in research and application in many parts of the world Therefore, this paper focuses on the problem of facial expression recognition by deep learning method using ResNet101 network architecture The reliability of the model was assessed based on the sample data set available FER2013 for the highest recognition rate of 71.22% From the detailed analysis of the accuracy of each type of expression, the author offers the solution to propose three main expressive groups to develop a service quality assessment program with three levels: satisfaction, normal and unsatisfactory Keywords: CNN, FER, ResNet SỐ 64 (11-2020) Giới thiệu Biểu cảm khuôn mặt phương pháp phi ngơn ngữ thể cảm xúc giao tiếp người Theo nghiên cứu [15] cho thấy 55% thông điệp liên quan đến cảm xúc thái độ nét mặt, 7% nói ra, phần cịn lại biểu đạt ngơn ngữ (cách mà từ nói) Biểu cảm khn mặt đóng vai trị quan trọng tồn q trình trao đổi thơng tin Với phát triển nhanh chóng trí tuệ nhân tạo, tự động nhận dạng biểu cảm khuôn mặt nghiên cứu mạnh mẽ năm gần Nghiên cứu nhận dạng biểu cảm khuôn mặt (Facial Expression Recognition FER) ý quan tâm lĩnh vực tâm lý học, thị giác máy tính nhận dạng mẫu FER có ứng dụng rộng rãi nhiều lĩnh vực, bao gồm tương tác máy tính người [11,14], thực tế ảo [2], thực tế tăng cường [3], hệ thống hỗ trợ người lái tiên tiến [1], giáo dục [7] giải trí [9] Có nhiều phương pháp nhận dạng biểu cảm nhóm theo bốn hướng chính: Hướng tiếp cận dựa tri thức, hướng tiếp cận dựa đặc trưng không gian thay đổi, hướng tiếp cận dựa đặc trưng so khớp mẫu, hướng tiếp cận dựa diện mạo (hướng tiếp cận theo phương pháp học) Đặc biệt hướng tiếp cận theo phương pháp học hướng tiếp cận quan tâm khả nhận dạng cho tỷ lệ xác cao với sai số chấp nhận Trong nghiên cứu báo quan tâm đến nhận dạng biểu cảm khuôn mặt phương pháp học sâu sử dụng kiến trúc Residual Network (ResNet) [5], kỹ thuật cho kết khả quan thời gian gần toán nhận dạng đối tượng Nội dung báo trình bày cụ thể sau: Mục giới thiệu tổng quan loại biểu cảm khn mặt; Mục trình bày mơ hình học sâu sử dụng để nhận dạng biểu cảm khuôn mặt; Mục đề xuất giải pháp ứng dụng nhận dạng biểu cảm để đánh giá chất lượng phục vụ dịch vụ đánh giá kết thử nghiệm; Mục kết luận 41 TẠP CHÍ KHOA HỌC - CƠNG NGHỆ Biểu cảm khuôn mặt Cảm xúc người thể qua biểu cảm khuôn mặt, nhận diện biểu cảm người đối diện tự nhiên người Vậy làm để “dạy” cho máy tính biết cách phân biệt loại cảm xúc này? Câu trả lời người thể cảm xúc, tồn số đặc trưng chung khuôn mặt tất người độ tuổi, vị trí địa lý hay điều kiện sống,… Dựa vào đặc trưng này, ta rút đặc điểm quan trọng cảm xúc, mơ hình hóa “dạy” cho máy tính hiểu cảm xúc Nhận dạng xác biểu cảm khn mặt tốn khó khăn người có nhiều “cung bậc cảm xúc” khác Để tốn khơng q phức tạp chia biểu cảm khn mặt vào bảy loại sắc thái sau: hạnh phúc (happy), đau khổ (Sad), sợ hãi (Afraid/fear), tức giận (angry), ngạc nhiên (surprised), căm phẫn (disgusted) trung lập (neutral) [1, 2, 7, 8,9,13] - minh họa Hình ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY kiến trúc ResNet với số lớp khác ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152, Với tên ResNet theo sau số kiến trúc ResNet với số lớp định Resnet giải vấn đề học sâu truyền thống, dễ dàng học với hàng trăm lớp Mạng ResNet (R) mạng CNN thiết kế để làm việc với hàng trăm hàng nghìn lớp chập Một vấn đề xảy xây dựng mạng CNN với nhiều lớp chập xảy tượng Vanishing Gradient dẫn tới trình học tập khơng tốt Chính giải pháp mà ResNet đưa sử dụng kết nối tắt đồng để xuyên qua hay nhiều lớp Một khối gọi Residual Block, Hình Hình Một khối Residual ResNet Hình Bảy cảm xúc khn mặt: hạnh phúc, buồn, sợ hãi, tức giận, ngạc nhiên, căm phẫn, trung lập [13] Nhiệm vụ hệ thống nhận diện cảm xúc phải phân loại trạng thái mặt người vào nhóm bảy biểu cảm Mơ hình học sâu sử dụng cho tốn nhận dạng biểu cảm Hiện có nhiều mơ hình mạng học sâu nhân chập CNN (Convolutional neural networks) vận dụng toán nhận dạng như: LeNet, AlexNet, VGG, GoogLeNet, ResNet,… [1, 3, 6, 9, 10, 15], nghiên cứu lựa chọn mạng ResNet cho mơ hình nhận dạng biểu cảm số lý trình bày chi tiết sau 3.1 Mạng học sâu ResNet101 ResNet (Residual Network) phát triển Microsoft vào năm 2015 công bố báo “Deep residual learning for image recognition” [5] ResNet chiến thắng với vị trí số thi ILSVRC 2015 với tỷ lệ lỗi đứng top 3,57%, chí đứng vị trí thi ILSVRC COCO 2015 với ImageNet Detection, ImageNet localization, Coco detection Coco segmentation ResNet có cấu trúc gần giống VGG với nhiều lớp ngăn xếp làm cho mơ hình sâu Có nhiều biến thể 42 ResNet gần tương tự với mạng CNN khác gồm có: nhân chập (convolution), tổng hợp (pooling), kích hoạt (activation) kết nối đầy đủ (fullyconnected layer) Hình hiển thị khối dư sử dụng mạng Xuất mũi tên cong xuất phát từ đầu kết thúc cuối khối dư hay ResNet sử dụng kết nối tắt (kết nối trực tiếp đầu vào lớp (n) với (n+x) hiển thị dạng mũi tên cong Qua mơ hình chứng minh cải thiện hiệu suất q trình huấn luyện mơ hình có 20 lớp Như hiểu việc tăng số lượng lớp mạng làm giảm độ xác, muốn có kiến trúc mạng sâu hoạt động tốt Do nghiên cứu này, sử dụng mạng CNN với mơ hình ResNet101 [5] để xây dựng cho toán nhận dạng biểu cảm khn mặt 3.2 Cấu hình ResNet101 Cấu trúc mạng ResNet101 cho tốn nhận dạng biểu cảm khn mặt thiết lập Hình gồm năm phân đoạn (stage), chi tiết stage miêu tả Ký hiệu "ID BLOCK" Hình viết tắt từ Identity block, ID BLOCKx3 nghĩa có khối Identity block chồng lên Cụ thể sau: Zero-padding: Input với (3,3) Stage 1: Tích chập (Conv1) với 64 filters với SỐ 64 (11-2020) TẠP CHÍ ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ JOURNAL OF MARINE SCIENCE AND TECHNOLOGY shape(7,7), sử dụng stride(2,2) BatchNorm (epsilon = 1.1e-5, axit = 1|3), MaxPooling (3,3) Stage 2: Convolutiontal block (a) sử dụng lọc filter với size 64x64x256, f=3, s=1, strides(1,1) Có Identity blocks (b, c) với filter size 64x64x256, f=3 ResNet101 Bước 5: Đầu ResNet101 xác xuất bảy cảm xúc Stage 3: Convolutional block (a) sử dụng lọc filter size 128x128x512, f=3, s=2 Có Identity blocks (b1, b2, b3) với filter size 128x128x512, f=3 Stage 4: Convolutional block (a) sử dụng filter size 256x256x1024, f=3, s=2 Có 22 Identity blocks (b1, b2,…b22) với filter size 256x256x1024, f=3 Stage 5: Convolutional block (a) sử dụng filter size 512x512x2048, f=3, s=2 Có Identity blocks (b,c) với filter size 512x512x2048, f=3 The 2D Average Pooling: Sử dụng với kích thước (7,7) The Flatten Fully Connected (Dense): sử dụng softmax activation Hình Minh họa phần tập ảnh Fer2013 [6] Số ảnh kiểm tra độ xác từ tập liệu Fer2013 3.589 ảnh cho kết cao Fer2013 71,22% Hình Hình thống kê kết phân loại loại biểu cảm Hình thống kê theo số lượng ảnh, Hình thống kê theo tỷ lệ tương ứng Hình đề mơ giao diện hệ thống nhận dạng biểu cảm Hình Cấu trúc ResNet101 nhận dạng biểu cảm 3.3 Tập liệu, cài đặt thử nghiệm Tập ảnh dùng đánh giá độ tin cậy mơ hình tập ảnh Fer2013 tải từ [4] Kaggle gồm 35.887 ảnh cấp xám kích cỡ 48x48 đó: 28.709 ảnh dùng để huấn luyện (training), 3.589 ảnh kiểm tra thẩm định (public test) 3.589 ảnh kiểm tra riêng (private test) với lớp biểu cảm (Angry, Disgust, Fear, Happy, Sad, Surprise, Neutral), Hình minh họa phần ảnh Mơ hình nhận dạng ResNet101 cài đặt ngôn ngữ Python Ver 3.7 thư viện Keras/Tensorflow sử dụng để cài đặt, máy tính PC i7- 4600U CPU@ 2.10Hz Quá trình xử lý qua bước sau: Hình Kết phân loại biểu cảm theo số lượng ảnh Bước 1: Nhập ảnh đầu vào (có thể ảnh màu ảnh xám) Bước 2: Phát vùng ảnh mặt người hàm haar cascade (của thư viện OpenCV) Bước 3: Vùng ảnh mặt người chuyển kích thước 48x48 Bước 4: Ảnh vùng mặt 48x48 (sử dụng kênh màu) đưa vào mạng học sâu sử dụng cấu trúc SỐ 64 (11-2020) Hình Kết nhận dạng biểu cảm theo tỷ lệ 43 TẠP CHÍ ISSN: 1859-316X KHOA HỌC CƠNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ JOURNAL OF MARINE SCIENCE AND TECHNOLOGY Thực thử nghiệm cho nhóm sinh viên với 142 sinh viên (của lớp THVP N17, N02 N09) để đánh giá nhóm biểu cảm đề xuất trên, Hình minh họa phần tập ảnh hệ thống lưu lại sau nhận dạng Hình Đề mô hệ thống nhận dạng Từ kết nhận theo Hình mơ hình nhận dạng biểu cảm khn mặt sử dụng ResNet cho kết tốt cảm xúc: hạnh phúc - happy (89%), trung lập - Neutral (81%), kết mức trung cảm xúc: ghê tởm - căm phẫn (71%) buồn - sad (69%), kết mức thấp với cảm xúc: giận angry (64%), ngạc nhiên - surprise (61%) sợ hãi fear (54%) Đề xuất giải pháp ứng dụng đánh giá chất lượng dịch vụ Theo kết thử nghiệm mục 3, thấy mơ hình đánh giá tốt với cảm xúc hạnh phúc (89%) trung lập (81%), đánh giá với cảm xúc sợ hãi (54%) ngạc nhiên (61%) Dựa lợi nhận dạng tốt cảm xúc hạnh phúc trung lập hay căm phẫn đề xuất ứng dụng vào hệ thống đánh giá chất lượng mang tên “hành nụ cười” hay “dịch vụ hạnh phúc” theo ba nhóm cảm xúc với ba mức độ chất lượng dịch vụ sau: + Nhóm (hài lịng dịch vụ): Nhóm cảm xúc hạnh phúc; + Nhóm (bình thường dịch vụ): Nhóm cảm xúc trung lập; + Nhóm (khơng hài lịng dịch vụ): Nhóm cảm xúc cịn lại (tức giận, căm phẫn, sợ hãi, buồn ngạc nhiên) Khi khách hàng (sinh viên công dân) phục vụ yêu cầu họ cho biết cảm xúc họ qua hệ thống họ cảm thấy hài lịng nở nụ cười, họ cảm thấy bình thường giữ thái độ trung lập, họ không thỏa mãn họ thể cảm xúc năm biểu cảm (tức giận, căm phẫn, sợ hãi, buồn ngạc nhiên) Hệ thống tự động đếm số mức độ (hài lịng, bình thường khơng hài lịng) để tổng hợp đánh giá tình hình chất lượng phục vụ từ đưa giải pháp điều chỉnh phù hợp nâng cao chất lượng phục vụ cần thiết 44 Hình Minh họa phần tập ảnh lưu lại từ hệ thống đánh giá chất lượng phục vụ Từ số lượng biểu cảm nhận hệ thống cho thấy kết nhận dạng tốt nhóm cảm xúc đánh giá chất lượng dịch vụ: hài lịng, bình thường khơng hài lịng Hệ thống xác nhận thái độ biểu cảm nhận dạng ổn định giây, kết tỷ lệ nhận dạng trung bình mức độ 79% Cụ thể theo Bảng Bảng Bảng thống kê tỷ lệ nhận dạng mức thái độ Biểu cảm Biểu cảm nhận dự định dạng (dự đốn) Hài lịng 142 Bình thưởng 142 Khơng hài lịng 142 121 115 101 Thái độ Tỷ lệ nhận dạng 85,21% 80,97% 71,13% Kết luận Trong nghiên cứu đưa mơ hình nhận dạng biểu cảm khuôn mặt mạng học sâu kiến trúc ResNet101 Tập liệu ảnh Fer2013 [4] dùng để đánh giá độ xác mơ hình với tỷ lệ 70% Rất nhiều nghiên cứu sử dụng tập liệu Fer2013 để thử nghiệm tỷ lệ nhận dạng tốt 70% kể với công bố gần 2019 [13, 7, 9, 10], điều chứng tỏ tập liệu có nhiều mâu thuẫn hay có độ tương đồng biểu cảm Về tổng thể loại biểu cảm có độ Mơ hình huấn luyện tập liệu Fer2013 làm nhận diện tốt liệu khác cho thấy mơ hình học đặc trưng phù hợp khuôn mặt người Tuy nhiên hầu hết liệu học thường sử dụng khn mặt người phương tây, nhóm tác giả xây dựng bổ sung thêm tập liệu SỐ 64 (11-2020) TẠP CHÍ ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI KHOA HỌC - CÔNG NGHỆ JOURNAL OF MARINE SCIENCE AND TECHNOLOGY cảm xúc người châu Á để phong phú liệu huấn luyện nâng cao chất lượng nhận dạng Ngoài cần tiến hành thử nghiệm thêm địa điểm thực tế phục vụ khách hàng sinh viên với số lượng mẫu nhiều (trên 1.000 khách hàng/sinh viên) để đưa tỷ lệ nhận dạng xác đánh giá độ tin cậy hệ thống nhận dạng trước đưa hệ thống vào ứng dụng thức tế Lời cảm ơn Bài báo sản phẩm đề tài nghiên cứu khoa học cấp Trường năm học 2019-2020, tên đề tài: “Nhận dạng biểu cảm khuôn mặt phương pháp học sâu”, hỗ trợ kinh phí Trường Đại học Hàng hải Việt Nam TÀI LIỆU THAM KHẢO [1] Assari, M.A.; Rahmati, M Driver drowsiness detection using face expression recognition In Proceedings of the IEEE International Conference on Signal and Image Processing Applications, Kuala Lumpur, Malaysia; pp 337341, 16-18 November 2011 [2] Bekele, E.; Zheng, Z.; Swanson, A.; Crittendon, J.; Warren, Z.; Sarkar, N Understanding how adolescents with autism respond to facial expressions in virtual reality environments IEEE Trans Vis Comput Graphics, Vol 19, pp.711-720, 2013 [3] Chen, C.H.; Lee, I.J.; Lin, L.Y Augmented realitybased self-facial modeling to promote the emotional expression and social skills of adolescents with autism spectrum disorders Res Dev Disabil Vol 36, pp.396-403, 2015 [4] Fer2013, https://www.kaggle.com [5] K He, X Zhang, S Ren, and J Sun Deep residual learning for image recognition In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.770-778, June 27-30, 2016 [6] K He, X Zhang, S Ren, and J Sun Identity mappings in deep residual networks In B Leibe, J Matas, N Sebe, and M Welling, editors, Computer Vision ECCV, volume 9908 of Lecture Notes in Computer Science, Amsterdam, Octoer 8-16 2016 [7] Kapoor, A.; Burleson, W.; Picard, R.W Automatic prediction of frustration Int J Hum.-Comput Stud Vol 65, pp.724-736, 2007 [8] L Wolf, T Hassner, I Maoz, Face Recognition in Unconstrained Videos with Matched Background SỐ 64 (11-2020) Similarity, Computer Vision Recognition (CVPR), 2011 [9] and Pattern Lankes, M.; Riegler, S.; Weiss, A.; Mirlacher, T.; Pirker, M.; Tscheligi, M Facial expressions as game input with different emotional feedback conditions In Proceedings of the 2008 International Conference on Advances in Computer Entertainment Technology, Yokohama, Japan, December 3-5, pp 253-256, 2008 [10] Li, S.; Deng, W Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition IEEE Trans Image Process, Vol.28, pp.356-370, 2019 [11] Li, Y.; Zeng, J.; Shan, S.; Chen, X Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism IEEE Trans Image Process Vol.28, pp.2439-2450, 2019 [12] M Mathias, R Benenson, M Pedersoli, L Van Gool, Face detection without bells and whistles, European Conference on Computer Vision, 2014 [13] Matthew N Dailey, Garrison W Cottrell1, Curtis Padgett, and Ralph Adolphs (2014), EMPATH: A Neural Network that Categorizes Facial Expressions, Journal of Cognitive Neuroscience 14:8, pp.11581173, 2014 [14] Yang, H.; Zhang, Z.; Yin, L Identity-adaptive facial expression recognition through expression regeneration using conditional generative adversarial networks In Proceedings of the 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018), Xi’an, China, 15-19, pp 294-301, May 2018 [15] Yunxin Huang, Fei Chen, Shaohe Lv and Xiaodong Wang, Facial Expression Recognition: A Survey, Symmetry 2019, 11, 1189; doi:10.3390/sym11101189 Ngày nhận bài: Ngày nhận sửa: Ngày duyệt đăng: 14/04/2020 19/05/2020 01/06/2020 45 ... muốn có kiến trúc mạng sâu hoạt động tốt Do nghiên cứu này, sử dụng mạng CNN với mơ hình ResNet1 01 [5] để xây dựng cho tốn nhận dạng biểu cảm khn mặt 3.2 Cấu hình ResNet1 01 Cấu trúc mạng ResNet1 01... giá nhóm biểu cảm đề xuất trên, Hình minh họa phần tập ảnh hệ thống lưu lại sau nhận dạng Hình Đề mô hệ thống nhận dạng Từ kết nhận theo Hình mơ hình nhận dạng biểu cảm khuôn mặt sử dụng ResNet. .. Trong nghiên cứu đưa mơ hình nhận dạng biểu cảm khuôn mặt mạng học sâu kiến trúc ResNet1 01 Tập liệu ảnh Fer2013 [4] dùng để đánh giá độ xác mơ hình với tỷ lệ 70% Rất nhiều nghiên cứu sử dụng tập