Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
3,16 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ HỒNG QUÂN ĐỖ HỒNG QUÂN KHOA HỌC MÁY TÍNH XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHUÔN MẶT SỬ DỤNG HỌC SÂU ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) 2021 – 2023 HÀ NỘI – 2023 HÀ NỘI - NĂM 2023 iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu đề án .4 CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHUÔN MẶT 1.1 Bài toán xác định trạng thái biểu cảm khuôn mặt 1.2 Nguyên tắc chung xử lý toán FER .8 1.3 Các nghiên cứu liên quan 11 1.3.1 Cơ chế ý mơ hình giải FER .11 1.3.2 Các mơ hình nhỏ gọn tham số cho FER .12 1.4 Kết luận chương .13 CHƯƠNG 14 MƠ HÌNH ĐỀ XUẤT .15 2.1 Kiến trúc tổng thể mơ hình đề xuất 15 2.2 Thành phần tích chập phân tách theo chiều sâu .19 iv 2.3 Thành phần khối phần dư 22 2.4 Thành phần chế ý 23 2.5 Kết luận chương .26 CHƯƠNG 27 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .27 3.1 Tập liệu thực nghiệm 27 3.2 Thông số đánh giá 31 3.3 Thực nghiệm kết 32 3.4 Thảo luận 35 3.4.1 So sánh với nghiên cứu liên quan .35 3.4.2 Trực quan hóa đồ ý 38 3.5 Kết luận chương .42 KẾT LUẬN VÀ KIẾN NGHỊ 43 DANH MỤC TÀI LIỆU THAM KHẢO .44 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT STT Tiếng Anh Attention Mechanisms Channel Attention Từ viết tắt Tiếng Việt/Giải thích Cơ chế ý CAM Mơ-đun ý theo kênh CA Độ xác nhận dạng Module Classification Accuracy Confusion Matrix Convolution Conv Tích chập Convolutional Block CBAM Mơ-đun khối ý tích chập Ma trận nhầm lẫn Attention Module Convolutional Neural CNN Mạng nơ-ron tích chập Network Deep Convolutional DCNN Mạng nơ-ron tích chập sâu Neural Network Depthwise Convolution 10 Depthwise Separable Phép tích chập theo chiều sau DSE Convolution 11 Extended Cohn-Kanade Tích chập phân tách theo chiều sâu CK+ Tập Cohn-Kanade mở rộng dataset 12 Fully Connection Layer 13 Facial Expression FC FER Recognition Lớp kết nối tồn Nhận dạng/Xác định trạng thái biểu cảm khn mặt 14 Global Average Pooling GAP Tổng hợp trung bình toàn cục 15 Knowledge distillation Chuyển giao kiến thức 16 Lightweight model Mơ hình nhẹ/nhỏ gọn tham số 17 Pointwise convolution Phép tích chập theo điểm 18 Pruning Cắt tỉa 19 Quantization Lượng tử hóa vi 20 Residual block RE 21 Skip connection 22 Spatial Attention Module 23 Squeeze-and-Excitation Khối phần dư Nối tắt SAM SE Mô-đun ý khơng gian Khối nén kích hoạt lại Block State-of-the-art 25 Contempt 26 Angry Bảy loại Giận Disgust cảm xúc Ghê rợn Fear SOTA Hiện đại 24 Biểu cảm khinh thường Sợ hãi Happiness Hạnh phúc Netural Bình thường Sadness Buồn bã Surprise Ngạc nhiên vii DANH SÁCH BẢNG Bảng Tổng quan kết thực nghiệm .33 Bảng So sánh hiệu suất liệu CK+ 37 Bảng So sánh hiệu suất liệu FER2013 37 Bảng So sánh hiệu suất liệu FER-Plus 38 Bảng So sánh hiệu suất liệu RAF-DB 38 Bảng Trực quan hóa ý biểu khác với dự đốn xác tập liệu FER2013 .39 Bảng Trực quan hóa ý biểu khác với dự đoán sai tập liệu FER2013 41 viii DANH SÁCH HÌNH VẼ Hình Ví dụ hệ thống xác định trạng thái biểu cảm khuôn mặt Hệ thống tự động phát khuôn mặt video nhận cảm xúc biểu đạt khuôn mặt .1 Hình Bảy biểu cảm - ảnh lấy từ tập liệu FER-Plus [2] .7 Hình Khác biệt thuật toán học máy truyền thống mạng học sâu nằm bước trích chọn đặc trưng [11] Hình Sơ đồ khối hệ thống FER dựa học sâu [11] 10 Hình Kiến trúc mơ hình đề xuất 17 Hình Tích chập phân tách theo chiều sâu phân rã phép tích chập tiêu chuẩn thành hai lớp riêng biệt: phép tích chập theo chiều sâu (Depthwise) phép tích chập theo điểm (Pointwise) .20 Hình Khối phần dư với nối tắt trực tiếp (a) nối tắt phép chiếu (b) .22 Hình Cấu trúc chi tiết mơ-đun ý kênh mô-đun ý không gian 24 Hình Phân phối lớp hình ảnh mẫu tập liệu CK+ [6] 27 Hình 10 Phân phối lớp hình ảnh mẫu tập liệu FER2013 [5] 28 Hình 11 Phân phối lớp hình ảnh mẫu tập liệu FER-Plus [7] 29 Hình 12 Phân phối lớp hình ảnh mẫu tập liệu RAF-DB [8] .30 Hình 13 Ma trận nhẫm lẫn mơ hình đề xuất tập liệu CK+, FER2013, FER-Plus, RAF-DB .35 42 3.5 Kết luận chương Chương trình bày cách chi tiết liệu cho tốn, mơ tả q trình thực nghiệm, phương pháp đánh giá kết quả, với kết thực nghiệm sâu vào phân tích, đánh giá kết Phân tích so sánh với mơ hình nhẹ khác chứng minh ưu điểm mơ hình đề xuất học viên Mặc dù mơ hình đề xuất có số lượng tham số nhỏ tốc độ suy luận nhanh hơn, đạt mức độ xác tương đương ngang với mơ hình nhỏ gọn tiên tiến khác Cụ thể, mơ hình đề xuất đạt độ xác cao tập liệu CK+ so với nghiên cứu khác, xếp thứ ba tập liệu FER2013, FER-Plus tập liệu RAF-DB Ngồi ra, trực quan hóa đồ ý cho biểu khác FER2013, điểm đáng lưu ý hầu hết mẫu gán nhãn "Hạnh phúc" đồ ý thực tế xuất vùng mũi Bản đồ ý tiết lộ khả gây hiểu lầm phân tích dựa người dựa máy móc Đây thách thức đối việc đánh giá biểu cảm khn mặt hình ảnh 43 KẾT LUẬN VÀ KIẾN NGHỊ Đề án nghiên cứu số mơ hình học sâu tiên tiến gần áp dụng cho toán xác định trạng thái biểu cảm khn mặt từ đưa đề xuất mạng học sâu nhỏ gọn với số lượng tham số Mơ hình đề xuất tích hợp ba yếu tố quan trọng là: Tích chập phân tách theo chiều sâu, Khối phần dư dư Mô-đun ý theo kênh không gian Mục tiêu việc tích hợp yếu tố đạt cân kích thước mơ hình, tốc độ suy luận độ xác nhiệm vụ FER Điều mở hội triển khai hiệu ứng dụng FER thời gian thực thiết bị có nhớ hạn chế Phân tích so sánh với mơ hình nhỏ gọn khác chứng minh ưu điểm mơ hình đề xuất Mặc dù mơ hình đề xuất có số lượng tham số nhỏ tốc độ suy luận nhanh hơn, đạt mức độ xác tương đương ngang với mơ hình nhẹ tiên tiến khác Trong tương lai, học viên có kế hoạch đánh giá phương pháp tập liệu bổ sung, áp dụng cho video tích hợp vào ứng dụng web di động Hơn nữa, học viên dự định tìm giải pháp để phát triển chế ý hiệu mơ hình FER nhỏ gọn 44 DANH MỤC TÀI LIỆU THAM KHẢO [1] A Krizhevsky, I Sutskever G E Hinton, “ImageNet classification with deep convolutional neural networks,” Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS'12), Red Hook, NY, USA, 2012 [2] K Simonyan A Zisserman, “Very Deep Convolutional Networks for LargeScale Image Recognition,” arXiv 1409.1556., 2014 [3] K He, X Zhang, S Ren J Sun, “Deep Residual Learning for Image Recognition,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [4] M Tan Q Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” arXiv, abs/1905.11946, 2019 [5] I Goodfellow, D Erhan, P Carrier, A Courville, M Mirza, B Hamner, W Cukierski, Y Tang, D Thaler, D.-H Lee e al., “Challenges in Representation Learning: A Report on Three Machine Learning Contests,” Neural Information Processing, 2013 [6] P Lucey, J Cohn, T Kanade, J Saragih, Z Ambadar I Matthews, “The Extended Cohn-Kanade Dataset (CK+): A Complete Dataset for Action Unit and Emotion-Specified Expression,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, San Francisco, CA, USA, 2010 [7] E Barsoum, C Zhang, C Ferrer Z Zhang, “Training Deep Networks for Facial Expression Recognition with Crowd-Sourced Label Distribution,” Proceedings of the 18th ACM International Conference on Multimodal Interaction, New York, NY, USA, 2016 [8] S Li, W Deng J Du, “Reliable Crowdsourcing and Deep LocalityPreserving Learning for Expression Recognition in the Wild,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017 [9] A Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M Andreetto H Adam, “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” arXiv:1704.04861, 2017 45 [10] P Ekman, E Rolls, D Perrett H Ellis, “Facial expressions of emotion: An old controversy and new findings,” Philos T Roy Soc B., tập 335, số 1273, p 63–69, 1992 [11] V.-T Dang, H.-Q Do, V.-V Vu B Yoon, “Facial expression recognition: A survey and its applications,” 23rd International Conference on Advanced Communication Technology (ICACT), 2021 [12] V.-V Vu, H.-Q Do, V.-T Dang N.-T Do, “An Efficient Density-based Clustering with Side Information and Active Learning: A Case Study for Facial Expression Recognition Task,” Intelligent Data Analysis, pp 227-240, 2019 [13] P Viola M Jones, “Rapid object detection using a Boosted Cascade of Simple features,” Conference on Computer Vision and Pattern Recognition, 2001 [14] J Redmon, S Divvala, R Girshick A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [15] Y Lecun, L Bottou, Y Bengio P Haffner, “Gradient-based learning applied to document recognition,” 1998 [16] P Khorrami, T L Paine T S Huang, “Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?,” IEEE International Conference on Computer Vision Workshop (ICCVW), Santiago, Chile, 2015 [17] A Krizhevsky, I Sutskever G E Hinton, “ImageNet classification with deep convolutional neural networks,” Proceedings of the 25th International Conference on Neural Information Processing Systems, Red Hook, NY, USA, 2012 [18] K Simonyan A Zisserman, “Very Deep Convolutional Networks for LargeScale Image Recognition,” International Conference on Learning Representations, 2015 [19] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke A Rabinovich, “Going Deeper with Convolutions,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015 [20] A Mollahosseini, D Chan M Mahoor, “Going deeper in facial expression recognition using deep neural networks,” Proceedings of the IEEE Winter 46 Conference on Applications of Computer Vision (WACV), Lake Placid, NY, USA, 2016 [21] D Hamester, P Barros S Wermter, “ Face expression recognition with a 2channel Convolutional Neural Network,” International Joint Conference on Neural Networks (IJCNN), 2015 [22] L Nwosu, H Wang, J Lu, I Unwala, X Yang T Zhang, “Deep Convolutional Neural Network for Facial Expression Recognition Using Facial Parts,” IEEE International Symposium on Dependable, Autonomic and Secure Computing, 2017 [23] M -I Georgescu, R T Ionescu M Popescu, “Local Learning With Deep and Handcrafted Features for Facial Expression Recognition,” IEEE Access, tập 7, pp 64827-64836, 2019 [24] D G Lowe, “Object recognition from local scale-invariant features,” Proceedings of the seventh IEEE international conference on computer vision, 1999 [25] J Hu, L Shen G Sun, “Squeeze-and-Excitation Networks,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018 [26] M Tan Q Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” Proceedings of the 36th International Conference on Machine Learning, 2019 [27] S Woo, J Park, J Lee I Kweon, “CBAM: Convolutional Block Attention Module,” Computer Vision – ECCV 2018 Lecture Notes in Computer Science [28] W Cao, Z Feng, D Zhang Y Huang, “Facial Expression Recognition via a CBAM Embedded Network,” Procedia Computer Science, tập 174, pp 463477 [29] P R, B V B V, “Local Multi-Head Channel Self-Attention for Facial Expression Recognition,” Information, tập 13, số 9, 2022 [30] T Liang, J Glossner, L Wang, S Shi X Zhang, “Pruning and quantization for deep neural network acceleration: A survey,” Neurocomputing, tập 461, pp 370-403, 2021 [31] A A., A F A I., “Knowledge distillation in deep learning and its applications,” PeerJ Comput Sci., 2021 47 [32] H G., V O D J., “Distilling the knowledge in a neural network,” NIPS Deep Learning and Representation Learning Workshop, 2015 [33] H AG, Z M, C B, K D, W W, W T e al., “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” CoRR, tập abs/1704.04861, 2017 [34] F Chollet, “Xception: Deep Learning with Depthwise Separable Convolutions,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [35] H Ma, T Celik H.-C Li, “Lightweight attention convolutional neural network through network slimming for robust facial expression recognition,” Signal, Image and Video Processing, tập 15, pp 1-9, 2021 [36] J Hu, L Shen G Sun, “Squeeze-and-Excitation Networks,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018 [37] X Xu, J Cui, X Chen C.-L Chen, “A Facial Expression Recognition Method based on Residual Separable Convolutional Neural Network,” Journal of Network Intelligence, tập 7, số 1, pp 59-69, 2022 [38] J Zhi, T Song, K Yu, F Yuan, H Wang, G Hu H Yang, “Multi-Attention Module for Dynamic Facial Emotion Recognition,” Information, tập 13, số 5, 2022 [39] Y Nan, J Ju, Q Hua, H Zhang B Wang, “A-MobileNet: An approach of facial expression recognition,” Alexandria Engineering Journal, tập 61, số 6, pp 4435-4444, 2022 [40] K He, X Zhang, S Ren J Sun, “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification,” IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015 [41] G Zhao, H Yang M Yu, “Expression recognition method based on a lightweight convolutional neural network,” IEEE Access, tập 8, p 38528– 38537, 2020 [42] J Deng, W Dong, R Socher, L.-J Li, K Li L Fei-Fei, “Imagenet: A largescale hierarchical image database,” IEEE conference on computer vision and pattern recognition, 2009 [43] M Sandler, A Howard, M Zhu, A Zhmoginov L Chen, “MobileNetV2: Inverted Residuals and Linear Bottlenecks,” IEEE/CVF Conference on 48 Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, 2018 [44] A H e al., “Searching for MobileNetV3,” IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019 [45] F N Iandola, S Han, M W Moskewicz, K Ashraf, W J Dally K Keutzer, “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and