Nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ ron tích chập

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LÊ MINH TIẾN NHẬN DẠNG CẢM XÚC KHN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP CHUN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2020 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LÊ MINH TIẾN NHẬN DẠNG CẢM XÚC KHUÔN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP CHUN NGÀNH: HỆ THƠNG THƠNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THANH HÙNG BÌNH DƯƠNG – 2020 ii LỜI CAM ĐOAN Tên là: Lê Minh Tiến Sinh ngày: 22/07/1991 Học viên lớp cao học CH18HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Nhận dạng cảm xúc khn mặt mạng nơ-ron tích chập.” Thầy TS Bùi Thanh Hùng hướng dẫn cơng trình nghiên cứu riêng chúng tơi Tất tài liệu tham khảo có nguồn gốc, trích dẫn rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai chúng tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học Bình Dương, tháng 12 năm 2020 Tác giả luận văn Lê Minh Tiến iii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy hướng dẫn TS Bùi Thanh Hùng, luận văn Cao học “Nhận dạng cảm xúc khuôn mặt mạng nơron tích chập” hồn thành Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng tận tình dẫn, giúp đỡ tơi hồn thành luận văn Đồng thời gửi lời cảm ơn đến thầy, cô giảng dạy truyền đạt kiến thức quý báo cho suốt thời gian học tập nghiên cứu Tôi chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hồn thành luận văn iv TĨM TẮT LUẬN VĂN Trong thời đại 4.0 nay, với bùng nổ trí tuệ nhân tạo, có nhiều cơng trình nghiên cứu máy học cơng bố, số lĩnh vực thị giác máy tính nói chung nhận dạng hình ảnh nói riêng lĩnh vực đông người quan tâm thời Trong đó, tốn nhận dạng cảm xúc khn mặt dựa cách trích xuất đặc trưng sử dùng mạng nơ-ron mang lại hiệu cao tính ổn định thích nghi tốt liệu đầu vào có thay đổi Cảm xúc khn mặt phương thức quan trọng để thể cảm xúc người giao tiếp xã hội Tự động nhận dạng biểu khuôn mặt trở thành chủ đề “yêu thích” lĩnh vực nghiên cứu thị giác máy tính Trong luận văn này, xin đề xuất phương pháp sử dụng mơ hình học sâu mạng nơ-ron tích chập (CNN) để nhận dạng cảm xúc khuôn mặt người thông qua hình ảnh Bằng cách khai thác tính ưu việt CNN, xây dựng mơ hình CNN riêng chúng tơi, mơ hình đề xuất chúng tơi đạt kết tốt so với mô hình khác Các thí nghiệm thực sở liệu FER-2013 điểm ma trận xác nhầm lẫn sử dụng để đánh giá mô hình chúng tơi Một phần kết nghiên cứu chúng tôi, báo: “Facial Expression Recognition with CNN-LSTM” công bố Hội nghị RICE 2020 lần thứ - International Conference on Research in Intelligent and Computing in Engineering tháng 6/2020 giành giải thưởng Bài báo xuất sắc (Best Paper Awards) Hội nghị v MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv TÓM TẮT LUẬN VĂN v MỤC LỤC .vi DANH MỤC CHỮ VIẾT TẮT viii DANH MỤC BẢNG BIỂU ix DANH MỤC HÌNH, ĐỒ THỊ x CHƯƠNG TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Lý chọn đề tài 1.2 Mục tiêu nghiên cứu .2 1.3 Đối tượng, phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Ý nghĩa khoa học thực tiễn 1.6 Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Mạng Nơ-ron tích chập 2.1.1 Mạng Nơ-ron nhân tạo 2.1.2 Mạng Nơ-ron tích chập 16 2.2 Các mơ hình học sâu CNN 22 2.2.1 Sự hình thành phát triển 22 2.2.2 Các mơ hình CNN tiêu biểu 23 2.3 Nhận dạng cảm xúc khuôn mặt 34 2.3.1 Tổng quan 34 2.3.2 Hướng tiếp cận .38 2.3.3 Hướng đề xuất nghiên cứu 41 vi 2.4 Các nghiên cứu liên quan 42 2.5 Tiểu kết chương 44 CHƯƠNG 45 MƠ HÌNH ĐỀ XUẤT 45 3.1 Tổng quan mơ hình đề xuất 45 3.2 Các đặc trưng mơ hình 46 3.2.1 Phát khuôn mặt 46 3.2.2 Nhận dạng cảm xúc với CNN 48 3.2.3 Mơ hình học sâu lai CNN-LSTM 56 3.2.4 Nhận dạng cảm xúc 59 3.2.5 Phương pháp đánh giá kết 60 CHƯƠNG 61 THỰC NGHIỆM 61 4.1 Dữ liệu 61 4.2 Huấn luyện mơ hình 63 4.3 Đánh giá 66 4.4 Xây dựng ứng dụng 71 CHƯƠNG 79 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79 5.1 Kết luận 79 5.2 Hướng phát triển 80 CƠNG TRÌNH CƠNG BỐ 81 TÀI LIỆU THAM KHẢO 82 vii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue SVM Support Vector Machines LSTM Long short term memory viii DANH MỤC BẢNG BIỂU Bảng 1: Bảng thống kê liệu 61 Bảng 2: Đánh giá độ xác mơ hình 67 Bảng 3: Bảng Confusion Matrix 67 Bảng 4: Đánh giá độ xác mơ hình CNN khác 70 Bảng 5: Đối sánh nghiên cứu liên quan 71 ix DANH MỤC HÌNH, ĐỒ THỊ Hình 1: Mạng Nơ-ron sinh học [21] Hình 2: Cấu trúc mạng nơ-ron nhân tạo [21] .7 Hình 3: Quá trình xử lý nơ-ron ANN [21] Hình 4: Đồ thị hàm kích hoạt: (a) Hàm Tanh; (b) Hàm ReLU; Hình 5: AlphaGo Google 12 Hình 6: Mơ cách tính lan truyền ngược [1] 14 Hình 7: Mơ hình lớp CNN [22] 17 Hình 8: Ví dụ mơ hình CNN 18 Hình 9: Minh họa tích chập ma trận ảnh 19 Hình 10: Phương thức Average Pooling Max Pooling 21 Hình 11: Ví dụ cấu trúc CNN [22] 22 Hình 12: Các cột mốc phát triển mạng CNN .23 Hình 13: Sơ đồ phát triển mơ hình mạng CNN 23 Hình 14: mơ hình học sâu CNN 24 Hình 15: Kiến trúc LeNet 25 Hình 16: Kiến trúc AlexNet 25 Hình 17: Kiến trúc VGG-16 .26 Hình 18: Kiến trúc GoogleNet - Inception version 29 Hình 19: Kiến trúc GoogleNet - Inception version 31 Hình 20: Kiến trúc ResNet .32 Hình 21: Kiến trúc tóm tắt mang ResNet-50 .34 Hình 22: Mơ hình tốn nhận dạng cảm xúc khn mặt người 37 x CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn đề xuất mơ hình tổng thể cho việc nhận dạng cảm xúc khn mặt người từ camera Trong đó, ngồi cơng đoạn phát nhận dạng cảm xúc khuôn mặt, luận văn thể hiệu suất mơ hình đề xuất so với mơ hình CNN khác nghiên cứu khác Hiệu mơ hình đánh giá tập liệu FER2013 thực nghiệm liệu cá nhân tự thu thập Quá trình đánh giá thực nghiệm, hiệu mơ hình nhận dạng khn mặt đánh giá dựa độ xác nhận dạng (Accuracy) ma trận nhầm lẫn (Confusion matrix) Dựa kết thử nghiệm, mơ hình CNN-LSTM cho thấy hiệu suất vượt trội với liệu FER2013 Chúng tơi tìm cách làm việc nhiều để trực quan hóa lọc học theo chiều sâu; công việc tương lai tập trung vào việc đào tạo mạng với nhiều liệu hơn, nhiều lọc chuyên sâu để cải thiện độ xác nhận dạng biểu cảm khuôn mặt Các kết thực nghiệm cho thấy mơ hình đề xuất đạt độ xác cao ổn định mơi trường thực tế, áp dụng giải toán ứng dụng điển hệ thống camera giám sát cho phép phát hiện, nhận dạng cảnh báo đối tượng nghi vấn đột nhập khu vực an ninh… 79 5.2 Hướng phát triển Biểu cảm khuôn mặt phương tiện quan trọng để thể cảm xúc người giao tiếp xã hội Tự động nhận dạng biểu khuôn mặt trở thành chủ đề “yêu thích” lĩnh vực nghiên cứu Trong luận văn này, đề xuất phương pháp sử dụng CNN để tìm hiểu biểu cảm khn mặt Các thí nghiệm thực sở liệu FER2013 điểm ma trận xác nhầm lẫn sử dụng để đánh giá mơ hình chúng tơi Hướng phát triển tới, thu thập thêm liệu huấn luyện mơ hình với nhiều ảnh để tăng độ xác mơ hình mạng nơron học sâu Ngồi ra, thành phần mặt có đặc điểm khác nên cần có kiến trúc học đặc thù với chi tiết nhỏ vùng q trình huấn luyện dó hướng phát triển mơ hình nhận dạng cảm xúc theo phần khn mặt mắt trái, mắt phải, miệng tồn mặt, từ nhận dạng với ảnh có phần khn mặt cho độ xác cao Áp dụng thêm nhiều phương pháp máy học khác để tìm mơ hình có độ xác cao 80 CƠNG TRÌNH CƠNG BỐ Bùi Thanh Hùng, Lê Minh Tiến (2020) "Facial Expression Recognition with CNN-LSTM" The Fifth International Conference on Research in Intelligent and Computing in Engineering (RICE 2020) A book chapter of Research in Intelligent and Computing in Engineering Springer Series in Advances in Intelligent Systems and Computing (Scopus Q3) 81 TÀI LIỆU THAM KHẢO [1] Tian YL, Kanade T, Cohn JF (2005) Facial Expression Analysis In Handbook of Face Recognition, Springer, pp 247-275 doi: 10.1007/0-387-27257-7_12 [2] Y Wu, H Liu, and H Zha (2005) Modeling facial expression space for recognition In IEEE/RSJ International Conference on Intelligent Robots and Systems-IROS, pp 1968–1973 doi: 10.1109/IROS.2005.1545532 [3] Ekman P., Freisen W V., Ancoli S (1980) Facial signs of emotional experience Journal of Personality and Social Psychology, 39(6), 1125–1134 doi: 10.1037/h0077722 [4] Gu J., Wang Z., Kuen J., Ma L., Shahroudy A., Shuai B., Liu T., Wang X., Wang L., Wang G (2017) Recent advances in convolutional neural networks Pattern Recognition, Vo 1, pp 1– 24 arXiv preprint arXiv:1512.07108 [5] S Li and W Deng (2018) Deep facial expression recognition: A survey arXiv preprint arXiv:1804.08348 [6] Ahonen T., Hadid A., Pietikainen M (2007) Face description with local binary patterns: Application to face recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(12):2037-41 doi: 10.1109/TPAMI.2006.244 [7] Ghimire, D., Jeong, S., Lee, J., Park, S.H (2017) Facial expression recognition based on local region specific features and support vector machines Multimedia Tools and Applications, No 76, pp 7803–7821 doi: 10.1007/s11042-016-3418-y [8] M Dahmane and J Meunier (2011) Emotion recognition using dynamic grid-based HoG features In 2011 IEEE International Conference on Automatic Face Gesture Recognition and 82 Workshops (FG 2011), pp 884–888 doi: 10.1109/FG.2011.5771368 [9] Y Lecun, L Bottou, Y Bengio, and P Haffner (1998) Gradientbased learning applied to document recognition Proceedings of the IEEE, Vol 86, No 11, pp 2278–2324 doi: 10.1109/5.726791 [10] Andre Teixeira Lopes, Edilson de Aguiar, Thiago Oliveira-Santos (2015) A Facial Expression Recognition System Using Convolutional Networks 28th SIBGRAPI Conference on Graphics, Patterns and Images, Vol 00, pp 273 – 280 doi: 10.1109/SIBGRAPI.2015.14 [11] D Hamester, P Barros, and S Wermter (2015) Face Expression Recognition with a 2-Channel Convolutional Neural Network International Joint Conference on Neural Networks, pp 17871794 doi: 10.1109/IJCNN.2015.7280539 [12] Siyue Xie and Haifeng Hu (2017) Facial expression recognition with FRR – CNN Electronic Letters, Vol 53, No 4, pp 235 – 237 doi: 10.1049/el.2016.4328 [13] Donahue J., Hendricks L.A., Rohrbach M., Venugopalan S., Guadarrama S., Saenko K., Darrell T (2017) Long-term recurrent convolutional networks for visual recognition and description IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 39 No 4, pp 677-691 doi: 10.1109/TPAMI.2016.2599174 [14] Bùi Thanh Hùng (2018) Vietnamese Keyword Extraction Using Hybrid Deep Learning Methods In proceedings of the 5th NAFOSTED Conference on Information and Computer Science doi: 10.1109/NICS.2018.8606906 [15] Lyons M.J., Akamatsu S., Kamachi M., Gyoba J (1998) Coding facial expressions with Gabor wave In Proceedings of the IEEE 83 International Conference on Automatic Face and Gesture Recognition, pp 200–205 doi: 10.1109/AFGR.1998.670949 [16] S Hochreiter and J Schmidhuber (1997) Long Short Term Memory Neural Computation, Vol 9, No 8, pp 1735–1780 doi: 10.1162/neco.1997.9.8.1735 [17] W Li, M Li, Z Su, and Z Zhu (2015) A deep-learning approach to facial expression recognition with candid images In 14th IAPR International Conference on Machine Vision Applications (MVA), pp 279282 doi: 10.1109/MVA.2015.7153185 [18] Franỗois Chollet, Keras (2015) https://github.com/fchollet/keras [19] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, Manjunath Kudlur, Josh Levenberg, Rajat Monga, Sherry Moore, Derek G Murray, Benoit Steiner, Paul Tucker, Vijay Vasudevan, Pete Warden, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng (2016) Tensorflow: A system for large-scale machine learning In Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation, OSDI’16, pp 265–283 doi: 10.1007/s10107-012-0572-5 [20] Open source computer vision library, OpenCV (2015) https://www.opencv.org [21] Võ Phúc Nguyên,”Nhận dạng ảnh mặt người sử dụng mạng nơron”, Tạp chí Khoa học & Công nghệ 64(02): 53 – 57, 2014 [22] Samer, C H., Rishi, K., & Rowen, “Image Recognition Using Convolutional Neural Networks” Cadence Whitepaper, 1–12, 2015 [23] S Hochreiter, J Schmidhuber, ”Long short-term memory”, 1997 84 [24] Sirovich L and Kirby M,”Low-dimensional procedure for the characterization of human faces”, JOSA A, 4(3):519-24 [25] Matthew Turk and Alex Pentland, A 1991 “Eigenfaces for Recognition”, J.Cogn Neurosci 3,72-86 [26] Paul Viola, Michael Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features” (2001) [27] I J Goodfellow, D Erhan, P L Carrier, A Courville, M Mirza,B Hamner, W Cukierski, Y Tang, D Thaler, D.-H Lee, Y Zhou,C Ramaiah, F Feng, R Li, X Wang, D Athanasakis, J Shawe-Taylor,M Milakov, J Park, R Ionescu, M Popescu, C Grozea, J Bergstra,J Xie, L Romaszko, B Xu, Z Chuang, and Y Bengio, “Challenges inrepresentation learning: A report on three machine learning contests,”Neural Networks, vol 64, pp 59–63, 2015 [28] Vinod Nair, Geoffrey E.Hinton, “Rectified linear units improve restricted boltzmann machines”, International Conference on International Conference on Machine Learning, pp 807 - 814, (2010) [29] Fukushima, Kunihiko (April 1980) "A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position" Biological Cybernetics 36 (4): 193–202 [30] Bùi Thanh Hùng, Nguyễn Thanh Tùng (2019) “Ứng dụng phương pháp học sâu nhận dạng khuôn mặt”, Kỷ yếu Ngày hội Khoa học cán bộ, giảng viên trẻ học viên cao học lần III - năm 2019 Đại học Thủ Dầu Một 6.2019 [31] Yoshua Bengio, Yann LeCun, Craig Nohl, Chris Burges “LeRec: ANN/HMM Hybrid for On-Line Handwriting Recognition”, Neural Compulation, Volume 7, Number (1995) 85 [32] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton “ImageNet Classification with Deep Convolutional Neural Networks”, Advances in Neural Information Processing Systems 25 (NIPS 2012) 2012 [33] Karen Simonyan, Andrew Zisserman “Very Deep Convolutional Networks For Large-Scale Image Recognition” Conference paper at ICLR 2015 (2015) [34] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich “Going deeper with convolutions” (2014) [35] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna “Rethinking the Inception Architecture for Computer Vision” (2015) [36] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun “Deep Residual Learning for Image Recognition” [37] Kexin Zhang “An Image Classification Model Based on FashionMNIST Dataset” Research School of Computer Science, Australian National University (2018) 86 87 88 89 90 91 92 93 ... loại cảm xúc mà người thể tương ứng với loại cảm xúc sở liệu 36 Hình 22: Mơ hình tốn nhận dạng cảm xúc khn mặt người Hệ thống nhận dạng cảm xúc khuôn mặt người Hệ thống nhận dạng cảm xúc khuôn mặt. .. 15: Nhận dạng cảm xúc Happy 76 Hình 16: Nhận dạng cảm xúc Surprise 76 Hình 17: Nhận dạng cảm xúc Sad 77 Hình 18: Nhận dạng cảm xúc Neutral 77 Hình 19: Nhận dạng cảm xúc. .. trúc mạng nơ- ron nhân tạo [21] Mỗi node mạng gọi nơ- ron Mỗi nơ- ron nhận liệu đầu vào xử lý chúng trả kết Kết đầu n? ?ron làm liệu đầu vào nơ- ron khác Hình 2.3 [21] mơ tả q trình xử lý nơ- ron ANN Trong

Định dạng
Số trang	105
Dung lượng	4,13 MB