7. Cấu trúc luận văn
4.2. Dữ liệu đầu vào
Đối với cơ sở dữ liệu, chúng tôi sử dụng bộ cơ sở dữ liệu đã xây dựng được trình bày ở trên từ cơ sở dữ liệu Kotani Thermal Facial Emotions (KTFE) [8] chứa 7 cảm xúc. Chúng tôi sử dụng 80% dữ liệu cho huấn luyện và thử nghiệm là 20%. Số lượng ảnh thường và ảnh nhiệt là như nhau (một cặp ảnh)
Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val) và 20% cho kiểm tra (test set)
Tên lớp Số ảnh từng cảm xúc Huấn luyện (train) Kiểm chứng (val) Kiểm tra (test) Tổng Giận dữ 896 224 280 1400 Ghê tởm 704 176 220 1100 Sợ hãi 1408 352 440 2200 Hạnh phúc 1472 368 460 2300 Bình thường 1274 318 398 1990 Buồn rầu 1536 384 480 2400
Tên lớp Số ảnh từng cảm xúc Huấn luyện (train) Kiểm chứng (val) Kiểm tra (test) Tổng Ngạc nhiên 832 208 260 1300 4.3.Phân tích đánh giá
Để đánh giá khách quan hiệu suất của phương pháp nghiên cứu được đề xuất, trong phần này chúng tôi tiến hành phân tích kết quả thực nghiệm đạt được. Tiếp theo, chúng tôi so sánh phương pháp đề xuất với phương pháp trong [36] trên cùng cơ sở dữ liệu nhưng khác phương pháp và chỉ so sánh kết quả trên ảnh nhiệt.
4.3.1. Kết quả thực nghiệm
Bảng 4.2 trình bày kết quả thí nghiệm trên dữ liệu kiểm thử của 07 lớp cảm xúc. Chúng tôi so sánh các thông số về độ chính xác (precision), độ đo tính toàn vẹn (recall) và trung bình điều hòa (F1-score) để đánh giá các phương pháp phân loại. Trong hầu hết các trường hợp, phương pháp của chúng tôi luôn cho recall cao hơn precision, đồng nghĩa với tỉ lệ bỏ sót các điểm thực sự positive là thấp.
Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne),
buồn rầu (Sa) và ngạc nhiên (Su)
Mô hình Độ đo 7 loại cảm xúc cơ bản
An Di Fe Ha Ne Sa Su Vi- Resnet-50 Precision 77.96% 84.38% 80.30% 84.29% 80.63% 83.47% 87.95% Recall 87.14% 88.41% 90.80% 92.25% 86.88% 93.13% 88.46% F1-score 82.29% 86.35% 85.23% 88.09% 83.63% 88.04% 88.21% Ther- Precision 86.32% 86.51% 85.15% 89.70% 86.79% 88.12% 90.65%
Mô hình Độ đo 7 loại cảm xúc cơ bản An Di Fe Ha Ne Sa Su F1-score 88.72% 90.46% 87.78% 91.77% 88.55% 90.36% 91.94% Fu- Resnet-50 Precision 85.34% 89.28% 86.79% 94.96% 89.81% 88.61% 91.26% Recall 93.57% 92.73% 94.09% 95.17% 93.63% 94.79% 94.42% F1-score 89.27% 90.97% 90.29% 95.06% 91.68% 91.60% 92.82%
Hình 4.1. Kết quả dự đoán của mô hình
Hình 4.2 cho thấy mô hình Vi-Resnet-50 thu được tỷ lệ phân lớp chính xác là 89.58%. Trong đó một số cảm xúc nhận dạng đạt độ chính cao như hạnh phúc đạt 92.25%, buồn rầu đạt 93.13% và sợ hãi đạt 90.80%. Tuy nhiên, có một số cảm xúc đạt tỉ lệ chưa cao như giận dữ đạt 87.14%, ghê tởm đạt 88.41%, bình thường đạt 86,87%. Từ kết quả này cho thấy, nếu chỉ sử dụng ảnh có thể nhìn thấy để nhận dạng cảm xúc sẽ làm giảm độ chính xác. Bởi vì, ảnh có thể nhìn thấy còn nhiều hạn chế như nhạy cảm với điều kiện ánh sáng
và một số người thường không biểu hiện cảm xúc thật. Mặc dù kết quả nhận dạng chưa cao nhưng nó phù hợp với những phân tích ban đầu của chúng tôi. Do vậy, chúng tôi tiếp tục tiến hành thực nghiệm với ảnh nhiệt.
Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50
Hình 4.3 trình bày kết quả của mô hình Ther-Resnet-50 chạy trên bộ dữ liệu ảnh nhiệt thu được tỷ lệ phân lớp chính xác là 92.41%, tăng 2.83% so với ảnh thường và hầu hết các lớp cảm xúc đều tăng, mặc dù có hai cảm xúc giảm nhưng tỷ lệ giảm rất thấp. Kết quả nhận dạng cảm xúc cho thấy hạnh phúc đạt 93.93%, cao hơn 1.68% so với Vi-Resnet-50, ghê tởm 94.77%, trong khi Vi-Resnet-50 chỉ đạt 88.41%, tăng 6.36%, ngạc nhiên đạt 93.27%, tăng 4.81% và tự nhiên đạt 90.38%, tăng 3.5% so với Vi-Resnet-50. Bên cạnh đó cảm xúc sợ hãi đạt 90.57%, giảm 0.23% và buồn rầu đạt 92.71%, giảm 0.42% so với Vi-Resnet-50. Từ đó cho thấy, nhiệt độ và cảm xúc của con người có
bổ sung quan trọng để hỗ trợ nhận dạng cảm xúc người chính xác hơn. Do vậy, chúng tôi tiếp tục thực nghiệm với phương pháp đề xuất là kết hợp ảnh thường và ảnh nhiệt.
Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50
Hình 4.4 thể hiện kết quả của mô hình kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50. Kết quả cho thấy tỷ lệ phân lớp chính xác là 94.06%. Hầu hết các cảm xúc đều đạt tỷ lệ cao so với mô hình phân lớp trên ảnh thường hoặc ảnh nhiệt. Trong đó, hạnh phúc đạt 95.17%, buồn rầu đạt 94.79 %, ngạc nhiên đạt 94,42%, sợ hãi đạt 94.09%, giận dữ đạt 93.57%, ghê tởm đạt 92.73%
Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50
Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50
Như vậy, từ kết quả thu được trong bảng 4.2 và biểu đồ so sánh ở hình 4.5, cho thấy kết quả khi nhận dạng trên phương pháp kết hợp đề xuất cao hơn so với nhận dạng trên ảnh thường hoặc ảnh nhiệt. Điều đó chứng tỏ vai trò của từng bộ phân lớp khi kết hợp giúp cho quá trình nhận dạng đạt kết quả tốt hơn.
4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32]
Để phân tích, đánh giá kết quả của phương pháp đề xuất với kết quả của tác giả trong bài báo [32] sử dụng cơ sở dữ liệu KTFE, chúng tôi so sánh kết quả 5 cảm xúc tương ứng là: giận dữ, sợ hãi, hạnh phúc, bình thường và buồn rầu.
Bảng 4.3. So sánh phân tích với phương pháp [32] trên 5 cảm xúc
Phương pháp Tỷ lệ nhận dạng trung bình
Phương pháp [32] 87.50%
Ther-ResNet-50 91.77%
Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32]
Bảng 4.3 và hình 4.6 cho thấy tỷ lệ nhận dạng trung bình đạt được bằng phương pháp đề xuất tốt hơn so với các phương pháp trong [32] để ước lượng cảm xúc trên cùng cơ sở dữ liệu.
4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36]
Phương pháp được đề xuất trên ảnh nhiệt được so sánh với kết quả thu được trên cùng một cơ sở dữ liệu KTFE. Với phương pháp [36], các tác giả đề xuất trích xuất vùng quan tâm - ROI và sử dụng các phương pháp PCA và
80.00 82.00 84.00 86.00 88.00 90.00 92.00 94.00 96.00 A N G E R F E A R H A P P I N E S S N E U T R A L S A D N E S S TỶ L Ệ % Ther-Resnet-50 Phương pháp 32
đổi. Nó xác định các khu vực nơi nhiệt độ tăng hoặc giảm đáng kể khi cảm xúc thay đổi và tập trung ở trán, xung quan mắt, gò má và hàm trên. Bảng 4.4 và hình 4.7 cho thấy hiệu suất đạt được bằng phương pháp đề xuất tốt hơn so với các phương pháp khác. Bởi vì chúng tôi đã sử dụng mô hình mạng học sâu và áp dụng kỹ thuật học chuyển giao để trích xuất đặc trưng tự động nên thu được nhiều thông tin hữu ích hơn.
Bảng 4.4. So sánh phân tích với phương pháp [36]
Phương pháp Tỷ lệ nhận dạng trung bình
Phương pháp [36] 90.42%
Ther-ResNet-50 92.44%
Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36]
Như vậy, trên cơ sở dữ liệu KTFE thì phương pháp đề xuất của chúng tôi có tỷ lệ nhận dạng trung bình cao hơn so với phương pháp trong bài báo [36].
80 82 84 86 88 90 92 94 96 98 100 G I Ậ N D Ữ G H Ê T Ở M S Ợ H Ã I H Ạ N H P H Ú C B Ì N H T H Ư Ờ N G B U Ồ N R Ầ U N H I Ê N N G Ạ C TỶ L Ệ % AXIS TITLE Ther-Resnet-50 phương pháp [35]
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong luận văn này, chúng tôi giới thiệu phương pháp ước lượng cảm xúc của con người dựa trên kết hợp hình ảnh thường và hình ảnh nhiệt nhằm khắc phục ảnh hưởng của ánh sáng môi trường và giảm tác động của những đối tượng ít thể hiện cảm xúc ra bên ngoài. Ngoài ra chúng tôi đã sử dụng kỹ thuật học chuyển giao với mạng đã được học trước trên bộ dữ liệu lớn và áp dụng vào bài toán của mình nhằm giảm thời gian học và tăng độ chính xác cho từng bộ phân lớp.
Chúng tôi đã đưa ra một hàm tính toán sự kết hợp ước lượng cảm xúc trên ảnh thường và ảnh nhiệt để tăng kết quả ước lượng.
Các thuật toán được kiểm tra trên cơ sở dữ liệu KTFE. Bảy cảm xúc cơ bản: giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn rầu, ngạc nhiên và bình thường được nhận dạng với độ chính xác cao là: 89.58%, 92.41% và 94.06% tương ứng cho: Vi-Resnet-50, Ther-Resnet-50 và Fu-Resnet-50.
Kết quả cho thấy rằng nhiệt độ và cảm xúc có mối liên quan chặt chẽ với nhau. Sử dụng thông tin nhiệt độ sẽ tăng tính chính xác cho nhận dạng cảm xúc con người.
Bên cạnh những kết quả đã đạt được, còn có những vấn đề mà thời điểm hiện tại luận văn chưa thực hiện:
- Chưa kết hợp các phương pháp rút trích đặc trưng truyền thống và kết hợp với mô hình học sâu nhằm so sánh kết quả với phương pháp rút trích đặc trưng tự động của mô hình học sâu.
- Chưa thực nghiệm với các mô hình mạng khác như ZF Net (2013), VGG Net (2014), Densenet(2016), v.v.
Trong tương lai, chúng tôi tiếp tục nghiên cứu thêm về mối quan hệ giữa biểu hiện của người và cảm xúc cũng như mối quan hệ giữa nhiệt độ và cảm xúc. Chúng tôi sẽ tiếp tục cải thiện công thức kết hợp các bộ phân lớp để đóng
khác về cảm xúc như âm thanh, text để có thêm nhiều thông tin trong nhận dạng cảm xúc hơn. Từ những kiến thức đó, chúng tôi sẽ xây dựng ứng dụng thực tế có thể hỗ trợ tương tác giữa con người và máy tính tốt hơn.
CÔNG TRÌNH CÔNG BÔ
Bài báo khoa học: N. Tran, K. Tran, D. Nguyen, H. Nguyen “A Method to Combine Thermal and Visible images for Human Emotions Detection” đã được chấp nhận trình bày tại hội nghị 4th International Conference on Advanced Engineering and ICT-Convergence 2020 (ICAEIC-2020).
Bài báo khoa học: N. Nguyen, N. Tran, H. Nguyen, et al. “A Spontaneous Visible and Thermal Facial Expression of Human Emotion Database” đã được trình bày tại hội nghị the 2019 6th NAFOSTED Conference on Information and Computer Science (NICS).
TÀI LIỆU THAM KHẢO
[1] C. Bartneck.: How convincing is Mr. Datas smile: Affective expressions of machines", User Modeling and User-Adapted Interaction, vol. 11, pp. 279-295 (2001).
[2] R.A. Brooks.: Flesh and Machines: How Robots will change us, Pantheon Books, New York (2002).
[3] R.W. Picard.: Affective Computing, MA: MIT Press (2000).
[4] A. Mehrabian.: Nonverbal communication, Transaction Publishers (1977).
[5] I. Cohen, N. Sebe, A. Garg, L.S. Chen, T.S. Huang.: Facial expression recognition from video sequences: temporal and static modeling, Journal of Computer Vision and Image Understanding, no. 91, pp. 160-187 (2003).
[6] Z. Liu and S. Wang.: Emotion recognition using Hidden Markov Model from facial temperature sequence, LNCS 6975, pp.240-247 (2011).
[7] B. Martinez, M. Valstar, B. Jiang, and M. Pantic.: Automatic analysis of facial actions: A survey, IEEE Transactions on Affective Computing 2017.
[8] H. Nguyen, K. Kotani, F. Chen, and B. Le, A thermal facial emotion database and its analysis, in PSIVT, 2014, pp. 397–408.
[9] C.Ciprian, O. Marc, C. Jeffrey, and E. Sergio.: Survey on RGB, 3D, Thermal, and Multimodal Approaches for Facial Expression Recognition: History, Trends, and Affect-related Applications, IEEE Transactions On Pattern Analysis And Machine Intelligence, 2016.
[10] S. Evangelos, G. Hatice, and C. Andrea.: Automatic Analysis of Facial Affect: A Survey of Registration, Representation, and Recognition, IEEE Transactions On Pattern Analysis And Machine Intelligence 2015.
[11] P. Ekman, V. Friesen, “Facial action coding system: a technique for the measurement of facial movement”, Rivista Di Psichiatria 47 (2), pp. 126– 138, 1978.
[12] H. Choi, S.Y. Oh, “Realtime Facial Expression Recognition Using Active Appearance Model and Multilayer Perceptron”, in Proceedings of the International Joint Conference SICE-ICASE, Busan, Korea, pp. 5924–5927, October 2006.
[13] A. Asthana, J. Saragih, M. Wagner, R. Goecke, “Evaluating AAM Fitting Methods for Facial Expression Recognition”, in Proceedings of the International Conference on Affective Computing and Intelligent Interaction, Amsterdam, The Netherlands; pp. 1–8, September 2009.
[14] N. Sebe, M.S. Lew, Y. Sun, I. Cohen, T. Gevers, T.S. Huang, “Authentic facial expression analysis”. Image Vision Comput, pp.1856–1863, 2007.
[15] Y. Chang, C. Hu, R. Feris, M. Turk, “Manifold based analysis of facial expression”. Image Vision Comput, pp.605–614, 2006.
[16] S. Moore, R. Bowden, “Local binary patterns for multi-view facial expression recognition”. Computer Vision Image Underst, pp.541–558, 2011
[17] D. Ghimire, J. Lee, “Histogram of orientation gradient feature- based facial expression classification using bagging with extreme learning machine”. Adv. Sci. Lett, pp.156–161, 2012.
[18] A. Dhall, A. Asthana, R. Goecke, T. Gedeon, “Emotion Recognition Using PHOG and LPQ Features”. In Proceedings of the IEEE International Conference on Face and Gesture Recognition and Workshop, Santa Barbara, CA, USA, pp. 878–883, 2011.
[19] T. Jabid, H. Kabir, O. Chae, “Robust facial expression recognition based on local directional pattern”. ETRI J, pp.784–794, 2010.
[20] I. Kotsia, I. Buciu, I. Pitas, “An analysis of facial expression recognition under partial facial image occlusion”. Image Vision Comput, pp.1052–1067, 2008.
[21] D.T. Lin, “Facial expression classification using PCA and hierarchical radial basic function network”. J. Inf. Sci. Eng, pp.1033–1046, 2006.
[22] Z. Wang, Q. Ruan, “Facial Expression Recognition Based Orthogonal Local Fisher Discriminant Analysis”. In Proceedings of the International Conference on Signal Processing (ICSP), Beijing, China, pp. 1358–1361, 2010.
[23] T.J. Phillips, “High performance thermal imaging technology", Advanced Semiconductor Magazine, vol. 15, no. 7, pp. 32-36, 2002.
[24] S. Ioannou, V. Gallese, A. Merla, “Thermal infrared imaging inpsychophysiology: potentialities and limits”, Psychophysiology 51 pp.951– 963, 2014.
[25] L. Trujillo, G. Olague, R. Hammoud, B. Hernandez. “Automatic feature localization in thermal images for facial expression recognition", IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, CVPR Workshops, p. 14, 2005.
[26] A. Di Giacinto, M. Brunetti, G. Sepede, A. Ferretti, A. Merla, “Thermal signature of fear conditioning in mild post traumatic stress disorder”, Neuroscience 266, pp.216–223, 2014.
[27] B. Hern´andez, G. Olague, R. Hammoud, L. Trujillo, E. Romero. “Visual learning of texture descriptors for facial expression recognition in thermal imagery", Computer Vision and Image Understanding, vol. 106, 2007.
[28] Z. Liu and S. Wang. “Emotion recognition using Hidden Markov Model from facial temperature sequence", LNCS 6975, pp.240-247, 2011.
[29] H. Nguyen, K. Kotani, F. Chen, B. Le, “Fusion of Visible Images and Thermal Image Sequences for Automated Facial Emotion Estimation”, Journal of Mobile Multimedia, Vol. 10, No. 3&4, pp.294-308, 2014.
[30] B.R. Nhan and T. Chau.: “Classifying affective states using thermal infrared imaging of the human face", IEEE Transactions on Biomedical Engineering, vol. 57, pp. 979987, 2010.
[31] H. Shan, S. Wang, W. Lan, H. Fu, Q. Ji, “Facial Expression Recognition using Deep Boltzmann Machine from Thermal Infrared Images”, Humaine Association Conference on Affective Computing and Intelligent Interaction, pp.239-244, 2013.
[32] A. Basu, A. Routray, S. Shit, A. Deb, “Human Emotion Recognition from Facial Thermal Image based on Fused Statistical Feature and Multi-Class SVM”, IEEE INDICON, pp.1-5, 2015.
[33] S. Wang, S. He, Y. Wu, M. He, and Q. Ji, “Fusion of visible and thermal images for facial expression recognition,” Front. Comput. Sci., vol. 8, no. 2, pp. 232–242, 2014.
[34] A. Basu, A. Dasgupta, A. Thyagharajan, A. Routray, R. Guha, and P. Mitra, “A portable personality recognizer based on affective state classification using spectral fusion of features,” IEEE Trans.Affect. Comput, 2018.
[35] S. Wang, B. Pan, H. Chen and Q. Ji, "Thermal Augmented Expression Recognition", in IEEE Transactions on Cybernetics, vol. 48, no. 7, pp. 2203-2214, July 2018.
[36] T. Nguyen, K. Tran, H. Nguyen, “Towards Thermal Region of Interest for Human Emotion Estimation”, 10th International Conference on
Knowledge and Systems Engineering, KSE 2018, pp.1-6, 2018.
unit and emotion-specified expression”, In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 94-101, 2010.
[38] I Goodfellow, D Erhan, PL Carrier, A Courville, M Mirza, B Hamner, W Cukierski, Y Tang, DH Lee, Y Zhou, C Ramaiah, F Feng, R Li, X Wang, D Athanasakis, J Shawe-Taylor, M Milakov, J Park, R Ionescu, M Popescu, C Grozea, J Bergstra, J Xie, L Romaszko, B Xu, Z Chuang, and Y Bengio, "Challenges in Representation Learning: A report on three machine learning contests." arXiv 2013.
[39] Ebner NC, Riediger M, Lindenberger U, “Faces-A database of facial expressions in young, middle-aged, and older women and men: Development and validation”, in Behavior Research Methods, vol. 42, no. 1, pp. 351-362, 2010.
[40] S. Mohammad Mavadati, Mohammad H. Mahoor, Kevin Bartlett, Philip Trinh, effrey F. Cohn, “DISFA: A spontaneous facial action intensity database”, Article (PDF Available) in IEEE Transactions on Affective Computing, vol. 4, no. 2, 151-160, April 2013.
[41] Dhall A, Goecke R, Lucey S, Gedeon T, “Acted facial expressions in the wild database”, Australian National University, Canberra.,Technical