Mô hình ước lượng cảm xúc trên ảnh thường và ảnh n- 123docz.net

7. Cấu trúc luận văn

3.2. Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt

Chúng tôi huấn luyện mô hình mạng học sâu sử dụng mô hình mạng Resnet-50 bằng phương pháp transfer learning, ở mô hình này chúng tôi dùng kỹ thuật fine-tune, sau đó bằng cách sử dụng trọng số đã được học và tiếp tục huấn luyện trên tập dữ liệu cảm xúc KTFE. Việc sử dụng pre-trained model giúp tăng tốc độ trong quá trình học và tăng độ chính xác của mô hình.

Trong hình 3.5 và hình 3.6, chúng tôi sử dụng mạng Resnet-50 để xây dựng mô hình phân lớp cảm xúc từ nguồn dữ liệu ảnh thường (tương tự đối với ảnh nhiệt). Sau đó, chúng tôi tiến hành kết hợp quyết định từ hai bộ phân lớp này. Để áp dụng mô hình học sâu vào nhận dạng cảm xúc, ngoài sử dụng kỹ thuật transfer learning chúng tôi áp dụng kỹ thuật data augmentation (tăng dữ liệu) thông qua các phép biến đổi cơ bản như việc lật ngược ảnh theo chiều dọc hoặc chiều ngang (Flip), phóng to hoặc thu nhỏ ảnh (scale), tăng/giảm góc nghiêng của hình (Translation), dịch chuyển ảnh sang trái/phải/trên/dưới nhằm giải quyết vấn đề ít dữ liệu.

Phần dữ liệu được đưa vào hệ thống phân loại thực nghiệm được phân chia ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện (training set) và tập dữ liệu kiểm tra (testing set).

Quá trình huấn luyện: Dữ liệu hình ảnh làm đầu vào cho hệ thống máy học. Với số lượng hình ảnh tổ hợp từ 07 loại cảm xúc trên tập training set. Mô hình của chúng tôi thực hiện fine-tune lại toàn bộ mạng. Nhưng trước đó sẽ thực hiện "warm-up" nghĩa là cho đóng băng (freeze) toàn bộ các lớp, chỉ

epochs. Rồi sau đó un-freeze và thực hiện fine-tune trên toàn bộ mô hình, learning rate cũng được gán nhỏ lại (lr = 0.0001).

Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới thêm vào FC, 7=> Softmax Chỉ train FC layer Đóng băng tất cả Layers của pre-trained model

Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong ConvNet của pre-trained model và fully connected layer mới.

(Vẽ tham khảo từ nguồn https://medium.com/analytics-vidhya/cnns-architectures-

FC, 7=> Softmax

Unfreeze và train tất cả Layers của mô hình

Quá trình phân loại trên tập kiểm tra: Sau khi huấn luyện mạng trên tập training set, hệ thống lưu trữ lại cấu trúc và các trọng số weight giữa các node của mô hình. Sau đó tiến hành đưa hình ảnh bất kỳ vào hệ thống. Ảnh này cũng phải thực hiện lại các công đoạn tiền xử lý ảnh, chuẩn hóa kích thước tương ứng với hệ thống phân lớp đã được huấn luyện trước đó. Kết quả cuối cùng sẽ cho biết được ảnh đầu vào cần kiểm tra thuộc cảm xúc nào trong tập các cảm xúc được định sẵn.

Hình 3.7. Mô hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt

Để xác định loại cảm xúc tốt nhất, chúng tôi hợp nhất hai mô hình Vi- Restnet-50 và Ther-Restnset-50 bằng công thức tuyến tính với tham số được xác định dựa vào tỉ lệ dự đoán đúng của từng mô hình (dựa vào f1-score) và xác suất của mỗi lớp có được sau tầng Softmax kết quả đầu ra được giới hạn trong phạm vi từ 0 tới 1. Lớp cảm xúc phù hợp nhất sẽ mang lại xác suất cao nhất. v v t t v t f  f  f             (3.1)

Với 

 là tỷ lệ giữa f1-score của mô hình Vi-Resnet-50 và mô hình Ther- Resnet-50 trên từng cảm xúc. fv và ftlà xác suất dự đoán của từng mô hình, t và v là trọng số áp dụng dựa vào tỷ lệ dự đoán của mô hình thông

qua f1-score.

Cuối cùng, cảm xúc p(x) được chọn dựa vào giá trị lớn nhất của f ( )

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1.Môi trường thực nghiệm

Về thông tin máy tính chạy thực nghiệm:

- Hệ điều hành: Window 10 – 64 bit.

- Bộ vi xử lý: Intel(R) Core(TM) i5-7400 CPU @ 3.00GHz, ~ 3.0GHz. - Bộ nhớ RAM: 16.0 GB.

Về ngôn ngữ lập trình:

- Sử dụng ngôn ngữ lập trình Python 3.6.4 cùng với các gói thư viện OpenCV3, Keras và Tensorflow.

4.2.Dữ liệu đầu vào

Đối với cơ sở dữ liệu, chúng tôi sử dụng bộ cơ sở dữ liệu đã xây dựng được trình bày ở trên từ cơ sở dữ liệu Kotani Thermal Facial Emotions (KTFE) [8] chứa 7 cảm xúc. Chúng tôi sử dụng 80% dữ liệu cho huấn luyện và thử nghiệm là 20%. Số lượng ảnh thường và ảnh nhiệt là như nhau (một cặp ảnh)

Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val) và 20% cho kiểm tra (test set)

Tên lớp Số ảnh từng cảm xúc Huấn luyện (train) Kiểm chứng (val) Kiểm tra (test) Tổng Giận dữ 896 224 280 1400 Ghê tởm 704 176 220 1100 Sợ hãi 1408 352 440 2200 Hạnh phúc 1472 368 460 2300 Bình thường 1274 318 398 1990 Buồn rầu 1536 384 480 2400

Tên lớp Số ảnh từng cảm xúc Huấn luyện (train) Kiểm chứng (val) Kiểm tra (test) Tổng Ngạc nhiên 832 208 260 1300 4.3.Phân tích đánh giá

Để đánh giá khách quan hiệu suất của phương pháp nghiên cứu được đề xuất, trong phần này chúng tôi tiến hành phân tích kết quả thực nghiệm đạt được. Tiếp theo, chúng tôi so sánh phương pháp đề xuất với phương pháp trong [36] trên cùng cơ sở dữ liệu nhưng khác phương pháp và chỉ so sánh kết quả trên ảnh nhiệt.

4.3.1. Kết quả thực nghiệm

Bảng 4.2 trình bày kết quả thí nghiệm trên dữ liệu kiểm thử của 07 lớp cảm xúc. Chúng tôi so sánh các thông số về độ chính xác (precision), độ đo tính toàn vẹn (recall) và trung bình điều hòa (F1-score) để đánh giá các phương pháp phân loại. Trong hầu hết các trường hợp, phương pháp của chúng tôi luôn cho recall cao hơn precision, đồng nghĩa với tỉ lệ bỏ sót các điểm thực sự positive là thấp.

Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne),

buồn rầu (Sa) và ngạc nhiên (Su)

Mô hình Độ đo 7 loại cảm xúc cơ bản

An Di Fe Ha Ne Sa Su Vi- Resnet-50 Precision 77.96% 84.38% 80.30% 84.29% 80.63% 83.47% 87.95% Recall 87.14% 88.41% 90.80% 92.25% 86.88% 93.13% 88.46% F1-score 82.29% 86.35% 85.23% 88.09% 83.63% 88.04% 88.21% Ther- Precision 86.32% 86.51% 85.15% 89.70% 86.79% 88.12% 90.65%

Mô hình Độ đo 7 loại cảm xúc cơ bản An Di Fe Ha Ne Sa Su F1-score 88.72% 90.46% 87.78% 91.77% 88.55% 90.36% 91.94% Fu- Resnet-50 Precision 85.34% 89.28% 86.79% 94.96% 89.81% 88.61% 91.26% Recall 93.57% 92.73% 94.09% 95.17% 93.63% 94.79% 94.42% F1-score 89.27% 90.97% 90.29% 95.06% 91.68% 91.60% 92.82%

Hình 4.1. Kết quả dự đoán của mô hình

Hình 4.2 cho thấy mô hình Vi-Resnet-50 thu được tỷ lệ phân lớp chính xác là 89.58%. Trong đó một số cảm xúc nhận dạng đạt độ chính cao như hạnh phúc đạt 92.25%, buồn rầu đạt 93.13% và sợ hãi đạt 90.80%. Tuy nhiên, có một số cảm xúc đạt tỉ lệ chưa cao như giận dữ đạt 87.14%, ghê tởm đạt 88.41%, bình thường đạt 86,87%. Từ kết quả này cho thấy, nếu chỉ sử dụng ảnh có thể nhìn thấy để nhận dạng cảm xúc sẽ làm giảm độ chính xác. Bởi vì, ảnh có thể nhìn thấy còn nhiều hạn chế như nhạy cảm với điều kiện ánh sáng

và một số người thường không biểu hiện cảm xúc thật. Mặc dù kết quả nhận dạng chưa cao nhưng nó phù hợp với những phân tích ban đầu của chúng tôi. Do vậy, chúng tôi tiếp tục tiến hành thực nghiệm với ảnh nhiệt.

Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50

Hình 4.3 trình bày kết quả của mô hình Ther-Resnet-50 chạy trên bộ dữ liệu ảnh nhiệt thu được tỷ lệ phân lớp chính xác là 92.41%, tăng 2.83% so với ảnh thường và hầu hết các lớp cảm xúc đều tăng, mặc dù có hai cảm xúc giảm nhưng tỷ lệ giảm rất thấp. Kết quả nhận dạng cảm xúc cho thấy hạnh phúc đạt 93.93%, cao hơn 1.68% so với Vi-Resnet-50, ghê tởm 94.77%, trong khi Vi-Resnet-50 chỉ đạt 88.41%, tăng 6.36%, ngạc nhiên đạt 93.27%, tăng 4.81% và tự nhiên đạt 90.38%, tăng 3.5% so với Vi-Resnet-50. Bên cạnh đó cảm xúc sợ hãi đạt 90.57%, giảm 0.23% và buồn rầu đạt 92.71%, giảm 0.42% so với Vi-Resnet-50. Từ đó cho thấy, nhiệt độ và cảm xúc của con người có

bổ sung quan trọng để hỗ trợ nhận dạng cảm xúc người chính xác hơn. Do vậy, chúng tôi tiếp tục thực nghiệm với phương pháp đề xuất là kết hợp ảnh thường và ảnh nhiệt.

Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50

Hình 4.4 thể hiện kết quả của mô hình kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50. Kết quả cho thấy tỷ lệ phân lớp chính xác là 94.06%. Hầu hết các cảm xúc đều đạt tỷ lệ cao so với mô hình phân lớp trên ảnh thường hoặc ảnh nhiệt. Trong đó, hạnh phúc đạt 95.17%, buồn rầu đạt 94.79 %, ngạc nhiên đạt 94,42%, sợ hãi đạt 94.09%, giận dữ đạt 93.57%, ghê tởm đạt 92.73%

Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50

Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50

Như vậy, từ kết quả thu được trong bảng 4.2 và biểu đồ so sánh ở hình 4.5, cho thấy kết quả khi nhận dạng trên phương pháp kết hợp đề xuất cao hơn so với nhận dạng trên ảnh thường hoặc ảnh nhiệt. Điều đó chứng tỏ vai trò của từng bộ phân lớp khi kết hợp giúp cho quá trình nhận dạng đạt kết quả tốt hơn.

4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32]

Để phân tích, đánh giá kết quả của phương pháp đề xuất với kết quả của tác giả trong bài báo [32] sử dụng cơ sở dữ liệu KTFE, chúng tôi so sánh kết quả 5 cảm xúc tương ứng là: giận dữ, sợ hãi, hạnh phúc, bình thường và buồn rầu.

Bảng 4.3. So sánh phân tích với phương pháp [32] trên 5 cảm xúc

Phương pháp Tỷ lệ nhận dạng trung bình

Phương pháp [32] 87.50%

Ther-ResNet-50 91.77%

Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32]

Bảng 4.3 và hình 4.6 cho thấy tỷ lệ nhận dạng trung bình đạt được bằng phương pháp đề xuất tốt hơn so với các phương pháp trong [32] để ước lượng cảm xúc trên cùng cơ sở dữ liệu.

4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36]

Phương pháp được đề xuất trên ảnh nhiệt được so sánh với kết quả thu được trên cùng một cơ sở dữ liệu KTFE. Với phương pháp [36], các tác giả đề xuất trích xuất vùng quan tâm - ROI và sử dụng các phương pháp PCA và

80.00 82.00 84.00 86.00 88.00 90.00 92.00 94.00 96.00 A N G E R F E A R H A P P I N E S S N E U T R A L S A D N E S S TỶ L Ệ % Ther-Resnet-50 Phương pháp 32

đổi. Nó xác định các khu vực nơi nhiệt độ tăng hoặc giảm đáng kể khi cảm xúc thay đổi và tập trung ở trán, xung quan mắt, gò má và hàm trên. Bảng 4.4 và hình 4.7 cho thấy hiệu suất đạt được bằng phương pháp đề xuất tốt hơn so với các phương pháp khác. Bởi vì chúng tôi đã sử dụng mô hình mạng học sâu và áp dụng kỹ thuật học chuyển giao để trích xuất đặc trưng tự động nên thu được nhiều thông tin hữu ích hơn.

Bảng 4.4. So sánh phân tích với phương pháp [36]

Phương pháp Tỷ lệ nhận dạng trung bình

Phương pháp [36] 90.42%

Ther-ResNet-50 92.44%

Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36]

Như vậy, trên cơ sở dữ liệu KTFE thì phương pháp đề xuất của chúng tôi có tỷ lệ nhận dạng trung bình cao hơn so với phương pháp trong bài báo [36].

80 82 84 86 88 90 92 94 96 98 100 G I Ậ N D Ữ G H Ê T Ở M S Ợ H Ã I H Ạ N H P H Ú C B Ì N H T H Ư Ờ N G B U Ồ N R Ầ U N H I Ê N N G Ạ C TỶ L Ệ % AXIS TITLE Ther-Resnet-50 phương pháp [35]

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong luận văn này, chúng tôi giới thiệu phương pháp ước lượng cảm xúc của con người dựa trên kết hợp hình ảnh thường và hình ảnh nhiệt nhằm khắc phục ảnh hưởng của ánh sáng môi trường và giảm tác động của những đối tượng ít thể hiện cảm xúc ra bên ngoài. Ngoài ra chúng tôi đã sử dụng kỹ thuật học chuyển giao với mạng đã được học trước trên bộ dữ liệu lớn và áp dụng vào bài toán của mình nhằm giảm thời gian học và tăng độ chính xác cho từng bộ phân lớp.

Chúng tôi đã đưa ra một hàm tính toán sự kết hợp ước lượng cảm xúc trên ảnh thường và ảnh nhiệt để tăng kết quả ước lượng.

Các thuật toán được kiểm tra trên cơ sở dữ liệu KTFE. Bảy cảm xúc cơ bản: giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn rầu, ngạc nhiên và bình thường được nhận dạng với độ chính xác cao là: 89.58%, 92.41% và 94.06% tương ứng cho: Vi-Resnet-50, Ther-Resnet-50 và Fu-Resnet-50.

Kết quả cho thấy rằng nhiệt độ và cảm xúc có mối liên quan chặt chẽ với nhau. Sử dụng thông tin nhiệt độ sẽ tăng tính chính xác cho nhận dạng cảm xúc con người.

Bên cạnh những kết quả đã đạt được, còn có những vấn đề mà thời điểm hiện tại luận văn chưa thực hiện:

- Chưa kết hợp các phương pháp rút trích đặc trưng truyền thống và kết hợp với mô hình học sâu nhằm so sánh kết quả với phương pháp rút trích đặc trưng tự động của mô hình học sâu.

- Chưa thực nghiệm với các mô hình mạng khác như ZF Net (2013), VGG Net (2014), Densenet(2016), v.v.

Trong tương lai, chúng tôi tiếp tục nghiên cứu thêm về mối quan hệ giữa biểu hiện của người và cảm xúc cũng như mối quan hệ giữa nhiệt độ và cảm xúc. Chúng tôi sẽ tiếp tục cải thiện công thức kết hợp các bộ phân lớp để đóng

khác về cảm xúc như âm thanh, text để có thêm nhiều thông tin trong nhận dạng cảm xúc hơn. Từ những kiến thức đó, chúng tôi sẽ xây dựng ứng dụng thực tế có thể hỗ trợ tương tác giữa con người và máy tính tốt hơn.

CÔNG TRÌNH CÔNG BÔ

Bài báo khoa học: N. Tran, K. Tran, D. Nguyen, H. Nguyen “A Method to Combine Thermal and Visible images for Human Emotions Detection” đã được chấp nhận trình bày tại hội nghị 4th International Conference on Advanced Engineering and ICT-Convergence 2020 (ICAEIC-2020).

Bài báo khoa học: N. Nguyen, N. Tran, H. Nguyen, et al. “A Spontaneous Visible and Thermal Facial Expression of Human Emotion Database” đã được trình bày tại hội nghị the 2019 6th NAFOSTED Conference on Information and Computer Science (NICS).

TÀI LIỆU THAM KHẢO

[1] C. Bartneck.: How convincing is Mr. Datas smile: Affective expressions of machines", User Modeling and User-Adapted Interaction, vol. 11, pp. 279-295 (2001).

[2] R.A. Brooks.: Flesh and Machines: How Robots will change us, Pantheon Books, New York (2002).

[3] R.W. Picard.: Affective Computing, MA: MIT Press (2000).

[4] A. Mehrabian.: Nonverbal communication, Transaction Publishers (1977).

[5] I. Cohen, N. Sebe, A. Garg, L.S. Chen, T.S. Huang.: Facial expression recognition from video sequences: temporal and static modeling, Journal of Computer Vision and Image Understanding, no. 91, pp. 160-187 (2003).

[6] Z. Liu and S. Wang.: Emotion recognition using Hidden Markov Model from facial temperature sequence, LNCS 6975, pp.240-247 (2011).

[7] B. Martinez, M. Valstar, B. Jiang, and M. Pantic.: Automatic analysis of facial actions: A survey, IEEE Transactions on Affective Computing 2017.

[8] H. Nguyen, K. Kotani, F. Chen, and B. Le, A thermal facial emotion database and its analysis, in PSIVT, 2014, pp. 397–408.

[9] C.Ciprian, O. Marc, C. Jeffrey, and E. Sergio.: Survey on RGB, 3D, Thermal, and Multimodal Approaches for Facial Expression Recognition: History, Trends, and Affect-related Applications, IEEE Transactions On Pattern Analysis And Machine Intelligence, 2016.

[10] S. Evangelos, G. Hatice, and C. Andrea.: Automatic Analysis of Facial Affect: A Survey of Registration, Representation, and Recognition, IEEE Transactions On Pattern Analysis And Machine Intelligence 2015.

[11] P. Ekman, V. Friesen, “Facial action coding system: a technique for the measurement of facial movement”, Rivista Di Psichiatria 47 (2), pp. 126– 138, 1978.

[12] H. Choi, S.Y. Oh, “Realtime Facial Expression Recognition Using Active Appearance Model and Multilayer Perceptron”, in Proceedings of the International Joint Conference SICE-ICASE, Busan, Korea, pp. 5924–5927, October 2006.

[13] A. Asthana, J. Saragih, M. Wagner, R. Goecke, “Evaluating AAM Fitting Methods for Facial Expression Recognition”, in Proceedings of the International Conference on Affective Computing and Intelligent Interaction, Amsterdam, The Netherlands; pp. 1–8, September 2009.

Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt

Mạng huấn luyện Resnet (Residual Network)

đo đánh giá mô hình phân lớp