Bài viết đề xuất sử dụng phương pháp Support Vector Machine – SVM kết hợp với mạng thần kinh chuyển đổi để phân loại cảm xúc trên khuôn mặt trên bộ dữ liệu FER và xây dựng 3 mô hình chiến lược để tiến hành các thí nghiệm. Việc xác định cảm xúc chính xác của khuôn mặt luôn khó khăn.
TNU Journal of Science and Technology 226(16): 225 - 230 CLASSIFYING FACE SENSITIVES USING SUPPORT VECTOR MACHINE AND CONVOLUTIONAL NEURAL NETWORK Le Thu Trang*, Nguyen Thu Huong TNU - University of Information and Communication Technology ARTICLE INFO Received: 29/4/2021 Revised: 23/11/2021 Published: 24/11/2021 KEYWORDS Facial expression Object classification Machine learning SVM – Support Vector Machine CNN – Convolutional Neural Network ABSTRACT Distinguishing emotions through facial recognition is one of the problems that many researchers are interested in For the purpose of assisting the user in recognizing facial emotions to use research in fields such as clinical or behavioral science The challenge with this problem is that human facial expressions have similarities and overlaps in different emotional expressions In this paper, the authors propose to use the SVM method combined with the transitional neural network to classify facial emotions on the FER dataset and build strategic models to conduct experiments Determining the exact emotion of the face is always difficult The experimental results have shown that the CNN model is accurate when compared to the HOGSVM model The CNN model takes the real image as input, and the CNN model imports the combined image that has approximately the same results and is more stable SỬ DỤNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ CONVOLUTIONAL NEURAL NETWORK ĐỂ PHÂN LOẠI CẢM XÚC CỦA KHUÔN MẶT Lê Thu Trang*, Nguyễn Thu Hương Trường Đại học Công nghệ thông tin Truyền thông – ĐH Thái Ngun THƠNG TIN BÀI BÁO TĨM TẮT Ngày nhận bài: 29/4/2021 Phân loại cảm xúc khuôn mặt thông qua việc nhận diện nét mặt toán nhiều nhà nghiên cứu quan tâm Với mục đích hỗ trợ người dùng việc nhận diện cảm xúc khuôn mặt để sử dụng nghiên cứu lĩnh vực khoa học lâm sàng hay khoa học hành vi Thách thức với tốn nét mặt người có tương đồng, trùng lặp biểu thị cảm xúc khác Trong báo này, nhóm tác giả đề xuất sử dụng phương pháp Support Vector Machine – SVM kết hợp với mạng thần kinh chuyển đổi để phân loại cảm xúc khuôn mặt liệu FER xây dựng mơ hình chiến lược để tiến hành thí nghiệm Việc xác định cảm xúc xác khn mặt ln khó khăn Các kết thực nghiệm cho thấy mơ hình Convolutional Neural Network - CNN xác so sánh với mơ hình Histogram Of Orientation Gradient + Support Vector Machine HOG +SVM Mơ hình CNN lấy hình ảnh thực làm đầu vào mơ hình CNN nhập hình ảnh kết hợp có kết gần với có tính chất ổn định Ngày hồn thiện: 23/11/2021 Ngày đăng: 24/11/2021 TỪ KHĨA Biểu cảm khn mặt Phân lớp đối tượng Máy học SVM – Support Vector Machine Mạng nơ-ron tích chập DOI: https://doi.org/10.34238/tnu-jst.4443 * Corresponding author Email: trangtip@gmail.com http://jst.tnu.edu.vn 225 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 225 - 230 Giới thiệu Nhận dạng cảm xúc khn mặt q trình xác định cảm xúc khuôn mặt người thông qua khuôn mặt Mọi người khác với độ xác khác việc nhận biết cảm xúc người khác Trong lan rộng độ xác khác này, cơng nghệ chứng minh kênh nhận dạng cảm xúc phát triển số mơ hình để xác định cảm xúc khn mặt xác người Các phương tiện giao tiếp bao gồm cử thể, nét mặt,… ngồi lời nói Cử thể giúp điều chỉnh giao tiếp lời nói, nét mặt thể cảm xúc người theo phản xạ Nhận dạng cảm xúc khn mặt có ứng dụng nhiều lĩnh vực khác bao gồm khoa học lâm sàng, khoa học hành vi,… Phát nét mặt điều kiện tiên ngày giao diện người - máy Trong vài năm qua, số tiến thực lĩnh vực phát nét mặt, kỹ thuật trích xuất đặc điểm khuôn mặt phân loại biểu cảm Nhưng phải phát triển hệ thống phát biểu cảm khuôn mặt tự động Dự án thực nhận dạng khuôn mặt theo nhiều cách, cách sử dụng mô tả (Histogram Of Orientation Gradient) SVM (Máy vectơ hỗ trợ) cho mơ hình với chiến lược đầu vào khác cho Mạng nơ-ron tích chập Convolutions Neural Network (CNN) mơ hình khác Sau đó, CNN SVM dự đốn nhãn theo cảm xúc khuôn mặt sau: bình thường, hạnh phúc, sợ hãi, buồn bã, chán ghét, tức giận, ngạc nhiên Động việc kết hợp hai nhiều kỹ thuật tiền xử lý để đạt kết so sánh thành công Trước đây, nhà nghiên cứu tiến hành nghiên cứu nhận biết đơn vị hành động cho khn mặt thơng qua việc phân tích biểu thức tự động [1] Tiếp đến, có nhiều kết nghiên cứu đề cập thực giải toán nhận dạng xác định người ảnh [2] hay nhận dạng biểu khuôn mặt dựa đặc điểm hình ảnh cơng cụ khác kết hợp để cải thiện độ xác hệ thống [3] Ngồi có nhiều nghiên cứu nhận dạng liên quan đến mạng độ sâu Karen Simonyan cộng [4], hệ thống tự động nhận biết cử động khuôn mặt [5] Hay hệ thống nhận dạng cảm xúc khuôn mặt thể việc phân loại khuôn mặt thành số cảm xúc ban đầu vui vẻ, buồn bã tức giận [6] Khuôn mặt tạo chuyển động riêng lẻ để tạo khuôn mặt khách quan hệ thống mã hóa hành động khn mặt (FACS) khung tâm lý - logic sử dụng để mô tả chuyển động khuôn mặt Đây phương pháp sử dụng để phân loại chuyển động khuôn mặt người theo ngoại hình họ đơn vị hành động (AU) Chúng thư giãn co lại nhiều Có nhiều kỹ thuật sử dụng để nhận dạng cảm xúc khuôn mặt mạng nơ-ron tích chập để nhận dạng biểu khn mặt [7] Với mục đích tiếp tục cải thiện kết hợp so sánh với phương pháp có sử dụng trước đây, báo đề xuất phương pháp sử dụng để phân lớp cảm xúc khuôn mặt dựa vào SVM CNN Các kết thực nghiệm dựa tập liệu FER2013 từ trang web Kaggle hiệu phương pháp đề xuất Dữ liệu để nghiên cứu Dự án sử dụng Tập liệu FER2013 từ trang web Kaggle có chứa 35.887 (48 pixel * 48 pixel) hình ảnh xám mơ tả biểu cảm khuôn mặt Tất hình ảnh có khn mặt gần chiếm lượng không gian tương tự Tập liệu có bảy lớp khác hình ảnh thuộc lớp cụ thể cảm xúc khn mặt Ví dụ, Hình cho thấy bảy cảm xúc khác khuôn mặt Các ảnh từ (a) đến (g) mơ tả số lớp hình ảnh cảm xúc khn mặt tức giận, bình thường, buồn bã, vui vẻ, ngạc nhiên, sợ hãi chán ghét Kích thước tập liệu (35887, 48, 48, 1) Mô tả phân loại tập liệu (số lượng hình ảnh cảm xúc khn mặt tương ứng Các hình ảnh biểu cảm khn mặt có số lượng sau sở liệu: http://jst.tnu.edu.vn 226 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 225 - 230 Hình Mơ tả cảm xúc có tập liệu ảnh cảm xúc khn mặt FER - Tức giận có 4953 hình ảnh; - Chán ghét có 547 hình ảnh; - Sợ hãi có 5120 hình ảnh; - Vui vẻ có 8988 hình ảnh; - Buồn bã có 6077 hình ảnh; - Ngạc nhiên có 4002 hình ảnh; - Bình thường có 6198 hình ảnh Tập liệu chia thành tập riêng biệt, tập huấn luyện (để huấn luyện mơ hình), tập xác nhận (để điều chỉnh siêu tham số) tập thử nghiệm (để kiểm tra mơ hình) Có 28196 hình ảnh đào tạo, 3546 hình ảnh xác nhận 3545 hình ảnh Xây dựng mơ hình để phân lớp cảm xúc khuôn mặt dựa vào SVM CNN Ba mơ hình để phân lớp biểu cảm khn mặt xây dựng sau: - Mơ hình (HOG +SVM): Mơ hình sử dụng biểu đồ gradient có định hướng (HOG) để trích xuất đối tượng máy vectơ hỗ trợ (SVM có RBF kernel) để phân loại cảm xúc khuôn mặt ảnh [2] HOG mô tả khuôn mặt học máy thị giác máy tính sử dụng để định lượng thể hình dạng kết cấu Các phổ biến HOG ủng hộ với khả mơ tả đặc điểm diện mạo hình dạng đối tượng cục sử dụng phân bố cường độ cục gradient (gradient ngang dọc) Bộ mô tả HOG mơ hình hóa để cung cấp chiều vectơ đặc trưng có giá trị thực, tùy thuộc vào tham số sau: hướng, pixel ô ô khối Hàm sở hướng tâm (RBF) sử dụng SVM làm phương pháp hạt nhân - Mơ hình (Hình ảnh thực + CNN): Mơ hình sử dụng mạng nơ-ron tích chập (mơ hình CNN) để nhấn chìm hai mục đích trích xuất phân loại đặc điểm cảm xúc khn mặt đầu vào hình ảnh thực (hình ảnh thang độ xám) (Hình 2) Mơ hình cấu trúc với lớp tích chập, chức kích hoạt phi tuyến, ReLU, sau dẫn đến lớp kết nối đầy đủ [7] Các hoạt động bỏ qua, chuẩn hóa hàng loạt (BN) gộp tối đa sử dụng sau lớp Cuối cùng, mạng có lớp dày đặc tính tốn điểm số - Mơ hình (CNN Balanced Dataset): Các liệu khơng phải lúc cân số lượng hình ảnh nằm lớp phân loại cảm xúc khuôn mặt, khơng thể hồn tồn dựa vào ergo để xác định độ xác Tương tự trường hợp với tập liệu FER Nó có tổng cộng 35887 hình ảnh thuộc cảm xúc khác Số lượng danh mục xác sau: Tức giận có 4953 hình ảnh, Chán ghét có 547 hình ảnh, Sợ hãi có 5120 hình ảnh, Vui vẻ có 8988 hình ảnh, Buồn bã có 6077 hình ảnh, Ngạc nhiên có 4002 hình ảnh, Bình thường có 6198 hình ảnh Mơ hình khai thác khái niệm lấy mẫu xuống để cân tập liệu 547 hình ảnh từ danh mục nêu thu thập "Chán ghét" có số lượng hình ảnh nhất, 547, số tất danh mục Bộ liệu có 3829 hình ảnh http://jst.tnu.edu.vn 227 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 225 - 230 Hình Dữ liệu đầu vào cho mơ hình Phân tích đánh giá thực nghiệm 4.1 Phân tích đánh giá thực nghiệm Trong Model-1, tập liệu (35887 hình ảnh) chia thành tập tập huấn luyện chứa 28196 hình ảnh tập thử nghiệm với 7691 hình ảnh Kích thước hình ảnh 48 pixel * 48 pixel chia thành khối có kích thước tương đương khác có chứa pixel Trong Model-2 Model-3, tập liệu chia thành bộ, cụ thể huấn luyện, xác nhận thử nghiệm Tập liệu có 35887 hình ảnh, hình ảnh có kích thước 48 pixel * 48 pixel Tập huấn luyện sử dụng để huấn luyện mơ hình chứa 28196 hình ảnh, hình ảnh 48 pixel * 48 pixel Bộ kiểm tra sử dụng để kiểm tra mơ hình chứa 3845 hình ảnh, hình ảnh 48 pixel * 48 pixel Bộ xác thực sử dụng cho điều chỉnh siêu tham số chứa 3846 ảnh lại, ảnh 48 pixel * 48 pixel 4.2 Tiến hành thí nghiệm Thuật tốn thực mơ hình 1: Bước Tính tốn độ lớn/ hướng gradient pixel cách sử dụng diện tích * ô pixel Bước Tạo biểu đồ gồm 64 vectơ gradient tạo (8 * 8) Bước Chia hình ảnh thành vùng góc cạnh (Hình 3), vùng tương ứng với hướng gradient từ độ đến 180 độ (20 độ vùng) Bước Lặp lại tất ba bước tồn hình ảnh bao phủ tổ hợp chập, để có hình ảnh gradient Bước Sau kết thúc tính HOG từ tập huấn luyện (kích thước tính Hog = (kích thước tổng số hình ảnh, 900)) Xtrain = (28196,900), Xtest = (7691,900), ytrain = (28196,1), Ytest = (7691,1) Bước Huấn luyện SVM (nhân rbf, gamma = 0,1) tập huấn luyện Bước Kiểm tra mơ hình SVM liệu thử nghiệm Bước Tính tốn độ xác ma trận nhầm lẫn http://jst.tnu.edu.vn 228 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 225 - 230 Hình Chuyển đổi Gradient Trong mơ hình 2, mơ hình 3, kiến trúc bao gồm tám lớp phức hợp bốn lớp kết nối đầy đủ (để tính tốn tổn thất điểm số), chuẩn hóa hàng loạt bỏ học Lớp CNN (Hình 4) sử dụng 64 lọc, lọc có kích thước * 3, sải chân (kích thước 1) ReLU làm chức kích hoạt Lớp thứ hai sử dụng 64 lọc, lọc có kích thước * 3, bước (kích thước 1), chuẩn hóa hàng loạt, tổng hợp tối đa với lọc có kích thước * 2, loại bỏ 0,5 (Hình 2) ReLU làm chức kích hoạt Lớp CNN thứ ba tương tự lớp chứa 128 lọc, lọc có kích thước * Lớp thứ tư tương tự lớp thứ hai có 128 lọc, lọc có kích thước * Lớp CNN thứ năm tương tự lớp thứ ba sử dụng 256 lọc Lớp thứ sáu đồng với lớp thứ tư với 256 lọc, có kích thước * Lớp CNN thứ bảy tương tự lớp CNN thứ năm sử dụng lọc 512 Lớp thứ tám tương tự lớp thứ sáu có lọc 512 Lớp kết nối đầy đủ có 512 tế bào thần kinh lớp ẩn ReLU làm chức kích hoạt, bỏ qua 0,4 Lớp kết nối đầy đủ thứ hai có 256 tế bào thần kinh lớp ẩn Relu dạng chức kích hoạt theo sau bỏ qua 0,4 Lớp kết nối đầy đủ thứ ba có 128 tế bào thần kinh lớp ẩn, ReLU làm chức kích hoạt, 0,4 người bỏ học Lớp kết nối dày đặc cuối cùng, có tế bào thần kinh lớp ẩn chức kích hoạt Softmax GPU khai thác để tăng thời gian xử lý mơ hình Kết thực nghiệm Hiệu suất mơ hình xác định độ xác mơ hình (Hình 4) Biểu đồ kỷ nguyên xác kỷ nguyên mát vẽ cho tất mơ hình để đánh giá hiệu suất chúng Hình cho thấy ma trận nhầm lẫn tất mơ hình hỗ trợ đánh giá hiệu suất chúng tương ứng Ma trận hỗ trợ việc xác định diện xảy / hư cấu phân loại khơng xác, khả xảy với hư cấu nhận dạng cảm xúc người Hình Ma trận nhập nhằng mơ hình: a) mơ hình 1, b) mơ hình 2, c) mơ hình Việc xác định cảm xúc xác khn mặt ln khó khăn Có thể thấy rõ qua kết rằng, mơ hình CNN xác so sánh với mơ hình HOG-SVM Mơ hình CNN lấy hình ảnh thực làm đầu vào mơ hình CNN nhập hình ảnh kết hợp có kết gần với http://jst.tnu.edu.vn 229 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 225 - 230 Bảng Độ xác mơ hình theo lớp cảm xúc Biểu cảm Tức giận Chán ghét Sợ hãi Vui vẻ Ngạc nhiên Bình thường Buồn bã Mơ hình 90,67 91,2 93,04 91,7 89,43 83,1 80,6 Mơ hình 88,56 91,02 93,85 85,04 89,76 83,01 94,87 Mơ hình 88,78 90,43 85,98 81,35 90,7 89,90 93,6 Kết luận Ba mơ hình phát triển để nhận dạng cảm xúc khuôn mặt trình diễn chúng đánh giá kỹ thuật khác Kết Bảng cho thấy rằng, mơ hình CNN tốt mơ hình SVM Trái ngược với lần quan sát đầu tiên, việc lấy mẫu xuống không giúp cải thiện hiệu suất mơ hình thoải mái việc đạt độ tin cậy tốt Mơ hình CNN đưa hình ảnh gốc vào ngang với mơ hình CNN lấy hình ảnh lai độ xác Kết đáng ý thời gian xem xét thời gian cần thiết để đạt độ xác thực tế trường hợp mơ hình CNN nhập hình ảnh thực TÀI LIỆU THAM KHẢO/ REFERENCES [1] Y Tiana and T Kanade, “Recognizing action units for facial expression analysis,” IEEE transactions on pattern analysis and machine intelligence, vol 23, no 2, pp 97-115, 2001 [2] D Navneet and T Bill, “Histograms of Oriented Gradients for Human Detection,” Comput Vision Pattern Recognit., vol 1, pp 886-893, 2005, doi: 10.1109/CVPR.2005.177 [3] A Durmusoglu and Y Kahraman, “Facial expression recognition using geometric features,” International Conference on Systems, Signals and Image Processing (IWSSIP), 2016, pp 1-15 [4] K Simonyan and A Zisserman, “Very deep convolutional networks for large- scale image recognition,” arXiv preprint arXiv:pp 1409-1556v6 [cs.CV], 2015 [5] G Littlewort, M Frank, and C Lainscsek, “Automatic recognition of facial actions in spontaneous expressions,” Journal of Multimedia, vol 1, pp 1-9, 2006 [6] S Du and Y Tao, “Compound facial expressions of emotion,” Proceedings of the National Academy of Sciences, vol 15, pp 111-129, 2014 [7] A Shima and F Azar, “Convolutional Neural Networks for Facial Expression Recognition,” arXiv:1704.06756v1 [cs.CV], 2017 http://jst.tnu.edu.vn 230 Email: jst@tnu.edu.vn ... động khuôn mặt [5] Hay hệ thống nhận dạng cảm xúc khuôn mặt thể việc phân loại khuôn mặt thành số cảm xúc ban đầu vui vẻ, buồn bã tức giận [6] Khuôn mặt tạo chuyển động riêng lẻ để tạo khuôn mặt. .. quan hệ thống mã hóa hành động khuôn mặt (FACS) khung tâm lý - logic sử dụng để mô tả chuyển động khuôn mặt Đây phương pháp sử dụng để phân loại chuyển động khuôn mặt người theo ngoại hình họ đơn... phương pháp sử dụng để phân lớp cảm xúc khuôn mặt dựa vào SVM CNN Các kết thực nghiệm dựa tập liệu FER2013 từ trang web Kaggle hiệu phương pháp đề xuất Dữ liệu để nghiên cứu Dự án sử dụng Tập