CHƯƠNG 2. PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC
2.2. Phương pháp nhận dạng cảm xúc
FER có thể dự đoán một cách thích hợp trạng thái cảm xúc của cá nhân từ sự biến dạng hiển thị trên khuôn mặt như một trong những nhận thức và lĩnh vực nghiên cứu tình cảm. Nghiên cứu FER đã sản xuất một số mô hình và cơ sở dữ liệu FER khác nhau cùng với chú thích.
2.2.1. Đọc nhãn đơn - MULTICLASS
Các nghiên cứu ban đầu về khía cạnh nhận thức và tình cảm của con người tầm nhìn máy tính đã giới thiệu sáu lớp cơ bản của cảm xúc. Phân loại một thể hiện của hình ảnh biểu cảm khuôn mặt vào bất kỳ trạng thái cảm xúc cơ bản nào trong số sáu trạng thái cảm xúc cơ bản được xác định là một nhiệm vụ đa lớp và được gọi là đọc nhãn đơn.
Hình 2.1 minh họa cách SLL chỉ báo cáo một cảm xúc trong tất cả các kết quả có thể xảy ra. Các phương pháp thực hiện các nhiệm vụ đa lớp biểu hiện trên khuôn mặt được trình bày đáng kể trong tài liệu FER này phương pháp xoay quanh máy thủ công. Phạm vi của FER như một nhiệm vụ nhiều lớp trải rộng nhận biết cảm xúc trong các môi trường khác nhau như:
(1) Môi trường tĩnh
(2) Môi trường năng động và thời gian (3) Trong tự nhiên
Một số hứa hẹn các buổi biểu diễn đã được báo cáo trong tài liệu. Mặc dù phương pháp SLL tiếp cận để đạt được thành tích của FER, đơn giản hóa việc chỉ định một.
Hình 2.1. Các xu hướng nghiên cứu chính trong FER.
- AU là viết tắt của Action Unit - S / C cho AU đơn hoặc com pound,
- S / C EMO cho cảm xúc đơn hoặc phức hợp, - EMO REG cho Nhận dạng cảm xúc,
- MCL cho Học nhiều lớp, MLL choHọc đa nhãn, - LDL để học phân phối nhãn,
- INT EST để ước tính cường độ, - AU INT để ước tính cường độ AU,
- EMO INT để ước tính cường độ cảm xúc cảm xúc đơn lẻ đối với một thể hiện biểu thức giới hạn ứng dụng của nó trong thế giới thực.
- SLL không giải thích được sự mâu thuẫn và không rõ ràng trong chú thích dữ liệu FER và không cung cấp thông tin về cường độ của những cảm xúc có thể có trong một biểu hiện ví dụ.
2.2.2. Nhận biết biểu diễn mặt và mức độ ước
Ước tính cường độ biểu hiện trên khuôn mặt có thể được gọi là sự khác biệt có thể quan sát được giữa các hình ảnh biểu hiện trên khuôn mặt của cùng một biểu hiện hoặc mức độ khác nhau của biểu hiện trên khuôn mặt hình ảnh từ cơ sở tham chiếu của nó. Một trong những phân tích nét mặt nhiệm vụ là ước tính cường độ biểu hiện trên khuôn mặt; cường độ biểu hiện được ước tính theo định lượng cảm xúc và AUs. Hình 2.2 là mẫu cường độ biểu hiện từ dữ liệu trình tự (Hình 2.2A) và dữ liệu tĩnh (Hình 2.2B). Một số phương pháp ước tính cường độ FER đã được khám phá trong lĩnh vực này. Khairunmi đã nhóm những các phương thức thành; dựa trên khoảng cách, dựa trên cụm, dựa trên hồi quy và dựa trên đồ họa xác suất.
Hình 2.2. Mẫu cảm xúc.
Mẫu A là chiết xuất BU-3DFE (Giận dữ, Hạnh phúc) cho biết cường độ hiển thị với các chỉ số thứ tự (thấp, bình thường, cao và Very_high).
Mẫu nhãn B là phần chiết xuất từ CK + (Chúc mừng, Ngạc nhiên) cường độ hiển thị tăng từ BẬT lên ĐỈNH.
Verma và cộng sự cách tiếp cận là cường độ cảm xúc dựa trên khoảng cách mô hình ước tính sử dụng phép biến đổi hình dạng để nắm bắt sự hình thành giữa khuôn mặt tiêu bản và khuôn mặt phản ánh cảm xúc. Các biến dạng do sự mở rộng và co rút ở mặt các vùng và ranh giới được định lượng thông qua phép nội suy đàn hồi giữa mặt tiêu bản và mặt biểu cảm. Giá trị vectơ được tạo ra trong phép biến đổi hình dạng được sử dụng để xác định hàm Chênh lệch umetric Vùng (RVD) cung cấp một giá trị số cho mỗi pixel khuôn mặt đại diện cho số lượng cảm xúc hiển thị. Le và Xu [6] ước tính cường độ biểu hiện trên khuôn mặt sử dụng ánh xạ tính năng đẳng áp. Kết quả đa tạp 1D và quỹ đạo đặc điểm khuôn mặt được sử dụng bởi SVM và Cascade Neural Mạng (CNN) để lập mô hình cường độ biểu hiện. Nó yêu cầu rằng điều này phương pháp nên tiến hành đào tạo cho một đối tượng khác nhau. Quan sát cho thấy rằng phương pháp tiếp cận dựa trên khoảng cách đã định lượng cường độ biểu hiện trên khuôn mặt trước khi nhận ra cảm xúc.
Mô hình này không đồng ý với cách con người thể hiện cảm xúc. Quan và cộng sự đề xuất một phương pháp dựa trên cụm để biểu đạt ước tính cường độ.
Phương pháp không giám sát sử dụng thuật toán phân cụm K Means cho các tính năng giống Haar được trích xuất từ tập dữ liệu CK + để nhận bậc K của cường độ biểu thức và áp dụng trình phân loại SVM để phân loại biểu thức. Chỉ cần giống như phương pháp dựa trên khoảng cách, phương pháp này cũng dự đoán cường độ trước lớp biểu thức. Chang và cộng sự biểu thức tiếp cận ước tính cường độ bằng cách xem xét thông tin đặt hàng tương đối có sẵn trong các hình ảnh biểu hiện trên khuôn mặt.
Họ lập luận rằng nó nhiều hơn thích hợp và thuận tiện để sử dụng thứ tự tương đối để phân biệt giữa hai biểu thức hơn là xem xét sự khác biệt tuyệt đối của chúng.
Phương pháp của họ sử dụng một phép biến đổi tán xạ để trích xuất các tính năng bất biến phân biệt, dịch và sử dụng hạt nhân RED SVM với Hàm cơ sở hướng tâm (RBF) để biểu đạt xếp hạng. Phương pháp này chỉ dựa trên hình ảnh đơn lẻ và không xem xét thông tin thời gian có sẵn.
Wu và cộng sự đã xem xét ước tính cường độ biểu thức bằng cách định lượng biến thiên năng lượng của trình tự biểu hiện trên khuôn mặt. Họ được thúc đẩy bởi
khả năng định lượng giá trị năng lượng cho từng trạng thái biểu hiện bằng cách sử dụng các điểm trên khuôn mặt. Mô hình sử dụng HMM để phân biệt các biểu thức và sử dụng thuật toán hồi quy tuyến tính để thu được các đường cong intensity cho mỗi biểu thức. Mô hình sử dụng thông tin thứ tự được phân phối trong trình tự hình ảnh để chú thích cường độ biểu hiện. Mô hình hồi quy vectơ hỗ trợ hoặc ngày (OSVR) được đề xuất có thể tổng quát hóa tốt trong cả môi trường được giám sát và không được giám sát vì OSVR là sự kết hợp của hồi quy vectơ hỗ trợ, là chịu trách nhiệm về các nhãn cường độ trong khung chú thích và thứ tự Hồi quy, đường cơ sở cho thứ tự thời gian cho chuỗi khung và không phải các giá trị cường độ nhãn. HMM được hỗ trợ với việc phát hiện đầu vào cảm xúc của khung hình trong phương pháp và giới hạn phát hiện điểm thay đổi đã cố gắng phân đoạn thời gian. Kết quả cho thấy đề xuất phương pháp hoạt động tốt hơn bất kỳ đồ họa xác suất nào hiện có các phương pháp về độ chính xác và thời gian tính toán.
Coi FER và ước tính cường độ một nhiệm vụ đa nhãn với động cơ một ví dụ của hình ảnh biểu cảm khuôn mặt chứa thông tin về hiển thị cảm xúc và cường độ tương ứng. ML-CNN (Mạng nơ-ron đa nhãn chuyển đổi) sử dụng CNN như một bộ phân loại nhị phân cho mô hình liên quan nhị phân nâng cao. Chúng tôi đã tối ưu hóa mô hình với mạng được đào tạo trước VGG-16 và sử dụng sự mất đảo để giảm thiểu các sai lệch trong lớp và giữa các lớp.
2.2.3. Học tập nhiều nhãn
Các đối số định nghĩa nhiệm vụ FER là một vấn đề Đa nhãn (ML). Hình 2.3B cho thấy đầu ra có thể có của dự đoán đa nhãn. Ví dụ của hình ảnh biểu đạt có thể chứa một hoặc nhiều cảm xúc cơ bản thông tin trong các nhiệm vụ đa nhãn biểu hiện trên khuôn mặt.
Giải pháp của mô hình đã đạt được bởi một chức năng được gọi là Maximum lỗ bản lề ký quỹ. GLMM sau đó đã được cải tiến thành Nhóm thích ứng Hồi quy Lasso để gán một giá trị liên tục cho phân phối của biểu thức có trong một nhóm khác không. GLMM cho thấy nó hiệu suất vượt trội so với một số phương pháp ML hiện có từ thử nghiệm được thực hiện trên s-JAFFE. Li và Deng đã giới thiệu một mô hình
học sâu đa nhãn có tên là Deep Bi-Manifold CNN (DBM-CMM). Mô hình bảo tồn mối quan hệ địa phương của sâu đặc điểm cảm xúc và cấu trúc đa dạng của nhãn cảm xúc đồng thời tìm hiểu tính năng phân biệt của biểu thức đa nhãn.
Việc đào tạo mạng sâu được giám sát bởi tổn thất softmax cross-entropy cùng với tổn thất hai đa tạp do phân biệt đối tượng sự nâng cao. Mô hình này đã học được cách phân phối cảm xúc đúng cách từ dữ liệu RAF-ML và được kết hợp, tổng quát hóa tốt với đa nhãn hiện có dữ liệu thông qua cơ chế thích ứng.
Hình 2.3. Kết quả dự đoán về cảm xúc.
ML-CNN dự đoán đồng thời về cảm xúc với cường độ liên quan của bộ dữ liệu thử nghiệm BU-3DFE và CK +. A và B là các mẫu dự đoán đúng và C là các mẫu trong đó một về cảm xúc hoặc cường độ được dự đoán không chính xác.