Đặc trưng không gian – thời gian quan tâm đến 1 loạt khung hình trong 1 cửa sổ thời gian như một thực thể duy nhất, và cho phép mô hình hóa sựthay đổi theo thời gian để biểu diễn đặc trưng chi tiết, hiệu quả hơn. Đặc trưng này có thể phân biệt các biểu hiện trông giống nhau trong không gian (ví dụ như nhắm mắt so với nhấp nháy mắt [53] [54]), và thuận tiện cho kết hợp kiến thức về tâm lý học. Kiến thức miền này liên quan đến cấp cao hơn, chẳng hạn như phân biệt giữa phản xạ tình cảm có điều kiện hoặc không điều kiện hoặc nhận biết hành vi [55].
2.1.2.1 Đặc trưng hình học từ các điểm trên khuôn mặt
Mục đích của đặc trưng này là kết hợp các kiến thức từ khoa học nhận thức để phân tích sự biến đổi theo thời gian và các hoạt động của cơ tương ứng. Nó được sử dụng để nhận dạng nụ cười và sự thay đổi trên trán [56]. Đặc trưng này mô tả hình dạng khuôn mặt và hoạt động của các điểm mặt [57]. Các đặc điểm như: vị trí ban đầu (thô) của mỗi điểm, chiều dài và góc của các đường là đặc trưng để nhận dạng. Các đặc trưng này được thu thập theo thời gian. Cửa sổ thời gian được điều chỉnh theo tỉ lệ khung hình như phát hiện của khoa học nhận thức về hoạt động của cơ mặt [57]. Đặc trưng này nhạy cảm với lỗi đăng ký bời vì nó được rút trích từ tọa độ các điểm thô. Mặc dù, đặc trưng này miêu tả sự thay đổi theo thời gian, nhưng nó không nắm bắt được biểu hiện chi tiết vì nó chỉ sử dụng các điểm mặt.
17
Hình 2.8: Đặc trưng không gian-thời gian sử dụng đặc trưng hình học từ các điểm mặt [29].
2.1.2.2 Đặc trưng cấp thấp từ mặt phẳng trực giao
Rút trích đặc trưng từ 3 mặt phẳng trực quan (TOP) là một cách tiếp cận phổ biến để mở rộng các đặc trưng không gian cấp thấp vào miền không gian thời gian (Hình 2.9).
Hình 2.9: Đặc trưng không gian thời-gian (a) LBP-TOP và (b) LPQ-TOP [29]. Phương pháp này là mở rộng từ LBP sang LBP-TOP [58]. LBP-TOP được áp dụng cho nhận diện cảm xúc cơ bản [58] (Hình 2.9 a). Sau phương pháp này, LPQ được mở rộng đến LPQ-TOP được sử dụng cho nhận dạng hành động khuôn mặc và phân đoạn thời gian [59] (Hình 2.9 b).
18
Như minh họa trong hình 2.9, mô hình TOP chiết xuất đặc trưng từ các điểm lân cận trong 3 mặt phẳng sau: mặt phẳng không gian (x,y) tương tự như LBP thường, mặt phẳng dọc theo không gian và thời gian (y,t) và mặt phẳng ngang theo không gian và thời gian (x,t). Tương tự như đặc trưng hình học, phương pháp này sẽ rút trích đặc trưng dạng vector cho từng vùng nhỏ của khuôn mặt (theo không gian – thời gian).
LBP-TOP và LPQ-TOP kế thừa tính bền vững của chúng đối với các biến đổi chiếu sáng, tuy nhiên chúng nhạy cảm hơn đối với các lỗi đăng ký. Sự thay đổi kết cấu của chúng gây ra bởi chuyển động trên khuôn mặt. Do đó, có thể giải thích các lỗi đăng ký tạm thời như hoạt động trên khuôn mặt. Chiều của đặc trưng biểu diễn này cao hơn so với đặc trưng tĩnh của chúng. Cả 2 đặc trưng được tập trung vào việc nhận dạng hành động của khuôn mặt.
2.1.2.3 Đặc trưng dựa vào tích chập với bộ lọc làm trơn
Một phương pháp để biểu diễn sự biến thiên theo thời gian trong kết cấu của đặc trưng cấp thấp là tích chập với bộ lọc làm trơn theo không gian và thời gian (hình 2.10).
Hình 2.10: Bộ lọc làm trơn IC [29].
Hai cách tiếp cận như vậy là sử dụng bộ lọc Gabor theo không gian - thời gian [60] và bộ lọc thành phần độc lập theo không gian – thời gian (IC) [61]. Sự khác biệt chính giữa bộ lọc Gabor và IC là các tham số của bộ lọc Gabor được điều chỉnh bằng tay [60], trong khi bộ lọc IC thu được tự động trong quá trình phân tích thành phần độc lập có giám sát [61]. Cả hai phương pháp đều bao gồm các bộ lọc với các cửa sổ thời gian khác nhau. Hướng tiếp cận này không nhạy cảm với sự thay đổi chiếu sáng. Tuy nhiên bộ lọc
19
Gabor và IC theo không gian và thời gian nhạy cảm hơn với các lỗi đăng ký. Các chi phí tính toán của hai phương pháp rất cao vì chúng thực hiện tích chập trên ba chiều với nhiều bộ lọc khác nhau (ví dụ 240 bộ lọc [61], [60]). Đặc trưng Gabor và IC được sử dụng để nhận biết cảm xúc cơ bản. Bộ lọc Gabor không gian-thời gian làm tốt hơn so với các phương pháp khác cùng hướng tiếp cận [60].
2.1.2.4 Đặc trưng Haar theo không gian-thời gian
Hai biểu diễn mà sử dụng tốt đặc trưng Haar cho biểu diễn không gian - thời gian là đặc trưng Haar động [62] và đặc trưng tương tự [63], [64].
Như minh họa trong Hình 2-11a, mỗi đặc trưng Haar mã hóa sự biến đổi theo thời gian trong dãy hình ảnh với mẫu các giá trị nhị phân, ở đây mỗi giá trị nhị phân thu được bởi ngưỡng đầu ra của đặc trưng Haar trong khung hình tương ứng. Cửa sổ thời gian của tất cảcác tính năng thì được cốđịnh và xác định từ thực nghiệm. Các chiều của tập hợp tất cả các tính năng Haar là rất lớn (vd: 160,000). Vì thế, biểu đồ lựa chọn đặc trưng là cần thiết cho việc giảm số chiều [64], [65]. Đặc trưng Haar là nhạy cảm tới sự chiếu sáng và lỗi đăng ký. Độ nhạy phụ thuộc thuật toán chọn đặc trưng và bộ dữ liệu huấn luyện.
Hình 2.11: Đặc trưng Haar động (a), và đặc trưng tương tự (b) [29].
Đặc trưng biểu diễn tương tự ( Hình 2.11 b) lấy cảm hứng từ phương pháp hạt nhân được sử dụng trong máy học [50], trong đó dự đoán đầu ra bằng trung bình các mẫu huấn
20
luyện. Đặc trưng tương tựđơn giản được rút trích như sau: 1) Áp dụng bộ lọc Haar cho mỗi khung của một chuỗi ảnh, 2) đầu ra của mỗi khung được mã hoá thành một vector thông qua hàm tương tự mà nó đo độ giống nhau giữa đầu ra của hàm Haar và các mẫu tham khảo ( Hình 2.11 b). Biểu đồ mật độ mã hóa toàn bọ vector đầu ra của chuỗi ảnh. Kích thước của biểu đồ mật độ độc lập với kích thước chuổi ảnh. Các biểu diễn được thiết kế để phù hợp với độ phân giải thời gian khác nhau. Điều này đạt được bằng cách chuẩn hóa biểu đồ mật độ với kích thước chuỗi ảnh. Các tính năng không gian Haar có thể được xử lý theo thời gian thực [65], do đó tùy thuộc vào số lượng các đặc trưng được lựa chọn và cửa sổ thời gian, đặc trưng năng lượng Haar cũng có thểđạt tốc độ thời gian thực.
2.1.2.5 Biểu diễn đặc trưng biến dạng dạng tự do
Hình 2.12: Biểu diễn biến đổi tự do [29].
Biểu diễn đặc trưng biến dạng dạng tự do [35] là một kỹ thuật đăng ký quan trọng mà nó tính toán sự dịch chuyển thời gian và không gian pixel (Hình 2.12). Biểu diễn đặc trưng này được sử dụng trong nhận dạng hành động với phân đoạn thời gian. Không giống các hướng tiếp cận rút trích đặc trưng từ các tiểu vùng đồng nhất, sự phân chia này thể hiện các khối lượng thành tiểu vùng không thống nhất thông qua phân rã bậc bốn [35]. Phân vùng này nhấn mạnh các vùng có hoạt động cao trên khuôn mặt bằng cách cho nó số lượng hơn các vùng còn vùng nhỏ hơn. Biểu diễn này thu được bằng cách rút trích tập hợp các đặc trưng không gian và thời gian. Các tính năng này được trích xuất độc lập cho mỗi tiểu vùng, do đó chúng có thể được xem như là một hình thức tổng hợp làm cho biểu diễn mạnh mẽ chống lại các lỗi đăng ký nhỏ.
21
Các đặc trưng không gian thời gian cần có sự nhất quán về đăng ký thời gian. Biểu diễn biến dạng hình thức tự do thỏa mãn sự nhất quán thời gian với sự biến dạng bên trong bản thân của nó. Tuy nhiên, hình thức biến dạng tự do giảđịnh rằng các biến thể của chủ thể bị giới hạn trong suốt chuỗi ảnh [35]. Ngoài ra, hình thức biến dạng tự do hoạt động với cường độ điểm ảnh thô, do đó các biến đổi độ sáng có thể là vấn đề. Các tính năng như biểu đồ mật độ hướng hoặc chuyển động trung bình rất mạnh mẽ đối với các lỗi đăng kí đến một mức độ. Các đặc trưng này biểu diễn đơn giản, tuy nhiên, hình thức biến dạng tự do được tính qua một quá trình lặp có thể giữ cho biểu diễn đạt được tốc độ xử lý thời gian thực.
2.1.2.6 Biểu diễn đặc trưng túi từ BoW theo thời gian
Các biểu diễn thời gian BoW là cụ thể để phát hiện hành động (AU) [66] và có thể được giải thích tốt nhất bằng cách mô tả vấn đềđược được xây dựng bởi tác giả của nó như thế nào. Simon và cộng sự giả sử rằng một AU là một sự kiện tồn tại trong một trình tựảnh nhất định. Vấn đềnày sau đó được xây dựng như là xác định ranh giới của sự kiện AU hiện có. Cách tiếp cận này cũng được khái quát hóa cho nhiều AU [66].
Hình 2.13: Đặc trưng BoW theo thời gian [29].
Thời gian BoW biểu diễn cho một tập con tùy ý của chuỗi hình ảnh với một biểu đồ duy nhất được tính như hình 2.13: 1) Mỗi khung trong tập hợp con được biểu diễn bằng đặc trưng SIFT và được nén với các phép phân tích thành phần chính để có được một vector khung, 2) Mỗi vector khung được mã hóa bằng cách sử dụng mô hình BoW để đo
22
lường sựtương tự bằng các vector đa điểm thông qua phân nhóm mềm [66] và 3) Tất cả các vector đã mã hóa được thu thập trong một biểu đồ mật độ.
Độ nhạy của biễu diễn đối với các ảnh hưởng ánh sáng, lỗi đăng ký, sự thay đổi tư thế đầu tương tự như các biểu diễn SIFT. Không giống như biểu diễn dựa trên phần (SIFT), thời gian BoW không mã hóa thông tin thành phần một cách rõ ràng. Không giống như các biểu diễn đặc trưng không gian thời gian khác, đặc trung BoW theo thời gian không mã hóa biến đổi thời gian. Kích thước phụ thuộc vào kích thước của từ vựng BoW. Sự phức tạp tính toán của biểu diễn chủ yếu phụ thuộc vào việc tìm kiếm được thực hiện trên từ vựng trực quan, đặc biệt là kích thước của từ vựng và sự phức tạp của thuật toán tìm kiếm.