Vì có nhiều đối tượng xuất hiện trong các khung hình của video, nên việc thực hiện liên kết khuôn mặt để gán từng khuôn mặt cho đối tượng tương ứng là một bước quan trọng để chọn đúng đối tượng khi xác minh khuôn mặt. Do đó, khi một khuôn mặt trong khung hình của video được phát hiện, hệ thống theo dõi khuôn mặt bằng cách tích hợp các kết quả từ trình phát hiện khuôn mặt, trình theo dõi khuôn mặt và bước liên kết khuôn mặt.
Hệ thống áp dụng thuật toán nhận diện khuôn mặt trong mọi khung hình bằng phương pháp nhận diện khuôn mặt được trình bày trong phần trước. Vùng phát hiện khuôn mặt được coi như một khuôn mặt mới nếu không có tỷ lệ trùng lặp với bất kỳ vùng phát hiện nào trong các khung hình trước. Tỷ lệ trùng lặp của một vùng phát hiện được phát hiện và vùng phát hiện trong khung hình trước được xác định là:
3
Qua thực nghiệm, ngưỡng 0,2 là đủ để coi như xuất hiện khuôn mặt mới, do các khung hình của video cách nhau chỉ một phần nhỏ của giây. Để theo dõi khuôn mặt, các nhà khoa học sử dụng giải thuật Kanade-Lucas-Tomasi (KLT) để theo dõi các khuôn mặt giữa hai khung hình liên tiếp. Hệ thống cập nhật các vùng phát hiện trong quá trình theo dõi dựa vào khung hình mới nhất. Vùng phát hiện sẽ thay thế cho vùng phát hiện nếu nhỏ hơn ngưỡng (0,2). Quá trình theo dõi khuôn mặt sẽ bị chấm dứt nếu không có phát hiện khuôn mặt tương ứng chồng chéo với nó cho nhiều hơn khung hình. Hệ thống thường đặt giới hạn bằng 4 khung hình, dựa trên cơ sở thực nghiệm. Hình ảnh kết quả của phương pháp liên kết khuôn mặt cho các video của JANUS CS2:
Hình 2.9: Kết quả mẫu của phương pháp liên kết khuôn mặt cho các video của JANUS CS2, là bộ dữ liệu mở rộng của IJB-A