Có nhiều hướng tiếp cận khác nhau để gom nhóm các mặt thành face-track. Ví dụ, Sivic et al. theo vết mọi vùng khuôn mặt và liên kết chúng để gom nhóm [26]. Phương pháp này chính xác nhưng đòi hỏi chi phí tính toán cao. Để giảm chi phí tính toán trong khi vẫn duy trì được độ chính xác, trong phương pháp do Everingham et al. đề xuất [7], nhóm tác giả sử dụng các điểm theo vết (tracked point) thu được từ bộ theo vết Kanade-Lucas-Tomasi (KLT). Tuy nhiên, face-track rút trích từ phương pháp này có thể bị phân mảnh vì điểm theo vết rất nhạy cảm với sự thay đổi chiếu sáng, tình trạng che khuất và lỗi phát hiện mặt sai. Ngo et al. [16] đã xử lí thành công những trường hợp này. Tác giả dùng điểm theo vết để gom nhóm các biểu cảm khuôn mặt khác nhau được phát hiện từ một chuỗi video thành face-track. Thay vì phát sinh điểm quan tâm (interest point) tại một khung hình nào đó và theo vết chúng qua nhiều khung hình của chuỗi đầu vào, tác giả tính toán và bù số điểm mất đi do bị che khuất và xuất hiện mặt mới (xem Hình 2.5). Để tránh theo vết sai do thay đổi ánh sáng đột ngột, một bộ phát hiện đèn flash được sử dụng để phát hiện các khung hình bị chói flash rồi loại chúng khỏi quá trình gom nhóm.
Hình 2.5 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới. Khuôn mặt mới xuất hiện trong khung hình giữa.
Phương pháp này đã chứng tỏ khả năng hoạt động mạnh mẽ và hiệu quả thông qua thực nghiệm trên nhiều chuỗi video dài khác nhau, bao gồm 340.844 mặt. Kết quả này (94,17%) vượt trội so với của Everingham et al. (81,19%) [7]. Do đó, luận văn chọn phương pháp của Ngo et al. làm phương tiện rút trích face-track từ video để cung cấp dữ liệu đầu vào cho hệ thống Truy tìm nhân vật được đề xuất.