2.4.1 Nhận diện khuôn mặt
Tất cả các khuôn mặt trong khung hình ảnh / video được phát hiện bằng hệ thống dị khn mặt dựa trên mạng nơ ron tích chập sâu (Deep Convolutional Neural Network – DCNN), được gọi là Mơ hình tháp sâu để phát hiện khuôn mặt (Deep Pyramid Deformable Parts Model for Face Detection - DP2MFD) [38], bao gồm hai mô-đun. Mơ- đun đầu tiên tạo ra một hình tháp sâu được chuẩn hóa bảy cấp cho bất kỳ hình ảnh đầu vào nào có kích thước tùy ý, như đã minh họa trong hình ảnh 2.3. Kiến trúc mạng nơ ron tích chập tương tự như Alexnet, được sử dụng để trích xuất các tính năng sâu. Mạng hình tháp này tạo ra một tháp gồm 256 bản đồ đặc trưng ở lớp tích chập thứ 5 (conv5). Bộ lọc được áp dụng để có được lớp max5. Thơng thường, cường độ kích hoạt cho một vùng khn mặt giảm theo kích thước của cấp độ của tháp. Do đó, một khn mặt lớn được phát hiện bởi cửa sổ trượt có kích thước cố đinh ở cấp độ tháp thấp hơn sẽ có điểm phát hiện cao so với khn mặt nhỏ được phát hiện ở cấp độ tháp cao hơn. Để giảm độ lệch này cho kích thước khn mặt, hệ thống áp dụng bước chuẩn hóa điểm z trên các tính năng max5 ở mỗi cấp. Đối với vectơ đặc trưng 256 chiều ở cấp tháp i và vị trí (j, k), tính năng chuẩn hóa được tính như sau:
Trong đó, là vectơ đặc trưng trung bình và là độ lệch chuẩn cho cấp độ tháp
i. Các tính năng max5 được chuẩn hóa là . Sau đó, các tính năng có độ dài từ mỗi
vị trí trong tháp được trích xuất bằng cách sử dụng phương pháp cửa sổ trượt. Mơ-đun thứ hai là một SVM tuyến tính (linear SVM), lấy các tính năng này làm đầu vào để phân loại từng vị trí là mặt, hoặc khơng phải là mặt, dựa trên điểm được tính tốn. Mơ hình tháp sâu
để phát hiện khn mặt - DP2MFD có khả năng nhận diện rất tốt trên các độ sáng ảnh khác nhau, cũng như kích cỡ khn mặt. Chúng ta có thể thấy thơng qua ví dụ sau:
Hình 2.6: Kết quả phát hiện mẫu trên ảnh IJB-A bằng phương pháp tháp sâu
2.4.2 Phát hiện các điểm quan trọng trên khuôn mặt
Khi các khuôn mặt được phát hiện, thuật toán thực hiện phát hiện các điểm quan trọng để căn chỉnh khn mặt. Thuật tốn sẽ tìm cách khơi phục mặt về hình dáng mặc định ban đầu: gọi khn mặt là I, hình dạng ban đầu là S0, thuật tốn sẽ tính tốn mức tăng hình dạng ∆S từ các mơ tả sâu (deep descriptors) và cập nhật bằng công thức sau:
Các tính năng CNN (được biểu thị là Φ trong công thức trên) được thiết kế với bước nhảy và cách gộp hợp lý, được sử dụng làm các tính năng để thực hiện tính tốn. Ở đây, kiến trúc CNN được sử dụng tương tự như Alexnet với các trọng số được xử lý trước cho bộ dữ liệu ImageNet như trong hình sau:
Hình 2.7: Kiến trúc DCNN được sử dụng để trích xuất các mơ tả cục bộ cho nhiệm vụ phát hiện các điểm mốc trên khn mặt
Vì mục tiêu mạng CNN này là phát hiện khuôn mặt. Do đó, mạng sẽ được căn chỉnh để xử lý dữ liệu khuôn mặt tốt hơn. Các dữ liệu đầu ra ở từng tầng sẽ là dữ liệu đầu vào ở tầng tiếp theo. Trong hình trên, chúng ta có thể thấy có 5 tầng. Sau khi hồn thành
phát hiện các mốc, khn mặt sẽ được căn chỉnh theo tọa độ bằng cách sử dụng phép biến đổi và các điểm mốc.
Điều này giúp mạng tìm hiểu các đặc điểm cụ thể đối với khuôn mặt. Hơn nữa, mạng áp dụng hồi quy theo tầng, trong đó đầu ra được tạo bởi giai đoạn đầu tiên sẽ được sử dụng làm đầu vào cho giai đoạn tiếp theo, tổng là năm giai đoạn tích chập được áp dụng trong hệ thống. Các bộ lọc được chọn để trích xuất tính năng được tinh chỉnh trong các giai đoạn sau để cải thiện việc chuẩn hóa các mốc trên khn mặt. Sau khi hồn thành phát hiện các mốc trên khuôn mặt, mỗi khn mặt được căn chỉnh theo tọa độ chính tắc bằng cách sử dụng biến đổi tương tự và các điểm mốc.
Hình 2.8: Ví dụ về các điểm mốc trên khn mặt
2.4.3 Liên kết khn mặt
Vì có nhiều đối tượng xuất hiện trong các khung hình của video, nên việc thực hiện liên kết khuôn mặt để gán từng khuôn mặt cho đối tượng tương ứng là một bước quan trọng để chọn đúng đối tượng khi xác minh khn mặt. Do đó, khi một khn mặt trong khung hình của video được phát hiện, hệ thống theo dõi khuôn mặt bằng cách tích hợp các kết quả từ trình phát hiện khn mặt, trình theo dõi khn mặt và bước liên kết khuôn mặt.
Hệ thống áp dụng thuật toán nhận diện khuôn mặt trong mọi khung hình bằng phương pháp nhận diện khn mặt được trình bày trong phần trước. Vùng phát hiện khuôn mặt được coi như một khn mặt mới nếu khơng có tỷ lệ trùng lặp với bất kỳ vùng phát hiện nào trong các khung hình trước. Tỷ lệ trùng lặp của một vùng phát hiện được phát hiện và vùng phát hiện trong khung hình trước được xác định là:
Qua thực nghiệm, ngưỡng 0,2 là đủ để coi như xuất hiện khuôn mặt mới, do các khung hình của video cách nhau chỉ một phần nhỏ của giây. Để theo dõi khuôn mặt, các nhà khoa học sử dụng giải thuật Kanade-Lucas-Tomasi (KLT) để theo dõi các khn mặt giữa hai khung hình liên tiếp. Hệ thống cập nhật các vùng phát hiện trong quá trình theo dõi dựa vào khung hình mới nhất. Vùng phát hiện sẽ thay thế cho vùng phát hiện nếu nhỏ hơn ngưỡng (0,2). Quá trình theo dõi khn mặt sẽ bị chấm dứt nếu khơng có phát hiện khn mặt tương ứng chồng chéo với nó cho nhiều hơn khung hình.
Hệ thống thường đặt giới hạn bằng 4 khung hình, dựa trên cơ sở thực nghiệm. Hình ảnh kết quả của phương pháp liên kết khuôn mặt cho các video của JANUS CS2:
Hình 2.9: Kết quả mẫu của phương pháp liên kết khuôn mặt cho các video của JANUS CS2, là bộ dữ liệu mở rộng của IJB-A