Nhận diện khuôn mặt

Tất cả các khuôn mặt trong khung hình ảnh / video được phát hiện bằng hệ thống dò khuôn mặt dựa trên mạng nơ ron tích chập sâu (Deep Convolutional Neural Network – DCNN), được gọi là Mô hình tháp sâu để phát hiện khuôn mặt (Deep Pyramid Deformable Parts Model for Face Detection - DP2MFD) [38], bao gồm hai mô-đun. Mô- đun đầu tiên tạo ra một hình tháp sâu được chuẩn hóa bảy cấp cho bất kỳ hình ảnh đầu vào nào có kích thước tùy ý, như đã minh họa trong hình ảnh 2.3. Kiến trúc mạng nơ ron tích chập tương tự như Alexnet, được sử dụng để trích xuất các tính năng sâu. Mạng hình tháp này tạo ra một tháp gồm 256 bản đồ đặc trưng ở lớp tích chập thứ 5 (conv5). Bộ lọc

được áp dụng để có được lớp max5. Thông thường, cường độ kích hoạt cho một vùng khuôn mặt giảm theo kích thước của cấp độ của tháp. Do đó, một khuôn mặt lớn được phát hiện bởi cửa sổ trượt có kích thước cố đinh ở cấp độ tháp thấp hơn sẽ có điểm phát hiện cao so với khuôn mặt nhỏ được phát hiện ở cấp độ tháp cao hơn. Để giảm độ lệch này cho kích thước khuôn mặt, hệ thống áp dụng bước chuẩn hóa điểm z trên các tính năng max5 ở mỗi cấp. Đối với vectơ đặc trưng 256 chiều ở cấp tháp i và vị trí (j, k), tính năng chuẩn hóa được tính như sau:

Trong đó, là vectơ đặc trưng trung bình và là độ lệch chuẩn cho cấp độ tháp

i. Các tính năng max5 được chuẩn hóa là . Sau đó, các tính năng có độ dài từ mỗi vị trí trong tháp được trích xuất bằng cách sử dụng phương pháp cửa sổ trượt. Mô-đun thứ hai là một SVM tuyến tính (linear SVM), lấy các tính năng này làm đầu vào để phân loại từng vị trí là mặt, hoặc không phải là mặt, dựa trên điểm được tính toán. Mô hình tháp sâu

để phát hiện khuôn mặt - DP2MFD có khả năng nhận diện rất tốt trên các độ sáng ảnh khác nhau, cũng như kích cỡ khuôn mặt. Chúng ta có thể thấy thông qua ví dụ sau:

Hình 2.6: Kết quả phát hiện mẫu trên ảnh IJB-A bằng phương pháp tháp sâu

Giới thiệu mạng nơron nhân tạo

Mạng nơron lan truyền ngược