2.4 Phương pháp nhận dạng đối tượng từ ảnh chụp của camera
2.4.1 Nhận diện khuôn mặt
Tất cả các khn mặt trong khung hình ảnh / video được phát hiện bằng hệ thống dị khn mặt dựa trên mạng nơ ron tích chập sâu (Deep Convolutional Neural Network – DCNN), được gọi là Mơ hình tháp sâu để phát hiện khuôn mặt (Deep Pyramid Deformable Parts Model for Face Detection - DP2MFD) [38], bao gồm hai mơ-đun. Mơ- đun đầu tiên tạo ra một hình tháp sâu được chuẩn hóa bảy cấp cho bất kỳ hình ảnh đầu vào nào có kích thước tùy ý, như đã minh họa trong hình ảnh 2.3. Kiến trúc mạng nơ ron tích chập tương tự như Alexnet, được sử dụng để trích xuất các tính năng sâu. Mạng hình tháp này tạo ra một tháp gồm 256 bản đồ đặc trưng ở lớp tích chập thứ 5 (conv5). Bộ lọc được áp dụng để có được lớp max5. Thơng thường, cường độ kích hoạt cho một vùng khn mặt giảm theo kích thước của cấp độ của tháp. Do đó, một khn mặt lớn được phát hiện bởi cửa sổ trượt có kích thước cố đinh ở cấp độ tháp thấp hơn sẽ có điểm phát hiện cao so với khuôn mặt nhỏ được phát hiện ở cấp độ tháp cao hơn. Để giảm độ lệch này cho kích thước khn mặt, hệ thống áp dụng bước chuẩn hóa điểm z trên các tính năng max5 ở mỗi cấp. Đối với vectơ đặc trưng 256 chiều ở cấp tháp i và vị trí (j, k), tính năng chuẩn hóa được tính như sau:
Trong đó, là vectơ đặc trưng trung bình và là độ lệch chuẩn cho cấp độ tháp
i. Các tính năng max5 được chuẩn hóa là . Sau đó, các tính năng có độ dài từ mỗi
vị trí trong tháp được trích xuất bằng cách sử dụng phương pháp cửa sổ trượt. Mơ-đun thứ hai là một SVM tuyến tính (linear SVM), lấy các tính năng này làm đầu vào để phân loại từng vị trí là mặt, hoặc khơng phải là mặt, dựa trên điểm được tính tốn. Mơ hình tháp sâu
để phát hiện khn mặt - DP2MFD có khả năng nhận diện rất tốt trên các độ sáng ảnh khác nhau, cũng như kích cỡ khn mặt. Chúng ta có thể thấy thơng qua ví dụ sau: