Hoạt động của bộ phát hiện một tư thế khuôn mặt

Một phần của tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video (Trang 60 - 62)

Khi đƣa một ảnh vào phát hiện, bộ phát hiện sẽ phải xét tất cả các vùng ảnh với kích thƣớc khác nhau trích ra đƣợc từ ảnh để có thể đƣa ra kết quả. Kích thƣớc khởi đầu của vùng ảnh sẽ là một cửa sổ bằng với kích thƣớc của mẫu chứa khuôn mặt trong quá trình huấn luyện, ví dụ ảnh khuôn mặt nghiêng trái (từ 60 đến 90 độ) là 32x24. Các cửa sổ này sẽ đƣợc dịch theo chiều ngang và dọc 1 lƣợng từ 1 đến 2 điểm ảnh cho đến khi phủ kín ảnh cần phát hiện. Sau đó, cửa sổ sẽ đƣợc mở ra với tỉ lệ (giá trị này ngƣời dùng đƣợc phép thay đổi khi tiến hành phát hiện) và tiếp tục quá trình duyệt ảnh nhƣ trên cho đến khi cửa sổ đƣợc mở ra bằng kích thƣớc ảnh.

Nhờ có cấu trúc tầng phân loại, các vùng ảnh không liên quan bị loại nhanh từ những tầng đầu tiên.

59

Hình 27 Các vùng không liên quan sẽ bị loại ngay từ những tầng đầu tiên

Trong quá trình trích vùng ảnh, sẽ có các vùng có vị trí và kích thƣớc tƣơng tự nhau. Các vùng này có thể đều đƣợc bộ phát hiện trả về cho là có khuôn mặt, khiến cho 1 tƣ thế khuôn mặt đƣợc phát hiện nhiều hơn một lần.

Hình 28 Khắc phục trường hợp nhiều vùng ảnh kế cận nhau bằng cách lấy vùng ảnh trung bình

Để khắc phục điều này, trên các vùng ảnh đƣợc bộ phát hiện đánh giá là khuôn mặt, hệ thống sẽ tìm và nhóm các vùng ảnh tƣơng tự nhau bằng cách thay chúng bằng 1 vùng ảnh duy nhất có đƣợc bằng cách lấy trung bình của các vùng ảnh này.

Qua thực nghiệm, ta thấy số lƣợng vùng ảnh tƣơng tự nhau cũng có tác dụng trong việc điều chỉnh giữa tỉ lệ phát hiện đúng nhỏ nhất và tỉ lệ phát hiện sai. Do tỉ lệ

60

phát hiện không phải 100% nên khi tiến hành phát hiện khuôn mặt, có thể có vài mẫu nền sẽ bị nhầm là khuôn mặt. Trong khi khuôn mặt trong hình đƣa vào luôn có nhiều hơn 1 vùng ảnh chứa nó đƣợc bộ phát hiện đánh giá là khuôn mặt, các mẫu không phải đối tƣợng bị phát hiện sai thƣờng nằm tách biệt. Do đó, hệ thống phát hiện khuôn mặt sử dụng khái niệm „„láng giềng tối thiểu‟‟ (min neighbor), tức là số vùng tƣơng tự nhau tối thiểu phải có để một vùng ảnh có thể đƣợc phân loại là khuôn mặt. Giá trị này đƣợc ngƣời dùng xác lập khi tiến hành phát hiện. Trong hình 28, với „„ láng giềng tối thiểu‟‟ là 2, vùng ảnh cửa sổ trên tƣờng sẽ bị loại, tức là giảm false alarm. Tuy nhiên, cần phải thận trọng trong việc sử dụng „„láng giềng tối thiểu‟‟, vì nếu chỉnh láng „„láng giềng tối thiểu‟‟ quá lớn, có thể làm giảm luôn cả tỉ lệ phát hiện đúng. Rõ ràng với hình 28 nếu xác lập „„láng giềng tối thiểu‟‟ là 3 thì không chỉ có vùng nền mà cả khuôn mặt cũng bị loại vì nó chỉ có 2 vùng ảnh. Với các bộ phát hiện khuôn mặt xây dựng thì giá trị „„láng giềng tối thiểu‟‟ là 5 cho kết quả tốt nhất.

Bên cạnh đó, có thể trong việc phát hiện còn tồn tại vấn đề các vùng ảnh lồng vào nhau.

Hình 29 Vùng ảnh lồng nhau

Đối với các trƣờng hợp này, chƣơng trình chỉ cần đơn giản là loại bỏ tất cả các vùng ảnh ở bên trong, chỉ giữ lại vùng ảnh ngoài.

Một phần của tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video (Trang 60 - 62)

Tải bản đầy đủ (PDF)

(75 trang)