Tư tưởng chung của phương pháp này là tìm cách loại bỏ nhanh chóng phần lớn những cửa sổ quét không chứa khuôn mặt mà vẫn giữ được tất cả (hoặc gần như toàn bộ) những khuôn mặt có trong ảnh.
Để làm được điều này, những tầng đầu tiên chỉ gồm một số những chi tiết đặc trưng nhất, cho phép đạt tỷ lệ phát hiện đúng xấp xỉ 100% với tỷ lệ phát hiện sai khoảng 40%. Những tầng ở phía trên sẽ ngày càng chi tiết để có thể phân lớp đựợc những ví dụ khó nhất. Cửa sổ quét cần phân lớp sẽ lần lượt đi qua từng tầng. Ở mỗi tầng, nếu bộ phân lớp ứng với tầng đó quyết định ảnh đầu vào không phải là khuôn mặt thì cửa sổ quét sẽ bị loại bỏ, chỉ khi được coi là khuôn mặt thì cửa sổ quét mới tiếp tục được chuyển cho tầng tiếp theo để phân lớp tiếp.
Huấn luyện bộ phân lớp xếp tầng
Bộ phân lớp xếp tầng đựợc xây dựng bằng cách huấn luyện lần lượt những bộ phân lớp mạnh đơn. Ở những tầng đầu tiên, bộ phân lớp thường chỉ gồm một số những chi tiết đặc trưng nhất. Nhờ vậy, có thể loại bỏ nhanh chóng phần lớn những cửa sổ không chứa khuôn mặt. Sau mỗi tầng, những ảnh mẫu khó đã bị phân lớp sai bởi những tầng trước đó sẽ được sử dụng để huấn luyện cho những tầng tiếp theo.
Bộ phân lớp ở mỗi tầng (đặc biệt là ở những tầng đầu) không cần phải quá phức tạp để có thể tiết kiệm được thời gian tính toán. Điều này cũng có nghĩa phải chấp nhận tỷ lệ phát hiện sai cao.
Có hai chiến lược chính để giới hạn số chi tiết trong mỗi bộ phân lớp.
Chiến lược 1: việc huấn luyện mỗi bộ phân lớp sẽ dừng lại khi đạt đến một tỷ lệ phát hiện đúng định trước (khoảng 99.9%) và tỷ lệ phát hiện sai dưới một ngưỡng nào đó. Nội dung thuật toán được minh họa trong hình.
Chiến lược 2: số chi tiết ở mỗi tầng được cố định trước. Việc huấn luyện bộ phân lớp một tầng sẽ dừng lại khi kết hợp được một số lượng những bộ phân lớp yếu định trước. Khi đó, nếu yêu cầu chung của bộ phân lớp xếp tầng chưa được thỏa mãn, tầng tiếp theo sẽ tiếp tục được huấn luyện.
Giải thuật huấn luyện bộ phân lớp xếp tầng