Có thể nói, vấn đề phát hiện khuôn mặt thực chất là bài toán phân lớp: lớp khuôn mặt và lớp không phải khuôn mặt. Toàn bộ kiến trúc hệ thống phát hiện khuôn mặt trong ảnh màu, tĩnh dựa vào mạng neural và phương phương pháp phân vùng màu da được thể hiện như hình dưới đây.
Hệ thống bao gồm ba module chính.
Modue đầu tiên là module mạng huấn luyện nhận biết khuôn mặt, mạng neural được sử dụng ở đây là mạng MPL (Multi Perception Layer) với thuật toán lan truyền ngược sử dụng phương pháp giảm gradient để giảm lỗi, hàm truyền được sử dụng ở đây là hàm sigmoid. Kết quả của module này sẽ cho ta bộ trọng số của mạng neural, từ bộ trọng số này sẽ giúp ta phân lớp được ảnh đầu vào có phải là khuôn mặt hay không.
Module thứ hai là module huấn luyện phân vùng màu da dựa trên phân phối Gaussian. Kết quả của module sẽ cho ta bộ tham số bao gồm giá trị xác suất nhỏ nhất mà bộ phân vùng học được, vector trung bình và ma trận hiệp phương sai của phân phối. Từ bộ tham số này, với ảnh màu đầu vào, chúng ta có thể tiến hành nhận biết và phân vùng màu da trên ảnh.
Module cuối cùng và là module xử lý trực tiếp phát hiện khuôn mặt. Ảnh đầu vào của module là ảnh màu, ảnh sẽ được tiến hành tiền xử lý. Tiền xử lý ở bước này đóng vai trò rất quan trọng, vì ảnh sẽ được tăng cường độ sáng, cân bằng lược đồ và lọc nhiễu. Quá trình tiền xử lý tốt sẽ giúp cho quá trình phân vùng màu da sau này có hiệu quả cso. Sau khi tiền xử lý, ảnh sẽ được đưa đi theo hai con đường, con đường thứ nhất là đưa vào bộ phân vùng để tiến hành phân vùng màu da, và kết quả của quá trình phân vùng này sẽ cho ta ảnh nhị phân có các vùng màu da đã được phân biệt. Con đường thứ hai là ảnh sẽ được chuyển sang ảnh đa mức xám, sau đó kết hợp với ảnh đã được phân vùng màu da, sẽ trích xuất mọi cửa số có kích thước 25 x 25 pixel trên vùng màu da để đưa vào mạng neural tiến hành phân lớp xem cửa sổ này có phải là khuôn mặt hay không. Tại bước này, ta tiến hành xử lý đa phân giải với tỉ lệ chọn là 1.2 để có thể tìm kiếm được các khuôn mặt tại các kích thước khác nhau.
Có thể thấy trong kiến trúc này, mạng neural gồm ba lớp, lớp đầu vào có 625 đầu ra tương ứng với cửa số kích thước 25 x 25, lớp ẩn có 16 nút ẩn sử dụng kết nối đầy đủ tới 625 nút đầu vào và hai nút đầu ra để phân xử kết quả. Sở dĩ ở đây sử dụng đầu ra có hai nút thay vì một nút thông thương vì trong mô hình này, chúng ta sẽ sử dụng thêm một mô hình xác suất nhỏ để tiến hành phân xử kết quả ra. Việc sử dụng mô hình xác suất ở đây giúp chúng ta có thể tìm kết quả một cách mềm dẻo hơn và tránh được sai số khi thiết kế cài đặt trên máy tính. Mô hình xác suất sẽ được đề cập đến trong phần sau của chương này. Cuối cùng sau quá trình phân xử kết quả, đầu ra của hệ thống sẽ cho ta câu trả lời, ảnh đầu vào có khuôn mặt hay không, nếu có thì có bao nhiêu khuôn mặt và vị trí của từng khuôn mặt ở đâu trong ảnh.