Bước đầu tiên khi xử lý một cửa sổ ảnh đầu vào là áp dụng mạng định tuyến. Đối với mạng này, người ta chỉ sử dụng của sổ dữ liệu vào chỉ chứa một mặt và nó được huấn luyện để đánh giá góc nghiêng của mặt trong cửa sổ đó. Các đầu vào của mạng là các giá trị cường độ trong một cửa sổ ảnh 2020 điểm ảnh (có thể nâng cao chất lượng đầu vào bằng cách cân bằng lược đồ xám chuẩn). Góc quay của đầu ra được biểu diễn bằng một dãy 36 thành phần đầu ra, với mỗi thành phần i là một góc của (/18)*i. Để chỉ ra rằng một mặt tại một góc , mỗi đầu ra được huấn luyện để đạt tới một giá trị của
cos( -(/18)*i).
Trước đây người ta thường xác định góc nghiêng của mặt bằng hướng của 1 vectơ có độ lớn lớn nhất trong 36 vectơ xác định được hay chỉ dựa trên vectơ tổng của một nhóm các vectơ thuộc một vùng có tính chu kỳ. Ở đây, chúng tôi dùng mỗi đầu ra như là một vector trọng số theo hướng được xác định bằng số đầu ra i, và tính toán tổng trọng số bằng công thức:
) ) 10 * sin( * ), 10 * cos( * ( 35 0 35 0 i o i i o i i output i output (3.1)
Kiến trúc cho mạng định tuyến bao gồm 3 lớp, một lớp đầu vào có 400 thành phần, một lớp ẩn có 15 thành phần, và một lớp đầu ra có 36 thành phần. Mỗi lớp có kết nối đầy đủ với lớp tiếp theo. Mỗi thành phần sử dụng một hàm ảnh hưởng theo tiếp tuyến hyperbolic, và mạng được huấn luyện theo thuật toán hồi quy lan truyền ngược chuẩn.
Cấu trúc mạng xác định mặt
Sau khi đã áp dụng mạng định tuyến cho cửa sổ đầu vào, cửa sổ sẽ quay đúng hướng để mặt có thể xem ở hướng thẳng đứng.
Công việc còn lại là quyết định xem cửa sổ có chứa một mặt có hướng thẳng đứng hay không. Ảnh mẫu có kích thước 2020 điểm ảnh được tiền xử lý trong hai bước dưới đây. Đầu tiên, xây dựng một hàm tuyến tính trên cửa sổ để lấy các giá trị cường độ nằm trong một vùng hình ovan nằm trong cửa sổ. Hàm tuyến tính này gần giống như toàn bộ phần sáng nằm trong mỗi phần của cửa sổ, và có thể loại trừ để bù cho các trạng thái khác nhau của điều kiện ánh sáng. Thứ hai, thực hiện cân bằng lược đồ xám để mở rộng vùng cường độ trong cửa sổ. Sau đó cửa sổ đã được tiền xử lý sẽ được sử dụng cho một hoặc nhiều mạng tìm kiếm.
Mạng tìm kiếm có kết nối mạng lưới tới đầu vào của tầng. Các trường tiếp thu của các đơn vị ẩn được chỉ ra trong Hình 3.3, có 3 loại nút ẩn: loại 4 nút xem xét các vùng điểm 1010, loại 16 nút xem xét các vùng điểm 55, và loại 6 nút xem xét các vùng 205 là các đường viền ngang. Mỗi loại được lựa chọn cho phép các nút ẩn xác định các đặc trưng trên mặt là quan trọng cho việc xác định mặt. Trên thực tế, các đường viền ngang cho phép các nút ẩn tìm kiếm các đặc trưng như miệng, hai mắt, trong khi các nút ẩn với các đầu vào là hình vuông cho phép xác định các đặc trưng như từng mắt, mũi, hoặc các khóe miệng.
Mặc dù một nút ẩn đơn cho vùng của mỗi đầu vào, các nút đó có thể được thay thế. Mạng này chỉ có một đầu ra thể hiện trạng thái cửa sổ đó có chứa mặt hay không.
Kết quả đầu ra của các mạng tìm kiếm xấp xỉ +1.0 thì trong ảnh chứa ảnh và –1.0 nếu ngược lại.
Các bộ tìm kiếm có 2 tập ví dụ huấn luyện: ảnh chứa mặt và ảnh không chứa mặt. Các ví dụ đúng được sinh ra trong một kiểu tương tự đã thực hiện cho định tuyến, góc xoay của ảnh huấn luyện bị giới hạn trong khoảng –100 và 100.
Huấn luyện một mạng nơron cho việc tìm kiếm mặt là rất khó vì không dễ dàng mô tả các đặc trưng của ảnh không chứa mặt. Không giống như nhận dạng mặt, chỉ phân biệt các mặt khác nhau, hai lớp phân biệt trong tìm kiếm mặt là ảnh có chứa mặt và ảnh không chứa mặt. Rất dễ để nhận một mẫu mô tả cho ảnh chứa mặt, nhưng rất khó để tìm ra mẫu mô tả ảnh không chứa mặt. Thay vì thu thập các ảnh trước khi bắt đầu huấn luyện, các ảnh không chứa mặt được thu thập trong suốt quá trình huấn luyện theo các bước sau: