Pha xác định mặt người [1]

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơron và ứng dụng mạng nơron trong nhận dạng cảm xúc trên khuôn mặt người luận văn ths công nghệ thông tin 1 01 10 (Trang 56 - 59)

Ý tưởng sử dụng mạng nơron trong pha xác định mặt người là để trả lời cho câu hỏi có hay không một mặt người trong cửa sổ 20x20 và sau đó áp dụng trên toàn ảnh với các độ co dãn khác nhau. Các phương pháp hỗ trợ khác cho pha này là: tách vùng da chứa mặt, tổng hợp các kết quả, kết hợp nhiều mạng, phân ngưỡng động đã được xây dựng để xác định vị trí chứa mặt người và loại bỏ các phát hiện sai số.

Hình 3.3 - Mô hình hoạt động của mạng nơron tìm mặt

Mô hình mạng nơron sử dụng trong phát hiện mặt người hoạt động trong ba pha: trước tiên sử dụng mạng định tuyến để chuyển đổi ảnh nguồn về hướng trước mặt và thẳng đứng, sau đó xử lý ảnh trước khi áp dụng mạng nơron xác định mặt để

Ảnh gốc Trích ra 1 ảnh 20x20 có góc bất kỳ Mạng định tuyến Ảnh 20x20 có chiều thẳng đứng Mạng xác định mặt Trả về góc quay của mặt Trả về khả năng có mặt trong ảnh

cho biết khả năng chứa một mặt người trong ảnh đó, các ảnh có mặt tiếp tục đưa vào các bộ kết hợp và lọc ảnh để loại bỏ các kết quả không cần thiết.

Mục tiêu của pha này là chúng ta phát hiện được các mặt người có trong ảnh có kích thước khác nhau, các mặt có hướng trước mặt và ở góc quay bất kỳ, ảnh có thể chứa một hoặc nhiều mặt người, có kích thước và màu da khác nhau.

Sau đây luận văn sẽ trình bày chi tiết từng phần cấu trúc của mạng xác định mặt.

3.2.1. Cấu trúc mạng định tuyến

Hình 3.4 - Ví dụ các đầu vào và đầu ra cho huấn luyện mạng định tuyến

Bước đầu tiên khi xử lý một cửa sổ ảnh đầu vào là áp dụng mạng định tuyến. Đối với mạng này, người ta chỉ sử dụng cửa sổ dữ liệu vào chỉ chứa một mặt và nó được huấn luyện để đánh giá góc nghiêng của mặt trong cửa sổ đó. Các đầu vào của

mạng là các giá trị cường độ trong một cửa sổ ảnh 2020 điểm ảnh (có thể nâng cao

chất lượng đầu vào bằng cách cân bằng lược đồ xám chuẩn). Góc quay của đầu ra

được biểu diễn bằng một dãy 36 thành phần đầu ra, với mỗi thành phần i là một góc

của (/18)*i. Để chỉ ra rằng một mặt tại một góc  , mỗi đầu ra được huấn luyện để đạt tới một giá trị của cos( -(/18)*i).

Trước đây người ta thường xác định góc nghiêng của mặt bằng hướng của 1 vectơ có độ lớn lớn nhất trong 36 vectơ xác định được hay chỉ dựa trên vectơ tổng của một nhóm các vectơ thuộc một vùng có tính chu kỳ. Ở đây, chúng tôi dùng mỗi

đầu ra như là một vector trọng số theo hướng được xác định bằng số đầu ra i, và tính toán tổng trọng số bằng công thức: ) ) 10 * sin( * ), 10 * cos( * ( 35 0 35 0     i o i i o i i output i output (3.1)

Hướng của vectơ trung bình được dùng để chỉ góc nghiêng của mặt.

Kiến trúc cho mạng định tuyến bao gồm 3 lớp, một lớp đầu vào có 400 thành phần, một lớp ẩn có 15 thành phần, và một lớp đầu ra có 36 thành phần. Mỗi lớp có kết nối đầy đủ với lớp tiếp theo. Mỗi thành phần sử dụng một hàm ảnh hưởng theo tiếp tuyến hyperbolic, và mạng được huấn luyện theo thuật toán hồi quy lan truyền ngược chuẩn.

3.2.2. Cấu trúc mạng xác định mặt

Sau khi đã áp dụng mạng định tuyến cho cửa sổ đầu vào, cửa sổ sẽ quay đúng hướng để mặt có thể xem ở hướng thẳng đứng. Công việc còn lại là quyết định xem cửa sổ có chứa một mặt có hướng thẳng đứng hay không. Ảnh mẫu có kích thước

2020 điểm ảnh được tiền xử lý trong hai bước dưới đây. Đầu tiên, xây dựng một

hàm tuyến tính trên cửa sổ để lấy các giá trị cường độ nằm trong một vùng hình ovan nằm trong cửa sổ. Hàm tuyến tính này gần giống như toàn bộ phần sáng nằm trong mỗi phần của cửa sổ, và có thể loại trừ để bù cho các trạng thái khác nhau của điều kiện ánh sáng. Thứ hai, thực hiện cân bằng lược đồ xám để mở rộng vùng cường độ trong cửa sổ. Sau đó cửa sổ đã được tiền xử lý sẽ được sử dụng cho một hoặc nhiều mạng tìm kiếm.

Mạng tìm kiếm có kết nối mạng lưới tới đầu vào của tầng. Các trường tiếp thu của các đơn vị ẩn được chỉ ra trong hình 3.5. Có 3 loại nút ẩn: loại 4 nút xem xét các vùng điểm 1010, loại 16 nút xem xét các vùng điểm 55, và loại 6 nút xem xét

các vùng 205 là các đường viền ngang. Mỗi loại được lựa chọn cho phép các nút

tế, các đường viền ngang cho phép các nút ẩn tìm kiếm các đặc trưng như miệng, hai mắt, trong khi các nút ẩn với các đầu vào là hình vuông cho phép xác định các đặc trưng như từng mắt, mũi, hoặc các khóe miệng. Mặc dù một nút ẩn đơn cho vùng của mỗi đầu vào, các nút đó có thể được thay thế. Mạng này chỉ có một đầu ra thể hiện trạng thái cửa sổ đó có chứa mặt hay không.

Kết quả đầu ra của các mạng tìm kiếm xấp xỉ +1.0 thì trong ảnh có chứa mặt và –1.0 nếu ngược lại.

Hình 3.5 - Cấu trúc mạng xác định mặt

Các bộ tìm kiếm có 2 tập ví dụ huấn luyện: ảnh chứa mặt và ảnh không chứa mặt. Các ví dụ đúng được sinh ra trong một kiểu tương tự đã thực hiện cho định tuyến, góc xoay của ảnh huấn luyện bị giới hạn trong khoảng –100 và 100.

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơron và ứng dụng mạng nơron trong nhận dạng cảm xúc trên khuôn mặt người luận văn ths công nghệ thông tin 1 01 10 (Trang 56 - 59)

Tải bản đầy đủ (PDF)

(85 trang)