0
Tải bản đầy đủ (.pdf) (71 trang)

HUẤN LUYỆN DÒ TÌM KHUÔN MẶT

Một phần của tài liệu LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH DỰA VÀO ĐẶC TRƯNG 3D (Trang 58 -59 )

4. Những đóng góp mới của đề tài

2.8 HUẤN LUYỆN DÒ TÌM KHUÔN MẶT

2.8.1 Giới thiệu

Phần này sẽ trình bày các thuật toán dựa trên mạng nơ ron để dò tìm ra các cửa sổ có chứa các khuôn mặt thẳng đứng trong ảnh. Thuật toán này sẽ áp dụng một hay nhiều mạng nơ ron trực tiếp với các phần của ảnh đầu vào để kiểm tra kết quả của chúng. Mỗi mạng như vậy sẽ được huấn luyện để trả về kết quả là khuôn mặt hay không là khuôn mặt.

Việc sử dụng mạng nơ ron để tìm khuôn mặt là công việc rất khó vì phải biểu diễn giữa hai lớp các ảnh không phải là khuôn mặt và ảnh là khuôn mặt. Để tránh việc dùng tập huấn luyện có kích thước lớn ta sử dụng phương pháp boostrap nhằm giảm kích thước của tập huấn luyện. Việc dùng cách thức xử lý giữa mạng nơ ron và các heuristic để làm rõ các kết quả và cải thiện đáng kể độ chính xác của bộ dò tìm.

2.8.2 Huấn luyện dò tìm khuôn mặt

Quá trình huấn luyện dò tìm khuôn mặt hoạt động theo hai giai đoạn, giai đoạn một áp dụng tập bộ dò tìm trên mạng nơ ron vào ảnh sau đó dùng bộ kiểm tra để kết hợp với các đầu ra. Các bộ dò tìm riêng lẻ này sẽ khảo sát mỗi vị trí trong ảnh ở các tỷ lệ khác nhau để tìm vùng ảnh có thể là khuôn mặt. Sau đó bộ kiểm tra sẽ tập hợp tất cả kết quả từ bộ dò tìm riêng lẻ để loại trừ các bộ dò tìm giống nhau.

Hệ thống đầu vào của mạng nơ ron là nhận vào vùng ảnh 20x20 pixel để tạo đầu ra trong khoảng từ -1 đến 1 tương ứng để biểu thị có khuôn mặt hay không có khuôn mặt. Để dò tìm tất cả các khuôn mặt trong ảnh thì mạng nơ ron này sẽ được áp dụng lên toàn bộ khung ảnh. Mặc khác để dò tìm các khuôn mặt có kích thước hơn hơn dữ liệu bộ dò tìm thì ảnh sẽ được giảm kích thước nhiều lần và áp dụng bộ dò tìm ở mỗi kích thước.

Sau khi cửa sổ 20x20 picel được trích ra từ một vị trí và tỷ lệ nào đó trong ảnh nhập, nó sẽ được xử lý qua các bước hiệu chỉnh độ sáng và cân bằng lược đồ. Cửa sổ sau khi đã xử lý sẽ được truyền qua mạng nơ ron, và cửa sổ này sẽ được chia thành bốn vùng nhỏ kích thước 10x10 picel, 16 vùng nhỏ kích thước 5x5 picel và 6 vùng chồng 20x5 picel. Mỗi vùng sẽ được cung cấp thông tin cho nhau thông qua một đơn vị ẩn nào đó. Với cách làm này chúng ta sử dụng hai hoặc ba tập các đơn vị ẩn trên. Cụ thể các hình vuông ngang cho ta dò tìm các đặc trưng như cặp mắt, miệng. Trong khi, với vùng hình vuông cho ta dò tìm chính xác vị trí từng con mắt, mũi và khóe miệng

Để sử dụng mạng nơ ron phân loại cửa sổ có phải là khuôn mặt hay không là khuôn mặt ta cần các mẫu huấn luyện cho từng tập. Với các mẫu là khuôn mặt ta sử dụng kỹ thuật canh biên và gán nhãn một số đặc trưng bằng tay. Sau khi canh biên các khuôn mặt được rút về một kích thước, vị trí và hướng trong cửa sổ 20x20 pixel. Ảnh được rút về với một lượng ngẫu nhiên từ 1/√ đến √ . Với việc làm này sẽ giúp bộ dò tìm được khuôn mặt ở vị trí và tỷ lệ trung bình.

Một phần của tài liệu LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH DỰA VÀO ĐẶC TRƯNG 3D (Trang 58 -59 )

×