Mô tả quá trình xác định khuôn mặt sử dụng MTCNN- 123docz.net

4.2.2.1 Cơ chế hoạt động:

Cơ chế hoạt động của hệ thống đã đƣợc khái quát nhƣ trên hình 4.6. Khi chúng ta đƣa vào một ảnh mặt ngƣời, ban đầu chúng ta thay đổi kích thƣớc của nó

thành các tỷ lệ khác nhau để xây dựng một kim tự tháp hình ảnh (bản chất của kim tự tháp hình ảnh là bản sao của các ảnh đầu vào với các kích thƣớc khác nhau). Kim tự tháp hình ảnh này là đầu vào của khung xếp tầng gồm 3 tác vụ chính của MTCNN.

MTCNN hoạt động theo 3 bƣớc, mỗi bƣớc có một mạng neural riêng lần lƣợt là: P-Net, R-Net và O-Net.

Bƣớc 1: Chúng ta khai thác một mạng tích chập đầy đủ đƣợc gọi là Proposal Network(P-Net), để có đƣợc các cửa sổ ứng cử viên và các bounding box regression vectors của chúng. Sau đó, các ứng cử viên đƣợc hiệu chuẩn dựa trên các estimated bounding box regression vectors. Sau đó, chúng ta sử dụng non- maximum suppression (NMS) để hợp nhất các ứng cử viên chồng chéo.

Bƣớc 2: Tất cả các ứng cử viên đƣợc đƣa đến một CNN khác, đƣợc gọi là Refine Network (R-Net), để từ chối thêm một số lƣợng lớn các ứng cử viên sai. Sau đó, hệ thống thực hiện hiệu chuẩn với bounding box regression và tiến hành NMS.

Bƣớc 3: Giai đoạn này tƣơng tự nhƣ giai đoạn thứ hai, nhƣng trong giai đoạn này, chúng ta hƣớng đến việc xác định các khu vực khuôn mặt với sự giám sát nhiều hơn. Đặc biệt, mạng sẽ xuất ra năm vị trí trên khuôn mặt.

Group CNN 300xForward Propagation Vali dation Accuracy Group 1 12-Net 0,038s 94,4% P-Net 0,031s 94,6% Group 2 24-Net 0,738s 95,1% R-Net 0,458s 95,4% Group 3 48-Net 0,577s 93,2% O-Net 1,347s 95,4% Bảng 4.1: So sánh tốc độ và độ chính xác CNNs khác [2]

Hiện nay, có nhiều mạng CNN đã đƣợc thiết kế để nhận dạng khuôn mặt. Tuy nhiên, hiệu suất của nó có thể bị hạn chế bởi các điều kiện sau:

Một số filter trong convolution layer có thể thiếu sự đa dạng làm hạn chế khả năng phân biệt của chúng.

So với các nhiệm vụ phát hiện và phân loại khác, phát hiện khuôn mặt là một nhiệm vụ phân loại nhị phân đầy thách thức. Do đó, nó có thể cần số lƣợng bộ lọc ít hơn trên mỗi lớp. Vì vậy, chúng ta giảm số lƣợng bộ lọc và thay đổi bộ lọc 5x5 thành bộ lọc 3x3 để giảm tính toán trong khi tăng độ sâu để có hiệu suất tốt hơn. Với những cải tiến này, so với những kiến trúc trƣớc đây, kiến trúc đƣợc lựa chọn có hiệu suất tốt hơn và thời gian chạy ít hơn (kết quả trong giai đoạn huấn luyện đƣợc mô tả trong bảng 3.1 với các huấn luyện và dữ liệu xác định tƣơng tự trong mỗi nhóm).

4.2.2.2 Huấn luyện

Các kiến trúc CNN luận văn lựa chọn đƣợc thể hiện trong hình 4.7 bên dƣới. Trong mô hình này, chúng ta áp dụng PreLU làm chức năng kích hoạt phi tuyến sau khi tích chập và các lớp kết nối đủ (fully connection layers), trừ các lớp đầu ra.

Mô tả quá trình xác định khuôn mặt sử dụng MTCNN

Các vùng điểm ảnh A,B,C,D

Kết hợp các bộ phân loại