Kiến trúc mạng MobileFacenet - Mạng học sâu- 123docz.net

6. Dàn ý nội dung chính

1.3 Mạng học sâu

1.3.4 Kiến trúc mạng MobileFacenet

MobileFaceNet là một loại mơ hình được sáng tạo ra nhằm giải quyết bài tốn Xác minh khn mặt, cũng là một cơng nghệ xác thực danh tính rất quan trọng [24]. Nó đang được sử dụng trong ngày càng nhiều điện thoại di động và các ứng dụng - chẳng hạn như để mở khóa thiết bị hoặc nền tảng thanh toán di động, trong số những nền tảng khác. Để đạt được sự thân thiện với người dùng tối đa với tài ngun tính tốn hạn chế, các mơ hình xác minh khn mặt được triển khai cục bộ trên thiết bị di động được kỳ vọng khơng chỉ chính xác mà cịn nhỏ và nhanh chóng.

➢ Global Depthwise Convolution

Để xử lý các đơn vị khác nhau của FMap-end với tầm quan trọng khác nhau, chúng tôi thay thế global average pooling layer bằng một global depthwise convolution layer (được ký hiệu là GDConv). Lớp GDConv là lớp tích chập theo chiều sâu với kích thước kernel bằng kích thước đầu vào, pad =

0 và stride = 1. Đầu ra cho lớp tích chập theo chiều sâu tồn cục được tính như sau:

𝐺𝑚 = ∑𝑖,𝑗 𝐾𝑖,𝑗,𝑚 ⋅ 𝐹𝑖,𝑗,m (3)

trong đó 𝐹 là bản đồ tính năng đầu vào có kích thước 𝑊 × 𝐻 × 𝑀, 𝐾 là nhân chập theo chiều sâu có kích thước 𝑊 × 𝐻 × 𝑀, 𝐺 là đầu ra của kích thước 1 × 1 × 𝑀 ， kênh 𝑚𝑡ℎ trong 𝐺 chỉ có một phần tử 𝐺𝑚, (𝑖, 𝑗) biểu thị vị trí khơng gian trong 𝐹 và 𝐾, và 𝑚 biểu thị chỉ số kênh. Tích chập theo chiều sâu tồn cầu có chi phí tính tốn là:

𝑊 ⋅ 𝐻 ⋅ M (4)

Khi được sử dụng sau FMap-end trong MobileNetV2 để nhúng đặc điểm khn mặt, lớp tích chập theo chiều sâu tồn cục của kernel size 7 × 7 × 1280 xuất ra vectơ đặc điểm khuôn mặt 1280 chiều với chi phí tính tốn là 62720 MAdds (tức là số lượng hoạt động được đo bởi multiply-adds) và 62720 tham số. Hãy để MobileNetV2-GDConv biểu thị MobileNetV2 với lớp tích chập theo chiều sâu tồn cục. Lớp này là một cấu trúc hiệu quả cho thiết kế MobileFaceNets.

➢ Kiến trúc MobileFaceNet

Kiến trúc MobileFaceNet một phần được lấy cảm hứng từ kiến trúc MobileNetV2. Các nút thắt cổ chai còn lại được đề xuất trong MobileNetV2 được sử dụng làm khối xây dựng chính của chúng tơi. Các nhà nghiên cứu sử dụng PReLU là phi tuyến tính, phù hợp hơn để xác minh trên khuôn mặt hơn là sử dụng ReLU. Các nhà nghiên cứu cũng sử dụng chiến lược lấy mẫu nhanh ở đầu mạng và lớp tích chập 1 × 1 tuyến tính theo sau lớp tích chập theo chiều sâu tồn cục tuyến tính làm lớp đầu ra tính năng. Kiến trúc chi tiết được đề cập trong Hình 1.3.4-1. dưới đây:

Hình 1.3.4-1. Mơ hình kiến trúc tổng thể của MobileFacenet.

Hình 1.3.4-1. trên sử dụng các ký hiệu gần giống như MobileNetV2. Mỗi

dịng mơ tả một dãy các tốn tử, được lặp lại n lần. Tất cả các lớp trong cùng một dãy có cùng số kênh đầu ra. Lớp đầu tiên của mỗi dãy có một sải chân và tất cả những lớp khác sử dụng sải chân 1. Tất cả các phần chập không gian trong các nút cổ chai đều sử dụng nhân 3 × 3. Hệ số khai triển t ln được áp dụng cho kích thước đầu vào. GDConv7x7 biểu thị GDConv của các hạt nhân 7 × 7.

Mạng MobileFaceNet chính sử dụng 0,99 triệu tham số. Để giảm chi phí tính tốn, các nhà nghiên cứu quyết định thay đổi độ phân giải đầu vào từ 112 × 112 thành 112 × 96 hoặc 96 × 96. Lớp tích chập 1 × 1 tuyến tính sau lớp GDConv tuyến tính cũng bị xóa khỏi MobileFaceNet. Điều này tạo ra một mạng kết quả được gọi là MobileFaceNet-M.

➢ ArcFace - Additive Angular Margin Loss

Hàm mất mát Additive Angular Margin Loss [25] có thể được xem như một sự cải tiến cho hàm softmax, tích vơ hướng giữa véc tơ đặc điểm từ mơ hình DCNN và lớp fullly connected cuối bằng với khoảng cách cosine của feature và weight đã được chuẩn hóa. Chúng ta tận dụng hàm arc-cosine để tính góc giữa feature hiện tại và weight mục tiêu . Sau đó chúng ta cộng thêm additive angular margin vào góc mục tiêu và chúng ta sẽ thu được lại véc tơ logit thông qua hàm cosine. Tiếp theo, các logits sẽ được định lại tỉ lệ và các bước còn lại sẽ giống hệt như hàm mất mát softmax. Ảnh dưới đây minh họa quá trình vừa đề cập:

Hình 1.3.4-2. Mơ hình huấn luyện một mạng CNN với ArcFace.

Tóm tắt các các bước như sau:

• Bước 1: Sau khi normalization weights và feature vectors, ta lấy được cosθj với ∀j=1,2,...,C (C là số class).

• Bước 2: Ta cần tính θj (rất dễ dàng, chỉ cần lấy ArcCos là được). θj là góc giữa ground truth weight Wyi và feature vector xi.

• Bước 3: Sau đó ta tính cos(θ+m). Nếu bạn cịn nhớ vịng trịn lượng giác, thì trong khoảng từ 0 đến π, góc càng tăng cos càng giảm.

• Bước 4: Tính s∗cos(θ+m). Sau đó đưa vào softmax để lấy ra phân phối xác suất probability của các nhãn.

• Bước 5: Cuối cùng, ta có ground truth vector (là label đã được one-hot) cùng probability, đóng góp vào cross entropy loss.

Phần còn lại của paper ArcFace bao gồm các so sánh ArcFace với các loại Loss khác, thử nghiệm kết hợp 3 loại Margin-loss : Multiplicative Angular Margin của SphereFace, Additive Angular Margin của ArcFace và Additive Cosine Margin của CosFace cho kết quả tốt hơn), cùng các kết quả thử nghiệm trên các bộ dataset và benchmark khác nhau. Để hiểu được kĩ hơn phương pháp mới này cần bắt đầu với hàm softmax với công thức:

L1 = − 1 𝑁∑ log 𝑒 𝑊𝑦𝑖 𝑇 𝑥𝑖 ∑𝑛 𝑒 𝑊𝑗𝑇𝑥𝑖 𝑗=1 𝑁 𝑖=0 (5)

Tương tự như đã làm trong CosFace, để cho đơn giản, weight được normalized = 1 bằng cách sử dụng L2 Normalization. Đưa về WjTx= ∥Wj ∥∥x∥cosθj Feature cũng được L2 normalized và re-scaled về bằng s. Bước chuẩn hóa này giúp predictions chỉ phụ thuộc vào góc giữa features và weight. Ta được LMCL (CosFace):

L2 = − 1 𝑁∑ log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + ∑𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 𝑗=1,𝑗#𝑦𝑖 𝑁 𝑖=0 (6)

Vì các embedding features được phân phối xung quanh mỗi feature centre trên hypersphere (hình cầu trong không gian n-chiều), paper đề xuất thêm thêm một Additive Angular Margin Penalty m giữa xi và Wyi để đồng thời tăng cường độ nhỏ gọn trong nội bộ class và sự khác biệt giữa các class.

L3 = −1 𝑁∑ log 𝑒𝑠 (cos (𝜃𝑦𝑖+𝑚)) 𝑒𝑠 (cos (𝜃𝑦𝑖+𝑚)) + ∑𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 𝑗=1,𝑗#𝑦𝑖 𝑁 𝑖=0 (7) Hình dưới là kết quả minh họa so sánh giữa Softmax và Arcface: