Tại Adaptive Weighted Pooling (AWP), các điểm mẫu ban đầu 𝐹 ∈ 𝑅2𝑘×2𝑘
(tương ứng với mỗi giá trị của ma trận đặc trưng 𝑘
2×𝑘
2 thu được từ RoIAlign ta có 4 điểm mẫu gốc) được dùng để dự đoán các trọng số tương ứng (𝑊 ∈ 𝑅2𝑘×2𝑘). Các trọng số này cho biết khả năng phân biệt của chúng trong tồn bộ khơng gian vùng con đó. Sau đó, ma trận đặc trưng Weighted RoI 𝐹̃ sẽ được tính tốn và average pooling với stride bằng 2 được dùng trên 𝐹̃ để thu được ma trận đặc trưng discriminative RoI với kích thước 𝑘 × 𝑘. Cuối cùng, ma trận đặc trưng discriminative RoI được xem như một vector toàn cục, như trong Faster R-CNN, vector này được truyền qua các lớp fully connected để thu được classification score.
2.4.3.DetectoRS
DetectoRS [3] được công bố tại hội nghị CVPR 2021 bởi Siyuan Qiao cùng cộng sự trong bài báo “DetectoRS: Detecting Objects with Recursive Feature
Pyramid and Switchable Atrous Convolution”. Trong bài báo, tác giả giới thiệu 2 kỹ
26
• Recursive Feature Pyramid (RFP): thêm vào các kết nối phản hồi từ FPN vào các tầng bottom-up của backbone, RFP được dùng ở cấp độ Neck của mạng.
• Switchable Atrous Convolution (SAC): tích chập các đặc trưng với atrous rate khác nhau và thu thập kết quả bằng các switch function, SAC được dùng ở cấp độ các lớp Convolution của backbone.
2.4.3.1.Recursive Feature Pyramid
Feature Pyramid Network (FPN) [13] là một cơng cụ trích xuất đặc trưng được thiết kế theo kết cấu của kim tự tháp với tính chính xác và tốc độ cao. Nó là sự kết hợp giữa hai pathway là bottom-up với độ phân giải thấp, mạnh về ngữ nghĩa và top-down với độ phân giải cao nhưng yếu về ngữ nghĩa. Với ngữ nghĩa phong phú ở mọi cấp độ và được xây dựng nhanh chóng từ mơ hình ảnh đầu vào duy nhất mà FPN có khả năng trích xuất đặc trưng tốt hơn, cải thiện việc phát hiện những đối tượng nhỏ hơn.