.30 Adaptive Weighted Pooling

o Tại đây, các điểm mẫu ban đầu, 𝐹 ∈ 𝑅2𝑘×2𝑘 (tương ứng với mỡi giá trị của ma trận đặc trưng 𝑘

2×𝑘

2 thu được từ RoIAlign ta có 4 điểm mẫu gốc) được dùng để dự đoán các trọng sớ tương ứng (𝑊 ∈ 𝑅2𝑘×2𝑘). Các trọng số này cho biết khả năng phân biệt của chúng trong toàn bộ không gian vùng con đó.

o Sau đó, các ma trận đặc trưng Weighted RoI 𝐹̃ được tính bằng công thức:

𝐹̃ = 𝑊(𝐹) ⊙ F ▪ Trong đó:

• ⊙: Biến đởi Hadamard.

• 𝐹: Ma trận các điểm mẫu ban đầu của ma trận 𝑘

2×𝑘

2 thu được từ RoIAlign.

• 𝑊(𝐹): Các trọng sớ tương ứng với mỗi điểm mẫu của 𝐹 được tính thông qua lớp convolution.

o Tiếp theo, tác giả dùng average pooling với stride bằng 2 trên 𝐹̃ và thu được ma trận đặc trưng discriminative RoI với kích thước 𝑘×𝑘.

o Cuối cùng, ma trận đặc trưng discriminative RoI được xem như một vector toàn cục, như trong Faster R-CNN, vector này được truyền qua 2 lớp fully connected để thu được classification score.

2.10.4. Kết quả thực nghiệm

D2Det được thực nghiệm trên bộ dữ liệu MS COCO và UAVDT, trong đó:

− MS COCO: 80 lớp với độ đo AP của MS COCO.

− UAVDT: 3 lớp (car, truck, bus) với độ đo AP của PASCAL VOC với IoU =

0.7.

Bảng 2.2 Kết quả trên bộ dữ liệu MS COCO test-dev.

Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Bộ dữ liệu UAVDT

Có nhiều bộ dữ liệu hỗ trợ thực hiện bài toán, nhưng chúng tôi tập trung vào bộ dữ liệu UAVDT [2] bởi sự đa nhiệm, cũng như có những yếu tố phức tạp (ánh sáng, độ cao, góc quay) phù hợp cho bài toán.

.15 Fast R-CNN trong Faster R-CNN

.17 Minh họa vùng mà AP tính tốn