o Tại đây, các điểm mẫu ban đầu, 𝐹 ∈ 𝑅2𝑘×2𝑘 (tương ứng với mỡi giá trị của ma trận đặc trưng 𝑘
2×𝑘
2 thu được từ RoIAlign ta có 4 điểm mẫu gốc) được dùng để dự đoán các trọng sớ tương ứng (𝑊 ∈ 𝑅2𝑘×2𝑘). Các trọng số này cho biết khả năng phân biệt của chúng trong toàn bộ không gian vùng con đó.
o Sau đó, các ma trận đặc trưng Weighted RoI 𝐹̃ được tính bằng công thức:
𝐹̃ = 𝑊(𝐹) ⊙ F ▪ Trong đó:
• ⊙: Biến đởi Hadamard.
• 𝐹: Ma trận các điểm mẫu ban đầu của ma trận 𝑘
2×𝑘
2 thu được từ RoIAlign.
43
• 𝑊(𝐹): Các trọng sớ tương ứng với mỗi điểm mẫu của 𝐹 được tính thông qua lớp convolution.
o Tiếp theo, tác giả dùng average pooling với stride bằng 2 trên 𝐹̃ và thu được ma trận đặc trưng discriminative RoI với kích thước 𝑘×𝑘.
o Cuối cùng, ma trận đặc trưng discriminative RoI được xem như một vector toàn cục, như trong Faster R-CNN, vector này được truyền qua 2 lớp fully connected để thu được classification score.
2.10.4. Kết quả thực nghiệm
D2Det được thực nghiệm trên bộ dữ liệu MS COCO và UAVDT, trong đó:
− MS COCO: 80 lớp với độ đo AP của MS COCO.
− UAVDT: 3 lớp (car, truck, bus) với độ đo AP của PASCAL VOC với IoU =
0.7.
Bảng 2.2 Kết quả trên bộ dữ liệu MS COCO test-dev.
44
Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.1. Bộ dữ liệu UAVDT
Có nhiều bộ dữ liệu hỗ trợ thực hiện bài toán, nhưng chúng tôi tập trung vào bộ dữ liệu UAVDT [2] bởi sự đa nhiệm, cũng như có những yếu tố phức tạp (ánh sáng, độ cao, góc quay) phù hợp cho bài toán.