.22 Task-aligned head

Task-aligned head (T-Head) được thiết kế bằng cách xem xét 2 khía cạnh: tăng cường sự tương tác giữa hai bài toán và nâng cao khả năng của phương pháp trong việc học cách điều chỉnh.

Để tăng cường sự tương tác giữa 2 bài toán phân loại và định vị, T-Head sử dụng một cơng cụ trích xuất đặc trưng để học các đặc trưng tương tác bài tốn từ nhiều lớp tích chập, được thể hiện bằng các phần màu xanh dương trong hình 2.23. Thiết kế này không chỉ tạo điều kiện cho sự tương tác mà còn cung cấp các đặc trưng ở nhiều cấp với các receptive field ở nhiều scale hiệu quả cho 2 bài toán. Cơng cụ trích xuất đặc trưng sử dụng N lớp conv liên tiếp với các hàm kích hoạt để tính tốn các đặc trưng tương tác bài tốn. Do đó, tác giả trích xuất được nhiều đặc trưng multi-scale từ các đặc trưng FPN sử dụng một nhánh duy nhất trong phần head. Sau đó, các đặc trưng đã được tính tốn sẽ được truyền qua 2 bộ Task-aligned predictor để điều chỉnh cho bài toán phân loại và định vị.

Task-aligned Predictor (TAP) Tác giả thực hiện cả phân loại và định vị đối tượng trên các đặc trưng tương tác bài tốn được tính tốn trước đó. Tuy nhiên, do thiết kế một nhánh duy nhất, các đặc trưng tương tác bài toán chắc chắn dẫn đến một mức độ xung đột đặc trưng nhất định giữa hai bài tốn khác nhau. Do đó, trong TAP, tác giả đề xuất một cơ chế layer attention để khuyến khích phân rã bài toán bằng cách tính tốn động các đặc trưng dành riêng cho bài toán cụ thể ở mức độ layer. Như thể hiện trong Hình 2.23, các đặc trưng dành riêng cho bài toán cụ thể được tính tốn riêng biệt cho từng bài tốn phân loại hoặc định vị.

Ở bước dự đoán, tác giả điều chỉnh hai bài toán rõ ràng hơn bằng cách điều chỉnh phân bố không gian của hai dự đoán. Khác với các thực nghiệm sử dụng nhánh trung tâm hoặc nhánh IoU trước đó chỉ có thể điều chỉnh dự đốn phân loại dựa trên đặc trưng phân loại hoặc đặc trưng định vị, tác giả điều chỉnh hai dự đoán phân loại và định vị bằng cách xem xét cho cả hai bài toán cùng sử dụng các đặc trưng tương tác bài tốn đã được tính tốn.

2.4.4.2.Task Alignment Learning

Task Alignment Learning (TAL) khác với các phương pháp trước đây ở hai khía cạnh. Đầu tiên, nó được thiết kế theo quan điểm điều chỉnh bài tốn. Thứ hai, nó xem xét đồng thời cả việc gán anchor và trọng số. Nó bao gồm Task-aligned Sample Assignment và các hàm Task-aligned Loss được thiết kế đặc biệt để điều chỉnh 2 bài toán.

Task-aligned Sample Assignment: Để đối phó với Non Maximum Suppression, việc gán anchor phải thỏa mãn các quy tắc: một anchor được điều chỉnh tốt phải có thể dự đốn điểm phân loại cao với một định vị chính xác, một anchor bị lệch phải có điểm phân loại thấp và sau đó sẽ bị loại bỏ. Với hai mục tiêu này, tác giả thiết kế một Anchor alignment metric mới để đo lường rõ ràng mức độ điều chỉnh bài toán ở cấp độ anchor. Anchor alignment metric được tích hợp vào các sample assignment và hàm mất mát để tinh chỉnh động các dự đoán tại mỗi anchor.

Anchor alignment metric: Xét classification score và IoU giữa bounding box dự đoán và ground truth cho biết chất lượng của các dự đoán theo hai bài toán, tác giả đo lường mức độ điều chỉnh bài toán bằng cách kết hợp bậc cao giữa classification score và IoU. Cụ thể, tác giả thiết kế độ đo sau để tính tốn điều chỉnh cấp anchor cho từng trường hợp:

𝑡 = 𝑠𝛼× 𝑢𝛽

Trong đó, 𝑠 và 𝑢 biểu diễn classification score và IoU. 𝛼 và 𝛽 được sử dụng để kiểm soát sự tác động của 2 bài toán trong độ đo.

Task-aligned Loss:

Đối với bài toán phân loại, để tăng classification score một cách rõ ràng cho các anchor được điều chỉnh và đồng thời giảm score của các anchor bị lệch, tác giả sử dụng Anchor assignment metric để thay thế nhãn nhị phân của một positive anchor trong quá trình huấn luyện. Tuy nhiên, do nhận thấy mạng không thể hội tụ

khi các nhãn của các positive anchor trở nên nhỏ bởi sự gia tăng của α và β nên tác giả sử dụng 𝑡 chuẩn hóa, cụ thể là 𝑡̂, để thay thế nhãn nhị phân của positive anchor, trong đó 𝑡̂ được chuẩn hóa bởi hai thuộc tính: để đảm bảo việc học các trường hợp khó hiệu quả và để bảo toàn thứ hạng giữa các trường hợp dựa trên độ chính xác của các bounding box dự đốn. Do đó, tác giả áp dụng một chuẩn hóa đơn giản để điều chỉnh thang đo của 𝑡̂. Sau đó, Binary Cross Entropy (BCE) được tính tốn trên các positive anchor cho bài tốn phân loại có thể được viết lại thành:

𝐿𝑐𝑙𝑠_𝑝𝑜𝑠 = ∑ 𝐵𝐶𝐸(𝑠𝑖, 𝑡̂)𝑖 𝑁𝑝𝑜𝑠

𝑖=1

Trong đó, 𝑖 thể hiện anchor thứ 𝑖 từ 𝑁𝑝𝑜𝑠 positive anchor tương ứng. Sau đó, sử dụng focal loss cho phân loại để giảm thiểu sự mất cân bằng giữa các mẫu negative và positive trong quá trình huấn luyện. Như vậy, hàm loss cho bài toán phân loại được định nghĩa như sau:

𝐿𝑐𝑙𝑠 = ∑ | 𝑡̂ − 𝑠𝑖 𝑖|𝛾𝐵𝐶𝐸(𝑠𝑖, 𝑡̂) + ∑ 𝑠𝑖 𝑗𝛾𝐵𝐶𝐸(𝑠𝑗, 0) 𝑁𝑛𝑒𝑔

𝑗=1 𝑁𝑝𝑜𝑠

𝑖=1

Trong đó, 𝑗 thể hiện anchor thứ 𝑗 trong 𝑁𝑛𝑒𝑔 negative anchor và 𝛾 là focusing parameter.

Đối với bài toán định vị, tác giả áp dụng Anchor assignment metric để đo lường chất lượng của một bounding box. Do đó, họ cải thiện độ chính xác của task alignment và regression bằng cách tập trung vào các anchor được điều chỉnh tốt trong khi giảm sự tác động của các anchor bị lệch trong quá trình bounding box regression. Hàm loss được tính như sau:

𝐿𝑟𝑒𝑔 = ∑ 𝑡̂𝐿𝑖 𝐺𝐼𝑜𝑈(𝑏𝑖, 𝑏̅𝑖) 𝑁𝑝𝑜𝑠

𝑖=1

2.4.5.VFNet

VarifocalNet [5] (VFNet) được công bố tại hội nghị CVPR 2021 bởi Haoyang Zhang cùng cộng sự trong bài báo “VarifocalNet: An IoU-aware Dense

Object Detector”. Trong bài báo, tác giả đề xuất IoU-Aware Classification Score

(IACS) và phương pháp phát hiện đối tượng dựa trên kiến trúc của FCOS+ATSS. So với FCOS+ATSS, VFNet có 3 thành phần mới: Varifocal Loss, Star-Shaped Box Feature Representation và Bounding Box Refinement.

.1 Một số ảnh của bộ dữ liệu UAVDT

.5 Cách tính Precision và Recall