Mô-đun Chú Ý Vị Trí

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 48 - 49)

6 Tổng kết

3.7 Mô-đun Chú Ý Vị Trí

như trong Hình 3.7. Các ma trận đặc trưng đầu vào ARC×H×W đầu tiên được đưa vào các lớp tích chập với chuẩn hóa theo nhóm (batch normalization) và hàm kích hoạt ReLU để tạo ra các ma trận đặc trưng B, C, DRC×H×W. Sau đó, tiến hành tính ma trận tương quan theo điểm ảnhSRN×N, trong đó N =H×W. Lưu ý rằng kích chiều củaSX là khác nhau, vì ma trậnS tính mức độ tương quan giữaN điểm ảnh thay vì

C kênh. Ma trận trận đặc trưng kết của của mô-đun này cũng được tính giống như CAM ở mục 3.5.1.1.

3.5.2 Tính đa dạng

Tính đa dạng được thực hiện bằng cách chính quy hóa trực giao (orthogonality regu- larization) trên cả đặc trưng ẩn (hidden feature) và trọng số (weights) của lớp tính chập (convolutional layer) và lớp kết nối đầy đủ (fully-connected layer). Chính quy hóa trực giao trên các ma trận đặc trưng (viết tắt làO.F.) để giảm mức độ tương quan đặc trưng làm tăng hiệu suất của việc tái định danh. Chính quy hóa trực giao trên trọng số (O.W.) khuyến khích các bộ lọc của mạng tính chập tổng quát hơn và thúc đẩy khả năng học.

Để có thể chính quy hóa trên ma trận đặc trưng, ta ký hiệu ma trận đặc trưng M

RC×H×W, trong đó C, H, W lần lượt là số kênh, số hàng và số cột của ma trận đặc trưng. Sau đó, ta định hình lại kích thước ma trận M thành ma trận FRC×N với

N =H×W và thực hiện spectral value difference orthogonality (SVDO) bằng công thức 3.8:

βkλ1(FFT)−λ2(FFT)k22 (3.8) trong đó λ1(FFT) và λ2(FFT) ký hiệu cho giá trị lớn nhất và giá trị nhỏ nhất của trị riêng của ma trậnFFT.

Có một vấn đề là để tính được đạo hàm của SVDO, ta cần tiến hành phân tính trị riêng (eigenvalue decomposition) và điều này tốn rất nhiều tài nguyên tính toán đặc biệt là khi ma trận có nhiều chiều. Để vượt qua bước này, ta thể xấp xỉ trị riêng bằng cách thực hiện lặp công thức 3.9 (mặc định là 2 lần) với giá trị q ban đầu được khởi tạo ngẫu nhiên.

pXq, qXp, λ(X)←kqk

kpk (3.9)

trong đó XFFT khi tính cho λ1(FFT) và (FFTλ1I) khi tính cho λ2(FFT). Bằng cách này việc tính toán SVDO trở nên hiệu quả hơn nhiều.

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 48 - 49)

Tải bản đầy đủ (PDF)

(95 trang)