− Đầu tiên, ảnh đầu vào được feed qua mạng CNN để thu được các feature map.
− Sau đó, proposal từ RPN sẽ được sử dụng để pool feature từ feature map thu được từ mạng CNN. Việc này được thực hiện tại RoI pooling layer.
− Đầu ra của RoI pooling layer sau khi được truyền qua 2 fully-conntected layer sẽ được feed cho 2 nhánh classification và regression:
o Nhánh classification: có C unit cho C class của bài tốn phát hiện đới
tượng (bao gồm cả class background). Các vector đặc trưng được truyền qua một softmax layer để lấy classification score – cho biết xác suất proposal thuộc về mỗi class.
o Nhánh regression: Đầu ra dùng để cải thiện độ chính xác cho các bounding box thu được từ RPN
2.6.4. RoI pooling
RoI pooling layer cho ra kết quả là một ma trận có kích thước cố định được định nghĩa trước (do theo sau nó là fully connected layer mà các RoI lại có kích thước
1 Nguồn: The Generalized R-CNN Framework for Object Detection - Ross Girshick tại https://sites.google.com/view/cvpr2018-recognition-tutorial
32
khác nhau nên ta cần pool chúng thành các ma trận có kích thước giống nhau). RoI Pooling được thực hiện như sau:
− Xác định vùng tương ứng với proposal trên feature map.
− Chia proposal trên feature map thành các vùng với số lượng cố định (Số lượng vùng phụ thuộc vào kích thước của output).
− Thực hiện max-pooling trên các cửa sổ con này để thu được đầu ra có kích
thước cớ định:
o Tìm giá trị lớn nhất của mỡi vùng.
o Output sẽ là ma trận với các giá trị là các giá trị lớn nhất của mỗi vùng. Ví dụ:
− Giả sử ta có 1 proposal, feature map 8 x 8, kích thước output yêu cầu là 2 x 2.