.2 Kiến trúc của Fast R-CNN

Tương tự như R-CNN, Fast R-CNN vẫn dùng thuật toán Selective Search để lấy ra các vùng đề xuất. Tuy nhiên, nó khơng tách 2000 vùng đề xuất ra khỏi ảnh và thực hiện bài tốn phân loại cho mỡi ảnh. Fast R-CNN cho cả bức ảnh vào backbone ConvNet để tạo ra feature map. Sau đó các vùng đề xuất được lấy ra tương ứng từ feature map. Tiếp theo, các feature map đó được d̃i thành các vector đặc trưng và qua 2 lớp fully connected để dự đoán lớp của các vùng đề xuất cũng như offset value của chúng.

Tuy nhiên kích thước của các vùng đề xuất khác nhau nên khi duỗi, các vector sẽ có kích thước khác nhau và khơng thể áp dụng cho neural network. Ở R-CNN, các vùng đề xuất đã được resize về cùng kích thước trước khi thực hiện transfer learning, nhưng với feature map thì khơng thể resize được. Vì vậy, tác giả đã thêm vào RoI pooling để chuyển các vùng đề xuất trong feature map về cùng kích thước.

Fast R-CNN khác với R-CNN là nó tạo ra feature map với cả ảnh sau đó lấy các vùng đề xuất từ feature map, cịn R-CNN thực hiện tách các vùng đề xuất ra rồi mới thực hiện CNN trên từng vùng. Vì vậy, Fast R-CNN nhanh hơn nhờ tối ưu việc tính tốn bằng Vectorization.

3.1.3. Faster R-CNN

Mặc dù Fast R-CNN đã nhanh hơn đáng kể so với R-CNN, song, việc sử dụng thuật toán Selective Search để lấy ra khoảng 2000 vùng đề xuất khiến cho mơ hình khơng thể đạt được tốc độ thời gian thực. Vì vậy, tác giả đã cải tiến bằng cách loại bỏ thuật tốn Selective Search để tạo nên mơ hình Faster R-CNN đạt được tốc độ gần thời gian thực.

3.1.3.1. Tổng quan

.1 Một số ảnh của bộ dữ liệu UAVDT