.2 Kiến trúc của Fast R-CNN

Một phần của tài liệu Tìm hiểu phương pháp d2det cho bài toán phát hiện phương tiện giao thông trong không ảnh (Trang 40 - 42)

41

Tương tự như R-CNN, Fast R-CNN vẫn dùng thuật toán Selective Search để lấy ra các vùng đề xuất. Tuy nhiên, nó khơng tách 2000 vùng đề xuất ra khỏi ảnh và thực hiện bài tốn phân loại cho mỡi ảnh. Fast R-CNN cho cả bức ảnh vào backbone ConvNet để tạo ra feature map. Sau đó các vùng đề xuất được lấy ra tương ứng từ feature map. Tiếp theo, các feature map đó được d̃i thành các vector đặc trưng và qua 2 lớp fully connected để dự đoán lớp của các vùng đề xuất cũng như offset value của chúng.

Tuy nhiên kích thước của các vùng đề xuất khác nhau nên khi duỗi, các vector sẽ có kích thước khác nhau và khơng thể áp dụng cho neural network. Ở R-CNN, các vùng đề xuất đã được resize về cùng kích thước trước khi thực hiện transfer learning, nhưng với feature map thì khơng thể resize được. Vì vậy, tác giả đã thêm vào RoI pooling để chuyển các vùng đề xuất trong feature map về cùng kích thước.

Fast R-CNN khác với R-CNN là nó tạo ra feature map với cả ảnh sau đó lấy các vùng đề xuất từ feature map, cịn R-CNN thực hiện tách các vùng đề xuất ra rồi mới thực hiện CNN trên từng vùng. Vì vậy, Fast R-CNN nhanh hơn nhờ tối ưu việc tính tốn bằng Vectorization.

3.1.3. Faster R-CNN

Mặc dù Fast R-CNN đã nhanh hơn đáng kể so với R-CNN, song, việc sử dụng thuật toán Selective Search để lấy ra khoảng 2000 vùng đề xuất khiến cho mơ hình khơng thể đạt được tốc độ thời gian thực. Vì vậy, tác giả đã cải tiến bằng cách loại bỏ thuật tốn Selective Search để tạo nên mơ hình Faster R-CNN đạt được tốc độ gần thời gian thực.

42

3.1.3.1. Tổng quan

Một phần của tài liệu Tìm hiểu phương pháp d2det cho bài toán phát hiện phương tiện giao thông trong không ảnh (Trang 40 - 42)