Nhiều nỗ lực nghiên cứu trong việc phát hiện đối tượng tập trung vào việc làm cho các đường ống phát hiện tiêu chuẩn trở nên nhanh chóng. [49] [82] [75] [58] [61] [72] Tuy nhiên, chỉ có Sadeghi và cộng sự thực sự tạo ra một hệ thống phát hiện chạy trong thời gian thực (30 khung hình / giây hoặc tốt hơn) [75]. Chúng tôi so sánh YOLO với việc triển khai GPU DPM của họ chạy ở 30Hz hoặc 100Hz. Mặc dù các nỗ lực khác không đạt được mốc thời gian thực, chúng tôi cũng so sánh mAP tương đối và tốc độ của chúng để kiểm tra sự cân bằng hiệu suất độ chính xác có sẵn trong các hệ thống phát hiện đối tượng.
Fast YOLO là phương pháp phát hiện đối tượng nhanh nhất trên PASCAL; Theo như chúng tôi biết, nó là máy dò vật thể hiện còn tồn tại nhanh nhất. Với 52,7% mAP, nó chính xác hơn gấp đôi so với công việc phát hiện thời gian thực trước đây. YOLO đẩy mAP lên 63,4% trong khi vẫn duy trì hiệu suất thời gian thực.
Chúng tôi cũng đào tạo YOLO bằng VGG-16. Mô hình này chính xác hơn nhưng cũng chậm hơn đáng kể so với YOLO. Nó hữu ích để so sánh với các hệ thống phát hiện khác dựa trên VGG-16 nhưng vì nó chậm hơn so với thời gian thực nên phần còn lại của bài báo tập trung vào các mô hình nhanh hơn của chúng tôi.
Fastest DPM tăng tốc DPM một cách hiệu quả mà không phải hy sinh nhiều mAP nhưng nó vẫn bỏ sót hiệu suất thời gian thực theo hệ số 2 [82]. Nó cũng bị hạn chế bởi độ chính xác tương đối thấp của DPM khi phát hiện so với các phương pháp tiếp cận mạng nơ-ron.
Real-Time Detectors Train mAP FPS
100Hz DPM [31] 2007 16.0 100
30Hz DPM [31] 2007 26.1 30
25
YOLO 2007+2012 63.4 45
Less Than Real-Time
Fastest DPM [38] 2007 30.4 15 R-CNN Minus R [20] 2007 53.5 6 Fast R-CNN [14] 2007+2012 70.0 0.5 Faster R-CNN VGG-16[28] 2007+2012 73.2 7 Faster R-CNN ZF [28] 2007+2012 62.1 18 YOLO VGG-16 2007+2012 66.4 21
Bảng 2-1. Hệ thống thời gian thực trên PASCAL VOC 2007
So sánh hiệu suất và tốc độ của máy dò nhanh. Fast YOLO là máy dò nhanh nhất được ghi nhận để phát hiện PASCAL VOC và vẫn chính xác gấp đôi so với bất kỳ máy dò thời gian thực nào khác. YOLO chính xác hơn 10 mAP so với phiên bản nhanh trong khi vẫn cao hơn thời gian thực về tốc độ.
R-CNN trừ R thay thế Tìm kiếm có chọn lọc bằng các đề xuất hộp giới hạn tĩnh [20]. Mặc dù nhanh hơn nhiều so với R-CNN, nhưng nó vẫn thiếu thời gian thực và ảnh hưởng đáng kể đến độ chính xác do không có các đề xuất tốt.
Fast R-CNN tăng tốc giai đoạn phân loại của R-CNN nhưng nó vẫn dựa vào tìm kiếm chọn lọc có thể mất khoảng 2 giây cho mỗi hình ảnh để tạo ra các đề xuất hộp giới hạn. Do đó, nó có mAP cao nhưng ở tốc độ 0,5 khung hình / giây, nó vẫn còn xa so với thời gian thực.
Faster R-CNN gần đây thay thế tìm kiếm có chọn lọc bằng mạng nơ-ron để đề xuất các hộp giới hạn, tương tự như Szegedy et al. [52] Trong các thử nghiệm của chúng tôi, mô hình chính xác nhất của họ đạt được 7 khung hình / giây trong khi mô hình nhỏ hơn, kém chính xác hơn chạy ở tốc độ 18 khung hình / giây. Phiên bản VGG-16 của Faster R-CNN cao hơn 10 mAP nhưng cũng chậm hơn
26 YOLO 6 lần. ZeilerFergus Faster R-CNN chỉ chậm hơn YOLO 2,5 lần nhưng cũng kém chính xác hơn.