Khi con người quan sát một hình ảnh thì ngay lập tức biết được các đối tượng có trong hình ảnh, vị trí của chúng. Trong thị giác máy tính thì điều này không dễ dàng, trước đây việc phát hiện đối tượng bằng cách sử dụng các trình phân loại. Để phát hiện một đối tượng các hệ thống này phân loại cho đối tượng đó và đánh giá nó ở các vị trí khác nhau và dựa vào tỉ lệ trong một hình ảnh thử nghiệm. Các hệ thống sử dụng cách tiếp cận cửa sổ trượt, nơi trình phân loại được chạy ở các vị trí cách đều nhau trên toàn bộ hình ảnh [15]. Cụ thể như R- CNN sử dụng phương pháp đề xuất khu vực để tạo ra các bao biên đối tượng
hộp được đề xuất này. Sau khi phân loại, xử lý điều chỉnh các bao biên đối tượng loại bỏ các phát hiện trùng lặp và định lại các hộp dựa trên các đối tượng khác trong cảnh [16]. Với phương pháp này phức tạp rất chậm và khó tối ưu vì mỗi thành phần phải được huấn luyện riêng lẻ.
“Bạn chỉ nhìn một lần” – YOLO – là một biến thể của CNN cho phép có thể dự đoán sự hiện diện của đối tượng và đối tượng đó ở đâu nhờ vào bài toán hồi quy từ điểm ảnh đến tọa độ và xác suất của các lớp liên quan bằng cách sử dụng mạng nơ-ron, hình 2.9. và đây là cách tiếp cận dùng để phát hiện đối tượng.
Hình 2.9. Hệ thống phát hiện đối tượng dựa vào YOLO (a) Thay đổi kích thước ảnh đầu vào thành 448×448, (b) thực thi CNN trên ảnh, (c) ngưỡng phát hiện kết quả dựa theo độ tin cậy của mô hình.
YOLO huấn luyện hình ảnh đầy đủ và trực tiếp tối ưu hóa hiệu suất phát hiện vì thế YOLO thực hiện rất nhanh. Mô hình này có một số lợi ích so với các phương pháp phát hiện đối tượng truyền thống và YOLO có thể đạt được gấp đôi độ chính xác trung bình của các hệ thống phát hiện đối tượng trong thời gian thực khác.
Khi xử lý YOLO đưa ra dự đoán về hình ảnh, nhìn tổng quát toàn bộ về một hình ảnh trong thời gian huấn luyện và kiểm tra nó ngầm mã hóa thông tin của nó theo ngữ cảnh về các lớp cũng như sự xuất hiện của đối tượng không giống như các phương pháp khác sử dụng cửa sổ trượt và các kỹ thuật dựa trên
Với Fast R-CNN, một phương pháp phát hiện đối tượng cũng rất hiệu quả [16], tuy nhiên thường phát hiện sai trong một phần nền của một hình ảnh cho các đối tượng bởi vì nó không thể nhìn thấy bối cảnh lớn hơn.