Đầu vào của thuật toán NMS là một danh sách các bounding box và độ tin cậy tương ứng, cùng với 1 giá trị threshold. Ý tưởng của thuật tốn là trong một nhóm các bounding box có IoU lớn hơn threshold được phân loại cùng 1 class, ta chỉ giữ lại bounding box có độ tin cậy cao hơn, do vậy, đầu ra của thuật toán là một danh sách các bounding box ban đầu đã được loại bỏ những bounding box trùng nhau.
(e) Thành tích
Hình 2-13: Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với một số phương pháp khác (Ảnh cắt từ bài báo).
1 https://www.analyticsvidhya.com/blog/2020/08/selecting-the-right-bounding-box-using-non-max- suppression-with-implementation/
40
Có thể thấy, dù khơng có độ chính xác cao nhất, nhưng YOLOv3 vẫn là một phương pháp có độ chính xác cao xấp xỉ phương pháp có độ chính xác cao nhất với tốc độ hơn hẳn những phương pháp khác.
2.2.1.3. YOLOF (a) Tổng quan (a) Tổng quan
Bắt nguồn từ mong muốn tìm hiểu thêm về cách mà Feature Pyramid Network[10] (FPN) ảnh hưởng lên các phương pháp one-stage detector, sau đó là mong muốn tìm hiểu những phương pháp khác có độ chính xác tương đương nhưng độ phức tạp thấp hơn, tác giả Qiang Chen và các cộng sự đã cho ra đời YOLOF qua bài báo You Only Look One-level Feature[2] vào năm 2021.
(b) FPN
Một trong những thách thức của bài toán phát hiện đối tượng là nếu bức ảnh được rút trích đặc trưng xuống cịn q nhỏ, model sẽ không phát hiện được các đối tượng nhỏ, còn nếu bức ảnh còn đủ lớn để phát hiện các đối tượng nhỏ thì sẽ chỉ chứa những đặc trưng thô, không đủ để phát hiện các đối tượng lớn. Đó là lý do ra đời của Feature Pyramid Network (FPN), một bộ lọc đặc trưng có thể cung cấp các đặc trưng ở nhiều tỉ lệ ảnh khác nhau.
FPN bao gồm 1 luồng từ dưới lên (bottom-up) và 1 luồng từ trên xuống (top- down) (Hình 2-14: Ảnh minh họa kiến trúc của FPN.). Trong đó, luồng bottom-up là luồng rút trích đặc trưng của các phương pháp thông thường như Faster R-CNN, càng lên cao, độ phân giải của ảnh càng giảm và thông tin ngữ cảnh càng nhiều. Luồng top-down được sử dụng để khơi phục lại các lớp có độ phân giải cao từ các lớp có nhiều thơng tin ngữ nghĩa. Luồng này sử dụng các skip connection để tránh mất mát thơng tin đối tượng trong q trình khơi phục.
41