Ảnh minh họa kiến trúc mạng YOLOv3

YOLOv3 nhận ảnh đầu vào có kích thước sử dụng backbone Darknet-53 (bỏ đi 3 lớp cuối) để rút trích đặc trưng vật thể, sau đó ảnh được đưa qua 53 lớp convolution của YOLOv3 (bao gồm một số lớp upsampling để tăng kích thước ảnh) nhằm dự đoán được các đối tượng có kích thước nhỏ dần. Cụ thể, YOLOv3 dự đoán các đối tượng ở 3 kích thước ảnh như sau:

− Kích thước ở lớp chập thứ 82 (tính cả các lớp chập backbone) nhằm dự đoán các đối tượng có kích thước lớn, tại lớp chập này, ảnh được chia thành ô lưới với mỗi ơ lưới dự đốn 3 bounding box, tổng số bounding box được dự đoán ở lớp này là

bounding box.

− Kích thuớc ở lớp chập thứ 94 nhằm dự đoán các đối tượng có kích thước trung bình, tại lớp chập này, ảnh được chia thành

ơ lưới với mỗi ơ lưới dự đốn 3 bounding box, tổng số bounding box đượcc dự đoán ở lớp này là bounding box.

− Kích thuớc ở lớp chập thứ 106 nhằm dự đốn các đối tượng có kích thước nhỏ, tại lớp chập này, ảnh được chia thành ô lưới với mỗi ơ lưới dự đốn 3 bounding box, tổng số bounding box đượcc dự đoán ở lớp này là bounding box. Như vậy, qua 3 lần dự đoán, YOLOv3 dự đoán được tổng cộng

bounding box, gấp hơn 10 lần so với YOLOv2. Số lượng bounding box này giúp YOLOv3 vẫn xử lý tốt với những ảnh có số lượng bounding box lớn.

(iv) Thành tích

Hình 2-19. Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với một số phương pháp khác.

Có thể thấy, dù khơng có độ chính xác cao nhất, nhưng YOLOv3 vẫn là một phương pháp có độ chính xác cao xấp xỉ phương pháp có độ chính xác cao nhất với tốc độ hơn hẳn những phương pháp khác.

2.2.1.3. YOLOF (a) Tổng quan (a) Tổng quan

Bắt nguồn từ mong muốn tìm hiểu thêm về cách mà Feature Pyramid Network (FPN) ảnh hưởng lên các phương pháp one-stage detector, sau đó là mong muốn tìm hiểu những phương pháp khác có độ chính xác tương đương nhưng độ phức tạp thấp hơn, tác giả Qiang Chen và các cộng sự đã cho ra đời YOLOF qua bài báo You Only Look One-level Feature[14] vào năm 2021.

32 (b) FPN

(i) Tổng quan

Một trong những thách thức của bài toán nhận diện đối tượng là các đối tượng có những kích thước hồn tồn khác nhau, có đối tượng có kích thước lớn, chiếm phần lớn không gian trong bức ảnh, có đối tượng có kích thước nhỏ, chỉ chiếm một phần nhỏ diện tích trong bức ảnh. Khi này, nếu bức ảnh được rút trích đặc trưng xuống cịn q nhỏ, model sẽ khơng nhận diện được các đối tượng nhỏ, còn nếu bức ảnh còn đủ lớn để nhận diện các đối tượng nhỏ thì sẽ chỉ chứa những đặc trưng thô, không đủ để nhận diện các đối tượng lớn. Đó là lý do ra đời của Feature Pyramid Network (FPN), một bộ lọc đặc trưng có thể cung cấp các đặc trưng ở nhiều tỉ lệ ảnh khác nhau.

(ii) Cách hoạt động

FPN bao gồm 1 luồng từ dưới lên (bottom-up) và 1 luồng từ trên xuống (top- down (Hình 2-20. Ảnh minh họa kiến trúc của FPN.). Trong đó, luồng bottom-up là luồng rút trích đặc trưng của các phương pháp thơng thường như Faster R-CNN, càng lên cao, độ phân giải của ảnh càng giảm và thông tin ngữ cảnh càng nhiều. Luồng top-down được sử dụng nhằm mục đích khơi phục lại các lớp có độ phân giải cao từ các lớp có nhiều thông tin ngữ nghĩa. Luồng này sử dụng các skip connection để tránh mất mát thơng tin đối tượng trong q trình khơi phục.

Hình minh họa loss function của YOLOv1

Ảnh minh họa kiến trúc của FPN