Ảnh minh họa kiến trúc mạng YOLOv3

Một phần của tài liệu Đồ án một phương pháp rút trích thông tin hóa đơn tiếng việt (Trang 34 - 37)

YOLOv3 nhận ảnh đầu vào có kích thước 416 × 416 sử dụng backbone

Darknet-53 (bỏ đi 3 lớp cuối) để rút trích đặc trưng vật thể, sau đó ảnh được đưa qua 53 lớp convolution của YOLOv3 (bao gồm một số lớp upsampling để tăng kích thước ảnh) nhằm dự đốn được các đối tượng có kích thước nhỏ dần. Cụ thể, YOLOv3 dự đoán các đối tượng ở 3 kích thước ảnh như sau:

24

− Kích thước 13 × 13 ở lớp chập thứ 82 (tính cả các lớp chập backbone) nhằm dự đoán các đối tượng có kích thước lớn, tại lớp chập này, ảnh được chia thành 13 × 13 ơ lưới với mỗi ô lưới dự đoán 3 bounding box, tổng số bounding box được dự đốn ở lớp này là 13 × 13 × 3 = 507 bounding box.

− Kích thuớc 26 × 26 ở lớp chập thứ 94 nhằm dự đốn các đối tượng có kích thước trung bình, tại lớp chập này, ảnh được chia thành 26 × 26 ô lưới với mỗi ô lưới dự đoán 3 bounding box, tổng số bounding box đượcc dự đốn ở lớp này là 26 × 26 × 3 = 2 028 bounding box.

− Kích thuớc 52 × 52 ở lớp chập thứ 106 nhằm dự đốn các đối tượng có kích thước nhỏ, tại lớp chập này, ảnh được chia thành 52 × 52 ô

lưới với mỗi ô lưới dự đoán 3 bounding box, tổng số bounding box đượcc dự đốn ở lớp này là 52 × 52 × 3 = 8 112 bounding box. Như vậy, qua 3 lần dự đoán, YOLOv3 dự đoán được tổng cộng 507 + 2 028 + 8 112 = 10 647 bounding box, gấp hơn 10 lần so với YOLOv2. Số lượng

bounding box này giúp YOLOv3 vẫn xử lý tốt với những ảnh có số lượng bounding box lớn.

(iv) Thành tích

Hình 2-19. Bảng minh họa kết quả của YOLOv3 (thời gian và độ chính xác) so với một số phương pháp khác.

25

Có thể thấy, dù khơng có độ chính xác cao nhất, nhưng YOLOv3 vẫn là một phương pháp có độ chính xác cao xấp xỉ phương pháp có độ chính xác cao nhất với tốc độ hơn hẳn những phương pháp khác.

2.2.1.3. YOLOF

(a) Tổng quan

Bắt nguồn từ mong muốn tìm hiểu thêm về cách mà Feature Pyramid Network (FPN) ảnh hưởng lên các phương pháp one-stage detector, sau đó là mong muốn tìm hiểu những phương pháp khác có độ chính xác tương đương nhưng độ phức tạp thấp hơn, tác giả Qiang Chen và các cộng sự đã cho ra đời YOLOF qua bài báo You Only Look One-level Feature[14] vào năm 2021.

(b) FPN

(i) Tổng quan

Một trong những thách thức của bài toán nhận diện đối tượng là các đối tượng có những kích thước hồn tồn khác nhau, có đối tượng có kích thước lớn, chiếm phần lớn khơng gian trong bức ảnh, có đối tượng có kích thước nhỏ, chỉ chiếm một phần nhỏ diện tích trong bức ảnh. Khi này, nếu bức ảnh được rút trích đặc trưng xuống còn quá nhỏ, model sẽ khơng nhận diện được các đối tượng nhỏ, cịn nếu bức ảnh còn đủ lớn để nhận diện các đối tượng nhỏ thì sẽ chỉ chứa những đặc trưng thơ, khơng đủ để nhận diện các đối tượng lớn. Đó là lý do ra đời của Feature Pyramid Network (FPN), một bộ lọc đặc trưng có thể cung cấp các đặc trưng ở nhiều tỉ lệ ảnh khác nhau.

(ii) Cách hoạt động

FPN bao gồm 1 luồng từ dưới lên (bottom-up) và 1 luồng từ trên xuống (top- down (Hình 2-20. Ảnh minh họa kiến trúc của FPN.). Trong đó, luồng bottom-up là luồng rút trích đặc trưng của các phương pháp thông thường như Faster R-CNN, càng lên cao, độ phân giải của ảnh càng giảm và thông tin ngữ cảnh càng nhiều. Luồng top-down được sử dụng nhằm mục đích khơi phục lại các lớp có độ phân giải cao từ

26

các lớp có nhiều thơng tin ngữ nghĩa. Luồng này sử dụng các skip connection để tránh mất mát thơng tin đối tượng trong q trình khơi phục.

Một phần của tài liệu Đồ án một phương pháp rút trích thông tin hóa đơn tiếng việt (Trang 34 - 37)

Tải bản đầy đủ (PDF)

(65 trang)