Ảnh minh họa kiến trúc mạng YOLOv3

Một phần của tài liệu Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp) (Trang 37 - 39)

YOLOv3 nhận ảnh đầu vào có kích thước 416 × 416 sử dụng backbone

Darknet-53 (bỏ đi 3 lớp cuối) để rút trích đặc trưng vật thể, sau đó ảnh được đưa qua 53 lớp convolution của YOLOv3 (bao gồm một số lớp upsampling để tăng kích thước ảnh) để dự đốn được các đối tượng có kích thước nhỏ dần. Cụ thể, YOLOv3 dự đoán các đối tượng ở 3 kích thước ảnh như sau:

− Kích thước 13 × 13 ở lớp chập thứ 82 (tính cả các lớp chập backbone) để dự đoán các đối tượng có kích thước lớn, tại lớp chập này, ảnh được chia thành 13 × 13 ơ lưới với mỗi ơ lưới dự đoán 3 bounding box, tổng

38

số bounding box được dự đoán ở lớp này là 13 × 13 × 3 = 507

bounding box.

− Kích thuớc 26 × 26 ở lớp chập thứ 94 để dự đốn các đối tượng có kích thước trung bình, tại lớp chập này, ảnh được chia thành 26 × 26 ơ lưới với mỗi ơ lưới dự đốn 3 bounding box, tổng số bounding box được dự đoán ở lớp này là 26 × 26 × 3 = 2,028 bounding box.

− Kích thuớc 52 × 52 ở lớp chập thứ 106 để dự đốn các đối tượng có kích thước nhỏ, tại lớp chập này, ảnh được chia thành 52 × 52 ơ lưới với mỗi ơ lưới dự đoán 3 bounding box, tổng số bounding box được dự đốn ở lớp này là 52 × 52 × 3 = 8,112 bounding box.

Như vậy, qua 3 lần dự đoán, YOLOv3 dự đoán được tổng cộng 507 + 2,028 + 8,112 = 10,647 bounding box, gấp hơn 10 lần so với YOLOv2. Số lượng

bounding box này giúp YOLOv3 vẫn xử lý tốt với những ảnh có nhiều đối tượng.

(d) Non-Max Suppression (NMS)

Trong q trình dự đốn của các phương pháp họ YOLO, nếu có một đối tượng nằm trên nhiều ơ lưới thì đối tượng này sẽ bị phát hiện nhiều lần và có nhiều bounding box nằm chồng lên nhau, để giải quyết vấn đề này, nhóm tác giả sử dụng thuật tốn NMS.

39

Một phần của tài liệu Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp) (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(104 trang)