Feature Pyramid Network

Một phần của tài liệu Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh (Trang 27 - 28)

Việc phát hiện các đối tượng ở các quy mô khác nhau là một thách thức trong xử lý ảnh, đặc biệt đối với các đối tượng nhỏ. Chúng ta có thể sử dụng một hình ảnh được chia tỷ lệ khác nhau để phát hiện các đối tượng như hình (a). Tuy nhiên, việc xử lý nhiều hình ảnh với nhiều tỷ lệ độc lập sẽ tốn rất nhiều thời gian và yêu cầu bộ nhớ quá cao để được huấn luyện từ đầu đến cuối (end-to-end) cùng một lúc. Do đó, Featurized image pyramid chỉ nên dùng khi không có yêu cầu cao về tốc độ mà cần độ chính xác cao hơn. Để cải thiện tốc độ, single feature là giải pháp tiêu chuẩn ConvNet với đầu vào là ảnh đơn lẻ và được dự đoán vào cuối mạng. Một giải pháp khác là Pyramidal Feature hierachy như hình (c). Việc dự đoán đối tượng tại mỗi lớp sẽ tương tự như các mô hình SSD bằng cách sử dụng lại các tỷ lệ feature map lấy từ các lớp khác nhau đã được tính trước đó, điều này sẽ giảm chi phí tính toán nhưng sẽ kém hiệu quả trong việc phát hiện những đối tượng nhỏ hơn.

Hình 2-10: Các mô hình trích xuất đặc trưng.[10]

Feature Pyramid Network (FPN) là một công cụ trích xuất đặc trưng được thiết kế theo kết cấu của kim tự tháp với tính chính xác và tốc độ cao. Nó là sự kết hợp giữa hai pathway là bottom-up với độ phân giải thấp, mạnh về ngữ nghĩa và top-down với độ phân giải cao nhưng yếu về ngữ nghĩa. Với ngữ nghĩa phong phú ở mọi cấp độ và được xây dựng nhanh chóng từ mô hình ảnh đầu vào duy nhất mà FPN có khả

24

năng trích xuất đặc trưng tốt hơn mà vẫn giữ được tốc độ như phương pháp (b) và (c), cải thiện việc phát hiện những đối tượng nhỏ hơn.

Một phần của tài liệu Tìm hiểu phương pháp YOLOv4 cho bài toán phát hiện đối tượng trong tài liệu dạng ảnh (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(58 trang)