Cấu trúc mạng YOLOv3

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG DỤNG MẠNG HỌC SÂU YOLOv4 (Trang 31 - 32)

Như đã giới thiệu ở phần trước như phiên bản thứ nhất thì phiên bản thứ ba này cũng mang tên YOLO để ám chỉ cách thức hoạt động của mạng học sâu nhận dạng vật thể một bước này, chỉ nhìn một lần vào các vùng để dự đoán đối tượng. Mạng YOLO từ các phiên bản trước như YOLOv1, YOLO9000 cho đến phiên bản YOLOv3 hiện tại đều cấu tạo từ các lớp tích chập, nên có thể nói rằng YOLOv3 là một mạng tích chập đầy đủ (Full Convolutional Network).

Tốc độ xử lý cũng như độ chính xác trung bình của mạng YOLO được thể hiện trong hình bên dưới cho thấy nó có khả năng xử lý nhanh vượt bậc so với RetinaNet, và mặc dù có đánh đổi thời gian xử lý để tang độ chính xác trung bình thì YOLOv3 vẫn đạt được độ chính xác 33 mAP với thời gian xử lý 50ms đáp ứng thời gian thực.

HÌNH 2.1. Biếu đồ so sánh thời gian xử lý và độ chính xác trung bình của các mạng nhận dạng.

Đặc điểm ở phiên bản YOLOv3 này là không sử dụng lớp max pooling tổng hợp nào, mà chỉ sử dụng tích chập với stride = 2 để co (downsample) đặc tính trừu tượng của ảnh lại, nhờ vậy mà tránh được vấn đề mất mát đặc tính trừu tượng cấp thấp ở lớp pooling theo giá trị cực đại – max pooling. Để giảm kích thước ảnh của lớp trước đó xuống một nửa, theo tài liệu [16] tác giả có đề cập đến vậy

SVTH: Nguyễn Nhật Anh Lớp: KTDT & THCN K56

sử dụng lớp tích chập với bước trượt. Ví dụ, nếu bước trượt của mạng là 32, kết quả của ảnh đầu vào 416x416 sẽ cho ra kết quả ảnh mới có kích thước là 13x13. Như vậy, stride của bất kỳ lớp nào trong mạng đều bằng với hệ số mà đầu ra của lớp đó nhỏ hơn hình ảnh đầu vào của mạng n lần bước trượt.

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG DỤNG MẠNG HỌC SÂU YOLOv4 (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(92 trang)