Kiến trúc các YOLO:

YOLO v1:

Yolo v1 sử dụng khung Darknet được huấn luyện trên tập dữ liệu ImageNet- 1000. Hạn chế yolo v1 là nó không thể tìm thấy các vật thể nhỏ nếu chúng xuất hiện dưới dạng cụm. Kiến trúc này gặp khó khăn trong việc khái quát hóa các đối tượng nếu hình ảnh có kích thước khác với hình ảnh được huấn luyện.

YOLO v2:

Phiên bản thứ hai của YOLO được đặt tên là YOLO9000 đã được Joseph Redmon và Ali Farhadi xuất bản vào cuối năm 2016. Những cải tiến lớn của phiên bản này là tốt hơn, nhanh hơn và tiên tiến hơn để đáp ứng Faster R-CNN cũng là một đối tượng thuật toán phát hiện sử dụng Region Proposal Network (RPN) để xác định các đối tượng từ hình ảnh đầu vào và SSD (Single Shot Multibox Detector).

YOLO v2 sử dụng kiến trúc Darknet 19 với 19 lớp chập và 5 lớp gộp tối đa và một lớp softmax cho các đối tượng phân loại. Kiến trúc của Darknet 19 đã được hiển thị bên dưới (hình 1.9). Darknet là một khung mạng thần kinh được viết bằng ngôn ngữ C và CUDA. Nó thực sự nhanh trong việc phát hiện đối tượng, điều rất quan trọng để dự đoán trong thời gian thực.

Hình 1.11 Kiến trúc Darknet 19 [Nguồn internet]

YOLO v2 là tốt hơn, nhanh hơn và mạnh hơn. Với việc huấn luyện đa quy mô, mạng có thể phát hiện và phân loại các đối tượng với các cấu hình và kích thước khác nhau. YOLO v2 có một sự cải tiến lớn trong việc phát hiện các vật thể nhỏ hơn với độ chính xác cao hơn nhiều so với phiên bản tiền nhiệm.

YOLO v3:

YOLOv3 có tất cả những gì chúng ta cần để phát hiện đối tượng trong thời gian thực với việc phân loại các đối tượng.

Dự đoán hộp giới hạn : Trong YOLO v3 đưa ra điểm của các đối tượng cho mỗi hộp giới hạn. Nó sử dụng hồi quy logistic để dự đoán điểm khách quan.

Dự đoán lớp: Trong YOLO v3, nó sử dụng các trình phân loại logistic cho mọi lớp thay vì dùng lớp softmax đã được sử dụng trong YOLO v2. Bằng cách làm như vậy trong YOLO v3, chúng ta có thể có phân loại đa nhãn. Với trình phân loại độc lập đưa ra xác suất cho từng lớp đối tượng.

Featureb Pyramid Netword (FPN): YOLO v3 đưa ra các dự đoán tương tự như FPN trong đó 3 dự đoán được thực hiện cho mọi vị trí hình ảnh đầu vào và các tính năng được trích xuất từ mỗi dự đoán. Bằng cách đó, YOLO v3 có khả năng tốt hơn ở các quy mô khác nhau.

Darknet-53: Tiền thân YOLO v2 đã sử dụng Darknet-19 làm trình trích xuất tính năng và YOLO v3 sử dụng mạng Darknet-53 cho trình trích xuất tính năng có 53 lớp chập. Nó sâu hơn nhiều so với YOLO v2. Darknet-53 chủ yếu sử dụng các bộ lọc 3x3 và 1x1.

Hình 1.12 Cấu trúc của Darknet-53 [Nguồn internet].

YOLOv3 có DARKNET-53, với ngay cả các đối tượng nhỏ từ hình ảnh. khác nhau trong một hình ảnh và có thể

53lớp này mô hình mạnh hơn để xác định YOLOv3 có thể xác định hơn 80 đối tượng làm giảm đáng kể tỷ lệ lỗi.

MẠNG RNN (Recurrent Neural Network)

MẠNG LSTM (Mạng Long Short Term Memory)