Các phiên bản của YOLO

5. Cấu trúc luận văn

3.2.2. Các phiên bản của YOLO

Mô hình YOLO được mô tả lần đầu tiên bởi Joseph Redmon và các cộng sự. Được

công bố trong bài viết năm 2015. YOLO có 3 phiên bản là YOLOv1, YOLOv2, YOLOv3.

* YOLO v1:Sử dụng Framework Darknet được train trên tập ImageNet-1000. Nó

không thể tìm thấy các object nhỏ nếu chúng xuất hiện dưới dạng một cụm. Phiên bản này gặp khó khăn trong việc phát hiện các đối tượng nếu hình ảnh có kích thước khác với hình ảnh được train.

* YOLOv2: Đặt tên là YOLO9000 đãđược Joseph Redmon và Ali Farhadi công bố vào cuối năm 2016. Cải tiến chính của phiên bản này tốt hơn, nhanh hơn, tiên tiến

hơn để bắt kịp faster R-CNN (phương pháp sử dụng Region Proposal Network), xử lý được những vấn đề gặp phải của YOLOv1.Sự thay đổi của YOLOv2 so với YOLOv1:

- Batch Normalization: Giảm sự thay đổi giá trị unit trong hidden layer, do đó sẽ cải thiện được tính ổn định của Neural Network.

- Higher Resolution Classifier: Kích thước đầu vào trong YOLOv2 được tăng từ

224224 lên 448448.

- Anchor boxes: Dự đoán khung giới hạn và được thiết kế cho tập dữ liệu đã cho

sử dụng clustering.

- Fine-Grained Features: YOLOv2 chia ảnh thành 1313 grid cells, do đócó thể phát hiện được những object nhỏ hơn, đồng thời cũng hiệu quả với các object lớn.

- Multi-Scale Training:YOLOv1 có điểm yếulà phát hiện các đối tượng với các kích cỡ đầu vào khác nhau. Điều này được giải quyết bằng YOLO v2, nó được train với

kích thước ảnh ngẫu nhiên trong khoảng 320320 đến 608608.

- Darknet 19: YOLOv2 sử dụng Darknet 19 với 19 convolutional layers, 5 max pooling layers và 1 softmax layer.

* YOLO v3: Công bố vào tháng 4 năm 2018 với việc phát hiện, phân loại chính

xác đối tượng, và được xử lý thời gian thực.Những cải tiến chính của YOLOv3 so với hai phiên bản trước gồm:

- Bounding Box Predictions: Cung cấp score mỗi khung giới hạnsử dụng logistic

regression.

- Class Predictions: Sử dụng logistic classifiers cho mọi class thay vì softmax.

- Feature Pyramid Networks (FPN): Giới thiệu residual block và FPN.

- Darknet-53:YOLOv3 sử dụng Darknet 53 với 53 convolutional layers.

Một số kĩ thuật phát hiện biên

Các ứng dụng phổ biến của học sâu