5. Cấu trúc luận văn
3.2.2. Các phiên bản của YOLO
Mô hình YOLO được mô tả lần đầu tiên bởi Joseph Redmon và các cộng sự. Được
công bố trong bài viết năm 2015. YOLO có 3 phiên bản là YOLOv1, YOLOv2, YOLOv3.
* YOLO v1:Sử dụng Framework Darknet được train trên tập ImageNet-1000. Nó
không thể tìm thấy các object nhỏ nếu chúng xuất hiện dưới dạng một cụm. Phiên bản này gặp khó khăn trong việc phát hiện các đối tượng nếu hình ảnh có kích thước khác với hình ảnh được train.
* YOLOv2: Đặt tên là YOLO9000 đãđược Joseph Redmon và Ali Farhadi công bố vào cuối năm 2016. Cải tiến chính của phiên bản này tốt hơn, nhanh hơn, tiên tiến
hơn để bắt kịp faster R-CNN (phương pháp sử dụng Region Proposal Network), xử lý được những vấn đề gặp phải của YOLOv1.Sự thay đổi của YOLOv2 so với YOLOv1:
- Batch Normalization: Giảm sự thay đổi giá trị unit trong hidden layer, do đó sẽ cải thiện được tính ổn định của Neural Network.
- Higher Resolution Classifier: Kích thước đầu vào trong YOLOv2 được tăng từ
224224 lên 448448.
- Anchor boxes: Dự đoán khung giới hạn và được thiết kế cho tập dữ liệu đã cho
sử dụng clustering.
63
- Fine-Grained Features: YOLOv2 chia ảnh thành 1313 grid cells, do đócó thể phát hiện được những object nhỏ hơn, đồng thời cũng hiệu quả với các object lớn.
- Multi-Scale Training:YOLOv1 có điểm yếulà phát hiện các đối tượng với các kích cỡ đầu vào khác nhau. Điều này được giải quyết bằng YOLO v2, nó được train với
kích thước ảnh ngẫu nhiên trong khoảng 320320 đến 608608.
- Darknet 19: YOLOv2 sử dụng Darknet 19 với 19 convolutional layers, 5 max pooling layers và 1 softmax layer.
* YOLO v3: Công bố vào tháng 4 năm 2018 với việc phát hiện, phân loại chính
xác đối tượng, và được xử lý thời gian thực.Những cải tiến chính của YOLOv3 so với hai phiên bản trước gồm:
- Bounding Box Predictions: Cung cấp score mỗi khung giới hạnsử dụng logistic
regression.
- Class Predictions: Sử dụng logistic classifiers cho mọi class thay vì softmax.
- Feature Pyramid Networks (FPN): Giới thiệu residual block và FPN.
- Darknet-53:YOLOv3 sử dụng Darknet 53 với 53 convolutional layers.