Quá trình huấn luyện của YOLO

Các lớp tích chập được thực hiện trên bộ dữ liệu 1000 lớp của ImageNet [19]. Đối với trường hợp huấn luyện lại, YOLO sử dụng 20 lớp tích chập đầu tiên như hình 2.10 theo sau là một lớp gộp trung bình và một lớp được kết nối đầy đủ.

Sau đó được chuyển đổi mô hình để thực hiện phát hiện. Ren et al. cho biết việc thêm cả các lớp tích chập và lớp kết nối thì các mạng được huấn luyện lại có thể cải thiện hơn và đạt hiệu quả cao hơn [20].

Ví dụ thêm bốn lớp tích chập và hai lớp được kết nối đầy đủ với trọng số khởi tạo ngẫu nhiên. Phát hiện thường đòi hỏi thông tin trực quan chi tiết nên giải pháp tăng độ phân giải đầu vào của mạng từ 224 × 224 lên 448 × 448 được chọn.

Hình 2.11. Mô hình phát hiện đối tượng bằng phương pháp hồi quy

Lớp cuối cùng của YOLO dự đoán cả hai xác suất lớp và tọa độ bao biên đối tượng. Chiều rộng và chiều cao của bao biên đối tượng theo chiều rộng và chiều cao của ảnh sao cho các giá trị nằm trong khoảng từ 0 đến 1. Các tham số của bao biên đối tượng gồm x và y là tọa độ của vị trí ô lưới cụ thể và những giá trị này cũng bị giới hạn giữa 0 và 1 .

YOLO sử dụng hàm kích hoạt tuyến tính cho lớp cuối cùng và tất cả các lớp khác sử dụng kích hoạt tuyến tính, (2.5)

𝜙(𝑥) = { x, nếu x>0 0.1x, ngược lại

(2.5) YOLO tối ưu hóa tổng bình phương lỗi cho kết quả ra từ mô hình.

Đối với YOLO v2, sử dụng biện pháp chuẩn hóa trên tất cả các lớp tích chập nên làm tăng độ chính xác. Việc chuẩn hóa thường xuyên giúp cập nhật lại mô hình và cũng hạn chế trường hợp quá khớp dữ liệu.

Tất cả các phương pháp phát hiện hiện đại đều sử dụng trình phân loại được huấn luyện trước trên ImageNet [19]. Như AlexNet, hầu hết các trình phân loại hoạt động trên các hình ảnh đầu vào nhỏ hơn 256 × 256 [21]. YOLO ban đầu huấn luyện mạng phân loại ở mức 224 × 224 và tăng độ phân giải lên 448 để phát hiện. Điều này có nghĩa là mạng phải đồng thời chuyển sang quá trình phát hiệu đối tượng và điều chỉnh theo độ phân giải đầu vào mang lại hiệu quả cao hơn.

YOLO dự đoán tọa độ của các bao biên đối tượng trực tiếp bằng cách sử dụng các lớp được kết nối đầy đủ dựa trên các đặc trưng của lớp tích chập. Thay vì dự đoán trước các tọa độ như Faster R-CNN dự đoán các bao biên đối tượng bằng thủ công [22]. YOLO loại bỏ các lớp kết nối đầy đủ khỏi YOLO và sử dụng các hộp neo để dự đoán các bao biên đối tượng. Đầu tiên loại bỏ một lớp tổng hợp để làm cho đầu ra của các lớp tích chập của mạng có độ phân giải cao hơn. Sau đó thu hẹp mạng để hoạt động trên 416 hình ảnh đầu vào thay vì 448x448 với mong muốn có một số vị trí lẻ trong mô hình đặc trưng và có một ô trung tâm duy nhất. Đối tượng, đặc biệt là các đối tượng lớn có xu hướng chiếm trung tâm của hình ảnh do đó tốt nhất nên có một vị trí ngay tại trung tâm để dự đoán các đối tượng này thay vì bốn vị trí gần đó. Các lớp tích chập của YOLO giảm kích thước hình ảnh xuống 32 lần bằng cách sử dụng một hình ảnh đầu vào là 416, chúng ta có được một ảnh đầu ra có kích thước 13 × 13.

Khi sử dụng hộp neo kích thước được chọn bằng tay sẽ gặp vấn đề nếu có lựa chọn tốt thì mạng sẽ huấn luyện, dự đoán và phát hiện tốt ngược lại thì kết quả rất tệ. Để khắc phục vấn đề này, YOLO cho thực hiện phân cụm K-means trên bộ huấn luyện để có thể đưa ra các bao biên đối tượng dự đoán tốt nhất với giá trị IOU độc lập với kích thước bao biên đối tượng.

Tính toán với phương pháp MaxPooling

Nguyên tắc hoạt động của YOLO