Đối với YOLOv1, chúng ta đã biết thuật toán này chia bức ảnh thành các ơ lưới với kích thước SxS với S =3,5 hoặc 7. Còn đối với YOLOv2 thì kích thước này là 13. Nhưng đối với các kích thước đó, vẫn chưa đủ để có thể tìm kiếm những đối tượng có kích thước nhỏ trong bức hình. Vậy nên YOLOv3 đã xử lý bằng cách là nhận dạng 3 lần trên một bức ảnh với kích thước khác nhau.
40 Giả sử ta có bức ảnh đầu vào có kích thước: 416×416: Tại lớp tích chập thứ 82: Bức ảnh được chia thành các ô lưới với kích thước 13×13 (bức ảnh đã được chia lưới với kích thước 32). Tại đây, các ơ lưới sẽ có trách nhiệm tìm các vật thể có kích thước lớn trong bức hình. Tại lớp tích chập thứ 94: Bức ảnh được chia thành các ơ lưới với kích thước 26 x26 (bức ảnh được chia với kích thước 16) và có trách nhiệm tìm các vật thể có kích thước trung bình. Tương tự, tại lớp tích chập 106, bức ảnh được chia thành các ô lưới với kích thước 52×52 (ảnh được chia với kích thước 8) và có trách nhiệm tìm các vật thểcó kích thước bé.
YOLO v3 sử dụng binay cross-entropy để tính tốn lỗi phân loại cho mỗi nhãn trong khi độ tin cậy của đối tượng và dựđốn lớp được dựđốn thơng qua hồi quy logistic.
3.2 Phát hiện lỗi xước
Để phát hiện lỗi xước trên bề mặt và cạnh đề xuất sử dụng thuật toán YOLOv3 với các bước thực hiện là:
Bước 1: Thu thập dữ liệu
Để tạo tập dữ liệu cho bước đào tạo, chúng tôi đã chụp ảnh với độ phân giải cao (6000x4000 pixel) với 7 hướng xung quanh rocker arm, đảm bảo bao phủ tồn bộ bề mặt ngồi rocker arm. Sau đó, mỗi hình ảnh sẽđược chia thành các hình ảnh nhỏhơn bằng cách trượt hình chữ nhật có kích thước w x h dọc theo hướng x với bước w / 2 và hướng y với bước h / 2 (Hình 4.6). Bằng cách này, chúng tơi có thể giảm sốlượng hình ảnh đã chụp được sử dụng đểđào tạo. Điều này có thể tiết kiệm rất nhiều thời gian.