Chương 2 CƠ SỞ LÝ THUYẾT
2.3. Mô hình YOLO
2.3.2. Nguyên tắc hoạt động của YOLO
YOLO sử dụng các đặc trưng từ toàn bộ hình ảnh để dự đoán mỗi bao biên đối tượng và cũng dự đoán tất cả các bao biên đối tượng trên tất cả các lớp cho một hình ảnh cùng một lúc.
Hình ảnh đầu vào được chia S × S ô lưới, nếu trung tâm của một đối tượng rơi vào ô lưới nào thì ô lưới đó chịu trách nhiệm phát hiện đối tượng đó.
Mỗi ô lưới dự đoán B và độ tin cậy cho các hộp đó. Độ tin cậy này phản ánh đối tượng có chứa hay không có chứa trong bao biên đối tượng đó.
Để xác định độ tin cậy này dựa theo cách tính Pr(𝑂𝑏𝑗𝑒𝑐𝑡) ∗ 𝐼𝑈𝑂𝑝𝑟𝑒𝑑𝑡𝑟𝑢𝑡ℎ. Nếu không có đối tượng nào tồn tại trong ô đó thì giá trị của độ tin cậy phải bằng 0 và ngược lại thì giá trị của độ tin cậy chính là phần giao bao biên đối tượng dự đoán với bao biên đối tượng được huấn luyện đã xác định đó là đối tượng.
Mỗi bao biên đối tượng bao gồm 5 dự đoán: x, y, w, h và độ tin cậy. Các tọa độ (x; y) đại diện cho tâm của ô tương ứng với các giới hạn của ô lưới.
hình 2.11. Chia hình ảnh thành lưới SxS và cho mỗi ô lưới dự đoán các ô có B bao biên đối tượng, độ tin cậy cho các hộp đó và xác suất lớp C. Những dự đoán này được mô tả dưới dạng S × S × (B * 5 + C).
Mỗi ô lưới cũng dự đoán C xác suất lớp có điều kiện Pr(𝐶𝑙𝑎𝑠𝑠𝑖|𝑂𝑏𝑗𝑒𝑐𝑡). Các xác suất này được điều chỉnh trên ô lưới có chứa một đối tượng và độc lập với số lượng B bao biên đối tượng.
Quá trình thực hiện việc phát hiện đối tượng ta nhân xác suất từng lớp với độ tin cậy, theo công thức (2.4)
Pr(𝐶𝑙𝑎𝑠𝑠𝑖|𝑂𝑏𝑗𝑒𝑐𝑡) ∗ Pr(𝑂𝑏𝑗𝑒𝑐𝑡) ∗ 𝐼𝑂𝑈𝑝𝑟𝑒𝑑𝑡𝑟𝑢𝑡ℎ = Pr(𝐶𝑙𝑎𝑠𝑠𝑖) ∗ 𝐼𝑂𝑈𝑝𝑟𝑒𝑑𝑡𝑟𝑢𝑡ℎ
(2.4)
Kết quả nhận được từ (2.4) là giá trị của độ tin cậy theo từng lớp cụ thể cho từng ô. Những giá trị này là xác suất của lớp đó xuất hiện trong hộp và hộp dự đoán phù hợp với đối tượng như thế nào.