Chương 2 : CƠ SỞ LÝ THUYẾT
2.6. Nhiệm vụ các lớp Extra Layers
2.6.3.1. Khái niệm Cell và Archon Box
Cell chính là từng ơ trên Feature Map. Trên mỗi một Cell của các Feature Map YOLO sẽ áp dụng ba Anchor Box với kích thước khác nhau lần lượt là Box 1, Box 2, Box 3 để dự đoán vật thể. Số lượng Anchor Box sử dụng trên mỗi Cell đều được chúng tơi cài đặt trong thuật tốn.
Hình 2.24. Cấu trúc đầu ra mơ hình YOLO
Trên đây là một cấu trúc đầu ra thuật tốn YOLO trên một Cell. Hình ảnh gốc được là một Feature Map có kích thước 13x13, trên Cell này YOLO lựa chọn ba Anchor Box là Box 1, 2, 3 sao cho tâm các Anchor Box trùng cới Cell. Sau khi thực hiện dự đoán Bounding Box, YOLO sẽ được một đầu ra thuật tốn là một vectơ “ghép” thơng số của ba Bounding Box được lựa chọn như trên.[1]
Để tìm được Bounding Box cho vật thể, thuật tốn YOLO sẽ cần các Anchor Box làm cơ sở ước lượng. Những Anchor Box này sẽ được xác định trước và bao quanh vật thể một cách tương đối chính xác. Sau này thuật toán hồi quy – Regresstion Bounding Box sẽ tinh chỉnh lại Anchor Box để tạo ra Bounding Box dự đốn cho vật thể. Trong một mơ hình
41 YOLO, mỗi một vật thể trong hình ảnh huấn luyện được phân bố về một Anchor Box. Trong trường hợp có từ hai Anchor Box trở lên cùng bao quanh vật thể thì YOLO sẽ xác định Anchor Box mà có chỉ số IoU ( giữa Anchor Box và Truth Bounding Box) cao nhất.
Chẳng hạn hình 2.16 miêu tả cách xác định Anchor Box cho một vật thể. Từ Cell i xác định được ba Anchor Box viền xanh như trong hình. Cả ba Anchor Box này đều giao nhau với Bounding Box của vật thể. Tuy nhiên chỉ duy nhất một Anchor Box có đường viền dày nhất màu xanh được lựa chọn làm Anchor Box cho vật thể bởi nó có IoU cao nhất.[1]
Hình 2.25. Dự đốn Bounding Box bằng Anchor Box và Cell
Chỉ số IoU là một chỉ số để đo độ chính xác của cơng cụ phát hiện vật thể trên tập dữ liệu cụ thể. Để áp dụng được IoU đánh giá một cơng cụ phát hiện vật thể bất kì cần:
– Những Ground-truth Bounding Box (Bounding Box đúng của đối tượng, ví dụ như Bounding Box của đối tượng được khoanh vùng và đánh nhãn bằng tay sử dụng trong tập kiểm tra).
– Những Predict Bounding Box được mơ hình sinh ra.
42
Hình 2.26. Chỉ số IoU
Ở tử số là Area of Overlap (diện tính phần chồng lên nhau giữa Predicted Bounding Box và Ground-truth Bounding Box). Phần mẫu số là Area of Union (Diện tích phần hợp hay đơn giản hơn là diện tích mà hai Bounding box này đang chiếm). Chia diện tích phần chồng (giao) cho diện tích phần hợp sẽ thu được giá trị mong muốn -Intersection over Union (IoU).
Thêm vào đó, mỗi một vật thể trong hình ảnh huấn luyện được phân bố về một Cell trên Feature Map nơi mà chứa tâm (Mid Point) của vật thể. Chẳng hạn như hình chú chó trong hình 2.15 sẽ được phân về cho Cell màu đỏ vì tâm của ảnh chú chó rơi vào đúng Cell này. Từ Cell sẽ xác định các Anchor Box bao quanh hình ảnh chú chó.
Như vậy khi xác định một vật thể YOLO sẽ cần xác định hai thành phần gắn liền với nó là (Cell, Anchor Box). Khơng chỉ riêng mình Cell hoặc chỉ mình Anchor Box.