Phương thức hoạt động

CHƯƠNG II CƠ SỞ LÝ THUYẾT

2.3. CẤU TRÚC VÀ PHƯƠNG THỨC HOẠT ĐỘNG MẠNG YOLOv4

2.3.2. Phương thức hoạt động

Cấu trúc mạng học sâu YOLOv4 có backbone được xây dựng trên mạng CSPDarknet-53 là sự kết hợp của CSPNet với Darknet-53. Darknet-53 gồm 53 lớp tích chập và 24 lớp kết nối dư (residual) hay shortcut. Cùng với bản thân YOLOv4 có 53 lớp tích chập (giữ từ YOLOv3) nên YOLOv4 có tổng cộng 106 lớp.

Mô hình nhận diện đối tượng của YOLO chia hình ảnh thành một lưới 𝑆 × 𝑆 (S dòng, S cột) như đã trình bày ở phần Head của mạng YOLOv4, mỗi ô lưới dự đoán các bounding box B (khung giới hạn), độ tin cậy của các bounding box và xác suất lớp C tương ứng. Kết quả được mã hóa dưới dạng tensor 𝑆 × 𝑆 × (𝐵 ∗ (5 + 𝐶))[2]

Điều mà ta mong muốn là với mỗi ô của đặc tính trừu tượng sẽ dự đoán đối tượng thông qua một trong những hộp giới hạn nếu điểm giữa của vật nằm trong vùng của ô đặc tính trừu tượng đó. Để xác định được ô nào ta sẽ chia nhỏ dữ liệu hình ảnh đầu vào bằng với kích thước của bản đồ đặc trưng trừu tượng của lớp cuối cùng. Nên với mỗi ô lưới:

 Dự đoán B boundary box (khung giới hạn) và mỗi khung có một confidence score (điểm số đo độ tin cậy).

 Nó phát hiện chỉ 1 đối tượng bất kể số lượng boundary box B.  Dự đoán C xác suất có điều kiện của lớp.

Ví dụ ta có ảnh đầu vào hình sau có kích cỡ 416x416 như hình 2.15 ở phía dưới đây.

Đỗ Đình Nam – D17HTTT1 22 Sau đó, chính ô màu vàng (trong ảnh 2.16) nơi mà chứa điểm chính giữa màu cam của hộp giới hạn dán nhãn màu cam (trong hình 2.15) của đối tượng sẽ được chọn trở thành ô phụ trách việc dự đoán đối tượng. Tại mỗi ô đặc tính trừu tượng này có thể sử dụng đến ba hộp giới hạn.

Hình 2.16. Các thuộc tính của hộp giới hạn dự đoán của YOLOv4

Đặc tính trừu tượng của mạng có (B x (5 + C)) đầu vào. Trong đó B là số lượng hộp giới hạn mà mỗi ô có thể dự đoán. Mỗi hộp dự đoán có 5 + C đặc tính bao gồm tọa độ lệch so với điểm giữa, kích thước, điểm số đánh giá có phải vật hay không và C là độ tự tin của các lớp đối tượng trong mỗi hộp dự đoán.

Độ lệch của hai hộp dãn nhãn và hộp anchor ở đây chính là độ lệch giữa hai điểm chính giữa của hai hộp theo như hình 2.17 dưới đây. Hộp màu đỏ, tâm màu đỏ là của hộp dán nhãn và hộp màu vàng và tâm màu vàng là của hộp anchor tại ô cùng chứa tâm màu đỏ. Ta sẽ tính được độ sai lệch 𝜎(𝑡𝑥) và 𝜎(𝑡𝑦) của hộp anchor(anchor box) so với hộp gán nhãn đó (bounding box).

Đỗ Đình Nam – D17HTTT1 23

Hình 2.17. Vị trí của hộp dán nhãn và hộp anchor

Kết quả của hộp giới hạn dự đoán được tính theo công thức dưới đây:

𝑏𝑥 = 𝜎(𝑡𝑥) + 𝑐𝑥 (9) 𝑏𝑦 = 𝜎(𝑡𝑦) + 𝑐𝑦 (10) 𝑏𝑤 = 𝑝𝑤𝑒𝑡𝑤 (11)

𝑏ℎ = 𝑝ℎ𝑒𝑡ℎ (12)

Trong đó:

 𝑏𝑥, 𝑏𝑦, 𝑏𝑤, 𝑏ℎ lần lượt là tọa độ điểm chính giữa x, y, chiều dài và chiều cao của hộp giới hạn dự đoán.

 𝑡𝑥, 𝑡𝑦, 𝑡𝑤, 𝑡ℎ là kết quả tọa độ của hộp giới hạn đầu ra của mạng.

 𝑐𝑥, 𝑐𝑦 là tọa độ điểm chính giữa của hộp giới hạn gốc (hộp giới hạn đã được gán nhãn).

 𝑝𝑤, 𝑏ℎlà kích thước của hộp giới hạn định trước anchor box của hộp. Mạng YOLOv4 không dự đoán chính xác vị trí tọa độ điểm chính giữa của hộp giới hạn mà chỉ dự đoán độ lệch so với tọa độ của hộp gán nhãn của ô dự đoán đối tượng, và chuẩn hóa kích thước của ô từ bản đồ đặc trưng trừu tượng thành giá trị từ 0 đến 1 bằng hàm kích hoạt sigmoid. Ví dụ trong hình 2.17 ở trên, dự đoán điểm chính giữa cho ra kết quả cuối của hộp dự đoán là (0.6, 0.7) tức là trong ảnh đặc tính trừu

Đỗ Đình Nam – D17HTTT1 24 tượng 13x13 tọa độ của điểm đó sẽ là ở (7.8, 9.1). Kích thước của hộp giới hạn được dự đoán bằng 𝑒𝑡𝑜 với 𝑡𝑜 kết quả đầu ra của mạng (𝑡𝑤, 𝑡ℎ ) [5], rồi nhân với kích thước của anchor box.

Mạng phát hiện nhận dạng một bước

THEO DÕI ĐỐI TƯỢNG: OBJECT TRACKING – DEEPSORT